WO2022244329A1 - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
WO2022244329A1
WO2022244329A1 PCT/JP2022/004384 JP2022004384W WO2022244329A1 WO 2022244329 A1 WO2022244329 A1 WO 2022244329A1 JP 2022004384 W JP2022004384 W JP 2022004384W WO 2022244329 A1 WO2022244329 A1 WO 2022244329A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
orientation
camera
image
sensor
Prior art date
Application number
PCT/JP2022/004384
Other languages
English (en)
French (fr)
Inventor
英祐 野村
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2023522220A priority Critical patent/JPWO2022244329A1/ja
Publication of WO2022244329A1 publication Critical patent/WO2022244329A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program, and in particular, an information processing device that facilitates remote operation of an operation target as intended by an operator based on sensor information from the remote operation target. , an information processing method, and a program.
  • Japanese Patent Laid-Open No. 2002-200000 discloses that an image of a camera whose orientation changes in conjunction with a change in the orientation of a head-mounted display is corrected based on the difference between the orientation information of the head-mounted display and the orientation information of the camera at the time of photographing. Displaying on a display is disclosed.
  • system delays such as communication delay occur when information is transmitted from the operator to the operation target and when information is transmitted from the operation target to the operator. occur. Due to the system delay, it may be difficult for the operator to remotely operate the operation target as intended based on sensor information such as a camera image from the operation target.
  • This technology was created in view of this situation, and makes it easier for the operator to remotely operate the operation target as intended based on sensor information from the remote operation target.
  • the information processing device or program according to the present technology presents sensor data obtained at time T by a sensor capable of changing at least one of position and orientation as change of position and orientation to the user at time T+L1. and the sensor data obtained at time T and the sensor data obtained at time T+ correcting the sensor data presented to the user at the time T+L1 based on the predicted position and orientation of the sensor at the time T+L1+L2 predicted as the position and orientation of the sensor at L1+L2;
  • An information processing device having a processing unit, or a program for causing a computer to function as such an information processing device.
  • the processing unit of an information processing device having a processing unit receives sensor data obtained at time T by a sensor capable of changing at least one of a position and an orientation as a change in position and orientation.
  • the time T+L1 presented to the user and the time T+L1+L2 at which the position and orientation of the sensor are changed according to the user's operation performed after the time T are obtained at the time T. and the predicted position and orientation of the sensor at the time T+L1+L2 predicted as the position and orientation of the sensor at the time T+L1+L2. It is an information processing method for correcting sensor data to be presented to.
  • sensor data obtained at time T by a sensor capable of changing at least one of the position and orientation as the change in position and orientation is presented to the user.
  • time T+L1+L2 at which the position and orientation of the sensor are changed according to the user's operation performed after the time T, the sensor data obtained at the time T, and , and the predicted position and orientation of the sensor at the time T+L1+L2 predicted as the position and orientation of the sensor at the time T+L1+L2, are presented to the user at the time T+L1. Correction of the sensor data is performed.
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of a remote operation system to which the present technology is applied;
  • FIG. It is a block diagram showing a configuration example of an operation target system.
  • 1 is a block diagram showing a configuration example of an operator system;
  • FIG. 4 is a flowchart illustrating overall processing (display processing) of the remote control system;
  • FIG. 10 is a diagram illustrating a situation in which the delay L1 makes it difficult for the operator to remotely operate the operation target as intended;
  • FIG. 10 is a time-series processing flow diagram showing a first form of camera image correction processing performed by the remote control system in the case of the first assumption.
  • 3 is a diagram showing the position of a target image in a camera image (predicted image) displayed in the remote control system 1;
  • FIG. 10 is a time-series processing flow diagram showing a second form of camera image correction processing performed by the remote control system in the case of the first assumption.
  • FIG. 10 is a diagram illustrating a situation in which it is difficult for an operator to remotely operate an operation target as intended due to the delay L2;
  • FIG. 11 is a time-series processing flow diagram showing camera image correction processing performed by the remote control system in the case of the second assumption.
  • FIG. 4 is a time-series processing flow diagram showing a first form of camera image correction processing performed by the remote control system 1 when both delay L1 and delay L2 occur (cases of first and second assumptions).
  • FIG. 10 is a time-series processing flow diagram showing a second form of camera image correction processing performed by the remote control system in the case of the first assumption.
  • FIG. 10 is a time-series processing flow diagram showing a second form of camera image correction processing performed by the remote control system when both delay L1 and delay L2 occur (cases of first and second assumptions).
  • FIG. 10 is a diagram showing a display example of a predicted position of an object to be photographed when the object to be photographed moves.
  • FIG. 10 is a diagram showing a case where parameters at the time of drawing a target image are changed according to the likelihood of the predicted position of the object to be photographed; It is a figure explaining the display pattern of the camera image displayed on a display.
  • FIG. 2 is a block diagram showing a configuration example of hardware of a computer that executes a series of processes by a program;
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of a remote control system to which the present technology is applied.
  • the remote control system 1 of this embodiment in FIG. 1 has an operation target system 11 and an operator system 12 .
  • the operation target system 11 and the operator system 12 are connected (communication connection) by communication so that information can be transmitted between them.
  • the operation target system 11 includes an operated device that operates according to an operation command (operator's operation) from the operator system 12 .
  • the operator system 12 includes an operating device that allows an operator (user) to operate the operation of the operated device.
  • the remote control system 1 includes the following forms.
  • a camera is mounted (including support) on an operated device (moving device) whose position and orientation (referred to as position and orientation) are remotely controlled.
  • the operated device is, for example, a camera-equippable device such as a car, a drone, a robot, a satellite, a train, or a platform.
  • the operator remotely controls the position and orientation of the operated device using the operating device while viewing a camera image (captured image) captured by the camera of the operated device on the display.
  • the operation target system 11 includes an operated device and a camera.
  • the operator system includes an operator and a display.
  • the present technology can be applied to the remote control system 1 when the target mounted on the operated device of the operation target system 11 is a sensor other than a camera.
  • the target mounted on the operated device of the operation target system 11 is not limited to a camera, the position and orientation of the sensor change according to the position and orientation of the operated device, and the sensing direction and the like of the sensor change.
  • the operation target system 11 transmits sensor information (sensor data) acquired by the sensor to the operator system 12 .
  • the operator system 12 presents the sensor information from the operation target system 11 on the display so that the operator can recognize it.
  • the present technology can also be applied to the remote control system 1 in which the operated device of the operation-targeted system 11 that is operated according to an operation command from the operator system 12 is other than a sensor-equipped device.
  • This technology can be applied to any remote control technology, such as remote meetings using remote control avatars, telemedicine using remote control robots, and remote control of cameras placed in outer space such as the ISS (International Space Station) and satellites. .
  • a system means a set of multiple components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules in one housing, are both systems. .
  • an operation target is an object related to the position and orientation of a device to be operated on which a camera (imaging unit 41) is mounted, such as a pan angle and a tilt angle. Also called
  • FIG. 2 is a block diagram showing a configuration example of the operation target system 11 of FIG.
  • the operation-targeted system 11 is a system that includes a camera and an operated device that mounts (supports) the camera.
  • the operation target system 11 may be a system in which a planet such as the earth is taken as an object to be photographed by a gimbal camera (camera mounted on a camera platform) mounted on a satellite.
  • the operation target system 11 has an imaging unit (camera) 41, a sensor unit 42, a recording unit 43, a control unit 44, a communication unit 45, and an image processing calculation unit 46.
  • an imaging unit (camera) 41 a sensor unit 42, a recording unit 43, a control unit 44, a communication unit 45, and an image processing calculation unit 46.
  • the imaging unit 41 is a camera, and is fixed to the operated device, for example.
  • An image (camera image) captured by the imaging unit 41 is supplied to the image processing calculation unit 46 .
  • the sensor unit 42 includes a sensor or the like that measures the position and orientation of the operated device (imaging unit 41). Sensor data acquired by the sensor unit 42 is supplied to the image processing calculation unit 46 .
  • the recording unit 43 stores data referred to by the image processing calculation unit 46, data generated by the image processing calculation unit 46, camera images acquired by the imaging unit 41, and the like.
  • the control unit 44 controls an actuator that changes the position and orientation of the operated device (imaging unit 41).
  • the control unit 44 controls those actuators according to control signals supplied from the image processing calculation unit 46 .
  • the communication unit 45 controls communication with the operator system 12.
  • the communication unit 45 may perform communication conforming to any communication standard such as LAN (Local Area Network), Bluetooth (registered trademark), or WUSB (Wireless USB) by wire or wireless.
  • the communication unit 45 may communicate with the operator system 12 via a communication line such as the Internet, home LAN, infrared communication, radio wave communication, or satellite communication.
  • the image processing calculation unit 46 performs processing for calculating the position and orientation of the operated device (image capturing unit 41) based on the sensor data supplied from the sensor unit 42 and the image (camera image) supplied from the image capturing unit 41, A process of predicting the position and orientation of the operated device (imaging unit 41) in the future is performed.
  • the image processing calculation unit 46 transmits data such as the camera image supplied from the imaging unit 41 and the predicted position and orientation (predicted position and orientation) of the operated device (imaging unit 41) via the communication unit 45 and the communication line. It feeds the operator system 12 . Details of the processing performed by the image processing calculation unit 46 will be described later.
  • FIG. 3 is a block diagram showing a configuration example of the operator system 12 of FIG.
  • the operator system 12 includes a display that displays a camera image captured by the imaging unit 41 (camera) of the operation target system 11 and an operation device (input device) for remotely operating the operation target system 11 . interface).
  • the operation device is assumed to be a group of input interfaces suitable for operation of an operation target, such as a controller device such as a game pad, a steering wheel type controller device of a car, a touch panel mounted on a mobile device, or a keyboard of a personal computer.
  • the operator system 12 has an operation unit 81 , a recording unit 82 , a display unit 83 , a communication unit 84 , and an image processing calculation unit 85 .
  • the operation unit 81 detects the operator's operation with a sensor. Operation data indicating the operator's operation detected by the operation unit 81 is supplied to the image processing calculation unit 85 .
  • the recording unit 43 stores data referred to by the image processing calculation unit 85, data generated by the image processing calculation unit 85, and the like.
  • the display unit 83 is a display that presents camera images to the operator.
  • the display unit 83 displays the camera image supplied from the image processing calculation unit 85 .
  • the communication unit 84 controls communication with the operation target system 11 .
  • the communication unit 84 may perform communication conforming to any communication standard such as LAN (Local Area Network), Bluetooth (registered trademark), or WUSB (Wireless USB) by wire or wireless.
  • the communication unit 84 may communicate with the operation target system 11 via a communication line such as the Internet, home LAN, infrared communication, radio wave communication, or satellite communication.
  • the image processing calculation unit 85 performs correction processing of the camera image to be displayed on the display unit 83 based on data such as the camera image and the predicted position and orientation supplied from the operation target system 11 via the communication unit 84 .
  • the image processing calculation unit 85 supplies the corrected camera image to the display unit 83 and causes the display unit 83 to display it.
  • the image processing calculation unit 85 detects the operation of the operator based on the operation data supplied from the operation unit 81, and transmits data such as an operation command based on the operation of the operator to the operation target via the communication unit 84 and the communication line. feed system 11; Details of the processing performed by the image processing calculation unit 85 will be described later.
  • FIG. 4 is a flowchart illustrating overall processing (display processing) of the remote control system 1. As shown in FIG. 4
  • step S11 the operation-targeted system 11 or the operator system 12 estimates a delay L1 during data communication from the operation-targeted system 11 to the operator system 12.
  • Delay L1 represents the delay time and type of delay.
  • step S12 the operation-targeted system 11 or the operator system 12 estimates a delay L2 during data communication from the operator system 12 to the operation-targeted system 11.
  • Delay L2 represents the delay time and type of delay.
  • step S13 the operation target system 11 or the operator system 12 sets the time T at which the camera (imaging unit 41) of the operator system 12 captures the camera image of each frame, and the operation target at time T+L1+L2.
  • the camera image of each frame is corrected based on the predicted position and orientation.
  • the operator system 12 performs UI (User Interface) display (presentation to the operator) of the corrected camera image on the display (display unit 83).
  • UI User Interface
  • step S14 the operation-targeted system 11 or the operator system 12 selects the time T at which the camera (imaging unit 41) of the operator system 12 captures the camera image of each frame.
  • the camera image of each frame is corrected based on the predicted position in the camera image.
  • the operator system 12 performs UI display (presentation to the operator) of the corrected camera image on the display (display unit 83).
  • the remote control system 1 performs the processes of steps S11 and S13 in FIG. 4 as processes corresponding to the delay L1.
  • Typical factors that cause delay L1 include shooting delay, image processing delay, communication delay, and display delay.
  • the imaging delay represents the imaging time required from the start of imaging of the camera image by the camera (imaging unit 41) of the operation target system to the storage (recording) of the data of the camera image, and the delay resulting therefrom.
  • the image processing delay represents the time for the operation-targeted system 11 to perform image processing on the camera image and the delay resulting therefrom.
  • the communication delay represents the communication time required for data communication from the operation target system 11 to the operator system 12 and the delay resulting therefrom.
  • the display delay represents the display time required for the operator system 12 to display the camera image or the like after receiving it on the display (the display unit 83) and the delay caused thereby.
  • FIG. 5 is a diagram illustrating a situation in which it is difficult for the operator to remotely operate the operation target as intended due to the delay L1, assuming that this technology is not applied to the remote operation system 1.
  • FIG. 5 is a diagram illustrating a situation in which it is difficult for the operator to remotely operate the operation target as intended due to the delay L1, assuming that this technology is not applied to the remote operation system 1.
  • time T1 represents the time when the camera image of the predetermined frame was captured by the camera of the operation-targeted system 11 .
  • Time T1+L1 represents the time at which the camera image captured at time T1 is displayed on the display of operator system 12 with delay L1.
  • the diagram on the first line shows the positional relationship between the operation target (camera) and the shooting target M at time T1 and time T1+L1.
  • the photographing object M exists in the right direction with respect to the photographing center (optical axis direction) of the camera.
  • the position and orientation of the camera change from time T1 to time T1+L1, and at time T1+L1, the object to be photographed M exists almost at the center of the camera.
  • the diagram on the second line represents the position of the image (target image) MA of the photographing object M in the camera image SA photographed by the camera at time T1. According to this, at time T1, the target image MA appears in a position to the right of the center of the camera image SA.
  • the diagram on the third line represents the position of the target image MA in the camera image SA displayed on the display at time T1+L1.
  • the camera image SA captured at time T1 is displayed as it is on the display due to the delay L1. That is, in the camera image SA displayed on the display, the target image MA appears at a position to the right of the center of the camera image SA. Therefore, the position of the photographic object M grasped by the operator from the camera image SA displayed on the display at time T1+L1 is the position of the photographic object M with respect to the camera at time T1+L1 in the diagram on the first line. different from
  • the operator pans the camera in the right direction indicated by arrow 121 so that the target image MA captured in the camera image SA at the past time T1 appears in the center of the camera image SA.
  • the object M to be photographed relatively moves to the left with respect to the photographing center of the camera.
  • the target image MA appearing in the camera image SA may move to the left with respect to the center of the camera image SA, and the target image MA may deviate from the camera image SA.
  • the operation-targeted system 11 or the operator system 12 estimates the delay L1 (delay time L1) in step S11 of FIG. After estimating the delay time L1, the operation-targeted system 11 or the operator system 12 predicts the position and orientation of the camera at time T+L1 with respect to the position and orientation of the camera at time T in step S13 of FIG. The operation-targeted system 11 or the operator system 12 adjusts the camera at time T so that the camera image displayed on the display at time T+L1 becomes the camera image captured by the camera at the predicted position and orientation at time T+L1. Corrects camera images taken by .
  • a camera image displayed on the display at a certain time is called a display image at that time
  • a camera image actually taken by the camera at a certain time is called a camera image at that time
  • a predicted predetermined time is called a camera image at that time.
  • a camera image captured by the camera in the position and orientation of is called a predicted image.
  • FIG. 6 is a time-series processing flow diagram showing a first form of camera image correction processing performed by the remote control system 1 in the case of the first assumption.
  • FIG. 6 the horizontal axis represents time.
  • a in FIG. 6 represents processing in the operation target system 11
  • B in FIG. 6 represents processing in the operator system 12 .
  • processing P1 represents a series of processing from when the operation-targeted system 11 starts photographing a predetermined frame with the camera to transmitting the camera image of the photographed frame to the operator system 12 .
  • photographing, image processing, position/orientation prediction, and data transmission are performed in chronological order from time T1.
  • the shooting in process P1 is a process in which the imaging unit 41 (camera) in the operation target system 11 in FIG. 2 captures a subject image within a shooting range to obtain a camera image.
  • Image processing is processing performed by the image processing calculation unit 46 in FIG. 2, and includes, for example, self-position/orientation estimation, object detection of a shooting target, and tracking of the shooting target.
  • Self-position/orientation estimation is the process of estimating the current (time T1) position/orientation of the camera (operated device).
  • the image processing calculation unit 46 estimates the current position and orientation of the camera as the self position and orientation using, for example, SLAM (Simultaneous Localization and Mapping) technology.
  • SLAM Simultaneous Localization and Mapping
  • the position/orientation estimation/environment recognition unit 61 of the image processing calculation unit 46 executes SLAM processing based on the sensor data from the sensor unit 42 to determine the self-position/orientation (camera position Posture) is estimated, and an environment map is created.
  • Sensors of the sensor unit 42 used for SLAM include, for example, a monocular camera (wide-angle camera, fisheye camera, omnidirectional camera), a compound eye camera (stereo camera, multi-camera), or an RGB-D camera (depth camera, ToF camera) is mounted on the operated device.
  • the camera of the sensor unit 42 may be the camera shown as the imaging unit 41 .
  • a sensor for measuring physical quantities such as an IMU (Inertial Measurement Unit) may be mounted on the operated device as the sensor of the sensor unit 42 to estimate the position and orientation of the camera.
  • the position and orientation of the camera (imaging unit 41) may be estimated by fusion with a sensor that measures . Processing other than self-position/orientation estimation in the image processing of processing P1 in FIG. 6 will be described later.
  • the position/orientation prediction in the process P1 is a process performed by the image processing calculation unit 46 in FIG. 2, and is a process for predicting the future camera position/orientation.
  • the position/orientation prediction unit 62 of the image processing calculation unit 46 calculates the position/orientation, velocity, and acceleration of the camera, which are the results of self-position/orientation estimation by the position/orientation estimation/environment recognition unit 61 . Based on, the position and orientation of the camera after time T1 are predicted. For example, the position/orientation prediction unit 62 formulates the equation of motion of the camera (operated device), and initializes the position/orientation, velocity, and acceleration of the camera (operated device) obtained by self-position and orientation estimation (SLAM).
  • SLAM self-position and orientation estimation
  • the positions and orientations of the camera (operated device) at predetermined time intervals from time T1 to time T1+Tx are predicted.
  • the time Tx is the maximum value of the delay time L1 that can occur according to system specifications.
  • the predicted position and orientation of the camera (operated device) is called a predicted position and orientation.
  • process P2 represents a series of processes from when the operator system 12 starts receiving data such as a camera image from the operation target system 11 to displaying the camera image on the display (display unit 83). .
  • data reception, delay L1 estimation, position/orientation prediction, and display are performed in chronological order.
  • the time when the display ends is time T1+L1.
  • Data reception in process P2 is performed by the image processing calculation unit 85 in the operator system 12 in FIG. This is a process of receiving through the unit 84 .
  • the delay L1 estimation in the process P2 is a process performed by the image processing calculation unit 85 in FIG. 3, and is a process of estimating the delay time L1.
  • the delay time L1 is the time from the time T1 when the photographing is started in the process P1 of the operation-targeted system 11 to the time when the display in the process P2 of the operator system 12 is finished, as shown in FIG.
  • the delay time estimating unit 101 of the image processing calculation unit 85 estimates the delay time for each of the imaging delay, image processing delay, communication delay, and display delay, which are factors of the delay L1. Then, the delay time L1 is estimated by adding up the delay times for each of these delay factors. However, the factor of the delay L1 is not limited to this. Since the ratio of the delay time of each delay factor to the delay time L1 differs for each delay factor, when estimating the delay time L1, the delay time estimating unit 101 calculates the delay of factors that occupy a sufficiently small ratio of the delay time L1. It may be a case of ignoring time.
  • the delay time of delay factors that depend on system specifications and specifications, such as shooting delay, image processing delay, and display delay, can be estimated in advance from system specifications.
  • the delay time estimating unit 101 reads out and acquires a pre-estimated delay time from the recording unit 82 in FIG.
  • the delay time estimating unit 101 estimates the delay time of delay factors that are affected not only by system specifications but also by communication data capacity, communication environment, etc., such as communication delay, by measuring the delay time that actually occurred.
  • the image processing calculation unit 46 of the operation target system 11 and the image processing calculation unit 85 of the operator system 12 can refer to a common time such as NTP (Network Time Protocol) time or GPS (Global Positioning System) time. do.
  • the image processing calculation unit 46 of the operation-targeted system 11 transmits the current time to the operator system 12 as transmission time information when starting data transmission in the process P1 of FIG.
  • the delay time estimating unit 101 of the operator system 12 acquires the current time when the reception of the data transmitted from the operation-targeted system 11 in the data reception in the process P2 ends as the reception time.
  • the delay time estimation unit 101 calculates the difference between the transmission time and the reception time from the operation target system 11 as the delay time of the communication delay.
  • the delay time estimator 101 can estimate not only the communication delay but also the delay time of other delay factors based on the time information.
  • the position/orientation prediction in process P2 in FIG. This is the process of predicting the position and orientation of the camera in
  • the information on the predicted position and orientation from the operation-targeted system 11 includes information on the predicted position and orientation of the camera (operated device) at predetermined time intervals from time T1 to time T1+Tx, as described above.
  • the image processing calculation unit 85 converts the camera image at time T1 from the operation target system 11 to the predicted position and orientation of the camera at time T1+L1 obtained by the position and orientation prediction unit 102.
  • a camera image correction process for correcting the captured camera image (predicted image) and a process for displaying the predicted image on the display (display unit 83) as a camera image (display image) to be presented to the operator. .
  • FIG. 7 shows, in the remote control system 1, the positional relationship between the camera and the object to be photographed at time T1 and time T1+L1, the position of the object image in the camera image taken by the camera (imaging unit 41), the display (display unit 83) shows the position of the target image in the camera image (prediction image) displayed in FIG. 7, the same components as in FIG. 5 are denoted by the same reference numerals as in FIG. 5, and description thereof will be omitted as appropriate.
  • time T1 represents the time when the camera image of the predetermined frame was captured by the camera of the operation target system 11.
  • Time T1+L1 represents the time at which the camera image captured at time T1 is displayed on the display of operator system 12 with delay L1.
  • the diagram on the third line represents the position of the target image MA in the camera image SA displayed on the display at time T1+L1.
  • the camera image SA at time T1+L1 represents a predicted image corrected by the correction processing of the camera image displayed in processing P2 of FIG.
  • the target image MA' shown in the camera image SA (predicted image) at time T1+L1 is an image obtained when the camera image captured by the camera at time T1 (camera image at time T1) is displayed as it is on the display. Represents the target image.
  • the predicted position and orientation of the camera at time T1+L1 determined by the image processing calculation unit 85 (position/posture prediction unit 102) of the operator system 12 can be used to determine the position and orientation of the first row at time T1+L1.
  • the image processing calculation unit 85 corrects the camera image at time T1 to generate a camera image (predicted image) captured by the camera in the predicted position and orientation at time T1+L1 as a display image.
  • a camera image predicted image
  • the camera image SA predicted image
  • a target image MA is displayed in the center. Therefore, it is avoided that the operator directs the camera to the right in order to direct the imaging center of the camera toward the imaging object M as indicated by the arrow 121 in the diagram at time T1+L1 on the first line of FIG. be done.
  • the image processing calculation unit 85 corrects the camera image at time T1 according to the predicted position and orientation of the camera at time T1+L1 (processing for generating a predicted image (display image) at time T1+L1). ) is not limited to any particular process.
  • the camera image correction processing may be the following first to fourth processing, or may be other processing.
  • the first processing is processing for shifting the display position on the screen of the camera image at time T1, which is displayed on the display at time T1+L1, according to the predicted position and orientation of the camera at time T1+L1. good.
  • the image range to be displayed on the display is reduced with respect to the image range of the entire camera image captured by the camera, and the display is performed at time T1+L1 according to the predicted position and orientation of the camera at time T1+L1. It may be a process of shifting the image range to be displayed.
  • the sensor unit 42 monocular camera (wide-angle camera, fish-eye camera, omnidirectional camera), compound-eye camera (stereo camera, multi-camera), or RGB-D camera (depth camera or ToF camera)
  • the surrounding environment is captured from the predicted position and orientation of the camera at time T1+L1. It may be a process of generating an image.
  • the fourth process may be the following process.
  • the image processing in the processing P1 of FIG. 6 performed by the image processing calculation unit 85 of the operation target system 11 of FIG. the image range of the photographing object M (the image range of the target image MA) in the camera image at time T1 is extracted.
  • Information on the image range of the target image MA is transmitted from the operation target system 11 to the operator system 12 together with the camera image at time T1, so that the image processing calculation unit 85 of the operator system 12 determines the target image in the camera image at time T1. It is possible to obtain the image range of the image MA and extract the target image MA from the camera image at time T1.
  • the image processing calculation unit 85 calculates the predicted position of the camera at time T1+L1 for the camera image at time T1 based on the positional relationship between the predicted position and orientation of the camera at time T1+L1 and the object M to be photographed. A position (range) in which the photographing object M is captured is specified by the posture.
  • the image processing calculation unit 85 generates a predicted image by synthesizing the target image MA with the camera image at the time T1 at the specified position. Note that the target image MA originally captured in the camera image at time T1 may be deleted or left as it is. Background images other than the target image may be erased.
  • the camera image at time T displayed on the display at time T+L1 is corrected, and the predicted image at time T+L1 is corrected. is presented to the operator, it becomes easier for the operator to remotely operate the operation target (the position and orientation of the camera) as intended.
  • FIG. 8 is a time-series processing flow diagram showing a second form of camera image correction processing performed by the remote control system 1 in the case of the first assumption.
  • the second form is a case where the operator system 12 performs the position/orientation estimation performed by the operation-targeted system 11 in the process P1 in the first form of FIG.
  • FIG. 8 the horizontal axis represents time.
  • a of FIG. 8 represents processing in the operation target system 11
  • B of FIG. 8 represents processing in the operator system 12 .
  • process P1 represents a series of processes from when the operation-targeted system 11 starts photographing a predetermined frame with a camera to when the camera image of the photographed frame is transmitted to the operator system 12 .
  • photographing, image processing, and data transmission are performed in chronological order from time T1.
  • the shooting and image processing in the process P1 are the same as in the case of the first form in FIG. 6, so the description is omitted.
  • the position/orientation prediction in the process P1 is a process performed by the image processing calculation unit 46 in FIG. 2, and is a process for predicting the future camera position/orientation.
  • the position/orientation prediction unit 62 of the image processing calculation unit 46 calculates the position/orientation, velocity, and acceleration of the camera, which are the results of self-position/orientation estimation by the position/orientation estimation/environment recognition unit 61 . Based on, the position and orientation of the camera after time T1 are predicted. For example, the position/orientation prediction unit 62 formulates the equation of motion of the camera (operated device), and initializes the position/orientation, velocity, and acceleration of the camera (operated device) obtained by self-position and orientation estimation (SLAM).
  • SLAM self-position and orientation estimation
  • the positions and orientations of the camera (operated device) at predetermined time intervals from time T1 to time T1+Tx are predicted.
  • the time Tx is the maximum value of the delay time L1 that can occur according to system specifications.
  • the predicted position and orientation of the camera (operated device) is called a predicted position and orientation.
  • Data transmission in the process P1 of FIG. 8 is performed by the image processing calculation unit 46, in addition to the camera image from the camera (the imaging unit 41), the position and orientation of the camera, which is the result of self-position and orientation estimation in the image processing of the process P1.
  • This is a process of transmitting the data necessary for calculating the predicted position and orientation such as velocity and acceleration to the operator system 12 via the communication unit 45 of FIG.
  • process P2 is a series of processes from when the operator system 12 starts receiving data such as a camera image from the operation target system 11 to when the camera image is displayed on the display (display unit 83). represents In process P2, data reception, delay L1 estimation, position/orientation prediction, and display are performed in chronological order. The time when the display ends is time T1+L1.
  • Data reception in process P2 is performed by the image processing calculation unit 85 in the operator system 12 in FIG. This is a process of receiving the position and orientation of the camera, which are the results of the position and orientation estimation, and the like, through the communication unit 84 in FIG. 3 .
  • the delay L1 estimation in process P2 is the same as in the case of the first form in FIG. 6, so the description is omitted.
  • the position/orientation prediction unit 102 in the image processing calculation unit 85 in FIG. Using the velocity and acceleration as initial values, the predicted position and orientation of the camera (operated device) at time T1+L1 are calculated.
  • the display in process P2 in FIG. 6 is the same as in the case of the first form in FIG. 6, so the description is omitted.
  • the image processing in the process P1 of the operation target system 11 includes image processing such as self-position/orientation estimation, object detection of the object to be photographed, and tracking of the object to be photographed. By doing so, the image processing time of the entire system is shortened.
  • the operator system 12 may perform object detection of the photographed object and tracking of the photographed object.
  • Other processing may also be performed by either the operation-targeted system 11 or the operator system 12 .
  • the camera image at time T displayed on the display at time T+L1 is corrected, and the predicted image at time T+L1 is corrected. is presented to the operator, it becomes easier for the operator to remotely operate the operation target (the position and orientation of the camera) as intended.
  • the remote control system 1 performs the processes of steps S12 and S13 in FIG. 4 as processes corresponding to the delay L2.
  • Typical factors that cause delay L2 include communication delay, reaction delay, and control delay.
  • the communication delay represents the communication time required for data communication from the operator system 12 to the operation target system 11 (data communication such as an operation command related to the operation of the operator) and the delay resulting therefrom.
  • the reaction delay represents the reaction time until the operator sees the camera image displayed on the display of the operator system 12 and performs an operation on the operation target (the position and orientation of the camera (operated device)) and the delay caused thereby.
  • the control delay is the control time required from the operation target system 11 receiving the operation command transmitted from the operator system 12 based on the operator's operation until the operation target is controlled according to the operation command, and the delay caused by it. represents
  • FIG. 9 is a diagram explaining a situation in which it is difficult for the operator to remotely operate the operation target as intended due to the delay L2, assuming that this technology is not applied to the remote operation system 1 .
  • time T2 represents the time when the camera image of the predetermined frame was captured by the camera of the operation target system 11.
  • Time T2+L2 is the time when the operator has performed an operation based on the camera image displayed on the display at time T2, and the control of the operation target (position and orientation of the camera) has been completed according to the operation command based on that operation. show.
  • the diagram on the first line shows the positional relationship between the operation target (camera) and the shooting target M at time T2 and time T2+L2.
  • the photographing object M exists in the right direction with respect to the photographing center (optical axis direction) of the camera.
  • the position and orientation of the camera change from time T2 to time T2+L2, and at time T2+L2, the object to be photographed M exists almost at the center of the camera.
  • the change in the camera position and orientation between time T2 and time T2+L2 will be determined if the camera position and orientation is controlled according to an operation command before time T2, or if the camera position and orientation is controlled before time T2. This can occur when the position and orientation of the camera are changing due to inertia or the like.
  • the diagram on the second line represents the position of the target image MA of the photographic target M in the camera image SA captured by the camera at time T2. According to this, at time T2, the target image MA appears in a position to the right of the center of the camera image SA.
  • the diagram on the third line represents the position of the target image MA in the camera image SA displayed on the display at time T2.
  • the camera image SA captured at the time T2 is displayed as it is on the display. That is, a camera image SA is displayed on the display in which the target image MA is located to the right of the center of the camera image SA. Therefore, the position of the photographic object M grasped by the operator from the camera image SA displayed on the display at time T2 differs from the position of the photographic object M with respect to the camera at time T2+L2 in the diagram on the first line. .
  • the operation-targeted system 11 or the operator system 12 estimates the delay L2 (delay time L2) in step S12 of FIG. After estimating the delay time L2, the operation-targeted system 11 or the operator system 12 predicts the position and orientation of the camera at time T+L2 with respect to the position and orientation of the camera at time T in step S13 of FIG.
  • the operation-targeted system 11 or the operator system 12 captures the camera image at the time T so that the camera image displayed on the display at the time T becomes the camera image captured by the camera at the predicted position and orientation at the time T+L2. Corrects the captured camera image (the camera image displayed on the display at time T).
  • the camera image displayed on the display at a certain time is called the display image at that time, and the camera image actually captured by the camera at a certain time is called the camera image at that time.
  • the camera image captured by the camera at the predicted position and orientation at the predetermined time is referred to as a predicted image.
  • the correction processing of the camera image of the operation target system 11 or the operator system 12 in step S13 of FIG. This is the process of generating an image.
  • FIG. 10 is a time-series processing flow diagram showing camera image correction processing performed by the remote control system 1 in the case of the second assumption.
  • the horizontal axis represents time.
  • a in FIG. 10 represents the processing in the operation target system 11 and B in FIG. 10 represents the processing in the operator system 12 .
  • process P1 represents a series of processes from when the operator system 12 starts the process of estimating the delay L2 to when data such as an operation instruction based on the operator's operation is transmitted to the operation target system 11. .
  • delay L2 estimation, position/orientation prediction, display, operation, and data transmission are performed in chronological order.
  • the time when the display ends is time T2.
  • the delay L2 estimation in the process P1 is a process performed by the image processing calculation unit 85 in FIG. 3, and is a process of estimating the delay time L2.
  • the delay time L2 is the time from the time T2 when the display in the process P1 of the operator system 12 ends to the time when the control in the process P2 of the operation target system 11 ends, as shown in FIG.
  • the delay time estimation unit 101 of the image processing calculation unit 85 estimates the delay time for each of the above-described communication delay, reaction delay, and control delay, which are the factors of the delay L2.
  • the delay time L2 is estimated by adding up the delay times for each delay factor.
  • the factor of the delay L2 is not limited to this. Since the ratio of the delay time of each delay factor to the delay time L2 differs for each delay factor, when estimating the delay time L2, the delay time estimating unit 101 calculates the delay of the factor that accounts for a sufficiently small ratio of the delay time L2. It may be a case of ignoring time.
  • the delay time of delay factors that depend on system specifications and specifications, such as control delay, can be estimated in advance from system specifications.
  • the delay time estimating unit 101 reads out and acquires a pre-estimated delay time from the recording unit 82 in FIG.
  • the delay time estimating unit 101 estimates the delay time of delay factors that are affected not only by system specifications but also by communication data capacity, communication environment, etc., such as communication delay, by measuring the delay time that actually occurred.
  • the image processing calculation unit 46 of the operation target system 11 and the image processing calculation unit 85 of the operator system 12 can refer to a common time such as NTP (Network Time Protocol) time or GPS (Global Positioning System) time. do.
  • the image processing calculation unit 85 of the operator system 12 transmits the current time to the operation target system 11 as transmission time information when data transmission is started in the process P1 of FIG.
  • the image processing calculation unit 46 of the operation-targeted system 11 acquires the current time when the reception of the data transmitted from the operator system 12 in the data reception in the process P2 ends as the reception time.
  • the delay time of the communication delay is calculated from the difference between the data transmission time from the operator system 12 and the data reception time in the operation-targeted system 11 .
  • the operation target system 11 can calculate the delay time of the communication delay
  • the operator system 12 cannot grasp the data reception time. Therefore, for example, the image processing calculation unit 85 of the operator system 12 acquires delay time information of the communication delay from the operation target system 11 .
  • the image processing calculation unit 85 filters the moving average of the communication delays measured in the past as the communication delay time estimated in the delay L2 estimation in the process P1 based on the communication delay time obtained in the past. Calculated by applying
  • the delay time of the reaction delay is affected by the reaction time of the operator. Use the measured reaction time.
  • the delay time estimating unit 101 may use reaction times of general people obtained from past cognitive science experiments or the like.
  • Position and orientation prediction in processing P1 in FIG. 10 is performed by the image processing calculation unit 85 (position and orientation prediction unit 102) using the delay time L2 estimated in the delay L2 estimation in processing P1.
  • This is processing for predicting the position and orientation (calculating the predicted position and orientation).
  • the equation of motion of the camera is formulated in the same manner as the calculation of the predicted position and orientation of the camera at time T1+L1 in the case of the first assumption, and the self position and orientation are estimated. It can be calculated by giving the position/orientation, velocity, and acceleration obtained by (SLAM) as initial values.
  • the display in the processing P1 of FIG. 10 shows that the image processing calculation unit 85 converts the camera image at the time T2 from the operation target system 11 into the predicted position and orientation of the camera at the time T2+L2 obtained by the position and orientation prediction in the processing P1. and a process of displaying the predicted image as a display image on the display (display unit 83).
  • the display in the process P1 is the same process as the display in the process P2 of FIG. 6 in the case of the first assumption, so the explanation is omitted.
  • the operation in the process P1 of FIG. 10 is a process in which the image processing calculation unit 85 acquires the operation of the operator's operation target (position and orientation of the camera) from the operation unit 81 .
  • Data transmission in the process P1 of FIG. 10 is performed by the image processing calculation unit 85 based on the operator's operation acquired from the operation unit 81 by the operation processing in the process P1.
  • This is a process of transmitting data such as commands to the operation target system 11 through the communication unit 84 of FIG.
  • process P2 is a series of processes from when the operation-targeted system 11 starts receiving data such as an operation command from the operator system 12 to when the position and orientation of the camera are controlled according to the operation command. show.
  • data reception and control are performed in chronological order.
  • the time when control ends is time T2+L2.
  • Data reception in process P2 is performed by the image processing calculation unit 46 in the operation-targeted system 11 in FIG. It is a process to
  • the control in process P2 is a process in which the image processing calculation unit 46 changes the position and orientation of the camera by outputting a control signal to the control unit 44 according to the operation command received in the data reception in process P2.
  • the camera image at time T2 is corrected, and the camera image (predicted image) corresponding to the positional relationship between the camera in the predicted position and orientation at time T2+L2 and the shooting target is displayed as the display image at time T2. to be displayed.
  • the predicted position and orientation of the camera at time T2+L2 determined by the image processing calculation unit 85 (position/orientation prediction unit 102) of the operator system 12 is used to predict the position and orientation of the camera at time T2+L2 in the first row.
  • An actual positional relationship with the photographing object M is predicted.
  • the image processing calculation unit 85 corrects the camera image at time T2 to generate a camera image (predicted image) captured by the camera in the predicted position and orientation at time T2+L2 as a display image.
  • a camera image predicted image
  • the object image is displayed in the center of the camera image (display image) displayed on the display at time T2. be done. Therefore, it is avoided that the operator directs the camera to the right in order to direct the imaging center of the camera toward the imaging object M as indicated by the arrow 122 in the diagram of time T2+L2 on the first line of FIG. be done.
  • the camera image at time T displayed on the display at time T is corrected, and the predicted image at time T+L2 is manipulated. This makes it easier for the operator to remotely operate the operation target (the position and orientation of the camera) as intended.
  • FIG. 11 is a time-series processing flow showing a first form of camera image correction processing performed by the remote control system 1 when both the delay L1 and the delay L2 occur (cases of the first and second assumptions). It is a diagram.
  • FIG. 11 the horizontal axis represents time.
  • a of FIG. 11 represents the processing in the operation target system 11 and B of FIG. 11 represents the processing in the operator system 12 .
  • process P1 represents a series of processes from when the operation-targeted system 11 starts photographing a predetermined frame with the camera to when the camera image of the photographed frame is transmitted to the operator system 12 .
  • photographing, image processing, and data transmission are performed in chronological order from time T.
  • the processing P1 is the same as the processing P1 in FIG. 8 representing the processing of the second form in the case of the first assumption, so the description is omitted.
  • the process P2 is that after the operator system 12 starts receiving data such as a camera image from the operation target system 11, the operator system 12 receives data such as an operation instruction based on the operation of the operator. to the operation target system 11.
  • Data reception and delay L1 estimation in process P2 of FIG. 11 are the same as data reception and delay L1 estimation in process P2 of FIG. Description is omitted.
  • the delay L2 estimation, manipulation and data transmission in process P2 of FIG. 11 are the same as the delay L2 estimation, manipulation and data transmission in process P1 of FIG. 10 representing the process for the second assumption. Description is omitted. Note that the operation may be performed at any time after the time T.
  • the position and orientation estimation and display in the process P2 of FIG. 11 represent the second form of processing in the case of the first assumption, or the position and orientation estimation and display in the process P2 of FIG. Although the basic processing contents are the same as the position/orientation estimation and display in the processing P1 of FIG.
  • the camera image at time T from the operation-targeted system 11 is replaced with the camera image (prediction image), and the predicted image is displayed on the display (display unit 83) as the display image at time T+L1.
  • process P3 is a series of processes from when the operation-targeted system 11 starts receiving data such as an operation command from the operator system 12 to when the position and orientation of the camera are controlled according to the operation command. show.
  • data reception and control are performed in chronological order.
  • the processing P3 is the same as the processing P2 in FIG. 10 representing the processing in the case of the second assumption, so the description is omitted.
  • the camera image at the time T is calculated according to the positional relationship between the camera at the predicted position and orientation at the time T+L1+L2 and the object to be shot. is corrected to the camera image (predicted image), and displayed on the display as the display image at time T+L1.
  • FIG. 12 is a time-series processing flow showing a second form of camera image correction processing performed by the remote control system 1 when both the delay L1 and the delay L2 occur (cases of the first and second assumptions). It is a diagram.
  • FIG. 12 the horizontal axis represents time.
  • a of FIG. 12 represents the processing in the operation target system 11 and B of FIG. 12 represents the processing in the operator system 12 .
  • process P1 represents a series of processes from when the operation-targeted system 11 starts photographing a predetermined frame with the camera to when the camera image of the photographed frame is transmitted to the operator system 12 .
  • photographing, image processing, position/orientation prediction, and data transmission are performed in chronological order from time T.
  • FIG. The processing P1 is the same as the processing P1 in FIG. 6 representing the processing of the first form in the case of the first assumption, so the description is omitted.
  • the process P2 is that after the operator system 12 starts receiving data such as a camera image from the operation target system 11, the operator system 12 receives data such as an operation instruction based on the operation of the operator. to the operation target system 11.
  • Data reception and delay L1 estimation in process P2 of FIG. 12 are the same as data reception and delay L1 estimation in process P2 of FIG. Description is omitted.
  • the delay L2 estimation, manipulation and data transmission in process P2 of FIG. 12 are the same as the delay L2 estimation, manipulation and data transmission in process P1 of FIG. 10 representing the process for the second assumption. Description is omitted.
  • the display in process P2 in FIG. 12 is basically the same as the display in process P2 in FIG. The difference is that both L2 are considered. 12, the processing corresponding to the position/orientation prediction in the processing P2 of FIG. 6 is omitted, and the processing corresponding to it is included in the display processing.
  • the predicted position and orientation at the time closest to time T+L1+L2 among the information on the predicted position and orientation from the operation-targeted system 11 is the predicted position and orientation of the camera at time T+L1+L2. Determined as the position and orientation.
  • the predicted position/orientation information from the operation-targeted system 11 includes predicted position/orientation information of the camera (operated device) at predetermined time intervals from time T to time T+Tx.
  • the camera image at time T from the operation target system 11 is captured by the camera at the predicted position and orientation at time T+L1+L2.
  • the predicted image is corrected to be an image (predicted image), and the predicted image is displayed on the display (display unit 83) as the display image at time T+L1.
  • process P3 is a series of processes from when the operation-targeted system 11 starts receiving data such as an operation command from the operator system 12 to when the position and orientation of the camera are controlled according to the operation command. show.
  • data reception and control are performed in chronological order.
  • the processing P3 is the same as the processing P2 in FIG. 10 representing the processing in the case of the second assumption, so the description is omitted.
  • the camera image at the time T is calculated according to the positional relationship between the camera at the predicted position and orientation at the time T+L1+L2 and the object to be shot. is corrected to the camera image (predicted image), and displayed on the display as the display image at time T+L1.
  • the image processing calculation unit 46 detects the trajectory of the object by object detection and tracking of the object in the camera image.
  • the predicted position may be calculated by approximating the movement of the object to be photographed to uniform linear motion.
  • a predicted position may be calculated by treating the trajectory of an image as two-dimensional or multi-dimensional time-series data and modeling it with an autoregression model or the like.
  • Correction processing for correcting the camera image at time T (processing for generating a predicted image at time T+L1+L2 (display image at time T+L1))
  • the sensor unit 42 monocular camera (wide-angle camera, fish-eye camera, omnidirectional camera), compound-eye camera (stereo camera, multi-camera), or RGB-D camera (depth camera or ToF camera)
  • the image is captured from the predicted position and orientation of the camera at time T1+L1+L2. It may be a process of generating a photographed image of the object to be photographed and the surrounding environment.
  • the camera image correction process is not limited to a specific process.
  • the position prediction of the object to be photographed may be performed by the operation target system 11 or may be performed by the operator system 12 .
  • image processing common to self-position estimation can be completed at once, so the image processing time of the entire system is shortened.
  • the image processing calculation unit 85 corrects the camera image at time T based on the predicted position of the object to be photographed (target image), and corrects the camera image at time T+L1. Display the camera image showing the predicted position at +L2 on the display.
  • the camera image at time T is the prediction at time T+L1+L2.
  • the camera image (predicted image) is corrected according to the positional relationship between the position and orientation of the camera and the shooting target at the predicted position at time T+L1+L2, and is displayed on the display as the display image at time T+L1.
  • FIG. 13 is a diagram showing a display example of the predicted position of the object to be photographed when the object to be photographed moves.
  • a camera image SA is a camera image (display image) displayed on the display at time T+L1 based on the camera image at time T.
  • a target image MA is an image of a shooting target in a camera image at time T.
  • FIG. An edge 141 is an image representing the predicted position of the target image MA at time T+L1+L2.
  • the edge 141 is an image in which the outline of the target image is represented by a dotted line or the like. According to this, an image (edge 141) representing the predicted position of the target image MA at time T+L1+L2 is superimposed on the camera image at time T and displayed on the display. Note that the image representing the predicted position of the target image MA is not limited to a specific form.
  • FIG. 14 is a diagram showing a case where the image processing calculation unit 85 of the operator system 12 changes the parameters when drawing the target image according to the likelihood of the predicted position of the imaging target.
  • the camera images SA represented by states A, B, and C are assigned the same reference numerals as the corresponding portions of the camera images SA in FIG. 13, and description of the camera images SA is omitted.
  • the camera image SA displayed on the display is drawn in states A, B, and C in descending order of likelihood of the predicted position of the object to be photographed. That is, the higher the likelihood of the predicted position of the object to be photographed, the darker the density of the image (edge 141) representing the predicted position of the target image MA of the object to be photographed at time T+L1+L2 is drawn. It may be the case that other parameters such as color, not limited to density, are changed according to the likelihood of the predicted position of the object to be photographed.
  • FIG. 15 is a diagram explaining the display pattern of the camera image displayed on the display by the image processing calculation unit 85 of the operator system 12.
  • FIG. In the camera image SA at time T displayed on the display at time T+L1, in pattern A, the target images MA, MA-1, and MA-2 are superimposed and displayed.
  • a target image MA represents the position of the target object in the camera image at time T.
  • FIG. The target image MA-1 represents the predicted position of the captured object (target image) when considering changes in camera pose during the system delays (delays L1 and L2).
  • Target image MA-2 represents the predicted position of the subject taking into account changes in camera pose and movement of the subject during system delays.
  • pattern B the target images MA-1 and MA-2 are superimposed and displayed.
  • pattern C only the target image MA-2 is displayed.
  • the image processing calculation unit 85 of the operator system 12 corrects the camera image at time T, generates a camera image (display image) in one of these patterns A to C, and displays it on the display. Alternatively, a camera image of a pattern designated by the operator may be generated and displayed on the display.
  • a series of processes in the remote control system 1 described above can be executed by hardware or by software.
  • a program that constitutes the software is installed in the computer.
  • the computer includes, for example, a computer built into dedicated hardware and a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 16 is a block diagram showing an example of the hardware configuration of a computer when the computer executes each process executed by the remote control system 1 by means of a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input/output interface 205 is further connected to the bus 204 .
  • An input unit 206 , an output unit 207 , a storage unit 208 , a communication unit 209 and a drive 210 are connected to the input/output interface 205 .
  • the input unit 206 consists of a keyboard, mouse, microphone, and the like.
  • the output unit 207 includes a display, a speaker, and the like.
  • the storage unit 208 is composed of a hard disk, a nonvolatile memory, or the like.
  • a communication unit 209 includes a network interface and the like.
  • a drive 210 drives a removable medium 211 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory.
  • the CPU 201 loads, for example, a program stored in the storage unit 208 into the RAM 203 via the input/output interface 205 and the bus 204 and executes the above-described series of programs. is processed.
  • the program executed by the computer (CPU 201) can be provided by being recorded on removable media 211 such as package media, for example. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage section 208 via the input/output interface 205 by loading the removable medium 211 into the drive 210 . Also, the program can be received by the communication unit 209 and installed in the storage unit 208 via a wired or wireless transmission medium. In addition, programs can be installed in the ROM 202 and the storage unit 208 in advance.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be executed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the present technology can also take the following configurations.
  • the sensor data obtained at time T and the predicted position and orientation of the sensor at time T+L1+L2 an information processing unit that corrects the sensor data to be presented to the user at time T+L1 based on the predicted position and orientation of the sensor at time T+L1+L2.
  • the information processing apparatus calculates the predicted position and orientation based on the physical quantity of the sensor at the time T, and transmits data of the calculated predicted position and orientation to the processing unit.
  • the information processing apparatus according to any one of (1) to (6), wherein the delay time L1 between the time T and the time T+L1 includes the time required for communication of the sensor data.
  • the delay time L2 between the time T+L1 and the time T+L1+L2 includes the time required for communication of data related to the user's operation. processing equipment.
  • the delay time L2 between the time T+L1 and the time T+L1+L2 includes the reaction time after the sensor data is presented to the user until the user performs the operation.
  • the sensor is a camera;
  • the information processing apparatus according to any one of (1) to (9), wherein the processing unit performs the correction of the camera image captured by the camera at the time T. (11) By the correction, the processing unit generates an image in which an image of a predetermined target object is superimposed on the camera image at the time T captured by the camera at the time T, and superimposes the image of the target object. the position of the image of the object in the camera image when the object is captured by the camera in the predicted position and orientation at the time T+L1+L2. Device.
  • the processing unit predicts the position at the time T+L1+L2 of the image of the object that is displaced along with the movement of the object between the time T and the time T+L1+L2.
  • the processing unit includes an operation target system having the sensor, the position and orientation of the sensor being remotely controlled, and an operation target system remotely controlling the position and orientation of the sensor, and transmitting the sensor data obtained by the sensor to the user.
  • the information processing apparatus according to any one of (1) to (12) above, which is provided in a remote control system comprising an operator system that presents information to the operator.
  • the sensor data obtained at the time T and the time T correcting the sensor data to be presented to the user at the time T+L1 based on the predicted position and orientation of the sensor at the time T+L1+L2 predicted as the position and orientation of the sensor at +L1+L2; How to process information.
  • the sensor data obtained at time T and the position and orientation of the sensor at time T+L1+L2 are A program for functioning as a processing unit that corrects the sensor data presented to the user at the time T+L1 based on the predicted position and orientation of the sensor at the time T+L1+L2.

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)

Abstract

本技術は、遠隔の操作対象からのセンサ情報に基づいて操作者が操作対象を意図通りに遠隔操作することを容易にすることができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。 位置姿勢の変更として位置及び姿勢のうちの少なくとも一方の変更が可能なセンサにより時刻Tで得られたセンサデータがユーザに提示される時刻T+L1と、前記時刻T以後に行われた前記ユーザの操作に従って前記センサの位置姿勢の変更が行われる時刻T+L1+L2と対して、前記時刻Tで得られたセンサデータと、前記時刻T+L1+L2における前記センサの位置姿勢として予測される前記時刻T+L1+L2での前記センサの予測位置姿勢とに基づいて、前記時刻T+L1で前記ユーザに提示されるセンサデータの補正が行われる。

Description

情報処理装置、情報処理方法、及び、プログラム
 本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、遠隔の操作対象からのセンサ情報に基づいて操作者が操作対象を意図通りに遠隔操作することを容易にした情報処理装置、情報処理方法、及び、プログラムに関する。
 特許文献1には、ヘッドマウントドディスプレイの姿勢変化に連動して姿勢が変化するカメラの画像を、ヘッドマウントディスプレイの姿勢情報とカメラの撮影時の姿勢情報の差分に基づいて補正してヘッドマウントディスプレイに表示することが開示されている。
国際公開第2019/176035号
 操作対象と、操作対象を遠隔操作する操作者との間では、操作者から操作対象への情報伝達時、及び、操作対象から操作者への情報伝達時に、通信遅延を代表とするシステム遅延が生じる。そのシステム遅延のため、操作対象からのカメラ画像等のセンサ情報に基づいて、操作者が意図通りに操作対象を遠隔操作することが難しい場合があった。
 本技術はこのような状況に鑑みてなされたものであり、遠隔の操作対象からのセンサ情報に基づいて操作者が操作対象を意図通りに遠隔操作することを容易にする。
 本技術の情報処理装置、又は、プログラムは、位置姿勢の変更として位置及び姿勢のうちの少なくとも一方の変更が可能なセンサにより時刻Tで得られたセンサデータがユーザに提示される時刻T+L1と、前記時刻T以後に行われた前記ユーザの操作に従って前記センサの位置姿勢の変更が行われる時刻T+L1+L2と対して、前記時刻Tで得られたセンサデータと、前記時刻T+L1+L2における前記センサの位置姿勢として予測される前記時刻T+L1+L2での前記センサの予測位置姿勢とに基づいて、前記時刻T+L1で前記ユーザに提示するセンサデータの補正を行う処理部を有する情報処理装置、又は、そのような情報処理装置として、コンピュータを機能させるためのプログラムである。
 本技術の情報処理方法は、処理部を有する情報処理装置の前記処理部が、位置姿勢の変更として位置及び姿勢のうちの少なくとも一方の変更が可能なセンサにより時刻Tで得られたセンサデータがユーザに提示される時刻T+L1と、前記時刻T以後に行われた前記ユーザの操作に従って前記センサの位置姿勢の変更が行われる時刻T+L1+L2と対して、前記時刻Tで得られたセンサデータと、前記時刻T+L1+L2における前記センサの位置姿勢として予測される前記時刻T+L1+L2での前記センサの予測位置姿勢とに基づいて、前記時刻T+L1で前記ユーザに提示するセンサデータの補正を行う情報処理方法である。
 本技術の情報処理装置、情報処理方法、及び、プログラムにおいては、位置姿勢の変更として位置及び姿勢のうちの少なくとも一方の変更が可能なセンサにより時刻Tで得られたセンサデータがユーザに提示される時刻T+L1と、前記時刻T以後に行われた前記ユーザの操作に従って前記センサの位置姿勢の変更が行われる時刻T+L1+L2と対して、前記時刻Tで得られたセンサデータと、前記時刻T+L1+L2における前記センサの位置姿勢として予測される前記時刻T+L1+L2での前記センサの予測位置姿勢とに基づいて、前記時刻T+L1で前記ユーザに提示されるセンサデータの補正が行われる。
本技術が適用された遠隔操作システムの実施の形態の構成例を示すブロック図である。 操作対象システムの構成例を示したブロック図である。 操作者システムの構成例を示したブロック図である。 遠隔操作システムの全体処理(表示処理)を例示したフローチャートである。 遅延L1により操作者が意図通りに操作対象を遠隔操作することが困難となる状況を説明した図である。 第1の仮定の場合において遠隔操作システムが実施するカメラ画像の補正処理の第1形態を表した時系列処理フロー図である。 遠隔操作システム1において表示されるカメラ画像(予測画像)における対象画像の位置を表した図である。 第1の仮定の場合において遠隔操作システムが実施するカメラ画像の補正処理の第2形態を表した時系列処理フロー図である。 遅延L2により操作者が意図通りに操作対象を遠隔操作することが困難となる状況を説明した図である。 第2の仮定の場合において遠隔操作システムが実施するカメラ画像の補正処理を表した時系列処理フロー図である。 遅延L1と遅延L2の両方が発生する場合(第1及び第2の仮定の場合)において遠隔操作システム1が実施するカメラ画像の補正処理の第1形態を表した時系列処理フロー図である。 遅延L1と遅延L2の両方が発生する場合(第1及び第2の仮定の場合)において遠隔操作システムが実施するカメラ画像の補正処理の第2形態を表した時系列処理フロー図である。 撮影対象物が移動する場合の撮影対象物の予測位置のディスプレイへの表示例を示した図である。 撮影対象物の予測位置の尤度に応じて対象画像の描画時のパラメータを変更する場合を示した図である。 ディスプレイに表示するカメラ画像の表示パターンを説明した図である。 一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 以下、図面を参照しながら本技術の実施の形態について説明する。
<遠隔操作システムの実施の形態>
 図1は、本技術が適用された遠隔操作システムの実施の形態の構成例を示すブロック図である。
 図1の本実施の形態の遠隔操作システム1は、操作対象システム11と操作者システム12とを有する。操作対象システム11と操作者システム12との間は相互に情報伝達可能に通信により接続(通信接続)される。操作対象システム11は、操作者システム12からの操作指令(操作者の操作)に従って動作する被操作装置を含む。操作者システム12は、被操作装置の動作を操作者(ユーザ)が操作する操作装置を含む。
 例えば、遠隔操作システム1には、次の形態が含まれる。位置及び姿勢のうちの少なくとも一方(位置姿勢という)が遠隔操作される被操作装置(移動装置)にカメラが搭載(支持を含む)される。被操作装置は、例えば、車、ドローン、ロボット、衛星、電車、雲台などのカメラを搭載可能な装置である。操作者は、被操作装置のカメラで撮影されたカメラ画像(撮影画像)をディスプレイで見ながら操作装置により被操作装置の位置姿勢を遠隔操作する。この場合に、操作対象システム11は、被操作装置及びカメラを含む。操作者システムは、操作装置及びディスプレイを含む。
 ただし、本技術は、操作対象システム11の被操作装置に搭載される対象がカメラ以外のセンサである場合の遠隔操作システム1に適用され得る。操作対象システム11の被操作装置に搭載される対象がカメラに限定されないセンサの場合において、センサの位置姿勢が被操作装置の位置姿勢に応じて変化し、センサのセンシング方向等が変化する。操作対象システム11は、センサで取得されたセンサ情報(センサデータ)を操作者システム12に伝送する。操作者システム12は、操作対象システム11からのセンサ情報を操作者が認識できるようにディスプレイに提示する。本技術は、更に、操作者システム12からの操作指令により操作される操作対象システム11の被操作装置がセンサを搭載した装置以外である場合の遠隔操作システム1に対しても適用され得る。
 本技術は、遠隔操作アバターを用いたリモート会議、遠隔操作ロボットによる遠隔医療、ISS(国際宇宙ステーション)や衛星など宇宙空間に配置されたカメラの遠隔操作などの任意の遠隔操作技術において適用され得る。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 以下において、操作対象は、カメラ(撮像部41)を搭載する被操作装置の位置姿勢やパン角度・チルト角度のようなカメラの位置姿勢にかかわる対象であることとし、操作対象をカメラの位置姿勢ともいう。
<操作対象システム11>
 図2は、図1の操作対象システム11の構成例を示したブロック図である。以下の説明では、操作対象システム11は、カメラ及びカメラを搭載(支持)した被操作装置を含むシステムである場合を想定する。例えば、操作対象システム11として、地球などの惑星を撮影対象物として、衛星に搭載したジンバルカメラ(雲台搭載カメラ)で惑星を撮影するシステム等が該当する。
 操作対象システム11は、撮像部(カメラ)41、センサ部42、記録部43、制御部44、通信部45、及び、画像処理演算部46を有する。
 撮像部41は、カメラであり、例えば、被操作装置に対して固定される。撮像部41で撮像された画像(カメラ画像)は、画像処理演算部46に供給される。
 センサ部42は、被操作装置(撮像部41)の位置姿勢を測定するセンサ等を含む。センサ部42で取得されたセンサデータは、画像処理演算部46に供給される。
 記録部43は、画像処理演算部46で参照されるデータ、画像処理演算部46で生成されたデータ、撮像部41で取得されたカメラ画像等を記憶する。
 制御部44は、被操作装置(撮像部41)の位置姿勢を変化させるアクチュエータを制御する。制御部44は、画像処理演算部46から供給される制御信号に従って、それらのアクチュエータを制御する。
 通信部45は、操作者システム12と間の通信を制御する。通信部45は、有線若しくは無線によるLAN(Local Area Network)、Bluetooth(登録商標)、又は、WUSB(Wireless USB)等の任意の通信規格に準拠した通信を行う場合であってよい。通信部45は、操作者システム12と、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信、又は、衛星通信などの通信回線を介して通信を行う場合であってよい。
 画像処理演算部46は、センサ部42から供給されるセンサデータ及び撮像部41から供給される画像(カメラ画像)に基づいて、被操作装置(撮像部41)の位置姿勢を算出する処理や、未来における被操作装置(撮像部41)の位置姿勢を予測する処理などを行う。画像処理演算部46は、撮像部41から供給されたカメラ画像、及び、予測した被操作装置(撮像部41)の位置姿勢(予測位置姿勢)等のデータを通信部45及び通信回線を介して操作者システム12に供給する。なお、画像処理演算部46の詳細な処理内容については後述する。
<操作者システム12>
 図3は、図1の操作者システム12の構成例を示したブロック図である。以下の説明では、操作者システム12は、操作対象システム11の撮像部41(カメラ)で撮影されたカメラ画像を表示するディスプレイ、及び、操作対象システム11を遠隔で操作するための操作装置(入力インタフェース)を含むものとする。操作装置は、ゲームパッドの様なコントローラーデバイス,車のハンドル型のコントローラーデバイス、モバイルデバイスに搭載されるタッチパネル、パソコンのキーボードなどの操作対象の操作に適した入力インタフェース群である場合を想定する。
 操作者システム12は、操作部81、記録部82、表示部83、通信部84、及び、画像処理演算部85を有する。
 操作部81は、操作者の操作をセンサにより検出する。操作部81で検出された操作者の操作を示す操作データは、画像処理演算部85に供給される。
 記録部43は、画像処理演算部85で参照されるデータや画像処理演算部85で生成されたデータ等を記憶する。
 表示部83は、操作者にカメラ画像を提示するディスプレイである。表示部83は、画像処理演算部85から供給されるカメラ画像を表示する。
 通信部84は、操作対象システム11と間の通信を制御する。通信部84は、有線若しくは無線によるLAN(Local Area Network)、Bluetooth(登録商標)、又は、WUSB(Wireless USB)等の任意の通信規格に準拠した通信を行う場合であってよい。通信部84は、操作対象システム11と、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信、又は、衛星通信などの通信回線を介して通信を行う場合であってよい。
 画像処理演算部85は、操作対象システム11から通信部84を介して供給されるカメラ画像及び予測位置姿勢等のデータに基づいて表示部83に表示させるカメラ画像の補正処理等を行う。画像処理演算部85は、補正したカメラ画像を表示部83に供給して表示部83に表示させる。画像処理演算部85は、操作部81から供給される操作データに基づいて操作者の操作を検出し、操作者の操作に基づく操作指令等のデータを通信部84及び通信回線を介して操作対象システム11に供給する。なお、画像処理演算部85の詳細な処理内容については後述する。
<遠隔操作システム1の全体処理>
 図4は、遠隔操作システム1の全体処理(表示処理)を例示したフローチャートである。
 ステップS11では、操作対象システム11又は操作者システム12は、操作対象システム11から操作者システム12へのデータ通信時の遅延L1を推定する。遅延L1は、遅延時間及び遅延の種類を表す。
 ステップS12では、操作対象システム11又は操作者システム12は、操作者システム12から操作対象システム11へのデータ通信時の遅延L2を推定する。遅延L2は、遅延時間及び遅延の種類を表す。
 ステップS13では、操作対象システム11又は操作者システム12は、操作者システム12のカメラ(撮像部41)で各フレームのカメラ画像が撮影された時刻Tとして、時刻T+L1+L2の操作対象の予測位置姿勢に基づき、各フレームのカメラ画像の補正を行う。操作者システム12は、補正されたカメラ画像のディスプレイ(表示部83)へのUI(User Interface)表示(操作者への提示)を行う。
 ステップS14では、操作対象システム11又は操作者システム12は、操作者システム12のカメラ(撮像部41)で各フレームのカメラ画像が撮影された時刻Tとして、時刻T+L1+L2の撮影対象物のカメラ画像内での予測位置に基づき、各フレームのカメラ画像の補正を行う。操作者システム12は、補正されたカメラ画像のディスプレイ(表示部83)へのUI表示(操作者への提示)を行う。
 なお、ステップS13及びステップS14のカメラ画像の補正及びUI表示は、統合的に行われる。
<カメラ画像の補正処理の詳細>
 ディスプレイ(表示部83)に表示するカメラ画像の補正について、以下の3つの場合を仮定して説明する。
第1の仮定:操作対象システム11から操作者システム12へのデータ通信時に遅延L1が発生する場合
第2の仮定:操作者システム12から操作対象システム11へのデータ通信時に遅延L2が発生する場合
第3の仮定:撮影対象物が移動する場合
<第1の仮定の場合>
 第1の仮定の場合には、遠隔操作システム1は、遅延L1に対応した処理として図4のステップS11及びステップS13の処理を実施する。
 遅延L1が発生する代表的な要因としては、撮影遅延、画像処理遅延、通信遅延、及び、表示遅延がある。撮影遅延とは、操作対象システムのカメラ(撮像部41)によるカメラ画像の撮影開始からカメラ画像のデータ保存(記録)までに要する撮影時間及びそれによる遅延を表す。画像処理遅延とは、操作対象システム11がカメラ画像に対して画像処理を行う時間及びそれによる遅延を表す。通信遅延とは、操作対象システム11から操作者システム12へのデータ通信に要する通信時間及びそれによる遅延を表す。表示遅延とは、操作者システム12がカメラ画像などを受信してからディスプレイ(表示部83)に表示するまでに要する表示時間及びそれによる遅延を表す。
 これらの要因により、操作対象システム11から操作者システム12へのデータ通信時の遅延L1が発生する場合、操作者が意図通りに操作対象を遠隔操作することが困難となる。
 図5は、遠隔操作システム1において本技術を適用しないと仮定した場合に、遅延L1により操作者が意図通りに操作対象を遠隔操作することが困難となる状況を説明した図である。
 図5の見出し行において、時刻T1は、操作対象システム11のカメラで所定フレームのカメラ画像が撮影された時刻を表す。時刻T1+L1は、時刻T1で撮影されたカメラ画像が遅延L1により操作者システム12のディスプレイに表示される時刻を表す。
 第1行目の図は、時刻T1と時刻T1+L1とのそれぞれの時刻での操作対象(カメラ)と撮影対象物Mとの位置関係を表す。これによれば、時刻T1では、撮影対象物Mがカメラの撮影中心(光軸方向)に対して右側の方向に存在する。時刻T1から時刻T1+L1までの間に、カメラの位置姿勢が変化して、時刻T1+L1では、撮影対象物Mがカメラのほぼ撮影中心に存在する。
 第2行目の図は、時刻T1でカメラが撮影したカメラ画像SAにおける撮影対象物Mの画像(対象画像)MAの位置を表す。これによれば、時刻T1では、対象画像MAが、カメラ画像SAの中心に対して右寄りに位置に映る。
 第3行目の図は、時刻T1+L1でディスプレイに表示されるカメラ画像SAにおける対象画像MAの位置を表す。これによれば、時刻T1+L1では、遅延L1により時刻T1で撮影されたカメラ画像SAがそのままディスプレイに表示される。即ち、ディスプレイに表示されるカメラ画像SAには、対象画像MAがカメラ画像SAの中心に対して右寄りの位置に映る。したがって、時刻T1+L1でディスプレイに表示されるカメラ画像SAから操作者が把握する撮影対象物Mの位置が、第1行目の図の時刻T1+L1でのカメラに対する撮影対象物Mの位置と異なる。
 この場合に、時刻T1+L1で操作者が、過去の時刻T1のカメラ画像SAに映る対象画像MAがカメラ画像SAの中心に映るようにカメラを矢印121で示された右方向にパンニングする操作を行うと、撮影対象物Mがカメラの撮影中心に対して左方向に相対的に移動する。これによって、カメラ画像SAに映る対象画像MAがカメラ画像SAの中心に対して左側に移動し、対象画像MAがカメラ画像SAから外れてしまう事態が生じる場合がある。
 本技術が適用された遠隔操作システム1では、このような事態が解決される。本技術が適用された遠隔操作システム1では、図4のステップS11において、操作対象システム11又は操作者システム12が、遅延L1(遅延時間L1)を推定する。遅延時間L1を推定すると、図4のステップS13において、操作対象システム11又は操作者システム12が、時刻Tでのカメラの位置姿勢に対して時刻T+L1でのカメラの位置姿勢を予測する。操作対象システム11又は操作者システム12は、時刻T+L1でディスプレイに表示されるカメラ画像が、予測した時刻T+L1での位置姿勢でカメラが撮影するカメラ画像となるように時刻Tでカメラが撮影したカメラ画像を補正する。
 なお、ある時刻においてディスプレイに表示されるカメラ画像を、その時刻の表示画像といい、ある時刻においてカメラで実際に撮影されるカメラ画像を、その時刻のカメラ画像といい、予測された所定の時刻の位置姿勢のカメラで撮影されるカメラ画像を、予測画像というものとする。このとき、図4のステップS13における操作対象システム11又は操作者システム12のカメラ画像の補正処理は、時刻Tのカメラ画像を補正することにより、時刻T+L1の表示画像である時刻T+L1の予測画像を生成する処理である。
<第1の仮定の場合の時系列処理>
(第1形態)
 図6は、第1の仮定の場合において遠隔操作システム1が実施するカメラ画像の補正処理の第1形態を表した時系列処理フロー図である。
 図6において、横軸は時刻を表す。図6のAは、操作対象システム11での処理を表し、図6のBは、操作者システム12での処理を表す。
 図6のAにおいて、処理P1は、操作対象システム11がカメラによる所定フレームの撮影を開始し、撮影したフレームのカメラ画像を操作者システム12に送信するまでの一連の処理を表す。処理P1では、時刻T1から時系列順に、撮影、画像処理、位置姿勢予測、及び、データ送信が行われる。
 処理P1における撮影は、図2の操作対象システム11における撮像部41(カメラ)が撮影範囲の被写体像を撮像してカメラ画像を取得する処理である。画像処理は、図2の画像処理演算部46が実施する処理であり、例えば、自己位置姿勢推定、撮影対象物の物体検出、及び、撮影対象物のトラッキング等の処理を含む。
 自己位置姿勢推定は、カメラ(被操作装置)の現在(時刻T1)の位置姿勢を推定する処理である。画像処理演算部46は、例えば、SLAM(Simultaneous Localization and Mapping)の技術を用いてカメラの現在の位置姿勢を自己位置姿勢として推定する。図2の操作対象システム11において、画像処理演算部46の位置姿勢推定・環境認識部61は、センサ部42からのセンサデータに基づいて、SLAMの処理を実行し、自己位置姿勢(カメラの位置姿勢)の推定と、環境地図の作成とを行う。SLAMに用いられるセンサ部42のセンサとしては、例えば、単眼カメラ(広角カメラ、魚眼カメラ、全天球カメラ)、複眼カメラ(ステレオカメラ、マルチカメラ)、又は、RGB-Dカメラ(深度カメラやToFカメラ)が被操作装置に搭載される。センサ部42のカメラは、撮像部41として示したカメラであってもよい。センサ部42のセンサとしてIMU(Inertial Measurement Unit)などの物理量(速度、加速度、角速度等)を計測するセンサを被操作装置に搭載してカメラの位置姿勢を推定してもよいし、カメラと物理量を計測するセンサとのフュージョンによりカメラ(撮像部41)の位置姿勢を推定してもよい。なお、図6の処理P1の画像処理における自己位置姿勢推定以外の処理については後述する。
 処理P1における位置姿勢予測は、図2の画像処理演算部46が実施する処理であり、未来のカメラの位置姿勢を予測する処理である。図2の操作対象システム11において、画像処理演算部46の位置姿勢予測部62は、位置姿勢推定・環境認識部61での自己位置姿勢推定の結果であるカメラの位置姿勢、速度、及び、加速度に基づいて、時刻T1以降のカメラの位置姿勢を予測する。例えば、位置姿勢予測部62は、カメラ(被操作装置)の運動方程式を定式化し、自己位置姿勢推定(SLAM)により得られたカメラ(被操作装置)の位置姿勢、速度、及び、加速度を初期値として、時刻T1から時刻T1+Txまでの所定時間おきの時刻におけるカメラ(被操作装置)の位置姿勢を予測する。時間Txは、システム仕様上の発生し得る遅延時間L1の最長値である。予測されたカメラ(被操作装置)の位置姿勢を予測位置姿勢という。
 図6の処理P1におけるデータ送信は、画像処理演算部46が、カメラ(撮像部41)からのカメラ画像、及び、位置姿勢予測部62で算出された予測位置姿勢等のデータを図2の通信部45を通じて、操作者システム12に送信する処理である。
 図6のBにおいて、処理P2は、操作者システム12が操作対象システム11からのカメラ画像等のデータ受信を開始してカメラ画像をディスプレイ(表示部83)に表示するまでの一連の処理を表す。処理P2では、時系列順に、データ受信、遅延L1推定、位置姿勢予測、及び、表示が行われる。表示が終了する時刻が時刻T1+L1である。
 処理P2におけるデータ受信は、図3の操作者システム12における画像処理演算部85が、処理P1のデータ送信において操作対象システム11から送信されたカメラ画像及び予測位置姿勢等のデータを図3の通信部84を通じて受信する処理である。
 処理P2における遅延L1推定は、図3の画像処理演算部85が実施する処理であり、遅延時間L1を推定する処理である。遅延時間L1は、図6のように操作対象システム11の処理P1における撮影が開始された時刻T1から操作者システム12の処理P2における表示が終了する時刻までの時間である。
 図3の操作者システム12において、画像処理演算部85の遅延時間推定部101は、遅延L1の要因である上述の撮影遅延、画像処理遅延、通信遅延、及び、表示遅延ごとに遅延時間を推定し、それらの遅延要因ごとの遅延時間を足し合わせることで遅延時間L1を推定する。ただし、遅延L1の要因はこれに限らない。各遅延要因の遅延時間が遅延時間L1に占める割合は、遅延要因ごとに異なるため、遅延時間L1の推定の際に、遅延時間推定部101は、遅延時間L1に占める割合が十分小さい要因の遅延時間を無視する場合であってもよい。
 撮影遅延、画像処理遅延、及び、表示遅延のようにシステム仕様やスペックに依存する遅延要因の遅延時間は、システム仕様などから事前に見積ることが可能である。遅延時間推定部101は、システム仕様等に依存する遅延要因の遅延時間については事前に見積もられた遅延時間を図3の記録部82から読み出して取得する。
 通信遅延のようにシステム仕様だけでなく通信データ容量、通信環境などの影響も受ける遅延要因の遅延時間については、遅延時間推定部101は、実際に発生した遅延時間を測定することで推定する。例えば、操作対象システム11の画像処理演算部46と、操作者システム12の画像処理演算部85とがNTP(Network Time Protocol)時刻、GPS(Global Positioning System)時刻などの共通の時刻を参照可能とする。操作対象システム11の画像処理演算部46は、図6の処理P1においてデータ送信を開始する際に現在の時刻を送信時刻の情報として操作者システム12に送信する。操作者システム12の遅延時間推定部101は、処理P2におけるデータ受信において操作対象システム11から送信されたデータの受信を終了した際の現在の時刻を受信時刻として取得する。遅延時間推定部101は、操作対象システム11からの送信時刻と受信時刻との差分を通信遅延の遅延時間として算出する。遅延時間推定部101は、通信遅延に限らず、他の遅延要因の遅延時間についても時刻情報に基づいて推定することができる。
 図6の処理P2における位置姿勢予測は、画像処理演算部85が、操作対象システム11からの予測位置姿勢と、遅延時間推定部101により推定された遅延時間L1とに基づいて、時刻T1+L1でのカメラの位置姿勢を予測する処理である。
 操作対象システム11からの予測位置姿勢の情報には、上述のように時刻T1から時刻T1+Txまでの所定時間おきの時刻におけるカメラ(被操作装置)の予測位置姿勢の情報が含まれる。図3の画像処理演算部85における位置姿勢予測部102は、それらの時刻の予測位置姿勢のうち、時刻T1+L1に最も近い時刻の予測位置姿勢を時刻T1+L1でのカメラ(被操作装置)の予測位置姿勢として決定する。
 図6の処理P2における表示は、画像処理演算部85が、操作対象システム11からの時刻T1のカメラ画像を、位置姿勢予測部102により得られた時刻T1+L1での予測位置姿勢のカメラで撮影されるカメラ画像(予測画像)となるように補正するカメラ画像の補正処理、及び、予測画像を操作者に提示するカメラ画像(表示画像)としてディスプレイ(表示部83)に表示する処理である。
 図7は、遠隔操作システム1において、時刻T1及び時刻T1+L1でのカメラと撮影対象物との位置関係、カメラ(撮像部41)が撮影したカメラ画像における対象画像の位置、ディスプレイ(表示部83)に表示されるカメラ画像(予測画像)における対象画像の位置を表した図である。なお、図7において、図5と同一の構成要素には、図5と同一の符号を付してあり、適宜説明を省略する。
 図7の見出し行において、時刻T1は、操作対象システム11のカメラで所定フレームのカメラ画像が撮影された時刻を表す。時刻T1+L1は、時刻T1で撮影されたカメラ画像が遅延L1により操作者システム12のディスプレイに表示される時刻を表す。
 第1行目及び第2行目の図は、図5の矢印121が描画されていない点以外は共通するので説明を省略する。
 第3行目の図は、時刻T1+L1でディスプレイに表示されるカメラ画像SAにおける対象画像MAの位置を表す。時刻T1+L1のカメラ画像SAは、図6の処理P2における表示でのカメラ画像の補正処理により補正された予測画像を表す。時刻T1+L1のカメラ画像SA(予測画像)に示された対象画像MA′は、時刻T1でカメラが撮影したカメラ画像(時刻T1のカメラ画像)がそのまま表示画像としてディスプレイに表示された場合の対象画像を表す。これによれば、操作者システム12の画像処理演算部85(位置姿勢予測部102)により決定された時刻T1+L1でのカメラの予測位置姿勢により、第1行目の時刻T1+L1でのカメラと撮影対象物Mとの実際の位置関係が予測される。画像処理演算部85は、時刻T1のカメラ画像を補正することにより、時刻T1+L1での予測位置姿勢のカメラが撮影するカメラ画像(予測画像)を表示画像として生成する。これによって、時刻T1+L1においてカメラの撮影中心に撮影対象物Mが存在する場合には、第3行目の時刻T1+L1でのカメラ画像SAのように、カメラ画像SA(予測画像)の中心に対象画像MAが表示される。したがって、図5の第1行目の時刻T1+L1の図の矢印121のようにカメラの撮影中心を撮影対象物Mに向けるようとして操作者がカメラを右方向に向ける操作を行うことが回避される。
 ここで、画像処理演算部85が、時刻T1+L1でのカメラの予測位置姿勢に応じて時刻T1のカメラ画像を補正する補正処理(時刻T1+L1の予測画像(表示画像)を生成する処理)は、特定の処理に限らない。例えば、カメラ画像の補正処理は、以下のような第1から第4までの処理であってよいし、他の処理であってもよい。
 第1の処理としては、時刻T1+L1でディスプレイに表示する時刻T1のカメラ画像の画面上での表示位置を、時刻T1+L1でのカメラの予測位置姿勢に応じてシフトさせる処理であってよい。第2の処理としては、カメラが撮影したカメラ画像全体の画像範囲に対してディスプレイに表示する画像範囲を小さくし、時刻T1+L1でのカメラの予測位置姿勢に応じて時刻T1+L1でディスプレイに表示する画像範囲をシフトさせる処理であってよい。第3の処理としては、センサ部42の単眼カメラ(広角カメラ、魚眼カメラ、全天球カメラ)、複眼カメラ(ステレオカメラ、マルチカメラ)、若しくは、RGB-Dカメラ(深度カメラやToFカメラ)、又は、撮像部41のカメラにより作成した時刻T1+L1での操作対象システム11の周辺環境の3次元データを用いて、時刻T1+L1でのカメラの予測位置姿勢から撮影した周辺環境の撮影画像を生成する処理であってもよい。
 第4の処理としては、次のような処理であってよい。図2の操作対象システム11の画像処理演算部85が実施する図6の処理P1における画像処理において、撮影対象物Mの物体検出、又は、物体検出により検出済みの撮影対象物Mのトラッキングを行うことで、時刻T1のカメラ画像における撮影対象物Mの画像範囲(対象画像MAの画像範囲)が抽出される。対象画像MAの画像範囲の情報が時刻T1のカメラ画像と共に操作対象システム11から操作者システム12に送信されることで、操作者システム12の画像処理演算部85は、時刻T1のカメラ画像における対象画像MAの画像範囲を取得し、時刻T1のカメラ画像から対象画像MAを抽出することができる。画像処理演算部85は、時刻T1+L1でのカメラの予測位置姿勢と撮影対象物Mとの位置関係に基づいて、時刻T1のカメラ画像に対して、時刻T1+L1でのカメラの予測位置姿勢で撮影対象物Mが映り込む位置(範囲)を特定する。画像処理演算部85は、時刻T1のカメラ画像に対して、その特定した位置に対象画像MAを合成することで予測画像を生成する。なお、時刻T1のカメラ画像に元々映り込む対象画像MAは消去されてもよいし、そのまま残されてもよい。対象画像以外の背景画像は消去されてもよい。
 以上の第1の仮定の場合におけるカメラ画像の補正処理の第1形態によれば、時刻T+L1でディスプレイに表示される時刻Tのカメラ画像が補正されて、時刻T+L1での予測画像が操作者に提示されるので、操作者が操作対象(カメラの位置姿勢)を意図通りに遠隔操作しやすくなる。
(第2形態)
 図8は、第1の仮定の場合において遠隔操作システム1が実施するカメラ画像の補正処理の第2形態を表した時系列処理フロー図である。第2形態は、図6の第1形態において操作対象システム11が処理P1において行った位置姿勢推定を操作者システム12が行う場合である。
 図8において、横軸は時刻を表す。図8のAは、操作対象システム11での処理を表し、図8のBは、操作者システム12での処理を表す。
 図8のAにおいて、処理P1は、操作対象システム11がカメラによる所定フレームの撮影を開始し、撮影したフレームのカメラ画像を操作者システム12に送信するまでの一連の処理を表す。処理P1では、時刻T1から時系列順に、撮影、画像処理、及び、データ送信が行われる。
 処理P1における撮影、及び、画像処理は、図6の第1形態の場合と同じであるので説明を省略する。
 処理P1における位置姿勢予測は、図2の画像処理演算部46が実施する処理であり、未来のカメラの位置姿勢を予測する処理である。図2の操作対象システム11において、画像処理演算部46の位置姿勢予測部62は、位置姿勢推定・環境認識部61での自己位置姿勢推定の結果であるカメラの位置姿勢、速度、及び、加速度に基づいて、時刻T1以降のカメラの位置姿勢を予測する。例えば、位置姿勢予測部62は、カメラ(被操作装置)の運動方程式を定式化し、自己位置姿勢推定(SLAM)により得られたカメラ(被操作装置)の位置姿勢、速度、及び、加速度を初期値として、時刻T1から時刻T1+Txまでの所定時間おきの時刻におけるカメラ(被操作装置)の位置姿勢を予測する。時間Txは、システム仕様上の発生し得る遅延時間L1の最長値である。予測されたカメラ(被操作装置)の位置姿勢を予測位置姿勢という。
 図8の処理P1におけるデータ送信は、画像処理演算部46が、カメラ(撮像部41)からのカメラ画像の他に、処理P1の画像処理における自己位置姿勢推定の結果であるカメラの位置姿勢、速度、及び、加速度等の予測位置姿勢を算出するために必要なデータ等を図2の通信部45を通じて、操作者システム12に送信する処理である。
 図8のBにおいて、処理P2は、操作者システム12が操作対象システム11からのカメラ画像等のデータ受信を開始してから、カメラ画像をディスプレイ(表示部83)に表示するまでの一連の処理を表す。処理P2では、時系列順に、データ受信、遅延L1推定、位置姿勢予測、及び、表示が行われる。表示が終了する時刻が時刻T1+L1である。
 処理P2におけるデータ受信は、図3の操作者システム12における画像処理演算部85が、処理P1のデータ送信において操作対象システム11から送信されたカメラ画像及び予測位置姿勢の算出に必要なデータ(自己位置姿勢推定の結果であるカメラの位置姿勢、速度、及び、加速度)等を図3の通信部84を通じて受信する処理である。
 処理P2における遅延L1推定は、図6の第1形態の場合と同じであるので説明を省略する。
 図6の処理P2における位置姿勢予測は、画像処理演算部85が、操作対象システム11からの予測位置姿勢の算出に必要なデータ(自己位置姿勢推定の結果であるカメラの位置姿勢、速度、及び、加速度)と、遅延時間推定部101により推定された遅延時間L1とに基づいて、時刻T1+L1でのカメラの位置姿勢を予測する処理である。
 図3の画像処理演算部85における位置姿勢予測部102は、カメラ(被操作装置)の運動方程式を定式化し、自己位置姿勢推定(SLAM)により得られたカメラ(被操作装置)の位置姿勢、速度、及び、加速度を初期値として、時刻T1+L1でのカメラ(被操作装置)の予測位置姿勢を算出する。
 図6の処理P2における表示は、図6の第1形態の場合と同じであるので説明を省略する。
 なお、第1形態及び第2形態のように操作対象システム11の処理P1における画像処理で、自己位置姿勢推定、撮影対象物の物体検出、及び、撮影対象物のトラッキング等の画像処理を一括して行うことで、システム全体の画像処理時間が短縮される。ただし、撮影対象物の物体検出、及び、撮影対象物のトラッキングの処理は、操作者システム12において行ってもよい。その他の処理(撮影、データ送信、データ受信、及び、表示を除く)も操作対象システム11と操作者システム12のいずれでも実施してもよい。
 以上の第1の仮定の場合におけるカメラ画像の補正処理の第2形態によれば、時刻T+L1でディスプレイに表示される時刻Tのカメラ画像が補正されて、時刻T+L1での予測画像が操作者に提示されるので、操作者が操作対象(カメラの位置姿勢)を意図通りに遠隔操作しやすくなる。
<第2の仮定の場合>
 第2の仮定の場合には、遠隔操作システム1は、遅延L2に対応した処理として図4のステップS12及びステップS13の処理を実施する。
 遅延L2が発生する代表的な要因としては、通信遅延、反応遅延、及び、制御遅延がある。通信遅延とは、操作者システム12から操作対象システム11へのデータ通信(操作者の操作に関する操作指令等のデータ通信)に要する通信時間及びそれによる遅延を表す。反応遅延とは、操作者システム12のディスプレイに表示されたカメラ画像をみて操作者が操作対象(カメラ(被操作装置)の位置姿勢)に対する操作を行うまでの反応時間及びそれによる遅延を表す。制御遅延とは、操作者の操作に基づいて操作者システム12から送信された操作命令を操作対象システム11が受信してから操作対象が操作命令に従って制御されるまでに要する制御時間及びそれによる遅延を表す。
 これらの要因により、操作者システム12から操作対象システム11へのデータ通信時の遅延L2が発生する場合、操作者が意図通りに操作対象を遠隔操作することが困難となる。
 図9は、遠隔操作システム1において本技術を適用しないと仮定した場合に、遅延L2により操作者が意図通りに操作対象を遠隔操作することが困難となる状況を説明した図である。
 図9の見出し行において、時刻T2は、操作対象システム11のカメラで所定フレームのカメラ画像が撮影された時刻を表す。時刻T2+L2は、時刻T2でディスプレイに表示されたカメラ画像に基づいて操作者が操作を行った後、その操作に基づく操作命令に従って操作対象(カメラの位置姿勢)の制御が終了した時刻を表す。
 第1行目の図は、時刻T2と時刻T2+L2とのそれぞれの時刻での操作対象(カメラ)と撮影対象物Mとの位置関係を表す。これによれば、時刻T2では、撮影対象物Mがカメラの撮影中心(光軸方向)に対して右側の方向に存在する。時刻T2から時刻T2+L2までの間に、カメラの位置姿勢が変化して、時刻T2+L2では、撮影対象物Mがカメラのほぼ撮影中心に存在する。なお、時刻T2から時刻T2+L2までの間のカメラの位置姿勢の変化は、時刻T2以前の操作命令に従ってカメラの位置姿勢が制御されている場合や、時刻T2以前のカメラの位置姿勢の制御によりカメラの位置姿勢が慣性等で変化している場合に生じ得る。
 第2行目の図は、時刻T2でカメラが撮影したカメラ画像SAにおける撮影対象物Mの対象画像MAの位置を表す。これによれば、時刻T2では、対象画像MAが、カメラ画像SAの中心に対して右寄りに位置に映る。
 第3行目の図は、時刻T2でディスプレイに表示されるカメラ画像SAにおける対象画像MAの位置を表す。これによれば、時刻T2では、遅延L1が生じない前提であるので時刻T2で撮影されたカメラ画像SAがそのままディスプレイに表示される。即ち、対象画像MAが、カメラ画像SAの中心に対して右寄りの位置に映るカメラ画像SAがディスプレイに表示される。したがって、時刻T2でディスプレイに表示されるカメラ画像SAから操作者が把握する撮影対象物Mの位置が、第1行目の図の時刻T2+L2でのカメラに対する撮影対象物Mの位置と異なる。
 この場合に、時刻T2で操作者が、時刻T2のカメラ画像SAに映る対象画像MAがカメラ画像SAの中心に映るようにカメラを矢印122で示された右方向にパンニングする操作を行うと、その操作に対応した操作命令に基づくカメラの位置姿勢の制御が時刻T2+L2から開始され、撮影対象物Mがカメラの撮影中心に対して左方向に相対的に移動する。これによって、カメラ画像SAに映る対象画像MAがカメラ画像SAの中心に対して左側に移動し、対象画像MAがカメラ画像SAから外れてしまう事態が生じる場合がある。
 本技術が適用された遠隔操作システム1では、このような事態が解決される。本技術が適用された遠隔操作システム1では、図4のステップS12において、操作対象システム11又は操作者システム12が、遅延L2(遅延時間L2)を推定する。遅延時間L2を推定すると、図4のステップS13において、操作対象システム11又は操作者システム12が、時刻Tでのカメラの位置姿勢に対して時刻T+L2でのカメラの位置姿勢を予測する。操作対象システム11又は操作者システム12は、時刻Tでディスプレイに表示されるカメラ画像が、予測した時刻T+L2での位置姿勢でカメラが撮影するカメラ画像となるように時刻Tでカメラが撮影したカメラ画像(時刻Tでディスプレイに表示するカメラ画像)を補正する。
 なお、上述の場合と同様に、ある時刻においてディスプレイに表示されるカメラ画像を、その時刻の表示画像といい、ある時刻においてカメラで実際に撮影されるカメラ画像を、その時刻のカメラ画像といい、予測された所定の時刻の位置姿勢のカメラで撮影されるカメラ画像を、予測画像というものとする。このとき、図4のステップS13における操作対象システム11又は操作者システム12のカメラ画像の補正処理は、時刻Tのカメラ画像を補正することにより、時刻Tの表示画像である時刻T+L2の予測画像を生成する処理である。
<第2の仮定の場合の時系列処理>
 図10は、第2の仮定の場合において遠隔操作システム1が実施するカメラ画像の補正処理を表した時系列処理フロー図である。図10において、横軸は時刻を表す。図10のAは、操作対象システム11での処理を表し、図10のBは、操作者システム12での処理を表す。図10のBにおいて、処理P1は、操作者システム12が遅延L2推定の処理を開始して操作者の操作に基づく操作命令等のデータを操作対象システム11に送信するまでの一連の処理を表す。処理P1では、時系列順に、遅延L2推定、位置姿勢予測、表示、操作、及び、データ送信が行われる。表示が終了する時刻が時刻T2である。
 処理P1における遅延L2推定は、図3の画像処理演算部85が実施する処理であり、遅延時間L2を推定する処理である。遅延時間L2は、図10のように操作者システム12の処理P1における表示が終了した時刻T2から操作対象システム11の処理P2における制御が終了する時刻までの時間である。
 図3の操作者システム12において、画像処理演算部85の遅延時間推定部101は、遅延L2の要因である上述の通信遅延、反応遅延、及び、制御遅延ごとに遅延時間を推定し、それらの遅延要因ごとの遅延時間を足し合わせることで遅延時間L2を推定する。ただし、遅延L2の要因はこれに限らない。各遅延要因の遅延時間が遅延時間L2に占める割合は、遅延要因ごとに異なるため、遅延時間L2の推定の際に、遅延時間推定部101は、遅延時間L2に占める割合が十分小さい要因の遅延時間を無視する場合であってもよい。
 制御遅延のようにシステム仕様やスペックに依存する遅延要因の遅延時間は、システム仕様などから事前に見積ることが可能である。遅延時間推定部101は、システム仕様等に依存する遅延要因の遅延時間については事前に見積もられた遅延時間を図3の記録部82から読み出して取得する。
 通信遅延のようにシステム仕様だけでなく通信データ容量、通信環境などの影響も受ける遅延要因の遅延時間については、遅延時間推定部101は、実際に発生した遅延時間を測定することで推定する。例えば、操作対象システム11の画像処理演算部46と、操作者システム12の画像処理演算部85とがNTP(Network Time Protocol)時刻、GPS(Global Positioning System)時刻などの共通の時刻を参照可能とする。操作者システム12の画像処理演算部85は、図10の処理P1においてデータ送信を開始する際に現在の時刻を送信時刻の情報として操作対象システム11に送信する。操作対象システム11の画像処理演算部46は、処理P2におけるデータ受信において操作者システム12から送信されたデータの受信を終了した際の現在の時刻を受信時刻として取得する。これによって、操作者システム12からのデータの送信時刻と操作対象システム11でのデータの受信時刻との差分とから通信遅延の遅延時間が算出される。ただし、操作対象システム11では、通信遅延の遅延時間が算出できるが、操作者システム12では、データの受信時刻を把握できない。そのため、例えば、操作者システム12の画像処理演算部85は、操作対象システム11から通信遅延の遅延時間の情報を取得する。画像処理演算部85は、過去に取得した通信遅延の遅延時間に基づいて、処理P1における遅延L2推定で推定する通信遅延の遅延時間として、過去に測定された通信遅延の移動平均などをフィルタ処理を適用して算出する。
 反応遅延の遅延時間については、操作者の反応時間の影響を受けるため、遅延時間推定部101は、例えば、画面の色が変わったらボタンを押すなどのような単純な画像刺激に対して事前に測定した反応時間を用いる。遅延時間推定部101は、過去の認知科学実験などで得られた一般的な人の反応時間を用いてもよい。
 図10の処理P1における位置姿勢予測は、画像処理演算部85(位置姿勢予測部102)が、処理P1における遅延L2推定で推定された遅延時間L2を用いて、時刻T2+L2でのカメラの位置姿勢を予測する(予測位置姿勢を算出する)処理である。時刻T2+L2でのカメラの予測位置姿勢は、第1の仮定の場合における時刻T1+L1でのカメラの予測位置姿勢の算出と同様にして、カメラの運動方程式を定式化し、自己位置姿勢推定(SLAM)により得られた位置姿勢,速度,加速度を初期値として与えることで算出され得る。
 図10の処理P1における表示は、画像処理演算部85が、操作対象システム11からの時刻T2のカメラ画像を、処理P1の位置姿勢予測により得られた時刻T2+L2での予測位置姿勢のカメラで撮影されるカメラ画像(予測画像)となるように補正するカメラ画像の補正処理、及び、予測画像を表示画像としてディスプレイ(表示部83)に表示する処理である。なお、処理P1における表示は、第1の仮定の場合における図6の処理P2における表示と同様の処理であるので説明を省略する。
 図10の処理P1における操作は、画像処理演算部85が、操作者の操作対象(カメラの位置姿勢)に対する操作を操作部81から取得する処理である。
 図10の処理P1におけるデータ送信は、画像処理演算部85が、処理P1における操作の処理により、操作部81から取得した操作者の操作に基づいて、カメラ(被操作装置)の位置姿勢に対する操作命令等のデータを、図3の通信部84を通じて操作対象システム11に送信する処理である。
 図10のAにおいて、処理P2は、操作対象システム11が操作者システム12からの操作命令等のデータ受信を開始してから、カメラの位置姿勢を操作命令に従って制御し終わるまでの一連の処理を表す。処理P1では、時系列順に、データ受信、及び、制御が行われる。制御が終了する時刻が時刻T2+L2である。
 処理P2におけるデータ受信は、図2の操作対象システム11における画像処理演算部46が、処理P1のデータ送信において操作対象システム11から送信された操作命令等のデータを図2の通信部45を通じて受信する処理である。
 処理P2における制御は、画像処理演算部46が、処理P2のデータ受信において受信した操作命令に従って制御部44に制御信号を出力してカメラの位置姿勢を変更する処理である。
 以上の処理により、時刻T2のカメラ画像が補正され、時刻T2+L2での予測位置姿勢のカメラと撮影対象物との位置関係に応じたカメラ画像(予測画像)が時刻T2の表示画像としてディスプレイに表示される。これによって、操作者システム12の画像処理演算部85(位置姿勢予測部102)により決定された時刻T2+L2でのカメラの予測位置姿勢により、第1行目の時刻T2+L2でのカメラと撮影対象物Mとの実際の位置関係が予測される。画像処理演算部85は、時刻T2のカメラ画像を補正することにより、時刻T2+L2での予測位置姿勢のカメラが撮影するカメラ画像(予測画像)を表示画像として生成する。図9において、時刻T2+L2においてカメラの撮影中心に撮影対象物Mが存在する場合には、時刻T2でのディスプレイに表示されるカメラ画像(表示画像)において対象画像がカメラ画像の中心に表示される。したがって、図9の第1行目の時刻T2+L2の図の矢印122のようにカメラの撮影中心を撮影対象物Mに向けるようとして操作者がカメラを右方向に向ける操作を行うことが回避される。
 即ち、第2の仮定の場合におけるカメラ画像の補正処理の第1形態によれば、時刻Tでディスプレイに表示される時刻Tのカメラ画像が補正されて、時刻T+L2での予測画像が操作者に提示されるので、操作者が操作対象(カメラの位置姿勢)を意図通りに遠隔操作しやすくなる。
<第1及び第2の仮定の組合せ>
(第1形態)
 遅延L1と遅延L2の両方が発生する場合には、遠隔操作システム1は、第1の仮定の場合の処理と第2の仮定の場合の処理とを組み合わせた処理(第1及び第2の仮定の場合の処理)を実行する。
 図11は、遅延L1と遅延L2の両方が発生する場合(第1及び第2の仮定の場合)において遠隔操作システム1が実施するカメラ画像の補正処理の第1形態を表した時系列処理フロー図である。
 図11において、横軸は時刻を表す。図11のAは、操作対象システム11での処理を表し、図11のBは、操作者システム12での処理を表す。
 図11のAにおいて、処理P1は、操作対象システム11がカメラによる所定フレームの撮影を開始し、撮影したフレームのカメラ画像を操作者システム12に送信するまでの一連の処理を表す。処理P1では、時刻Tから時系列順に、撮影、画像処理、及び、データ送信が行われる。処理P1は、第1の仮定の場合の第2形態の処理を表した図8の処理P1と同じであるので説明を省略する。
 図11のBにおいて、処理P2は、操作者システム12が、操作者システム12が操作対象システム11からのカメラ画像等のデータ受信を開始してから、操作者の操作に基づく操作命令等のデータを操作対象システム11に送信するまでの一連の処理を表す。
 処理P2では、時系列順に、データ受信、遅延L1推定、遅延L2推定、位置姿勢予測、表示、操作、及び、データ送信が行われる。表示が終了する時刻が時刻T+L1である。
 図11の処理P2におけるデータ受信、及び、遅延L1推定は、第1の仮定の場合の第2形態の処理を表した図8の処理P2におけるデータ受信、及び、遅延L1推定と同じであるので説明を省略する。
 図11の処理P2における遅延L2推定、操作、及び、データ送信は、第2の仮定の場合の処理を表した図10の処理P1における遅延L2推定、操作、及び、データ送信と同じであるので説明を省略する。なお、操作は、時刻T以後の任意の時刻で行われる場合であってもよい。
 図11の処理P2における位置姿勢推定、及び、表示は、第1の仮定の場合の第2形態の処理を表した図8の処理P2おける位置姿勢推定、及び、表示、又は、第2の仮定の場合の処理を表した図10の処理P1における位置姿勢推定、及び、表示と、基本的な処理内容は同じであるが、遅延時間L1と遅延時間L2の両方を考慮する点で相違する。
 図11の処理P2における位置姿勢推定では、処理P2の遅延L1推定と遅延L2推定で算出された遅延時間L1と遅延時間L2とに基づいて、時刻T+L1+L2でのカメラの予測位置姿勢が算出される。
 処理P2における表示では、操作対象システム11からの時刻Tのカメラ画像が、処理P1の位置姿勢予測により得られた時刻T+L1+L2での予測位置姿勢のカメラで撮影されるカメラ画像(予測画像)となるように補正され、予測画像が時刻T+L1の表示画像としてディスプレイ(表示部83)に表示される。
 図11のAにおいて、処理P3は、操作対象システム11が操作者システム12からの操作命令等のデータ受信を開始してから、カメラの位置姿勢を操作命令に従って制御し終わるまでの一連の処理を表す。処理P3では、時系列順に、データ受信、及び、制御が行われる。処理P3は、第2の仮定の場合の処理を表した図10の処理P2と同じであるので説明を省略する。
 以上の処理によれば、遅延L1と遅延L2の両方が発生する場合において、時刻Tのカメラ画像が、時刻T+L1+L2での予測位置姿勢のカメラと撮影対象物との位置関係に応じたカメラ画像(予測画像)に補正され、時刻T+L1の表示画像としてディスプレイに表示される。これにより、遅延L1と遅延L2の両方が発生する場合であっても、操作者が操作対象(カメラの位置姿勢)を意図通りに遠隔操作しやすくなる。
(第2形態)
 図12は、遅延L1と遅延L2の両方が発生する場合(第1及び第2の仮定の場合)において遠隔操作システム1が実施するカメラ画像の補正処理の第2形態を表した時系列処理フロー図である。
 図12において、横軸は時刻を表す。図12のAは、操作対象システム11での処理を表し、図12のBは、操作者システム12での処理を表す。
 図12のAにおいて、処理P1は、操作対象システム11がカメラによる所定フレームの撮影を開始し、撮影したフレームのカメラ画像を操作者システム12に送信するまでの一連の処理を表す。処理P1では、時刻Tから時系列順に、時系列順に、撮影、画像処理、位置姿勢予測、及び、データ送信が行われる。処理P1は、第1の仮定の場合の第1形態の処理を表した図6の処理P1と同じであるので説明を省略する。
 図12のBにおいて、処理P2は、操作者システム12が、操作者システム12が操作対象システム11からのカメラ画像等のデータ受信を開始してから、操作者の操作に基づく操作命令等のデータを操作対象システム11に送信するまでの一連の処理を表す。
 処理P2では、時系列順に、データ受信、遅延L1推定、遅延L2推定、表示、操作、及び、データ送信が行われる。表示が終了する時刻が時刻T+L1である。
 図12の処理P2におけるデータ受信、及び、遅延L1推定は、第1の仮定の場合の第1形態の処理を表した図6の処理P2おけるデータ受信、及び、遅延L1推定と同じであるので説明を省略する。
 図12の処理P2における遅延L2推定、操作、及び、データ送信は、第2の仮定の場合の処理を表した図10の処理P1における遅延L2推定、操作、及び、データ送信と同じであるので説明を省略する。
 図12の処理P2における表示は、第1の仮定の場合の第1形態の処理を表した図6の処理P2おける表示と、基本的な処理内容は同じであるが、遅延時間L1と遅延時間L2の両方を考慮する点で相違する。なお、図12の処理P2では、図6の処理P2における位置姿勢予測に相当する処理が省略されており、それに相当する処理が表示の処理に含まれることとする。
 図12の処理P2における表示では、操作対象システム11からの予測位置姿勢の情報のうち、時刻T+L1+L2に最も近い時刻の予測位置姿勢が、時刻T+L1+L2でのカメラの予測位置姿勢として決定される。なお、操作対象システム11からの予測位置姿勢の情報には、時刻Tから時刻T+Txまでの所定時間おきの時刻におけるカメラ(被操作装置)の予測位置姿勢の情報が含まれる。時刻T+L1+L2でのカメラの予測位置姿勢として決定されると、操作対象システム11からの時刻Tのカメラ画像が、時刻T+L1+L2での予測位置姿勢のカメラで撮影されるカメラ画像(予測画像)となるように補正され、予測画像が時刻T+L1の表示画像としてディスプレイ(表示部83)に表示される。
 図12のAにおいて、処理P3は、操作対象システム11が操作者システム12からの操作命令等のデータ受信を開始してから、カメラの位置姿勢を操作命令に従って制御し終わるまでの一連の処理を表す。処理P3では、時系列順に、データ受信、及び、制御が行われる。処理P3は、第2の仮定の場合の処理を表した図10の処理P2と同じであるので説明を省略する。
 以上の処理によれば、遅延L1と遅延L2の両方が発生する場合において、時刻Tのカメラ画像が、時刻T+L1+L2での予測位置姿勢のカメラと撮影対象物との位置関係に応じたカメラ画像(予測画像)に補正され、時刻T+L1の表示画像としてディスプレイに表示される。これにより、遅延L1と遅延L2の両方が発生する場合であっても、操作者が操作対象(カメラの位置姿勢)を意図通りに遠隔操作しやすくなる。
<第3の仮定の場合の時系列処理>
 第3の仮定の場合には、遠隔操作システム1は、遅延L1+L2に対応した処理として図4のステップS14の処理を実施する。
 撮影対象物が移動する場合、特に撮影対象物が操作対象と独立して移動する場合に、第1及び第2の仮定と場合と同様に、操作者が意図通りに操作対象を遠隔操作することが困難となる。そこで、時刻T+L1+L2での撮影対象物のカメラ画像内における位置を予測し、カメラ画像の補正、及び、UI表示を行うことで、操作者が意図通りに操作対象を遠隔操作することが容易となる。この場合、図11及び図12の操作対象システム11の処理P1における画像処理において、画像処理演算部46は、カメラ画像内における撮影対象物の物体検出とトラッキングにより撮影対象物の軌跡を検出する。カメラ画像内の撮影対象物(対象画像)の位置予測(予測位置の算出)では、撮影対象物の移動を等速直線運動に近似して予測位置を算出する場合であってもよいし、対象画像の軌跡を2次元又は多次元の時系列データとして扱い自己回帰モデルなどでモデル化して予測位置を算出する場合であってもよい。時刻Tのカメラ画像を補正する補正処理(時刻T+L1+L2の予測画像(時刻T+L1の表示画像)を生成する処理)は、算出した撮影対象物の時刻T+L1+L2の3次元位置を予測位置とし、センサ部42の単眼カメラ(広角カメラ、魚眼カメラ、全天球カメラ)、複眼カメラ(ステレオカメラ、マルチカメラ)、若しくは、RGB-Dカメラ(深度カメラやToFカメラ)、又は、撮像部41のカメラにより作成した時刻T1+L1+L2での操作対象システム11の周辺環境の3次元データを用いて、時刻T1+L1+L2でのカメラの予測位置姿勢から撮影した撮影対象物および周辺環境の撮影画像を生成する処理であってもよい。ただし、カメラ画像の補正処理は特定の処理に限らない。
 なお、撮影対象物の位置予測は、操作対象システム11で行われてもよいし、操作者システム12で行われてもよい。操作対象システム11で行われる場合、自己位置推定と共通する画像処理を一度で済ませられるので、システム全体の画像処理時間が短縮される。
 図11及び図12の操作者システム12の処理P2における表示において、画像処理演算部85は、撮影対象物(対象画像)の予測位置に基づいて時刻Tのカメラ画像を補正し、時刻T+L1+L2での予測位置を表したカメラ画像をディスプレイに表示する。ここで、カメラの時刻Tから時刻T+L1+L2までの間での位置姿勢の変化を考慮してカメラ画像を補正する場合、時刻Tのカメラ画像が、時刻T+L1+L2での予測位置姿勢のカメラと時刻T+L1+L2での予測位置の撮影対象物との位置関係に応じたカメラ画像(予測画像)に補正され、時刻T+L1の表示画像としてディスプレイに表示される。これにより、遅延L1と遅延L2の両方が発生し、かつ、撮影対象物が移動する場合であっても、操作者が操作対象(カメラの位置姿勢)を意図通りに遠隔操作しやすくなる。
 図13は、撮影対象物が移動する場合の撮影対象物の予測位置のディスプレイへの表示例を示した図である。
 図13において、カメラ画像SAは、時刻Tのカメラ画像に基づいて時刻T+L1にディスプレイに表示されるカメラ画像(表示画像)である。対象画像MAは、時刻Tのカメラ画像における撮影対象物の画像である。エッジ141は、時刻T+L1+L2での対象画像MAの予測位置を表した画像である。エッジ141は、対象画像の輪郭を点線等で表した画像である。これによれば、時刻T+L1+L2での対象画像MAの予測位置を表した画像(エッジ141)が時刻Tのカメラ画像に重畳してディスプレイに表示される。なお、対象画像MAの予測位置を表す画像が特定の形態に限定されない。
 図14は、操作者システム12の画像処理演算部85が撮影対象物の予測位置の尤度に応じて対象画像の描画時のパラメータを変更する場合を示した図である。図14において、状態A、B、Cで表されたカメラ画像SAには、それぞれ、図13のカメラ画像SAの対応する部分と同一の符号が付されており、カメラ画像SAの説明は省略する。ディスプレイに表示されるカメラ画像SAは、撮影対象物の予測位置の尤度が低い順に、状態A、状態B、状態Cで描画される。即ち、撮影対象物の予測位置の尤度が高くなるほど、時刻T+L1+L2での撮影対象物の対象画像MAの予測位置を表した画像(エッジ141)の濃度が濃く描画される。濃度に限らず色などの他のパラメータを撮影対象物の予測位置の尤度に応じて変更する場合であってよい。
 図15は、操作者システム12の画像処理演算部85がディスプレイに表示するカメラ画像の表示パターンを説明した図である。時刻T+L1においてディスプレイに表示される時刻Tのカメラ画像SAにおいて、パターンAでは、対象画像MA、MA-1、MA-2が重畳して表示される。対象画像MAは、時刻Tのカメラ画像における撮影対象物の位置を表す。対象画像MA-1は、システム遅延(遅延L1及び遅延L2)の間のカメラの位置姿勢の変化を考慮した場合の撮影対象物(対象画像)の予測位置を表す。対象画像MA-2は、システム遅延の間のカメラの位置姿勢の変化及び撮影対象物の移動を考慮した場合の撮影対象物の予測位置を表す。パターンBでは、対象画像MA-1、MA-2が重畳して表示される。パターンCでは、対象画像MA-2のみが表示される。操作者システム12の画像処理演算部85は、時刻Tのカメラ画像を補正して、これらのパターンAからCまでのいずれかの形態のカメラ画像(表示画像)を生成してディスプレイに表示させるようにしてもよい、操作者により指示されたパターンのカメラ画像を生成してディスプレイに表示させるようにしてもよい。
<プログラム>
 上述した遠隔操作システム1における一連の処理は、ハードウエアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図16は、遠隔操作システム1が実行する各処理をコンピュータがプログラムにより実行する場合の、コンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
 バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、及びドライブ210が接続されている。
 入力部206は、キーボード、マウス、マイクロフォンなどよりなる。出力部207は、ディスプレイ、スピーカなどよりなる。記憶部208は、ハードディスクや不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア211を駆動する。
 以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU201)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア211に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 本技術は以下のような構成も取ることができる。
(1)
 位置姿勢の変更として位置及び姿勢のうちの少なくとも一方の変更が可能なセンサにより時刻Tで得られたセンサデータがユーザに提示される時刻T+L1と、前記時刻T以後に行われた前記ユーザの操作に従って前記センサの位置姿勢の変更が行われる時刻T+L1+L2と対して、前記時刻Tで得られたセンサデータと、前記時刻T+L1+L2における前記センサの位置姿勢として予測される前記時刻T+L1+L2での前記センサの予測位置姿勢とに基づいて、前記時刻T+L1で前記ユーザに提示するセンサデータの補正を行う処理部
 を有する情報処理装置。
(2)
 前記処理部は、前記予測位置姿勢の前記センサにより得られるセンサデータをユーザに提示するための前記補正を行う
 前記(1)に記載の情報処理装置。
(3)
 前記処理部は、前記時刻Tにおける前記センサの物理量に基づいて前記予測位置姿勢を算出する
 前記(1)又は(2)に記載の情報処理装置。
(4)
 前記処理部は、前記時刻Tにおける前記センサの位置姿勢、速度、及び、加速度に基づいて前記予測位置姿勢を算出する
 前記(3)に記載の情報処理装置。
(5)
 前記処理部は、前記時刻Tにおける前記センサの位置姿勢をSLAMを用いて推定する
 前記(4)に記載の情報処理装置。
(6)
 前記処理部に対して通信によりデータを送信する予測部を有し、
 前記予測部は、前記時刻Tにおける前記センサの物理量に基づいて前記予測位置姿勢を算出し、算出した前記予測位置姿勢のデータを前記処理部に送信する
 前記(1)に記載の情報処理装置。
(7)
 前記時刻Tと前記時刻T+L1との間の遅延時間L1は、前記センサデータの通信に要する時間を含む
 前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
 前記時刻T+L1と前記時刻T+L1+L2との間の遅延時間L2は、前記ユーザの操作に関するデータの通信に要する時間を含む
 前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記時刻T+L1と前記時刻T+L1+L2との間の遅延時間L2は、前記センサデータが前記ユーザに提示された後、前記ユーザが前記操作を行うまでの反応時間を含む
 前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
 前記センサはカメラであり、
 前記処理部は、前記時刻Tにおいて前記カメラにより撮影されたカメラ画像の前記補正を行う
 前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
 前記処理部は、前記補正により、前記時刻Tで前記カメラにより撮影された前記時刻Tの前記カメラ画像に対して所定の対象物の画像を重畳した画像を生成し、前記対象物の画像を重畳する位置を、前記時刻T+L1+L2での前記予測位置姿勢の前記カメラにより前記対象物を撮影した場合のカメラ画像における前記対象物の画像の位置とする
 前記(10)に記載の情報処理装置。
(12)
 前記処理部は、前記時刻Tと前記時刻T+L1+L2との間の時間における前記対象物の移動に伴い変位する前記対象物の画像の前記時刻T+L1+L2における位置を予測した予測位置に基づいて、前記補正を行う
 前記(11)に記載の情報処理装置。
(13)
 前記処理部は、前記センサを有し、前記センサの位置姿勢が遠隔操作される操作対象システムと、前記センサの位置姿勢を遠隔操作し、かつ、前記センサにより得られた前記センサデータを前記ユーザに提示する操作者システムとのから構成される遠隔操作システムに具備される
 前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
 処理部
 を有する情報処理装置の
 前記処理部が、位置姿勢の変更として位置及び姿勢のうちの少なくとも一方の変更が可能なセンサにより時刻Tで得られたセンサデータがユーザに提示される時刻T+L1と、前記時刻T以後に行われた前記ユーザの操作に従って前記センサの位置姿勢の変更が行われる時刻T+L1+L2と対して、前記時刻Tで得られたセンサデータと、前記時刻T+L1+L2における前記センサの位置姿勢として予測される前記時刻T+L1+L2での前記センサの予測位置姿勢とに基づいて、前記時刻T+L1で前記ユーザに提示するセンサデータの補正を行う
 情報処理方法。
(15)
 コンピュータを
 位置姿勢の変更として位置及び姿勢のうちの少なくとも一方の変更が可能なセンサにより時刻Tで得られたセンサデータがユーザに提示される時刻T+L1と、前記時刻T以後に行われた前記ユーザの操作に従って前記センサの位置姿勢の変更が行われる時刻T+L1+L2と対して、前記時刻Tで得られたセンサデータと、前記時刻T+L1+L2における前記センサの位置姿勢として予測される前記時刻T+L1+L2での前記センサの予測位置姿勢とに基づいて、前記時刻T+L1で前記ユーザに提示するセンサデータの補正を行う処理部
 として機能させるためのプログラム。
 1 遠隔操作システム, 11 操作対象システム, 12 操作者システム, 41 撮像部(カメラ), 42 センサ部, 43,82 記録部, 44 制御部, 45,84 通信部, 46,85 画像処理演算部, 81 操作部, 83 表示部

Claims (15)

  1.  位置姿勢の変更として位置及び姿勢のうちの少なくとも一方の変更が可能なセンサにより時刻Tで得られたセンサデータがユーザに提示される時刻T+L1と、前記時刻T以後に行われた前記ユーザの操作に従って前記センサの位置姿勢の変更が行われる時刻T+L1+L2と対して、前記時刻Tで得られたセンサデータと、前記時刻T+L1+L2における前記センサの位置姿勢として予測される前記時刻T+L1+L2での前記センサの予測位置姿勢とに基づいて、前記時刻T+L1で前記ユーザに提示するセンサデータの補正を行う処理部
     を有する情報処理装置。
  2.  前記処理部は、前記予測位置姿勢の前記センサにより得られるセンサデータをユーザに提示するための前記補正を行う
     請求項1に記載の情報処理装置。
  3.  前記処理部は、前記時刻Tにおける前記センサの物理量に基づいて前記予測位置姿勢を算出する
     請求項1に記載の情報処理装置。
  4.  前記処理部は、前記時刻Tにおける前記センサの位置姿勢、速度、及び、加速度に基づいて前記予測位置姿勢を算出する
     請求項3に記載の情報処理装置。
  5.  前記処理部は、前記時刻Tにおける前記センサの位置姿勢をSLAMを用いて推定する
     請求項4に記載の情報処理装置。
  6.  前記処理部に対して通信によりデータを送信する予測部を有し、
     前記予測部は、前記時刻Tにおける前記センサの物理量に基づいて前記予測位置姿勢を算出し、算出した前記予測位置姿勢のデータを前記処理部に送信する
     請求項1に記載の情報処理装置。
  7.  前記時刻Tと前記時刻T+L1との間の遅延時間L1は、前記センサデータの通信に要する時間を含む
     請求項1に記載の情報処理装置。
  8.  前記時刻T+L1と前記時刻T+L1+L2との間の遅延時間L2は、前記ユーザの操作に関するデータの通信に要する時間を含む
     請求項1に記載の情報処理装置。
  9.  前記時刻T+L1と前記時刻T+L1+L2との間の遅延時間L2は、前記センサデータが前記ユーザに提示された後、前記ユーザが前記操作を行うまでの反応時間を含む
     請求項1に記載の情報処理装置。
  10.  前記センサはカメラであり、
     前記処理部は、前記時刻Tにおいて前記カメラにより撮影されたカメラ画像の前記補正を行う
     請求項1に記載の情報処理装置。
  11.  前記処理部は、前記補正により、前記時刻Tで前記カメラにより撮影された前記時刻Tの前記カメラ画像に対して所定の対象物の画像を重畳した画像を生成し、前記対象物の画像を重畳する位置を、前記時刻T+L1+L2での前記予測位置姿勢の前記カメラにより前記対象物を撮影した場合のカメラ画像における前記対象物の画像の位置とする
     請求項10に記載の情報処理装置。
  12.  前記処理部は、前記時刻Tと前記時刻T+L1+L2との間の時間における前記対象物の移動に伴い変位する前記対象物の画像の前記時刻T+L1+L2における位置を予測した予測位置に基づいて、前記補正を行う
     請求項11に記載の情報処理装置。
  13.  前記処理部は、前記センサを有し、前記センサの位置姿勢が遠隔操作される操作対象システムと、前記センサの位置姿勢を遠隔操作し、かつ、前記センサにより得られた前記センサデータを前記ユーザに提示する操作者システムとのから構成される遠隔操作システムに具備される
     請求項1の情報処理装置。
  14.  処理部
     を有する情報処理装置の
     前記処理部が、位置姿勢の変更として位置及び姿勢のうちの少なくとも一方の変更が可能なセンサにより時刻Tで得られたセンサデータがユーザに提示される時刻T+L1と、前記時刻T以後に行われた前記ユーザの操作に従って前記センサの位置姿勢の変更が行われる時刻T+L1+L2と対して、前記時刻Tで得られたセンサデータと、前記時刻T+L1+L2における前記センサの位置姿勢として予測される前記時刻T+L1+L2での前記センサの予測位置姿勢とに基づいて、前記時刻T+L1で前記ユーザに提示するセンサデータの補正を行う
     情報処理方法。
  15.  コンピュータを
     位置姿勢の変更として位置及び姿勢のうちの少なくとも一方の変更が可能なセンサにより時刻Tで得られたセンサデータがユーザに提示される時刻T+L1と、前記時刻T以後に行われた前記ユーザの操作に従って前記センサの位置姿勢の変更が行われる時刻T+L1+L2と対して、前記時刻Tで得られたセンサデータと、前記時刻T+L1+L2における前記センサの位置姿勢として予測される前記時刻T+L1+L2での前記センサの予測位置姿勢とに基づいて、前記時刻T+L1で前記ユーザに提示するセンサデータの補正を行う処理部
     として機能させるためのプログラム。
PCT/JP2022/004384 2021-05-20 2022-02-04 情報処理装置、情報処理方法、及び、プログラム WO2022244329A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023522220A JPWO2022244329A1 (ja) 2021-05-20 2022-02-04

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021085305 2021-05-20
JP2021-085305 2021-05-20

Publications (1)

Publication Number Publication Date
WO2022244329A1 true WO2022244329A1 (ja) 2022-11-24

Family

ID=84140171

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/004384 WO2022244329A1 (ja) 2021-05-20 2022-02-04 情報処理装置、情報処理方法、及び、プログラム

Country Status (2)

Country Link
JP (1) JPWO2022244329A1 (ja)
WO (1) WO2022244329A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08191487A (ja) * 1995-01-10 1996-07-23 Nissin Electric Co Ltd 遠隔操作システム
US20080267451A1 (en) * 2005-06-23 2008-10-30 Uri Karazi System and Method for Tracking Moving Objects
US20110026774A1 (en) * 2009-02-05 2011-02-03 Elbit Systems Ltd. Controlling an imaging apparatus over a delayed communication link
WO2018087879A1 (ja) * 2016-11-11 2018-05-17 本田技研工業株式会社 遠隔操作システム、交通システム、および遠隔操作方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08191487A (ja) * 1995-01-10 1996-07-23 Nissin Electric Co Ltd 遠隔操作システム
US20080267451A1 (en) * 2005-06-23 2008-10-30 Uri Karazi System and Method for Tracking Moving Objects
US20110026774A1 (en) * 2009-02-05 2011-02-03 Elbit Systems Ltd. Controlling an imaging apparatus over a delayed communication link
WO2018087879A1 (ja) * 2016-11-11 2018-05-17 本田技研工業株式会社 遠隔操作システム、交通システム、および遠隔操作方法

Also Published As

Publication number Publication date
JPWO2022244329A1 (ja) 2022-11-24

Similar Documents

Publication Publication Date Title
WO2017057054A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6556015B2 (ja) 情報処理装置、位置および/または姿勢の推定方法、およびコンピュータプログラム
WO2017167280A1 (zh) 一种路径控制方法、路径规划方法、第一设备及第二设备、计算机存储介质
JP2022009671A (ja) 監視方法、監視システムおよびコンピュータプログラム
JP6586834B2 (ja) 作業支援方法、作業支援プログラム、及び作業支援システム
US10356301B2 (en) Imaging system, angle-of-view adjustment method, and angle-of-view adjustment program
JP2016525842A (ja) カメラ動き予測及び修正のための方法
WO2005076620A1 (ja) 検出領域調整装置
WO2017038680A1 (ja) 対象物の3次元画像データを生成するためのシステム、方法、プログラム
KR20170044451A (ko) 헤드 마운트 디스플레이를 이용한 원격지 카메라 제어 시스템 및 방법
JP2006000977A (ja) ロボット環境間力作用状態呈示装置
KR20170011927A (ko) 손 제스처 인식용 초광각 카메라 시스템 및 그가 적용된 TVI(Transport Video Interface) 장치
WO2022244329A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP5771508B2 (ja) 表示装置、撮像装置、および映像表示システム
CN103475808B (zh) 给图像拍摄装置的操作者显示图像的方法、系统和装置
CN105262982B (zh) 机器人控制系统
JP7379785B2 (ja) 3dツアーの比較表示システム及び方法
KR101452372B1 (ko) 카메라 제어 방법 및 그 시스템
US20230177781A1 (en) Information processing apparatus, information processing method, and information processing program
WO2021106436A1 (ja) 画像処理装置、および画像処理方法、並びにプログラム
US20220244726A1 (en) Information processing apparatus, information processing method, and program
US10891805B2 (en) 3D model establishing device and calibration method applying to the same
CN114651280A (zh) 多无人机视觉内容捕获系统
CN114586335A (zh) 图像处理装置、图像处理方法、程序及记录介质
CN108616702B (zh) 图像处理方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22804251

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023522220

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22804251

Country of ref document: EP

Kind code of ref document: A1