WO2021230366A1 - 遠隔作業装置とそのプログラム - Google Patents

遠隔作業装置とそのプログラム Download PDF

Info

Publication number
WO2021230366A1
WO2021230366A1 PCT/JP2021/018478 JP2021018478W WO2021230366A1 WO 2021230366 A1 WO2021230366 A1 WO 2021230366A1 JP 2021018478 W JP2021018478 W JP 2021018478W WO 2021230366 A1 WO2021230366 A1 WO 2021230366A1
Authority
WO
WIPO (PCT)
Prior art keywords
video data
video
scene
camera
unit
Prior art date
Application number
PCT/JP2021/018478
Other languages
English (en)
French (fr)
Inventor
聡哉 中蔵
Original Assignee
エヌ・ティ・ティ・コミュニケーションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エヌ・ティ・ティ・コミュニケーションズ株式会社 filed Critical エヌ・ティ・ティ・コミュニケーションズ株式会社
Priority to EP21803460.1A priority Critical patent/EP4151370A4/en
Priority to CN202180035032.3A priority patent/CN115552892A/zh
Publication of WO2021230366A1 publication Critical patent/WO2021230366A1/ja
Priority to US18/054,237 priority patent/US20230069407A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/147Digital output to display device ; Cooperation and interconnection of the display device with other functional units using display panels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/008Manipulators for service tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/38Outdoor scenes
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/02Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the way in which colour is displayed
    • G09G5/028Circuits for converting colour display signals into monochrome display signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/398Synchronisation thereof; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/06Adjustment of display parameters
    • G09G2320/0613The adjustment depending on the type of the information to be displayed
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/10Special adaptations of display systems for operation with variable images
    • G09G2320/106Determination of movement vectors or equivalent parameters within the image
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2350/00Solving problems of bandwidth in display systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2360/00Aspects of the architecture of display systems
    • G09G2360/10Display system comprising arrangements, such as a coprocessor, specific for motion video images
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2370/00Aspects of data communication
    • G09G2370/02Networking aspects
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2370/00Aspects of data communication
    • G09G2370/04Exchange of auxiliary data, i.e. other than image data, between monitor and graphics controller
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2370/00Aspects of data communication
    • G09G2370/16Use of wireless transmission of display information
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2380/00Specific applications
    • G09G2380/14Electronic books and readers
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2380/00Specific applications
    • G09G2380/16Digital picture frames
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G3/00Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes
    • G09G3/001Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes using specific devices not provided for in groups G09G3/02 - G09G3/36, e.g. using an intermediate record carrier such as a film slide; Projection systems; Display of non-alphanumerical information, solely or in combination with alphanumerical information, e.g. digital display on projected diapositive as background
    • G09G3/003Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes using specific devices not provided for in groups G09G3/02 - G09G3/36, e.g. using an intermediate record carrier such as a film slide; Projection systems; Display of non-alphanumerical information, solely or in combination with alphanumerical information, e.g. digital display on projected diapositive as background to produce spatial visual effects

Definitions

  • An embodiment of the present invention relates to, for example, a remote work device capable of communicating with a user device via a network, and a program used in the remote work device.
  • a remote control system has been developed in which a user controls the operation of a robot while watching an image transmitted from a robot in a remote location via a network.
  • a head-mounted display hereinafter, also referred to as a headset
  • the user is configured to remotely control the movement of the robot by moving his / her body or operating the controller while watching the image captured by the robot existing in the remote place with the headset.
  • AR Augmented Reality
  • VR Virtual Reality
  • the conventional system has the following problems to be solved. That is, when the captured video is transmitted via the network, the communication environment is affected in a simple system in which the compression condition of the video is fixed to be constant. Especially in a wireless environment, when a user moves to an environment where radio waves are weak, the communication band that can be transmitted narrows within a certain period of time, so when trying to transmit high-quality video, for example, frames are missing and the video becomes skipped. , Noise is superimposed, transmission delay occurs, etc., which causes deterioration of transmission quality.
  • Adaptive Bitrate Streaming In order to solve this, a method called Adaptive Bitrate Streaming was conventionally devised. This method estimates the communication band and changes the degree of compression of the video so that it falls within that range. For example, measures are taken such as lowering the resolution of the video to reduce the data transmission capacity.
  • the present invention has been made by paying attention to the above circumstances, and is intended to provide a technique for improving the visibility of a user by appropriately compressing an image obtained at a remote location.
  • the first aspect of the present invention is a remote working device capable of communicating with a user device connected to a display unit via a network, and is imaged by the camera from the camera.
  • the video data acquisition unit that acquires the video data of the target
  • the state detection data acquisition unit that acquires the state detection data that represents at least one of the position and operation of the remote work device detected by the sensor from the sensor.
  • a determination unit that determines an action scene of the remote work device based on the video data and the state detection data, a selection unit that selects a video parameter to be adjusted according to the determined action scene, and the video data. It is configured to include a control unit for adjusting the selected video parameter and a transmission unit for transmitting the video data after the video parameter is adjusted to the user apparatus via the network. Is.
  • a second aspect of the present invention is a remote work device capable of communicating with a user device connected to a display unit via a network, and the image data of an object captured by the camera is obtained from the camera.
  • a state detection data acquisition unit that acquires state detection data representing at least one of the position and operation of the remote work device detected by the sensor from the video data acquisition unit to be acquired, the acquired video data, and the acquired video data.
  • a determination unit that determines an action scene of the remote work device based on the state detection data, a selection unit that selects an imaging mode corresponding to the determined action scene, and an imaging mode selected for the camera. It is configured to include a control unit for setting the above and a transmission unit for transmitting the video data captured by the camera using the set imaging mode to the user device via the network. be.
  • the action scene of the remote work device is determined based on the position or movement of the remote work device and the captured image, and the determined action scene is used.
  • the video parameters to be adjusted are selected accordingly.
  • the selected video parameters are adjusted for the video data, and the adjusted video data is transmitted to the user device. Therefore, for each action scene such as a reading scene or a sports watching scene, the video data is adjusted using the video parameter corresponding to the action scene and sent to the user device. Therefore, the remote video compressed by the video parameters suitable for each action scene is transmitted to the user device, whereby the viewer can see the viewerability suitable for each action scene of the remote work device. It is possible to provide good remote video.
  • the action scene of the remote work device is determined based on the position or movement of the remote work device and the captured image, and the determined action scene is used.
  • the imaging mode of the camera is selected accordingly.
  • the selected imaging mode is set for the camera, and the video data captured by the imaging mode is transmitted to the user device via the network. Therefore, for each action scene such as a reading scene or a sports watching scene, video data captured by the imaging mode corresponding to the action scene is sent to the user device.
  • a remote image having a quality suitable for each action scene is transmitted to the user device, whereby the remote image with good viewing property suitable for each action scene of the remote work device is transmitted to the user. Can be provided.
  • each aspect of the present invention it is possible to provide a technique capable of improving the visibility of a user by appropriately compressing an image obtained in a remote place.
  • FIG. 1 is a diagram showing an overall configuration of a remote control system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing a hardware configuration of a head-mounted display worn by a user in the remote control system shown in FIG.
  • FIG. 3 is a block diagram showing a hardware configuration of an information processing device used as a user device in the remote control system shown in FIG.
  • FIG. 4 is a block diagram showing a hardware configuration of a robot used as a remote work device in the remote control system shown in FIG.
  • FIG. 5 is a block diagram showing a software configuration of a robot used as a remote work device in the remote control system shown in FIG.
  • FIG. 6 is a flowchart showing a processing procedure and processing contents by the robot shown in FIG. FIG.
  • FIG. 7 is a flowchart showing the processing procedure and the processing content of the action scene determination processing and the video parameter selection processing among the robot processing procedures shown in FIG.
  • FIG. 8 is a diagram showing an example of behavioral scene information stored in the storage unit shown in FIG.
  • FIG. 9 is a diagram showing an example of sub-scene information stored in the storage unit shown in FIG.
  • FIG. 10 is a diagram showing an example of video parameter information stored in the storage unit shown in FIG.
  • FIG. 1 is a diagram showing an overall configuration of a remote control system according to an embodiment of the present invention.
  • the remote control system according to the embodiment of the present invention can communicate between the head-mounted display (HMD) 1, the information processing device 2 operating as a user device, and the information processing device 2 via the network 4. It is equipped with a remote work device 3.
  • the remote work device 3 is composed of, for example, a humanoid robot.
  • the remote work device 3 is referred to as a robot.
  • the user device includes only the information processing device 2
  • the user device may include both the information processing device 2 and the HMD 1.
  • the network 4 is composed of, for example, a public IP (Internet Protocol) network such as the Internet and an access network for accessing the public IP network, and the access network includes a LAN (Local Area Network), a wireless LAN, and a public wired network.
  • a public mobile communication network and a CATV (Cable Television) network are used.
  • HMD Head-mounted display 1
  • the HMD1 has a goggle type, for example, and is detachably attached to the user's head.
  • FIG. 2 is a block diagram showing a hardware configuration of HMD1.
  • the HMD 1 has a storage unit 12, a display interface (display I / F) 13, and a sensor interface (sensor I / F) for a control unit 11 having a hardware processor such as a central processing unit (CPU). ) 15 and the communication interface (communication I / F) 17 are connected via the bus 10. In addition, various switches, microphones, speakers, cameras, position sensors, and other devices may be connected to the control unit 11.
  • the storage unit 12 uses a non-volatile memory such as Solid State Drive (SSD) that can be written and read at any time as a storage medium, and has a program storage area and a data storage area. An application program for realizing the operation of the HMD1 is stored in the program storage area.
  • the data storage area is used to store various data acquired or generated in the operation process of the HMD1.
  • ROM ReadOnlyMemory
  • RAM RandomAccessMemory
  • the display unit 14 is connected to the display I / F13.
  • the display unit 14 includes, for example, two display panels made of an organic EL (ElectroLuminescence) display corresponding to the left and right eyes of the user in order to support virtual reality (VR) display.
  • the number of display panels may be one.
  • the display unit 14 is not limited to the organic EL display, and may be another type of display such as a liquid crystal display (Liquid Cristal Display: LCD) or a display using 7 segments.
  • the display I / F 13 causes the display unit 14 to display the video data generated by the information processing apparatus 2 described later.
  • a motion sensor 16 is connected to the sensor I / F15.
  • the motion sensor 16 comprises, for example, a 6-axis angular velocity sensor (gyro sensor), and is used to detect the motion of the HMD 1, that is, the motion of the user's head.
  • the movement of the head to be detected is preferably, for example, a movement in the 6-axis direction, but may be only a movement in the 2-axis direction of pan and tilt.
  • the sensor I / F 15 generates motion detection data representing the movement of the user's head based on the output signal of the motion sensor 16.
  • a magnetic sensor, an acceleration sensor, a position sensor, an infrared sensor, a brightness sensor, a proximity sensor, a camera, or the like may be connected to the sensor I / F15. Further, the sensor I / F15 may be connected to a sensor for detecting the movement of the user's line of sight in addition to the movement of the user's head. The movement of the user's line of sight can be detected, for example, by using a camera that captures the user's eyeball.
  • the communication I / F17 For the communication I / F17, a wired interface using a signal cable such as a Universal Serial Bus (USB) cable is used. Then, the communication I / F 17 receives the video data transmitted from the information processing device 2 under the control of the control unit 11, and transfers the motion detection data and the like generated by the sensor I / F 15 to the information processing device 2. do.
  • a short-range wireless data communication standard for example, Bluetooth (registered trademark) may be used for the communication I / F17.
  • the HMD 1 may be a standard or simplified device having only a display unit 14, a display I / F13, a motion sensor 16 and a sensor I / F15.
  • FIG. 3 is a block diagram showing a hardware configuration of an information processing device 2 used as a user device.
  • the information processing device 2 is composed of a mobile information terminal such as a smartphone or a tablet terminal, or a notebook type or a stationary personal computer.
  • the information processing device 2 provides a control unit 21 having a hardware processor such as a CPU with a storage unit 22, an input / output interface (input / output I / F) 23, and a communication interface (communication I / F) 24 via a bus 20. It is connected.
  • the HMD1 is connected to the input / output I / F23 via the USB cable or wireless interface. Further, an operation unit 256 such as a controller is connected to the input / output I / F 23. When the user remotely controls the operation of the robot 3, the operation unit 25 is used, for example, to input a control target portion, a control direction, and a control amount.
  • the communication I / F 24 includes, for example, an interface compatible with a wireless LAN, a short-range wireless data communication standard (for example, Bluetooth®) or a public mobile communication network, and data is transmitted to and from the robot 3 via the network 4. I do.
  • the communication I / F 24 may be provided with an interface corresponding to a wired network such as a public wired network, a wired LAN, or a CATV network.
  • the storage unit 22 combines, for example, a non-volatile memory such as a Hard Disk Drive (HDD) or SSD that can be written and read at any time, a non-volatile memory such as a ROM, and a volatile memory such as a RAM. It is composed of.
  • the storage area is provided with a program storage area and a data storage area.
  • middleware such as Operating System (OS)
  • application programs necessary for executing various control processes according to the embodiment of the present invention are stored.
  • the data storage area is provided with a video data storage area for temporarily storing video data sent from the robot 3 and a storage area for work used by the control unit 21 to perform various processing operations.
  • the control unit 21 includes a remote control signal transmission unit, a video data reception unit, and a video display control unit as control processing functions for realizing one embodiment of the present invention. All of these control processing functions are realized by causing the hardware processor of the control unit 21 to execute the application program stored in the program storage area in the storage unit 22.
  • the remote control signal transmission unit generates motion control data for controlling the motion of the robot 3 based on the operation data input by the operation unit 25 and the motion detection data obtained by the motion sensor 16 of the HMD 1. Generate.
  • the motion control data includes information representing a controlled target portion, a control direction, and a controlled amount of the robot 3. Then, the remote control signal including the generated motion control data is transmitted from the communication I / F 24 to the robot 3.
  • the video data receiving unit receives the video data transmitted from the robot 3 via the network 4 via the communication I / F 24. Then, after the received video data is decoded, it is temporarily stored in the video data storage area in the storage unit 22.
  • the video display control unit performs video editing processing for AR display or VR display on the video data read from the video data storage area as necessary, and then outputs the video data from the input / output I / F23 to the HMD1. Display.
  • the robot 3 has a body portion, a head portion, an arm portion, and a leg portion, for example, as shown in FIG. Of these, the head, arms, and legs each operate within a predetermined movable range by a drive unit provided with a servo mechanism, whereby the robot 3 can change its posture in various ways.
  • a camera 34 as an image pickup device is installed on the front surface of the head of the robot 3, that is, a portion corresponding to the face. Further, a motion sensor is provided in the head of the robot 3 to detect the motion.
  • the robot 3 includes a control unit 31.
  • the control unit 31 has a hardware processor such as a CPU.
  • the control unit 31 includes a storage unit 32, a sensor interface (sensor I / F) 33, a drive interface (drive I / F) 37, and a communication interface (communication I / F) 39 via a bus 30. It is connected.
  • the camera 34, the motion sensor 35, and the position sensor 36 are connected to the sensor I / F 33.
  • the camera 34 includes, for example, a twin-lens camera capable of capturing a stereoscopic image and a panoramic camera capable of capturing a panoramic image.
  • the twin-lens camera captures the front direction of the robot 3 at a predetermined viewing angle (for example, 130 degrees), and outputs the obtained stereoscopic image data to the sensor I / F33.
  • the panoramic camera captures a range extending from the front direction to both sides of the robot 3 with a wider viewing angle (for example, 180 degrees) than the twin-lens camera, and outputs the obtained panoramic image data to the sensor I / F33.
  • the motion sensor 35 is composed of, for example, a 6-axis acceleration sensor, detects the motion of the head of the robot 3 in the 6-axis direction, and outputs the detected data to the sensor I / F33.
  • the position sensor 36 measures the position of the robot 3 by using, for example, the Global Positioning System (GPS), and outputs the measured position data to the sensor I / F 33.
  • GPS Global Positioning System
  • a drive unit 38 for driving the head, arms, and legs is connected to the drive I / F 37.
  • the drive I / F 37 converts the control signal output from the control unit 31 into a drive signal, outputs the converted drive signal to the drive unit 38, and operates the drive unit 38.
  • the communication I / F 39 includes an interface corresponding to, for example, a wireless LAN, a short-range wireless data communication standard (for example, Bluetooth (registered trademark)), or a public mobile communication network, and is connected to the information processing apparatus 2 via the network 4. Data is transmitted with.
  • the communication I / F 30 may be provided with an interface corresponding to a wired network such as a public wired network, a wired LAN, or a CATV network.
  • the storage unit 32 is configured by using a non-volatile memory such as SSD or the like that can be written and read at any time, a ROM, and a RAM, and has a program storage area and a data storage area.
  • a program storage area in addition to middleware such as an OS, various application programs for realizing the operation of the robot 3 are stored.
  • the data storage area is provided with a video data storage unit 321, an action scene storage unit 322, and a video parameter storage unit 323.
  • the video data storage unit 321 functions as a buffer memory for temporarily storing the video data captured by the camera 34 for performing video processing described later.
  • the action scene storage unit 322 stores a first table for storing information representing a plurality of scenes assumed as action scenes of the robot 3, and a first table for storing information representing a plurality of subscenes in which the action scenes are further classified. It has 2 tables.
  • information representing the assumed behavior scene of the robot 3 is stored in association with the combination of the position and movement of the robot 3 and the image of the camera 34.
  • information representing a plurality of sub-scenes assumed from the video is stored for each of the action scenes defined in the first table.
  • Information representing an action scene and information representing a sub-scene will be described later with an example.
  • the above-mentioned behavior scene information and its sub-scene information may be stored in a table in advance by an administrator or the like, but are appropriately acquired from, for example, a scheduler of a user's terminal device or a system that predicts the behavior of another user. It may be stored in the table. By doing so, it is possible to appropriately infer the behavior for each user and set the behavior scene information and the sub-scene information accordingly.
  • the schedule of the meeting is described in the scheduler, it is necessary to read the meeting materials, so it is possible to adjust the video parameters to the settings according to reading, and the schedule of watching the baseball game is described in the scheduler. If so, it is possible to adjust the video parameters to the settings corresponding to watching sports.
  • the video parameter storage unit 323 stores video parameters preset for the sub-scene in association with each sub-scene for each of the above action scenes. This video parameter will also be described later with an example.
  • the control unit 31 includes a remote control signal receiving unit 311, a motion control data extraction unit 312, a drive control unit 313, a video data acquisition unit 314, and a position / motion unit as processing function units according to an embodiment of the present invention. It includes a detection data acquisition unit 315, an action scene determination unit 316, a video control unit 317, a video processing unit 318, and a video transmission unit 319. All of these control processing units are realized by causing the hardware processor of the control unit 31 to execute the program stored in the storage unit 32.
  • the remote control signal receiving unit 311 receives the remote control signal transmitted from the information processing device 2 via the network 4 via the communication I / F 39, and transmits the received remote control signal to the motion control data extraction unit 312. Perform the process of passing.
  • the motion control data extraction unit 312 extracts motion control data from the remote control signal and passes it to the drive control unit 313.
  • the drive control unit 313 selects the corresponding drive unit 38 based on the information for designating the controlled target portion included in the extracted motion control data, and designates the control direction and the control amount included in the motion control data. Based on the information, a drive control signal for driving the selected drive unit 38 is generated. Then, a process of outputting the generated drive control signal to the drive I / F 37 is performed. The drive I / F 37 generates a drive signal based on the drive control signal and gives it to the drive unit 38.
  • the video data acquisition unit 314 captures stereoscopic video data or panoramic video data captured by the camera 34 via the sensor I / F 33, and temporarily stores the stereoscopic video data or panoramic video data in the video data storage unit 321 for video processing described later.
  • the position / motion detection data acquisition unit 315 captures the position data detected by the position sensor 36 and the motion detection data representing the movement of the head of the robot 3 detected by the motion sensor 35 via the sensor I / F33. Perform processing.
  • the action scene determination unit 316 extracts the feature amount from the position data and the motion detection data acquired by the position / motion detection data acquisition unit 315 and the video data acquired by the video data acquisition unit 314. Then, based on each of the extracted feature quantities, the action scene storage unit 322 is referred to, and a process of determining the current action scene of the robot 3 and its subscene is performed.
  • the video control unit 317 selects a video parameter corresponding to the action scene and the sub-scene from the video parameter storage unit 323 based on the action scene and its sub-scene determined by the action scene determination unit 316. Then, the video parameter is given to the video processing unit 318.
  • the video processing unit 318 reads the video data from the video data storage unit 321 and performs a process of adjusting the video parameters given by the video control unit 317 for the video data.
  • An example of the video parameter adjustment process will be described in detail later.
  • the video transmission unit 319 performs a process of transmitting the video data after the video processing by the video processing unit 318 from the communication I / F 39 to the information processing device 2.
  • FIG. 6 is a flowchart showing an example of the entire processing procedure and processing content by the robot 3.
  • the robot 3 transmits the remote control signal via the communication I / F 39 in step S11 under the control of the remote control signal receiving unit 311. Receive. Then, under the control of the motion control data extraction unit 312, motion control data is extracted from the remote control signal in step S12.
  • the robot 3 selects the corresponding drive unit 38 based on the information for designating the control target portion included in the motion control data in step S13 under the control of the drive control unit 313. Then, based on the information that specifies the control direction and the control amount included in the motion control data, a drive control signal for driving the selected drive unit 38 is generated, and the generated drive control signal is driven. Output to I / F37. As a result, a drive signal is given from the drive I / F 37 to the drive unit 38, and the drive unit 38 is driven to operate the corresponding portion.
  • the corresponding drive unit 38 is driven, and the direction of the head changes, for example, in the pan direction or the tilt direction.
  • the controlled object portion is a leg portion
  • the corresponding driving portion 38 is driven, and the robot 3 walks, for example, in the front-rear direction.
  • Other parts also operate in the same manner according to the drive control signal.
  • control unit 31 of the robot 3 receives video data from the camera 34 attached to the head in step S14 under the control of the video data acquisition unit 314. Is taken in via the sensor I / F33, and the video data is temporarily stored in the video data storage unit 321.
  • control unit 31 of the robot 3 receives motion detection data representing a change in the movement of the head of the robot 3 from the motion sensor 35 in step S15 under the control of the position / motion detection data acquisition unit 315. Capture via / F33. Further, in step S16, the position data indicating the current position of the robot 3 is taken from the position sensor 36 via the sensor I / F 33.
  • FIG. 7 is a flowchart showing the processing procedure and the processing content.
  • the action scene determination unit 316 is first characterized by the position data and motion detection data acquired by the position / motion detection data acquisition unit 315 and the video data acquired by the video data acquisition unit 314 in step S21. Determine the amount. Then, the action scene storage unit 322 is searched based on each of the determined feature amounts, and the action scene of the robot 3 is determined.
  • the action scene determination unit 316 first determines that the feature amount indicating the position of the robot 3 is "home” based on the position data and the map data stored in the storage unit 32. Further, based on the motion detection data, it is determined that the feature amount indicating the motion of the robot 3 is the "rest state”. Furthermore, the "book” shown in the video data is determined as a feature amount. Then, the action scene determination unit 316 determines the current action scene of the robot 3 as "reading” based on the action scene information shown in FIG. 8 stored in the first table of the action scene storage unit 322. ..
  • the scene determination unit 316 determines that the action scene of the robot 3 at this time is “reading”. If the feature amount at the current position of the robot 3 is "home”, the feature amount of the movement of the robot 3 is determined to be “operating state”, and the feature amount extracted from the video is "kitchen”, the action scene. The determination unit 316 determines that the action scene of the robot 3 at this time is "cooking”.
  • the feature amount of the current position of the robot 3 is determined to be the "sports center” from the position data and the map data stored in the storage unit 32, and the feature amount of the movement of the robot 3 is "stationary state" by the motion detection data. It is assumed that the feature amount extracted from the video data is "field or coat". In this case, the action scene determination unit 316 determines that the current action scene of the robot 3 is "watching sports” based on the action scene information shown in FIG.
  • the action scene determination unit 316 is then stored in the second table of the action scene storage unit 322 and the feature amount extracted from the video data in step S22. Based on the sub-scene information, the sub-scenes further classified from the reading scene are determined.
  • the action scene determination unit 316 determines that the sub-scene is a reading scene of a "literary book” such as a book or a paperback book.
  • the image of the "book”, which is a feature amount extracted from the video data is "color-based”.
  • the action scene determination unit 316 determines that the sub-scene is a reading scene of a "reference document” such as a gravure, a picture book, or a picture book.
  • control unit 31 of the robot 3 is set in accordance with the above sub-scene with reference to the video parameter storage unit 323 under the control of the video control unit 317. Select the video parameters.
  • the video parameter information shown in FIG. 10 is currently stored in the video parameter storage unit 323.
  • the video control unit 317 has "brightness” together with "spatial resolution” as a video parameter that is prioritized when reading the literary book by video in step S23. Select.
  • the image control unit 317 has "color tone” together with "spatial resolution” as a priority image parameter when reading the reference document in the image in step S24. Select.
  • the control unit 31 of the robot 3 adjusts the selected video parameter with respect to the video data read from the video data storage unit 321 in step S17 under the control of the video processing unit 318. Perform processing. Then, the adjusted video data is transmitted from the communication I / F 39 to the information processing apparatus 2 in step S18 under the control of the video transmission unit 319.
  • the video processing unit 318 when “spatial resolution” and "luminance” are selected as video parameters, the video processing unit 318 performs video processing on the video data so that the spatial resolution becomes, for example, a preset high resolution. , Further, the process of increasing the brightness to a predetermined level is performed. Then, the video transmission unit 319 transmits the processed video data to the information processing apparatus 2.
  • the video processing unit 318 processes the video data so that, for example, the spatial resolution becomes a preset high resolution. And further, a process of increasing the color saturation to a predetermined level is performed. Then, the video transmission unit 319 transmits the video data after the video processing to the information processing device 2.
  • a method for adjusting the so-called aperture function of the camera may be used in addition to the method for adjusting the video data.
  • the action scene determination unit 316 displays the video data and the second table of the action scene storage unit 322 in step S25. Based on the stored sub-scene information, the sub-scene, which is a sub-category, is determined from "watching sports".
  • the action scene determination unit 316 determines that the user is watching a "field game” such as soccer or rugby as a sub-scene.
  • the action scene determination unit 316 determines that the player is watching a "court game” such as basketball or volleyball as a sub-scene.
  • control unit 31 of the robot 3 is set corresponding to the sub-scene with reference to the video parameter storage unit 323 under the control of the video control unit 317. Select video parameters.
  • the video control unit 317 has "time resolution” and "viewing angle” as video parameters that are prioritized when watching the field game by video in step S26. Select.
  • the video control unit 317 sets "time resolution” as a video parameter prioritized when watching the court game by video in step S27. Select "Three-dimensional effect”.
  • control unit 31 of the robot 3 performs a process of adjusting the selected video parameter for the video data in step S17 under the control of the video processing unit 318. Then, the video data adjusted with the video parameters is transmitted from the communication I / F 39 to the information processing apparatus 2 in step S18 under the control of the video transmission unit 319.
  • the video processing unit 318 when “time resolution” and “viewing angle” are selected as video parameters, the video processing unit 318 selectively reads out panoramic video data having a high frame rate and a large viewing angle from the video data storage unit 321. .. Then, the video transmission unit 319 transmits the panoramic video data to the information processing device 2.
  • the video processing unit 318 when “time resolution” and “stereoscopic effect” are selected as the video parameters, the video processing unit 318 selectively selects stereoscopic video data having a high frame rate and a stereoscopic effect from the video data storage unit 321. Read to. Then, the video transmission unit 319 transmits the stereoscopic video data to the information processing device 2.
  • the selection of the panoramic image and the stereoscopic image may be performed by giving an instruction to switch the imaging mode to the camera 34 and switching the image data output from the camera 34.
  • the panoramic image and the stereoscopic image may be combined by matching the coordinate positions, but when watching a field game, the distance from the camera to the field is generally used. Because it is far away, the effect on viewing is small even if the frame rate is not so high.
  • the robot 3 when the robot 3 tries to view the image of the field game captured by the robot 3 in the stadium or the like by the HMD 1, the user can see the panoramic image with a wide viewing angle over a wide range without exception.
  • the robot 3 when the robot 3 tries to view the image of the court game captured by the arena or the like on the HMD 1, the user can see the image with a sense of reality by the stereoscopic image having a high frame rate.
  • the action scene of the robot 3 is determined and determined based on the feature amount derived from the position and movement detection data and the video data.
  • the video parameters corresponding to the above action scenes are selected.
  • a process of adjusting the selected video parameter is performed on the video data, and the processed video data is sent to the information processing apparatus 2 on the user side via the network 4 and displayed on the HMD 1.
  • the robot 3 autonomously performs the video parameter adjustment process for the video data. Therefore, it is not necessary for the user-side device, that is, the information processing device 2 or HMD1, to have a special processing function for adjusting the video parameters, whereby the user can use the general-purpose information processing device 2 or HMD1. There are advantages.
  • a camera has a plurality of imaging modes such as a mode of shooting at a low time resolution (15FPSFPS) and a high spatial resolution (4K) and a mode of shooting at a high time resolution (120FPS) and a low spatial resolution (VGA). It is prepared.
  • FPSFPS low time resolution
  • 4K high spatial resolution
  • 120FPS high time resolution
  • VGA low spatial resolution
  • the image pickup mode is selectively set in the camera according to the action scene of the robot 3 and the image pickup is performed under this condition, the video data having the time resolution or the spatial resolution suitable for the action scene of the robot 3 is performed. Can be transmitted to the user device, and the same effect as that of the above-described embodiment can be obtained.
  • a memory table storing pre-prepared action scene information and video parameter information is provided, and the action scene and sub-scene are determined and video parameters are selected with reference to this memory table. I made it.
  • machine learning such as deep learning may be used to select the optimal video parameters. For example, features are extracted from robot position data, motion detection data, video data, etc., each extracted feature is input to a trained learning model, and optimal video parameters are output from the learning model. It can be realized by doing.
  • the information processing device 2 provided separately from the HMD 1 is used to perform data communication and video display control with the robot 3.
  • the HMD 1 has the function of the information processing device 2, that is, when the HMD integrated with the information processing device is used, the HMD 1 is configured to perform data communication with the robot 3 and video display control. You may.
  • the remote work device is not limited to a humanoid robot, and a movable remote camera or smart speaker fixedly installed indoors or outdoors may be used.
  • the types of remote work devices, their configurations and processing contents, the types and numbers of imaging modes possessed by the cameras, the types and configurations of user devices, the types of remote images, etc. are also variously modified without departing from the gist of the present invention. Can be carried out.
  • the present invention is not limited to the above embodiment as it is, and at the implementation stage, the components can be modified and embodied within a range that does not deviate from the gist thereof.
  • various inventions can be formed by an appropriate combination of the plurality of components disclosed in the above-described embodiment. For example, some components may be removed from all the components shown in the embodiments. In addition, components from different embodiments may be combined as appropriate.
  • HMD Head-mounted display
  • Information processing device 3 ... Robot 4 ... Network 10, 20, 30 ... Bus 11, 21, 31 ... Control unit 12, 22, 32 ... Storage unit 13 ... Display interface (display I / F) 14 ... Display unit 15, 33 ... Sensor interface (sensor I / F) 16, 35 ... Motion sensor 17, 24, 39 ... Communication interface (communication I / F) 23 ... Input / output interface (input / output I / F) 25 ... Operation unit 34 ... Camera 35 ... Motion sensor 36 ... Position sensor 37 ... Drive interface (drive I / F) 38 ... Drive unit 311 ... Remote control signal reception unit 312 ... Motion control data extraction unit 313 ... Drive control unit 314 ... Video data acquisition unit 315 ... Position / motion detection data acquisition unit 316 ... Action scene determination unit 317 ... Video control unit 318 ... Video processing unit 319 ... Video transmission unit 321 ... Video data storage unit 322 ... Action scene storage unit 323 ... Video parameter storage unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Manipulator (AREA)
  • Selective Calling Equipment (AREA)
  • Processing Or Creating Images (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

遠隔地で得られる映像に対し適切な圧縮を行えるようにしてユーザの視認性の向上を図る。遠隔地のロボット(3)において、その位置および動きの検出データと映像データとから導出される特徴量をもとにロボット(3)の行動シーンが判定され、判定された上記行動シーンに対応した映像パラメータまたは撮像モードが選択される。そして、映像データについて上記選択された映像パラメータを調整する処理、またはカメラに対し上記選択された撮像モードを設定する処理が行われ、この処理後の映像データがネットワーク(4)を介してユーザ側の情報処理装置(2)に送られ、HMD(1)に表示される。

Description

遠隔作業装置とそのプログラム
 この発明の実施形態は、例えばユーザ装置との間でネットワークを介して通信が可能な遠隔作業装置と、この遠隔作業装置で使用されるプログラムに関する。
 ユーザが、遠隔地に存在するロボットからネットワークを介して送信される映像を見ながら、ロボットの動作を制御する遠隔制御するシステムが開発されている。この種のシステムは、例えば、ユーザの頭部にヘッドマウントディスプレイ(Head Mount Display:HMD)(以後ヘッドセットとも称する)を装着する。そしてユーザが、遠隔地に存在するロボットが撮像した映像をヘッドセットにより見ながら自身の体を動かすかまたはコントローラを操作することで、上記ロボットの動きを遠隔制御するように構成される。
 また、この種のシステムでは、例えば、拡張現実(Augmented Reality;AR)の技術または仮想現実(Virtual Reality:VR)の技術を用いて、ロボットから送られる映像をもとにAR映像またはVR映像を生成し、ヘッドセットに表示することにより、ユーザが高い没入感を得ることができるようにしている。
日本国特開2019-106628号公報
 ところが、従来のシステムには、以下のような解決すべき課題があった。すなわち、撮影された映像をネットワークを介して伝送する場合、映像の圧縮条件が一定に固定される単純なシステムでは、通信環境の影響を受ける。特に無線環境では、ユーザが電波が弱い環境に移動すると、一定時間内に伝送可能な通信帯域が狭くなるため、高品質な映像を伝送しようとすると、例えばフレームが欠落して飛び飛びの映像になったり、ノイズが重畳したり、伝送遅延等が発生し、伝送品質の劣化を招く。
 これを解決するために、従来Adaptive Bitrate Streamingという手法が考案された。この手法は、通信帯域を推定し、その範囲内に収まるように映像の圧縮度合いを変更するというものである。例えば、映像の解像度を低くしてデータの伝送容量を削減するといった対応が行われる。
 しかしこの手法では、空間解像度または時間解像度のどちらかを積極的に担保すべき映像であっても、映像の種類を考慮しないAdaptive Bitrate Streamingの実装系のアルゴリズムに従い圧縮処理を施されてしまう。このため、遠隔制御システムのように、遠隔地のロボットにより様々なシーンの映像を撮像し、これらの映像をユーザがHMD等を用いて視聴する場合には、視聴に必要な映像品質が得られず実用に適さなくなることが想定される。
 この発明は上記事情に着目してなされたもので、遠隔地で得られる映像に対し適切な圧縮を行えるようにしてユーザの視認性の向上を図る技術を提供しようとするものである。
 上記課題を解決するためにこの発明の第1の態様は、表示部に接続されるユーザ装置との間でネットワークを介して通信が可能な遠隔作業装置であって、カメラから当該カメラにより撮像された対象の映像データを取得する映像データ取得部と、センサから当該センサにより検出された前記遠隔作業装置の位置および動作の少なくとも一方を表す状態検出データを取得する状態検出データ取得部と、取得された前記映像データおよび前記状態検出データに基づいて前記遠隔作業装置の行動シーンを判定する判定部と、判定された前記行動シーンに応じて調整対象の映像パラメータを選択する選択部と、前記映像データについて前記選択された映像パラメータを調整する制御部と、前記映像パラメータが調整された後の前記映像データを、前記ネットワークを介して前記ユーザ装置へ送信する送信部とを具備するように構成したものである。
 この発明の第2の態様は、表示部に接続されるユーザ装置との間でネットワークを介して通信が可能な遠隔作業装置であって、カメラから、当該カメラにより撮像された対象の映像データを取得する映像データ取得部と、センサから、当該センサにより検出された前記遠隔作業装置の位置および動作の少なくとも一方を表す状態検出データを取得する状態検出データ取得部と、取得された前記映像データおよび前記状態検出データに基づいて、前記遠隔作業装置の行動シーンを判定する判定部と、判定された前記行動シーンに対応する撮像モードを選択する選択部と、前記カメラに対し前記選択された撮像モードを設定する制御部と、前記設定された撮像モードを用いて前記カメラにより撮像された前記映像データを、前記ネットワークを介して前記ユーザ装置へ送信する送信部とを具備するように構成したものである。
 この発明の第1の態様によれば、遠隔作業装置において、当該遠隔作業装置の位置または動きと撮像された映像をもとに遠隔作業装置の行動シーンが判定され、判定された上記行動シーンに応じて調整対象の映像パラメータが選択される。そして、映像データについて、上記選択された映像パラメータが調整され、調整後の映像データがユーザ装置へ送信される。このため、例えば、読書シーンやスポーツ観戦シーン等、行動シーンごとに、当該行動シーンに対応する映像パラメータを用いて映像データが調整され、ユーザ装置へ送られる。このため、行動シーンごとにそれに適した映像パラメータにより圧縮されたリモート映像がユーザ装置へ伝送されることになり、これによりユーザに対し、遠隔作業装置の行動シーンごとにシーンに適した視聴性の良いリモート映像を提供することが可能となる。
 この発明の第2の態様によれば、遠隔作業装置において、当該遠隔作業装置の位置または動きと撮像された映像をもとに遠隔作業装置の行動シーンが判定され、判定された上記行動シーンに応じてカメラの撮像モードが選択される。そして、カメラに対し前記選択された撮像モードが設定され、当該撮像モードにより撮像された映像データがネットワークを介してユーザ装置へ伝送される。このため、例えば、読書シーンやスポーツ観戦シーン等、行動シーンごとに、当該行動シーンに対応する撮像モードにより撮像された映像データがユーザ装置へ送られる。このため、行動シーンごとにそれに適した品質を有するリモート映像がユーザ装置へ伝送されることになり、これによりユーザに対し、遠隔作業装置の行動シーンごとにシーンに適した視聴性の良いリモート映像を提供することが可能となる。
 すなわちこの発明の各態様によれば、遠隔地で得られる映像に対し適切な圧縮を行えるようにしてユーザの視認性の向上を図ることが可能な技術を提供することができる。
図1は、この発明の一実施形態に係る遠隔制御システムの全体構成を示す図である。 図2は、図1に示した遠隔制御システムにおいてユーザが装着するヘッドマウントディスプレイのハードウェア構成を示すブロック図である。 図3は、図1に示した遠隔制御システムにおいてユーザ装置として使用される情報処理装置のハードウェア構成を示すブロック図である。 図4は、図1に示した遠隔制御システムにおいて遠隔作業装置として使用されるロボットのハードウェア構成を示すブロック図である。 図5は、図1に示した遠隔制御システムにおいて遠隔作業装置として使用されるロボットのソフトウェア構成を示すブロック図である。 図6は、図5に示したロボットによる処理手順と処理内容を示すフローチャートである。 図7は、図6に示したロボットの処理手順のうち行動シーンの判定処理と映像パラメータの選択処理の処理手順と処理内容を示すフローチャートである。 図8は、図5に示した記憶部に記憶される行動シーン情報の一例を示す図である。 図9は、図5に示した記憶部に記憶されるサブシーン情報の一例を示す図である。 図10は、図5に示した記憶部に記憶される映像パラメータ情報の一例を示す図である。
 以下、図面を参照してこの発明に係わる実施形態を説明する。
 [一実施形態]
 (構成例)
 (1)システム
 図1は、この発明の一実施形態に係る遠隔制御システムの全体構成を示す図である。
この発明の一実施形態に係る遠隔制御システムは、ヘッドマウントディスプレイ(HMD)1と、ユーザ装置として動作する情報処理装置2と、上記情報処理装置2との間でネットワーク4を介して通信が可能な遠隔作業装置3とを備えている。遠隔作業装置3は、例えば人型をなすロボットからなる。以後、この実施形態では遠隔作業装置3をロボットと呼ぶ。
 なお、この実施形態ではユーザ装置が情報処理装置2のみを含む場合を例にとって説明するが、ユーザ装置は情報処理装置2とHMD1の両方を含んでいてもよい。
 ネットワーク4は、例えばインターネット等の公衆IP(Internet Protocol)網と、当該公衆IP網にアクセスするためのアクセス網とからなり、アクセス網にはLAN(Local Area Network)、無線LAN、公衆有線ネットワーク、公衆移動通信ネットワーク、CATV(Cable Television)ネットワークが用いられる。
 (2)装置
 (2-1)ヘッドマウントディスプレイ(HMD)1
 HMD1は、例えばゴーグル型をなし、ユーザの頭部に着脱自在に装着される。図2は、HMD1のハードウェア構成を示すブロック図である。
 HMD1は、例えば中央処理ユニット(Central Processing Unit:CPU)等のハードウェアプロセッサを有する制御部11に対し、記憶部12と、表示インタフェース(表示I/F)13と、センサインタフェース(センサI/F)15と、通信インタフェース(通信I/F)17を、バス10を介して接続したものとなっている。なお、上記制御部11には、他に、各種スイッチやマイクロフォン、スピーカ、カメラ、位置センサ等のデバイスが接続されてもよい。
 記憶部12は、記憶媒体として例えばSolid State Drive(SSD)等の随時書込みおよび読出しが可能な不揮発性メモリを用いたもので、プログラム記憶領域とデータ記憶領域とを有する。プログラム記憶領域には、HMD1の動作を実現するためのアプリケーション・プログラムが格納される。データ記憶領域は、HMD1の動作過程で取得或いは生成された各種データを保存するために用いられる。なお、記憶媒体としては、他にRead Only Memory(ROM)やRandom Access Memory(RAM)等を併用することも可能である。
 表示I/F13には表示部14が接続される。表示部14は、例えば、有機EL(Electro Luminescence)ディスプレイからなる表示パネルを、仮想現実(Virtual Reality:VR)表示に対応するためにユーザの左右の眼に対応して2枚備える。なお、表示パネルは1枚であってもよい。また表示部14は、有機ELディスプレイに限られるものではなく、例えば液晶ディスプレイ(Liquid Cristal Display:LCD)や7セグメントを用いた表示器等の、他のタイプの表示器であってもよい。表示I/F13は、後述する情報処理装置2により生成された映像データを表示部14に表示させる。
 センサI/F15には、動きセンサ16が接続される。動きセンサ16は、例えば6軸の角速度センサ(ジャイロセンサ)からなり、HMD1の動き、つまりユーザの頭部の動きを検出するために使用される。なお、検出対象となる頭部の動きは、例えば6軸方向の動きであることが好ましいが、パンおよびチルトの2軸方向の動きだけでもよい。センサI/F15は、上記動きセンサ16の出力信号をもとに、ユーザの頭部の動きを表す動き検出データを生成する。
 なお、センサI/F15には、上記動きセンサ16の他に、磁気センサ、加速度センサ、位置センサ、赤外センサ、輝度センサ、近接センサ、カメラ等が接続されてもよい。またセンサI/F15には、ユーザの頭部の動きのほか、ユーザの視線の動きを検出するためのセンサが接続されてもよい。ユーザの視線の動きは、例えばユーザの眼球を撮像するカメラを用いることで検出可能である。
 通信I/F17には、例えばUniversal Serial Bus(USB)ケーブル等の信号ケーブルを使用した有線インタフェースが用いられる。そして通信I/F17は、制御部11の制御の下、情報処理装置2から送信される映像データを受信すると共に、上記センサI/F15により生成された動き検出データ等を情報処理装置2へ転送する。なお、通信I/F17には、近距離無線データ通信規格(例えばBluetooth(登録商標))が使用されてもよい。
 なお、この例では、HMD1として制御部11および記憶部12を備えた多機能型のデバイスを例にとって説明している。しかし、HMD1は、表示部14、表示I/F13、動きセンサ16およびセンサI/F15のみを有する標準型または簡易型のデバイスであってもよい。
 (2-2)情報処理装置2
 図3は、ユーザ装置として使用される情報処理装置2のハードウェア構成を示すブロック図である。
 情報処理装置2は、例えばスマートフォンやタブレット型端末等の携帯情報端末、またはノート型もしくは据え置き型のパーソナルコンピュータにより構成される。情報処理装置2は、CPU等のハードウェアプロセッサを有する制御部21に、バス20を介して記憶部22、入出力インタフェース(入出力I/F)23および通信インタフェース(通信I/F)24を接続したものとなっている。
 入出力I/F23には、上記USBケーブルまたは無線インタフェースを介して上記HMD1が接続される。また入出力I/F23には、コントローラ等の操作部256が接続される。操作部25は、ユーザがロボット3の動作を遠隔制御する際に、例えばその制御対象部位、制御方向および制御量を入力するために使用される。
 通信I/F24は、例えば、無線LAN、近距離無線データ通信規格(例えばBluetooth(登録商標))または公衆移動通信ネットワークに対応したインタフェースを備え、ネットワーク4を介してロボット3との間でデータ伝送を行う。なお、通信I/F24は、公衆有線網や有線LAN、CATVネットワーク等の有線網に対応するインタフェースを備えていてもよい。
 記憶部22は、記憶媒体として、例えば、Hard Disk Drive(HDD)またはSSD等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM等の不揮発性メモリと、RAM等の揮発性メモリとを組み合わせて構成される。その記憶領域には、プログラム記憶領域と、データ記憶領域とが設けられる。プログラム記憶領域には、Operating System(OS)等のミドルウェアに加えて、この発明の一実施形態に係る各種制御処理を実行するために必要なアプリケーション・プログラムが格納される。データ記憶領域には、ロボット3から送られた映像データを一時保存する映像データ記憶領域と、制御部21が種々の処理作業を行うために使用する作業用の記憶領域が設けられている。
 制御部21は、この発明の一実施形態を実現するための制御処理機能として、遠隔制御信号送信部と、映像データ受信部と、映像表示制御部とを備えている。これらの制御処理機能は、いずれも上記記憶部22内のプログラム記憶領域に格納されたアプリケーション・プログラムを制御部21のハードウェアプロセッサに実行させることにより実現される。
 遠隔制御信号送信部は、上記操作部25において入力された操作データと、HMD1の動きセンサ16により得られた動き検出データとをもとに、ロボット3の動きを制御するための動き制御データを生成する。動き制御データには、ロボット3の制御対象部位、制御方向および制御量を表す情報が含まれる。そして、生成された上記動き制御データを含む遠隔制御信号を、通信I/F24からロボット3へ向け送信する。
 映像データ受信部は、ロボット3からネットワーク4を介して送られる映像データを通信I/F24を介して受信する。そして、受信された映像データを復号処理したのち、記憶部22内の映像データ記憶領域に一時保存させる。
 映像表示制御部は、上記映像データ記憶領域から読み出した映像データに対し、必要に応じてAR表示またはVR表示のための映像編集処理を行った後、入出力I/F23からHMD1へ出力して表示させる。
 (2-3)ロボット3
 ロボット3は、例えば図1に示したように胴体部、頭部、腕部および脚部を有する。このうち、頭部、腕部および脚部はそれぞれサーボ機構を備える駆動部により所定の可動範囲内で動作し、これによりロボット3は姿勢を種々変化させることができるようになっている。ロボット3の頭部の前面部、つまり顔に相当する部位には、撮像デバイスとしてのカメラ34が設置されている。またロボット3の頭部内にはその動きを検出するために動きセンサが設けられている。
 図4および図5は、それぞれロボット3のハードウェア構成およびソフトウェア構成を示すブロック図である。 
 ロボット3は、制御部31を備える。制御部31は、CPU等のハードウェアプロセッサを有する。この制御部31には、記憶部32と、センサインタフェース(センサI/F)33と、駆動インタフェース(駆動I/F)37と、通信インタフェース(通信I/F)39が、バス30を介して接続されている。
 センサI/F33には、上記カメラ34、動きセンサ35および位置センサ36が接続される。カメラ34は、例えば立体映像を撮像可能な二眼カメラと、パノラマ映像を撮像可能なパノラマカメラとを備える。二眼カメラは、ロボット3の前方方向を所定の視野角(例えば130度)で撮像し、得られた立体映像データをセンサI/F33へ出力する。パノラマカメラは、ロボット3の前方方向から両側方向に渡る範囲を、上記二眼カメラより広い視野角(例えば180度)で撮像し、得られたパノラマ映像データをセンサI/F33へ出力する。
 動きセンサ35は、例えば6軸の加速度センサからなり、ロボット3の頭部の6軸方向の動きを検出してその検出データをセンサI/F33へ出力する。位置センサ36は、例えばGlobal Positioning System(GPS)を利用してロボット3の位置を計測するもので、計測された位置データをセンサI/F33へ出力する。
 駆動I/F37には、上記頭部、腕部および脚部を駆動するための駆動部38が接続される。駆動I/F37は、制御部31から出力される制御信号を駆動信号に変換し、変換された駆動信号を駆動部38へ出力して駆動部38を動作させる。
 通信I/F39は、例えば、無線LAN、近距離無線データ通信規格(例えばBluetooth(登録商標))、または公衆移動通信ネットワークに対応したインタフェースを備え、ネットワーク4を介して情報処理装置2との間でデータ伝送を行う。なお、通信I/F30は、公衆有線網や有線LAN、CATVネットワーク等の有線網に対応するインタフェースを備えていてもよい。
 記憶部32は、例えばSSD等の随時書込みおよび読出しが可能な不揮発性メモリやROMおよびRAMを用いて構成され、プログラム記憶領域とデータ記憶領域とを有する。プログラム記憶領域には、OS等のミドルウェアに加え、ロボット3の動作を実現するための各種アプリケーション・プログラムが格納される。
 データ記憶領域には、映像データ記憶部321と、行動シーン記憶部322と、映像パラメータ記憶部323が設けられている。
 映像データ記憶部321は、カメラ34により撮像された映像データを、後述する映像処理を行うために一時保存するバッファメモリとして機能する。
 行動シーン記憶部322は、ロボット3の行動シーンとして想定される複数のシーンを表す情報を記憶する第1のテーブルと、上記行動シーンをさらに細かく分類した複数のサブシーンを表す情報を記憶する第2のテーブルとを有する。第1のテーブルには、ロボット3の位置、動きおよびカメラ34の映像の組み合わせに対応づけて、ロボット3の想定される行動シーンを表す情報が記憶されている。また第2のテーブルには、上記第1のテーブルで定義された行動シーンの各々について、さらに映像から想定される複数のサブシーンを表す情報が記憶されている。行動シーンを表す情報およびサブシーンを表す情報については、後に例をあげて説明する。
 なお、上記行動シーン情報およびそのサブシーン情報は、管理者等により予めテーブルに記憶されてもよいが、例えばユーザの端末装置のスケジューラや、その他のユーザの行動を予測するシステムから適宜取得してテーブルに記憶されるようにしてもよい。このようにすると、ユーザごとにその行動を適切に推測し、それに応じた行動シーン情報およびサブシーン情報を設定することが可能となる。
 例えば、スケジューラにミーティングの予定が記載されている場合には、会議資料を読み込む必要があるので、映像パラメータを読書に準じた設定に調整することが可能となり、またスケジューラに野球観戦の予定が記載されていれば、映像パラメータをスポーツ観戦に対応する設定に調整することが可能となる。
 映像パラメータ記憶部323は、上記行動シーンごとにその各サブシーンに対応づけて、当該サブシーンに対し予め設定された映像パラメータが記憶されている。この映像パラメータについても、後に例をあげて説明する。
 制御部31は、この発明の一実施形態に係わる処理機能部として、遠隔制御信号受信部311と、動き制御データ抽出部312と、駆動制御部313と、映像データ取得部314と、位置・動き検出データ取得部315と、行動シーン判定部316と、映像制御部317と、映像処理部318と、映像送信部319とを備えている。これらの制御処理部はいずれも、記憶部32に記憶されたプログラムを上記制御部31のハードウェアプロセッサに実行させることにより実現される。
 遠隔制御信号受信部311は、情報処理装置2からネットワーク4を介して伝送された遠隔制御信号を通信I/F39を介して受信し、受信された上記遠隔制御信号を動き制御データ抽出部312に渡す処理を行う。
 動き制御データ抽出部312は、上記遠隔制御信号から動き制御データを抽出して駆動制御部313に渡す処理を行う。
 駆動制御部313は、抽出された上記動き制御データに含まれる制御対象部位を指定する情報に基づいて対応する駆動部38を選択し、上記動き制御データに含まれる制御方向および制御量を指定する情報に基づいて、上記選択された駆動部38を駆動するための駆動制御信号を生成する。そして、生成された上記駆動制御信号を駆動I/F37へ出力する処理を行う。駆動I/F37は、上記駆動制御信号をもとに駆動信号を生成して駆動部38に与える。
 映像データ取得部314は、カメラ34により撮像された立体映像データまたはパノラマ映像データをセンサI/F33を介して取り込み、後述する映像処理のために映像データ記憶部321に一時保存させる処理を行う。
 位置・動き検出データ取得部315は、位置センサ36により検出された位置データと、動きセンサ35により検出されたロボット3の頭部の動きを表す動き検出データを、センサI/F33を介して取り込む処理を行う。
 行動シーン判定部316は、上記位置・動き検出データ取得部315により取得された位置データおよび動き検出データと、上記映像データ取得部314により取得された映像データから、それぞれ特徴量を抽出する。そして、抽出された各特徴量もとに、行動シーン記憶部322を参照して、ロボット3の現在の行動シーンおよびそのサブシーンを判定する処理を行う。
 映像制御部317は、上記行動シーン判定部316により判定された行動シーンおよびそのサブシーンをもとに、当該行動シーンおよびサブシーンに対応する映像パラメータを、映像パラメータ記憶部323から選択する。そして、上記映像パラメータを映像処理部318に与える。
 映像処理部318は、映像データ記憶部321から映像データを読み込み、この映像データについて、上記映像制御部317から与えられた映像パラメータを調整する処理を行う。なお、映像パラメータの調整処理の一例は後に詳しく述べる。
 映像送信部319は、上記映像処理部318により映像処理された後の映像データを、通信I/F39から情報処理装置2へ送信する処理を行う。
 (動作例)
 次に、以上のように構成されたロボット3の動作例を説明する。図6は、ロボット3による全体の処理手順と処理内容の一例を示すフローチャートである。
 情報処理装置2から、動き制御データを含む遠隔制御信号が送られると、ロボット3は、遠隔制御信号受信部311の制御の下、ステップS11により、上記遠隔制御信号を通信I/F39を介して受信する。そして、動き制御データ抽出部312の制御の下で、ステップS12により上記遠隔制御信号から動き制御データを抽出する。
 次にロボット3は、駆動制御部313の制御の下、ステップS13において、上記動き制御データに含まれる制御対象部位を指定する情報に基づいて対応する駆動部38を選択する。そして、上記動き制御データに含まれる制御方向および制御量を指定する情報に基づいて、上記選択された駆動部38を駆動するための駆動制御信号を生成し、生成された上記駆動制御信号を駆動I/F37へ出力する。この結果、駆動I/F37から駆動部38に駆動信号が与えられ、駆動部38が駆動されて対応する部位が動作する。
 例えば、制御対象部位が頭部であれば、それに対応する駆動部38が駆動され、頭部の向きが例えばパン方向またはチルト方向に変化する。また、制御対象部位が脚部であれば、それに対応する駆動部38が駆動され、ロボット3は例えば前後方向に歩行動作する。その他の部位についても駆動制御信号に応じて同様に動作する。
 一方、上記頭部または脚部等が動作している状態で、ロボット3の制御部31は、映像データ取得部314の制御の下、ステップS14において、頭部に取り付けられたカメラ34から映像データをセンサI/F33を介して取り込み、当該映像データを映像データ記憶部321に一時保存させる。
 またそれと共に、ロボット3の制御部31は、位置・動き検出データ取得部315の制御の下、ステップS15において、動きセンサ35からロボット3の頭部の動きの変化を表す動き検出データをセンサI/F33を介して取り込む。またステップS16において、位置センサ36からロボット3の現在位置を示す位置データをセンサI/F33を介して取り込む。
 次にロボット3の制御部31は、行動シーン判定部316および映像制御部317の制御の下、ステップS20において、ロボット3の現在の行動シーンの判定および映像パラメータの選択処理を以下のように実行する。図7はその処理手順と処理内容を示すフローチャートである。
 すなわち、行動シーン判定部316は、まずステップS21において、上記位置・動き検出データ取得部315により取得された位置データおよび動き検出データと、映像データ取得部314により取得された映像データから、それぞれ特徴量を判定する。そして、判定された各特徴量をもとに行動シーン記憶部322を検索し、ロボット3の行動シーンを判定する。
 例えば、いま行動シーン記憶部322の第1のテーブルに図8に示す行動シーン情報が記憶されているものとする。この状態で、行動シーン判定部316は、まず位置データと記憶部32に記憶されている地図データとをもとに、ロボット3の位置を示す特徴量が「自宅」であると判定する。また、動き検出データをもとに、ロボット3の動きを示す特徴量が「静止状態」であると判定する。さらに映像データに写っている「書籍」を特徴量として判定する。そして、行動シーン判定部316は、行動シーン記憶部322の第1のテーブルに記憶されている、図8に示す行動シーン情報に基づいて、ロボット3の現在の行動シーンを「読書」と判定する。
 同様に、ロボット3の現在位置の特徴量が「図書館」で、ロボット3の動きの特徴量が「静止状態」と判定され、さらに映像から抽出される特徴量が「書籍」であれば、行動シーン判定部316は、図8に示す行動シーン情報に基づいて、ロボット3のこのときの行動シーンも「読書」と判定する。なお、ロボット3の現在位置の特徴量が「自宅」で、ロボット3の動きの特徴量が「動作状態」と判定され、さらに映像から抽出された特徴量が「キッチン」であれば、行動シーン判定部316は、ロボット3のこのときの行動シーンを「料理」と判定する。
 一方、位置データと記憶部32に記憶されている地図データとからロボット3の現在位置の特徴量が「スポーツセンタ」と判定され、また動き検出データによりロボット3の動きの特徴量が「静止状態」と判定され、さらに映像データから抽出される特徴量が「フィールドまたはコート」だったとする。この場合行動シーン判定部316は、図8に示す行動シーン情報をもとに、ロボット3の現在の行動シーンを「スポーツ観戦」であると判定する。
 上記ステップS21において「読書」と判定されると、次に行動シーン判定部316は、ステップS22において、映像データから抽出された上記特徴量と、行動シーン記憶部322の第2のテーブルに記憶されたサブシーン情報とをもとに、読書シーンからさらに分類されるサブシーンを判定する。
 例えば、いま第2のテーブルに図9に例示するようなサブシーン情報が記憶され、映像データから抽出された特徴量である「書籍」の画像が「モノクロ主体」だったとする。この場合行動シーン判定部316は、サブシーンを単行本や文庫本などの「文芸書」の読書シーンであると判定する。これに対し、映像データから抽出された特徴量である「書籍」の画像が「カラー主体」だったとする。この場合行動シーン判定部316は、サブシーンをグラビア、絵本または図鑑などの「参考書類」の読書シーンであると判定する。
 上記のようにサブシーンが判定されると、ロボット3の制御部31は、次に映像制御部317の制御の下、映像パラメータ記憶部323を参照して、上記サブシーンに対応して設定された映像パラメータを選択する。
 例えば、いま映像パラメータ記憶部323に、図10に示す映像パラメータ情報が記憶されていたとする。この場合映像制御部317は、判定された上記サブシーンが「文芸書」だったとすると、ステップS23において、上記文芸書を映像により読む際に優先される映像パラメータとして「空間解像度」と共に「輝度」を選択する。これに対し、判定された上記サブシーンが「参考書類」だったとすると、映像制御部317はステップS24において、参考書類を映像で読む際に優先される映像パラメータとして「空間解像度」と共に「色調」を選択する。
 上記映像パラメータが選択されるとロボット3の制御部31は、映像処理部318の制御の下、ステップS17において、映像データ記憶部321から読み出した映像データについて、上記選択された映像パラメータを調整する処理を行う。そして、調整後の映像データを、映像送信部319の制御の下、ステップS18により通信I/F39から情報処理装置2へ送信する。
 例えば、映像パラメータとして「空間解像度」と「輝度」が選択された場合には、映像処理部318は、映像データに対し、例えば空間解像度を予め設定された高解像度となるように映像処理を行い、さらに輝度を所定レベルまで高める処理を行う。そして映像送信部319が、上記処理後の映像データを情報処理装置2へ送信する。これに対し、映像パラメータとして「空間解像度」と「色調」が選択された場合には、映像処理部318は、映像データに対し、例えば空間解像度を予め設定された高解像度となるように映像処理を行い、さらに色の彩度を所定レベルに高める処理を行う。そして映像送信部319が、上記映像処理後の映像データを情報処理装置2へ送信する。
 この結果、ユーザは、ロボット3が撮像した書籍をHMD1により読む場合に、文芸書であれば高解像度でかつ輝度が高く設定された映像により文字を明確に視認することが可能となる。これに対し、絵本や図鑑などの参考書類を読む場合に、ユーザは高解像度でかつ彩度が高められた映像により絵や写真を鮮明に視認することが可能となる。
 なお、「輝度」の調整手法としては、映像データに対し行うもの以外に、カメラのいわゆる絞り機能を調整することにより行うものを使用してもよい。
 一方、上記ステップS21においてロボット3の行動シーンが「スポーツ観戦」と判定されると、行動シーン判定部316は、次にステップS25において、映像データと、行動シーン記憶部322の第2のテーブルに記憶されたサブシーン情報とをもとに、「スポーツ観戦」からその小分類であるサブシーンを判定する。
 例えば、いま映像データから抽出される特徴量が「屋外」であれば、行動シーン判定部316はサブシーンとして、サッカーやラグビーなどの「フィールドゲーム」を観戦していると判定する。これに対し、映像データから抽出される特徴量が「屋内」であれば、行動シーン判定部316はサブシーンとして、バスケットボールやバレーボールなどの「コートゲーム」を観戦していると判定する。
 そして、上記サブシーンが判定されると、ロボット3の制御部31は、次に映像制御部317の制御の下、映像パラメータ記憶部323を参照して、上記サブシーンに対応して設定された映像パラメータを選択する。
 例えば、いまサブシーンが「フィールドゲーム」と判定されると、映像制御部317はステップS26において、上記フィールドゲームを映像により観戦する際に優先される映像パラメータとして、「時間解像度」と「視野角」を選択する。これに対し、サブシーンが「コートゲーム」と判定された場合には、映像制御部317はステップS27において、上記コートゲームを映像により観戦する際に優先される映像パラメータとして、「時間解像度」と「立体感」を選択する。
 次にロボット3の制御部31は、映像処理部318の制御の下、ステップS17において、映像データについて、上記選択された映像パラメータを調整する処理を行う。そして、映像パラメータが調整された映像データを、映像送信部319の制御の下、ステップS18により通信I/F39から情報処理装置2へ送信する。
 例えば、映像パラメータとして「時間解像度」と「視野角」が選択された場合には、映像処理部318は映像データ記憶部321からフレームレートが高くかつ視野角の大きいパノラマ映像データを選択的に読み出す。そして映像送信部319が、上記パノラマ映像データを情報処理装置2へ送信する。これに対し、映像パラメータとして「時間解像度」と「立体感」が選択された場合には、映像処理部318は映像データ記憶部321からフレームレートが高くかつ立体感を有する立体映像データを選択的に読み出す。そして映像送信部319が、上記立体映像データを情報処理装置2へ送信する。
 なお、上記パノラマ映像と立体映像の選択は、カメラ34に対し撮像モードの切り替え指示を与えて、カメラ34から出力される映像データを切り替えることにより行われてもよい。また、パノラマ映像のみではフレームレートが不足する場合には、パノラマ映像と立体映像とを座標位置を合わせて合成するようにしてもよいが、フィールドゲームを観戦する場合は一般にカメラからフィールドまでの距離が遠いため、フレームレートがそれほど高くなくても視聴上の影響は少ない。
 以上によりユーザは、ロボット3がスタジアムなどで撮像したフィールドゲームの映像をHMD1により視聴しようとする場合に、視野角の広いパノラマ映像により広範囲に渡ってもれなく見ることが可能となる。一方、ロボット3がアリーナなどで撮像したコートゲームの映像をHMD1で見ようとする場合に、ユーザはフレームレートの高い立体映像により臨場感のある映像を見ることが可能となる。
 (作用・効果)
 以上述べたように一実施形態では、遠隔地のロボット3において、その位置および動きの検出データと映像データとから導出される特徴量をもとにロボット3の行動シーンが判定され、判定された上記行動シーンに対応した映像パラメータが選択される。そして、映像データについて上記選択された映像パラメータを調整する処理が行われ、この処理後の映像データがネットワーク4を介してユーザ側の情報処理装置2に送られ、HMD1に表示される。
 従って、遠隔地におけるロボット3からユーザ側の情報処理装置2に対し、ロボット3の行動シーンに応じて映像パラメータが調整された映像データを送信することが可能となる。このため、ユーザは、自身が遠隔制御をするロボット3の行動シーンごとに、各々それに適した映像パラメータにより映像処理されたリモート映像を視聴することが可能となり、これによりリモート映像の視認性を高めることができる。
 また、上記映像データに対する映像パラメータの調整処理がロボット3において自律的に行われる。このため、ユーザ側の装置、つまり情報処理装置2またはHMD1に、上記映像パラメータを調整するための特殊な処理機能を備える必要がなく、これによりユーザは汎用の情報処理装置2またはHMD1を使用できる利点がある。
 [その他の実施形態]
 (1)前記一実施形態では、ロボット3の行動シーンの判定結果に応じてそれに適した映像パラメータを選択し、映像データに対し上記選択された映像パラメータを調整する場合を例にとって説明した。しかし、この発明はそれに限定されるものではない。例えば、ロボット3の行動シーンの判定結果に応じてそれに適した撮像モードを選択し、カメラに対し上記選択された撮像モードを設定して、これにより撮像された映像データをユーザ装置へ伝送するようにしてもよい。
 一般にカメラには、例えば、低い時間解像度(15FPSFPS)で高い空間解像度(4K)で撮像するモードや、高い時間解像度(120FPS)で低い空間解像度(VGA)で撮影するモード等、複数の撮像モードが備えられている。
 そこで、ロボット3の行動シーンに応じて上記撮像モードを選択的にカメラに設定し、この条件の下で撮像を行えば、上記ロボット3の行動シーンに適した時間解像度または空間解像度を有する映像データをユーザ装置へ送信することが可能となり、前記一実施形態と同様の効果を奏することができる。
 (2)前記一実施形態では、情報処理装置2から送信される遠隔制御信号に応じてロボット3を遠隔制御する場合を例にとって説明した。しかし、この発明はそれに限定されるものではなく、ロボット3が予め設定されたプログラムに従い自律的に行動する場合に、ロボット3が自己の行動シーンを判定して、当該行動シーンに応じた映像パラメータを選択し、映像データに対し上記選択された映像パラメータを調整する処理を行い、調整処理後の映像データをユーザ側の情報処理装置2へ送信するように構成してもよい。
 (3)前記一実施形態では、予め用意された行動シーン情報および映像パラメータ情報を記憶したメモリテーブルを設け、このメモリテーブルを参照して行動シーンおよびサブシーンの判定および映像パラメータの選択を行うようにした。しかし、この発明はそれに限るものではない。例えば、ディープラーニングなどの機械学習を使用して最適な映像パラメータを選択するようにしてもよい。これは、例えばロボットの位置データ、動き検出データおよび映像データ等からそれぞれ特徴量を抽出し、抽出された各特徴量を学習済みの学習モデルに入力し、当該学習モデルから最適な映像パラメータを出力することにより実現できる。
 (4)前記一実施形態では、HMD1とは別に設けた情報処理装置2により、ロボット3との間のデータ通信および映像表示制御等を行うようにした。しかし、HMD1が情報処理装置2の機能を備える場合、つまり情報処理装置と一体型のHMDを使用する場合には、HMD1においてロボット3との間のデータ通信および映像表示制御等を行うように構成してもよい。
 (5)遠隔作業装置としては、人型のロボットに限らず、室内または屋外に固定的に設置された可動式のリモートカメラやスマートスピーカが使用されてもよい。その他、遠隔作業装置の種類やその構成および処理内容、カメラが有する撮像モードの種類や数、ユーザ装置の種類や構成、リモート映像の種類等についても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
 以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
 要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
 1…ヘッドマウントディスプレイ(HMD)
 2…情報処理装置
 3…ロボット
 4…ネットワーク
 10,20,30…バス
 11,21,31…制御部
 12,22,32…記憶部
 13…表示インタフェース(表示I/F)
 14…表示部
 15,33…センサインタフェース(センサI/F)
 16,35…動きセンサ
 17,24,39…通信インタフェース(通信I/F)
 23…入出力インタフェース(入出力I/F)
 25…操作部
 34…カメラ
 35…動きセンサ
 36…位置センサ
 37…駆動インタフェース(駆動I/F)
 38…駆動部
 311…遠隔制御信号受信部
 312…動き制御データ抽出部
 313…駆動制御部
 314…映像データ取得部
 315…位置・動き検出データ取得部
 316…行動シーン判定部
 317…映像制御部
 318…映像処理部
 319…映像送信部
 321…映像データ記憶部
 322…行動シーン記憶部
 323…映像パラメータ記憶部

Claims (9)

  1.  表示部に接続されるユーザ装置との間でネットワークを介して通信が可能な遠隔作業装置であって、
     カメラから、当該カメラにより撮像された対象の映像データを取得する映像データ取得部と、
     センサから、当該センサにより検出された前記遠隔作業装置の位置および動作の少なくとも一方を表す状態検出データを取得する状態検出データ取得部と、
     取得された前記映像データおよび前記状態検出データに基づいて、前記遠隔作業装置の行動シーンを判定する判定部と、
     判定された前記行動シーンに応じて、調整対象の映像パラメータを選択する選択部と、 前記映像データについて、選択された映像パラメータを調整する制御部と、
     前記映像パラメータが調整された後の前記映像データを、前記ネットワークを介して前記ユーザ装置へ送信する送信部と
     を具備する遠隔作業装置。
  2.  表示部に接続されるユーザ装置との間でネットワークを介して通信が可能な遠隔作業装置であって、
     カメラから、当該カメラにより撮像された対象の映像データを取得する映像データ取得部と、
     センサから、当該センサにより検出された前記遠隔作業装置の位置および動作の少なくとも一方を表す状態検出データを取得する状態検出データ取得部と、
     取得された前記映像データおよび前記状態検出データに基づいて、前記遠隔作業装置の行動シーンを判定する判定部と、
     判定された前記行動シーンに対応する撮像モードを選択する選択部と、
     前記カメラに対し、選択された前記撮像モードを設定する制御部と、
     前記設定された撮像モードを用いて前記カメラにより撮像された前記映像データを、前記ネットワークを介して前記ユーザ装置へ送信する送信部と
     を具備する遠隔作業装置。
  3.  前記判定部は、前記映像データおよび前記状態検出データに基づいて、前記行動シーンが、主として静止状態の対象を前記カメラにより撮像する第1のシーンであるかを判定し、
     前記選択部は、前記行動シーンが前記第1のシーンと判定された場合に、前記映像パラメータまたは前記撮像モードとして空間解像度を選択し、
     前記制御部は、前記映像データについて前記選択された空間解像度を調整する処理、または前記カメラに対し前記選択された空間解像度を得るための撮像モードを設定する処理を行う、
     請求項1または2に記載の遠隔作業装置。
  4.  前記判定部は、前記映像データおよび前記状態検出データに基づいて、前記行動シーンが、主として移動状態の対象を前記カメラにより撮像する第2のシーンであるかを判定し、
     前記選択部は、前記行動シーンが前記第2のシーンと判定された場合に、前記映像パラメータまたは前記撮像モードとして時間解像度を選択し、
     前記制御部は、前記映像データについて前記選択された時間解像度を調整する処理、または前記カメラに対し前記選択された空間解像度を得るための撮像モードを設定する処理を行う、
     請求項1または2に記載の遠隔作業装置。
  5.  前記判定部は、前記行動シーンが前記第1のシーンと判定された場合に、前記映像データに基づいて前記対象の色調がモノクロを主体とするかを、さらに判定し、
     前記選択部は、前記対象の色調がモノクロを主体とすると判定された場合に、前記映像パラメータとして輝度をさらに選択し、
     前記制御部は、前記映像データについて前記選択された輝度をさらに調整する処理、または前記カメラに対し前記選択された輝度を得るための撮像モードを設定する処理を行う、
     請求項3に記載の遠隔作業装置。
  6.  前記判定部は、前記行動シーンが前記第1のシーンと判定された場合に、前記映像データに基づいて前記対象の色調がカラーを主体とするかを、さらに判定し、
     前記選択部は、前記対象の色調がカラーを主体とすると判定された場合に、前記映像パラメータまたは前記撮像モードとして色調をさらに選択し、
     前記制御は、前記映像データについて前記選択された色調をさらに調整する処理、または前記カメラに対し前記選択された色調を得るための撮像モードを設定する処理を行う、
     請求項3に記載の遠隔作業装置。
  7.  前記判定部は、前記行動シーンが前記第2のシーンと判定された場合に、前記映像データに基づいて前記対象が屋外であるかを判定し、
     前記選択部は、前記対象が屋外と判定された場合に、前記映像パラメータまたは前記撮像モードとして視野角をさらに選択し、
     前記制御部は、前記映像データについて前記選択された視野角をさらに調整する処理、または前記カメラに対し前記選択された視野角を得るための撮像モードを設定する処理を行う、
     請求項4に記載の遠隔作業装置。
  8.  前記判定部は、前記行動シーンが前記第2のシーンと判定された場合に、前記映像データに基づいて前記対象が屋内であるかを判定し、
     前記選択部は、前記対象が屋内と判定された場合に、前記映像パラメータまたは前記撮像モードとして立体感をさらに選択し、
     前記制御部は、前記映像データについて前記選択された立体感をさらに調整する処理、または前記カメラに対し前記選択された立体感を得るための撮像モードを設定する処理を行う、
     請求項4に記載の遠隔作業装置。
  9.  請求項1乃至8のいずれかに記載の遠隔作業装置が具備する前記各部による処理を、前記遠隔作業装置が備えるプロセッサに実行させるプログラム。
PCT/JP2021/018478 2020-05-14 2021-05-14 遠隔作業装置とそのプログラム WO2021230366A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21803460.1A EP4151370A4 (en) 2020-05-14 2021-05-14 REMOTE CONTROL DEVICE AND PROGRAM THEREOF
CN202180035032.3A CN115552892A (zh) 2020-05-14 2021-05-14 远程作业装置及其程序
US18/054,237 US20230069407A1 (en) 2020-05-14 2022-11-10 Remote operation apparatus and computer-readable medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-085324 2020-05-14
JP2020085324A JP6828205B1 (ja) 2020-05-14 2020-05-14 遠隔作業装置とそのプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/054,237 Continuation US20230069407A1 (en) 2020-05-14 2022-11-10 Remote operation apparatus and computer-readable medium

Publications (1)

Publication Number Publication Date
WO2021230366A1 true WO2021230366A1 (ja) 2021-11-18

Family

ID=74529660

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/018478 WO2021230366A1 (ja) 2020-05-14 2021-05-14 遠隔作業装置とそのプログラム

Country Status (5)

Country Link
US (1) US20230069407A1 (ja)
EP (1) EP4151370A4 (ja)
JP (1) JP6828205B1 (ja)
CN (1) CN115552892A (ja)
WO (1) WO2021230366A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023119657A1 (ja) * 2021-12-24 2023-06-29 日本電信電話株式会社 接触対象推定装置、方法およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7515438B2 (ja) 2021-04-19 2024-07-12 本田技研工業株式会社 情報管理システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008211405A (ja) * 2007-02-23 2008-09-11 Nagaoka Univ Of Technology 映像伝送システム、映像伝送装置、映像伝送方法、探査ロボット、及びプログラム
JP2016072686A (ja) * 2014-09-26 2016-05-09 Kddi株式会社 領域リクエストに基づいたデータ低減処理を行う画像送受信システム及び方法
JP2019106628A (ja) 2017-12-12 2019-06-27 株式会社ソニー・インタラクティブエンタテインメント 画像補正装置、画像補正方法およびプログラム
JP2019198041A (ja) * 2018-05-11 2019-11-14 株式会社日立ビルシステム カメラ画像の点検システム及びカメラ画像の点検方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5750692B2 (ja) * 2011-02-03 2015-07-22 オリンパス株式会社 撮像装置、撮像プログラムおよび撮像方法
US9489979B2 (en) * 2013-08-06 2016-11-08 Casio Computer Co., Ltd. Image processing apparatus for time-lapse moving image, image processing method, and storage medium
JP2016144006A (ja) * 2015-01-30 2016-08-08 富士フイルム株式会社 画像処理装置、撮像装置、画像処理方法、プログラム及び記録媒体
CN108351574B (zh) * 2015-10-20 2020-12-22 深圳市大疆创新科技有限公司 用于设置相机参数的系统、方法和装置
WO2017068926A1 (ja) * 2015-10-21 2017-04-27 ソニー株式会社 情報処理装置及びその制御方法、並びにコンピュータ・プログラム
WO2018205104A1 (zh) * 2017-05-08 2018-11-15 深圳市大疆创新科技有限公司 无人机拍摄控制方法、无人机拍摄方法、控制终端、无人机控制装置和无人机
CN107357316A (zh) * 2017-08-16 2017-11-17 湖南城市学院 一种控制无人驾驶飞机锁定特定区域获取照片的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008211405A (ja) * 2007-02-23 2008-09-11 Nagaoka Univ Of Technology 映像伝送システム、映像伝送装置、映像伝送方法、探査ロボット、及びプログラム
JP2016072686A (ja) * 2014-09-26 2016-05-09 Kddi株式会社 領域リクエストに基づいたデータ低減処理を行う画像送受信システム及び方法
JP2019106628A (ja) 2017-12-12 2019-06-27 株式会社ソニー・インタラクティブエンタテインメント 画像補正装置、画像補正方法およびプログラム
JP2019198041A (ja) * 2018-05-11 2019-11-14 株式会社日立ビルシステム カメラ画像の点検システム及びカメラ画像の点検方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023119657A1 (ja) * 2021-12-24 2023-06-29 日本電信電話株式会社 接触対象推定装置、方法およびプログラム

Also Published As

Publication number Publication date
CN115552892A (zh) 2022-12-30
EP4151370A1 (en) 2023-03-22
JP6828205B1 (ja) 2021-02-10
EP4151370A4 (en) 2023-10-18
JP2021180426A (ja) 2021-11-18
US20230069407A1 (en) 2023-03-02

Similar Documents

Publication Publication Date Title
US9955147B2 (en) Zoom related methods and apparatus
US9858643B2 (en) Image generating device, image generating method, and program
WO2017086263A1 (ja) 情報処理装置および画像生成方法
CA2949005C (en) Method and system for low cost television production
RU2639118C2 (ru) Системы и способы использования сокращенных транзитных участков для создания сцены дополненной виртуальной реальности с помощью устанавливаемой на голове системы
KR101764372B1 (ko) 휴대용 단말기에서 영상 합성 방법 및 장치
TWI530157B (zh) 多視角影像之顯示系統、方法及其非揮發性電腦可讀取紀錄媒體
WO2018133849A1 (zh) 全景图像拍摄方法、全景图像显示方法、全景图像拍摄装置以及全景图像显示装置
US20180225537A1 (en) Methods and apparatus relating to camera switching and/or making a decision to switch between cameras
US20230069407A1 (en) Remote operation apparatus and computer-readable medium
US20190045125A1 (en) Virtual reality video processing
JP2017518663A (ja) 立体ビューイング
US20180249189A1 (en) Methods and apparatus for use in a system or device where switching between cameras may occur
EP3671408B1 (en) Virtual reality device and content adjusting method therefor
WO2018133848A1 (zh) 全景图像拍摄装置、显示装置、拍摄方法以及显示方法
JP6751205B2 (ja) ディスプレイ装置及びその制御方法
CN110537208B (zh) 头戴式显示器和方法
EP3588970A1 (en) Apparatus and method for generating an image data stream
WO2022262839A1 (zh) 现场演出的立体显示方法、装置、介质及系统
JP6801136B1 (ja) 遠隔制御システムとその遠隔作業装置、映像処理装置およびプログラム
JP7203157B2 (ja) 映像処理装置およびプログラム
US20190075249A1 (en) Image processing device, imaging processing method, and program
US20240066394A1 (en) Information processing apparatus and image generation method
WO2022255058A1 (ja) 情報処理装置および画像生成方法
WO2022226745A1 (zh) 拍摄方法、控制装置、拍摄设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21803460

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021803460

Country of ref document: EP

Effective date: 20221214