WO2023149379A1 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
WO2023149379A1
WO2023149379A1 PCT/JP2023/002687 JP2023002687W WO2023149379A1 WO 2023149379 A1 WO2023149379 A1 WO 2023149379A1 JP 2023002687 W JP2023002687 W JP 2023002687W WO 2023149379 A1 WO2023149379 A1 WO 2023149379A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
image
operation target
target device
objects
Prior art date
Application number
PCT/JP2023/002687
Other languages
English (en)
French (fr)
Inventor
智仁 山▲崎▼
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Publication of WO2023149379A1 publication Critical patent/WO2023149379A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus

Definitions

  • the present invention relates to an information processing device.
  • AR Augmented Reality
  • the real environment perceived by the user is augmented by a computer.
  • this technology for example, it is possible to superimpose and display a virtual space on a real space viewed through XR glasses worn on the user's head.
  • Non-Patent Document 1 discloses a technique for displaying a user interface image for operating a device viewed by the user through a head-mounted display when the user holds his or her hand over the device. Furthermore, Non-Patent Document 1 describes that the operation of the device is controlled by the user touching the user interface image.
  • Non-Patent Document 1 corresponds to an IoT device that operates by operating a user interface image without the user directly operating the device.
  • the user's living environment includes a mixture of IoT devices and devices that the user needs to directly operate.
  • the user cannot remotely operate the IoT device.
  • the present disclosure provides an information processing apparatus that allows a user to easily recognize which object among a plurality of objects is an operation target device in a situation where the user visually recognizes a plurality of objects existing in the real space. The challenge is to
  • An information processing apparatus is configured such that, in a situation where a user visually recognizes a plurality of objects existing in a real space through a transmissive display device, one of the plurality of objects is associated with the user and a determination unit that determines an operation target device to be remotely operated; a generation unit that generates an identification image for identifying the operation target device from objects other than the operation target device among the plurality of objects; a display control unit that causes the display device to display the identification image in association with the operation target device visually recognized by the user through the display device.
  • the user in a situation where the user visually recognizes multiple objects existing in the real space through the display device, the user can easily grasp which of the multiple objects is the device to be operated.
  • FIG. 1 is a block diagram showing the overall configuration of an information processing system 1 according to a first embodiment
  • FIG. 4 is a perspective view showing the appearance of the XR glass 20.
  • FIG. FIG. 4 is a schematic diagram showing a state in which a user U wearing the XR glasses 20 is in the living room of his/her home. 4 is a schematic diagram showing an image viewed by a user U through the XR glasses 20.
  • FIG. FIG. 2 is a block diagram showing a configuration example of the XR glasses 20; 2 is a block diagram showing a configuration example of a terminal device 10;
  • FIG. Explanatory drawing which shows the example of registration information IF.
  • Explanatory drawing which shows the image G regarding operation with respect to the apparatus to be operated.
  • FIG. 3 is a block diagram showing a configuration example of a server 30;
  • FIG. FIG. 4 is an explanatory diagram showing an example of management information IFx;
  • FIG. 4 is an explanatory diagram showing an example of access right information IFy;
  • 4 is a flowchart for explaining the operation of registration processing according to the first embodiment;
  • 4 is a flowchart for explaining the operation of identification image display processing according to the first embodiment;
  • 4 is a flowchart for explaining operations of operation processing according to the first embodiment;
  • the block diagram which shows the structural example of 10 A of terminal devices which concern on 2nd Embodiment.
  • FIG. 4 is a schematic diagram showing a state in which a user U wearing XR glasses 20 is in an office.
  • 9 is a flowchart for explaining the operation of identification image display processing according to the second embodiment;
  • FIG. 1 First Embodiment
  • an information processing system 1 according to a first embodiment of the present invention will be described with reference to FIGS. 1 to 14.
  • FIG. 1 First Embodiment
  • FIG. 1 is a diagram showing the overall configuration of an information processing system 1 according to the first embodiment of the present invention.
  • the information processing system 1 is a system that provides a user U wearing XR glasses 20 with a virtual space to which XR technology is applied.
  • the information processing system 1 includes a terminal device 10, XR glasses 20, a server 30, and IoT devices 40-1, 40-2, ... 40-K, ... 40-J.
  • J is an arbitrary integer greater than or equal to 1.
  • K is an arbitrary integer of 1 or more and J or less.
  • FIG. 1 shows a set of the terminal device 10 and the XR glasses 20 used by the user U, and the terminal devices 10 and XR glasses 20 used by other users are omitted.
  • the information processing system 1 is a system that provides services to a plurality of users.
  • the terminal device 10 is an example of an information processing device.
  • the IoT device 40-K is connected to the terminal device 10 via the communication network NET.
  • the IoT device 40-K may transmit beacon signals.
  • the beacon signal includes device identification information DID for uniquely identifying the IoT device 40-K.
  • the IoT device 40-K shown in FIG. 1 transmits device identification information DID[K].
  • the communication network NET includes wireless LANs in addition to the Internet. In a wireless LAN, communication is performed using Wi-Fi technology or Bluetooth technology. Wi-Fi and Bluetooth are registered trademarks.
  • the IoT device 40-K is, for example, an electronic device such as a television, a washing machine, a lighting device, an electric pot, a multifunction machine, and a personal computer.
  • the IoT device 40 -K directly accepts the operation of the user U and operates based on the control information transmitted from the terminal device 10 .
  • the terminal device 10 displays a virtual object placed in the virtual space on the XR glasses 20 worn on the head of the user U, and controls the IoT device 40-K.
  • a virtual object includes a user interface image of the IoT device 40-K.
  • the user interface image may include a button for controlling power on/off, a button for selecting a channel, or a button for controlling volume.
  • the virtual objects may include, for example, still images, moving images, 3DCG models, 3D images representing data such as HTML files and text files, and 3D images representing applications. Text files include notes, source code, diaries, and recipes, by way of example. Examples of applications include browsers, applications for using SNS, and applications for generating document files.
  • the terminal device 10 is preferably a mobile terminal device such as a smart phone and a tablet, for example.
  • the XR glasses 20 are see-through wearable displays worn on the user U's head. Under the control of the terminal device 10, the XR glasses 20 display a virtual object on the display panel provided for each of the binocular lenses. Note that the XR glass 20 is an example of a transmissive display device. Through the XR glasses 20, the user visually recognizes an object existing in the real space and also visually recognizes a virtual object displayed in the virtual space.
  • the server 30 provides various data and cloud services to the terminal device 10 via the communication network NET.
  • FIG. 2 is a perspective view showing the appearance of the XR glasses 20.
  • the XR glasses 20 have temples 91 and 92, a bridge 93, trunks 94 and 95, and lenses 41L and 41R, like general spectacles.
  • An imaging device 27 is provided in the bridge 93 .
  • the imaging device 27 captures an image of the outside world and outputs imaging data representing the captured image.
  • each of the temples 91 and 92 is provided with a microphone 24 for picking up sound.
  • the microphone 24 outputs audio data representing the collected audio.
  • the position of the microphone 24 is not limited to the temples 91 and 92, and may be, for example, the bridge 93 and the trunks 94 and 95.
  • Each of the lenses 41L and 41R has a half mirror.
  • the body portion 94 is provided with a liquid crystal panel or an organic EL panel for the left eye (hereinafter collectively referred to as a display panel) and an optical member for guiding light emitted from the display panel for the left eye to the lens 41L. .
  • the half mirror provided in the lens 41L transmits external light and guides it to the left eye, and reflects the light guided by the optical member, thereby allowing the reflected light to enter the left eye.
  • the body portion 95 is provided with a right-eye display panel and an optical member that guides light emitted from the right-eye display panel to the lens 41R.
  • the half mirror provided in the lens 41R transmits external light and guides it to the right eye, and reflects the light guided by the optical member so that the reflected light enters the right eye.
  • the display 29, which will be described later, includes a lens 41L, a left-eye display panel, a left-eye optical member, and a lens 41R, a right-eye display panel, and a right-eye optical member.
  • the user U can observe the image displayed by the display panel in a see-through state in which the image is superimposed on the appearance of the outside world. Further, in the XR glasses 20, of the binocular images with parallax, the image for the left eye is displayed on the display panel for the left eye, and the image for the right eye is displayed on the display panel for the right eye.
  • the glasses 20 allow the user U to perceive the displayed image as if it had depth and three-dimensionality.
  • FIG. 3 is a schematic diagram showing how the user U wearing the XR glasses 20 is in the living room of his/her home.
  • IoT devices 40-1 to 40-4 In the living room, there are IoT devices 40-1 to 40-4, a clock 50-1 and a table 50-2. The user U visually recognizes these objects existing in the real space through the XR glasses 20 .
  • the IoT device 40-1 is a television
  • the IoT device 40-2 is an air conditioner
  • the IoT device 40-3 is a lighting device
  • the IoT device 40-4 is an electric kettle.
  • the device for which the registration process associated with the user U has been executed is remotely controlled by the user U.
  • FIG. In the following description, a device that is associated with the user U and that is to be remotely controlled will be referred to as an operation target device. Details of the registration process will be described later.
  • an identification image for identifying the device to be operated is displayed on the XR glasses 20 in a situation where the user U visually recognizes a plurality of objects existing in the real space through the XR glasses 20 .
  • An identification image is an example of a virtual object.
  • the user U uses the XR glasses 20 to view the identification images G1 and G2 shown in FIG. visually.
  • the identification images G1 and G2 allow the user U to recognize, at a glance, the device to be operated among a plurality of objects existing in the physical space.
  • FIG. 5 is a block diagram showing a configuration example of the XR glasses 20.
  • the XR glasses 20 include a processing device 21 , a storage device 22 , a line-of-sight detection device 23 , a microphone 24 , a GPS device 25 , a motion detection device 26 , an imaging device 27 , a communication device 28 and a display 29 .
  • Each element of the XR glasses 20 is interconnected by one or more buses for communicating information.
  • the processing device 21 is a processor that controls the entire XR glass 20, and is configured using, for example, one or more chips.
  • the processing device 21 is configured using, for example, a central processing unit (CPU) including an interface with peripheral devices, an arithmetic device, registers, and the like. Some or all of the functions of the processing device 21 are realized by hardware such as DSP (Digital Signal Processor), ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), FPGA (Field Programmable Gate Array), and the like. may
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • the processing device 21 executes various processes in parallel or sequentially.
  • the storage device 22 is a recording medium readable and writable by the processing device 21, and stores a plurality of programs including the control program PR1 executed by the processing device 21.
  • the line-of-sight detection device 23 detects the line-of-sight of the user U, and outputs line-of-sight data indicating the direction of the line-of-sight of the user U to the processing device 21 based on the detection result. Any method may be used to detect the line of sight by the line of sight detection device 23 .
  • the line-of-sight detection device 23 may detect line-of-sight data, for example, based on the position of the inner corner of the eye and the position of the iris.
  • the microphone 24 picks up audio and outputs audio data based on the picked-up audio to the processing device 21 .
  • the GPS device 25 receives radio waves from multiple satellites and generates position data from the received radio waves.
  • the position data indicates the position of the XR glasses 20.
  • FIG. The position data may be in any format as long as the position of the XR glasses 20 can be specified.
  • the position data indicates, for example, the latitude and longitude of the XR glasses 20 .
  • position data is obtained from GPS device 25 .
  • the XR glasses 20 may acquire position data in any manner.
  • the acquired position data is output to the processing device 21 .
  • the motion detection device 26 detects motion of the XR glasses 20 and outputs motion data to the processing device 21 .
  • the motion detection device 26 includes an inertial sensor such as an acceleration sensor that detects acceleration and a gyro sensor that detects angular acceleration.
  • the acceleration sensor detects acceleration in directions along the X, Y, and Z axes that are perpendicular to each other.
  • the gyro sensor detects angular acceleration about each of the X-, Y-, and Z-axes as the central axis of rotation.
  • the motion detection device 26 can generate posture information indicating the posture of the XR glasses 20 based on the output information of the gyro sensor.
  • the motion data includes acceleration data respectively indicating three-axis accelerations and angular acceleration data respectively indicating three-axis angular accelerations.
  • the imaging device 27 outputs imaging data obtained by imaging the outside world.
  • the imaging device 27 is, for example, a camera.
  • the imaging device 27 includes, for example, a lens, an imaging element, an amplifier, and an AD converter.
  • the light condensed through the lens is converted into an image pickup signal, which is an analog signal, by the image pickup device.
  • the amplifier amplifies the imaging signal and outputs the amplified imaging signal to the AD converter.
  • the AD converter converts the amplified imaging signal, which is an analog signal, into imaging data, which is a digital signal.
  • the converted imaging data is output to the processing device 21 .
  • the imaging data output to the processing device 21 is output to the terminal device 10 via the communication device 28 .
  • the terminal device 10 recognizes various gestures of the user U based on the imaging data, and controls the terminal device 10 according to the recognized gestures.
  • the communication device 28 is hardware as a transmission/reception device for communicating with other devices.
  • the communication device 28 is also called, for example, a network device, a network controller, a network card, a communication module, or the like.
  • the communication device 28 may include a connector for wired connection and an interface circuit corresponding to the connector.
  • the communication device 28 may also have a wireless communication interface.
  • Products conforming to wired LAN, IEEE1394, and USB are examples of connectors and interface circuits for wired connection.
  • wireless communication interfaces include products conforming to wireless LAN, Bluetooth, and the like.
  • the display 29 is a device that displays images.
  • the display 29 displays various images under the control of the processing device 21 .
  • the display 29 includes the lens 41L, the left-eye display panel, the left-eye optical member, and the lens 41R, the right-eye display panel, and the right-eye optical member, as described above.
  • Various display panels such as a liquid crystal display panel and an organic EL display panel are preferably used as the display panel.
  • the processing device 21 functions as an acquisition unit 211 and a display control unit 212 by reading the control program PR1 from the storage device 22 and executing the read control program PR1.
  • the acquisition unit 211 acquires the control signal output from the terminal device 10 .
  • the control signal includes a signal for controlling the display of the XR glasses 20 generated by the display control section 116 (see FIG. 6) of the terminal device 10 .
  • the acquisition unit 211 also receives line-of-sight data input from the line-of-sight detection device 23, audio data input from the microphone 24, position data input from the GPS device 25, motion data input from the motion detection device 26, and imaging data.
  • the imaging data input from the device 27 is acquired. After that, the acquisition unit 211 outputs line-of-sight data, audio data, position data, motion data, and imaging data to the terminal device 10 via the communication device 28 .
  • the display control unit 212 controls display on the display 29 based on the control signal from the terminal device 10 acquired by the acquisition unit 211 .
  • FIG. 6 is a block diagram showing a configuration example of the terminal device 10. As shown in FIG.
  • the terminal device 10 includes a processing device 11 , a storage device 12 , a communication device 13 , a display 14 , an input device 15 and an inertial sensor 16 .
  • the elements of terminal 10 are interconnected by a bus or buses for communicating information. Note that the term "apparatus" in this specification may be replaced with another term such as a circuit, a device, or a unit.
  • the processing device 11 is a processor that controls the entire terminal device 10, and is configured using, for example, one or more chips.
  • the processing unit 11 is configured using, for example, a central processing unit (CPU) including interfaces with peripheral devices, arithmetic units, registers, and the like.
  • CPU central processing unit
  • a part or all of the functions of the processing device 11 may be realized by hardware such as DSP, ASIC, PLD, and FPGA.
  • the processing device 11 executes various processes in parallel or sequentially.
  • the storage device 12 is a recording medium readable and writable by the processing device 11, and stores a plurality of programs including the control program PR2 executed by the processing device 11, and registration information IF.
  • FIG. 7 is a diagram showing an example of registration information IF.
  • the registration information IF is tabular information.
  • device identification information DID for uniquely identifying the device to be operated
  • device position information IFp for uniquely identifying the device to be operated
  • device image information IFg are associated with each other.
  • the device position information IFp indicates the position of the user U at the time when the registration process, which will be described later, is executed.
  • the position of the user U may be a position indicated by position data generated by the GPS device 25 of the XR glasses 20 .
  • the terminal device 10 may include a GPS device. If the terminal device 10 includes a GPS device, the device location information IFp may be generated based on the location data output from the GPS device of the terminal device 10 .
  • the device image information IFg indicates the image of the operation target device extracted from the image obtained by capturing the physical space.
  • An image obtained by imaging the physical space is captured by the imaging device 27 of the XR glasses 20, for example.
  • the communication device 13 is hardware as a transmission/reception device for communicating with other devices.
  • the communication device 13 is also called a network device, a network controller, a network card, a communication module, etc., for example.
  • the communication device 13 may include a connector for wired connection and an interface circuit corresponding to the connector. Further, the communication device 13 may have a wireless communication interface. Products conforming to wired LAN, IEEE1394, and USB are examples of connectors and interface circuits for wired connection. Also, wireless communication interfaces include products conforming to wireless LAN, Bluetooth, and the like.
  • the display 14 is a device that displays images and character information.
  • the display 14 displays various images under the control of the processing device 11 .
  • various display panels such as a liquid crystal display panel and an organic EL (Electro Luminescence) display panel are preferably used as the display 14 .
  • the input device 15 accepts operations from the user U.
  • the input device 15 includes a pointing device such as a keyboard, touch pad, touch panel, or mouse.
  • the input device 15 may also serve as the display 14 .
  • the inertial sensor 16 is a sensor that detects inertial force.
  • the inertial sensor 16 includes, for example, one or more of an acceleration sensor, an angular velocity sensor, and a gyro sensor.
  • the processing device 11 detects the orientation of the terminal device 10 based on the output information from the inertial sensor 16 .
  • the processing device 11 By reading the control program PR2 from the storage device 12 and executing the read control program PR2, the processing device 11 performs an acquisition unit 111, a reception unit 112, a management unit 113, a determination unit 114, a generation unit 115, and a display control unit. It functions as part 116 .
  • the acquisition unit 111 uses the communication device 13 to acquire line-of-sight data, audio data, position data, motion data, and imaging data transmitted from the XR glasses 20 .
  • the reception unit 112 receives user U's operation.
  • the user's operation may be performed on the XR glasses 20 or may be performed on the terminal device 10 .
  • the user U's operations on the XR glasses 20 include operations based on the user's U line of sight and operations based on the user's U gestures.
  • An operation by the user U's line of sight is performed by the user U directing the line of sight to a virtual object arranged in the virtual space or an object arranged in the real space through the XR glasses 20 . Specifically, a virtual object or a real object that exists ahead of the user's line of sight is selected.
  • the reception unit 112 receives an operation by the user U to select a virtual object or a real object based on the line-of-sight data acquired by the acquisition unit 111 .
  • the reception unit 112 recognizes various gestures of the user U based on the imaging data acquired by the acquisition unit 111 .
  • Various gestures include a first operation, a second operation, a third operation, and a fourth operation.
  • the first operation is an operation that the user U instructs to start a process of registering an object existing in the physical space as an operation target device.
  • the first operation is, for example, an action by which the user U puts the palm of the left hand and the palm of the right hand together.
  • the second operation is an operation of instructing display of an identification image corresponding to an object corresponding to an operation target device among a plurality of objects visually recognized through the XR glasses 20 .
  • the second operation is, for example, an action of the user U clenching his right hand.
  • the third operation is an operation by which the user U instructs the operation target device to start operating.
  • the third operation is, for example, an action of the user U swinging the right hand up and down.
  • a fourth operation is an operation by which the user U instructs to end the operation on the operation target device.
  • the fourth operation is, for example, an action of the user U swinging the right hand left and right.
  • the management unit 113 executes a registration process of registering an object existing in the physical space as an operation target device.
  • the conditions for starting the registration process may include items other than the fact that the first operation has been performed.
  • the management unit 113 may register the object that exists in the physical space as the operation target device.
  • the management unit 113 may allow only personal computers to which the user U has access authority to be registered as operation target devices.
  • the management unit 113 extracts the image of the operation target device from the image obtained by capturing the image of the physical space.
  • the management unit 113 manages the registered operation target device and the image of the operation target device in association with each other.
  • the management unit 113 updates the registration information IF stored in the storage device 12 as the operation target device is registered and updated.
  • the management unit 113 sends a registration notification including the user identification information UID for identifying the user U and the registration information IF via the communication device 13. and transmits it to the server 30 .
  • the determination unit 114 determines the operation target device among the multiple objects.
  • the determination unit 114 determines the operation target device based on the imaging data.
  • the imaging data indicates a captured image captured by the imaging device 27 of the XR glasses 20 . This captured image is obtained by capturing images of a plurality of objects existing in the physical space that the user U visually recognizes through the XR glasses 20 .
  • the determination unit 114 determines the device to be operated from among the plurality of objects based on the images of the plurality of objects included in the captured image and the image of the device to be operated. For example, when the captured image is the image shown in FIG. 4, the captured image includes a plurality of objects corresponding one-to-one with the IoT devices 40-1 to 40-4, the clock 50-1, and the table 50-2. Contains images.
  • the devices to be operated associated with the user U are the IoT device 40-1 and the IoT device 40-2, and the registration information IF contains information corresponding to the IoT device 40-1 and It is assumed that the corresponding information is registered and the other information is not registered.
  • the information corresponding to the IoT device 40-1 is the device identification information DID[1], the device position information IFp[P1] and the device image information IFg[111.jpg] shown in FIG.
  • the information corresponding to the IoT device 40-2 is device identification information DID[2], device position information IFp[P2], and device image information IFg[222.jpg] shown in FIG.
  • the determination unit 114 determines the operation target device based on the images of the plurality of objects, the image of the IoT device 40-1, and the image of the IoT device 40-2.
  • the determination unit 114 extracts images of a plurality of objects from the captured image by applying image recognition processing to the captured image.
  • the determination unit 114 refers to the registration information IF and acquires an image of the device to be operated. For example, for each of a plurality of object images, the determination unit 114 calculates an evaluation value indicating the degree of similarity between the image of the object and the image of the device to be operated, and operates objects for which the calculated evaluation value exceeds a threshold. You may discriminate
  • the generation unit 115 generates an identification image for identifying the operation target device from objects other than the operation target device among the plurality of objects.
  • the identification image may be, for example, an image showing a frame surrounding the device to be operated as shown in FIG. 4, or an image of an arrow pointing to the device to be operated. In short, the identification image may be any image as long as the device to be operated and an object other than the device to be operated can be identified.
  • the display control unit 116 displays an identification image on the XR glasses 20 in association with the operation target device visually recognized by the user U through the XR glasses 20 . Specifically, the display control unit 116 identifies the operation target device visually recognized through the XR glasses 20 based on the imaging data, and displays an image of the virtual space in which the identification image is arranged according to the position of the operation target device. Generate. The display control unit 116 causes the XR glasses 20 to display the identification image by transmitting image information indicating an image of the virtual space to the XR glasses 20 via the communication device 13 .
  • the display control unit 116 causes the XR glasses 20 to display an image related to the operation on the operation target device when the operation received by the reception unit 112 is an operation specifying the start of the operation on the operation target device.
  • the operation specifying the start of the operation on the operation target device is, for example, the above-described first operation.
  • the image related to the operation on the operation target device includes a user interface image for operating the operation target device.
  • the user interface image includes an image indicating the state of the device to be operated, in addition to the operation button operated by the user. For example, when the operation target device selected by the user U is the IoT device 40-2 shown in FIG. 4, an image G related to the operation on the operation target device shown in FIG. 8 is displayed.
  • the image G includes an operation area Gx operated by the user U and a setting area Gy in which an image indicating the state of the air conditioner is displayed.
  • the operation area Gx includes buttons B1 to B7.
  • the button B1 is used to turn on the power, and turns red when the power is on.
  • the button B2 is used to turn off the power, and turns red when the power is off.
  • Button B3 is used for an operation to increase the set temperature.
  • the button B4 is used for the operation of decreasing the set temperature.
  • the button B5 is used to set the air volume to "low” and turns red when the air volume is set to "low”.
  • the button B6 is used to set the air volume to "medium”, and turns red when the air volume is set to "medium”.
  • the button B7 is used to set the air volume to "high” and turns red when the air volume is set to "high”.
  • FIG. 9 is a block diagram showing a configuration example of the server 30.
  • the server 30 comprises a processing device 31 , a storage device 32 , a communication device 33 , a display 34 and an input device 35 .
  • Each element of server 30 is interconnected by a bus or buses for communicating information.
  • the processing device 31 is a processor that controls the entire server 30, and is configured using, for example, one or more chips.
  • the processing unit 31 is configured using, for example, a central processing unit including an interface with peripheral devices, an arithmetic unit, registers, and the like.
  • a part or all of the functions of the processing device 31 may be realized by hardware such as DSP, ASIC, PLD, and FPGA.
  • the processing device 31 executes various processes in parallel or sequentially.
  • the storage device 32 is a recording medium readable and writable by the processing device 31, and stores a plurality of programs including the control program PR3 executed by the processing device 31, management information IFx, and access right information IFy.
  • FIG. 10 is an explanatory diagram showing the contents of management information IFx. As shown in FIG. 10, in the management information IFx, user identification information UID and registration information IF are associated with each other. When the processing device 31 receives the registration notification from the terminal device 10, the processing device 31 updates the management information IFx. The processing device 31 can recognize the registration information IF for each user by referring to the management information IFx.
  • FIG. 11 is an explanatory diagram showing the contents of the access right information IFy. As shown in FIG.
  • the user identification information UID and the device identification information DID indicating the device that the user can access corresponding to the user identification information UID are associated with each other.
  • User-accessible devices include IoT devices. For example, a user corresponding to user identification information UID[1] can access a device corresponding to device identification information DID[1] and a device corresponding to DID[2].
  • the processing device 31 can recognize accessible devices for each user by referring to the access right information IFy. When receiving the confirmation request, the processing device 31 refers to the access right information IFy and generates a confirmation response.
  • the communication device 33 is hardware as a transmission/reception device for communicating with other devices.
  • the communication device 33 is also called a network device, a network controller, a network card, a communication module, etc., for example.
  • the communication device 33 may include a connector for wired connection and an interface circuit corresponding to the connector. Further, the communication device 33 may have a wireless communication interface.
  • Products conforming to wired LAN, IEEE1394, and USB are examples of connectors and interface circuits for wired connection.
  • a wireless communication interface there are products conforming to wireless LAN, Bluetooth (registered trademark), and the like.
  • the display 34 is a device that displays images and character information.
  • the display 34 displays various images under the control of the processing device 31 .
  • various display panels such as a liquid crystal display panel and an organic EL display panel are preferably used as the display 34 .
  • the input device 35 is a device that accepts operations by the administrator of the information processing system 1 .
  • the input device 35 includes a pointing device such as a keyboard, touch pad, touch panel, or mouse.
  • the input device 35 may also serve as the display 34 .
  • the processing device 31 functions as an output unit 311 and an acquisition unit 312 by reading the control program PR3 from the storage device 32 and executing the read control program PR3.
  • the output unit 311 outputs an acknowledgment to the terminal device 10 by using the communication device 33 .
  • the output unit 311 outputs data necessary for the terminal device 10 to provide a virtual space to the user U wearing the XR glasses 20 on the head, to the terminal device 10 .
  • the data includes data related to the virtual object itself and data related to an application (not shown) for using the cloud service stored in the server 30 .
  • the acquisition unit 312 acquires various data from the terminal device 10 by using the communication device 33 .
  • the data includes, for example, data indicating the operation content for the virtual object, which is input to the terminal device 10 by the user U wearing the XR glasses 20 on the head. Further, when the user U uses the above cloud service, the data includes input data to the above application.
  • FIGS. 12 to 14 are flowcharts showing the operation of the information processing system 1 according to the first embodiment.
  • FIG. 12 is a flowchart for explaining the operation of the registration processing of the information processing system 1 .
  • step S1 the processing device 11 determines whether or not the first operation has been accepted.
  • the first operation is an operation by the user U to instruct the start of the registration process, as described above.
  • the processing device 11 repeats the determination until the determination result of step S1 becomes affirmative. If the determination result of step S1 is affirmative, the processing device 11 advances the process to step S2.
  • step S2 the processing device 11 determines whether the user U is authorized to operate the object selected by the user U as the device to be operated.
  • step S ⁇ b>2 the processing device 11 firstly transmits to the server 30 a confirmation request including a set of user identification information UID for identifying the user U and device identification information DID of the device to be operated. Secondly, the processing device 11 determines the presence or absence of authority based on the acknowledgment received from the server 30 .
  • step S2 If the determination result in step S2 is negative, the processing device 11 generates an error image indicating that the user U does not have the authority to operate, and transmits error image information indicating the error image to the XR glasses 20 (step S3). ).
  • the XR glasses 20 display the error image in virtual space based on the error image information.
  • the processing device 11 causes the XR glasses 20 to display the error image by transmitting the error image information.
  • step S4 the processing device 11 extracts the image of the device to be operated from the captured image.
  • the processing device 11 extracts an image of the operation target device specified by the user U based on the line-of-sight data and the imaging data received from the XR glasses 20 .
  • the processing device 11 recognizes each of the plurality of objects included in the captured image by applying image recognition processing to the captured image data.
  • the processing device 11 identifies an object that intersects with the line of sight indicated by the line of sight data, among the plurality of recognized objects, as an operation target device.
  • the processing device 11 extracts the image of the specified object from the captured image indicated by the captured data, thereby generating the device image information IFg indicating the image of the operation target device.
  • step S5 the processing device 11 generates registration information IF in which the device identification information DID, the device position information IFp, and the device image information IFg are mutually associated, and stores the generated registration information IF in the storage device 12.
  • the device position information IFp indicates the position of the user U when the registration process is executed.
  • the processing device 11 generates the device position information IFp based on the position data acquired from the XR glasses 20 when executing the registration process.
  • the processing device 11 transmits a registration notification including the generated registration information IF and the user identification information UID for identifying the user U to the server 30 .
  • the processing device 11 functions as the reception unit 112 in step S1.
  • the processing device 11 functions as the management unit 113 in steps S2, S4 and S5.
  • the processing device 11 functions as the display control unit 116 in step S3.
  • the processing device 11 determines whether the user U has the authority to operate the object selected by the user U as the device to be operated in step S2. However, this determination may be omitted. When the determination is omitted, acceptance of the first operation is a condition for associating the user U with the operation target device.
  • FIG. 13 is a flowchart for explaining the operation of the identification image display processing of the information processing system 1 .
  • the identification image display process is a process of displaying an identification image on the XR glasses 20 in a situation where the user U visually recognizes a plurality of objects existing in the physical space through the XR glasses 20 .
  • step S11 the processing device 11 determines whether or not the user U's second operation has been accepted.
  • the second operation as described above, is an operation that the user U instructs to display the identification image.
  • the processing device 11 repeats the determination until the determination result of step S11 becomes affirmative. If the determination result of step S11 is affirmative, the processing device 11 advances the process to step S12.
  • step S12 the processing device 11 determines the device to be operated from among the plurality of objects based on the images of the plurality of objects included in the captured image and the image of the device to be operated. For example, the processing device 11 calculates, for each of a plurality of object images, an evaluation value indicating the degree of similarity between the image of the object and the image of the device to be operated, and operates objects for which the calculated evaluation value exceeds a threshold. Determine that it is the target device.
  • step S13 the processing device 11 generates an identification image for identifying the operation target device from objects other than the operation target device among the plurality of objects. For example, when the identification image is an image of a frame surrounding the device to be operated, the processing device 11 generates an image of a frame surrounding the device to be operated determined in the process of step S13 as the identification image.
  • step S14 the processing device 11 causes the XR glasses 20 to display the identification image by transmitting image information indicating the identification image generated in step S13 to the XR glasses 20.
  • the processing device 11 functions as the reception unit 112 in step S11.
  • the processing device 11 functions as the determination unit 114 in step S12.
  • the processing device 11 functions as the generator 115 in step S13.
  • the processing device 11 functions as the display control unit 116 in step S14.
  • FIG. 14 is a flowchart for explaining the operation processing of the information processing system 1 .
  • the operation processing is processing for the user U to operate the operation target device using the XR glasses 20 .
  • step S21 the processing device 11 determines whether or not the user U's third operation has been accepted.
  • the third operation is an operation by which the user U instructs the operation target device to start operating.
  • the processing device 11 repeats the determination until the determination result of step S21 becomes affirmative.
  • the processing device 11 advances the process to step S22.
  • the processing device 11 determines whether the object selected by the user U is the device to be operated. For example, while wearing the XR glasses 20, the user U selects one object by directing his or her line of sight to one object to be remotely controlled from among a plurality of objects present in the field of view for a predetermined time or longer. The processing device 11 identifies the object selected by the user U based on the imaging data and line-of-sight data received from the XR glasses 20 . Based on the imaged image indicated by the imaged data, the processing device 11 identifies, as an object selected by the user U, an object with which the line of sight of the line of sight data intersects for a predetermined time or longer, from among a plurality of objects visually recognized by the user U. The processing device 11 compares the image of the selected object with the images indicated by all the equipment image information IFg recorded in the registration information IF, thereby determining whether the object selected by the user U is the operation target equipment. judge.
  • step S22 the processing device 11 generates an error image indicating that the selected object does not correspond to the device to be operated, and transmits error image information indicating the error image to the XR glasses 20.
  • Step S23 The XR glasses 20 display the error image in virtual space based on the error image information.
  • the processing device 11 causes the XR glasses 20 to display the error image by transmitting the error image information.
  • the error image displayed on the XR glasses 20 allows the user U to recognize that the selected object does not correspond to the device to be operated.
  • step S22 determines whether the determination result in step S22 is affirmative.
  • the processing device 11 generates a user interface image corresponding to the device to be operated, and transmits image information indicating the user interface image to the XR glasses 20.
  • the XR glasses 20 display the received user interface image on the XR glasses 20 . That is, the processing device 11 causes the XR glasses 20 to display the user interface image by transmitting the image information (step S24).
  • step S ⁇ b>25 the processing device 11 transmits control information according to the user U's operation to the operation target device via the communication device 13 .
  • the processing device 11 recognizes the user U's operation on the user interface image based on the line-of-sight data.
  • step S26 the processing device 11 determines whether the operation by the user U has ended. Specifically, the processing device 11 determines whether or not the fourth operation has been received. A fourth operation is an operation by which the user U instructs to end the operation on the operation target device. The processing device 11 repeats the processes of steps S25 and S26 until the determination result of step S26 becomes affirmative. If the determination result of step S26 is affirmative, the processing device 11 ends the operation process.
  • the processing device 11 functions as the reception unit 112 in step S21.
  • the processing device 11 also functions as the display control unit 116 in steps S23 and S24.
  • the terminal device 10 as an information processing device includes the determination unit 114 , the generation unit 115 and the display control unit 116 .
  • the determination unit 114 determines which of the plurality of objects is associated with the user U and is a target of remote operation by the user U. to determine which device to be operated.
  • the generation unit 115 generates an identification image for identifying the operation target device from objects other than the operation target device among the plurality of objects.
  • the display control unit 116 displays the identification image on the XR glasses 20 in association with the operation target device visually recognized by the user U through the XR glasses 20 .
  • the operation target device and objects other than the operation target device coexist. Since the terminal device 10 displays an identification image for identifying an operation target device among a plurality of objects visually recognized through the XR glasses 20 in association with the operation target device visually recognized by the user U, the user U can easily grasp which object among a plurality of objects is the device to be operated.
  • the terminal device 10 further includes a reception unit 112 that receives an operation by the user U.
  • the operation received by the reception unit 112 is an operation for specifying the start of the operation on the operation target device
  • the operation on the operation target device is performed. to display an image related to the XR glass 20,
  • the user U can remotely control the operation target device while viewing images related to operations on the operation target device.
  • the determination unit 114 determines the device to be operated based on the captured images obtained by capturing images of a plurality of objects.
  • a captured image is an image obtained by capturing an image of the real space in a situation where the user U is viewing the real space through the XR glasses. Therefore, the captured image reflects the situation of the physical space at the timing of displaying the identification image. Therefore, the discrimination unit 114 can improve the accuracy of discrimination compared to a configuration that discriminates the operation target device without based on the captured image.
  • the management unit 113 registers an object existing in the physical space as the operation target device on condition that at least the operation received by the reception unit 112 is the first operation, and registers the registered operation target device and the physical space. and the image of the device to be operated, which is extracted from the image obtained by capturing the image, are associated with each other and managed. Further, the determination unit 114 determines the operation target device from among the plurality of objects based on the images of the multiple objects included in the captured image and the image of the operation target device managed by the management unit 113 .
  • the terminal device 10 Since the terminal device 10 has the above configuration, it is possible to determine the operation target device from among the plurality of objects based on the pre-registered image of the operation target device and the images of the plurality of objects.
  • the management unit 113 satisfies the first condition that the operation received by the reception unit 112 is the first operation and the second condition that the user U has the authority to operate an object existing in the physical space. First, an object that exists in the real space is registered as an operation target device.
  • the terminal device 10 Since the terminal device 10 has the above configuration, when the user U does not have the authority to operate the operation target device, an object existing in the physical space cannot be registered as the operation target device. Therefore, the terminal device 10 can prevent a device that the user U does not have the authority to operate from being registered.
  • the information processing system 1 When generating an identification image, the information processing system 1 according to the first embodiment described above generates an image of an operation target device indicating all device image information recorded in the registration information IF, Based on the images of the plurality of objects, the device to be operated was discriminated from among the plurality of objects.
  • the information processing system 1 of the second embodiment differs from the information processing system 1 of the first embodiment in the following points. That is, the information processing system 1 of the second embodiment extracts the operation target devices that are visible from the current position of the user U from all the operation target devices recorded in the registration information IF, and performs the extracted operation. Based on the image of the target device and the images of the plurality of objects, the device to be operated is discriminated from among the plurality of objects.
  • An information processing system 1 of the second embodiment has the same configuration as the information processing system 1 of the first embodiment except that a terminal device 10A is used instead of the terminal device 10. be done.
  • FIG. 15 is a block diagram showing the configuration of the terminal device 10A.
  • the terminal device 10A is configured in the same manner as the terminal device 10 except that the control program PR2a is used instead of the control program PR2 and the determination section 114A is used instead of the determination section 114.
  • the processing device 11 functions as the determination unit 114A by reading the control program PR2a from the storage device 12 and executing the read control program PR2a.
  • FIG. 16 is a schematic diagram showing how the user U wearing the XR glasses 20 is in the office.
  • IoT devices 40-5 to 40-11 in the office.
  • the IoT device 40-5 is a multifunction machine
  • the IoT devices 40-6 and 40-9 are lighting stands
  • the IoT devices 40-7 and 40-10 are displays
  • the IoT devices 40-8 and 40-11 is a personal computer.
  • the IoT devices 40-5 to 40-11 the IoT devices 40-5 to 40-8 are the operation target devices for which the registration process to be associated with the user U has been executed.
  • the operation target devices associated with the user U are the two IoT devices 40-1 and 40-2 present at home and the four IoT devices 40-5 to 40- present at the office. 8.
  • the determination unit 114 When the user U is at home, the determination unit 114 according to the first embodiment performs the object image and the eight object images recorded in the registration information IF for each of the six object images shown in FIG. By comparing each of the images of the operation target devices, the operation target device that the user U is visually recognizing is determined. Therefore, the determination unit 114 executes the comparison process 48 times. However, considering that the user U is at home, it is not necessary to determine the four operation target devices present in the office.
  • the determination unit 114A of the second embodiment executes the following extraction processing and determination processing.
  • the extraction process is based on the current position information indicating the current position of the user U and the device position information IFp. This is a process of extracting images of operation target devices positioned within a range of , as candidate images. For example, when the user U is at home, the current location information indicates the location of the home.
  • the device identification information DID[1] and the device identification information DID[2] respectively correspond to the IoT devices 40-1 and 40-2 installed at home.
  • the determination unit 114A extracts the image indicated by the device image information IFg "111.jpg" and the image indicated by the device image information IFg "222.jpg" as candidate images by referring to the registration information IF.
  • the discrimination process is a process of discriminating the device to be operated from among multiple objects based on the images of the multiple objects included in the captured image and the extracted candidate images.
  • images of six objects such as IoT devices 40-1 to 40-4, clock 50-1 and table 50-2 are included in the captured image.
  • the number of candidate images is two. Therefore, the determination unit 114A can determine the operation target device by executing the comparison 12 times. As a result, the determination unit 114A can reduce the processing load compared to the determination unit 114.
  • FIG. 17 is a flowchart for explaining the operation of the identification image display processing according to the second embodiment.
  • the identification image display process according to the second embodiment is the same as the identification image display process according to the first embodiment shown in FIG. 13, except that steps S12a, S12b, and S12c are used instead of step S12. be. Differences will be described below.
  • step S12a the processing device 11 acquires current location information indicating the current location of the user U. Specifically, the processing device 11 acquires the position data received from the XR glasses 20 as the current position information.
  • step S12b the processing device 11 extracts an image of the operation target device located within a certain distance from the position indicated by the current position information, from among the images of the operation target device, based on the current position information and the device position information IFp. are extracted as candidate images. Specifically, the processing device 11 identifies the device identification information for which the distance between the position indicated by the device position information IFp recorded in the registration information IF and the position indicated by the current position information is equal to or less than a certain distance, and The image indicated by the device image information IFg corresponding to the device identification information obtained is extracted as a candidate image.
  • the fixed distance is preferably a distance that can distinguish between a group and another group when the positions of the device position information IFp recorded in the registration information IF are classified into a plurality of groups.
  • the fixed distance should be able to distinguish between the device position information IFp indicating the position of the home and the device position information IFp indicating the position of the office.
  • step S12c the processing device 11 determines the operation target device from among the plurality of objects based on the images of the plurality of objects included in the captured image and the candidate images extracted by the process of step S12b. For example, the processing device 11 calculates, for each of a plurality of object images, an evaluation value indicating the degree of similarity between the object image and the candidate image, and selects an object whose calculated evaluation value exceeds a threshold as the operation target device. determine that there is
  • the processing device 11 functions as the acquisition unit 111 in step S12a. Also, the processing device 11 functions as the determination unit 114A in steps S12b and S12c.
  • step S22 By comparing with the image indicated by the information IFg, it is determined whether the object selected by the user U is the device to be operated.
  • all the images indicated by the device image information IFg are not compared, but the position indicated by the device position information IFp recorded in the registration information IF and the position indicated by the current position information are compared.
  • the device identification information whose distance between is equal to or less than a certain distance is specified, and the image indicated by the device image information IFg corresponding to the specified device identification information is compared. Since the terminal device 10 ⁇ /b>A limits the image of the operation target device to be compared according to the distance from the user U, the processing load on the processing device 11 can be reduced.
  • the terminal device 10A as an information processing device includes the management unit 113 and the determination unit 114A.
  • the management unit 113 manages the image of the device to be operated and the device position information IFp indicating the position of the user U at the time of registering the device to be operated, in association with each other.
  • the determination unit 114A selects the image of the operation target device managed by the management unit 113 from the position indicated by the current position information.
  • An image of a device to be operated located within a certain distance is extracted as a candidate image, and an operation target is selected from among the plurality of objects based on the images of the plurality of objects included in the captured image and the extracted candidate images. Identify equipment.
  • the terminal device 10A Since the terminal device 10A has the above configuration, among the operation target devices managed by the management unit 113, the operation target device located within a certain distance from the current position of the user U is specified, and the specified operation is performed. Using the image of the target device, the device to be operated is determined from among a plurality of objects. Therefore, the device to be operated that is located more than a certain distance from the current position is excluded from the objects of discrimination. Therefore, according to the terminal device 10A, the processing load of the determination process can be reduced.
  • user authentication may be a condition.
  • user authentication for example, an authentication request including identification information and a password for uniquely identifying a plurality of XR glasses 20 may be transmitted from the terminal device 10 to the server 30 .
  • the server 30 may perform user authentication by comparing pre-stored authentication information with the authentication request.
  • the server 30 performs user authentication, the user U using the XR glasses 20 has already been authenticated. Therefore, in the registration process, it is possible to prevent an unauthorized user U from impersonating an authorized user U and registering an operation target device.
  • the acquisition unit 111, the reception unit 112, the management unit 113, the determination unit 114 or 114A, the generation unit 115, and the display control unit 116 are connected to the terminal device 10 or 10A.
  • the server 30 is an example of an information processing device.
  • the terminal device 10 or 10A functions as a communication device that performs communication between the XR glasses 20 and the server 30 . That is, the server 30 may generate the identification image.
  • the first operation, the second operation, the third operation, and the fourth operation are input by gestures of the user U, but the present invention is not limited to this.
  • a first operation, a second operation, a third operation, and a fourth operation may be input by user U's operation on the terminal device 10 or 10A.
  • the selection of an object to be registered and the selection of an operation target device are performed based on the line of sight of the user U. is not limited to For example, the user U may operate the terminal device 10 or 10A to select an object to be registered and select an operation target device.
  • the terminal device 10 and the XR glasses 20 are implemented separately.
  • the terminal device 10A and the XR glasses 20 are implemented separately.
  • the method of realizing the terminal device 10 or 10A and the XR glasses 20 in the embodiment of the present invention is not limited to this.
  • the terminal device 10 or 10A and the XR glass 20 may be realized within a single housing by providing the XR glasses 20 with the same functions as the terminal device 10 or 10A.
  • the storage device 12, the storage device 22, and the storage device 32 are ROM and RAM, but flexible discs, magneto-optical discs (e.g., compact discs, digital versatile discs, Blu-ray discs), smart cards, flash memory devices (e.g. cards, sticks, key drives), CD-ROMs (Compact Disc-ROMs), registers, removable discs, hard disks, floppies ) disk, magnetic strip, database, server or other suitable storage medium.
  • the program may be transmitted from a network via an electric communication line.
  • the program may be transmitted from the communication network NET via an electric communication line.
  • the information, signals, etc. described may be represented using any of a variety of different technologies.
  • data, instructions, commands, information, signals, bits, symbols, chips, etc. may refer to voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. may be represented by a combination of
  • input/output information and the like may be stored in a specific location (for example, memory), or may be managed using a management table. Input/output information and the like can be overwritten, updated, or appended. The output information and the like may be deleted. The entered information and the like may be transmitted to another device.
  • the determination may be made by a value (0 or 1) represented using 1 bit, or by a true/false value (Boolean: true or false). Alternatively, it may be performed by numerical comparison (for example, comparison with a predetermined value).
  • each function illustrated in FIGS. 1 to 17 is realized by any combination of at least one of hardware and software.
  • the method of realizing each functional block is not particularly limited. That is, each functional block may be implemented using one device physically or logically coupled, or directly or indirectly using two or more physically or logically separated devices (e.g. , wired, wireless, etc.) and may be implemented using these multiple devices.
  • a functional block may be implemented by combining software in the one device or the plurality of devices.
  • software, instructions, information, etc. may be transmitted and received via a transmission medium.
  • the software uses at least one of wired technology (coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL), etc.) and wireless technology (infrared, microwave, etc.) to website, Wired and/or wireless technologies are included within the definition of transmission medium when sent from a server or other remote source.
  • wired technology coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL), etc.
  • wireless technology infrared, microwave, etc.
  • system and “network” are used interchangeably.
  • Information, parameters, etc. described in this disclosure may be expressed using absolute values, may be expressed using relative values from a predetermined value, or may be expressed using corresponding other information. may be represented as
  • the terminal device 10, the terminal device 10A, and the server 30 may be mobile stations (MS).
  • a mobile station is defined by those skilled in the art as subscriber station, mobile unit, subscriber unit, wireless unit, remote unit, mobile device, wireless device, wireless communication device, remote device, mobile subscriber station, access terminal, mobile terminal, wireless It may also be called a terminal, remote terminal, handset, user agent, mobile client, client, or some other suitable term. Also, in the present disclosure, terms such as “mobile station”, “user terminal”, “user equipment (UE)”, “terminal”, etc. may be used interchangeably.
  • connection refers to any direct or indirect connection between two or more elements. Any connection or coupling is meant, and can include the presence of one or more intermediate elements between two elements that are “connected” or “coupled” to each other. Couplings or connections between elements may be physical couplings or connections, logical couplings or connections, or a combination thereof. For example, “connection” may be replaced with "access.”
  • two elements are defined using at least one of one or more wires, cables, and printed electrical connections and, as some non-limiting and non-exhaustive examples, in the radio frequency domain. , electromagnetic energy having wavelengths in the microwave and optical (both visible and invisible) regions, and the like.
  • the phrase “based on” does not mean “based only on,” unless expressly specified otherwise. In other words, the phrase “based on” means both “based only on” and “based at least on.”
  • determining and “determining” as used in this disclosure may encompass a wide variety of actions.
  • “Judgement” and “determination” are, for example, judging, calculating, computing, processing, deriving, investigating, looking up, searching, inquiring (eg, lookup in a table, database, or other data structure);
  • "judgment” and “determination” are used for receiving (e.g., receiving information), transmitting (e.g., transmitting information), input, output, access (accessing) (for example, accessing data in memory) may include deeming that a "judgment” or “decision” has been made.
  • judgment and “decision” are considered to be “judgment” and “decision” by resolving, selecting, choosing, establishing, comparing, etc. can contain.
  • judgment and “decision” may include considering that some action is “judgment” and “decision”.
  • judgment (decision) may be read as “assuming”, “expecting”, “considering”, or the like.
  • the term "A and B are different” may mean “A and B are different from each other.” The term may also mean that "A and B are different from C”. Terms such as “separate,” “coupled,” etc. may also be interpreted in the same manner as “different.”
  • notification of predetermined information is not limited to explicit notification, but is performed implicitly (for example, not notification of the predetermined information). good too.

Abstract

情報処理装置は、ユーザが透過型の表示装置を介して現実空間に存在する複数の物体を視認する状況において、前記複数の物体のうち、前記ユーザに対応付けられ、且つ前記ユーザの遠隔操作の対象となる操作対象機器を判別する判別部と、前記操作対象機器を、前記複数の物体のうち前記操作対象機器以外の物体と識別するための識別画像を生成する生成部と、前記表示装置を介して前記ユーザに視認される前記操作対象機器に対応付けて、前記識別画像を前記表示装置に表示させる表示制御部と、を備える。

Description

情報処理装置
 本発明は、情報処理装置に関する。
 AR(Augmented Reality)技術において、ユーザが知覚する現実の環境はコンピュータにより拡張される。この技術を用いることにより、例えば、ユーザが頭部に装着するXRグラスを通じて視認する現実空間に、仮想空間を重畳表示することが可能となる。
 非特許文献1には、ユーザがヘッドマウントディスプレイを介して視認する機器に、ユーザが手をかざした場合、当該機器を操作するためのユーザインターフェース画像を表示する技術が開示されている。更に、非特許文献1には、ユーザがユーザインターフェース画像にタッチすることによって、機器の動作が制御される点が記載されている。
田中舜一、田中二郎著、「手をかざすことによる実世界デバイス操作手法」情報処理学会第76 回全国大会、2014年、p.3-93, 3-94
 非特許文献1に記載された機器は、ユーザが機器を直接操作しなくても、ユーザインターフェース画像に対する操作によって動作するIoT機器に該当する。IoT技術の進展に伴い、ユーザの生活環境には、IoT機器とユーザが直接操作する必要がある機器とが混在している。また、IoT機器であってもユーザに対応付けられていなければ、ユーザはIoT機器を遠隔操作できない。即ち、ユーザの視界には、ユーザに対応付けられ且つユーザの遠隔操作の対象となる操作対象機器と操作対象機器以外の物体が存在することがある。この状況において、ユーザは、視界に存在する複数の物体のうち、どの物体が操作対象機器であるかを認識できないといった問題があった。
 そこで、本開示は、ユーザが現実空間に存在する複数の物体を視認する状況において、ユーザが複数の物体のうちどの物体が、操作対象機器であるかを容易に把握できる情報処理装置を提供することを課題とする。
 本発明に係る情報処理装置は、ユーザが透過型の表示装置を介して現実空間に存在する複数の物体を視認する状況において、前記複数の物体のうち、前記ユーザに対応付けられ、且つ前記ユーザの遠隔操作の対象となる操作対象機器を判別する判別部と、前記操作対象機器を、前記複数の物体のうち前記操作対象機器以外の物体と識別するための識別画像を生成する生成部と、前記表示装置を介して前記ユーザに視認される前記操作対象機器に対応付けて、前記識別画像を前記表示装置に表示させる表示制御部と、を備える。
 本発明によれば、ユーザが表示装置を介して現実空間に存在する複数の物体を視認する状況において、ユーザは、複数の物体のうちどの物体が操作対象機器であるかを容易に把握できる。
第1実施形態に係る情報処理システム1の全体構成を示すブロック図。 XRグラス20の外観を示す斜視図。 XRグラス20を装着したユーザUが自宅の居間にいる様子を示す模式図。 ユーザUがXRグラス20を介して視認する画像を示す模式図。 XRグラス20の構成例を示すブロック図。 端末装置10の構成例を示すブロック図。 登録情報IFの例を示す説明図。 操作対象機器に対する操作に関する画像Gを示す説明図。 サーバ30の構成例を示すブロック図。 管理情報IFxの例を示す説明図。 アクセス権情報IFyの例を示す説明図。 第1実施形態に係る登録処理の動作について説明するためのフローチャート。 第1実施形態に係る識別画像表示処理の動作について説明するためのフローチャート。 第1実施形態に係る操作処理の動作について説明するためのフローチャート。 第2実施形態に係る端末装置10Aの構成例を示すブロック図。 XRグラス20を装着したユーザUがオフィスにいる様子を示す模式図。 第2実施形態に係る識別画像表示処理の動作について説明するためのフローチャート。
1:第1実施形態
 以下、図1~図14を参照しつつ、本発明の第1実施形態に係る情報処理システム1について説明する。
1.1:第1実施形態の構成
1.1.1:全体構成
 図1は、本発明の第1実施形態に係る情報処理システム1の全体構成を示す図である。情報処理システム1は、XRグラス20を装着したユーザUに対して、XR技術を適用した仮想空間を提供するシステムである。
 情報処理システム1は、端末装置10、XRグラス20、サーバ30、及びIoT機器40-1、40-2、…40-K、…40-Jを備える。Jは1以上の任意の整数である。また、Kは1以上J以下の任意の整数である。図1には、ユーザUが使用する端末装置10とXRグラス20との組が記載されており、他のユーザが使用する端末装置10及びXRグラス20は省略されている。情報処理システム1は、複数のユーザに対してサービスを提供するシステムである。なお、端末装置10は、情報処理装置の一例である。
 IoT機器40-Kは、通信網NETを介して端末装置10と接続される。IoT機器40-Kは、ビーコン信号を送信してもよい。ビーコン信号には、IoT機器40-Kを一意に識別するための機器識別情報DIDが含まれる。図1に示されるIoT機器40-Kは、機器識別情報DID[K]を送信する。通信網NETはインターネットの他に、無線LANを含む。無線LANでは、Wi-Fi技術又はBluetooth技術を用いて通信が行われる。Wi-Fi及びBluetoothは登録商標である。IoT機器40-Kは、例えば、テレビ、洗濯機、照明装置、電気ポット、複合機、及びパーソナルコンピュータなどの電子機器である。IoT機器40-Kは、ユーザUの操作を直接受け付ける他、端末装置10から送信される制御情報に基づいて動作する。
 端末装置10は、ユーザUが頭部に装着するXRグラス20に対して、仮想空間に配置される仮想オブジェクトを表示させると共に、IoT機器40-Kを制御する。仮想オブジェクトは、IoT機器40-Kのユーザインターフェース画像を含む。例えば、IoT機器40-Kがテレビである場合、ユーザインターフェース画像は、電源のオン・オフを制御するボタン、チャンネルを選択するためのボタン又は音量を制御するためのボタンを含んでもよい。仮想オブジェクトには、例えば、静止画像、動画、3DCGモデル、HTMLファイル、及びテキストファイル等のデータを示す三次元画像、並びにアプリケーションを示す三次元画像が含まれ得る。テキストファイルとしては、例として、メモ、ソースコード、日記、及びレシピが挙げられる。また、アプリケーションとしては、例として、ブラウザ、SNSを用いるためのアプリケーション、及びドキュメントファイルを生成するためのアプリケーションが挙げられる。なお、端末装置10は、例として、スマートフォン、及びタブレット等の携帯端末装置であることが好適である。
 XRグラス20は、ユーザUの頭部に装着されるシースルー型のウエアラブルディスプレイである。XRグラス20は、端末装置10の制御により、両眼用のレンズの各々に設けられた表示パネルに仮想オブジェクトを表示させる。なお、XRグラス20は、透過型の表示装置の一例である。ユーザは、XRグラス20を介して現実空間に存在する物体を視認すると共に、仮想空間に表示される仮想オブジェクトを視認する。
 サーバ30は、通信網NETを介して、端末装置10に対して各種データ及びクラウドサービスを提供する。
1.1.2:XRグラス20の構成
 図2は、XRグラス20の外観を示す斜視図である。図2に示されるようにXRグラス20の外観は、一般的な眼鏡と同様にテンプル91及び92、ブリッジ93、胴部94及び95、及びレンズ41L及び41Rを有する。ブリッジ93には撮像装置27が設けられる。撮像装置27は外界を撮像し、撮像した画像を示す撮像データを出力する。また、テンプル91及び92の各々には、音を収音するマイク24が設けられる。マイク24は、収音した音声を示す音声データを出力する。なお、マイク24の位置は、テンプル91及びテンプル92に限定されず、例えば、ブリッジ93、及び胴部94及び95のいずれかであってもよい。
 レンズ41L及び41Rの各々は、ハーフミラーを備えている。胴部94には、左眼用の液晶パネル又は有機ELパネル(以下、表示パネルと総称する)と、左眼用の表示パネルから射出された光をレンズ41Lに導光する光学部材が設けられる。レンズ41Lに設けられるハーフミラーは、外界の光を透過させて左眼に導くと共に、光学部材によって導光された光を反射することにより、反射した光を左眼に入射させる。胴部95には、右眼用の表示パネルと、右眼用の表示パネルから射出された光をレンズ41Rに導光する光学部材が設けられる。レンズ41Rに設けられるハーフミラーは、外界の光を透過させて右眼に導くと共に、光学部材によって導光された光を反射することにより、反射した光を右眼に入射させる。
 後述するディスプレイ29は、レンズ41L、左眼用の表示パネル、及び左眼用の光学部材、並びにレンズ41R、右眼用の表示パネル、及び右眼用の光学部材を含む。
 以上の構成において、ユーザUは表示パネルによって表示される画像を、外界の様子と重ね合わせたシースルーの状態で観察できる。また、XRグラス20において、視差を伴う両眼画像のうち、左眼用画像が左眼用の表示パネルに表示され、右眼用画像が右眼用の表示パネルに表示されることによって、XRグラス20は、ユーザUに対し、表示された画像があたかも奥行き、及び立体感を持つかのように知覚させることが可能となる。
 図3は、XRグラス20を装着したユーザUが自宅の居間にいる様子を示す模式図である。居間には、IoT機器40-1~40-4、時計50-1及びテーブル50-2が存在する。ユーザUは、XRグラス20を介して現実空間に存在するこれらの物体を視認する。この例において、IoT機器40-1はテレビであり、IoT機器40-2はエアコンであり、IoT機器40-3は照明装置であり、IoT機器40-4は電気ポットである。IoT機器40-1~IoT機器40-4のうち、ユーザUに対応付ける登録処理を実行された機器は、ユーザUによって遠隔制御される。以下の説明では、ユーザUに対応付けられ、且つ遠隔操作の対象となる機器を操作対象機器と称する。また、登録処理の詳細は後述する。
 本実施形態では、ユーザUがXRグラス20を介して現実空間に存在する複数の物体を視認する状況において、操作対象機器を識別するための識別画像がXRグラス20に表示される。識別画像は仮想オブジェクトの一例である。例えば、IoT機器40-1及び40-2が操作対象機器であり、IoT機器40-3が操作対象機器でない場合、ユーザUはXRグラス20を介して、図4に示される識別画像G1及びG2を視認する。ユーザUは、識別画像G1及びG2によって、現実空間に存在する複数の物体のうち、操作対象機器を一見して認識できる。
 図5は、XRグラス20の構成例を示すブロック図である。XRグラス20は、処理装置21、記憶装置22、視線検出装置23、マイク24、GPS装置25、動き検出装置26、撮像装置27、通信装置28、及びディスプレイ29を備える。XRグラス20の各要素は、情報を通信するための単体又は複数のバスで相互に接続される。
 処理装置21は、XRグラス20の全体を制御するプロセッサであり、例えば、単数又は複数のチップを用いて構成される。処理装置21は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置(CPU:Central Processing Unit)を用いて構成される。なお、処理装置21の機能の一部又は全部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等のハードウェアによって実現してもよい。処理装置21は、各種の処理を並列的又は逐次的に実行する。
 記憶装置22は、処理装置21による読取及び書込が可能な記録媒体であり、処理装置21が実行する制御プログラムPR1を含む複数のプログラムを記憶する。
 視線検出装置23は、ユーザUの視線を検出し、検出結果に基づいてユーザUの視線の方向を示す視線データを、処理装置21に出力する。視線検出装置23による視線の検出は、どのような方法を用いてもよい。視線検出装置23は、例えば、目頭の位置と虹彩の位置に基づいて視線データを検出してもよい。
 マイク24は、音声を収音し、収音した音声に基づく音声データを、処理装置21に出力する。
 GPS装置25は、複数の衛星からの電波を受信し、受信した電波から位置データを生成する。位置データは、XRグラス20の位置を示す。位置データは、XRグラス20の位置を特定できるのであれば、どのような形式であってもよい。位置データは、例えば、XRグラス20の緯度と経度とを示す。一例として、位置データはGPS装置25から得られる。しかし、XRグラス20は、どのような方法で位置データを取得してもよい。取得された位置データは、処理装置21に出力される。
 動き検出装置26は、XRグラス20の動きを検出して、動きデータを処理装置21に出力する。動き検出装置26は、加速度を検出する加速度センサ及び角加速度を検出するジャイロセンサなどの慣性センサを含む。加速度センサは、直交するX軸、Y軸、及びZ軸の軸ごとに当該軸に沿う方向の加速度を検出する。ジャイロセンサは、X軸、Y軸、及びZ軸の軸ごとに当該軸を回転の中心軸とする角加速度を検出する。動き検出装置26は、ジャイロセンサの出力情報に基づいて、XRグラス20の姿勢を示す姿勢情報を生成できる。動きデータは、3軸の加速度を各々示す加速度データ及び3軸の角加速度を各々示す角加速度データを含む。
 撮像装置27は、外界を撮像することにより得られた撮像データを出力する。撮像装置27は、例えば、カメラである。撮像装置27は、例えば、レンズ、撮像素子、増幅器、及びAD変換器を備える。レンズを介して集光された光は、撮像素子によってアナログ信号である撮像信号に変換される。増幅器は撮像信号を増幅した上で、増幅された撮像信号をAD変換器に出力する。AD変換器はアナログ信号である増幅された撮像信号をデジタル信号である撮像データに変換する。変換された撮像データは、処理装置21に出力される。処理装置21に出力された撮像データは、通信装置28を介して、上記の端末装置10に出力される。端末装置10は、撮像データに基づいて、ユーザUの各種のジェスチャーを認識し、認識されたジェスチャーに応じて端末装置10を制御する。
 通信装置28は、他の装置と通信を行うための、送受信デバイスとしてのハードウェアである。通信装置28は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。通信装置28は、有線接続用のコネクターを備え、上記コネクターに対応するインタフェース回路を備えていてもよい。また、通信装置28は、無線通信インタフェースを備えていてもよい。有線接続用のコネクター及びインタフェース回路としては有線LAN、IEEE1394、USBに準拠した製品が挙げられる。また、無線通信インタフェースとしては無線LAN及びBluetooth等に準拠した製品が挙げられる。
 ディスプレイ29は、画像を表示するデバイスである。ディスプレイ29は、処理装置21による制御のもとで各種の画像を表示する。ディスプレイ29は、上記のように、レンズ41L、左眼用の表示パネル、及び左眼用の光学部材、並びにレンズ41R、右眼用の表示パネル、及び右眼用の光学部材を含む。表示パネルとしては、例えば、液晶表示パネル及び有機EL表示パネル等の各種の表示パネルが好適に利用される。
 処理装置21は、例えば、記憶装置22から制御プログラムPR1を読み出して、読み出した制御プログラムPR1を実行することによって、取得部211、及び表示制御部212として機能する。
 取得部211は、端末装置10から出力される制御信号を取得する。制御信号には、端末装置10の表示制御部116(図6参照)によって生成されるXRグラス20の表示を制御するための信号が含まれる。
 また、取得部211は、視線検出装置23から入力される視線データ、マイク24から入力される音声データ、GPS装置25から入力される位置データ、動き検出装置26から入力される動きデータ、及び撮像装置27から入力される撮像データを取得する。その上で、取得部211は、視線データ、音声データ、位置データ、動きデータ、及び撮像データを、通信装置28を介して端末装置10に出力する。
 表示制御部212は、取得部211によって取得された端末装置10からの制御信号に基づいて、ディスプレイ29における表示を制御する。
1.1.3:端末装置10の構成
 図6は、端末装置10の構成例を示すブロック図である。端末装置10は、処理装置11、記憶装置12、通信装置13、ディスプレイ14、入力装置15、及び慣性センサ16を備える。端末装置10の各要素は、情報を通信するための単体又は複数のバスで相互に接続される。なお、本明細書における「装置」という用語は、回路、デバイス又はユニット等の他の用語に読替えてもよい。
 処理装置11は、端末装置10の全体を制御するプロセッサであり、例えば、単数又は複数のチップを用いて構成される。処理装置11は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置(CPU)を用いて構成される。なお、処理装置11が有する機能の一部又は全部を、DSP、ASIC、PLD、FPGA等のハードウェアによって実現してもよい。処理装置11は、各種の処理を並列的又は逐次的に実行する。
 記憶装置12は、処理装置11が読取及び書込が可能な記録媒体であり、処理装置11が実行する制御プログラムPR2を含む複数のプログラム、及び登録情報IFを記憶する。
 図7は、登録情報IFの一例を示す図である。図7に示される例において、登録情報IFは表形式の情報である。登録情報IFでは、操作対象機器を一意に識別する機器識別情報DID、機器位置情報IFp、及び機器画像情報IFgが相互に対応付けられている。機器位置情報IFpは、後述する登録処理が実行される時点におけるユーザUの位置を示す。ユーザUの位置は、XRグラス20のGPS装置25によって生成される位置データが示す位置であってもよい。なお、端末装置10がGPS装置を備えてもよい。端末装置10がGPS装置を備える場合、端末装置10のGPS装置から出力される位置データに基づいて機器位置情報IFpが生成されてもよい。
 機器画像情報IFgは、現実空間を撮像することにより得られた画像から抽出された操作対象機器の画像を示す。現実空間を撮像することにより得られた画像は、例えば、XRグラス20の撮像装置27によって撮像される。
 図6に説明を戻す。通信装置13は、他の装置と通信を行うための、送受信デバイスとしてのハードウェアである。通信装置13は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。通信装置13は、有線接続用のコネクターを備え、上記コネクターに対応するインタフェース回路を備えていてもよい。また、通信装置13は、無線通信インタフェースを備えていてもよい。有線接続用のコネクター及びインタフェース回路としては有線LAN、IEEE1394、USBに準拠した製品が挙げられる。また、無線通信インタフェースとしては無線LAN及びBluetooth等に準拠した製品が挙げられる。
 ディスプレイ14は、画像及び文字情報を表示するデバイスである。ディスプレイ14は、処理装置11の制御のもとで各種の画像を表示する。例えば、液晶表示パネル及び有機EL(Electro Luminescence)表示パネル等の各種の表示パネルがディスプレイ14として好適に利用される。
 入力装置15は、ユーザUからの操作を受け付ける。例えば、入力装置15は、キーボード、タッチパッド、タッチパネル又はマウス等のポインティングデバイスを含んで構成される。ここで、入力装置15は、タッチパネルを含んで構成される場合、ディスプレイ14を兼ねてもよい。
 慣性センサ16は、慣性力を検出するセンサである。慣性センサ16は、例えば、加速度センサ、角速度センサ、及びジャイロセンサのうち、1以上のセンサを含む。処理装置11は、慣性センサ16の出力情報に基づいて、端末装置10の姿勢を検出する。
 処理装置11は、記憶装置12から制御プログラムPR2を読み出して、読み出した制御プログラムPR2を実行することによって、取得部111、受付部112、管理部113、判別部114、生成部115、及び表示制御部116として機能する。
 取得部111は、通信装置13を用いて、XRグラス20から送信される視線データ、音声データ、位置データ、動きデータ、及び撮像データを取得する。
 受付部112は、ユーザUの操作を受け付ける。ユーザの操作は、XRグラス20に対してなされてもよいし、あるいは、端末装置10に対してなされてもよい。例えば、XRグラス20に対するユーザUの操作には、ユーザUの視線による操作と、ユーザUのジェスチャーによる操作とが含まれる。ユーザUの視線による操作は、ユーザUがXRグラス20を介して、仮想空間に配置される仮想オブジェクト又は現実空間に配置される物体に視線を向けることによってなされる。具体的は、ユーザが視線を向けた先に存在する仮想オブジェクト又は現実の物体が選択される。ユーザUの視線による操作において、受付部112は、取得部111が取得した視線データに基づいて、ユーザUが、仮想オブジェクト又は現実の物体を選択する操作を受け付ける。一方、ユーザUのジェスチャーによる操作において、受付部112は、取得部111が取得した撮像データに基づいて、ユーザUの各種のジェスチャーを認識する。各種のジェスチャーには、第1操作、第2操作、第3操作及び第4操作が含まれる。第1操作は、ユーザUが現実空間に存在する物体を、操作対象機器として登録する処理を開始することを指示する操作である。第1操作は、例えば、ユーザUが左手の掌と右手の掌を合わせる動作である。第2操作は、XRグラス20を介して視認される複数の物体のうち、操作対象機器に該当する物体に対応して識別画像を表示させることを指示する操作である。第2操作は、例えば、ユーザUが右手を握る動作である。第3操作は、ユーザUが操作対象機器に対する操作の開始を指示する操作である。第3操作は、例えば、ユーザUが右手を上下に振る動作である。第4操作は、ユーザUが操作対象機器に対する操作の終了を指示する操作である。第4操作は、例えば、ユーザUが右手を左右に振る動作である。
 管理部113は、受付部112によって受け付けられた操作が第1操作であるという条件が充足する場合に、現実空間に存在する物体を操作対象機器として登録する登録処理を実行する。なお、登録処理の開始条件は、第1操作がなされたこと以外の事項を含んでもよい。例えば、ユーザUが、現実空間に存在する物体を操作する権限があることを充足する場合に、管理部113は、現実空間に存在する物体を操作対象機器として登録してもよい。例えば、オフィスの環境において、複数のパーソナルコンピュータが存在する場合に、管理部113は、ユーザUがアクセスする権限を有するパーソナルコンピュータに限って、操作対象機器としての登録を認めてもよい。
 管理部113は、登録処理において、現実空間を撮像することにより得られた画像から操作対象機器の画像を抽出する。管理部113は、登録された操作対象機器と操作対象機器の画像とを相互に対応付けて管理する。管理部113は、操作対象機器の登録及び更新に伴って、記憶装置12に記憶される登録情報IFを更新する。また、管理部113は、登録情報IFを新規に生成した場合、及び登録情報IFを更新した場合、ユーザUを識別するユーザ識別情報UID及び登録情報IFを含む登録通知を、通信装置13を介して、サーバ30に送信する。
 判別部114は、ユーザUがXRグラス20を介して現実空間に存在する複数の物体を視認する状況において、複数の物体のうち、操作対象機器を判別する。判別部114は、撮像データに基づいて、操作対象機器を判別する。撮像データはXRグラス20の撮像装置27によって撮像された撮像画像を示す。この撮像画像は、ユーザUがXRグラス20を介して視認する現実空間に存在する複数の物体を撮像することによって得られる。
 更に、判別部114は、撮像画像に含まれる複数の物体の画像と、操作対象機器の画像とに基づいて、複数の物体の中から操作対象機器を判別する。例えば、撮像画像が図4に示される画像である場合、撮像画像には、IoT機器40-1~40-4、時計50-1及びテーブル50-2と1対1に対応する複数の物体の画像が含まれる。一方、ユーザUに対応付けられた操作対象機器が、IoT機器40-1及びIoT機器40-2であり、登録情報IFには、IoT機器40-1に対応する情報とIoT機器40-2に対応する情報とが登録されており、その他の情報は登録されていないことを想定する。この想定の場合、IoT機器40-1に対応する情報は、図7に示される機器識別情報DID[1]、機器位置情報IFp[P1]及び機器画像情報IFg[111.jpg]である。IoT機器40-2に対応する情報は、図7に示される機器識別情報DID[2]、機器位置情報IFp[P2]、及び機器画像情報IFg[222.jpg]である。
 判別部114は、複数の物体の画像と、IoT機器40-1の画像及びIoT機器40-2の画像とに基づいて、操作対象機器を判別する。判別部114は、撮像画像に画像認識処理を適用することによって、撮像画像から複数の物体の画像を抽出する。判別部114は、登録情報IFを参照して、操作対象機器の画像を取得する。判別部114は、例えば、複数の物体の画像の各々について、物体の画像と操作対象機器の画像とが類似する程度を示す評価値を算出し、算出された評価値が閾値を超える物体を操作対象機器であると判別してもよい。
 生成部115は、操作対象機器を、複数の物体のうち操作対象機器以外の物体と識別するための識別画像を生成する。識別画像は、例えば、図4に示されるように操作対象機器を囲む枠を示す画像であってもよいし、あるいは操作対象機器を指し示す矢印の画像であってよい。要は、識別画像は、操作対象機器と操作対象機器以外の物体とを識別できるのであれば、どのような画像であってもよい。
 表示制御部116は、XRグラス20を介してユーザUに視認される操作対象機器に対応付けて、識別画像をXRグラス20に表示させる。具体的には、表示制御部116は、XRグラス20を介して視認される操作対象機器を撮像データに基づいて特定し、操作対象機器の位置に応じて識別画像を配置した仮想空間の画像を生成する。表示制御部116は、仮想空間の画像を示す画像情報を通信装置13を介して、XRグラス20に送信することによって、識別画像をXRグラス20に表示させる。
 また、表示制御部116は、受付部112によって受け付けられた操作が、操作対象機器に対する操作の開始を指定する操作である場合、操作対象機器に対する操作に関する画像をXRグラス20に表示させる。操作対象機器に対する操作の開始を指定する操作は、例えば、上述した第1操作である。また、操作対象機器に対する操作に関する画像は、操作対象機器を操作するためのユーザインターフェース画像を含む。ユーザインターフェース画像は、ユーザが操作する操作ボタンの他に、操作対象機器の状態を示す画像を含む。例えば、ユーザUによって選択された操作対象機器が、図4に示されるIoT機器40-2である場合、図8に示される操作対象機器に対する操作に関する画像Gが表示される。画像Gは、ユーザUが操作する操作領域Gxとエアコンの状態を示す画像が表示される設定領域Gyを含む。操作領域Gxは、ボタンB1~B7を含む。ボタンB1は、電源ONの操作に用いられ、電源がオンの状態で赤色になる。ボタンB2は、電源OFFの操作に用いられ、電源がオフの状態で赤色になる。ボタンB3は、設定温度を上昇させる操作に用いられる。ボタンB4は、設定温度を下降させる操作に用いられる。ボタンB5は風量を「低」に設定するために用いられ、風量が「低」に設定されている状態で赤色になる。ボタンB6は風量を「中」に設定するために用いられ、風量が「中」に設定されている状態で赤色になる。ボタンB7は風量を「高」に設定するために用いられ、風量が「高」に設定されている状態で赤色になる。
1.1.4:サーバ30の構成
 図9は、サーバ30の構成例を示すブロック図である。サーバ30は、処理装置31、記憶装置32、通信装置33、ディスプレイ34、及び入力装置35を備える。サーバ30の各要素は、情報を通信するための単体又は複数のバスで相互に接続される。
 処理装置31は、サーバ30の全体を制御するプロセッサであり、例えば、単数又は複数のチップを用いて構成される。処理装置31は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置を用いて構成される。なお、処理装置31の機能の一部又は全部を、DSP、ASIC、PLD、FPGA等のハードウェアによって実現してもよい。処理装置31は、各種の処理を並列的又は逐次的に実行する。
 記憶装置32は、処理装置31が読取及び書込が可能な記録媒体であり、処理装置31が実行する制御プログラムPR3を含む複数のプログラム、管理情報IFx、及びアクセス権情報IFyを記憶する。図10は、管理情報IFxの内容を示す説明図である。図10に示されるように管理情報IFxでは、ユーザ識別情報UIDと登録情報IFとが相互に対応付けられている。処理装置31は、端末装置10から登録通知を受信した場合、管理情報IFxを更新する。処理装置31は、管理情報IFxを参照することによって、ユーザごとの登録情報IFを認識できる。図11は、アクセス権情報IFyの内容を示す説明図である。図11に示されるようにアクセス権情報IFyでは、ユーザ識別情報UIDと、ユーザ識別情報UIDに対応するユーザがアクセス可能な機器を示す機器識別情報DIDとが相互に対応づけられている。ユーザがアクセス可能な機器にはIoT機器が含まれる。例えば、ユーザ識別情報UID[1]に対応するユーザは、機器識別情報DID[1]に対応する機器及びDID[2]に対応する機器にアクセスできる。処理装置31は、アクセス権情報IFyを参照することによって、ユーザごとにアクセス可能な機器を認識できる。処理装置31は、確認要求を受信した場合、アクセス権情報IFyを参照して、確認応答を生成する。
 通信装置33は、他の装置と通信を行うための、送受信デバイスとしてのハードウェアである。通信装置33は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。通信装置33は、有線接続用のコネクターを備え、上記コネクターに対応するインタフェース回路を備えていてもよい。また、通信装置33は、無線通信インタフェースを備えていてもよい。有線接続用のコネクター及びインタフェース回路としては有線LAN、IEEE1394、USBに準拠した製品が挙げられる。また、無線通信インタフェースとしては無線LAN及びBluetooth(登録商標)等に準拠した製品が挙げられる。
 ディスプレイ34は、画像及び文字情報を表示するデバイスである。ディスプレイ34は、処理装置31による制御のもとで各種の画像を表示する。例えば、液晶表示パネル及び有機EL表示パネル等の各種の表示パネルがディスプレイ34として好適に利用される。
 入力装置35は、情報処理システム1の管理者による操作を受け付ける機器である。例えば、入力装置35は、キーボード、タッチパッド、タッチパネル又はマウス等のポインティングデバイスを含んで構成される。ここで、入力装置35は、タッチパネルを含んで構成される場合、ディスプレイ34を兼ねてもよい。
 処理装置31は、例えば、記憶装置32から制御プログラムPR3を読み出して、読み出した制御プログラムPR3を実行することによって、出力部311、及び取得部312として機能する。
 出力部311は、通信装置33を用いることにより、端末装置10に確認応答を出力する。また、出力部311は、XRグラス20を頭部に装着したユーザUに対して、端末装置10が仮想空間を提供する上で必要となるデータを、端末装置10に出力する。当該データには、仮想オブジェクト自体に係るデータ、及び、サーバ30に格納される、クラウドサービスを利用するための図示しないアプリケーションに係るデータが含まれる。
 取得部312は、通信装置33を用いることにより、端末装置10から各種のデータを取得する。当該データには、例として、XRグラス20を頭部に装着したユーザUによって端末装置10に入力される、仮想オブジェクトに対する操作内容を示すデータが含まれる。また、当該ユーザUが、上記のクラウドサービスを利用する場合、当該データには、上記のアプリケーションへの入力データが含まれる。
1.2:第1実施形態の動作
 図12~図14は、第1実施形態に係る情報処理システム1の動作を示すフローチャートである。
1.2.1:登録処理
 図12は、情報処理システム1の登録処理の動作について説明するためのフローチャートである。
 ステップS1において、処理装置11は、第1操作を受け付けたか否かを判定する。第1操作とは、上述したようにユーザUが登録処理の開始を指示する操作である。処理装置11は、ステップS1の判定結果が肯定となるまで、判定を繰り返す。処理装置11は、ステップS1の判定結果が肯定となる場合、処理をステップS2に進める。
 ステップS2において、処理装置11は、ユーザUによって操作対象機器として選択された物体をユーザUが操作する権限があるかを判定する。ステップS2において、処理装置11は、第1に、ユーザUを識別するユーザ識別情報UIDと、操作対象機器の機器識別情報DIDとの組みを含む確認要求をサーバ30に送信する。処理装置11は、第2に、サーバ30から受信した確認応答に基づいて、権限の有無を判定する。
 ステップS2の判定結果が否定である場合、処理装置11は、ユーザUに操作の権限が無いことを示すエラー画像を生成し、エラー画像を示すエラー画像情報をXRグラス20に送信する(ステップS3)。XRグラス20は、エラー画像情報に基づいて、エラー画像を仮想空間に表示する。処理装置11は、エラー画像情報を送信することによって、XRグラス20にエラー画像を表示させる。
 一方、ステップS2の判定結果が肯定である場合、処理装置11は、撮像画像から操作対象機器の画像を抽出する(ステップS4)。この抽出処理において、処理装置11は、XRグラス20から受信した視線データと撮像データとに基づいて、ユーザUが指定する操作対象機器の画像を抽出する。具体的には、処理装置11は、撮像データに画像認識処理を適用することによって、撮像画像に含まれる複数の物体の各々を認識する。また、処理装置11は、認識された複数の物体のうち、視線データの示す視線と交差する物体を操作対象機器として特定する。更に、処理装置11は、撮像データの示す撮像画像から特定された物体の画像を抽出することによって、操作対象機器の画像を示す機器画像情報IFgを生成する。
 ステップS5において、処理装置11は、機器識別情報DID、機器位置情報IFp、及び機器画像情報IFgが相互に対応付けられた登録情報IFを生成し、生成した登録情報IFを記憶装置12に記憶する。ここで、機器位置情報IFpは、登録処理の実行時におけるユーザUの位置を示す。処理装置11は、登録処理の実行時にXRグラス20から取得した位置データに基づいて機器位置情報IFpを生成する。処理装置11は、生成した登録情報IFとユーザUを識別するユーザ識別情報UIDを含む登録通知を、サーバ30に送信する。
 処理装置11は、ステップS1において受付部112として機能する。処理装置11は、ステップS2、S4及びS5において管理部113として機能する。更に、処理装置11は、ステップS3において表示制御部116として機能する。なお、以上の説明では、処理装置11は、ステップS2において、ユーザUによって操作対象機器として選択された物体をユーザUが操作する権限があるかを判定した。しかし、この判定を省略してもよい。判定を省略する場合は、第1操作を受け付けることが、ユーザUに操作対象機器を対応付ける条件となる。
1.2.2:識別画像表示処理
 図13は、情報処理システム1の識別画像表示処理の動作について説明するためのフローチャートである。識別画像表示処理は、ユーザUがXRグラス20を介して現実空間に存在する複数の物体を視認する状況において、識別画像をXRグラス20に表示させる処理である。
 ステップS11において、処理装置11は、ユーザUの第2操作を受け付けたか否かを判定する。第2操作は、上述したように、ユーザUが識別画像を表示させることを指示する操作である。処理装置11は、ステップS11の判定結果が肯定となるまで、判定を繰り返す。処理装置11は、ステップS11の判定結果が肯定となる場合、処理をステップS12に進める。
 ステップS12において、処理装置11は、撮像画像に含まれる複数の物体の画像と、操作対象機器の画像とに基づいて、複数の物体の中から操作対象機器を判別する。処理装置11は、例えば、複数の物体の画像の各々について、物体の画像と操作対象機器の画像とが類似する程度を示す評価値を算出し、算出された評価値が閾値を超える物体を操作対象機器であると判別する。
 ステップS13において、処理装置11は、操作対象機器を、複数の物体のうち操作対象機器以外の物体と識別するための識別画像を生成する。例えば、識別画像が、操作対象機器を囲む枠の画像である場合、処理装置11は、ステップS13の処理において判別された操作対象機器を囲む枠の画像を識別画像として生成する。
 ステップS14において、処理装置11は、ステップS13で生成された識別画像を示す画像情報をXRグラス20に送信することによって、XRグラス20に識別画像を表示させる。
 処理装置11は、ステップS11において受付部112として機能する。処理装置11は、ステップS12において判別部114として機能する。処理装置11はステップS13において生成部115として機能する。更に、処理装置11は、ステップS14において表示制御部116として機能する。
1.2.3:操作処理
 図14は、情報処理システム1の操作処理の動作について説明するためのフローチャートである。操作処理は、ユーザUがXRグラス20を用いて操作対象機器を操作するための処理である。
 ステップS21において、処理装置11は、ユーザUの第3操作を受け付けたか否かを判定する。第3操作は、ユーザUが操作対象機器に対する操作の開始を指示する操作である。処理装置11は、ステップS21の判定結果が肯定となるまで、判定を繰り返す。処理装置11は、ステップS21の判定結果が肯定となる場合、処理をステップS22に進める。
 ステップS22において、処理装置11は、ユーザUが選択した物体が操作対象機器であるかを判定する。ユーザUは、例えば、XRグラス20を装着した状態で、視界に存在する複数の物体のうち遠隔制御の対象とする一つ物体に視線を所定時間以上向けることによって一つの物体を選択する。処理装置11は、XRグラス20から受信した撮像データと視線データとに基づいて、ユーザUが選択した物体を特定する。処理装置11は、撮像データの示す撮像画像に基づいて、ユーザUが視認している複数の物体から、視線データの視線が所定時間以上交差する物体をユーザUが選択した物体として特定する。処理装置11は、選択された物体の画像と登録情報IFに記録されている全ての機器画像情報IFgの示す画像とを比較することによって、ユーザUが選択した物体が操作対象機器であるかを判定する。
 ステップS22の判定結果が否定である場合、処理装置11は、選択された物体が操作対象機器に該当しないことを示すエラー画像を生成し、エラー画像を示すエラー画像情報をXRグラス20に送信する(ステップS23)。XRグラス20は、エラー画像情報に基づいて、エラー画像を仮想空間に表示する。処理装置11は、エラー画像情報を送信することによって、XRグラス20にエラー画像を表示させる。ユーザUは、エラー画像がXRグラス20に表示されることによって、選択した物体が操作対象機器に該当しないことを認識する。
 一方、ステップS22の判定結果が肯定である場合、処理装置11は、操作対象機器に対応するユーザインターフェース画像を生成し、ユーザインターフェース画像を示す画像情報をXRグラス20に送信する。XRグラス20は受信したユーザインターフェース画像をXRグラス20に表示する。即ち、処理装置11は、画像情報を送信することによって、XRグラス20に、ユーザインターフェース画像を表示させる(ステップS24)。
 ステップS25において、処理装置11は、通信装置13を介してユーザUの操作に応じた制御情報を操作対象機器に送信する。処理装置11は、ユーザUのユーザインターフェース画像に対する操作を、視線データに基づいて認識する。
 ステップS26において、処理装置11は、ユーザUの操作が終了したかを判定する。具体的には、処理装置11は、第4操作を受けたか否かを判定する。第4操作は、ユーザUが操作対象機器に対する操作の終了を指示する操作である。処理装置11は、ステップS26の判定結果が肯定となるまで、ステップS25とステップS26の処理を繰り返す。処理装置11は、ステップS26の判定結果が肯定である場合、操作処理を終了する。
 処理装置11は、ステップS21において、受付部112として機能する。また、処理装置11は、ステップS23及びS24において、表示制御部116として機能する。
1.3:第1実施形態が奏する効果
 以上の説明によれば、情報処理装置としての端末装置10は、判別部114と、生成部115、及び表示制御部116を備える。判別部114は、ユーザUがXRグラス20を介して現実空間に存在する複数の物体を視認する状況において、複数の物体のうち、ユーザUに対応付けられ、且つユーザUの遠隔操作の対象となる操作対象機器を判別する。生成部115は、操作対象機器を、複数の物体のうち操作対象機器以外の物体と識別するための識別画像を生成する。表示制御部116は、XRグラス20を介してユーザUに視認される操作対象機器に対応付けて、識別画像をXRグラス20に表示させる。
 ユーザUがXRグラス20を介して視認する現実空間には、操作対象機器と操作対象機器以外の物体とが混在する。端末装置10は、XRグラス20を介して視認される複数の物体のうち、操作対象機器を識別するための識別画像をユーザUに視認される操作対象機器に対応付けて表示させるので、ユーザUは複数の物体のうちどの物体が、操作対象機器であるかを容易に把握できる。
 また、端末装置10は、ユーザUの操作を受け付ける受付部112を更に備え、受付部112によって受け付けられた操作が、操作対象機器に対する操作の開始を指定する操作である場合、操作対象機器に対する操作に関する画像をXRグラス20に表示させる、
 端末装置10は、上記構成を備えるので、ユーザUは、操作対象機器に対する操作に関する画像を見ながら、操作対象機器を遠隔制御することができる。
 また、判別部114は、複数の物体を撮像することによって得られた撮像画像に基づいて、操作対象機器を判別する。
 撮像画像は、ユーザUがXRグラスを介して現実空間を視認している状況において、現実空間を撮像することによって得られた画像である。したがって、撮像画像は、識別画像を表示させるタイミングにおける現実空間の状況を反映している。よって、判別部114は、撮像画像に基づかずに操作対象機器を判別する構成と比較して、判別の精度を向上させることができる。
 管理部113は、少なくとも受付部112によって受け付けられた操作が第1操作であることを条件に、現実空間に存在する物体を前記操作対象機器として登録し、登録された操作対象機器と、現実空間を撮像することにより得られた画像から抽出された操作対象機器の画像とを相互に対応付けて管理する。また、判別部114は、撮像画像に含まれる複数の物体の画像と、管理部113によって管理される操作対象機器の画像とに基づいて、複数の物体の中から操作対象機器を判別する。
 端末装置10は、上記構成を備えるので、予め登録された操作対象機器の画像と複数の物体の画像とに基づいて、複数の物体の中から操作対象機器を判別できる。
 管理部113は、受付部112によって受け付けられた操作が第1操作であるという第1条件と、ユーザUが、現実空間に存在する物体を操作する権限があるという第2条件とを充足する場合に、現実空間に存在する物体を操作対象機器として登録する。
 端末装置10は、上記構成を備えるので、ユーザUが操作対象機器に対して操作する権限が無い場合には、現実空間に存在する物体を操作対象機器として登録することができない。したがって、端末装置10は、ユーザUに操作する権限のない機器が登録されることを未然に防止できる。
2:第2実施形態
 上述した第1実施形態に係る情報処理システム1は、識別画像を生成する場合に、登録情報IFに記録されている全ての機器画像情報の示す操作対象機器の画像と、複数の物体の画像とに基づいて、複数の物体の中から操作対象機器を判別した。これに対して、第2実施形態の情報処理システム1は、第1実施形態の情報処理システム1と比較して以下の点で相違する。即ち、第2実施形態の情報処理システム1は、登録情報IFに記録されている全ての操作対象機器のうち、ユーザUが現在の位置から視認可能な操作対象機器を抽出し、抽出された操作対象機器の画像と複数の物体の画像とに基づいて、複数の物体の中から操作対象機器を判別する。
2.1:第2実施形態の構成
 第2実施形態の情報処理システム1は、端末装置10の替わりに端末装置10Aを用いる点を除いて、第1実施形態の情報処理システム1と同様に構成される。
2.1.1:端末装置10Aの構成
 図15は、端末装置10Aの構成を示すブロック図である。端末装置10Aは、制御プログラムPR2の替わりに制御プログラムPR2aを用いる点、及び判別部114の替わりに判別部114Aを用いる点を除いて、端末装置10と同様に構成される。処理装置11は、制御プログラムPR2aを記憶装置12から読み出し、読み出した制御プログラムPR2aを実行することによって、判別部114Aとして機能する。
 上述した第1実施形態では、ユーザUに対応付けられた操作対象機器として、ユーザUの自宅に配置されるIoT機器40-1及びIoT機器40-2を想定した(図4参照)。第2実施形態では、これらに加えて、ユーザUのオフィスにおいて、ユーザUに対応付けられた操作対象機器が存在することを想定する。図16は、XRグラス20を装着したユーザUがオフィスにいる様子を示す模式図である。オフィスには、IoT機器40-5~40-11が存在する。この例において、IoT機器40-5は複合機であり、IoT機器40-6及び40-9は照明スタンドであり、IoT機器40-7及び40-10はディスプレイであり、IoT機器40-8及び40-11はパーソナルコンピュータである。IoT機器40-5~40-11のうち、ユーザUに対応付ける登録処理を実行された操作対象機器は、IoT機器40-5~40-8である。
 以上の想定において、ユーザUに対応付けられた操作対象機器は、自宅に存在する2台のIoT機器40-1及び40-2と、オフィスに存在する4台のIoT機器40-5~40-8である。上述した第1実施形態の判別部114は、ユーザUが自宅にいる場合に、図4に示される6個の物体の画像の各々について、物体の画像と、登録情報IFに記録された8個の操作対象機器の画像の各々を比較することによって、ユーザUが視認している操作象機器を判別する。したがって、判別部114は48回の比較処理を実行することになる。しかしながら、ユーザUが自宅にいることに鑑みれば、オフィスに存在する4台の操作対象機器を判別の対象とする必要はない。
 そこで、第2実施形態の判別部114Aは、以下の抽出処理と判別処理を実行する。抽出処理は、ユーザUの現在の位置を示す現在位置情報と機器位置情報IFpとに基づいて、管理部113によって管理される操作対象機器の画像の中から、現在位置情報の示す位置から一定距離の範囲内に位置する操作対象機器の画像を候補画像として抽出する処理である。例えば、ユーザUが自宅にいる場合には、現在位置情報は自宅の位置を示す。また、図7に示される登録情報IFにおいて、機器識別情報DID[1]及び機器識別情報DID[2]が、自宅に設置されるIoT機器40-1及びIoT機器40-2に各々対応する。判別部114Aは、登録情報IFを参照することによって、機器画像情報IFg「111.jpg」によって示される画像と、機器画像情報IFg「222.jpg」によって示される画像を候補画像として抽出する。
 判別処理は、撮像画像に含まれる複数の物体の画像と、抽出された候補画像とに基づいて、複数の物体の中から操作対象機器を判別する処理である。上記想定では、IoT機器40-1~40-4、時計50-1及びテーブル50-2といった6個の物体の画像が、撮像画像に含まれる。また、候補画像の数は、2個である。このため、判別部114Aは、12回の比較を実行することによって操作対象機器を判別することができる。この結果、判別部114Aは、判別部114と比較して、処理負荷を削減できる。
2.2:第2実施形態の動作
 第2実施形態の登録処理は、図12を参照して説明した第1実施形態の登録処理と同様であるので、説明を省略する。
2.2.1:識別画像表示処理
 図17は、第2実施形態に係る識別画像表示処理の動作について説明するためのフローチャートである。第2実施形態に係る識別画像表示処理は、ステップS12の替わりに、ステップS12a、S12b、及びS12cを用いる点を除いて、図13に示される第1実施形態に係る識別画像表示処理と同様である。以下、相違点について説明する。
 ステップS12aにおいて、処理装置11は、ユーザUの現在の位置を示す現在位置情報を取得する。具体的には、処理装置11はXRグラス20から受信した位置データを現在位置情報として取得する。
 ステップS12bにおいて、処理装置11は、現在位置情報と機器位置情報IFpとに基づいて操作対象機器の画像の中から、現在位置情報の示す位置から一定距離の範囲内に位置する操作対象機器の画像を候補画像として抽出する。具体的には、処理装置11は、登録情報IFに記録された機器位置情報IFpの示す位置と現在位置情報の示す位置との間の距離が一定距離以下の機器識別情報を特定し、特定された機器識別情報に対応する機器画像情報IFgが示す画像を候補画像として抽出する。ここで、一定距離は、登録情報IFに記録された機器位置情報IFpの位置を複数のグループに分類した場合に、あるグループと他のグループとを区別できる距離であることが好ましい。例えば、ユーザUが、自宅とオフィスとにおいて、操作対象機器の登録を実行した場合、一定距離は、自宅の位置を示す機器位置情報IFpとオフィスの位置を示す機器位置情報IFpを区別できればよい。
 ステップS12cにおいて、処理装置11は、撮像画像に含まれる複数の物体の画像と、ステップS12bの処理によって抽出された候補画像とに基づいて、複数の物体の中から操作対象機器を判別する。処理装置11は、例えば、複数の物体の画像の各々について、物体の画像と候補画像とが類似する程度を示す評価値を算出し、算出された評価値が閾値を超える物体を操作対象機器であると判別する。
 処理装置11は、ステップS12aにおいて、取得部111として機能する。また、処理装置11は、ステップS12b及びS12cにおいて、判別部114Aとして機能する。
2.2.2:操作処理
 第1実施形態の操作処理では、図14に示されるステップS22において、処理装置11は、選択された物体の画像と登録情報IFに記録されている全ての機器画像情報IFgの示す画像とを比較することによって、ユーザUが選択した物体が操作対象機器であるかを判定した。これに対して第2実施形態では、全ての機器画像情報IFgの示す画像を比較の対象とするのではなく、登録情報IFに記録された機器位置情報IFpの示す位置と現在位置情報の示す位置との間の距離が一定距離以下の機器識別情報を特定し、特定された機器識別情報に対応する機器画像情報IFgが示す画像を比較の対象とする。端末装置10Aは、比較の対象とする操作対象機器の画像をユーザUからの距離によって制限するので、処理装置11の処理負荷を軽減することが可能となる。
2.3:第2実施形態が奏する効果
 以上の説明によれば、情報処理装置としての端末装置10Aは、管理部113及び判別部114Aを備える。管理部113は、操作対象機器の画像と、操作対象機器を登録する時点のユーザUの位置を示す機器位置情報IFpとを相互に対応付けて管理する。また、判別部114Aは、ユーザの現在の位置を示す現在位置情報と機器位置情報IFpとに基づいて、管理部113によって管理される操作対象機器の画像の中から、現在位置情報の示す位置から一定距離の範囲内に位置する操作対象機器の画像を候補画像として抽出し、撮像画像に含まれる複数の物体の画像と、抽出された候補画像とに基づいて、複数の物体の中から操作対象機器を判別する。
 端末装置10Aは、上記構成を備えるので、管理部113によって管理される操作対象機器のうち、ユーザUの現在の位置から一定距離以内の範囲に位置する操作対象機器を特定し、特定された操作対象機器の画像を用いて、複数の物体の中から操作対象機器を判別することになる。したがって、現在の位置から一定距離を超えて離れた場所に位置する操作対象機器は判別の対象から除かれる。よって、端末装置10Aによれば、判別処理の処理負荷を軽減できる。
3:変形例
 本開示は、以上に例示した実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を併合してもよい。
3.1:変形例1
 第1実施形態及び第2実施形態に係る情報処理システム1において、各ユーザUが、サーバ30が提供するXRサービスを利用する場合、ユーザ認証を経ることを条件としてもよい。ユーザ認証では、例えば、複数のXRグラス20を一意に識別するための識別情報とパスワードとを含む認証要求が、端末装置10からサーバ30に送信されてもよい。この場合、サーバ30は、予め記憶している認証情報と、認証要求とを照合することによって、ユーザ認証を実行してもよい。ユーザ認証をサーバ30が実行する場合、XRグラス20を使用するユーザUは認証済みである。このため、登録処理において、権限の無いユーザUが、権限のあるユーザUになりすまして、操作対象機器を登録することを防止できる。
3.2:変形例2
 第1実施形態及び第2実施形態に係る情報処理システム1において、取得部111、受付部112、管理部113、判別部114又は114A、生成部115、表示制御部116は、端末装置10又は10Aの処理装置11によって実現された。しかし、本発明はこれに限定されない。上記機能の一部又は全部をサーバ30で実現してもよい。この場合、サーバ30は、情報処理装置の一例である。また、端末装置10又は10Aは、XRグラス20とサーバ30との間の通信を行う通信装置として機能する。即ち、サーバ30が、識別画像を生成してもよい。
3.3:変形例3
 第1実施形態及び第2実施形態に係る情報処理システム1において、第1操作、第2操作、第3操作及び第4操作はユーザUのジェスチャーによって入力されたが、本発明はこれに限定されない。例えば、ユーザUの端末装置10又は10Aに対する操作によって、第1操作、第2操作、第3操作及び第4操作が入力されてもよい。また、第1実施形態及び第2実施形態に係る情報処理システム1において、登録の対象となる物体の選択及び操作対象機器の選択は、ユーザUの視線に基づいてなされたが、本発明はこれに限定されない。例えば、ユーザUの端末装置10又は10Aに対する操作によって、登録の対象となる物体の選択及び操作対象機器の選択がなされてもよい。
3.4:変形例4
 第1実施形態に係る情報処理システム1において、端末装置10とXRグラス20とは別体として実現されている。第2実施形態に係る情報処理システム1においても同様に、端末装置10AとXRグラス20とは別体として実現されている。しかし、本発明の実施形態における、端末装置10又は10AとXRグラス20の実現方法は、これには限定されない。例えば、XRグラス20が、端末装置10又は10Aと同一の機能を備えることにより、端末装置10又は10AとXRグラス20とが単一の筐体内で実現されてもよい。
4:その他
(1)上述した実施形態では、記憶装置12、記憶装置22、及び記憶装置32は、ROM及びRAMなどを例示したが、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、CD-ROM(Compact Disc-ROM)、レジスタ、リムーバブルディスク、ハードディスク、フロッピー(登録商標)ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体である。また、プログラムは、電気通信回線を介してネットワークから送信されてもよい。また、プログラムは、電気通信回線を介して通信網NETから送信されてもよい。
(2)上述した実施形態において、説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
(3)上述した実施形態において、入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
(4)上述した実施形態において、判定は、1ビットを用いて表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
(5)上述した実施形態において例示した処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
(6)図1~図17に例示された各機能は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
(7)上述した実施形態において例示したプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称を用いて呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
 また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
(8)前述の各形態において、「システム」及び「ネットワーク」という用語は、互換的に使用される。
(9)本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。
(10)上述した実施形態において、端末装置10、端末装置10A、及びサーバ30は、移動局(MS:Mobile Station)である場合が含まれる。移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。また、本開示においては、「移動局」、「ユーザ端末(user terminal)」、「ユーザ装置(UE:User Equipment)」、「端末」等の用語は、互換的に使用され得る。
(11)上述した実施形態において、「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的な結合又は接続であっても、論理的な結合又は接続であっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」を用いて読み替えられてもよい。本開示において使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
(12)上述した実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
(13)本開示において使用される「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
(14)上述した実施形態において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。更に、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
(15)本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
(16)本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」等の用語も、「異なる」と同様に解釈されてもよい。
(17)本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行う通知に限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
 以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施できる。したがって、本開示の記載は、例示説明を目的とし、本開示に対して何ら制限的な意味を有さない。
1…情報処理システム、10,10A…端末装置、11…処理装置、12…記憶装置、13…通信装置、20…XRグラス、111…取得部、112…受付部、113…管理部、114,114A…判別部、115…生成部、116…表示制御部、G1,G2…識別画像、IF…登録情報、DID…機器識別情報、IFa…機器位置情報、IFg…機器画像情報。

Claims (6)

  1.  ユーザが透過型の表示装置を介して現実空間に存在する複数の物体を視認する状況において、前記複数の物体のうち、前記ユーザに対応付けられ、且つ前記ユーザの遠隔操作の対象となる操作対象機器を判別する判別部と、
     前記操作対象機器を、前記複数の物体のうち前記操作対象機器以外の物体と識別するための識別画像を生成する生成部と、
     前記表示装置を介して前記ユーザに視認される前記操作対象機器に対応付けて、前記識別画像を前記表示装置に表示させる表示制御部と、
     を備える情報処理装置。
  2.  前記ユーザの操作を受け付ける受付部を更に備え、
     前記表示制御部は、前記受付部によって受け付けられた操作が、前記操作対象機器に対する操作の開始を指定する操作である場合、前記操作対象機器に対する操作に関する画像を前記表示装置に表示させる、
     請求項1に記載の情報処理装置。
  3.  前記判別部は、前記複数の物体を撮像することによって得られた撮像画像に基づいて、前記操作対象機器を判別する、請求項2に記載の情報処理装置。
  4.  少なくとも前記受付部によって受け付けられた操作が第1操作であるという条件が充足する場合に、前記現実空間に存在する物体を前記操作対象機器として登録し、前記登録された操作対象機器と、前記現実空間を撮像することにより得られた画像から抽出された前記操作対象機器の画像とを相互に対応付けて管理する管理部を更に備え、
     前記判別部は、前記撮像画像に含まれる複数の物体の画像と、前記管理部によって管理される前記操作対象機器の画像とに基づいて、前記複数の物体の中から前記操作対象機器を判別する、
     請求項3に記載の情報処理装置。
  5.  前記管理部は、更に、前記操作対象機器の画像と、前記操作対象機器を登録する時点の前記ユーザの位置を示す機器位置情報とを相互に対応付けて管理し、
     前記判別部は、
     前記ユーザの現在の位置を示す現在位置情報と前記機器位置情報とに基づいて、前記管理部によって管理される前記操作対象機器の画像の中から、前記現在位置情報の示す現在の位置から一定距離の範囲内に位置する操作対象機器の画像を候補画像として抽出し、
     前記撮像画像に含まれる複数の物体の画像と、前記抽出された候補画像とに基づいて、
    前記複数の物体の中から前記操作対象機器を判別する、
     請求項4に記載の情報処理装置。
  6.  前記条件は第1条件であり、
     前記管理部は、前記第1条件と、前記ユーザが、前記現実空間に存在する物体を操作する権限があるという第2条件とが充足する場合に、前記現実空間に存在する物体を前記操作対象機器として登録する、
     請求項4又は5に記載の情報処理装置。
PCT/JP2023/002687 2022-02-04 2023-01-27 情報処理装置 WO2023149379A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022016173 2022-02-04
JP2022-016173 2022-02-04

Publications (1)

Publication Number Publication Date
WO2023149379A1 true WO2023149379A1 (ja) 2023-08-10

Family

ID=87552339

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/002687 WO2023149379A1 (ja) 2022-02-04 2023-01-27 情報処理装置

Country Status (1)

Country Link
WO (1) WO2023149379A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017007349A (ja) * 2016-09-21 2017-01-12 シャープ株式会社 画像処理装置及び情報処理端末
WO2019102680A1 (ja) * 2017-11-21 2019-05-31 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019159848A (ja) * 2018-03-13 2019-09-19 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2019164420A (ja) * 2018-03-19 2019-09-26 セイコーエプソン株式会社 透過型頭部装着型表示装置および透過型頭部装着型表示装置の制御方法、透過型頭部装着型表示装置の制御のためのコンピュータープログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017007349A (ja) * 2016-09-21 2017-01-12 シャープ株式会社 画像処理装置及び情報処理端末
WO2019102680A1 (ja) * 2017-11-21 2019-05-31 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019159848A (ja) * 2018-03-13 2019-09-19 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2019164420A (ja) * 2018-03-19 2019-09-26 セイコーエプソン株式会社 透過型頭部装着型表示装置および透過型頭部装着型表示装置の制御方法、透過型頭部装着型表示装置の制御のためのコンピュータープログラム

Similar Documents

Publication Publication Date Title
JP6220889B2 (ja) ヘッドマウントディスプレイ、およびこれを制御する方法
KR20160145976A (ko) 영상 공유 방법 및 이를 수행하는 전자 장치
CN102682520A (zh) 信息处理设备、信息处理方法和终端设备
KR101816930B1 (ko) 데이터 송수신 방법, 그를 이용한 디스플레이 장치 및 휴대용 단말기
WO2020055045A1 (ko) 아이오티 기기 제어 서비스를 제공하는 전자 장치 및 그 제어 방법
WO2019130991A1 (ja) 情報処理装置
KR20150050825A (ko) 보안 정보를 포함하는 컨텐츠의 표시 방법 및 시스템
US20130171940A1 (en) Easily Operated Wireless Data Transmission/Reception System and Easily Operated Wireless Data Transmission/Reception Program
WO2016079974A1 (en) Authentication management method, information processing apparatus, wearable device, and computer program
CN110800314B (zh) 计算机系统、远程操作通知方法以及记录介质
CN110446995B (zh) 信息处理装置、信息处理方法及程序
CN106537404A (zh) 根据头戴式装置中的应用认证状态来控制硬件资源的性能或精度
WO2023149379A1 (ja) 情報処理装置
US10509899B2 (en) Information device operating system, information device operating method and program for operating information device based on authentication
WO2021137586A1 (en) Electronic device and method for providing position of user
WO2023079875A1 (ja) 情報処理装置
WO2023149498A1 (ja) 表示制御装置
US11184601B2 (en) Apparatus and method for display encoding
KR20220026114A (ko) 전자 장치 및 전자 장치의 증강 현실 모드에서 관련 장치를 식별하는 방법
WO2023120472A1 (ja) アバター生成装置
WO2023162499A1 (ja) 表示制御装置
WO2023149255A1 (ja) 表示制御装置
WO2023145265A1 (ja) メッセージ送信装置及びメッセージ受信装置
WO2023145892A1 (ja) 表示制御装置及びサーバ
WO2023074852A1 (ja) 情報処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23749695

Country of ref document: EP

Kind code of ref document: A1