WO2023074148A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2023074148A1
WO2023074148A1 PCT/JP2022/033884 JP2022033884W WO2023074148A1 WO 2023074148 A1 WO2023074148 A1 WO 2023074148A1 JP 2022033884 W JP2022033884 W JP 2022033884W WO 2023074148 A1 WO2023074148 A1 WO 2023074148A1
Authority
WO
WIPO (PCT)
Prior art keywords
instructor
worker
information
intention
information processing
Prior art date
Application number
PCT/JP2022/033884
Other languages
English (en)
French (fr)
Inventor
保乃花 尾崎
華蓮 村田
恵一朗 谷口
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023074148A1 publication Critical patent/WO2023074148A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • a captured image taken by the worker is sent to the instructor, and the instructor looks at it and gives instructions by voice.
  • a 3D panoramic image is generated using a plurality of cameras, It is described that an object located outside the range of the captured image can also be indicated.
  • the present disclosure proposes an information processing device, an information processing method, and a program that can further improve the convenience of remote work support.
  • An information processing apparatus includes a control unit that controls output.
  • a processor acquires the instructor's intention estimated based on the motion information of the instructor who performs remote work support and the worker's state, and responds to the acquired instructor's intention.
  • An information processing method including controlling output of guide information is proposed.
  • a computer acquires the instructor's intention estimated based on the motion information of the instructor who performs remote work support and the worker's state, and responds to the acquired instructor's intention.
  • a program that functions as a control unit that controls the output of guide information.
  • FIG. 1 is a diagram describing an overview of a remote work support system according to an embodiment of the present disclosure
  • FIG. 1 is a block diagram showing an example of the configuration of an information processing apparatus according to this embodiment
  • FIG. FIG. 4 is a sequence diagram showing an example of the flow of operation processing of the remote work support system according to the present embodiment
  • It is a figure explaining the guide output which guide
  • It is a figure which shows an example of the guide display by this embodiment by this embodiment.
  • It is a figure which shows an example of the guide display by this embodiment by this embodiment.
  • FIG. 10 is a diagram illustrating display of a partially enlarged image corresponding to the intention of the instructor according to the present embodiment
  • FIG. 10 is a diagram illustrating display change of drawing information written as work support by an instructor according to the present embodiment
  • FIG. 10 is a diagram illustrating an example of a guide output in an instruction to the outside of the display range according to the embodiment
  • FIG. 10 is a diagram illustrating an example of a guide output in an instruction to the outside of the visual field according to the embodiment
  • FIG. 10 is a sequence diagram showing an example of the flow of processing for displaying a worker image corresponding to a referent according to the present embodiment
  • FIG. 1 is a diagram illustrating an overview of a remote work support system according to an embodiment of the present disclosure.
  • the remote work support system includes an instructor device 10A (an example of an information processing device 10) used by an instructor (user A) who performs remote work support for a worker.
  • a worker device 10B an example of the information processing device 10) used by a worker (user B).
  • Each device includes a display unit 150 (150A, 150B), and the display unit 150 is provided with a camera 142 (142A, 142B) for imaging a user (instructor, worker) facing the display unit 150.
  • the installation position of the camera 142 is not particularly limited to the example shown in FIG.
  • the instructor's device 10A and the worker's device 10B are connected for communication via a network to transmit and receive data.
  • voice data and captured images are transmitted and received.
  • the network may be a dedicated line or a general line (public line).
  • the instructor can perform remote work support while watching the worker's image displayed on the display unit 150A, and the worker can also receive work support while watching the instructor's model displayed on the display unit 150B. can.
  • remote means at least a different location, and is not necessarily limited to a remote location.
  • the instructor's device 10A and the operator's device 10B are located at least at different locations.
  • work may include field work such as factory and inspection, as well as a wide range of practical instruction such as hair and makeup guidance, sports guidance, handicraft lessons, and medical practice such as surgery.
  • field work such as factory and inspection
  • practical instruction such as hair and makeup guidance, sports guidance, handicraft lessons, and medical practice such as surgery.
  • support for makeup instruction will be described as an example.
  • the remote work support system according to the present disclosure makes it possible to further improve the convenience of remote work support.
  • the instructor's device 10A estimates the user's intention based on the instructor's motion information, and transmits the intention information to the operator's device 10B.
  • the operator device 10B can appropriately convey the intention of the instructor to the operator, reduce the burden on the instructor, and perform remote control.
  • the convenience of work support can be further enhanced.
  • by changing the display corresponding to the intention of the instructor in the instructor device 10A it is possible to further improve the convenience of remote work support.
  • the instructor's intention estimation process is not limited to being performed in the instructor's device 10A, and may be performed in the worker's device 10B by transmitting motion information of the instructor to the worker's device 10B.
  • the operator's device 10B may further estimate the worker's intention and transmit the intention information to the instructor's device 10A.
  • the instructor's device 10A can appropriately convey the operator's intention to the instructor by outputting guide information corresponding to the intention or changing the display.
  • the instructor's device 10A and the worker's device 10B according to the present embodiment are examples of the information processing device 10 .
  • the information processing apparatus 10 can be realized by, for example, a PC (personal computer), a smartphone, a tablet terminal, a non-transmissive HMD (Head Mounted Display) that covers the entire field of view, a transmissive glasses-type device, a projector, or the like.
  • FIG. 2 is a block diagram showing an example of the configuration of the information processing device 10 according to this embodiment.
  • the information processing apparatus 10 has a communication section 110 , a control section 120 , an operation section 130 , a sensor section 140 , a display section 150 , a speaker 160 and a storage section 170 .
  • the communication unit 110 communicates with an external device by wire or wirelessly to transmit and receive data.
  • the communication unit 110 is, for example, a wired/wireless LAN (Local Area Network), Wi-Fi (registered trademark), Bluetooth (registered trademark), infrared communication, or a mobile communication network (4G (fourth generation mobile communication system), Communication using 5G (fifth generation mobile communication system) or the like can be performed.
  • the instructor's device 10A and the worker's device 10B can transmit and receive data from the communication unit 110 via a network.
  • the communication unit 110 transmits "video data (captured image)", “audio data”, and "intention information”.
  • Video data and audio data may be transmitted via existing online tools or may be transmitted over a dedicated line.
  • the intention information may be transmitted by a communication means different from that for video data and audio data, or may be transmitted by a dedicated line.
  • Operation unit 130 receives an operation input by a user and outputs input information to control unit 120 .
  • the operation unit 130 may be, for example, a touch sensor, a pressure sensor, or a proximity sensor.
  • the controls 130 may be physical structures such as buttons, switches, and levers.
  • the operation unit 130 according to this embodiment may be a touch panel provided in the display unit 150, for example.
  • the touch panel accepts an operation input by an operating object such as a user's finger or a touch pen.
  • the operation unit 130 may be an electronic pen used when performing touch input on the display unit 150 .
  • Electronic pen motion data (acceleration, angular velocity, direction, etc.) may also be input from the electronic pen.
  • the sensor unit 140 has a function of sensing the user and surrounding conditions.
  • the sensor unit 140 may be, for example, a human sensor 141, a camera 142, a microphone 143, a depth sensor 144, and the like.
  • Sensor unit 140 includes one or more sensors.
  • the sensor unit 140 may include a line-of-sight detection sensor (infrared sensor) that detects the user's line of sight.
  • the sensor unit may be a non-wearable device (a device installed around the user) or a wearable device (a device worn by the user). Moreover, these may be mixed.
  • the display unit 150 has a function of displaying images.
  • the display unit 150 may be a display panel such as a liquid crystal display (LCD) or an organic EL (Electro Luminescence) display.
  • LCD liquid crystal display
  • organic EL Electro Luminescence
  • Speaker 160 outputs audio data under the control of control unit 120 .
  • control unit 120 functions as an arithmetic processing device and a control device, and controls general operations within the information processing device 10 according to various programs.
  • the control unit 120 is realized by an electronic circuit such as a CPU (Central Processing Unit), a microprocessor, or the like.
  • the control unit 120 may also include a ROM (Read Only Memory) that stores programs to be used, calculation parameters, and the like, and a RAM (Random Access Memory) that temporarily stores parameters that change as appropriate.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the control unit 120 transmits the captured image of the user (instructor/worker) captured by the camera 142 (the face is captured in the case of makeup support) and the voice data of the user collected by the microphone 143 to the communication unit. 110 controls transmission to the partner device (worker device 10B/instructor device 10A). Further, the control unit 120 controls the display unit 150 to display the picked-up image received from the counterpart device and the output of the audio data from the speaker 160 .
  • the control unit 120 also functions as a user information recognition unit 121, an operating body recognition unit 122, a received image analysis unit 123, a priority information detection unit 124, an intention estimation unit 125, a guide generation unit 126, and a display change unit 127. obtain.
  • the user information recognition unit 121 recognizes user information based on sensing data from the sensor unit 140.
  • the user information is various information about the user (instructor/worker), and includes, for example, the user's status.
  • the user information recognition unit 121 recognizes whether or not there is a user around the information processing apparatus 10 by using the human sensor 141, for example.
  • the user information recognition unit 121 analyzes a captured image of the user captured by the camera 142 provided in the display unit 150 and recognizes the user's face orientation, line of sight, position (distance) and the like with respect to the display unit 150 .
  • the user information recognition unit 121 can analyze the user's captured image and recognize the user's posture, body movement (hand movement, etc.), tools held by the user, and the like.
  • the user information recognition unit 121 may recognize the distance between the display unit 150 and the user based on the depth data from the depth sensor 144 installed in the display unit 150.
  • the operating object recognition unit 122 recognizes the operating object based on the sensing data from the sensor unit 140.
  • an electronic pen is assumed as the operating object.
  • the operating object recognition unit 122 recognizes an operation based on information received from various sensors (acceleration sensor, IMU, etc.) provided in the electronic pen and information acquired from various sensors (camera, depth sensor, etc.) provided in the display unit 150. Recognize body position, posture, orientation, etc.
  • the received image analysis unit 123 analyzes the received image received from the counterpart device and recognizes the state of the person appearing in the received image. For example, in the case of the received image analysis unit 123 provided in the instructor device 10A, the captured image received from the operator device 10B is analyzed and the state of the worker reflected in the captured image is recognized. Further, in the case of the received image analysis unit 123 provided in the operator device 10B, the captured image received from the instructor device 10A is analyzed, and the state of the instructor reflected in the captured image is recognized.
  • the priority information detection unit 124 detects priority information based on the user's motion information.
  • the priority information is a pre-determined instruction to be preferentially processed. Specifically, the priority information is transmitted to the counterpart device prior to the processing of intention estimation and the transmission of intention information.
  • the counterpart apparatus performs output control according to the priority information prior to outputting the guide corresponding to the intention. By preferentially transmitting the priority information, the delay is reduced and the worker is prevented from taking actions not intended by the instructor due to the delay.
  • the priority information includes, for example, important information such as cancellation, work stop instruction, and trouble occurrence.
  • “Cancellation” refers to cancellation of transmission of an instruction to the worker or cancellation of transmission of the instruction to the worker, for example, when the instructor issues an incorrect instruction or when the intention estimated by the intention estimation unit 125 is incorrect. This is the process of notifying the cancellation of the wrong instruction.
  • the intention estimated by the intention estimation unit 125 is displayed for confirmation by the instructor before being notified to the worker, the instructor can cancel the intention by tapping the cancel button if the intention is incorrect.
  • the "work stop instruction” is a process of notifying the other party of the request to stop the work. For example, even if there is a delay in the voice, by sending the priority information, the "instruction to stop work" can be conveyed to the other party more quickly.
  • “Problem Occurrence” is a process of notifying the other party that there is a high possibility that a problem has occurred in the device, communication, or the like, for example, when the image of the instructor/worker has not changed for a certain period of time or longer. In this manner, smoother communication can be realized by transmitting specific instructions of high importance, such as cancel and pause, by means other than video and audio.
  • Priority information is detected, for example, by recognizing poses and gestures registered in advance as priority information from the analysis results of the captured image of the designator. Further, this is performed by recognizing a tap of a UI button (cancel button, work stop instruction button, etc.) indicating priority information displayed on the display unit 150 .
  • a UI button cancel button, work stop instruction button, etc.
  • the priority information detected by the priority information detection unit 124 is transmitted by the communication unit 110 to the counterpart device.
  • the priority information is given priority over the intention estimation processing by the intention estimation unit 125 and the transmission of the estimation result (intention information). As a result, specific instructions of high importance can be dealt with quickly.
  • the intention estimation unit 125 estimates the user's intention based on the user's motion information and the state of the other user (the state of the other user recognized from the video the user is watching).
  • the intention estimation unit 125 estimates the intention of the instructor based on the motion information of the instructor and the state of the worker that the instructor is watching.
  • the motion information of the designator is obtained from the result of recognition by the user information recognition section 121 based on sensing data from the sensor section 140 .
  • the motion information of the instructor may be obtained from the information of the operation tool used by the instructor, which is recognized by the operation tool recognition unit 122 .
  • the worker's condition is obtained from the analysis result of the received image analysis unit 123 .
  • the state of the worker includes, for example, whether the worker is working, has his hands stopped, or has his hands stopped and is paying attention to the instructor (image of the instructor reflected on the worker's side).
  • the motion information of the instructor refers to the line of sight, posture, face orientation, or facial orientation of the instructor with respect to the display unit 150 on which at least the captured image of the worker (hereinafter also referred to as the worker image) is displayed. Information about at least one of the locations.
  • the motion information of the instructor is information of instruction input (touch operation, touch position, etc.) performed with an operating body (finger, touch pen, electronic pen, etc.) on the display unit 150 on which at least the worker image is displayed. There may be.
  • the worker's condition is obtained from the analysis result of the worker image received from the worker device 10B.
  • the intention estimating unit 125 uses pre-registered information for estimating intention (for example, what kind of action the instructor performs, what state the worker is in, and what kind of intention is associated with each other). patterns, etc.) may be used to estimate the intention of the designator.
  • the intention estimation unit 125 may estimate (calculate) the intention of the instructor using the results of machine learning based on history data of work support. Further, the intention estimation unit 125 may present the estimated intention to the instructor, obtain feedback from the instructor, and perform machine learning. This further increases the accuracy of intention estimation.
  • the intention estimation unit 125 may estimate the intention in consideration of the previous motion of the designator.
  • Intentions that can be inferred include, for example, changing the direction of the face, enlarging/reducing the image, wanting the user to move away from/closer to the screen (camera) (change in position), and enlarging the instruction/work area.
  • the control unit 120 transmits the intention information (intention information) estimated by the intention estimation unit 125 to the counterpart device through the communication unit 110 . Further, when the content of the intention can be dealt with by the device on the user side, the control unit 120 deals with it by the device on the user side (change of display to be described later) and does not transmit to the device on the other party side.
  • Table 1 below shows an example of the data types (data items) of the generated priority information and intention information.
  • Data types include timestamp, preferred transmission flag, source, output modal, preferred/intent content, and so on.
  • a time stamp is the time when the data was recorded.
  • a priority transmission flag is the transmission priority of information. The sender indicates whether it is an instructor or a worker.
  • An output modal indicates a modal when information is output by the receiving side.
  • Priority/intent content indicates the content of priority information/intent information.
  • the data types described above are examples, and the present embodiment is not limited to them.
  • the output modal information may not be included.
  • the rules for the values assigned to each may be changed depending on the device used.
  • the guide generation unit 126 generates a guide according to the estimated intention of the instructor.
  • the intention of the designator may be obtained by communication from the partner device, or may be obtained by estimating based on information received from the partner device.
  • a guide is information that guides the user to a state that is in line with the intention of the other party.
  • the guide generation unit 126 provided in the operator's device 10B generates a guide that guides the operator's state to a state that meets the intention according to the intention information transmitted from the instructor's device 10A. For example, at least one of the face direction, posture, or position of the worker with respect to the display unit 150B on which at least the instructor image is displayed is guided according to the intention (the face direction, posture, or position desired by the instructor is guided).
  • the generated guide may be display data (visual information), audio data (auditory information), or vibration data (tactile information). As shown in Table 1, when an output modal is specified, it is generated in the form of the specified output modal.
  • the control unit 120 outputs the guide generated by the guide generation unit 126 from the display unit 150 and the speaker 160 . Examples of guide generation and output will be described later.
  • the display changing unit 127 changes the display of the display unit 150 according to the estimated intention.
  • intentional output control is the above-described guide output
  • another example is display change.
  • the display unit 150 when the screen is divided into two and the operator image and the instructor image (captured image of the instructor) are displayed side by side by default, the operator image may be enlarged according to the intention. Then, control is performed to change the display so that the worker image is displayed larger than the instructor image.
  • Such an intention can be inferred when the instructor is gazing at the worker image, or when approaching the screen and looking at the worker image.
  • the display change unit 127 of the instructor device 10A performs display control to enlarge the worker image displayed on the display unit 150 of the instructor device 10A. Examples of such display changes are described further below.
  • the storage unit 170 is implemented by a ROM (Read Only Memory) that stores programs, calculation parameters, and the like used in the processing of the control unit 120, and a RAM (Random Access Memory) that temporarily stores parameters that change as appropriate.
  • the storage unit 170 stores information used for recognizing a user or an operating body, information used for intention estimation, information used for priority information detection, information used for guide generation, and the like.
  • the information used for recognition and the information used for intention estimation may be machine learning data.
  • the storage unit 170 may store machine learning data generated in advance.
  • the configuration of the information processing device 10 is not limited to the example shown in FIG.
  • the information processing device 10 may not have all the configurations shown in FIG.
  • the information processing device 10 may be realized by a plurality of devices.
  • the configuration of the information processing apparatus 10 described with reference to FIG. 2 is a configuration that is applied to both the instructor's device 10A and the worker's device 10B.
  • the instructor's device 10A and the operator's device 10B may have the same configuration, or may have a configuration in which at least a part of the control section 120 is different.
  • control unit 120 determines whether the sensing data of the sensor unit 140 is about the user or the operating object, and then sends the sensing data to the user information recognizing unit 121 or the operating object recognizing unit 122. may be output. Data required for determination are stored in the storage unit 170 in advance. In addition, the control unit 120 can learn by requesting the user's confirmation of the determination result and the recognition result (implementation of feedback), and can further improve the accuracy of determination and recognition.
  • the intention estimation unit 125 may estimate the intention by referring to environment information in addition to the recognition result of the user/operator.
  • the environmental information includes, for example, the size of the work/instruction space, the brightness, the volume of the environmental sound, and the like.
  • the control unit 120 can recognize the environment of the work/instruction space based on sensing data from the sensor unit 140 (camera 142, microphone 143, depth sensor 144, illuminance sensor, etc.).
  • FIG. 3 is a sequence diagram showing an example of the operational processing flow of the remote work support system according to this embodiment.
  • A is added to the end of the reference numerals for the components provided in the instructor device 10A
  • B is added to the end of the reference numerals for the components provided in the worker device 10B.
  • the instructor device 10A and the worker device 10B each acquire sensing data by the sensor units 140 (140A, 140B) (steps S103a, S103b), (instructor image, worker image) are transmitted and received (step S106).
  • voice data among sensing data is also transmitted/received to/from each other.
  • each device performs control for outputting the received captured image and audio data.
  • the received captured image of the other user and the captured image of the captured user may be displayed side by side at the same time. Transmission and reception of such captured images and audio data are continuously performed during work support.
  • each device performs recognition processing for various data (steps S109a and S109b).
  • the user information recognition section 121A recognizes the state of the instructor
  • the operation body recognition section 122A recognizes the state of the operation body
  • the received image analysis section 123A recognizes the received image. (Worker image) to recognize the state of the worker.
  • the worker device 10B the user information recognition section 121B recognizes the state of the worker.
  • step S112/Yes when priority information is detected from the motion information of the instructor (the result of state recognition of the instructor or the result of state recognition of the operating body) (step S112/Yes), the instructor device 10A outputs the priority information. It is transmitted to the operator device 10B (step S115).
  • the priority information With priority over intention estimation, which will be described later, it is possible to respond to the instruction of the instructor more quickly.
  • the worker device 10B stores the recognized state of the worker (step S118).
  • the control unit 120A performs control to display a default guide associated with the priority information (step S124).
  • the default guide may be, for example, a cancellation notice, a pause instruction, or a warning image indicating a malfunction of the device.
  • the control unit 120A displays the warning image on the display unit 140A on which the instructor image and the worker image are displayed.
  • the warning image may be text only, may include graphics, or may be only a predetermined icon.
  • the intention estimating unit 125 detects the intention based on the instructor's motion information (instructor's state recognition result and operation body state recognition result) and the worker's state. Estimation is performed (step S127).
  • control unit 120A performs control to change the display of the display unit 150A according to the intention (step S133). For example, the control unit 120A performs control to display the worker image displayed on the display unit 150A in a larger size when the user intends to pay attention to the worker's work.
  • the control unit 120A transmits the intention information to the worker device 10B (step S136).
  • intention information includes, for example, information regarding actions desired by the operator (face rotation, face position change, etc.).
  • the guide generation unit 126B of the worker device 10B receives the instructor's intention information (step S142/Yes), it generates a guide according to the worker's state based on the intention (step S145).
  • the guide generation unit 126B may generate a guide corresponding to the intention in an output modal suitable for the state of the worker.
  • the guide generating unit 126B generates a guide using visual information when the operator is paying attention to the screen, and generates a guide using audio information when the operator is not paying attention to the screen.
  • the present embodiment is not limited to this.
  • the guide generation unit 126A may make the content of the guide and the display method of the guide suitable for the state of the operator. For example, if the intention information is "I want you to look sideways," and if the worker is facing the front, a guide saying "Please look sideways" is generated. For example, a guide such as "Please turn to the side for a while” is generated. Thus, a more appropriate guide can be generated by considering the worker's condition. In addition, as a form suitable for the condition of the worker, the guide is displayed in the visual range of the worker or superimposed on the face image of the user.
  • control unit 120B outputs the generated guide (step S148). Note that the control unit 120B continuously recognizes the state of the operator, and deletes the guide display when the guide display becomes unnecessary, thereby improving the visibility of the image.
  • the instructor's intention is estimated by the instructor's device 10A, but the present embodiment is not limited to this.
  • the instructor's intention estimation may be performed by the worker device 10B.
  • the instructor's device 10A transmits information used for estimating the instructor's intention to the worker's device 10B, and the intention estimation unit 125 of the worker's device 10B estimates the instructor's intention.
  • the information transmitted may be the instructor's motion information and the worker's status information (of the video that the instructor sees).
  • the operator's device 10B may analyze the instructor image received from the instructor's device 10A to detect the action information of the instructor.
  • the worker may estimate the intention.
  • the processing in the instructor device 10A is delayed and there is a delay until the intention is estimated, or the communication band cannot be secured and the instructor image and intention information to the worker device 10B.
  • FIG. 4 shows a bird's-eye view of the directions of the instructor and the worker with respect to each display unit 150 (150A, 150B).
  • the instructor may want to see the worker's face from a desired angle, but it is difficult to explain in words, and communication may become complicated. Therefore, when the instructor actually changes his/her own face direction, it is possible to presume that this is the intention of instructing the face direction, and to output a guide to instruct the operator to change the face direction in the same way.
  • the instructor device 10A calculates the rotation angle of the instructor's face, with the rotation angle when the instructor faces the front (in the direction of the display unit 150) as 0, and uses this angle as the face orientation required of the operator. do.
  • the estimated intention information is transmitted to the worker side (device for worker 10B), and the worker side outputs a guide for rotating the same angle as the instructor based on the intention information.
  • the worker device 10B outputs a guide suitable for the state of the worker in consideration of the current face orientation (rotational angle) of the worker.
  • the worker device 10B detects the rotation angle of the worker's face, and if it matches the instruction, ends the output of the guide.
  • the intention estimating unit 125A of the device 10A for instructor also estimates the intention of such an instructor with higher accuracy. Specifically, when estimating the intention of the designator, the intention estimation unit 125A can improve the accuracy of the estimation by considering the behavior of the designator immediately before.
  • the intention estimating unit 125A estimates the intention by considering the movement of the face immediately before the indicator (immediately before changing the face direction from right to front). For example, if you change the face direction, it is assumed that the intention is during fine adjustment of the indicated angle, and the new angle is sent to the operator as an intention estimation, and the operator readjusts the guide that was output. (updates the pointing angle of the face). On the other hand, if the previous action was to ⁇ stop the face direction for a certain period of time'', the angle instruction is completed, and it is assumed that the intention is to look closely at the screen, and the intention information is not sent. No guide change).
  • the intention estimation unit 125A estimates the intention, for example, considering the movement of the line of sight of the indicator. For example, when the instructor changes his face direction from right to front, if the instructor's line of sight is "gazing at a specific part of the worker", the specific parts (cheeks, etc.) can be seen clearly (work (Because the person's face is not rotated enough to see specific parts), it is assumed that the intention is to fine-tune the angle of the face, and the intention to instruct the operator to rotate further is sent to the operator, and the operator outputs it. realigned guides (updated to guides pointing more to the right).
  • the intention estimation unit 125A estimates the intention, for example, considering the distance between the face of the designator and the screen (display unit 150A). For example, if the distance between the instructor's face and the screen is "less than a certain value" when the instructor changes his face from the right to the front, the operator's face is closer to the screen (the operator's face It is difficult to see the desired part due to insufficient rotation), it is presumed that the intention is still to fine-tune the angle of the face, and the intention to instruct the operator to rotate further is sent to the operator, and the operator outputs it. Readjust the guide (updated to guide pointing more to the right).
  • the angle instruction is terminated, and it is assumed that the operator wants to see the entire screen (where the operator's face is reflected) from the front. is not sent (the operator does not change the guide).
  • the intention estimating unit 125A estimates the intention in consideration of the worker's state. For example, when the operator changes the direction of the face from right to front, if the operator is in the state of "Adjusting the angle of the face", it is assumed that the operator still wants to fine-tune the angle of the face, and rotation continues. The intention to instruct the worker to do so is sent to the worker, and the guide output by the worker is readjusted (updated to the guide to direct the face to the right). On the other hand, if the worker's state is "after adjusting the angle of the face", it is presumed that the angle instruction is finished and the intention is to see the entire screen (where the worker's face is reflected) from the front, and the intention information is not sent. Not performed (the operator does not change the guide).
  • 5 to 8 are diagrams showing examples of guide display according to the present embodiment.
  • the face icon may be a bird's-eye view face icon as shown in FIG. 5, or may be a front face icon (simulating a mirror image).
  • the current angle and the angle desired by the instructor may be superimposed on the face icon in the bird's-eye view.
  • a clearer rotation direction and rotation angle can be intuitively grasped.
  • an overhead face icon that reflects the rotation angle of the worker at any time is displayed together with an arrow.
  • a stop instruction may be given to stop at . This may indicate fine adjustment of the angle.
  • a guide display 33 such as an arrow may be superimposed on the actual face image of the worker (user B) displayed on the display unit 150B.
  • the face image (received image) of the designator (user A) can also be displayed on the display unit 150B.
  • guide display is not limited to the above-described example (icon image, etc.), and for example, the content of the action required of the worker may be displayed using characters, symbols, or the like.
  • the instructor's device 10A can also respond to the intention of the instructor by changing the display on the display unit 150A.
  • FIG. 9 is a diagram explaining display changes corresponding to the intention of the instructor according to the present embodiment.
  • the captured image of the instructor (user A) and the captured image of the worker (user B) are displayed side by side on the display unit 150A.
  • the intention of the instructor to focus on the worker's work is detected (for example, it can be estimated from the instructor's line of sight and the state in which the worker is working)
  • the display change unit 127A can perform control to display the captured image of the worker (user B) in a large size.
  • the intention to watch the work of the worker may also be transmitted to the worker device 10B, and a large image of the worker may be displayed on the worker device 10B.
  • the operator's intention is estimated in the worker device 10B, and when the worker wants to pay attention to his own work (in the case of makeup work, the display unit 150B can ), the image of the worker himself may be displayed in a large size.
  • FIG. 10 is a diagram illustrating display of a partially enlarged image corresponding to the intention of the instructor according to this embodiment.
  • the intention estimation unit 125A estimates the instructor's intention to issue detailed instructions.
  • the display changing unit 127A displays a display image 42 obtained by cutting out and enlarging the eye portion from the captured image of the worker (user B) on the display unit 150A.
  • the instructor can also write drawing information 43 (drawing indicating a place to apply eye shadow or a place to draw eye line, etc.) for assisting the work on the display image 42 by using the operating body. It is possible.
  • the drawing information 43 is transmitted to the worker device 10B, and displayed superimposed on the worker image on the display unit 150B.
  • the display position of the drawing information 43 may be display-controlled so as to follow the face of the worker appearing in the worker image.
  • the display of the enlarged image according to the intention is not limited to the side of the instructor.
  • the worker image and the enlarged image of the parts that the instructor focuses on are displayed side by side on the display unit 150B. display changes may be made.
  • the operator side may display the instructor image and the instruction so that the details of the work (model) by the instructor are conveyed.
  • a display change may be performed in which target parts are cut out from the human image and enlarged images are displayed side by side.
  • the instructor can also draw on the captured image of the worker or the instructor with an operation body (finger, touch pen, electronic pen, etc.) as work support.
  • Such drawing information is transmitted to the operator side and similarly superimposed on the captured image of the instructor/operator.
  • the step of writing such drawing information is the instructor's intention to perform the operations in this order.
  • the received drawing information is sequentially displayed, and the display of each piece of drawing information is changed so as to emphasize and display the additional drawing information according to the intention.
  • FIG. 11 is a diagram explaining how the display of drawing information written as work support by the instructor is changed.
  • drawing information 44a written by the instructor for example, the range to apply blush, the blush brush, etc.
  • a writing explaining the direction to move is displayed.
  • drawing information 44b written by the instructor is displayed on the right side of the worker's face displayed on the display section 150B.
  • the display changing unit 127B performs display control so as to highlight the added drawing information 44b.
  • the new drawing information 44b can be relatively highlighted by making the color of the old drawing information 44a' lighter, making it dotted, or deleting it. It is also possible to highlight the new drawing information 44b by blinking it, drawing a locus, or changing the displayed color. As a result, the worker can intuitively grasp the work process and perform the work.
  • the intention estimation unit 125 estimates that the intention is to write drawing information, and the operator image is displayed. may be displayed large (eg, at a size close to the size of the actual head). Thereby, the accuracy of the work can be improved.
  • the actual head size may be obtained by calculating an average value from the gender and height of the worker.
  • the instructor instructs eyebrows
  • there are desirable positions for the inner eyebrow, the eyebrow peak, and the eyebrow end for example, the eyebrow tip is above the nose, the eyebrow peak is outside the black eye, and the eyebrow end is on the extension line of the corner of the mouth and the outer corner of the eye.
  • the operator needs to face the front firmly.
  • the worker faces the front every time the confirmation is made or if the worker keeps facing the front, this leads to a burden on the worker and an increase in the time required for the instruction by the instructor.
  • the intention estimation unit 125A estimates the intention of assisting the eyebrow work
  • the control unit 120A extracts auxiliary information for eyebrow work support. Specifically, the control unit 120A recognizes parts of the face from the facial image of the operator, calculates suitable points for the inner edge of the eyebrow, the peak of the eyebrow, and the outer edge of the eyebrow. image) may be displayed as auxiliary information. Based on the auxiliary information, the instructor can also write drawing information (such as eyebrow lines) as a unique work support. As a result, it is possible to reduce the number of face angle instructions to the operator.
  • the intention estimation unit 125A estimates that the instructor intends to give an explanation. do. In this case, since no instructions are required for the worker, the communication load is reduced by not transmitting the intention information.
  • control unit 120A may cause a communication delay or a malfunction of the device to occur. , prompts the instructor to temporarily stop inputting instructions, and temporarily suspends transmission of the instructor's intention information. This reduces the load on communications and devices.
  • the instructor wants/issues an instruction to the operator's mouth, but the operator's mouth is not included in the angle of view on the operator's side display unit 150B, so the instruction to the operator's mouth is not possible. cannot be visually guided out.
  • the intention estimation unit 125B generates and outputs an audio guide. Specifically, a warning sound may be emitted, or an announcement such as "Please show your mouth", "Please move away from the camera", or "Please step back" may be played.
  • the instructor can see the operator's mouth, and it is assumed that the operator can give instructions to the invisible mouth. (It is presumed that the intention is to give instructions to the mouth).
  • the instructor's mouth is not shown on the instructor side, for example, by touching the bottom edge of the screen, it is possible to convey the intention to issue an instruction outside the display range (display range It is presumed that he wants to give instructions outside).
  • the instructor side may estimate the intention of issuing an instruction to the outside of the display range and transmit the intention to the operator side.
  • the worker when the worker is working using the captured image of himself/herself reflected on the display unit 150B like a mirror, the worker may get too close to the screen or concentrate on the work. This may reduce the operator's field of vision.
  • the visual field range can be calculated based on the line-of-sight direction of the worker and the position of the worker (distance from display unit 150B). In addition, even when the display unit 150B has a large screen, an area outside the visual range is likely to occur.
  • 13A and 13B are diagrams illustrating an example of a guide output in an instruction to the outside of the visual field range according to the present embodiment.
  • the control unit 120B when an instruction is issued outside the visual field range of the operator, the control unit 120B outputs a warning sound as a guide output, or guides the line of sight into the visual field range 46 on the display unit 150B.
  • a display 48 is displayed. This makes it possible for the user to notice the instruction (here, drawing information 44 as an example) displayed outside the visual field range 46 by the instructor.
  • the operator's face image (captured image) displayed on the display unit 150B is superimposed on the instructor's image and the instructions (drawing information) written by the instructor cannot be seen, the operator must hold the face horizontally. It may be moved in a direction or the like to a position where the image of the instructor does not interfere.
  • the drawing information follows the face image of the operator.
  • the operator can arbitrarily change the display position and display size of the image of the instructor (for example, by touch operation (drag & drop, pinch-in/pinch-out, etc.)).
  • FIG. 14 is a sequence diagram showing an example of the flow of processing for displaying a worker image corresponding to an instruction word according to this embodiment.
  • the user information recognition unit 121A of the device for instructor 10A recognizes the instruction voice of the instructor (step S203).
  • the intention estimation unit 125A saves the worker image as information indicating the intention of the instruction (step S209).
  • control unit 120A transmits the worker image from the user information recognition unit 121A to the worker device 10B (step S212).
  • a worker image may be transmitted as one of information for intention estimation.
  • the worker device 10B the worker is continuously imaged by the camera 142B (step S215).
  • the captured image is continuously transmitted to the instructor's device 10A.
  • the guide generation unit 126B determines whether the worker state in the received worker image matches the current state of the worker. It is determined whether or not to do so (step S221).
  • the status of the worker in the received worker image can be analyzed by the received image analysis unit 123B. For example, the state in which the worker is pointing at a location on his face is detected and compared with the current state of the worker.
  • step S221/No the intention estimation unit 125B generates a guide that guides the worker so that the current state of the worker matches the state of the worker in the received worker image (step S224), display output (step S227).
  • the intention of the instructor can be conveyed accurately and without burden.
  • the information processing apparatus 10 may temporarily stop recognition processing and image transmission/reception in order to reduce the load on the apparatus and communication.
  • the information processing device 10 may change the display area and color according to user characteristics and work environment. For example, if the display unit 150 is extremely large compared to the user's visual field range, the display area is narrowed. Further, when the color of the guide display or the drawing information is similar to the color of the image to be superimposed (such as the worker image), the information processing apparatus 10 changes the color to improve the visibility.
  • the information processing device 10 may reduce erroneous detection by labeling characteristic actions in user action recognition. Characteristic actions and labels can be prepared in advance.
  • the information processing apparatus 10 may use an AR/VR device (an example of the display unit 150) worn on the user's head to detect the user's face orientation and display a guide. Also, the orientation of the user's face may be sensed using an infrared camera. Further, the information processing apparatus 10 may perform guide display using a projector.
  • an AR/VR device an example of the display unit 150
  • the display form of the guide is not what the user wants, feedback may be given so that it can be changed. For example, when a display area that the user wants to see is blocked by a guide display, the user can erase the guide display by performing an action such as erasing the guide display with an eraser.
  • the information processing device 10 may communicate by vibration or voice that the worker is behaving differently than instructed, or may communicate by voice that the work is going smoothly.
  • a computer program for causing hardware such as a CPU, a ROM, and a RAM built in the above information processing device 10 (instructor device 10A, operator device 10B) to exhibit the functions of the information processing device 10. can also be created.
  • a computer-readable storage medium storing the computer program is also provided.
  • the present technology can also take the following configuration.
  • An information processing device comprising: (2) (1) above, wherein the motion information of the instructor is information relating to at least one of the line of sight, posture, face orientation, and face position of the instructor with respect to a display section on which at least the captured image of the worker is displayed; The information processing device according to .
  • the guide information is information that guides the current state of the worker to the intended state.
  • the guidance is guidance for at least one of face orientation, posture, and position of the worker with respect to a display section on which at least the captured image of the instructor is displayed.
  • the control unit generates guide information suitable for the current state of the worker according to the intention.
  • the guide information is output by at least one of display, sound, and vibration.
  • the information processing apparatus selects the type of output of the guide information according to the state of the worker.
  • the information processing device is a worker device used by the worker, The control unit a process of displaying, on a display unit, a captured image of the instructor continuously received from a device for the instructor used by the instructor and a captured image of the worker continuously captured; a process of superimposing and displaying the guide information on the captured image of the worker displayed on the display unit;
  • the information processing apparatus according to any one of (4) to (8) above, which performs (10) The information processing apparatus according to (9), wherein the instructor's intention is estimated in the instructor's device and transmitted from the instructor's device to the operator's device.
  • the information processing apparatus (11) The information processing apparatus according to (9), wherein the control unit performs a process of estimating the intention of the instructor based on the motion information of the instructor and the state of the operator. (12) Instead of outputting the guide information, the control unit changes display of the captured image of the worker or the captured image of the instructor displayed on the display unit according to the intention of the instructor. , the information processing apparatus according to any one of (9) to (11). (13) When receiving prescribed priority information from the instructor device, the control unit performs output control according to the priority information, prior to guide information corresponding to the intention, above (9) to ( 12) The information processing apparatus according to any one of items. (14) The information processing apparatus according to (13), wherein the priority information is information indicating cancellation, an instruction to stop work, or occurrence of a problem.
  • the control unit The captured image of the worker received from the device for the instructor and displayed on the device for the instructor when the instructive word was included in the uttered voice of the instructor, and the current state of the worker.
  • the information processing apparatus according to any one of (9) to (14), which compares and outputs guide information that guides the worker to the same state as the captured image.
  • the control unit performing a process of superimposing and displaying drawing information for supporting the work created by the instructor on the captured image of the worker; Further, the information processing apparatus according to any one of (9) to (15) above controls to highlight additional drawing information.
  • the control unit Further, any one of (1) to (16) above, wherein the intention of the worker is estimated based on the intention of the worker estimated based on the motion information of the worker and the state of the instructor.
  • the information processing apparatus according to 1.
  • the processor Acquiring the intention of the instructor estimated based on the motion information of the instructor who performs remote work support and the state of the worker, and performing control to output guide information corresponding to the acquired intention of the instructor.
  • a method of processing information comprising: (19) the computer, Control to acquire the instructor's intention estimated based on the motion information of the instructor who performs remote work support and the worker's state, and to perform control to output guide information corresponding to the acquired intention of the instructor.
  • 10 information processing device (10A device for instructor, 10B device for worker) 110 communication unit 120 control unit 121 user information recognition unit 122 operating body recognition unit 123 received image analysis unit 124 priority information detection unit 125 intention estimation unit 126 guide generation unit 127 display change unit 130 operation unit 140 sensor unit 150 display unit 160 speaker 170 storage unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】遠隔作業支援の利便性をさらに高めることが可能な情報処理装置、情報処理方法、およびプログラムを提供する。 【解決手段】遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、遠隔地の作業者に対して指示者が音声や画像を用いて支援する遠隔作業支援システムが提案されている。
 遠隔作業支援システムでは、例えば、作業者側で撮影された撮像画像が指示者側に送信され、指示者がそれを見て音声で指示を行う。このような遠隔作業支援システムに関し、例えば下記特許文献1では、作業者側から送信される撮像画像では十分に作業現場の全貌を把握できないため、複数のカメラを用いて3Dパノラマ画像を生成し、撮像画像の範囲外に位置する対象物も指示できるようにすることが記載されている。
特開2017-58752号公報
 しかしながら、作業者に対して望む挙動を指示者が全て口頭で説明することは面倒であり、指示者が望むことが十分に伝わらない場合もある。
 そこで、本開示では、遠隔作業支援の利便性をさらに高めることが可能な情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部を備える、情報処理装置を提案する。
 本開示によれば、プロセッサが、遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行うことを含む、情報処理方法を提案する。
 本開示によれば、コンピュータを、遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部として機能させる、プログラムを提案する。
本開示の一実施形態による遠隔作業支援システムの概要について説明する図である。 本実施形態による情報処理装置の構成の一例を示すブロック図である。 本実施形態による本実施形態による遠隔作業支援システムの動作処理の流れの一例を示すシーケンス図である。 本実施形態による指示者が見たい方向に作業者の顔向きを誘導するガイド出力について説明する図である。 本実施形態による本実施形態によるガイド表示の一例を示す図である。 本実施形態による本実施形態によるガイド表示の一例を示す図である。 本実施形態による本実施形態によるガイド表示の一例を示す図である。 本実施形態による本実施形態によるガイド表示の一例を示す図である。 本実施形態による指示者の意図に対応する表示変更について説明する図である。 本実施形態による指示者の意図に対応する一部拡大画像の表示について説明する図である。 本実施形態による指示者による作業支援として書き込まれる描画情報の表示変更について説明する図である。 本実施形態による表示範囲外に対する指示におけるガイド出力の一例について説明する図である。 本実施形態による視野範囲外に対する指示におけるガイド出力の一例について説明する図である。 本実施形態による指示語に対応する作業者画像の表示処理の流れの一例を示すシーケンス図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、説明は以下の順序で行うものとする。
 1.本開示の一実施形態による遠隔作業支援システムの概要
 2.情報処理装置10の構成例
 3.動作処理
 4.指示者の意図に対応するガイドについて
  4-1.指示者の意図推定とガイド出力
  4-2.ガイド表示例
 5.指示者の意図に対応する表示変更について
  5-1.拡大画像の表示
  5-2.描画情報の表示変更
  5-3.対象画像の拡大
 6.応用例
  6-1.システムによる作業支援の補助および通信負担の減少
  6-2.表示範囲外に対する指示におけるガイド出力
  6-3.指示語に対応する作業者画像の表示
 7.補足
 <<1.本開示の一実施形態による遠隔作業支援システムの概要>>
 図1は、本開示の一実施形態による遠隔作業支援システムの概要について説明する図である。図1に示すように、本実施形態による遠隔作業支援システムは、作業者に対して遠隔作業支援を行う指示者(ユーザA)に用いられる指示者用装置10A(情報処理装置10の一例)と、作業者(ユーザB)に用いられる作業者用装置10B(情報処理装置10の一例)と、を含む。各装置は、表示部150(150A、150B)を含み、また、表示部150には、表示部150に対向するユーザ(指示者、作業者)を撮像するカメラ142(142A、142B)が設置されている。なおカメラ142の設置位置は図1に示す例に特に限定しない。
 指示者用装置10Aおよび作業者用装置10Bは、ネットワークを介して通信接続し、データの送受信を行う。一例として、音声データと撮像画像の送受信が行われる。ネットワークは、専用回線であってもよいし、一般回線(公衆回線)であってもよい。指示者は、表示部150Aに映る作業者の映像を見ながら遠隔作業支援を行うことができ、また、作業者は、表示部150Bに映る指示者の手本を見ながら作業支援を受けることもできる。
 本明細書において、遠隔とは、少なくとも異なる場所であることを意味し、必ずしも遠く離れた場所には限定されない。指示者用装置10Aおよび作業者用装置10Bは、少なくとも異なる場所に位置する。
 また、本明細書において、作業とは、工場や点検等の現場作業の他、ヘアメイク指導、スポーツ指導、手芸レッスン、手術等の医療行為等、広く実技指導を含んでもよい。以下の説明では、一例としてメイク指導の支援について説明する。
 (課題の整理)
 ここで、指示者が、作業者に対して望む挙動を全て口頭で説明することは面倒であり、また、口頭で説明を行っても指示者が望むことが作業者に十分に伝わらない場合もある。例えば、指示者は作業者のカメラを直接動かすことができないため、作業者の状況を所望の角度から見て指示を出すことが困難である。また、指示者が画角に関する意図を作業者に伝える場合、そのやり取りが複雑化し、本来の作業支援を阻害してしまう場合もある。また、遠隔作業支援はネットワーク遅延の影響も受けやすく、互いの映像を見ながら適切に意図を伝えることは難しい。
 そこで、本開示による遠隔作業支援システムでは、遠隔作業支援の利便性をさらに高めることを可能とする。
 より具体的には、例えば図1に示すように、指示者用装置10Aにおいて、指示者の動作情報に基づいてユーザの意図を推定し、意図情報を作業者用装置10Bに送信する。作業者用装置10Bでは、意図に対応するガイド情報を出力したり、表示変更したりすることで、指示者の意図を作業者に適切に伝えることが可能となり、指示者の負担も減り、遠隔作業支援の利便性をさらに高めることができる。また、指示者用装置10Aにおいて、指示者の意図に対応する表示変更を行うことで、遠隔作業支援の利便性をさらに高めることも可能である。指示者の意図推定処理は、指示者用装置10Aにおいて行われることに限定されず、指示者の動作情報を作業者用装置10Bに送信して作業者用装置10Bで行ってもよい。
 なお、さらに作業者用装置10Bにおいて作業者の意図を推定し、意図情報を指示者用装置10Aに送信してもよい。指示者用装置10Aでは、意図に対応するガイド情報を出力したり、表示変更したりすることで、作業者の意図を指示者に適切に伝えることも可能となる。
 以上、本開示の一実施形態による遠隔作業支援システムの概要について説明した。続いて、本実施形態による遠隔作業支援システムに含まれる情報処理装置10の具体的な構成について図面を参照して説明する。
 <<2.情報処理装置10の構成例>>
 本実施形態による指示者用装置10Aおよび作業者用装置10Bは、情報処理装置10の一例である。ここでは、図2を参照して情報処理装置10の構成について説明する。なお、情報処理装置10は、例えばPC(パーソナルコンピュータ)、スマートフォン、タブレット端末、視界全体を覆う非透過型のHMD(Head Mounted Display)、透過型のメガネ型デバイス、またはプロジェクター等により実現され得る。
 図2は、本実施形態による情報処理装置10の構成の一例を示すブロック図である。図2に示すように、情報処理装置10は、通信部110、制御部120、操作部130、センサ部140、表示部150、スピーカ160、および記憶部170を有する。
 (通信部110)
 通信部110は、有線または無線により、外部装置と通信接続してデータの送受信を行う。通信部110は、例えば有線/無線LAN(Local Area Network)、Wi-Fi(登録商標)、Bluetooth(登録商標)、赤外線通信、または携帯通信網(4G(第4世代の移動体通信方式)、5G(第5世代の移動体通信方式))等を用いた通信を行い得る。例えば指示者用装置10Aと作業者用装置10Bは、通信部110からネットワークを介してデータの送受信を行い得る。
 本実施形態では、通信部110により、「映像データ(撮像画像)」、「音声データ」、「意図情報」が送信される。映像データおよび音声データは、既存のオンラインツールを介して送信してもよいし、専用の回線で送信してもよい。意図情報は、映像データおよび音声データとは異なる通信手段で送信してもよいし、専用の回線で送信してもよい。
 (操作部130)
 操作部130は、ユーザによる操作入力を受付け、入力情報を制御部120に出力する。操作部130は、例えばタッチセンサ、圧力センサ、若しくは近接センサであってもよい。あるいは、操作部130は、ボタン、スイッチ、およびレバーなど、物理的構成であってもよい。本実施形態による操作部130は、例えば表示部150に設けられるタッチパネルであってもよい。タッチパネルは、ユーザの指やタッチペンといった操作体による操作入力を受け付ける。また、操作部130は、表示部150に対してタッチ入力する際に用いられる電子ペンであってもよい。電子ペンからは、電子ペンのモーションデータ(加速度、角速度、方向等)がさらに入力されてもよい。
 (センサ部140)
 センサ部140は、ユーザや、周囲の状況をセンシングする機能を有する。センサ部140は、例えば、人感センサ141、カメラ142、マイク(マイクロホン)143、デプスセンサ144等であってもよい。センサ部140は、1以上のセンサを含む。さらに、センサ部140は、ユーザの視線を検出する視線検出センサ(赤外線センサ)を含んでもよい。なおセンサ部は、非ウェアラブルなデバイス(ユーザの周囲に設置されるデバイス)であってもよいし、ウェアラブルなデバイス(ユーザに装着されるデバイス)であってもよい。また、これらが混在していてもよい。
 (表示部150)
 表示部150は、画像を表示する機能を有する。例えば表示部150は、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(Electro Luminescence)ディスプレイなどの表示パネルであってもよい。
 (スピーカ160)
 スピーカ160は、制御部120の制御に従って、音声データを出力する。
 (制御部120)
 制御部120は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置10内の動作全般を制御する。制御部120は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部120は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 本実施形態による制御部120は、カメラ142で撮像したユーザ(指示者/作業者)の撮像画像(メイク支援の場合、顔を撮像)およびマイク143で収音したユーザの音声データを、通信部110から、相手側装置(作業者用装置10B/指示者用装置10A)に送信する制御を行う。また、制御部120は、相手側装置から受信した撮像画像を表示部150に表示し、音声データをスピーカ160から出力する制御を行う。
 また、制御部120は、ユーザ情報認識部121、操作体認識部122、受信画像解析部123、優先情報検出部124、意図推定部125、ガイド生成部126、および表示変更部127としても機能し得る。
 ユーザ情報認識部121は、センサ部140からのセンシングデータに基づいて、ユーザ情報を認識する。ユーザ情報とは、ユーザ(指示者/作業者)に関する様々な情報であって、例えばユーザの状態が含まれる。ユーザ情報認識部121は、例えば人感センサ141により、情報処理装置10の周辺にユーザが居るか否かを認識する。また、ユーザ情報認識部121は、表示部150に設けられたカメラ142により撮像されたユーザの撮像画像を解析し、表示部150に対するユーザの顔向き、視線、位置(距離)等を認識する。また、ユーザ情報認識部121は、ユーザの撮像画像を解析し、ユーザの姿勢、身体の動き(手の動き等)、把持してる道具等を認識し得る。また、ユーザ情報認識部121は、表示部150に設置されたデプスセンサ144からのデプスデータに基づいて、表示部150とユーザとの距離を認識してもよい
 操作体認識部122は、センサ部140からのセンシングデータに基づいて、操作体を認識する。ここでは、操作体として電子ペンを想定する。操作体認識部122は、電子ペンに設けられた各種センサ(加速度センサ、IMU等)から受信した情報や、表示部150に設置された各種センサ(カメラ、デプスセンサ等)から取得した情報から、操作体の位置、姿勢、向き等を認識する。
 受信画像解析部123は、相手側装置から受信した受信画像を解析し、受信画像に映る人物の状態を認識する。例えば、指示者用装置10Aに設けられる受信画像解析部123の場合、作業者用装置10Bから受信した撮像画像を解析し、撮像画像に映る作業者の状態を認識する。また、作業者用装置10Bに設けられる受信画像解析部123の場合、指示者用装置10Aから受信した撮像画像を解析し、撮像画像に映る指示者の状態を認識する。
 優先情報検出部124は、ユーザの動作情報に基づいて、優先情報を検出する。優先情報とは、予め既定された、優先的に処理すべき指示である。具体的には、意図推定の処理や意図情報の送信より優先して優先情報を相手側装置に送信する。相手側装置では、意図に対応するガイドの出力よりも優先して優先情報に応じた出力制御を行う。優先情報を優先的に送信することで、遅延を低減し、遅延により作業者が指示者の意図しない行動を取ってしまうことを防ぐ。優先情報として、例えば、キャンセル、作業の停止指示、または不具合発生等の重要な情報が挙げられる。
 「キャンセル」とは、例えば指示者が誤った指示を出した場合や、意図推定部125が推定した意図が間違っていた場合に、作業者への指示の送信キャンセルや、作業者に送信されてしまった指示のキャンセルを通知する処理である。意図推定部125が推定した意図が、作業者に通知される前に指示者に確認のため表示される場合、指示者は、意図が間違っていればキャンセルボタンをタップしてキャンセルすることができる。「作業の停止指示」とは、相手に動作の停止を求める旨を通知する処理である。例えば音声に遅延が発生している場合にも、優先情報の送信により、「作業の停止指示」をより早く相手に伝えることができる。「不具合発生」とは、例えば指示者/作業者の映像が一定時間以上変化していない場合に、装置や通信等の不具合が発生した可能性が高いことを相手に通知する処理である。このように、キャンセルや一時停止等の重要度の高い特定の指示を、映像や音声とは別の手段で伝達することで、より円滑なコミュニケーションを実現することができる。
 優先情報の検出は、例えば、指示者の撮像画像の解析結果から、優先情報として予め登録されたポーズやジェスチャを認識することで行われる。また、表示部150に表示された、優先情報を示すUIボタン(キャンセルボタン、作業停止指示ボタン等)のタップを認識することで行われる。
 優先情報検出部124により検出された優先情報は、通信部110により、相手側装置に送信される。なお、優先情報は、意図推定部125による意図推定処理や、推定結果(意図情報)の送信よりも優先的に行われる。これにより、重要度の高い特定の指示については、いち早く対応することができる。
 意図推定部125は、ユーザの動作情報と、相手ユーザの状態(ユーザが見ている映像から認識される相手ユーザの状態)とに基づいて、ユーザの意図を推定する。一例として、意図推定部125は、指示者の動作情報と、指示者が視聴している作業者の状態とに基づいて、指示者の意図を推定する。指示者の動作情報は、センサ部140からのセンシングデータに基づいてユーザ情報認識部121が認識した結果から得られる。また、指示者の動作情報は、操作体認識部122により認識された、指示者が用いる操作体の情報から得てもよい。また、作業者の状態は、受信画像解析部123の解析結果から得られる。作業者の状態としては、例えば、作業者が作業中か、手を止めているか、手を止めて指示者(作業者側に映る指示者の映像)に注目しているか等が挙げられる。
 より具体的には、指示者の動作情報とは、少なくとも作業者の撮像画像(以下、作業者画像とも称する)が表示される表示部150に対する指示者の視線、姿勢、顔向き、または顔の位置の少なくともいずれかに関する情報である。または、指示者の動作情報は、少なくとも作業者画像が表示される表示部150に対して操作体(指、タッチペン、電子ペン等)により行われる指示入力(タッチ操作、タッチ位置等)の情報であってもよい。作業者の状態は、作業者用装置10Bから受信した作業者画像の解析結果から得られる。
 意図推定部125は、予め登録された意図推定用の情報(例えば、指示者がどのような動作を行って、作業者がどのような状態の場合に、どのような意図であるかを対応付けたパターン等)を用いて、指示者の意図を推定してもよい。また、意図推定部125は、作業支援の履歴データに基づく機械学習の結果を用いて、指示者の意図を推定(算出)してもよい。また、意図推定部125は、推定した意図を指示者に呈示し、指示者からのフィードバックを得て、機械学習してもよい。これにより、意図推定の精度がより高まる。また、意図推定部125は、指示者の直前の動作も考慮して意図を推定してもよい。以上、意図推定の方法について具体的に説明したが、本実施形態による意図推定の方法はこれに限定されない。
 推定される意図としては、例えば、顔向きの変更、映像の拡大/縮小、画面(カメラ)から離れて/近付いて欲しい(位置の変更)、指示/作業領域の拡大等が挙げられる。
 制御部120は、意図推定部125により推定された意図の情報(意図情報)を、通信部110により相手側装置に送信する。また、制御部120は、意図の内容がユーザ側の装置で対応可能な場合は、ユーザ側の装置で対応を行い(後述する表示変更)、相手側装置には送信しない。
 ここで、生成される優先情報や意図情報のデータ型(データ項目)の一例を、下記表1に示す。データ型には、タイムスタンプ、優先伝送フラグ、送信元、出力モーダル、優先/意図内容などが含まれる。タイムスタンプとは、データが記録された時刻である。優先送信フラグとは、情報の送信優先度である。送信元とは、指示者、作業者のいずれであるかを示す。出力モーダルとは、情報を受信した側が出力する際のモーダルを示す。優先/意図内容とは、優先情報/意図情報の内容を示す。下記表1では、意図情報の一例として、意図している動作(回転、拡大縮小)、動作方向(上下左右前後、拡縮の指定)、動作の程度(角度、拡縮率等の変化量)にそれぞれフラグを割り当て示してもよい(意図情報を3項の組み合わせで表現)。
Figure JPOXMLDOC01-appb-T000001
 以上説明したデータ型は一例であって、本実施形態はこれに限定されない。例えば、出力モーダルが規定の場合は、出力モーダルの情報が含まれていなくてもよい。また、それぞれに割り当てられる値の規則については、使用デバイスによって変更してもよい。
 ガイド生成部126は、推定された指示者の意図に応じて、ガイドを生成する。指示者の意図は、相手側装置から通信により取得してもよいし、相手側装置から受信した情報に基づいて推定することで取得してもよい。ガイドとは、ユーザの状態を、相手側からの意図に沿った状態に誘導する情報である。例えば作業者用装置10Bに設けられるガイド生成部126は、指示者用装置10Aから送信された意図情報に応じて、作業者の状態を意図に沿った状態に誘導するガイドを生成する。例えば、意図に応じて、少なくとも指示者画像が表示される表示部150Bに対する作業者の顔向き、姿勢、または位置の少なくともいずれかを誘導する(指示者が望む顔向き、姿勢、位置に誘導する)ガイドが生成される。生成されるガイドは、表示データ(視覚情報)であってもよいし、音声データ(聴覚情報)であってもよいし、振動データ(触覚情報)であってもよい。表1に示すように、出力モーダルが指定されている場合は、指定された出力モーダルの形式で生成する。制御部120は、ガイド生成部126により生成されたガイドを、表示部150やスピーカ160から出力する。ガイドの生成例や出力例については、後述する。
 表示変更部127は、推定された意図に応じて、表示部150の表示を変更する。意図に応じた出力制御の一つとして、上述したガイドの出力が挙げられるが、その他の例として、表示変更が挙げられる。例えば、表示部150において、画面を二分割して作業者画像と指示者画像(指示者の撮像画像)を並べて表示する場合をデフォルトとしていた際に、作業者画像を拡大して欲しい意図に応じて、作業者画像を、指示者画像よりも大きく表示するよう表示を変更する制御を行う。かかる意図は、指示者が作業者画像を注視している場合や、画面に近付いて作業者画像を見ている場合等に、推定され得る。この場合、指示者用装置10Aの表示変更部127は、指示者用装置10Aの表示部150に表示される作業者画像を拡大する表示制御を行う。このような表示変更の例については、さらに後述する。
 (記憶部170)
 記憶部170は、制御部120の処理に用いられるプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)により実現される。例えば、ユーザや操作体の認識に用いられる情報、意図推定に用いられる情報、優先情報検出に用いられる情報、ガイド生成に用いられる情報等が、記憶部170に記憶される。認識に用いられる情報や、意図推定に用いられる情報は、機械学習データであってもよい。記憶部170には、予め生成された機械学習データが記憶されていてもよい。
 以上、情報処理装置10の構成について具体的に説明したが、本開示による情報処理装置10の構成は図2に示す例に限定されない。例えば、情報処理装置10は、図2に示す全ての構成を有していなくともよい。また、情報処理装置10は、複数の装置により実現されてもよい。また、図2を参照して説明した情報処理装置10の構成は、指示者用装置10Aおよび作業者用装置10Bのいずれにも適用される構成である。ただし、指示者用装置10Aおよび作業者用装置10Bは、同じ構成であってもよいし、制御部120の少なくとも一部の構成が異なる構成であってもよい。
 また、制御部120は、センサ部140のセンシングデータが、ユーザと操作体のいずれについてのセンシングデータであるかを判定した上で、センシングデータを、ユーザ情報認識部121または操作体認識部122に出力してもよい。判定に必要となるデータは、記憶部170に事前に保存されている。また、制御部120は、判定結果や認識結果についてユーザの確認を求めることで(フィードバックの実施)、学習し、判定や認識の精度をより高めることも可能である。
 また、意図推定部125は、ユーザ/操作体の認識結果に加えて、環境情報を参照して意図を推定してもよい。環境情報とは、例えば、作業/指示空間の広さ、明るさ、環境音の大きさ等が挙げられる。制御部120は、センサ部140(カメラ142、マイク143、デプスセンサ144、照度センサ等)からのセンシングデータに基づいて、作業/指示空間の環境を認識し得る。
 <<3.動作処理>>
 次に、本実施形態による遠隔作業支援システムの動作処理について図面を用いて具体的に説明する。
 図3は、本実施形態による遠隔作業支援システムの動作処理の流れの一例を示すシーケンス図である。本説明において、指示者用装置10Aに設けられる構成については符号の末尾にAを付記し、作業者用装置10Bに設けられる構成については符号の末尾にBを付記する。
 図3に示すように、まず、指示者用装置10Aと作業者用装置10Bは、各々センサ部140(140A、140B)によりセンシングデータを取得し(ステップS103a、S103b)、センシングデータのうち撮像画像(指示者画像、作業者画像)を互いに送受信する(ステップS106)。なお、ここでは記載していないが、センシングデータのうち音声データも互いに送受信する。また、ここでは記載していないが、各装置では、受信した撮像画像および音声データを出力する制御を行う。また、各装置では、受信した相手ユーザの撮像画像と、撮像したユーザの撮像画像を並べて同時に表示してもよい。かかる撮像画像および音声データの送受信は、作業支援中、継続的に行われる。
 次に、各装置では、各種データの認識処理を行う(ステップS109a、S109b)。具体的には、指示者用装置10Aでは、ユーザ情報認識部121Aにより指示者の状態を認識したり、操作体認識部122Aにより操作体の状態を認識したり、受信画像解析部123Aにより受信画像(作業者画像)に映る作業者の状態を認識したりする。一方、作業者用装置10Bでは、ユーザ情報認識部121Bにより作業者の状態を認識する。
 次いで、指示者用装置10Aは、指示者の動作情報(指示者の状態認識の結果や、操作体の状態認識の結果)から優先情報が検出された場合(ステップS112/Yes)、優先情報を作業者用装置10Bに送信する(ステップS115)。後述する意図推定より優先して優先情報の検出、送信を行うことで、より早く、指示者の指示に対応することが可能となる。
 一方、作業者用装置10Bでは、認識した作業者の状態を記憶する(ステップS118)。
 次に、指示者用装置10Aから優先情報を受信した場合(ステップS121/Yes)、制御部120Aは、優先情報に対応付けられる既定のガイドを表示する制御を行う(ステップS124)。既定のガイドとは、例えばキャンセル通知、一時停止指示、装置の不具合等を示す警告画像であってもよい。制御部120Aは、指示者画像と作業者画像が表示されている表示部140Aにおいて、警告画像を表示する。警告画像は、テキストのみであってもよいし、図形が含まれていてもよいし、所定のアイコンのみであってもよい。
 続いて、指示者用装置10Aでは、意図推定部125により、指示者の動作情報(指示者の状態認識の結果や、操作体の状態認識の結果)と、作業者の状態とに基づいて意図推定が行われる(ステップS127)。
 次に、推定された意図が、指示者側の表示変更で対応可能である場合(ステップS130/Yes)、制御部120Aは、表示部150Aの表示を、意図に応じて変更する制御を行う(ステップS133)。例えば制御部120Aは、作業者の作業に着目したいという意図の場合、表示部150Aに表示される作業者画像をより大きく表示する制御を行う。
 一方、指示者側の表示変更では対応できない(作業者に動いて貰わないとならない)場合(ステップS130/No)、制御部120Aは、意図情報を作業者用装置10Bに送信する(ステップS136)。かかる意図情報には、例えば作業者に所望する動作(顔の回転、顔の位置の変更等)に関する情報が含まれる。
 次いで、作業者用装置10Bのガイド生成部126Bは、指示者の意図情報を受信した場合(ステップS142/Yes)、意図に基づき、作業者の状態に応じてガイドを生成する(ステップS145)。具体的には、ガイド生成部126Bは、作業者の状態に適した出力モーダルで、意図に対応するガイドを生成してもよい。例えばガイド生成部126Bは、作業者が画面に着目している際は視覚情報でガイドを生成し、作業者が画面に着目していない際は音声情報でガイドを生成する。なお、ここでは一例として、作業者の状態に応じてガイド出力における出力モーダルを選択する場合について説明したが、本実施形態はこれに限定されない。例えば指示者用装置10Aから指定されている場合は、それに従ってもよい(表1の「出力モーダル」参照)。また、既定の出力モーダルとして視覚情報が設定されていてもよい。この際、作業者が画面に着目していない場合は、画面に注目するよう警告音をさらに出力するようにしてもよい。また、ガイド生成部126Aは、ガイドの内容やガイドの表示方法を、作業者の状態に適した形態にしてもよい。例えば、意図情報が、「真横を向いて欲しい」といった意図の場合に、作業者が正面向きであれば、「真横を向いてください」といったガイドを生成し、作業者が少し横を向いていれば、「あと少し横を向いてください」といったガイドを生成する。このように、作業者の状態を考慮することで、より適切なガイドを生成し得る。また、作業者の状態に適した形態として、作業者の視野範囲にガイドを表示したり、ユーザの顔画像に重畳表示したりする。
 そして、制御部120Bは、生成されたガイドを出力する(ステップS148)。なお、制御部120Bは、作業者の状態を継続的に認識し、ガイド表示が不要になった場合は、ガイド表示を削除することで、映像の視認性を向上させる。
 (変形例)
 図3を参照して説明した動作処理では、指示者の意図推定を指示者用装置10Aで行っているが、本実施形態はこれに限定されない。指示者の意図推定は、作業者用装置10Bで行われてもよい。具体的には、指示者用装置10Aが指示者の意図推定に用いられる情報を作業者用装置10Bに送信し、作業者用装置10Bの意図推定部125により、指示者の意図を推定する。送信される情報は、指示者の動作情報と、(指示者が見ている映像の)作業者の状態情報であってもよい。若しくは、作業者用装置10Bにおいて、指示者用装置10Aから受信する指示者画像を解析し、指示者の動作情報を検出してもよい。
 また、指示者側での意図推定が困難な場合に、作業者側で意図推定を行ってもよい。指示者側で意図推定が困難な場合とは、例えば指示者用装置10Aでの処理が遅れており、意図推定までに遅延が発生している場合や、通信帯域が確保できず、指示者画像と意図情報の両方を作業者用装置10Bに送信することが困難な場合等である。
 <<4.指示者の意図に対応するガイドについて>>
 続いて、本実施形態によるガイドについて、より具体的に説明する。
 <4-1.指示者の意図推定とガイド出力>
 一例として、指示者が見たい方向に作業者の顔向きを誘導するガイド出力について、図4を参照して説明する。図4では、指示者と作業者の、各表示部150(150A、150B)に対する顔向きを俯瞰で示す。例えばメイク作業の支援の場合に、指示者は、作業者の顔を所望の角度から見たい場合があるが、言葉で説明することは困難であり、やり取りが複雑になる場合がある。そこで、指示者が実際に自身の顔向きを変えた際に、顔向き指示の意図と推定し、作業者に対して同じように顔向きを変えるようガイドを出力することを可能とする。
 図4に示すように、まず、指示者側(指示者用装置10A)では、指示者の顔向きが一定角度以上変化し、さらにこの状態で一定時間経過した場合、作業者に同じように回転して欲しい意図(回転の指示)と推定される。指示者用装置10Aは、指示者が正面(表示部150の方向)を向いた時の回転角を0として、指示者の顔の回転角度を算出し、この角度を作業者に求める顔向きとする。
 推定された意図情報は、作業者側(作業者用装置10B)に送信され、作業者側において、かかる意図情報に基づいて、指示者と同じ角度回転させるガイドが出力される。この際、作業者用装置10Bは、作業者の現在の顔の向き(回転角度)を考慮し、作業者の状態に適したガイドを出力する。作業者用装置10Bは、作業者の顔の回転角度を検出し、指示と一致した場合には、ガイドの出力を終了する。
 なお、顔の回転角度の指示(意図)では、pitchおよびyawに適応し、rollには適応しない等、作業に適した制約を設けてもよい。
 (意図の変化によるガイド調整)
 本システムでは、指示者側で意図の変化があった場合に、作業者側で、既に出力しているガイドを調整(更新)してもよい。例えば図4を参照して説明したように、指示者が実際に横を向くことで作業者に対して顔向きの指示を出した際、指示者が正面に向き直して作業者が要求通り横を向いているか確認したい場合がある。一方で、作業者の顔向きをさらに横に向かせたり、上に向かせたり、若しくは少し戻して欲しい場合もある。本実施形態による指示者用装置10Aの意図推定部125Aでは、このような指示者の意図もより精度良く推定する。具体的には、意図推定部125Aは、指示者の意図を推定する際、指示者の直前の動作等を考慮することで、推定の精度を高め得る。
 ここでは、一例として、指示者が顔向きを右向きから正面に変化させた場合について説明する。
 意図推定部125Aは、例えば、指示者の直前(顔向きを右向きから正面に変化させる直前)の顔の動きを考慮して意図を推定する。例えば「顔向きを変化」させていた場合、指示角度の微調整中の意図と推定し、新たな角度を意図推定として作業者側に送信し、作業者側で出力されていたガイドを再調整する(顔向きの指示角度を更新)。一方、直前の動作で「顔向きを一定時間停止」させていた場合、角度の指示は終了し、画面をよく見ようとする意図と推定し、意図情報の送信は行わない(作業者側でのガイド変更なし)。
 また、意図推定部125Aは、例えば、指示者の視線の動を考慮して意図を推定する。例えば、指示者が顔向きを右向きから正面に変化させた際に、指示者の視線が、「作業者の特定パーツを注視」していた場合、特定パーツ(頬等)がよく見えるよう(作業者の顔の回転が足りず、特定パーツが見え難いため)顔の角度の微調整を望む意図と推定し、さらに回転するよう指示する意図を作業者側に送信し、作業者側で出力されていたガイドを再調整する(もっと顔を右に向けるよう指示するガイドに更新)。一方、指示者の視線が、「一点に定まってない」場合、角度の指示は終了し、(作業者の顔が映る)画面全体を正面から見たいという意図と推定し、意図情報の送信は行わない(作業者側でのガイド変更なし)。
 また、意図推定部125Aは、例えば、指示者の顔と画面(表示部150A)との距離を考慮して意図を推定する。例えば、指示者が顔向きを右向きから正面に変化させた際における、指示者の顔と画面との距離が「一定値未満」の場合、顔を画面に近付けて見ており(作業者の顔の回転が足りず、望むパーツが見え難い)、まだ顔の角度の微調整を望む意図と推定し、さらに回転するよう指示する意図を作業者側に送信し、作業者側で出力されていたガイドを再調整する(もっと顔を右に向けるよう指示するガイドに更新)。一方、指示者の顔と画面との距離が「一定値以上」の場合、角度の指示は終了し、(作業者の顔が映る)画面全体を正面から見たいという意図と推定し、意図情報の送信は行わない(作業者側でのガイド変更なし)。
 また、意図推定部125Aは、例えば、作業者の状態を考慮して意図を推定する。例えば、指示者が顔向きを右向きから正面に変化させた際における、作業者の状態が「顔の角度調整中」の場合、まだ顔の角度の微調整を望む意図と推定し、回転を続けるよう指示する意図を作業者側に送信し、作業者側で出力されていたガイドを再調整する(そのまま顔を右に向けるよう指示するガイドに更新)。一方、作業者の状態が「顔の角度調整後」の場合、角度の指示は終了し、(作業者の顔が映る)画面全体を正面から見たいという意図と推定し、意図情報の送信は行わない(作業者側でのガイド変更なし)。
  <4-2.ガイド表示例>
 続いて、本実施形態によるガイド表示例について説明する。
 図5~図8は、本実施形態によるガイド表示の一例を示す図である。
 例えば、顔を回転させる指示のガイドの場合、図5のガイド表示30に示すように、作業者の現在の状態(現状)を示す顔アイコンと、指示者が所望する状態を示す顔アイコンを表示してもよい。これにより、作業者は、現在の状態からどの程度顔を回転させれば良いかを直感的に把握できる。なお、顔アイコンは、図5に示すように俯瞰の顔アイコンであってもよいし、(鏡像を模した)正面の顔アイコンであってもよい。
 また、図6のガイド表示31に示すように、俯瞰の顔アイコンに、現状の角度と、指示者が所望する角度とを重ねて示してもよい。これにより、より明確な回転方向や回転角が直感的に把握され得る。
 また、図7のガイド表示32a~32cに示すように、作業者の回転角を随時反映させる俯瞰の顔アイコンに、矢印を併せて表示し、指示通りの角度になった場合には、その状態で停止するよう停止指示を示してもよい。これにより、角度の微調整を指示し得る。
 また、図8に示すように、表示部150Bに表示される作業者(ユーザB)の実際の顔映像に、矢印等のガイド表示33を重畳表示してもよい。表示部150Bには、指示者(ユーザA)の顔映像(受信画像)も表示され得る。
 以上、ガイド表示の一例について説明した。なお、ガイド表示は、上述した例(アイコン画像等)に限定されず、例えば、作業者に求める動作の内容を文字、記号等で表示してもよい。
 <<5.指示者の意図に対応する表示変更について>>
 次に、指示者の意図に対応する指示者側/作業者側における表示変更について説明する。
 <5-1.拡大画像の表示>
 指示者用装置10Aは、指示者の意図に対して、表示部150Aの表示変更により対応することも可能である。
 図9は、本実施形態による指示者の意図に対応する表示変更について説明する図である。図9左上に示すように、通常は、指示者(ユーザA)の撮像画像と、作業者(ユーザB)の撮像画像が、表示部150Aにおいて二分割で並べて表示されている。この際に、指示者の意図として、作業者の作業に注視したい意図が検出された場合(例えば指示者の視線と、作業者が作業中の状態であることから推定され得る)、図9右下に示すように、作業者(ユーザB)の撮像画像が大きく表示される制御が表示変更部127Aにより行われ得る。この際、作業者用装置10Bに対しても、作業者の作業に注視したい意図が送信され、作業者用装置10Bにおいて、作業者自身の映像が大きく表示されてもよい。また、ここでは指示者の意図推定について説明したが、作業者用装置10Bにおいて、作業者の意図推定を行い、作業者が自身の作業に注視したい場合(メイク作業の場合、表示部150Bを鏡のように利用していることを想定)、作業者自身の映像が大きく表示するようにしてもよい。
 また、指示者が注目したい映像が複数あることが意図推定により得られた場合、指示者用装置10Aは、作業者の映像のうち、注目したいパーツを切り出して拡大した映像をさらに表示するよう表示変更を行ってもよい。図10は、本実施形態による指示者の意図に対応する一部拡大画像の表示について説明する図である。例えばメイク作業の支援において、指示者がアイメイクといった細部への指示を出したい/出している場合(例えば指示者が作業者の目を注視しており、かつ、作業者が目のメイク作業を行っている場合)、意図推定部125Aにより、細部に指示を出すという指示者の意図が推定される。これに対し、表示変更部127Aは、表示部150Aにおいて、作業者(ユーザB)の撮像画像のうち、目の部分を切り出して拡大した表示画像42を表示する。これにより、細部の視認性が上がり、細部への指示が行い易くなる。また、指示者は、表示画像42に対して、操作体を用いて、作業を支援するための描画情報43(アイシャドウを塗る場所や、アイラインを引く場所を示す描画等)を書き込むことも可能である。描画情報43は、作業者用装置10Bに送信され、表示部150Bで、作業者画像に重畳表示される。描画情報43の表示位置は、作業者画像に映る作業者の顔に追随するよう表示制御されてもよい。なお、意図に応じた拡大画像の表示は、指示者側に限定されない。指示者が注目したい映像が複数あることを示す意図が作業者用装置10Bに送信された場合、表示部150Bにおいて、作業者画像と、指示者が注目するパーツを切り出して拡大した映像を並べて表示する表示変更が行われてもよい。
 また、指示者により細部への指示を所望する意図が推定された場合、かかる意図に応じて、作業者側において、指示者による作業(手本)の詳細に伝わるよう、指示者画像と、指示者画像から対象のパーツを切り出して拡大した映像を並べて表示する表示変更を行ってもよい。
 <5-2.描画情報の表示変更>
 本実施形態では、指示者が、作業者や指示者の撮像画像に作業支援として操作体(指、タッチペン、電子ペン等)で描画を行うことも可能である。かかる描画の情報は、作業者側に送信され、指示者/作業者の撮像画像に同様に重畳表示される。指示者側では、かかる描画情報が書き込まれる工程を、この順で作業してくださいという指示者の意図と推定し得る。作業者側では、受信した描画情報を順次表示すると共に、意図に応じて、追加の描画情報を強調して表示するよう、各描画情報の表示変更を行う。
 図11は、指示者による作業支援として書き込まれる描画情報の表示変更について説明する図である。図11左に示すように、まず作業者側の表示部150Bにおいて、表示部150Bに映る作業者の顔の左側に、指示者により書き込まれた描画情報44a(例えばチークを塗る範囲や、チークブラシを動かす方向を説明する書き込み)が表示される。次いで、図11右に示すように、表示部150Bに映る作業者の顔の右側に、指示者により書き込まれた描画情報44bが表示される。この際、表示変更部127Bは、追加された描画情報44bを強調表示するよう表示制御する。例えば、古い描画情報44a’の色を薄くしたり、点線にさせたり、削除したり等することで、相対的に、新しい描画情報44bを強調表示し得る。また、新しい描画情報44bを点滅させたり、軌跡を描いたり、表示する色を変更したりすることで、強調表示することも可能である。これにより、作業者は、作業工程を直感的に把握して作業を行うことができる。
 <5-3.対象画像の拡大>
 指示者側において、例えば指示者が電子ペンやタッチペンを表示部150Aに向けた状態で表示部150Aに近付いた場合、意図推定部125は、描画情報の書き込みを行う意図と推定し、作業者画像を大きく(例えば実際の頭の大きさに近いサイズで)表示してもよい。これにより、作業の精度を上げることができる。なお、実際の頭の大きさは、作業者の性別や身長から平均値を算出して求めてもよい。
 <<6.応用例>>
 <6-1.システムによる作業支援の補助および通信負担の減少>
 例えば指示者がアイシャドウについて指導する際、指示者は作業者の開眼および閉眼の両方の状態を確認したい旨の意図が推定される。例えば、作業者がアイシャドウの作業を行っており、指示者が作業者の目の領域に注目している場合、このような意図が推定される。その場合、指示者用装置10Aの制御部120Aは、作業者が瞬きまたは目を閉じているタイミングで作業者の目の画像を切り出し、表示部150Aで指示者に表示する。これにより、「目を閉じてください」といった指示を減らすことができる。また、制御部120Aは、切り出した画像に指示者が注目している場合、意図が正しく算出されたと判断し、作業者に対して指示者の現在の作業状況(アイシャドウの作業結果を確認している)を伝えてもよい。
 また、指示者がアイブロウについて指導する際、眉頭・眉山・眉尻には望ましい位置があるが(例えば眉頭は小鼻の上、眉山は黒目の外側、眉尻は口角と目尻の延長線上)、遠隔指導でかかる位置を確認するためには、作業者がしっかりと正面を向く必要がある。しかし、確認の度に作業者が正面を向いたり、これをキープしたりすることは、作業者の負担や、指示者による指示の時間増加に繋がる。そこで、作業者がアイブロウの工程を行っており、指示者が作業者の眉毛の領域に注目している場合、意図推定部125Aは、アイブロウの作業支援を行う旨の意図を推定し、かかる意図に応じて、制御部120Aにより、アイブロウの作業支援の補助情報を抽出する。具体的には、制御部120Aは、作業者の顔画像から顔のパーツを認識し、眉頭・眉山・眉尻に適している点をそれぞれ算出して、作業者の顔画像(例えば切り出した目の画像)に重畳して補助情報として表示してもよい。当該補助情報に基づいて、指示者は、さらに独自の作業支援として描画情報(アイブロウのライン等)を書き込むことができる。これにより、作業者に対する顔の角度指示を減らすことができる。
 また、指示者がメイク道具を一定時間以上所持して動かしており、作業者が指示者を注視している場合、意図推定部125Aは、指示者が説明を行うことを望む意図であると推定する。この場合、作業者への指示は不要であるため、意図情報の送信は行わないことで、通信負担を軽減する。
 また、指示者が所望の画角等を伝達しているにも関わらず、作業者が一定時間以上指示と異なる行動をしている場合、制御部120Aは、通信遅延または装置の不具合が発生していると判断し、指示者へ指示の入力の一時停止を促し、指示者の意図情報の送信を一時停止する。これにより、通信や装置への負荷を軽減する。
 <6-2.表示範囲外に対する指示におけるガイド出力>
 指示者の意図が、作業者用装置10Bの表示部150Bに表示される作業者画像の表示範囲外に対する指示の場合、指示について視覚的にガイド出力することは困難であるため、その際は例えば音声を用いて指示を行う。図12は、本実施形態による表示範囲外に対する指示におけるガイド出力の一例について説明する図である。
 図12に示すように、指示者は作業者の口元に指示を出したい/出したが、作業者側の表示部150Bでは、作業者の口元が画角に入っておらず、口元への指示を視覚的にガイド出力できない。この場合、意図推定部125Bは、音声によるガイドを生成し、出力する。具体的には、警告音を出してもよいし、「口元を映してください」、「カメラから離れてください」、「後ろに下がってください」等のアナウンスを流してもよい。
 なお、指示者側では、例えば作業者画像を表示する表示領域のアスペクト比が作業者側と異なるため作業者の口元が見えており、作業者側では見えていない口元に指示が出せることが想定される(口元に指示を出すことが意図推定される)。若しくは、指示者側でも同様に作業者の口元が映っていない場合でもあっても、例えば画面下端をタッチすることで、表示範囲外に対して指示を出したい意図を伝えることができる(表示範囲外に指示を出したいことが意図推定される)。また、指示者側では、表示部150Aに表示される画角拡大ボタンをタップされた場合に、表示範囲外に対して指示を出したい意図を推定し、作業者側に送信してもよい。
 <6-3.視野範囲外に対する指示におけるガイド出力>
 また、例えばメイク作業支援において、作業者が表示部150Bに映る自身の撮像画像を鏡のように用いて作業している場合に、作業者が画面に近付き過ぎたり、作業に集中したりすることで、作業者の視野範囲が狭くなる場合がある。視野範囲は、作業者の視線方向と、作業者の位置(表示部150Bとの距離)に基づいて算出され得る。また、表示部150Bが大画面の場合にも、視野範囲外の領域が生じやすい。
 このような場合に、視野範囲外に対する指示のガイド出力は、音声を用いたり、視野範囲外へ視線誘導する表示を視野範囲内に出すことが考え得る。図13は、本実施形態による視野範囲外に対する指示におけるガイド出力の一例について説明する図である。図13に示すように、作業者の視野範囲外に指示が出ている場合、制御部120Bは、ガイド出力として、警告音を出力したり、表示部150Bにおける視野範囲46内に、視線を誘導する表示48を出したりする。これにより、視野範囲46外に表示される指示者による指示(ここでは、一例として描画情報44)に気付かせることができる。
 なお、表示部150Bに表示される作業者の顔画像(撮像映像)に指示者の映像が重畳して指示者に書き込まれた指示(描画情報)等が見えない場合、作業者は顔を水平方向に移動等して、指示者の映像が邪魔にならない位置に移動してもよい。なお、描画情報は、作業者の顔画像に追随する。また、作業者は任意に指示者の映像の表示位置や表示サイズを変更し得る(例えばタッチ操作(ドラッグ&ドロップ、ピンチイン/ピンチアウト等)により)。
 <6-4.指示語に対応する作業者画像の表示>
 例えば、メイク作業の支援において、作業者が自分の顔を指差して位置を指定し、指示者がその様子を見て、「そこに色をつけてください」等と音声により指示を出す時、作業者が指を差すタイミングと、作業者画像を指示者が見るタイミング、さらに指示者からの音声が作業者に届くタイミングに遅延が発生する可能性がある。つまり、指示者が「そこ」と発話したタイミングと、作業者が適切な位置を指差したタイミングがずれてしまい、指示者の意図通りの指示が届かない現象が起きる。これを解消するため、指示者が指示語を発した際に見ていた作業者画像を作業者側に送信することが考え得る。以下、図14を参照して説明する。
 図14は、本実施形態による指示語に対応する作業者画像の表示処理の流れの一例を示すシーケンス図である。図14に示すように、まず、指示者用装置10Aのユーザ情報認識部121Aは、指示者の指示音声を認識する(ステップS203)。
 次に、指示音声の認識結果から指示語が検出された場合(ステップS206)、意図推定部125Aは、指示者の意図を示す情報として作業者画像を保存する(ステップS209)。
 次いで、制御部120Aは、ユーザ情報認識部121Aから、作業者画像を作業者用装置10Bに送信する(ステップS212)。かかる作業者画像は、意図推定の情報の一つとして送信されてもよい。
 一方、作業者用装置10Bでは、カメラ142Bにより作業者の撮像が継続的に行われる(ステップS215)。撮像画像は、継続的に指示者用装置10Aに送信される。
 次に、指示者用装置10Aから、作業者画像を受信した場合(ステップS218/Yes)、ガイド生成部126Bは、受信した作業者画像の作業者の状態と、現在の作業者の状態が一致するか否かを判断する(ステップS221)。受信した作業者画像の作業者の状態は、受信画像解析部123Bにより解析され得る。例えば、作業者が自分の顔のある位置を指差している状態が検出され、現在の作業者の状態と比較される。
 次いで、一致しない場合(ステップS221/No)、意図推定部125Bは、現在の作業者の状態が受信した作業者画像の作業者の状態に一致するよう作業者を誘導するガイドを生成し(ステップS224)、表示出力する(ステップS227)。これにより、指示者の指示音声とタイミングがずれていた場合も、作業者状態を誘導することで(例えば、手で顔を差してください、もっと上を差してください、もっと右を差してください等)、指示者の意図を正確に、また、負担無く伝えることができる。
 <6-5.その他>
 情報処理装置10は、ユーザの検出が不可となった場合、装置や通信への負荷を軽減させるため、認識処理や、画像の送受信を一時的に停止してもよい。
 情報処理装置10は、ユーザ特性や作業環境によって、表示領域や色を変更してもよい。例えば、表示部150がユーザの視野範囲に比べて極端に大きい場合、表示領域を狭くする。また、情報処理装置10は、ガイド表示や描画情報の色が、重畳対象の画像(作業者画像等)の色と同系色の場合は、色を変更して視認性を高める。
 情報処理装置10は、ユーザの動作認識において、特徴的な動作にラベル付けを行うことで、誤検出を減らしてもよい。特徴的な動作とラベルは予め用意され得る。
 情報処理装置10は、ユーザの頭部に装着されるAR/VRデバイス(表示部150の一例)を用いて、ユーザの顔向きを検出したり、ガイド表示を行ってもよい。また、ユーザの顔向きは、赤外光カメラを用いてセンシングされてもよい。また、情報処理装置10は、プロジェクターによりガイド表示を行ってもよい。
 ガイドの表示形態がユーザの望む形でない場合、フィードバックを与え変更できるようにしてもよい。例えば、ユーザが見たい表示領域をガイド表示が遮蔽している場合、ユーザはガイド表示に対して消しゴムで消すような動作をすることで当該ガイド表示を消すことが可能である。
 情報処理装置10は、作業者が指示と異なる挙動をしていることを振動や音声で伝えてもよいし、作業が順調であることを音声で伝えてもよい。
 <<7.補足>>
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、上述した情報処理装置10(指示者用装置10A、作業者用装置10B)に内蔵されるCPU、ROM、およびRAM等のハードウェアに、情報処理装置10の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部を備える、情報処理装置。
(2)
 前記指示者の動作情報は、少なくとも前記作業者の撮像画像が表示される表示部に対する前記指示者の視線、姿勢、顔向き、または顔の位置の少なくともいずれかに関する情報である、前記(1)に記載の情報処理装置。
(3)
 前記指示者の動作情報は、少なくとも前記作業者の撮像画像が表示される表示部に対して操作体により行われる指示入力の情報である、前記(1)に記載の情報処理装置。
(4)
 前記ガイド情報は、現在の作業者の状態を、前記意図に沿った状態に誘導する情報である、前記(1)~(3)のいずれか1項に記載の情報処理装置。
(5)
 前記誘導は、少なくとも前記指示者の撮像画像が表示される表示部に対する前記作業者の顔向き、姿勢、または位置の少なくともいずれかの誘導である、前記(4)に記載の情報処理装置。
(6)
 前記制御部は、前記意図に応じて、前記作業者の現在の状態に適したガイド情報を生成する、前記(4)または(5)に記載の情報処理装置。
(7)
 前記ガイド情報の出力は、表示、音声、振動の少なくともいずれかで行われる、前記(4)~(6)のいずれか1項に記載の情報処理装置。
(8)
 前記制御部は、前記ガイド情報の出力の種類を、前記作業者の状態に応じて選択する、前記(7)に記載の情報処理装置。
(9)
 前記情報処理装置は、前記作業者に用いられる作業者用装置であり、
 前記制御部は、
  前記指示者に用いられる指示者用装置から継続的に受信する前記指示者の撮像画像と、前記作業者を継続的に撮像する撮像画像とを、表示部に表示する処理と、
  前記ガイド情報を、前記表示部に表示される前記作業者の撮像画像に重畳表示する処理と、
を行う、前記(4)~(8)のいずれか1項に記載の情報処理装置。
(10)
 前記指示者の意図は、前記指示者用装置において推定され、前記指示者用装置から前記作業者用装置に送信される、前記(9)に記載の情報処理装置。
(11)
 前記制御部は、前記指示者の動作情報と前記と作業者の状態とに基づいて、前記指示者の意図を推定する処理を行う、前記(9)に記載の情報処理装置。
(12)
 前記制御部は、前記ガイド情報の出力に代えて、前記指示者の意図に応じて、前記表示部に表示される前記作業者の撮像画像または前記指示者の撮像画像に対して表示変更を行う、前記(9)~(11)のいずれか1項に記載の情報処理装置。
(13)
 前記制御部は、前記指示者用装置から規定の優先情報を受信した場合、前記意図に対応するガイド情報よりも優先して、前記優先情報に応じた出力制御を行う、前記(9)~(12)のいずれか1項に記載の情報処理装置。
(14)
 前記優先情報は、キャンセル、作業の停止指示、または不具合発生を示す情報である、前記(13)に記載の情報処理装置。
(15)
 前記制御部は、
  前記指示者用装置から受信した、前記指示者の発話音声に指示語が含まれていた際に前記指示者用装置で表示されていた前記作業者の撮像画像と、現在の作業者の状態とを比較し、前記作業者の状態を、前記撮像画像と同じ状態に誘導するガイド情報を出力する、前記(9)~(14)のいずれか1項に記載の情報処理装置。
(16)
 前記制御部は、
  前記指示者により作成された、前記作業を支援するための描画情報を、前記作業者の撮像画像に重畳表示する処理を行い、
  さらに、追加の描画情報を強調表示するよう制御する、前記(9)~(15)のいずれか1項に記載の情報処理装置。
(17)
 前記制御部は、
  さらに、前記作業者の動作情報に基づいて推定される前記作業者の意図と、前記指示者の状態とに基づいて、前記作業者の意図を推定する、前記(1)~(16)のいずれか1項に記載の情報処理装置。
(18)
 プロセッサが、
 遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行うことを含む、情報処理方法。
(19)
 コンピュータを、
 遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部として機能させる、プログラム。
 10 情報処理装置(10A 指示者用装置、10B 作業者用装置)
  110 通信部
  120 制御部
   121 ユーザ情報認識部
   122 操作体認識部
   123 受信画像解析部
   124 優先情報検出部
   125 意図推定部
   126 ガイド生成部
   127 表示変更部
  130 操作部
  140 センサ部
  150 表示部
  160 スピーカ
  170 記憶部

Claims (19)

  1.  遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部を備える、情報処理装置。
  2.  前記指示者の動作情報は、少なくとも前記作業者の撮像画像が表示される表示部に対する前記指示者の視線、姿勢、顔向き、または顔の位置の少なくともいずれかに関する情報である、請求項1に記載の情報処理装置。
  3.  前記指示者の動作情報は、少なくとも前記作業者の撮像画像が表示される表示部に対して操作体により行われる指示入力の情報である、請求項1に記載の情報処理装置。
  4.  前記ガイド情報は、現在の作業者の状態を、前記意図に沿った状態に誘導する情報である、請求項1に記載の情報処理装置。
  5.  前記誘導は、少なくとも前記指示者の撮像画像が表示される表示部に対する前記作業者の顔向き、姿勢、または位置の少なくともいずれかの誘導である、請求項4に記載の情報処理装置。
  6.  前記制御部は、前記意図に応じて、前記作業者の現在の状態に適したガイド情報を生成する、請求項4に記載の情報処理装置。
  7.  前記ガイド情報の出力は、表示、音声、振動の少なくともいずれかで行われる、請求項4に記載の情報処理装置。
  8.  前記制御部は、前記ガイド情報の出力の種類を、前記作業者の状態に応じて選択する、請求項7に記載の情報処理装置。
  9.  前記情報処理装置は、前記作業者に用いられる作業者用装置であり、
     前記制御部は、
      前記指示者に用いられる指示者用装置から継続的に受信する前記指示者の撮像画像と、前記作業者を継続的に撮像する撮像画像とを、表示部に表示する処理と、
      前記ガイド情報を、前記表示部に表示される前記作業者の撮像画像に重畳表示する処理と、
    を行う、請求項4に記載の情報処理装置。
  10.  前記指示者の意図は、前記指示者用装置において推定され、前記指示者用装置から前記作業者用装置に送信される、請求項9に記載の情報処理装置。
  11.  前記制御部は、前記指示者の動作情報と前記と作業者の状態とに基づいて、前記指示者の意図を推定する処理を行う、請求項9に記載の情報処理装置。
  12.  前記制御部は、前記ガイド情報の出力に代えて、前記指示者の意図に応じて、前記表示部に表示される前記作業者の撮像画像または前記指示者の撮像画像に対して表示変更を行う、請求項9に記載の情報処理装置。
  13.  前記制御部は、前記指示者用装置から規定の優先情報を受信した場合、前記意図に対応するガイド情報よりも優先して、前記優先情報に応じた出力制御を行う、請求項9に記載の情報処理装置。
  14.  前記優先情報は、キャンセル、作業の停止指示、または不具合発生を示す情報である、請求項13に記載の情報処理装置。
  15.  前記制御部は、
      前記指示者用装置から受信した、前記指示者の発話音声に指示語が含まれていた際に前記指示者用装置で表示されていた前記作業者の撮像画像と、現在の作業者の状態とを比較し、前記作業者の状態を、前記撮像画像と同じ状態に誘導するガイド情報を出力する、請求項9に記載の情報処理装置。
  16.  前記制御部は、
      前記指示者により作成された、前記作業を支援するための描画情報を、前記作業者の撮像画像に重畳表示する処理を行い、
      さらに、追加の描画情報を強調表示するよう制御する、請求項9に記載の情報処理装置。
  17.  前記制御部は、
      さらに、前記作業者の動作情報に基づいて推定される前記作業者の意図と、前記指示者の状態とに基づいて、前記作業者の意図を推定する、請求項1に記載の情報処理装置。
  18.  プロセッサが、
     遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行うことを含む、情報処理方法。
  19.  コンピュータを、
     遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部として機能させる、プログラム。
PCT/JP2022/033884 2021-10-26 2022-09-09 情報処理装置、情報処理方法、およびプログラム WO2023074148A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021174693 2021-10-26
JP2021-174693 2021-10-26

Publications (1)

Publication Number Publication Date
WO2023074148A1 true WO2023074148A1 (ja) 2023-05-04

Family

ID=86157713

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/033884 WO2023074148A1 (ja) 2021-10-26 2022-09-09 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2023074148A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014093036A (ja) * 2012-11-06 2014-05-19 Konica Minolta Inc 案内情報表示装置
WO2017068634A1 (ja) * 2015-10-19 2017-04-27 富士通株式会社 作業支援システム、作業支援方法および作業支援プログラム
JP2017091433A (ja) * 2015-11-17 2017-05-25 セイコーエプソン株式会社 頭部装着型表示装置、頭部装着型表示装置を制御する方法、コンピュータープログラム
WO2017119127A1 (ja) * 2016-01-08 2017-07-13 三菱電機株式会社 作業支援装置、作業学習装置及び作業支援システム
JP2019018528A (ja) * 2017-07-21 2019-02-07 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2019212962A (ja) * 2018-05-31 2019-12-12 オリンパス株式会社 作業支援制御装置および作業画像制御装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014093036A (ja) * 2012-11-06 2014-05-19 Konica Minolta Inc 案内情報表示装置
WO2017068634A1 (ja) * 2015-10-19 2017-04-27 富士通株式会社 作業支援システム、作業支援方法および作業支援プログラム
JP2017091433A (ja) * 2015-11-17 2017-05-25 セイコーエプソン株式会社 頭部装着型表示装置、頭部装着型表示装置を制御する方法、コンピュータープログラム
WO2017119127A1 (ja) * 2016-01-08 2017-07-13 三菱電機株式会社 作業支援装置、作業学習装置及び作業支援システム
JP2019018528A (ja) * 2017-07-21 2019-02-07 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2019212962A (ja) * 2018-05-31 2019-12-12 オリンパス株式会社 作業支援制御装置および作業画像制御装置

Similar Documents

Publication Publication Date Title
US10303250B2 (en) Wearable glasses and method of displaying image via the wearable glasses
EP3134892B1 (en) Display of information on a head mounted display
US20210303107A1 (en) Devices, methods, and graphical user interfaces for gaze-based navigation
EP3979234A1 (en) Information processing device, information processing method, and program
JP2017068689A (ja) 視野誘導方法、視野誘導プログラム、及び視野誘導装置
JP6399692B2 (ja) ヘッドマウントディスプレイ、画像表示方法及びプログラム
US11695908B2 (en) Information processing apparatus and information processing method
US10963063B2 (en) Information processing apparatus, information processing method, and program
JP2020019127A (ja) 協調動作支援装置
EP3078019B1 (en) Display of information on a head mounted display
US10444831B2 (en) User-input apparatus, method and program for user-input
JP2017045296A (ja) ヘッドマウントディスプレイシステムを制御するプログラム
WO2023074148A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6587364B2 (ja) プログラムおよび画像表示システム
WO2022208595A1 (ja) ウェアラブル端末装置、プログラムおよび報知方法
WO2023286316A1 (ja) 入力装置、システム、および制御方法
JP7505112B2 (ja) ウェアラブル端末装置、プログラムおよび報知方法
WO2019142817A1 (ja) 画像表示システムおよびそのプログラムを記録した記録媒体
JP7403427B2 (ja) 透過型表示装置、作業支援システム、表示プログラム
WO2023058451A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6876639B2 (ja) 表示制御装置、表示制御方法及びプログラム
JP2018185567A (ja) 情報処理方法、情報処理プログラム、情報処理システムおよび情報処理装置
WO2023095519A1 (ja) 表示制御装置、表示制御方法、及びプログラム
WO2022208600A1 (ja) ウェアラブル端末装置、プログラムおよび表示方法
JP2019128632A (ja) プログラムおよび画像表示システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22886482

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023556173

Country of ref document: JP