WO2024069997A1 - 仮想三次元空間共有システム、仮想三次元空間共有方法、及び仮想三次元空間共有サーバ - Google Patents

仮想三次元空間共有システム、仮想三次元空間共有方法、及び仮想三次元空間共有サーバ Download PDF

Info

Publication number
WO2024069997A1
WO2024069997A1 PCT/JP2023/002119 JP2023002119W WO2024069997A1 WO 2024069997 A1 WO2024069997 A1 WO 2024069997A1 JP 2023002119 W JP2023002119 W JP 2023002119W WO 2024069997 A1 WO2024069997 A1 WO 2024069997A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual
dimensional space
sensor
user
space sharing
Prior art date
Application number
PCT/JP2023/002119
Other languages
English (en)
French (fr)
Inventor
悠介 中村
直仁 池田
良太 川俣
佳一 三谷
佑哉 大木
崇志 沼田
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Publication of WO2024069997A1 publication Critical patent/WO2024069997A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Definitions

  • the present invention relates to a virtual three-dimensional space sharing system.
  • Patent Document 1 JP Patent Publication 2021-47610 A
  • a terminal device measures the three-dimensional shape of the construction object from the images captured by the MR-HMD.
  • the terminal device receives three-dimensional shape data that represents the three-dimensional shape of the construction object, generates an image in which an input field for the inspection results of the construction object is superimposed on the three-dimensional shape of the construction object as seen by the inspector in a virtual space in which the space and coordinate system are common and which is determined based on the three-dimensional shape data and the position and orientation of the VR-HMD worn by the inspector, and displays the image on the VR-HMD.
  • a situation grasping support system is described in which the inspector enters the results of the inspection performed while viewing the three-dimensional shape of the construction object displayed on the VR-HMD into the input field.
  • Patent Document 2 JP Patent Publication 2006-349578 describes a finished form confirmation system that uses a 3D laser scanner to scan the finished form surface and synthesizes 3D point cloud data of the finished form surface into a virtual space constructed in a computer. Next, information about the center line defined in the workshop is synthesized into the virtual space, and a vertical virtual plane is constructed and moved to set a virtual structural surface. The system then describes a finished form confirmation system that changes the display format of the finished form surface, etc., and displays it on the front or back side of the set virtual structural surface on a screen.
  • the purpose of this invention is to share the real-time situation at the site and the actions of multiple people in remote locations in real time.
  • a virtual three-dimensional space sharing system includes a first display device visible to a first user in a first location, a first sensor observing an object and the first user in the first location, a second sensor observing the movement of a second user in a second location different from the first location, and a server collecting data from the first sensor and the second sensor, the server mapping the object and the first user observed by the first sensor and the second user observed by the second sensor in a virtual three-dimensional space, and transmitting information on the movement and position of the second user mapped in the virtual three-dimensional space to the first display device.
  • the real-time situation at the site and the actions of multiple people in remote locations can be shared in real time.
  • FIG. 1 is a diagram illustrating a configuration of an information sharing system according to an embodiment of the present invention.
  • 2 is a block diagram showing the physical configuration of a computer provided in the information sharing system of the present embodiment.
  • FIG. 1 is a logical block diagram of an information sharing system according to an embodiment of the present invention.
  • FIG. 11 is a diagram showing details of on-site sensing processing in this embodiment.
  • FIG. 2 is a diagram illustrating an example of a database configuration according to the present embodiment.
  • 11A and 11B are diagrams showing examples of images displayed on the MR glasses of the present embodiment.
  • 11 is a diagram illustrating an example of an overhead image displayed on an administrator terminal of the present embodiment.
  • FIG. 1 shows the configuration of an information sharing system according to an embodiment of the present invention.
  • the information sharing system of this embodiment has multiple three-dimensional sensors 10, an edge processing device 20 connected to the three-dimensional sensors 10, an MEC server 40 that processes the observation results from the three-dimensional sensors 10, a network 30 that connects the edge processing device 20 to the MEC server 40, MR glasses 50, VR glasses 60, a three-dimensional sensor 61 that observes the wearer of the VR glasses 60, and an edge processing device 62 connected to the three-dimensional sensor 61.
  • the information sharing system may also have an administrator terminal 70.
  • the three-dimensional sensor 10 is a sensor that observes the situation of the site to be shared in the virtual three-dimensional space (metaverse space) 100.
  • the three-dimensional sensor 10 may be capable of acquiring three-dimensional point cloud data, and may be, for example, a TOF camera that outputs a distance image in which RGB data is assigned a distance D for each pixel.
  • a plurality of three-dimensional sensors 10 are provided to cover a wide area of the site, including the work area of the worker, and the observation ranges of each three-dimensional sensor 10 may be installed so that they overlap.
  • the three-dimensional sensor 10 observes static objects, such as equipment installed at the site and room structures, whose shapes and positions do not change, and dynamic objects, such as vehicles, construction machinery, robots, workers, tools, and work objects, whose shapes and positions change, as objects.
  • the three-dimensional sensor 10 observes the situation of the worker (for example, the movement and position of a remote worker).
  • the edge processing device 20 is a computer that generates three-dimensional information including multiple three-dimensional model data and a human skeletal model from the point cloud data acquired by the three-dimensional sensor 10.
  • the edge processing device 20 generating three-dimensional information from the point cloud data, the amount of communication between the edge processing device 20 and the MEC server 40 can be reduced, and congestion on the network 30 can be suppressed. Note that if there is no problem with the bandwidth of the network 30, the three-dimensional information may be generated after transmitting the point cloud data directly to the MEC server 40.
  • the MEC server 40 is a computer that is installed on the network 30 and realizes edge computing, and in this embodiment, generates a virtual three-dimensional space 100 from three-dimensional information collected from one or more edge processing devices 20.
  • the network 30 is a wireless network suitable for data communication that connects the edge processing device 20 and the MEC server 40, and can use, for example, a high-speed, low-latency 5G network. Note that if the edge processing device 20 is installed in a fixed location, a wired network may also be used.
  • the MR glasses 50 are display devices that can be viewed by workers at the site, and are preferably worn on the head of the worker to share the virtual three-dimensional space 100.
  • the MR glasses 50 have a processor that executes programs, a memory that stores programs and data, a network interface that communicates with the MEC server 40, and a display that displays images sent from the MEC server 40 (described later with reference to FIG. 6).
  • the display is preferably a transparent type, so that the wearer can view the surroundings through the display, superimposed on the image sent from the MEC server 40.
  • the MR glasses 50 may also have a camera that captures the front of the wearer, and transmit the image captured by the camera to the MEC server 40.
  • the MR glasses 50 may also display an image captured by a camera that captures the front of the wearer, superimposed on the image transmitted from the MEC server 40.
  • the MR glasses 50 may also have a camera that captures the wearer's eyes, and detect the direction of the wearer's line of sight from the image captured by the camera.
  • the MR glasses 50 may also have a microphone that detects the sound the wearer is hearing.
  • the worker on-site may wear a wearable sensor (e.g., a tactile glove).
  • the tactile glove detects the worker's sense of touch and transmits it to the MEC server 40.
  • the wearable sensor may also detect the movement of the worker's fingers, and a skeletal model of the worker may be generated from the finger movements detected by the wearable sensor to detect the worker's actions.
  • the VR glasses 60 are display devices that can be viewed by a person (hereinafter, referred to as a remote person, for example, an expert) at a remote location away from the site, and may be worn on the head of a worker to share the virtual three-dimensional space 100.
  • the VR glasses 60 have a processor that executes programs, a memory that stores programs and data, a network interface that communicates with the MEC server 40, and a display that displays images sent from the MEC server 40 (described later with reference to FIG. 6).
  • the VR glasses 60 may also have a camera that captures the front of the wearer, and transmit the image captured by the camera to the MEC server 40.
  • the VR glasses 60 and the MEC server 40 may be connected via a public network such as the Internet 80 or another dedicated network.
  • the VR glasses 60 receive motion data including the movement and position of the on-site worker represented by a skeletal model from the MEC server 40, and display the virtual three-dimensional space 100 including the avatar of the on-site worker.
  • the information about the virtual three-dimensional space 100 that the VR glasses 60 receive from the MEC server 40 includes the worker's avatar as well as information about objects observed by the three-dimensional sensor 10.
  • the three-dimensional sensor 61 is a sensor that observes the situation of the remote person wearing the VR glasses 60 to be shared in the virtual three-dimensional space 100 (e.g., the movement and position of the remote person). Like the three-dimensional sensor 10, the three-dimensional sensor 61 may be capable of acquiring three-dimensional point cloud data, and may be, for example, a TOF camera that outputs a distanced image in which RGB data is assigned a distance D for each pixel.
  • the remote person may wear a wearable sensor that detects finger movements. The wearable sensor detects the finger movements of the remote person and transmits them to the MEC server 40.
  • the MEC server 40 may generate a skeletal model of the worker from the finger movements detected by the wearable sensor, and detect the worker's actions.
  • the edge processing device 62 is a computer that generates three-dimensional information including multiple three-dimensional model data (a human skeletal model) from the point cloud data acquired by the three-dimensional sensor 61.
  • the edge processing device 62 generates three-dimensional information from the point cloud data, thereby reducing the amount of communication between the edge processing device 62 and the MEC server 40. Note that, if there is no problem with the amount of communication, the three-dimensional information may be generated after the point cloud data is transmitted directly to the MEC server 40.
  • the administrator terminal 70 is a computer used by an on-site manager who uses the information sharing system, and can display information about the virtual three-dimensional space 100 (e.g., an overhead image).
  • the information sharing system of this embodiment may have a cloud 90 that forms a large-scale virtual three-dimensional space for sharing three-dimensional information collected from multiple MEC servers 40.
  • the large-scale virtual three-dimensional space formed in the cloud 90 is an integration of the virtual three-dimensional spaces formed by the multiple MEC servers 40, and a large-scale virtual three-dimensional space can be formed over a wide area.
  • Access to the MEC server 40 from the MR glasses 50, VR glasses 60, and administrator terminal 70 can be authenticated using an ID and password, or the unique address of these devices (e.g., MAC address), to ensure security of the information sharing system.
  • FIG. 2 is a block diagram showing the physical configuration of the computer provided in the information sharing system of this embodiment.
  • the MEC server 40 is shown as an example of a computer, but the edge processing devices 20, 62, and the administrator terminal 70 may also have the same configuration.
  • the MEC server 40 of this embodiment is configured by a computer having a processor (CPU) 1, a memory 2, an auxiliary storage device 3, and a communication interface 4.
  • the MEC server 40 may also have an input interface 5 and an output interface 8.
  • the processor 1 is a computing device that executes the programs stored in the memory 2.
  • the processor 1 executes various programs to realize the various functional parts of the MEC server 40 (e.g., the metaverse analysis function 400, etc.). Note that some of the processing performed by the processor 1 by executing the programs may be executed by other computing devices (e.g., hardware such as a GPU, ASIC, or FPGA).
  • Memory 2 includes ROM, which is a non-volatile storage element, and RAM, which is a volatile storage element.
  • ROM stores immutable programs (e.g., BIOS), etc.
  • RAM is a high-speed, volatile storage element such as DRAM (Dynamic Random Access Memory), and temporarily stores programs executed by processor 1 and data used when executing the programs.
  • the auxiliary storage device 3 is, for example, a large-capacity, non-volatile storage device such as a magnetic storage device (HDD) or a flash memory (SSD).
  • the auxiliary storage device 3 also stores data used by the processor 1 when executing a program and the program executed by the processor 1. In other words, the program is read from the auxiliary storage device 3, loaded into the memory 2, and executed by the processor 1 to realize each function of the MEC server 40.
  • the communication interface 4 is a network interface device that controls communication with other devices (e.g., the edge processing device 20, the cloud 90) according to a specified protocol.
  • the input interface 5 is an interface to which input devices such as a keyboard 6 and a mouse 7 are connected and which receives input from an operator.
  • the output interface 8 is an interface to which output devices such as a display device 9 and a printer (not shown) are connected and which outputs the results of program execution in a format that can be viewed by the user.
  • a user terminal connected to the MEC server 40 via a network may provide the input and output devices.
  • the MEC server 40 may have the functionality of a web server, and the user terminal may access the MEC server 40 using a specified protocol (e.g., http).
  • the programs executed by the processor 1 are provided to the MEC server 40 via removable media (CD-ROM, flash memory, etc.) or a network, and are stored in the non-volatile auxiliary storage device 3, which is a non-transitory storage medium. For this reason, it is preferable that the MEC server 40 has an interface for reading data from removable media.
  • the MEC server 40 is a computer system that is configured on one physical computer, or on multiple computers that are configured logically or physically, and may operate on a virtual computer constructed on multiple physical computer resources. For example, each functional unit may operate on a separate physical or logical computer, or multiple functional units may be combined to operate on a single physical or logical computer.
  • FIG. 3 is a logical block diagram of the information sharing system of this embodiment.
  • the processing by the information sharing system of this embodiment is performed by an on-site sensing function 200, a remote sensing function 300, a metaverse analysis function 400, and a feedback function 500.
  • the three-dimensional sensor 10 observes the on-site situation and transmits the observed point cloud data to the edge processing device 20. Then, in three-dimensional information generation processing 220, the edge processing device 20 generates three-dimensional information including the point cloud data and three-dimensional model data observed by the three-dimensional sensor 10.
  • the edge processing device 20 integrates the point cloud data observed by the multiple 3D sensors 10 based on the relationship between the positions and observation directions of the multiple 3D sensors 10 (221).
  • the edge processing device 20 integrates the point cloud data observed by the multiple 3D sensors 10 based on the relationship between the positions and observation directions of the multiple 3D sensors 10 (221).
  • an image of the front of the wearer captured by the MR glasses 50 may also be integrated.
  • a high-speed 3D modeling process for static objects is performed (222).
  • the outer surface of a static object can be constructed using an algorithm that generates a surface based on the positional relationship of adjacent point clouds.
  • a high-speed 3D modeling process for dynamic objects is also performed (223). For example, an area where shape or position changes is extracted from the point cloud data, a skeletal model obtained by skeletal estimation is generated, and a person is modeled. The generated skeletal model represents the position of the person (worker), and the time-series changes in the skeletal model represent the person's movements. Modeling of static objects and modeling of dynamic objects may be performed in sequence, and either order may come first.
  • the 3D model is segmented (224) by distinguishing between dynamic and static objects and determining the range of objects that are meaningful according to the continuity of the constructed surfaces and the range of dynamic objects.
  • the edge processing device 20 also collects the wearer's line of sight and the sounds the wearer is listening to from the MR glasses 50 and transmits them to the MEC server 40.
  • a metaverse analysis function 400 (described later) recognizes static and dynamic objects and generates the virtual three-dimensional space 100.
  • the three-dimensional sensor 61 observes the situation of the remote person and transmits the observed point cloud data to the edge processing device 62.
  • the edge processing device 62 then performs high-speed three-dimensional modeling of dynamic objects on the point cloud data observed by the three-dimensional sensor 61 (310). For example, it extracts the range in which shape and position change from the point cloud data, generates a skeletal model obtained by skeletal estimation, and models the person.
  • the generated skeletal model represents the position of the person (worker), and the time series changes in the skeletal model represent the movement of the person.
  • the edge processing device 62 generates an avatar from the generated skeletal model (320).
  • the edge processing device 62 also collects the wearer's line of sight and the sounds the wearer is listening to from the VR glasses 60, and transmits them to the MEC server 40.
  • the generated skeletal model is transmitted to the MEC server 40 and treated as the action B of the remote person.
  • the generated avatar is also transmitted to the MEC server 40 together with the sound data listened to by the wearer of the VR glasses 60, incorporated into the virtual three-dimensional space 100, and fed back to the MR glasses 50.
  • the generated avatar may also be fed back directly to the MR glasses 50.
  • the wearer of the MR glasses 50 can share with the remote person the virtual three-dimensional space 100 incorporating the actions and sensations represented by the movements and positions of the remote person, and can understand the actions of the remote person and even converse with the remote person.
  • the MEC server 40 In the metaverse analysis function 400, the MEC server 40 generates avatars of on-site workers from skeletal models of dynamic objects recognized by the on-site sensing function 200, and generates avatars of remote individuals from skeletal models of the remote individuals generated by the remote sensing function 300.
  • a virtual three-dimensional space 100 is generated by mapping these generated avatars and the three-dimensional model data of static objects recognized by the on-site sensing function 200.
  • the MEC server 40 recognizes the segmented three-dimensional model and identifies the object.
  • the type of object can be estimated using a machine learning model that has learned from images of objects installed at the site, or a model that records the three-dimensional shape of the object installed at the site.
  • the MEC server 40 recognizes the worker's action A (type of action) from the motion data including the movement and position of the worker on-site represented by the skeletal model.
  • the worker's action can be estimated from the motion data based on past changes in the worker's skeletal model and a machine learning model learned from the worker's actions.
  • the MEC server 40 detects the proficiency of a worker based on the direction of the worker's gaze and the sounds the worker hears.
  • the proficiency of a worker can be estimated using a machine learning model trained on the direction of the worker's gaze and the sounds the worker hears while working, and the worker's proficiency.
  • the proficiency of a worker may also be estimated by comparing the work time of the worker with the standard work time. For example, if the work time is shorter than the standard work time, it can be determined that the worker is highly skilled.
  • the MEC server 40 recognizes the action B (type of action) of the remote person from the change in the skeletal model of the remote person.
  • the action of the remote person can be estimated by a machine learning model that has been learned from past changes in the skeletal model of the remote person and the actions of the remote person.
  • the action recognition process 420 and the action recognition process 440 may use the same estimation model.
  • task recognition processing 450 the MEC server 40 recognizes task A of the worker from the object identified in object recognition processing 410 and the worker's action A recognized in action recognition processing 420.
  • task A of the worker can be estimated by a machine learning model trained on the object and action A, or a knowledge graph associating objects and actions.
  • task A of the worker may be recognized using action B of a remote person recognized in action recognition processing 440.
  • the MEC server 40 records the task A recognized in the task recognition process 450 in the database 470.
  • the object used to recognize task A, action A, motion data resulting from changes in the skeletal model in action A, action B, and motion data including the movement and position of the worker on-site represented by the skeletal model in action B are registered as related information.
  • a detailed configuration example of the database 470 will be described with reference to FIG. 5.
  • the MEC server 40 searches the database 470 using the recognized worker's action A as a key, and transmits feedback information obtained from the database 470 to the MR glasses 50.
  • the information fed back to the MR glasses 50 is an avatar generated from motion data of the same work in the same process that was previously performed, a video of the same work that was previously performed, and work instructions for the next process of the work.
  • the avatar and work video should provide data of the same work performed by a remote worker.
  • the information fed back to the MR glasses 50 should be changed according to the skill level estimated by the skill detection process 430 and the attributes of the worker. For example, detailed information should be provided to less skilled workers, and general information should be provided to more skilled workers.
  • the feedback function 500 allows a worker wearing the MR glasses 50 to automatically obtain information related to his or her own action A.
  • the feedback function 500 may provide commands as feedback to equipment (e.g., robots, construction machinery, vehicles) in addition to providing feedback to the MR glasses 50. This allows changes in the virtual three-dimensional space to be reflected in the real world, making it possible to control various machines.
  • equipment e.g., robots, construction machinery, vehicles
  • FIG. 5 is a diagram showing an example of the configuration of database 470 in this embodiment. Although FIG. 5 shows database 470 in table format, it may be configured in other data structures.
  • the database 470 includes pre-recorded work-related information 471 and work acquisition information 472 acquired in accordance with the actions of the worker.
  • Work-related information 471 stores a work ID, a work reference time, a work manual, work video content, and work text content in association with each other.
  • the work ID is identification information of the work recorded in advance.
  • the work reference time is the standard time for the work performed by the worker.
  • the work manual is instructions for the work performed by the worker, and link information for accessing the instructions may be recorded.
  • the work video content is video of the work performed by the worker performed by an expert or the worker previously performed, and link information for accessing the video may be recorded.
  • the work text content is text information related to the work performed by the worker, and link information for accessing the text information may be recorded.
  • the task acquisition information 472 stores the action ID, actual task time, environmental object, worker motion, worker position, worker viewpoint, worker sound field, worker haptics, worker vitals, worker proficiency, task ID, and task log in association with each other.
  • the task ID is identification information of the action, which is a series of movements of the worker.
  • the actual task time is the time required for the worker's action.
  • the environmental object is an object (e.g., a room, a floor, a device, a tool, a screw) photographed in relation to the worker's action.
  • the worker motion is the time change in the coordinates of the feature points of the worker's skeletal model (fingers, joints of arms, etc., head).
  • the worker position is the positions of the feature points of the worker (head, left and right hands, etc.) and their positional relationship (distance, direction) with respect to the environmental object.
  • the worker viewpoint is the line of sight of the worker, or the intersection of the line of sight with the surface of an object in the line of sight direction.
  • the worker sound field is the sound heard by the worker, and information on a link for accessing sound data may be recorded.
  • the worker haptics is the haptics of the worker acquired by the haptic glove.
  • the worker's vital signs include the worker's voice, facial expression, and pulse rate estimated from changes in blood flow, and are used to estimate the worker's emotions and attributes.
  • the worker's proficiency is the proficiency of the worker detected by the proficiency detection process 430.
  • the task ID is the task of the worker recognized by the task recognition process 450.
  • the task log is the result of the task execution, and records whether it was completed successfully, whether it was retried, or whether it was completed abnormally.
  • FIG. 6 shows an example of an image that is fed back to a field worker in the information sharing system of this embodiment and displayed on the MR glasses 50.
  • the worker video is displayed so that the remote person's VR glasses (head position) 601 and hands 602 are superimposed on the real landscape.
  • the remote person's avatar is composed of VR glasses and hands, but an avatar representing the remote person's entire body may be generated and displayed.
  • the worker video may display worker attributes 611, a work manual 612, and work instructions 613.
  • the worker video may display an avatar (not shown) generated from a skeletal model of another person present at the work site.
  • On-site workers can see the actions of remote workers through avatars via worker video and receive appropriate work instructions from experienced workers in remote locations.
  • FIG. 7 shows an example of an overhead image displayed on the administrator terminal 70 in the information sharing system of this embodiment.
  • the overhead image displayed on the manager's terminal 70 shows the VR glasses (head position) 701 and hands 702 of a remotely located expert, the on-site worker's avatar 711, and an environmental object (object to be worked on) 721 superimposed on the three-dimensional image.
  • the bird's-eye view allows on-site managers to monitor events in the virtual 3D space, see the guidance that workers are receiving from experienced workers, and manage the work of workers.
  • the MEC server 40 may adjust the range of the image so that the feedback image ( Figure 6) or the overhead image ( Figure 7) includes only images within the required range.
  • the overhead image shown in Figure 7 is an example in which only the work object, the worker's avatar, the remote worker's avatar, and the background around them are displayed, with other background erased.
  • the real-time situation at the site and the actions of multiple people in remote locations can be shared in real time, making it possible to provide appropriate guidance to the site from a remote location.
  • the present invention is not limited to the above-described embodiments, but includes various modified examples and equivalent configurations within the spirit of the appended claims.
  • the above-described embodiments have been described in detail to clearly explain the present invention, and the present invention is not necessarily limited to having all of the configurations described.
  • part of the configuration of one embodiment may be replaced with the configuration of another embodiment.
  • the configuration of another embodiment may be added to the configuration of one embodiment.
  • part of the configuration of each embodiment may be added, deleted, or replaced with other configurations.
  • each of the configurations, functions, processing units, processing means, etc. described above may be realized in part or in whole in hardware, for example by designing them as integrated circuits, or may be realized in software by a processor interpreting and executing a program that realizes each function.
  • Information such as programs, tables, and files that realize each function can be stored in a storage device such as a memory, hard disk, or SSD (Solid State Drive), or in a recording medium such as an IC card, SD card, or DVD.
  • a storage device such as a memory, hard disk, or SSD (Solid State Drive)
  • a recording medium such as an IC card, SD card, or DVD.
  • control lines and information lines shown are those considered necessary for explanation, and do not necessarily show all the control lines and information lines necessary for implementation. In reality, it is safe to assume that almost all components are interconnected.

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

仮想三次元空間共有システムであって、第1の場所において第1の利用者が視認可能な第1の表示装置と、前記第1の場所においてオブジェクト及び前記第1の利用者を観測する第1のセンサと、前記第1の場所と異なる第2の場所において第2の利用者の動きを観測する第2のセンサと、前記第1のセンサ及び前記第2のセンサからデータを収集するサーバとを備え、前記サーバは、前記第1のセンサが観測した前記オブジェクト及び前記第1の利用者と、前記第2のセンサが観測した前記第2の利用者を仮想三次元空間にマッピングし、前記仮想三次元空間にマッピングされた前記第2の利用者の動きと位置の情報を前記第1の表示装置へ送信する。

Description

仮想三次元空間共有システム、仮想三次元空間共有方法、及び仮想三次元空間共有サーバ 参照による取り込み
 本出願は、令和4年(2022年)9月29日に出願された日本出願である特願2022-156516の優先権を主張し、その内容を参照することにより、本出願に取り込む。
 本発明は、仮想三次元空間共有システムに関する。
 離れた場所にいる複数の者が情報を共有したい場面がある。例えば、現場の設備が故障した場合、当該現場がある地に熟練の保守員が出向いて、保守を指導することがある。現場がある遠隔地に熟練の保守員が出向くためには、日程の調整が必要で故障修理が遅延し、出張コストが発生する。一方、遠隔会議システムを用いて熟練の保守員の指導を受ける場合、口頭や画像共有では的確な指導が困難である問題がある。
 一方で、仮想空間を用いて作業状況を把握するシステムとして、以下の先行技術がある。特許文献1(特開2021-47610号公報)には、MR-HMDを装着した作業者が工事現場である空間内の施工物を様々な位置から様々な方向に観察すると、MR-HMDにより撮影された画像から端末装置により施工物の三次元形状が測定される。端末装置は、施工物の三次元形状を表す三次元形状データを受信し、三次元形状データと検査者に装着されたVR-HMDの位置及び姿勢とに基づき定まる、空間と座標系が共通の仮想空間内の検査者から見える施工物の三次元形状に、施工物の工事に関する検査結果の入力欄を重畳した画像を生成し、その画像をVR-HMDに表示させる。検査者はVR-HMDに表示される施工物の三次元形状を見ながら行った検査の結果を入力欄に入力する状況把握支援システムが記載されている。
 また、特許文献2(特開2006-349578号公報)には、3次元レーザスキャナを用いて出来型表面をスキャニングし、コンピュータ内に構築された仮想空間に出来型表面の3次元点群データを合成する。次いで、当該仮想空間内に作業所内で定義される通り芯に関する情報を合成し、それに鉛直な仮想面を構築して移動し、仮想躯体面を設定する。そして、設定された仮想躯体面の表側又は裏側で出来型表面等の表示形態を変えて画面表示する出来型確認システムが記載されている。
 前述した特許文献1に記載された状況把握支援システムや、特許文献2に記載された出来型確認システムには、現場のリアルタイムの状況と離れた場所にいる複数者の動作をリアルタイムで共有する仕組みはなく、遠隔地から現場に対して適切な指導が困難である課題がある。
 本発明は、現場のリアルタイムの状況と離れた場所にいる複数者の動作をリアルタイムで共有することを目的とする。
 本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、仮想三次元空間共有システムであって、第1の場所において第1の利用者が視認可能な第1の表示装置と、前記第1の場所においてオブジェクト及び前記第1の利用者を観測する第1のセンサと、前記第1の場所と異なる第2の場所において第2の利用者の動きを観測する第2のセンサと、前記第1のセンサ及び前記第2のセンサからデータを収集するサーバとを備え、前記サーバは、前記第1のセンサが観測した前記オブジェクト及び前記第1の利用者と、前記第2のセンサが観測した前記第2の利用者を仮想三次元空間にマッピングし、前記仮想三次元空間にマッピングされた前記第2の利用者の動きと位置の情報を前記第1の表示装置へ送信することを特徴とする。
 本発明の一態様によれば、現場のリアルタイムの状況と離れた場所にいる複数者の動作をリアルタイムで共有できる。前述した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。
本発明の実施例の情報共有システムの構成を示す図である。 本実施例の情報共有システムに設けられるコンピュータの物理的な構成を示すブロック図である。 本実施例の情報共有システムの論理ブロック図である。 本実施例の現場側センシング処理の詳細を示す図である。 本実施例のデータベースの構成例を示す図である。 本実施例のMRグラスに表示される映像の例を示す図である。 本実施例の管理者端末に表示される俯瞰画像の例を示す図である。
 図1は、本発明の実施例の情報共有システムの構成を示す図である。
 本実施例の情報共有システムは、複数の三次元センサ10、三次元センサ10に接続されるエッジ処理装置20、三次元センサ10による観測結果を処理するMECサーバ40、エッジ処理装置20をMECサーバ40に接続するネットワーク30、MRグラス50、VRグラス60、VRグラス60の装着者を観測する三次元センサ61、及び三次元センサ61に接続されるエッジ処理装置62を有する。情報共有システムは、管理者端末70を有してもよい。
 三次元センサ10は、仮想三次元空間(メタバース空間)100で共有すべき現場の状況を観測するセンサである。三次元センサ10は、三次元の点群データを取得できるものであるとよく、例えばRGBデータに画素ごとの距離Dが付された距離付き画像を出力するTOFカメラを使用できる。三次元センサ10は、作業者の作業範囲を含む現場の広い範囲をカバーするために複数設けられ、各三次元センサ10の観測範囲が重複するように設置されるとよい。三次元センサ10は、現場に設置された設備や部屋の構造物などの形状や位置が変化しない静的物体や、車両、建設機械、ロボット、作業者、工具、作業対象物などの形状や位置が変化する動的物体をオブジェクトとして観測する。三次元センサ10は、作業者の状況(例えば、遠隔者の動きと位置)を観測する。
 エッジ処理装置20は、三次元センサ10が取得した点群データから複数の三次元モデルデータや人の骨格モデルを含む三次元情報を生成するコンピュータである。エッジ処理装置20が点群データから三次元情報を生成することによって、エッジ処理装置20とMECサーバ40との間の通信量を低減し、ネットワーク30の逼迫を抑制できる。なお、ネットワーク30の帯域に問題がない場合においては、点群データをそのままMECサーバ40に伝送した後に三次元情報を生成してもよい。
 MECサーバ40は、ネットワーク30に設けられるエッジコンピューティングを実現するコンピュータであり、本実施例では1台又は複数台のエッジ処理装置20から収集した三次元情報から仮想三次元空間100を生成する。
 ネットワーク30は、エッジ処理装置20とMECサーバ40を接続する、データ通信に適した無線ネットワークであり、例えば、高速かつ低遅延の5Gネットワークを使用できる。なお、エッジ処理装置20が固定的に設置される場合には、有線ネットワークを使用してもよい。
 MRグラス50は、現場にいる作業者が視認可能な表示装置であり、仮想三次元空間100を共有するために作業者の頭部に装着される形態であるとよい。MRグラス50は、プログラムを実行するプロセッサ、プログラムやデータを格納するメモリ、MECサーバ40と通信するネットワークインターフェース、及びMECサーバ40から送信された画像(図6を参照して後述)を表示するディスプレイを有する。ディスプレイを透過型として、装着者がディスプレイを通して周辺をMECサーバ40から送信された映像と重畳して視認できるとよい。また、MRグラス50は、装着者の正面を撮影するカメラを有し、該カメラが撮影した映像をMECサーバ40に送信してもよい。また、MRグラス50は、装着者の正面を撮影するカメラが撮影した映像をMECサーバ40から送信された映像と重畳して表示してもよい。また、MRグラス50は、装着者の目を撮影するカメラを有し、該カメラが撮影した映像から装着者の視線方向を検知してもよい。また、MRグラス50は、装着者が聞いている音を検知するマイクロフォンを有してもよい。
 また、現場の作業者はウェアラブルセンサ(例えば触覚グローブ)を装着してもよい。触覚グローブは、作業者の触覚を検知し、MECサーバ40に送信する。また、ウェアラブルセンサが作業者の手指の動きを検知し、ウェアラブルセンサが検知した手指の動きから、作業者の骨格モデルを生成し、作業者の行動を検知してもよい。
 VRグラス60は、現場から離れた遠隔地にいる者(以下、遠隔者と称する、例えば熟練者)が視認可能な表示装置であり、仮想三次元空間100を共有するために作業者の頭部に装着される形態であるとよい。VRグラス60は、プログラムを実行するプロセッサ、プログラムやデータを格納するメモリ、MECサーバ40と通信するネットワークインターフェース、及びMECサーバ40から送信された画像(図6を参照して後述)を表示するディスプレイを有する。また、VRグラス60は、装着者の正面を撮影するカメラを有し、該カメラが撮影した映像をMECサーバ40に送信してもよい。MECサーバ40が設けられるネットワーク外に、VRグラス60が設けられる場合、VRグラス60とMECサーバ40はインターネット80などの公衆ネットワークや他の専用ネットワークを介して接続されるとよい。VRグラス60は、骨格モデルによって表される現場の作業者の動き及び位置を含むモーションデータを、MECサーバ40から受信し、現場の作業者のアバターを含む仮想三次元空間100を表示する。VRグラス60が、MECサーバ40から受信する仮想三次元空間100の情報は、作業者のアバターの他、三次元センサ10が観測したオブジェクトの情報を含む。
 三次元センサ61は、仮想三次元空間100で共有すべきVRグラス60を装着する、遠隔者の状況(例えば、遠隔者の動きと位置)を観測するセンサである。三次元センサ61は、三次元センサ10と同様に、三次元の点群データを取得できるものであるとよく、例えばRGBデータに画素ごとの距離Dが付された距離付き画像を出力するTOFカメラを使用できる。遠隔者が、手指の動きを検知するウェアラブルセンサを装着してもよい。ウェアラブルセンサは遠隔者の手指の動きを検知し、MECサーバ40に送信する。MECサーバ40は、ウェアラブルセンサが検知した手指の動きから、作業者の骨格モデルを生成し、作業者の行動を検知してもよい。
 エッジ処理装置62は、三次元センサ61が取得した点群データから複数の三次元モデルデータ人の骨格モデルを含む三次元情報を生成するコンピュータである。エッジ処理装置62が点群データから三次元情報を生成することによって、エッジ処理装置62とMECサーバ40との間の通信量を低減できる。なお、通信量に問題がない場合においては、点群データをそのままMECサーバ40に伝送した後に三次元情報を生成してもよい。
 管理者端末70は、情報共有システムを利用する現場の管理者が使用する計算機であり、仮想三次元空間100の情報(例えば俯瞰画像)を表示できる。
 本実施例の情報共有システムは、複数のMECサーバ40から収集した三次元情報を共有するための大規模仮想三次元空間を形成するクラウド90を有してもよい。クラウド90に形成された大規模仮想三次元空間は、複数のMECサーバ40が形成した仮想三次元空間を統合したものとなり、広範囲で大規模な仮想三次元空間を形成できる。
 MRグラス50、VRグラス60、及び管理者端末70からのMECサーバ40へのアクセスは、IDとパスワードにより認証したり、これらの機器の固有のアドレス(例えば、MACアドレス)で認証して、情報共有システムのセキュリティを確保するとよい。
 図2は、本実施例の情報共有システムに設けられるコンピュータの物理的な構成を示すブロック図である。図2には、コンピュータの例としてMECサーバ40を示すが、エッジ処理装置20、62、管理者端末70も同じ構成でよい。
 本実施例のMECサーバ40は、プロセッサ(CPU)1、メモリ2、補助記憶装置3及び通信インターフェース4を有する計算機によって構成される。MECサーバ40は、入力インターフェース5及び出力インターフェース8を有してもよい。
 プロセッサ1は、メモリ2に格納されたプログラムを実行する演算装置である。プロセッサ1が各種プログラムを実行することによって、MECサーバ40の各機能部(例えば、メタバース解析機能400など)が実現される。なお、プロセッサ1がプログラムを実行して行う処理の一部を、他の演算装置(例えば、GPU、ASIC、FPGA等のハードウェア)で実行してもよい。
 メモリ2は、不揮発性の記憶素子であるROM及び揮発性の記憶素子であるRAMを含む。ROMは、不変のプログラム(例えば、BIOS)などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、プロセッサ1が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。
 補助記憶装置3は、例えば、磁気記憶装置(HDD)、フラッシュメモリ(SSD)等の大容量かつ不揮発性の記憶装置である。また、補助記憶装置3は、プロセッサ1がプログラムの実行時に使用するデータ及びプロセッサ1が実行するプログラムを格納する。すなわち、プログラムは、補助記憶装置3から読み出されて、メモリ2にロードされて、プロセッサ1によって実行されることによって、MECサーバ40の各機能を実現する。
 通信インターフェース4は、所定のプロトコルに従って、他の装置(例えば、エッジ処理装置20、クラウド90)との通信を制御するネットワークインターフェース装置である。
 入力インターフェース5は、キーボード6やマウス7などの入力装置が接続され、オペレータからの入力を受けるインターフェースである。出力インターフェース8は、ディスプレイ装置9やプリンタ(図示省略)などの出力装置が接続され、プログラムの実行結果をユーザが視認可能な形式で出力するインターフェースである。なお、MECサーバ40にネットワークを介して接続されたユーザ端末が入力装置及び出力装置を提供してもよい。この場合、MECサーバ40がウェブサーバの機能を有し、ユーザ端末がMECサーバ40に所定のプロトコル(例えばhttp)でアクセスしてもよい。
 プロセッサ1が実行するプログラムは、リムーバブルメディア(CD-ROM、フラッシュメモリなど)又はネットワークを介してMECサーバ40に提供され、非一時的記憶媒体である不揮発性の補助記憶装置3に格納される。このため、MECサーバ40は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。
 MECサーバ40は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。例えば、各機能部は、各々別個の物理的又は論理的計算機上で動作するものでも、複数が組み合わされて一つの物理的又は論理的計算機上で動作するものでもよい。
 図3は、本実施例の情報共有システムの論理ブロック図である。
 本実施例の情報共有システムによる処理は、現場側センシング機能200、遠隔側センシング機能300、メタバース解析機能400、及びフィードバック機能500によって実行される。
 現場側センシング機能200では現場センシング・伝送処理210において、三次元センサ10が現場の状況を観測し、観測された点群データをエッジ処理装置20に伝送する。そして、三次元情報生成処理220において、エッジ処理装置20は、三次元センサ10が観測した点群データや三次元モデルデータを含む三次元情報を生成する。
 現場側センシング機能200の詳細は、図4に示すように、エッジ処理装置20が、複数の三次元センサ10の位置及び観測方向の関係に基づいて、複数の三次元センサ10が観測した点群データを統合する(221)。点群データの統合の際、MRグラス50が撮影した装着者の正面の映像を統合してもよい。
 その後、静的物体高速三次元モデル化処理を実行する(222)。例えば、隣接する点群の位置関係に基づいて面を生成するアルゴリズムを使用して、静的物体の外側面を構成できる。また、動的物体高速三次元モデル化処理を実行する(223)。例えば、点群データから形状や位置が変化する範囲を抽出し、骨格推定によって得られた骨格モデルを生成し、人をモデル化する。生成された骨格モデルは人(作業者)の位置を表し、骨格モデルの時系列変化は人の動きを表す。静的物体のモデル化と動的物体のモデル化は、順番に実行してもよく、その順番はいずれが先でもよい。
 その後、構成された面の連続性や動的物体の範囲に従って、動的物体と静的物体の弁別や、物体として意味を成す範囲を決定することで三次元モデルをセグメント化する(224)。
 また、エッジ処理装置20は、装着者の視線方向及び装着者が聞いている音をMRグラス50から収集し、MECサーバ40に送信する。MECサーバ40では、後述するメタバース解析機能400が、静的物体及び動的物体を認識して、仮想三次元空間100が生成される。
 遠隔側センシング機能300ではモーションセンシング処理310において、三次元センサ61が、遠隔者の状況を観測し、観測された点群データをエッジ処理装置62に送信する。そして、エッジ処理装置62は、三次元センサ61が観測した点群データに動的物体高速三次元モデル化処理を実行する(310)。例えば、点群データから形状や位置が変化する範囲を抽出し、骨格推定によって得られた骨格モデルを生成し、人をモデル化する。生成された骨格モデルは人(作業者)の位置を表し、骨格モデルの時系列変化は人の動きを表す。
 その後、エッジ処理装置62は、生成された骨格モデルからアバターを生成する(320)。また、エッジ処理装置62は、装着者の視線方向及び装着者が聞いている音をVRグラス60から収集し、MECサーバ40に送信する。生成された骨格モデルは、MECサーバ40に送信され、遠隔者の行動Bとして取り扱われる。また、生成されたアバターは、VRグラス60の装着者が聞いている音データと共にMECサーバ40に送信され、仮想三次元空間100に組み込まれ、MRグラス50にフィードバックされる。生成されたアバターは、MRグラス50に直接フィードバックされてもよい。MRグラス50の装着者は、遠隔者の動きや位置で表される行動や感覚が組み込まれた仮想三次元空間100を遠隔者と共有でき、遠隔者の動作が分かり、遠隔者と会話も可能となる。
 メタバース解析機能400では、MECサーバ40は、現場側センシング機能200認識した動的物体の骨格モデルから現場作業者のアバターを生成し、遠隔側センシング機能300が生成した遠隔者の骨格モデルから遠隔者のアバターを生成する。これらの生成されたアバター、及び現場側センシング機能200が認識した静的物体の三次元モデルデータをマッピングした仮想三次元空間100を生成する。
 物体認識処理410において、MECサーバ40は、セグメント化された三次元モデルを認識し、物体を特定する。例えば、現場に設置された物体の画像を学習した機械学習モデルや、現場に設置された物体の三次元形状が記録されたモデルによって物体の種別を推定できる。
 動作認識処理420において、MECサーバ40は、骨格モデルによって表される現場の作業者の動き及び位置を含むモーションデータから、作業者の行動A(行動の種別)を認識する。例えば、過去の作業者の骨格モデルの変化によるモーションデータと作業者の行動によって学習した機械学習モデルによって作業者の行動を推定できる。
 熟練感知処理430において、MECサーバ40は、作業者の視線方向や作業者に聞こえる音によって、作業者の熟練度を検知する。例えば、作業中の作業者の視線方向や聞こえる音と作業者の熟練度によって学習した機械学習モデルによって作業者の熟練度を推定できる。また、当該作業者の作業時間と標準作業時間を比較して、作業者の熟練度を推定してもよい。例えば、作業時間と標準作業時間より小さい場合は熟練度が高いと判定できる。
 動作認識処理440において、MECサーバ40は、遠者の骨格モデルの変化から、遠隔者の行動B(行動の種別)を認識する。例えば、過去の遠隔者の骨格モデルの変化と遠隔者の行動によって学習した機械学習モデルによって遠隔者の行動を推定できる。動作認識処理420と動作認識処理440は、同じ推定モデルを使用してもよい。
 作業認識処理450において、MECサーバ40は、物体認識処理410で特定された物体と、動作認識処理420で認識された作業者の行動Aから作業者の作業Aを認識する。例えば、物体と行動Aによって学習した機械学習モデルや、物体と行動を関連付けたナレッジグラフによって作業者の作業Aを推定できる。さらに、動作認識処理440で認識された遠隔者の行動Bを用いて、作業者の作業Aを認識してもよい。
 構造化・蓄積処理460において、MECサーバ40は、作業認識処理450で認識された作業Aをデータベース470に記録する。データベース470には、作業Aを認識するために使用された物体と、行動Aと、行動Aにおける骨格モデルの変化によるモーションデータと、行動Bと、行動Bにおける骨格モデルによって表される現場の作業者の動き及び位置を含むモーションデータが関連情報として登録される。データベース470の構成例の詳細は図5を参照して説明する。
 フィードバック機能500では、MECサーバ40は、認識された作業者の行動Aをキーとしてデータベース470を検索し、データベース470から取得したフィードバック情報をMRグラス50に送信する。MRグラス50にフィードバックされる情報は、以前に行われた同じ工程の同じ作業のモーションデータから生成されるアバターや、以前に行われた同じ作業の映像や、当該作業の次工程の作業指示である。特に、アバターや作業映像は、遠隔者が行った同じ作業のデータを提供するとよい。MRグラス50にフィードバックされる情報は、熟練感知処理430で推定される熟練度や作業者の属性に従って変えるとよい。例えば、低熟練者には詳細な情報を提供し、高熟練者には概要の情報を提供するとよい。フィードバック機能500によって、MRグラス50を装着した作業者は、自らの行動Aに関連する情報を自動的に取得できる。
 フィードバック機能500は、MRグラス50へのフィードバック以外に、設備(例えば、ロボット、建設機械、車両)にへのフィードバックとして、指令をしてもよい。これによって、仮想三次元空間内での変化が現実世界に反映でき、様々な機械を制御できる。
 図5は、本実施例のデータベース470の構成例を示す図である。図5にはデータベース470をテーブル形式で示すが、他のデータ構造で構成してもよい。
 データベース470は、予め記録される作業関連情報471と、作業者の行動に伴って取得される作業取得情報472を含む。
 作業関連情報471は、作業ID、作業基準時間、作業マニュアル、作業映像コンテンツ、及び作業文字コンテンツを関連付けて記憶する。作業IDは、予め記録される作業の識別情報である。作業基準時間は、作業者が行う作業の標準的な時間である。作業マニュアルは、作業者が行う作業の指示書であり、指示書へアクセスするためのリンクの情報を記録してもよい。作業映像コンテンツは、作業者が行う作業を熟練者又は当該作業者が以前に行った作業の映像であり、当該映像へアクセスするためのリンクの情報を記録してもよい。作業文字コンテンツは、作業者が行う作業に関する文字情報であり、当該文字情報へアクセスするためのリンクの情報を記録してもよい。
 作業取得情報472は、行動ID、実作業時間、環境オブジェクト、作業者モーション、作業者位置、作業者視点、作業者音場、作業者触覚、作業者バイタル、作業者熟練度、作業ID、及び作業ログを関連付けて記憶する。作業IDは、作業者の一連の動作である行動の識別情報である。実作業時間、作業者の行動に要した時間である。環境オブジェクトは、作業者の行動に関係して撮影されたオブジェクト(例えば、部屋、床、装置、道具、ネジ)である。作業者モーションは、作業者の骨格モデルの特徴点(指、腕などの間接点、頭部)の座標の時間変化である。作業者位置は、作業者の特徴点(頭部、左右の手など)の位置や、環境オブジェクトとの位置関係(距離、方向)である。作業者視点は、作業者の視線や、視線方向に存在するオブジェクトの表面と視線の交点である。作業者音場は、作業者に聞こえている音であり、音データへアクセスするためのリンクの情報を記録してもよい。作業者触覚は、触覚グローブで取得した作業者の触覚である。作業者バイタルは作業者の声、表情、血流変化から推定される脈拍などであり、作業者の感情や属性を推定するために使用される。作業者熟練度は、熟練感知処理430で検知された作業者の熟練度である。作業IDは、作業認識処理450で認識された作業者の作業である。作業ログは、作業の実施の結果であり、正常終了、再作業、異常終了などが記録される。
 図6は、本実施例の情報共有システムで現場作業者にフィードバックされ、MRグラス50に表示される映像の例を示す図である。
 作業者映像は、図6に示すように、遠隔者のVRグラス(頭の位置)601と手602が現実の風景に重畳するように表示される。図6では遠隔者のアバターをVRグラスと手で構成したが、遠隔者の全身を表すアバターを生成して表示してもよい。さらに、作業者映像には、作業者属性611と、作業マニュアル612と、作業指示613を表示してもよい。さらに、作業者映像には、現場に居る他者の骨格モデルから生成されたアバター(図示省略)を表示してもよい。
 現場の作業者は、作業者映像によって、遠隔者の行動をアバターによって視認でき、遠隔地の熟練者から適切な作業の指導を受けられる。
 図7は、本実施例の情報共有システムで管理者端末70に表示される俯瞰画像の例を示す図である。
 管理者端末70に表示される俯瞰画像は、遠隔地の熟練者のVRグラス(頭の位置)701と手702と、現場作業員のアバター711と、環境オブジェクト(作業対象物)721が三次元空間の画像に重畳して表示される。
 俯瞰画像によって、現場の管理者は、仮想三次元空間内の事象を監視して、作業者が熟練者から受ける指導を確認でき、作業者の作業を管理できる。
 MECサーバ40は、フィードバック映像(図6)や俯瞰画像(図7)に必要範囲内の映像のみを含むように画像の範囲を調整するとよい。図7に示す俯瞰画像は、作業対象物と作業者のアバターと遠隔者のアバターと、それらの周囲の背景だけを表示し、他の背景を消した例である。例えば、セグメント化処理(224)で認識された静的物体及び動的物体のうち、当該作業に関係ない物体を含まない範囲でフィードバックする画像の範囲を調整したり、当該作業に関係ない物体を含まない範囲にモザイク処理を適用して、関係のない物体を秘匿化するとよい。工場などの現場で使う時、工場の空間、顧客情報の外部への流出を抑制できる。
 以上に説明したように、本発明の実施例によれば、現場のリアルタイムの状況と離れた場所にいる複数者の動作をリアルタイムで共有し、遠隔地から現場に対して適切な指導を可能にできる。
 なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。
 また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
 各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。
 また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

Claims (16)

  1.  仮想三次元空間共有システムであって、
     第1の場所において第1の利用者が視認可能な第1の表示装置と、
     前記第1の場所においてオブジェクト及び前記第1の利用者を観測する第1のセンサと、
     前記第1の場所と異なる第2の場所において第2の利用者の動きを観測する第2のセンサと、
     前記第1のセンサ及び前記第2のセンサからデータを収集するサーバとを備え、
     前記サーバは、
     前記第1のセンサが観測した前記オブジェクト及び前記第1の利用者と、前記第2のセンサが観測した前記第2の利用者を仮想三次元空間にマッピングし、
     前記仮想三次元空間にマッピングされた前記第2の利用者の動きと位置の情報を前記第1の表示装置へ送信することを特徴とする仮想三次元空間共有システム。
  2.  請求項1に記載の仮想三次元空間共有システムであって、
     前記第2の場所において前記第2の利用者が視認可能な第2の表示装置を備え、
     前記サーバは、前記仮想三次元空間にマッピングされた前記オブジェクト及び前記第1の利用者の動きと位置の情報を前記第2の表示装置へ送信することを特徴とする仮想三次元空間共有システム。
  3.  請求項1に記載の仮想三次元空間共有システムであって、
     前記第1の利用者が知覚する音、視線、及び触覚の少なくとも一つを検知する第3のセンサを備え、
     前記第3のセンサは、検知した情報を前記サーバに送信し、
     前記第1のセンサは、前記第1の利用者の動きを観測することを特徴とする仮想三次元空間共有システム。
  4.  請求項1に記載の仮想三次元空間共有システムであって、
     前記第1のセンサが接続される第1のエッジ装置を有し、
     前記第1のセンサは、前記第1の場所に設置された前記オブジェクトの映像を撮影し、
     前記第1のエッジ装置は、前記第1のセンサが撮影した前記オブジェクトの映像のフレームより前時間のフレームとの差分データを前記サーバに送信することを特徴とする仮想三次元空間共有システム。
  5.  請求項1に記載の仮想三次元空間共有システムであって、
     前記第1のセンサが接続される第1のエッジ装置を有し、
     前記第1のセンサは、前記第1の利用者の動きと位置の情報を取得し、
     前記第1のエッジ装置は、前記第1のセンサが取得した前記第1の利用者の動きと位置の情報から生成した骨格モデルを前記サーバに送信することを特徴とする仮想三次元空間共有システム。
  6.  請求項1に記載の仮想三次元空間共有システムであって、
     前記第2の利用者が知覚する音、視線、及び触覚の少なくとも一つを検知する第4のセンサを備え、
     前記第4のセンサは、検知した情報を前記サーバに送信することを特徴とする仮想三次元空間共有システム。
  7.  請求項1に記載の仮想三次元空間共有システムであって、
     前記第2のセンサが接続される第2のエッジ装置を有し、
     前記第2のセンサは、前記第2の場所に設置された前記オブジェクトの映像を撮影し、
     前記第2のエッジ装置は、前記第2のセンサが撮影した前記オブジェクトの映像のフレームより前時間のフレームとの差分データを前記サーバに送信することを特徴とする仮想三次元空間共有システム。
  8.  請求項1に記載の仮想三次元空間共有システムであって、
     前記第2のセンサが接続される第2のエッジ装置を有し、
     前記第2のセンサは、前記第2の利用者の動きと位置の情報を取得し、
     前記第2のエッジ装置は、
     前記第2のセンサが取得した前記第2の利用者の動きと位置の情報から生成した骨格モデルを前記サーバに送信することを特徴とする仮想三次元空間共有システム。
  9.  請求項1に記載の仮想三次元空間共有システムであって、
     前記サーバは、前記第1の利用者及び前記第2の利用者の映像から生成された骨格モデルをデータベースに記録することを特徴とする仮想三次元空間共有システム。
  10.  請求項9に記載の仮想三次元空間共有システムであって、
     前記サーバは、
     前記第1のセンサが前記オブジェクトを観測した結果から、前記オブジェクトを認識し、
     前記第1の利用者の映像から生成した骨格モデルと、前記認識されたオブジェクトとの関係に基づいて、前記第1の利用者の作業を特定し、
     前記特定された作業を前記データベースに記録することを特徴とする仮想三次元空間共有システム。
  11.  請求項1に記載の仮想三次元空間共有システムであって、
     前記第1の利用者が知覚する声、血流、及び表情の少なくとも一つを検知する第5のセンサを備え、
     前記第5のセンサが検知した声、血流、及び表情の少なくとも一つから、前記第1の利用者の熟練度及び属性の少なくとも一つを推定することを特徴とする仮想三次元空間共有システム。
  12.  請求項11に記載の仮想三次元空間共有システムであって、
     前記サーバは、前記推定された熟練度及び属性の少なくとも一つに従って、前記第1の表示装置へ送信する情報を変えることを特徴とする仮想三次元空間共有システム。
  13.  請求項10に記載の仮想三次元空間共有システムであって、
     前記サーバは、前記特定された作業に関連する情報を前記データベースから取得し、
     前記データベースから取得した情報を前記第1の表示装置へ送信することを特徴とする仮想三次元空間共有システム。
  14.  請求項1に記載の仮想三次元空間共有システムであって、
     前記サーバに接続された端末を有し、
     前記サーバは、前記オブジェクト、前記第1の利用者、及び前記第2の利用者がマッピングされた前記仮想三次元空間のデータを前記端末に送信することを特徴とする仮想三次元空間共有システム。
  15.  計算機が実行する仮想三次元空間共有方法であって、
     前記計算機は、
     所定の演算処理を実行する演算装置と、前記演算装置がアクセス可能な記憶装置とを有し、
     第1の場所において第1の利用者が視認可能な第1の表示装置と、前記第1の場所に設置される第1のセンサと、前記第1の場所と異なる第2の場所に設置される第2のセンサとに接続され、
     前記仮想三次元空間共有方法は、
     前記演算装置が、前記第1のセンサが前記第1の場所において観測したオブジェクト及び前記第1の利用者のデータ、及び前記第2のセンサが前記第2の場所において観測した第2の利用者のデータを収集し、
     前記演算装置が、前記第1のセンサが観測したオブジェクト及び第1の利用者と、前記第2のセンサが観測した第2の利用者を仮想三次元空間にマッピングし、
     前記演算装置が、前記仮想三次元空間にマッピングされた前記第2の利用者の動きと位置の情報を前記第1の表示装置へ送信することを特徴とする仮想三次元空間共有方法。
  16.  仮想三次元空間共有サーバであって、
     所定の演算処理を実行する演算装置と、前記演算装置がアクセス可能な記憶装置とを備え、
     第1の場所において第1の利用者が視認可能な第1の表示装置と、前記第1の場所に設置される第1のセンサと、前記第1の場所と異なる第2の場所に設置される第2のセンサとに接続され、
     前記第1のセンサが前記第1の場所において観測したオブジェクト及び前記第1の利用者のデータ、及び前記第2のセンサが前記第2の場所において観測した第2の利用者のデータを収集し、
     前記第1のセンサが観測したオブジェクト及び第1の利用者と、前記第2のセンサが観測した第2の利用者を仮想三次元空間にマッピングし、
     前記仮想三次元空間にマッピングされた前記第2の利用者の動きと位置の情報を前記第1の表示装置へ送信することを特徴とする仮想三次元空間共有サーバ。
PCT/JP2023/002119 2022-09-29 2023-01-24 仮想三次元空間共有システム、仮想三次元空間共有方法、及び仮想三次元空間共有サーバ WO2024069997A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022156516A JP2024049970A (ja) 2022-09-29 2022-09-29 仮想三次元空間共有システム、仮想三次元空間共有方法、及び仮想三次元空間共有サーバ
JP2022-156516 2022-09-29

Publications (1)

Publication Number Publication Date
WO2024069997A1 true WO2024069997A1 (ja) 2024-04-04

Family

ID=90476765

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/002119 WO2024069997A1 (ja) 2022-09-29 2023-01-24 仮想三次元空間共有システム、仮想三次元空間共有方法、及び仮想三次元空間共有サーバ

Country Status (2)

Country Link
JP (1) JP2024049970A (ja)
WO (1) WO2024069997A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014017776A (ja) * 2012-07-11 2014-01-30 Sony Computer Entertainment Inc 画像生成装置および画像生成方法
JP2015130151A (ja) * 2013-12-31 2015-07-16 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 感情および行動を認識するための方法およびシステム
JP2019522856A (ja) * 2016-06-30 2019-08-15 株式会社ソニー・インタラクティブエンタテインメント バーチャルリアリティシーンに参加するための操作方法及びシステム
WO2020044854A1 (ja) * 2018-08-30 2020-03-05 パナソニックIpマネジメント株式会社 生体計測装置、及び生体計測方法
JP2021010101A (ja) * 2019-07-01 2021-01-28 株式会社日立製作所 遠隔作業支援システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014017776A (ja) * 2012-07-11 2014-01-30 Sony Computer Entertainment Inc 画像生成装置および画像生成方法
JP2015130151A (ja) * 2013-12-31 2015-07-16 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 感情および行動を認識するための方法およびシステム
JP2019522856A (ja) * 2016-06-30 2019-08-15 株式会社ソニー・インタラクティブエンタテインメント バーチャルリアリティシーンに参加するための操作方法及びシステム
WO2020044854A1 (ja) * 2018-08-30 2020-03-05 パナソニックIpマネジメント株式会社 生体計測装置、及び生体計測方法
JP2021010101A (ja) * 2019-07-01 2021-01-28 株式会社日立製作所 遠隔作業支援システム

Also Published As

Publication number Publication date
JP2024049970A (ja) 2024-04-10

Similar Documents

Publication Publication Date Title
US11127210B2 (en) Touch and social cues as inputs into a computer
CN106340217B (zh) 基于增强现实技术的制造装备智能系统及其实现方法
Pfeiffer Measuring and visualizing attention in space with 3D attention volumes
US20130174213A1 (en) Implicit sharing and privacy control through physical behaviors using sensor-rich devices
EP2919093A1 (en) Method, system, and computer for identifying object in augmented reality
EP2568355A2 (en) Combined stereo camera and stereo display interaction
Pfeiffer et al. EyeSee3D 2.0: Model-based real-time analysis of mobile eye-tracking in static and dynamic three-dimensional scenes
Saputra et al. Indoor human tracking application using multiple depth-cameras
US20170365084A1 (en) Image generating apparatus and image generating method
US11928384B2 (en) Systems and methods for virtual and augmented reality
CN110573992B (zh) 使用增强现实和虚拟现实编辑增强现实体验
JP7077603B2 (ja) 判定プログラム、判定方法及び画像生成装置
US20190369807A1 (en) Information processing device, information processing method, and program
JP2021002290A (ja) 画像処理装置およびその制御方法
JP2021026336A (ja) 情報処理装置、及び、マーケティング活動支援装置
WO2024069997A1 (ja) 仮想三次元空間共有システム、仮想三次元空間共有方法、及び仮想三次元空間共有サーバ
JP2007048232A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
Lakshantha et al. A diagrammatic framework for intuitive human robot interaction
TWM596380U (zh) 人工智慧擴增實境輔助系統
KR20210105484A (ko) 문화유적복원 실감 장치
Adiani et al. Evaluation of webcam-based eye tracking for a job interview training platform: Preliminary results
TWI836680B (zh) 立體影像互動模擬系統與運作方法
JP7307698B2 (ja) 作業管理システムおよび作業管理方法
JP7376446B2 (ja) 作業分析プログラム、および、作業分析装置
WO2024075817A1 (ja) 表示方法、表示システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23869304

Country of ref document: EP

Kind code of ref document: A1