WO2017056631A1 - 情報処理システム及び情報処理方法 - Google Patents

情報処理システム及び情報処理方法 Download PDF

Info

Publication number
WO2017056631A1
WO2017056631A1 PCT/JP2016/070477 JP2016070477W WO2017056631A1 WO 2017056631 A1 WO2017056631 A1 WO 2017056631A1 JP 2016070477 W JP2016070477 W JP 2016070477W WO 2017056631 A1 WO2017056631 A1 WO 2017056631A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
image
ghost
display
information processing
Prior art date
Application number
PCT/JP2016/070477
Other languages
English (en)
French (fr)
Inventor
俊一 笠原
暦本 純一
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US15/761,635 priority Critical patent/US10628114B2/en
Priority to KR1020237010501A priority patent/KR102647544B1/ko
Priority to KR1020187003850A priority patent/KR102516096B1/ko
Priority to JP2017542950A priority patent/JP6822410B2/ja
Priority to CN201680055516.3A priority patent/CN108028906B/zh
Priority to EP16850808.3A priority patent/EP3358836B1/en
Publication of WO2017056631A1 publication Critical patent/WO2017056631A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1686Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being an integrated camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1454Digital output to display device ; Cooperation and interconnection of the display device with other functional units involving copying of the display data of a local workstation or window to a remote workstation or window so that an actual copy of the data is displayed simultaneously on two or more displays, e.g. teledisplay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • H04N7/185Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source from a mobile camera, e.g. for remote control

Definitions

  • the technology disclosed in the present specification relates to an information processing system and an information processing method for controlling display of information input by a receiving device for captured images.
  • a technology is known in which a user accesses a field of view other than himself (a scene seen from a moving body other than himself).
  • Patent Document 1 a mobile camera system that remotely acquires an image captured by a mobile camera mounted on a moving body such as a vehicle has been proposed (see, for example, Patent Document 1).
  • Patent Document 2 an image processing system that provides information similar to visual information acquired by a person wearing glasses with an imaging sensing wireless device to a head-mounted display wearer has been proposed (for example, Patent Document 2). checking).
  • An object of the technology disclosed in the present specification is to provide an excellent information processing system and information processing method capable of suitably controlling the display of information input by a captured image receiving device.
  • the technology disclosed in the present specification has been made in consideration of the above-mentioned problems, and the first aspect thereof is First information generated in response to an input to a first system that receives a captured image by the imaging system, and a second information generated in response to an input to a second system that receives the captured image by the imaging system
  • the information processing system includes a control unit that controls display of an aggregated image obtained by aggregating information.
  • system refers to a logical collection of functional modules that realize a specific function. When configured as a single device, multiple devices work together. Including both cases.
  • control unit of the information processing system includes the first information based on voice information input to the first system;
  • the display of the aggregated image obtained by aggregating the second information based on the voice information input to the second system is controlled.
  • control unit of the information processing system is configured to generate the aggregated image based on audio information input to the first system. It is configured to control the display.
  • control unit of the information processing system is configured to change the sound level input to the first system according to a change in strength of the voice.
  • the first information included in the aggregated image is changed.
  • control unit of the information processing system receives the captured image including the first system and the second system.
  • the system is configured to control the display of the aggregated image indicating the distribution of places designated by a plurality of systems.
  • control unit of the information processing system aggregates the first information and the second information including character information.
  • the display of the aggregate image obtained is configured to be controlled.
  • control unit of the information processing system receives the captured image including the first system and the second system.
  • a common or frequent word is extracted from a plurality of character information generated by a plurality of systems and displayed.
  • control unit of the information processing system is configured to display the extracted words in a tag cloud format.
  • control unit of the information processing system receives the captured image including the first system and the second system.
  • a plurality of character information generated by a plurality of systems is summarized and displayed.
  • the information processing system further includes an imaging unit that generates the captured image.
  • the information processing system further includes a display unit.
  • the control unit is configured to control display of the aggregated image by the display unit.
  • the display unit of the information processing system according to the eleventh aspect is configured to display the aggregated information superimposed on a real-world landscape. Yes.
  • the thirteenth aspect of the technology disclosed in this specification is: First information generated in response to an input to a first system that receives a captured image by the imaging system, and a second information generated in response to an input to a second system that receives the captured image by the imaging system It is an information processing method which has a control step which controls the display of the aggregate image obtained by aggregating information.
  • FIG. 1 is a diagram illustrating an overview of a view information sharing system 100 to which the technology disclosed in this specification is applied.
  • FIG. 2 is a diagram schematically showing a one-to-N network topology.
  • FIG. 3 is a diagram schematically showing an N-to-1 network topology.
  • FIG. 4 is a diagram schematically showing an N-to-N network topology.
  • FIG. 5 is a diagram illustrating a functional configuration example of the image providing apparatus 101 and the image display apparatus 102.
  • FIG. 6 is a diagram illustrating a state in which ghost intervenes in Body's field of view.
  • FIG. 7 is a diagram for explaining a mechanism in which ghost intervenes in the visual field to Body.
  • FIG. 1 is a diagram illustrating an overview of a view information sharing system 100 to which the technology disclosed in this specification is applied.
  • FIG. 2 is a diagram schematically showing a one-to-N network topology.
  • FIG. 3 is a diagram schematically showing an N-to-1 network
  • FIG. 8 is a diagram illustrating a state in which ghost intervenes in Body's field of view.
  • FIG. 9 is a diagram illustrating a state in which ghost intervenes in Body's field of view.
  • FIG. 10 is a diagram for explaining a mechanism in which ghost intervenes in the field of view to Body.
  • FIG. 11 is a diagram illustrating a state in which ghost intervenes in the Body field of view (display of the moving direction of the field of view).
  • FIG. 12 is a diagram illustrating a state in which ghost intervenes in Body's field of view (display of character information).
  • FIG. 13 is a diagram illustrating a state in which ghost intervenes in Body's field of view (chat format).
  • FIG. 14 is a diagram for explaining a mechanism in which ghost makes an auditory intervention on Body.
  • FIG. 15 is a diagram exemplifying a space 1500 in which a plurality of ghosts are simultaneously intervening in a Body.
  • FIG. 16 is a diagram illustrating a visual field intervention that gives the pointer the same blinking pattern as the ghost voice volume pattern.
  • FIG. 17 is a flowchart illustrating an example of a procedure for processing the visual field intervention from ghost in the image providing apparatus 101.
  • FIG. 18 is a diagram showing an example of displaying a heat map indicating the location pointed to by ghost.
  • FIG. 19 is a flowchart showing a processing procedure for displaying visual field interventions from a number of ghosts in a heat map format in the image providing apparatus 101.
  • FIG. 20 is a flowchart showing a processing procedure for displaying character information sent from ghost in the image providing apparatus 101.
  • FIG. 1 shows an overview of a view information sharing system 100 to which the technology disclosed in this specification is applied.
  • the view information sharing system 100 shown in the figure is configured by a combination of an image providing apparatus 101 that provides an image obtained by photographing a site and an image display apparatus 102 that displays an image provided from the image providing apparatus 101.
  • the image providing apparatus 101 is specifically configured by a see-through head mounted display with a camera that is worn on the head of an observer 111 who is actually active at the site.
  • the "see-through type" head-mounted display here is basically an optical transmission type, but may be a video see-through type.
  • the camera mounted on the head-mounted display captures the direction of the sight line of the observer 111 and provides a first person video (FPV: First Person View).
  • the image display apparatus 102 is disposed on the site, that is, apart from the image providing apparatus 101, and the image providing apparatus 101 and the image display apparatus 102 communicate via a network.
  • the term “separation” as used herein includes not only a remote place but also a situation in which the same room is slightly separated (for example, about several meters). It is also assumed that data exchange is performed between the image providing apparatus 101 and the image display apparatus 102 via a server (not shown).
  • the image display device 102 is, for example, a head-mounted display worn by a person (viewer of a captured image) 112 who is not in the field. If an immersive head-mounted display is used for the image display device 102, the viewer 112 can experience the same scene as the viewer 111 more realistically. However, a see-through type head mounted display may be used for the image display device 102.
  • the image display device 102 is not limited to a head-mounted display, and may be, for example, a wristwatch type display. Alternatively, the image display device 102 does not need to be a wearable terminal, but is a multi-function information terminal such as a smartphone or a tablet, a general monitor display such as a computer screen or a television receiver, a game machine, or a screen. A projector that projects an image may be used.
  • the observer 111 Since the observer 111 is actually at the site and is active with his / her own body, the observer 111 (or the image providing apparatus 101) who is the user of the image providing apparatus 101 is described below. Then, it is also called “Body”. On the other hand, the viewer 112 is not a person who is active on the spot, but is a user of the image display device 102 because he / she has awareness of the spot by watching the first person video of the viewer 111. The viewer 112 (or the image display device 102) is also referred to as “Ghost” below.
  • Body communicates its surroundings to ghost and further shares the situation with ghost.
  • the ghost can communicate with the body and realize interaction such as work support from a remote location.
  • the fact that ghost immerses and interacts with the first person experience of Body is also referred to as “JackIn” below.
  • the view information sharing system 100 has a basic function of transmitting a first person video from the body to the host and viewing / experience on the host side, and communicating between the body and the host.
  • ghost is able to operate and stimulate the body or part of the body of the “visual intervention” that intervenes in the body of the body, “auditory intervention” that intervenes in the body of the body of the body.
  • Body interaction can be realized by remote intervention such as “physical intervention” and “alternative conversation” in which Ghost speaks on site in place of Body.
  • there are a plurality of communication channels such as “visual intervention”, “auditory intervention”, “physical intervention”, and “alternative conversation”. The details of “visual field intervention”, “auditory intervention”, “physical intervention”, and “alternative conversation” will be described later.
  • Ghost can instruct Body to act in the field through “vision intervention”, “auditory intervention”, “physical intervention”, and “alternative conversation”.
  • medical sites such as surgery and construction sites such as civil engineering work
  • instructions and guidance for aircraft and helicopter operations guidance for car drivers, coaching or instruction in sports, etc.
  • the view information sharing system 100 can be utilized.
  • Body wants to receive (or must receive) support, instructions, guidance, and guidance from other people for the work they are currently doing, such as when they want to share their field of view with others.
  • JackIn Body initial start
  • JackIn Body initial start
  • Ghost wants to provide support, instructions, guidance, and guidance for the work being done by others in addition to (or must do) other than when he / she wants to watch on-site video (first person video of another person) without going out. If it is necessary, JackIn (Ghost initial start) with the corresponding Body will be carried out.
  • FIG. 1 depicts a one-to-one network topology of Body and ghost, in which only one image providing apparatus 101 and one image display apparatus 102 exist.
  • FIG. 2 shows a one-to-N network topology in which one Body and multiple (N) ghosts JackIn simultaneously, and an N in which multiple (N) Body and one ghost JackIn simultaneously as shown in FIG.
  • a one-to-one network topology such as an N-to-N network topology in which multiple (N) bodies and multiple (N) hosts are JackIn at the same time, is also assumed, as shown in FIG.
  • a network topology (not shown) is also assumed in which one device JackIn a Body as a ghost and functions as a Body to another ghost, and three or more devices are daisy chain connected.
  • a server (not shown) may be interposed between the Body and the ghost.
  • FIG. 5 shows a functional configuration example of the image providing apparatus 101 and the image display apparatus 102.
  • the image providing apparatus 101 is an apparatus provided for use by a user (observer 112) who plays the role of Body.
  • the image providing apparatus 101 includes an imaging unit 501, an image processing unit 502, a display unit 503 as an output unit, a first audio output unit 504, a drive unit 505, and a second audio output unit. 506, a position detection unit 507, a communication unit 508, a control unit 509, and an authentication unit 510.
  • the imaging unit 501 is composed of a camera that shoots a first person video of Body.
  • the imaging unit 501 is attached to the head of the observer 111 so as to photograph, for example, Body, that is, the line of sight of the observer 111.
  • an omnidirectional camera may be used as the imaging unit 501 to provide a 360-degree omnidirectional image around the body.
  • the whole sky image does not necessarily need to be 360 degrees, and a part of the visual field may be missing.
  • the all-sky image may be a hemisphere image that does not include a floor surface with little information (the same applies hereinafter).
  • the image processing unit 502 processes the image signal output from the imaging unit 501.
  • the Body looks around the surroundings or changes the direction of the line of sight on its own intention, so ghost watches a video with intense shaking, and VR ( There are concerns about health hazards, such as the occurrence of sickness or motion sickness.
  • the image processing unit 502 artificially constructs a surrounding space from a continuous image of the first person video of the Body photographed by the imaging unit 501.
  • the image processing unit 502 performs real-time space recognition based on a SLAM (Simultaneous Localization and Mapping) recognition technology on a video (all-round image) captured by the imaging unit 501 in real time
  • the video from the virtual camera viewpoint controlled by ghost is rendered by spatially connecting the frame and the past video frame.
  • the video rendered from the virtual camera viewpoint is a viewpoint video that is pseudo-out of Body, rather than the first person video of Body. Therefore, since the ghost can observe the surrounding environment of the body independently of the movement of the body, the shaking of the image can be stabilized to prevent VR sickness and another place where the body is not focused can be viewed. .
  • the display unit 503 displays and outputs the information sent from the image display device 102, and realizes intervention on the body field of view by ghost.
  • the display unit 503 observes an AR (Augmented Reality) image that expresses ghost's consciousness sharing the first person experience with Body. And superimposed on the field of view of the person 111 (that is, the real world landscape).
  • the AR image includes, for example, an image such as a pointer or an annotation indicating the location pointed to by ghost. Therefore, ghost can intervene in the field of view through communication with Body, and can interact with Body in the field.
  • the first audio output unit 504 is composed of, for example, an earphone or a headphone, and allows the body to listen to the information sent from the image display device 102, thereby realizing intervention of the body to be heard by ghost. From the image display device 102, information related to ghost's consciousness sharing the first person experience with Body is transmitted. On the image providing apparatus 101 side, the received information is converted into an audio signal, and the audio is output from the first audio output unit 504 to be heard by the Body, that is, the observer 111. Alternatively, an audio signal spoken by ghost who is experiencing the first person is transmitted from the image display apparatus 102 as it is.
  • the received audio signal is output as audio from the first audio output unit 504 as it is, so that Body, that is, the observer 111 listens.
  • the volume, quality, output timing, and the like of the sound output from the first sound output unit 504 may be adjusted as appropriate.
  • image information and character information received from the image display apparatus 102 may be converted into an audio signal and output from the first audio output unit 504 as audio. Therefore, ghost can intervene in the hearing through communication with Body, and can interact with Body in the field.
  • the drive unit 505 operates the body of the body or a part of the body or gives a stimulus to realize intervention on the body of the body by ghost.
  • the drive unit 505 includes, for example, an actuator that applies a tactile sensation (tactile) or a slight electrical stimulus (not harmful to health) to the body of the observer 111.
  • the driving unit 505 is a device that assists or restrains body movement by driving a power suit or exoskeleton that the observer 111 wears on an arm, hand, leg, or the like (see, for example, Patent Document 5). Consists of). Therefore, ghost can intervene in the body through communication with Body, and can interact with Body in the field.
  • the second audio output unit 506 is composed of, for example, a wearable speaker worn by Body, and outputs information or an audio signal received from the image display device 102 to the outside.
  • the sound output from the second sound output unit 506 can be heard on the scene as if the body is speaking. Therefore, ghost can talk with people on the site where the body is located or can give a voice instruction (alternative conversation) instead of the body.
  • the position detection unit 507 detects current position information of the image providing apparatus 101 (that is, Body) using, for example, a GPS (Global Positioning System) signal.
  • the detected position information is used, for example, when searching for a Body at a location desired by ghost.
  • the communication unit 508 is interconnected with the image display device 102 via a network, and transmits first-person images and spatial information captured by the imaging unit 501 and communicates with the image display device 102.
  • the communication means of the communication unit 508 may be either wireless or wired, and is not limited to a specific communication standard.
  • the authentication unit 510 performs an authentication process on the image display device 102 (or the user, ghost) interconnected via the network, and determines an output unit that outputs information from the image display device 102. Then, the control unit 509 controls the output operation from the output unit according to the authentication result by the authentication unit 510.
  • the control unit 509 has functions corresponding to, for example, a CPU (Central Processing Unit) and a GPU (Graphic Processing Unit).
  • the control unit 509 executes only the display output from the display unit 503.
  • the control unit 509 executes audio output from the first audio output unit 504 together with display output from the display unit 503. .
  • the range in which the body allows intervention from ghost is defined as the permission level.
  • the range in which ghost intervenes on Body is defined as the mission level (described later).
  • the view information sharing is performed so that the above-described processing by the authentication unit 510 and the control unit 509 is executed not by the image providing apparatus 101 but by a server (not shown) interposed between the image providing apparatus 101 and the image display apparatus 102. It is also possible to configure the system 100.
  • the image display apparatus 102 is an apparatus provided for use by a user (viewer 112) that plays the role of ghost.
  • the image display apparatus 102 includes a communication unit 511, an image decoding unit 512, a display unit 513, a user input unit 514, and a position / orientation detection unit 515.
  • the communication unit 511 is interconnected with the image providing apparatus 101 via the network, and receives first person video from the image providing apparatus 101 and communicates with the image providing apparatus 101.
  • the communication means of the communication unit 511 may be either wireless or wired and is not limited to a specific communication standard, but is assumed to be consistent with the communication unit 508 on the image providing apparatus 101 side.
  • the image decoding unit 512 decodes the image signal received from the image providing apparatus 101 by the communication unit 511.
  • the display unit 513 displays and outputs the whole sky image (Body first person video) after being decoded by the image decoding unit 512. Note that the processing (described above) for rendering the viewpoint video that has left the body from the first person video of Body may be performed by the image decoding unit 512 instead of the image processing unit 502 on the image providing apparatus 101 side.
  • the position / orientation detection unit 515 detects the position and orientation of the viewer's 112 head.
  • the detected position and orientation correspond to the current viewpoint position and line-of-sight direction of ghost.
  • the position of the viewer 112 detected by the position / orientation detection unit 515 indicates the viewpoint position and line-of-sight direction of a virtual camera (described above) when creating a viewpoint image that is artificially removed from the body of the first person of Body. Control can be based on position and orientation.
  • the display unit 513 includes, for example, a head-mounted display worn by the viewer 112 as ghost. If an immersive head-mounted display is used for the display unit 513, the viewer 112 can experience the same scene as the viewer 111 more realistically.
  • the video viewed by the viewer 112, that is, ghost is not the first person video of the body itself, but is a surrounding space (a viewpoint video that is pseudo outside the body of the body) that is artificially constructed from a continuous image of the first person video. (See above). Further, it is possible to move the display angle of view of the display unit 513 by controlling the virtual camera so as to follow the viewpoint position and line-of-sight direction of the viewer 112 detected by the ghost head tracking, that is, the position / orientation detection unit 515. it can.
  • a wearable terminal such as a see-through type head mounted display or a watch type display may be used instead of the immersive type head mounted display.
  • the display unit 513 does not need to be a wearable terminal, and is a multifunctional information terminal such as a smartphone or a tablet, a general monitor display such as a computer screen or a television receiver, a game machine, or an image on the screen. It may be a projector that projects
  • the user input unit 514 is a device for inputting the intention and consciousness of ghost itself when the viewer 112 as the Host observes the first person video of the Body displayed on the display unit 513.
  • the user input unit 514 includes a coordinate input device such as a touch panel, a mouse, and a joystick.
  • ghost can directly indicate a place of particular interest by touching or clicking the mouse on the screen displaying the first person video of Body. Although ghost gives an instruction on the pixel coordinates of the video being viewed, it does not make sense because the photographed video on the Body side always changes. Therefore, the user input unit 514 specifies position information in the three-dimensional space corresponding to the pixel position designated by ghost by touching or clicking on the screen, etc. by image analysis, and the position information in the three-dimensional space is imaged. Transmit to the providing apparatus 101. Therefore, ghost can perform pointing that can be fixed with respect to space, not pixel coordinates.
  • the user input unit 514 captures eye movements using a ghost face image captured by the camera and an electro-oculogram, determines a location where ghost is gazed, and specifies information for identifying the location. You may make it transmit to the image provision apparatus 101.
  • FIG. Also in this case, the user input unit 514 specifies position information in the three-dimensional space corresponding to the pixel position that ghost takes a close look by image analysis or the like, and transmits the position information in the three-dimensional space to the image providing apparatus 101. To do. Therefore, ghost can perform pointing that can be fixed with respect to space, not pixel coordinates.
  • the user input unit 514 includes a character input device such as a keyboard.
  • ghost can input the intention or consciousness he / she wants to give to Body when he / she has the same first person experience as Body, as character information.
  • the user input unit 514 may transmit the character information input by ghost to the image providing apparatus 101 as it is, or may transmit it to the image providing apparatus 101 after replacing it with another signal format such as an audio signal.
  • the user input unit 514 includes a voice input device such as a microphone, and inputs the voice uttered by ghost.
  • the user input unit 514 may transmit the input sound from the communication unit 511 to the image providing apparatus 101 as an audio signal.
  • the user input unit 514 may recognize the input voice, convert it into character information, and transmit it to the image providing apparatus 101 as character information.
  • Ghost points to an object using a directive such as “that” or “this” while watching the first person video of Body.
  • the user input unit 514 specifies the position information in the three-dimensional space of the thing indicated by the instruction word by language analysis and image analysis, and transmits the position information in the three-dimensional space to the image providing apparatus 101. To do. Therefore, ghost can perform pointing that can be fixed with respect to space, not pixel coordinates.
  • the user input unit 514 may be a gesture input device that inputs ghost gestures and hand gestures.
  • the means for capturing the gesture is not particularly limited.
  • the user input unit 514 may include a camera that captures the motion of the ghost limb and an image recognition device that processes the captured image. In order to facilitate image recognition, a marker may be attached to the body of ghost.
  • the user input unit 514 may transmit the input gesture from the communication unit 411 to the image providing apparatus 101 as a control signal that intervenes in the body of Body, for example.
  • the user input unit 514 converts the input gesture into image information (such as coordinate information, AR image to be superimposed, or character information) that intervenes in the body's field of view, or an audio signal that intervenes in the body's hearing. Then, it may be transmitted from the communication unit 511 to the image providing apparatus 101.
  • the user input unit 514 specifies position information in the three-dimensional space corresponding to the pixel position designated by ghost by a gesture by image analysis or the like, and transmits the position information in the three-dimensional space to the image providing apparatus 101. . Therefore, ghost can perform pointing that can be fixed with respect to space, not pixel coordinates.
  • JackIn developed in the view information sharing system 100 is similar to general AR technology from the viewpoint of displaying an AR image in a superimposed manner. However, in JackIn, it is thought that it differs from a normal AR technology provided by a computer in that a human (Ghost) expands another human (Body).
  • JackIn is also similar to telepresence (described above). However, normal telepresence is an interface for viewing the world from the viewpoint of a machine such as a robot, whereas JackIn is a situation where a human (Ghost) views from the viewpoint of another human (Body). Is different. Telepresence is based on the premise that a human being is a master and a machine is a slave, and that the slave machine faithfully reproduces human movements. On the other hand, when a human (Ghost) JackIn to another human (Body), Body does not always move according to ghost, but is an interface that allows independence.
  • the video provided from the image providing device 101 to the image display device 102 is not always a real-time video (that is, a live video taken by the imaging unit 501) that is observed by the body on the spot.
  • the image providing apparatus 101 may include a large-capacity storage device (not shown) that records past videos, and the past videos may be distributed from the image providing apparatus 101.
  • a past recorded video by the image providing apparatus 101 is accumulated on a JackIn server (provisional name) that controls JackIn between Body and ghost, or other recording servers, and ghost (image display apparatus 102) is stored from these servers.
  • the past video may be streamed.
  • ghost is not allowed to intervene in Body including visual field and hearing when viewing past videos. This is because the video that ghost is watching is not the video of the site where Body is currently working, and intervening based on the past video will hinder Body's current work.
  • JackIn has a plurality of communication channels such as “view intervention”, “auditory intervention”, “body intervention”, and “alternative conversation”. Therefore, by starting JackIn with ghost, Body can share his field of view with ghost and receive support, instructions, guidance, and guidance from ghost for the current work through visual field intervention etc. Can do. In addition, by starting JackIn with Body, ghost can experience the first person of Body without going to the site, and also supports, directs, and guides Body's work through visual intervention etc. , Can guide. In the following, the interaction between Body and ghost will be described with particular attention to visual field intervention.
  • FIG. 6A illustrates an image displayed on the display unit 513 (a first person image of Body experienced by ghost). As indicated by reference numeral 601, it is assumed that ghost designates a certain place in the image by touch.
  • FIG. 6B illustrates the Body field of view at this time.
  • the display unit 503 on the image providing apparatus 101 side displays an AR image indicating a location designated by ghost, superimposed on the Body field of view.
  • Ghost instructs a certain place on the display image by voice or gesture as in the example shown in FIG. 6, information specifying the place is transmitted to the image providing apparatus 101, and the image providing apparatus 101 side Then, an AR image indicating the place is superimposed and displayed.
  • the direction of the line of sight is detected by, for example, capturing ghost's eye movement, and the location where ghost is gaze is determined, and information specifying the location is transmitted to the image providing apparatus 101. Also good.
  • FIG. 7 schematically shows a mechanism for visual intervention from ghost to Body.
  • image analysis is performed on the location instructed by ghost in the three-dimensional space of the first person image of Body.
  • the position information in the three-dimensional space is transmitted to the image providing apparatus 101.
  • the display unit 503 maps the location indicated by ghost to the same location on the body's field of view based on the received three-dimensional position information, and presents the location.
  • An image (pointer) is superimposed on the Body field of view.
  • the AR image such as a pointer is not mapped to the pixel position on the display screen of the display unit 503 but is mapped to an actual three-dimensional space, the body shakes its head or moves from place to place. The pointer remains superimposed on the same place in the three-dimensional space.
  • the Display unit 503 has the display unit 503 on the image providing apparatus 101 side by converting the location pointed by ghost with the user input unit 514 into position information in the three-dimensional space of the view on the Body side and transmitting it.
  • the AR image can be displayed at the same location in the three-dimensional space, and the location instructed by ghost can be correctly communicated to Body.
  • the user input unit 514 determines that ghost is pointing the boat 901 on the screen
  • the user input unit 514 transmits position information on the three-dimensional space indicating the location of the boat 901 to the image providing apparatus 101.
  • the display unit 503 maps the location indicated by ghost to the body's field of view based on the received three-dimensional position information, and indicates the boat indicated by ghost with reference numeral 801.
  • An AR image such as a pointer is superimposed on the Body field of view. Therefore, Body can visually understand that ghost is pointing to a boat in his field of view, and can realize interaction by visual intervention from ghost.
  • Ghost can intervene in Body's field of view in the form of an instruction to move the field of view in addition to the form of instructing the place as shown in FIG.
  • FIG. 10 schematically shows a mechanism in which ghost instructs Body to move the field of view.
  • ghost can input an instruction of the direction of visual field movement with respect to Body by a swipe operation on the touch panel.
  • a drag operation using a mouse or a direction input using a joystick can also be used.
  • ghost can also input an instruction of the visual field movement direction with respect to Body by voice input such as “turn more left”.
  • the user input unit 514 may recognize the ghost voice and convert it into an instruction of the visual field movement direction with respect to Body.
  • the image providing device 101 side superimposes and displays an AR image indicating the moving direction of the view, such as an arrow indicated by reference numeral 1101, on the Body view (see FIG. 11), the Body can be instructed to turn further to the left (or to the left).
  • the display unit 503 displays character information representing an instruction from ghost in addition to a display form in which an AR image formed of a graphic as illustrated in FIG. 7 or FIG. 11 is superimposed on the body field of view. Also good.
  • FIG. 12 shows a state in which the character information “Looking further left” instructed by ghost is displayed as indicated by reference numeral 1201.
  • character information instructed by ghost may be displayed in a display format such as a chat or an electronic bulletin board using a region 1301 at the periphery of the Body field of view.
  • the display unit 503 may arrange the character information in any place in the Body field of view. However, in order not to obstruct the work performed by the observer 111, character information is displayed on the periphery of the body field of view as shown in FIG. It is preferable. Alternatively, in order to prevent the Body from overlooking an urgent instruction from ghost, the display unit 503 may dare to display the character information large in the center of Body's vision (ie, stand out). .
  • the display unit 503 switches the character information in the order of reception and displays the character information by scrolling vertically or horizontally. You may make it do.
  • the image providing apparatus 101 converts the character information into an audio signal instead of displaying it on the display unit 503 as described above.
  • the voice may be output from the first voice output unit 504 and transmitted to the body as a voice message (see FIG. 14). By outputting the character information as auditory rather than visual, an instruction from ghost can be transmitted without blocking the body's view.
  • the observer 111 as a body obstructs even a part of the field of view, it interferes with the work at the site, or when the body can continue the work without listening to the sound at the site (when working alone) If the character information is converted into a voice signal and outputted as a voice, it is possible to effectively instruct Body.
  • Ghost utilizes the communication function between the image display device 102 and the image providing apparatus 101, "visibility intervention”, “Hearing intervention”, the “body intervention” By doing this, it is possible to instruct Body to act on the site.
  • Body and ghost are in a one-to-one relationship, Body can clearly understand who is instructed by “visual intervention”, “auditory intervention”, and “physical intervention”.
  • JackIn of 1 to N format As a use case of JackIn of 1 to N format, for example, as shown in FIG. 15, when two Body 1510 and 1520 play a game or the like in a space indicated by reference number 1500, a space is provided for one Body 1511. A plurality of ghosts 1511, 1512, 1513 overlooking 1300 send instructions (ie, intervene), and similarly, a plurality of ghosts 1521, 1522, 1523 behind the other Body 1520 send instructions (ie, intervene). A form is mentioned.
  • the group of ghosts 1511, 1512, and 1513 is an individual in Body 1510 (or Body 1520) according to the words of “the wisdom of the literary world if three people come together”. Can give accurate and excellent instructions that cannot be recalled. On the other hand, because there are too many people to instruct Body 1510 (or Body 1520), unification is not achieved, and the game proceeds in the wrong direction. There is also a risk of falling into a situation.
  • the output unit (the display unit 503, the first audio output unit 504, the drive unit 505, and the second audio output unit) on the image providing apparatus 101 side has a case where a plurality of ghosts intervene simultaneously. (I.e., when information from a plurality of image display devices 102 is received at the same time), instead of simply outputting information from all ghosts, by gathering a plurality of information and outputting it, the Body side The interference prevention process is performed at.
  • the first ghost and the second ghost each receive a captured image (first person video) by Body, and the first information generated according to the input to the first ghost and the input to the second ghost
  • the control unit 509 displays and outputs the aggregated image obtained by aggregating the first information and the second information on the display unit 503. Control.
  • the Body When performing a visual field intervention in which a plurality of ghosts utter each voice and point to any location in the body's field of view, the Body simply displays the pointer at the location indicated by each ghost. It is difficult to match the pointer. Therefore, as shown in FIG. 16, the visual intervention unit 403 gives the pointer 1601 a blinking pattern 1603 that blinks synchronously with the same waveform as the pattern 1602 of the corresponding ghost voice volume. As a result, Body searches for a pointer 1601 that blinks in synchronization with the change in the volume of the voice in its field of view, thereby making it easier to match the ghost voice and the pointer.
  • FIG. 17 shows an example of a procedure for processing visual field intervention from ghost in the image providing apparatus 101 in the form of a flowchart.
  • the communication unit 406 When the communication unit 406 receives an instruction (for example, information on the location pointed to by ghost) from the image display device 102 (for example, information on the location indicated by ghost) from the image display device 102, the ghost audio information is also received from the same image display device 102. It is further checked whether or not it has been done (step S1502).
  • an instruction for example, information on the location pointed to by ghost
  • the image display device 102 for example, information on the location indicated by ghost
  • step S1503 If ghost audio information is not received from the same image display device 102 (No in step S1502), the display unit 503 directly displays the AR image of the pointer indicating the location pointed to by ghost (without blinking). ) Superimposed on the Body field of view (step S1503), the process routine is terminated.
  • step S1502 when ghost audio information is received from the same image display apparatus 102 (Yes in step S1502), the display unit 503 analyzes the audio information and extracts an audio volume pattern (step S1504). ) The AR image of the pointer having the same blinking pattern as the voice volume pattern is superimposed on the Body field of view (step S1505), and the processing routine is terminated.
  • the display unit 503 aggregates the locations indicated by a number of ghosts that are simultaneously intervening in the field of view, and converts the distribution of the indicated locations into a heat map format as indicated by reference numerals 1801 to 1804 in FIG. You may make it display.
  • the heat map can be called a collective pointer display. Note that the heat map is not mapped to the pixel position on the display screen of the display unit 503, but is mapped to the actual three-dimensional space, so the body shakes his head or moves the place. However, the heat map remains superimposed on the same place in the three-dimensional space.
  • FIG. 19 shows a processing procedure for displaying visual field intervention from a number of ghosts in the form of a heat map in the form of a heat map in the image providing apparatus 101.
  • step S1701 it is checked whether or not the number of ghosts intervening in the Body's field of view (that is, the number of image display devices 102 that transmit the location information indicated by ghost) exceeds a predetermined number (step S1701).
  • the display unit 503 executes a normal field-of-view intervention process (step S1702) and ends this processing routine.
  • the normal visual intervention process is performed, for example, according to the processing procedure shown in FIG. 17, and a pointer is superimposed and displayed at a location pointed to by ghost.
  • the display unit 503 displays a heat map indicating the locations indicated by a number of ghosts that intervene in the field of view at the same time. Specifically, the distribution of the location indicated by each ghost on the three-dimensional space of the body's field of view is taken (step S1703), and a heat map is created in which the distribution is plotted according to the color scale or the shade scale (step S1704). Then, the created heat map is displayed superimposed on the Body field of view (step S1705).
  • the character information input from the keyboard or the like on the image display device 102 side or the character information obtained by recognizing the ghost voice is displayed in the Body view in a display format such as chat.
  • character information is sent simultaneously from a number of ghosts, if these are simply arranged in time series and displayed in the Body view, for example, the Body will not know what to do. is there.
  • text information that indicates conflicting actions such as “turn more left” and “turn right”
  • Body does not know which direction to follow. It will be confusing.
  • there is a problem that the body's field of view is filled with a lot of character information.
  • the display unit 503 not perform the process of thinning out the information amount (or the number of characters) of the character information to be displayed in the Body view, instead of displaying all the character information sent from a number of ghosts.
  • the display unit 503 may extract only common or frequently appearing words or words that are keywords from character information sent from a number of ghosts, and perform thinning processing on the character information. When extracting words, similar words may be combined into one word. Then, the display unit 503 displays the extracted keywords in a tag cloud format (see, for example, Patent Document 5) according to the appearance frequency, importance, etc. The colors, shades, and the like may be changed so as to be superimposed and displayed in the Body field of view so as to float like a cloud.
  • a tag cloud format see, for example, Patent Document 5
  • the colors, shades, and the like may be changed so as to be superimposed and displayed in the Body field of view so as to float like a cloud.
  • the display unit 503 may apply processing such as language analysis or language recognition to a large number of sent character information so as to display only the summarized character information in the Body view.
  • FIG. 20 shows a processing procedure for displaying character information sent from ghost in the image providing apparatus 101 in the form of a flowchart.
  • step S1801 it is checked whether or not the number of character information received from ghost (that is, the number of image display devices 102 that transmit character information) exceeds a predetermined number (step S1801).
  • Step S1802 when the number of character information is less than the predetermined number (No in Step S1801), the display unit 503 executes a normal visual field intervention process (Step S1802), and ends this processing routine.
  • the normal visual field intervention process for example, as shown in FIG. 12, the character information is displayed as it is.
  • character information may be displayed in a form such as a chat or an electronic bulletin board by using a peripheral area of the Body view.
  • the display unit 503 performs a process of thinning out the information amount (or the number of characters) of the character information displayed in the Body field of view. For example, the display unit 503 extracts a common word from a large number of sent character information (step S1803), and superimposes it on the body field of view in a tag cloud format (step S1804). Alternatively, the display unit 503 applies processing such as language analysis and language recognition to a large number of character information, and displays only the summarized character information in the Body field of view. With the thinning process, Body does not have to be confused.
  • the above-described processing for aggregating instruction information from a plurality of ghosts for a single Body is not performed by the image display device 102 (for example, a head-mounted display worn by the Body). It may be performed on a server interposed between ghosts, and processing results by the server may be provided to the Body.
  • the technology disclosed in this specification can be used for work support in various industrial fields, such as medical sites such as surgery, construction sites such as civil engineering, airplane and helicopter operations, car driver navigation, and sports instructions. It can be used for such applications.
  • the description is focused on an embodiment related to a system in which ghost, who shares a first person image of Body, intervenes in Body's field of view or hearing with respect to Body who works in the field with the body.
  • the gist of the technology disclosed in the present specification is not limited to this.
  • the technology disclosed in the present specification can be similarly applied to various information processing apparatuses that display information on support, instructions, guidance, and guidance from others in the field of view of a person.
  • An information processing system comprising a control unit that controls display of an aggregated image obtained by aggregating second information.
  • the control unit aggregates the first information based on voice information input to the first system and the second information based on voice information input to the second system. Control the display of the aggregated image
  • the control unit changes the first information included in the aggregated image according to a change in strength of sound input to the first system.
  • the control unit controls display of an aggregated image indicating a distribution of locations indicated by a plurality of systems that receive the captured image, including the first system and the second system.
  • the control unit controls display of an aggregated image obtained by aggregating the first information and the second information including character information.
  • the control unit extracts common or frequently appearing words from a plurality of character information generated by a plurality of systems that receive the captured image, including the first system and the second system. To display The information processing system according to (1) above.
  • the control unit displays the extracted word in a tag cloud format.
  • the information processing system according to (7) above. The control unit summarizes and displays a plurality of pieces of character information generated by a plurality of systems that receive the captured image, including the first system and the second system.
  • the information processing system according to (1) above. It further includes an imaging unit that generates the captured image.
  • the information processing system according to (1) above. (11) A display unit is further provided, The control unit controls display of the aggregated image by the display unit.
  • (12) The display unit superimposes and displays the aggregated information on a real world landscape.
  • DESCRIPTION OF SYMBOLS 100 ... Visibility information sharing system 101 ... Image provision apparatus, 102 ... Image display apparatus 501 ... Imaging part, 502 ... Image processing part, 503 ... Display part 504 ... 1st audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

撮像画像の受信機器で入力される情報の表示を制御する情報処理システム及び情報処理方法を提供する。 Bodyによる撮像画像(一人称映像)を第1のGhostと第2のGhostがそれぞれ受信し、第1のGhostに対する入力に応じて生成される第1の情報と第2のGhostに対する入力に応じて生成される第2の情報がBodyに送られてくる場合、制御部509は、これら第1の情報と第2の情報を集約して得られる集約画像を表示部503で表示出力するように制御する。

Description

情報処理システム及び情報処理方法
 本明細書で開示する技術は、撮像画像の受信機器で入力される情報の表示を制御する情報処理システム及び情報処理方法に関する。
 ユーザーが自分以外の視界光景(自分以外の移動体から見える光景)にアクセスする技術が知られている。
 例えば、車両などの移動体に搭載された移動カメラにより撮像された画像を遠隔的に取得する移動カメラ・システムについて提案がなされている(例えば、特許文献1を参照のこと)。また、撮像センシング無線機器を配置したメガネを掛けた人が取得する視覚情報と同様の情報をヘッド・マウント・ディスプレイの装着者に提供する画像処理システムについて提案がなされている(例えば、特許文献2を参照のこと)。
 さらに、移動体の撮像画像を表示する表示装置側から移動体の撮像装置に対して撮像する視点位置及び視線方向、さらに撮影時の速度を指定する画像表示システムについて提案がなされている(例えば、特許文献3を参照のこと)。
特開2006-186645号公報 特開2004-222254号公報 特開2008-154192号公報 特開2014-104185号公報 特開2010-15558号公報
 本明細書で開示する技術の目的は、撮像画像の受信機器で入力される情報の表示を好適に制御することができる、優れた情報処理システム及び情報処理方法を提供することにある。
 本明細書で開示する技術は、上記課題を参酌してなされたものであり、その第1の側面は、
 撮像システムによる撮像画像を受信する第1のシステムに対する入力に応じて生成される第1の情報と、前記撮像システムによる撮像画像を受信する第2のシステムに対する入力に応じて生成される第2の情報とを集約して得られる集約画像の表示を制御する制御部を具備する、情報処理システムである。
 但し、ここで言う「システム」とは、特定の機能を実現する機能モジュールが論理的に集合した物のことを言い、単一の装置として構成される場合と、複数の装置が連携して機能する場合の双方を含むものとする。
 本明細書で開示する技術の第2の側面によれば、第1の側面に係る情報処理システムの前記制御部は、前記第1のシステムに入力される音声情報に基づく前記第1の情報と、前記第2のシステムに入力される音声情報に基づく前記第2の情報とを集約して得られる集約画像の表示を制御するように構成されている。
 本明細書で開示する技術の第3の側面によれば、第1の側面に係る情報処理システムの前記制御部は、前記第1のシステムに入力される音声情報に基づいて、前記集約画像の表示を制御するように構成されている。
 本明細書で開示する技術の第4の側面によれば、第3の側面に係る情報処理システムの前記制御部は、前記第1のシステムに入力される音声の強弱の変化に応じて、前記集約画像に含まれる前記第1の情報を変化させるように構成されている。
 本明細書で開示する技術の第5の側面によれば、第1の側面に係る情報処理システムの前記制御部は、前記第1のシステム及び前記第2のシステムを含む、前記撮像画像を受信する複数のシステムで指示された場所の分布を示す集約画像の表示を制御するように構成されている。
 本明細書で開示する技術の第6の側面によれば、第1の側面に係る情報処理システムの前記制御部は、文字情報からなる前記第1の情報及び前記第2の情報を集約して得られる集約画像の表示を制御するように構成されている。
 本明細書で開示する技術の第7の側面によれば、第1の側面に係る情報処理システムの前記制御部は、前記第1のシステム及び前記第2のシステムを含む、前記撮像画像を受信する複数のシステムで生成された複数の文字情報の中から共通し又は頻出する単語を抽出して表示させるように構成されている。
 本明細書で開示する技術の第8の側面によれば、第7の側面に係る情報処理システムの前記制御部は、前記抽出した単語をタグ・クラウド形式で表示させるように構成されている。
 本明細書で開示する技術の第9の側面によれば、第1の側面に係る情報処理システムの前記制御部は、前記第1のシステム及び前記第2のシステムを含む、前記撮像画像を受信する複数のシステムで生成された複数の文字情報を要約して表示させるように構成されている。
 本明細書で開示する技術の第10の側面によれば、第1の側面に係る情報処理システムは、前記撮像画像を生成する撮像部をさらに備えている。
 本明細書で開示する技術の第11の側面によれば、第1の側面に係る情報処理システムは、表示部をさらに備えている。そして、前記制御部は、前記表示部による前記集約画像の表示を制御するように構成されている。
 本明細書で開示する技術の第12の側面によれば、第11の側面に係る情報処理システムの前記表示部は、前記集約情報を実世界の風景に重畳して表示するように構成されている。
 また、本明細書で開示する技術の第13の側面は、
 撮像システムによる撮像画像を受信する第1のシステムに対する入力に応じて生成される第1の情報と、前記撮像システムによる撮像画像を受信する第2のシステムに対する入力に応じて生成される第2の情報とを集約して得られる集約画像の表示を制御する制御ステップを有する、情報処理方法である。
 本明細書で開示する技術によれば、撮像画像の受信機器で入力される情報の表示を好適に制御することができる、優れた情報処理システム及び情報処理方法を提供することができる。
 なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
 本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図1は、本明細書で開示する技術を適用した視界情報共有システム100の概要を示した図である。 図2は、1対Nのネットワーク・トポロジーを模式的に示した図である。 図3は、N対1のネットワーク・トポロジーを模式的に示した図である。 図4は、N対Nのネットワーク・トポロジーを模式的に示した図である。 図5は、画像提供装置101と画像表示装置102の機能的構成例を示した図である。 図6は、GhostがBodyの視界に介入する様子を例示した図である。 図7は、GhostがBodyへ視界介入する仕組みを説明するための図である。 図8は、GhostがBodyの視界に介入する様子を例示した図である。 図9は、GhostがBodyの視界に介入する様子を例示した図である。 図10は、GhostがBodyへ視界介入する仕組みを説明するための示した図である。 図11は、GhostがBodyの視界に介入する様子(視界の移動方向の表示)を例示した図である。 図12は、GhostがBodyの視界に介入する様子(文字情報の表示)を例示した図である。 図13は、GhostがBodyの視界に介入する様子(チャット形式)を例示した図である。 図14は、GhostがBodyへ聴覚介入する仕組みを説明するための図である。 図15は、複数のGhostからBodyへ同時介入する空間1500を例示した図である。 図16は、Ghostの声のボリュームのパターンと同じ明滅パターンをポインターに与える視界介入を例示した図である。 図17は、画像提供装置101においてGhostからの視界介入を処理する手順の一例を示したフローチャートである。 図18は、Ghostが指し示す場所を示すヒートマップを表示する例を示した図である。 図19は、画像提供装置101において多数のGhostからの視界介入をヒートマップ形式で表示するための処理手順を示したフローチャートである。 図20は、画像提供装置101においてGhostから送られてくる文字情報を表示するための処理手順を示したフローチャートである。
 以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。
A.システム構成
 図1には、本明細書で開示する技術を適用した視界情報共有システム100の概要を示している。図示の視界情報共有システム100は、現場を撮影した画像を提供する画像提供装置101と、画像提供装置101から提供される画像を表示する画像表示装置102の組み合わせで構成される。
 画像提供装置101は、具体的には、実際に現場に居て活動する観察者111が頭部に着用するカメラ付きシースルー型のヘッド・マウント・ディスプレイで構成される。ここで言う「シースルー型」のヘッド・マウント・ディスプレイは、光学透過型であることを基本とするが、ビデオ・シースルー型であってもよい。ヘッド・マウント・ディスプレイに搭載されるカメラは、観察者111のほぼ視線方向を撮影して、その一人称映像(FPV:First Pereson View)を提供する。
 一方、画像表示装置102は、現場すなわち画像提供装置101から離間して配置され、画像提供装置101と画像表示装置102はネットワーク経由で通信することを想定している。ここで言う「離間」には、遠隔地の他、同じ室内でわずかに(例えば、数メートル程度)離れている状況も含むものとする。また、図示しないサーバーを介して画像提供装置101と画像表示装置102の間でデータ交換を行なうことも想定される。
 画像表示装置102は、例えば、現場には居ない人(撮影画像の視聴者)112が着用するヘッド・マウント・ディスプレイである。没入型のヘッド・マウント・ディスプレイを画像表示装置102に用いれば、視聴者112は、観察者111と同じ光景をよりリアルに体験することができる。但し、シースルー型のヘッド・マウント・ディスプレイを画像表示装置102に用いてもよい。
 また、画像表示装置102は、ヘッド・マウント・ディスプレイには限定されず、例えば腕時計型のディスプレイであってもよい。あるいは、画像表示装置102は、ウェアラブル端末である必要はなく、スマートフォンやタブレットなどの多機能情報端末、コンピューター・スクリーンやテレビジョン受像機などの一般的なモニター・ディスプレイ、ゲーム機、さらにはスクリーンに画像を投影するプロジェクターなどでもよい。
 観察者111は、実際に現場に居て、自らの身体を以って活動していることから、画像提供装置101のユーザーである観察者111(又は、画像提供装置101)のことを、以下では「Body」とも呼ぶ。これに対し、視聴者112は、現場で身体を以って活動する訳ではないが、観察者111の一人称映像を視聴することによって現場に対する意識を持つことから、画像表示装置102のユーザーである視聴者112(又は、画像表示装置102)のことを、以下では「Ghost」とも呼ぶ。
 Bodyは、自分の周辺状況をGhostに伝達し、さらに状況をGhostと共有する。一方のGhostは、Bodyとコミュニケーションをとって離間した場所から作業支援などのインタラクションを実現することができる。視界情報共有システム100において、GhostがBodyの一人称体験に没入してインタラクションを行なうことを、以下では「JackIn」とも呼ぶ。
 視界情報共有システム100は、BodyからGhostへ一人称映像を送信しGhost側でも視聴・体験することと、BodyとGhost間でコミュニケーションをとることを基本的な機能とする。後者のコミュニケーション機能を利用して、Ghostは、Bodyの視界に介入する「視界介入」、Bodyの聴覚に介入する「聴覚介入」、Bodyの身体若しくは身体の一部を動作させたり刺激を与えたりする「身体介入」、GhostがBodyに代わって現場で話をする「代替会話」といった、遠隔地からの介入によって、Bodyに対するインタラクションを実現することができる。JackInでは、「視界介入」、「聴覚介入」、「身体介入」、「代替会話」といった複数のコミュニケーション・チャネルがあるということもできる。「視界介入」、「聴覚介入」、「身体介入」、「代替会話」それぞれの詳細については後述に譲る。
 Ghostは、「視界介入」、「聴覚介入」、「身体介入」、「代替会話」を通じて、Bodyに対して現場での行動を指示することができる。例えば、外科手術などの医療現場や土木作業などの建築現場などさまざまな産業分野の作業支援、飛行機やヘリコプターの操縦の指示や誘導、自動車の運転者の案内、スポーツにおけるコーチング若しくはインストラクションなどの用途に視界情報共有システム100を活用することができる。
 例えば、Bodyは、自分の視界を他人と共有したい場合の他、視界介入などを通じて、現在行なっている作業に対して他人から支援や指示、誘導、案内を受けたい(若しくは、受けなければならない)場合に、自ら主導的に適当なGhostとのJackIn(Body initiative start)を実施する。
 また、Ghostは、自分が出向くことなく現場の映像(他人の一人称映像)を視聴したい場合の他、他人が行なっている作業に対して支援や指示、誘導、案内を行ないたい(若しくは、行なわなければならない)場合に、自ら主導的に該当するBodyとのJackIn(Ghost initiative start)を実施する。
 但し、Bodyは、無制限に自分の視界や聴覚、身体、会話に介入されると、自分の行動がGhostに邪魔され、あるいは自分の行動に支障をきたし危険な場合や、プライバシーが侵害されることもある。一方、Ghostにとっても、見たくない映像がある場合や、頼まれてもBodyに対して適切な支援や指示、誘導、案内などのサービスを提供できない場合がある。したがって、GhostのBodyへのJackInや、JackInした状態でのGhostからBodyへの介入に一定の制限を課すようにしてもよい。
 なお、図1では簡素化のため、画像提供装置101と画像表示装置102をそれぞれ1台しか存在しない、BodyとGhostが1対1のネットワーク・トポロジーを描いている。図2には、1つのBodyと複数(N)のGhostが同時にJackInする1対Nのネットワーク・トポロジーや、図3に示すような、複数(N)のBodyと1つのGhostが同時にJackInするN対1のネットワーク・トポロジー、図4に示すような、複数(N)のBodyと複数(N)のGhostが同時にJackInするN対Nのネットワーク・トポロジーも想定される。
 また、1つの装置がBodyからGhostへ切り替わったり、逆にGhostからBodyへ切り替わったりすることや、同時にBodyとGhostの役割を持つことも想定される。1つの装置がGhostとしてあるBodyにJackInすると同時に、他のGhostに対してBodyとして機能して、3台以上の装置がディジーチェーン接続されるネットワーク・トポロジー(図示を省略)も想定される。いずれのネットワーク・トポロジーにおいても、BodyとGhost間にサーバー(図示しない)が介在することもある。
B.機能的構成
 図5には、画像提供装置101と画像表示装置102の機能的構成例を示している。
 画像提供装置101は、Bodyとしての役割を果たすユーザー(観察者112)の利用に供される装置である。図5に示す例では、画像提供装置101は、撮像部501と、画像処理部502と、出力部としての表示部503、第1の音声出力部504、駆動部505及び第2の音声出力部506と、位置検出部507と、通信部508と、制御部509と、認証部510を備えている。
 撮像部501は、Bodyの一人称映像を撮影するカメラで構成される。撮像部501は、例えばBodyすなわち観察者111の視線方向を撮影するように、観察者111の頭部に取り付けられる。あるいは、撮像部501に全天周型カメラを用いて、Bodyの周囲360度の全天周画像を提供できるようにしてもよい。但し、全天周画像は必ずしも360度である必要はなく、一部の視野が欠けていてもよい。また、全天周画像は、情報の少ない床面を含まない半天球画像であってもよい(以下、同様)。
 画像処理部502は、撮像部501から出力される画像信号の処理を行なう。撮像部501で撮影されるBodyの一人称映像をそのままストリーミングする場合、Bodyは自分の意思で周辺を見渡したり視線方向を変えたりするので、Ghostは揺れの激しい映像を視聴することになり、VR(Virtual Reality)酔い若しくはモーション・シックネスを起こすなどの健康被害が懸念される。また、Bodyが着目していない別の個所をGhostが視聴したい場合もある。そこで、画像処理部502は、撮像部501が撮影するBodyの一人称映像の連続画像から周辺の空間を疑似的に構築するようにしている。具体的には、画像処理部502は、撮像部501が撮影する映像(全天周画像)に対してリアルタイムにSLAM(Simultaneous Localization and Mapping)認識技術などに基づく空間認識を行ない、現在のビデオ・フレームと過去のビデオ・フレームを空間的につなぎ合わせることで、Ghostがコントロールする仮想的なカメラ視点からの映像をレンダリングする。仮想的なカメラ視点でレンダリングされた映像は、Bodyの一人称映像というよりも疑似的にBodyの体外に離脱した視点映像である。したがって、Ghost側ではBodyの動きとは独立にBodyの周囲環境を観察できるので、映像の揺れを安定化させてVR酔いを防ぐとともに、Bodyが着目していない別の個所を視聴することができる。
 表示部503は、画像表示装置102から送られてくる情報を表示出力して、GhostによるBodyの視界への介入を実現する。上述したように画像提供装置101がシースルー型のヘッド・マウント・ディスプレイとして構成される場合、表示部503は、Bodyと一人称体験を共有するGhostの意識を表現したAR(Augmented Reality)画像を、観察者111の視界(すなわち、実世界の風景)に重畳表示する。AR画像は、例えばGhostが指し示した場所を示すポインターやアノテーションなどの画像からなる。したがって、Ghostは、Bodyとのコミュニケーションを通じてその視界に介入して、現場に居るBodyに対するインタラクションを行なうことができる。
 第1の音声出力部504は、例えばイヤホンやヘッドホンなどで構成され、画像表示装置102から送られてくる情報をBodyに聴かせることで、GhostによるBodyの聴覚への介入を実現する。画像表示装置102からは、Bodyと一人称体験を共有するGhostの意識に関する情報が送信される。画像提供装置101側では、受信した情報を音声信号に変換して、第1の音声出力部504から音声出力し、Bodyすなわち観察者111に聴かせる。あるいは、一人称体験中のGhostが発話した音声信号が、そのまま画像表示装置102から送信される。画像提供装置101側では、受信した音声信号をそのまま第1の音声出力部504から音声出力し、Bodyすなわち観察者111に聴かせる。また、第1の音声出力部504から出力する音声の音量や音質、出力タイミングなどを適宜調整するようにしてもよい。あるいは、画像表示装置102から届く画像情報や文字情報を音声信号に変換して、第1の音声出力部504から音声出力するようにしてもよい。したがって、Ghostは、Bodyとのコミュニケーションを通じてその聴覚に介入して、現場に居るBodyに対するインタラクションを行なうことができる。
 駆動部505は、Bodyの身体若しくは身体の一部を動作させたり刺激を与えたりして、GhostによるBodyの身体への介入を実現する。駆動部505は、例えば、観察者111の身体に対して、触覚(タクタイル)や(健康に害のない程度の軽微な)電気刺激を印加するアクチュエーターで構成される。あるいは、駆動部505は、観察者111が腕や手、脚などに装着するパワースーツや外骨格(exoskeleton)を駆動することで身体の運動を補助又は拘束する装置(例えば、特許文献5を参照のこと)で構成される。したがって、Ghostは、Bodyとのコミュニケーションを通じてその身体に介入して、現場に居るBodyに対するインタラクションを行なうことができる。
 第2の音声出力部506は、例えばBodyが装着するウェアラブル・スピーカーなどで構成され、画像表示装置102から届く情報又は音声信号を外部に音声出力する。第2の音声出力部506から出力される音声は、現場では、あたかもBody本人が話しているように聴こえる。したがって、Ghostは、Bodyに代わって、Bodyが居る現場の人たちと会話したり、音声による指示を行なったりすること(代替会話)ができる。
 位置検出部507は、例えばGPS(Global Positioning System)信号を用いて画像提供装置101(すなわちBody)の現在位置情報を検出する。検出された位置情報は、例えばGhostが所望する場所にいるBodyを検索する際に利用される。
 通信部508は、ネットワーク経由で画像表示装置102と相互接続し、撮像部501で撮影した一人称映像や空間情報の送信、画像表示装置102とのコミュニケーションを行なう。通信部508の通信手段は無線又は有線のいずれでもよく、また、特定の通信規格に限定されない。
 認証部510は、ネットワーク経由で相互接続される画像表示装置102(若しくは、そのユーザーであるGhost)の認証処理を行ない、画像表示装置102からの情報を出力する出力部を決定する。そして、制御部509は、認証部510による認証結果に応じて、出力部からの出力動作を制御する。制御部509は、例えばCPU(Central Processing Unit)とGPU(Graphic Processing Unit)に相当する機能を備えている。
 例えば、認証処理の結果、画像表示装置102に視界介入のみが許容されている場合には、制御部509は、表示部503からの表示出力のみを実行する。また、画像表示装置102に視界介入だけでなく聴覚介入も許容されている場合には、制御部509は、表示部503からの表示出力とともに第1の音声出力部504からに音声出力も実行する。BodyがGhostからの介入を許容する範囲は、permissionレベルとして定義される。一方、GhostがBodyに対して介入を行なう範囲は、missionレベルとして定義される(後述)。但し、認証部510及び制御部509による上記の処理を、画像提供装置101ではなく、画像提供装置101と画像表示装置102の間に介在するサーバー(図示しない)で実行するように、視界情報共有システム100を構成することも可能である。
 一方、画像表示装置102は、Ghostとしての役割を果たすユーザー(視聴者112)の利用に供される装置である。図5に示す例では、画像表示装置102は、通信部511と、画像復号部512と、表示部513と、ユーザー入力部514と、位置姿勢検出部515を備えている。
 通信部511は、ネットワーク経由で画像提供装置101と相互接続し、画像提供装置101から一人称映像の受信や、画像提供装置101とのコミュニケーションを行なう。通信部511の通信手段は無線又は有線のいずれでもよく、特定の通信規格に限定されないが、画像提供装置101側の通信部508と整合しているものとする。
 画像復号部512は、通信部511で画像提供装置101から受信した画像信号を復号処理する。表示部513は、画像復号部512で復号した後の全天周画像(Bodyの一人称映像)を表示出力する。なお、Bodyの一人称映像からBodyの体外に離脱した視点映像をレンダリングする処理(前述)を、画像提供装置101側の画像処理部502ではなく、画像復号部512で行なうようにしてもよい。
 位置姿勢検出部515は、視聴者112の頭部の位置及び姿勢を検出する。検出した位置及び姿勢は、Ghostの現在の視点位置及び視線方向に相当する。Bodyの一人称映像から疑似的にBodyの体外に離脱した視点映像を作り出す際の仮想的なカメラ(前述)の視点位置及び視線方向を、位置姿勢検出部515で検出した視聴者112の頭部の位置及び姿勢に基づいてコントロールすることができる。
 表示部513は、例えば、Ghostとしての視聴者112が着用するヘッド・マウント・ディスプレイで構成される。没入型のヘッド・マウント・ディスプレイを表示部513に用いれば、視聴者112は、観察者111と同じ光景をよりリアルに体験することができる。視聴者112すなわちGhostが視聴する映像は、Bodyの一人称映像そのものではなく、一人称映像の連続画像から疑似的に構築された周辺の空間(疑似的にBodyの体外に離脱した視点映像)であるとする(前述)。また、Ghostのヘッド・トラッキング、すなわち位置姿勢検出部515で検出した視聴者112の視点位置及び視線方向に追従するように仮想カメラを制御して、表示部513の表示画角を移動させることができる。
 表示部513として、没入型のヘッド・マウント・ディスプレイに代えて、シースルー型のヘッド・マウント・ディスプレイや、腕時計型のディスプレイなどのウェアラブル端末を用いてもよい。あるいは、表示部513は、ウェアラブル端末である必要はなく、スマートフォンやタブレットなどの多機能情報端末、コンピューター・スクリーンやテレビジョン受像機などの一般的なモニター・ディスプレイ、ゲーム機、さらにはスクリーンに画像を投影するプロジェクターなどでもよい。
 ユーザー入力部514は、Ghostとしての視聴者112が、表示部513に表示されているBodyの一人称映像を観察したことに対して、Ghost自身の意図や意識を入力するためのデバイスである。
 ユーザー入力部514は、例えばタッチパネルやマウス、ジョイスティックなどの座標入力装置で構成される。Ghostは、Bodyの一人称映像を表示する画面内で、特に関心のある場所を、タッチやマウスのクリック操作などにより直接指示することができる。Ghostは視聴している映像の画素座標上に指示を行なうが、Body側の撮影映像は常に変化するので意味をなさない。そこで、ユーザー入力部514は、Ghostが画面のタッチやクリック操作などにより指示した画素位置に対応する3次元空間上の位置情報を画像解析などにより特定し、その3次元空間上の位置情報を画像提供装置101に送信する。したがって、Ghostは、画素座標ではなく、空間に対して固定できるポインティングを行なうことができる。
 また、ユーザー入力部514は、カメラによるGhostの顔の撮影画像や眼電位を用いて眼球運動を捕捉して、Ghostが熟視(gaze)している場所を割り出し、その場所を特定する情報を画像提供装置101に送信するようにしてもよい。その際も、ユーザー入力部514は、Ghostが熟視する画素位置に対応する3次元空間上の位置情報を画像解析などにより特定し、その3次元空間上の位置情報を画像提供装置101に送信する。したがって、Ghostは、画素座標ではなく、空間に対して固定できるポインティングを行なうことができる。
 また、ユーザー入力部514は、キーボードなどの文字入力装置で構成される。Ghostは、Bodyと同じ一人称体験をしたときに、Bodyに伝えたい意図や抱いた意識などを、文字情報として入力することができる。ユーザー入力部514は、Ghostが入力した文字情報をそのまま画像提供装置101に送信してもよいし、音声信号など他の信号形式に置き換えてから画像提供装置101に送信するようにしてもよい。
 また、ユーザー入力部514は、マイクなどの音声入力装置で構成され、Ghostが発話した音声を入力する。ユーザー入力部514は、入力された音声を、音声信号のままで、通信部511から画像提供装置101へ送信してもよい。あるいは、ユーザー入力部514は、入力音声を音声認識して文字情報に変換し、文字情報として画像提供装置101に送信するようにしてもよい。
 Ghostは、Bodyの一人称映像を視聴しながら、「その」、「これ」といった指示語を使って事物を指し示すことが想定される。このような場合、ユーザー入力部514は、指示語が指し示す事物の3次元空間上の位置情報を言語解析並びに画像解析などにより特定し、その3次元空間上の位置情報を画像提供装置101に送信する。したがって、Ghostは、画素座標ではなく、空間に対して固定できるポインティングを行なうことができる。
 また、ユーザー入力部514は、Ghostの身振りや手振りを入力するジェスチャー入力装置でもよい。ジェスチャーを捕捉する手段は特に限定されない。例えば、ユーザー入力部514は、Ghostの四肢の動きを撮影するカメラとその撮影画像を処理する画像認識装置を備えていてもよい。また、画像認識を容易にするために、Ghostの身体にマーカーを取り付けていてもよい。ユーザー入力部514は、入力されたジェスチャーを、例えばBodyの身体に介入する制御信号として、通信部411から画像提供装置101へ送信してもよい。また、ユーザー入力部514は、入力されたジェスチャーを、Bodyの視界に介入する画像情報(座標情報や、重畳表示するAR画像、又は文字情報など)や、Bodyの聴覚に介入する音声信号に変換して、通信部511から画像提供装置101へ送信してもよい。また、ユーザー入力部514は、Ghostがジェスチャーにより指示した画素位置に対応する3次元空間上の位置情報を画像解析などにより特定し、その3次元空間上の位置情報を画像提供装置101に送信する。したがって、Ghostは、画素座標ではなく、空間に対して固定できるポインティングを行なうことができる。
 視界情報共有システム100において展開されるJackInというサービスは、AR画像を重畳表示するという観点からは、一般的なAR技術に類似する。但し、JackInにおいては、人間(Ghost)が他の人間(Body)を拡張するという点で、コンピューターにより付与される通常のAR技術とは相違するものと思料する。
 また、JackInは、テレプレゼンス(前述)と類似する点もある。但し、通常のテレプレゼンスは、ロボットのような機械の視点から世界を眺めるインターフェースであるのに対し、JackInは人間(Ghost)が他の人間(Body)の視点から眺めるという状況であるという点で相違する。また、テレプレゼンスでは、人間がマスターで機械がスレーブとなり、スレーブである機械は人間の動きを忠実に再現することを前提としている。これに対し、人間(Ghost)が他の人間(Body)にJackInする場合、BodyはGhostに従って動くとは限らず、独立性を許すインターフェースである。
 上記の視界情報共有システム100において、画像提供装置101から画像表示装置102に提供される映像は、Bodyが現場で観察しているリアルタイム映像(すなわち、撮像部501が撮影するライブ映像)とは限らず、録画された過去の映像であってもよい。例えば、画像提供装置101が過去の映像を録画する大容量記憶装置(図示しない)を備え、画像提供装置101から過去の映像を配信するようにしてもよい。あるいは、BodyとGhost間のJackInを統制するJackInサーバー(仮称)、あるいはその他の記録サーバー上で画像提供装置101による過去の録画映像を蓄積しておき、これらのサーバーからGhost(画像表示装置102)に過去の映像をストリーミング配信するようにしてもよい。但し、Ghostは、過去の映像を視聴する場合には、視界、聴覚を含むBodyへの介入が一切許されない。何故ならば、Ghostが視聴している映像はBodyが現在作業を行なっている現場の映像ではなく、過去の映像に基づいて介入するとBodyの現在の作業に支障をきたすからである。
 なお、2台の機器間における視界共有の詳細については、例えば本出願人に既に譲渡されている特願2013-78893号明細書も参照されたい。また、同システム100における視界介入(AR画像の表示)の詳細については、例えば本出願人に既に譲渡されている特願2013-78892号明細書、特願2013-78894号明細書、特願2013-191464号明細書も参照されたい。
C.GhostからBodyへの視界介入
 上述したように、JackInでは、「視界介入」、「聴覚介入」、「身体介入」、「代替会話」といった複数のコミュニケーション・チャネルがある。したがって、Bodyは、GhostとのJackInを開始することによって、自分の視界をGhostと共有できるとともに、視界介入などを通じて、現在行なっている作業に対してGhostから支援や指示、誘導、案内を受けることができる。また、Ghostは、BodyとのJackInを開始することによって、自分は現場に出向かなくてもBodyの一人称体験をすることができるとともに、視界介入などを通じてBodyの作業に対して支援や指示、誘導、案内を行なうことができる。以下では、特に視界介入に着目して、BodyとGhost間のインタラクションについて説明する。
 画像表示装置102側では、タッチパネルやマウス、ジョイスティックなどの座標入力装置で構成されるユーザー入力部514を介してGhostが表示画像上のある場所を指示したとき、その場所を特定する情報を画像提供装置101に送信する。そして、画像提供装置101側では、表示部503が、Ghostが指示した場所を示すポインターなどのAR画像を、Bodyの視界に重畳して表示する。図6(A)には、表示部513に表示される画像(Ghostが体験するBodyの一人称画像)を例示している。参照番号601で示すように、Ghostは、この画像中のある場所をタッチにより指示したとする。図6(B)には、このときのBodyの視界を例示している。参照番号602で示すように、画像提供装置101側の表示部503は、Ghostによって指示された場所を示すAR画像を、Bodyの視界に重ね合わせて表示する。
 また、Ghostが音声やジェスチャーによって表示画像上のある場所を指示したときも、図6に示した例と同様に、その場所を特定する情報を画像提供装置101に送信し、画像提供装置101側ではその場所を示すAR画像が重畳表示される。あるいは、Ghostの眼球運動を捕捉するなどして視線方向を検出して、Ghostが熟視(gaze)している場所を割り出し、その場所を特定する情報を画像提供装置101に送信するようにしてもよい。
 図7には、GhostからBodyへ視覚介入する仕組みを模式的に示している。画像表示装置102側からは、Ghostがユーザー入力部514を介して指示した画面上の画素座標情報を送出するのではなく、Bodyの一人称画像の3次元空間上でGhostが指示した場所を画像解析などにより特定し、その3次元空間上の位置情報を画像提供装置101に送信する。そして、画像提供装置101側では、表示部503は、受信した3次元位置情報に基づいて、Ghostが指示した場所をBodyの視界上の同じ場所にマッピングして、その場所を提示するようなAR画像(ポインター)をBodyの視界に重畳表示するようにする。また、ポインターなどのAR画像は、表示部503の表示画面上の画素位置にマッピングされているのではなく、実際の3次元空間にマッピングされているので、Bodyが首を振ったり場所を移動したりしても、ポインターは3次元空間上の同じ場所に重畳表示されたままとなる。
 画像表示装置102側でGhostのヘッド・トラッキング(前述)を行なっている場合には、Bodyの視界とGhostが観察する表示画角が一致しない場合がある。例えば、Bodyの現在の視野が図8であり、これに対し、Ghostは右を向いたため、画像表示装置102の表示部413では図9に示す画像が表示されており、Bodyの視界とは一致しない。このような場合でも、Ghostがユーザー入力部514で指示した場所を、Body側の視界の3次元空間上の位置情報に変換してから送信することで、画像提供装置101側では表示部503が3次元空間上の同じ場所にAR画像を表示して、Ghostに指示された場所をBodyに正しく伝えることができる。
 例えば、Ghostが図9に示す表示画像内で、参照番号901で示すように、運河の岸に係留されている1艘の舟を指示したとする。ユーザー入力部514は、Ghostが舟901を画面上で指示していることを突き止めると、舟901の場所を示す3次元空間上の位置情報を画像提供装置101に送信する。画像提供装置101側では、表示部503は、受信した3次元位置情報に基づいて、Ghostが指示した場所をBodyの視界にマッピングして、Ghostが指示した舟に対して、参照番号801で示すポインターのようなAR画像をBodyの視界に重畳表示する。したがって、Bodyは、自分の視界にある舟をGhostが指示していることを視覚的に理解することができ、Ghostからの視覚介入によるインタラクションを実現することができる。
 また、図8に示したような場所の指示という形態以外に、視野の移動の指示という形態でも、GhostはBodyの視界に介入することができる。
 図10には、GhostがBodyに視界の移動を指示する仕組みを模式的に示している。画像表示装置102側では、Ghostは、参照番号1001で示すように、タッチパネル上でのスワイプ操作によって、Bodyに対する視野の移動方向の指示を入力することができる。マウスを用いたドラッグ操作、ジョイスティックによる方向入力を用いることもできる。あるいは、Ghostは、「もっと左を向いて」などの音声入力によってもBodyに対する視野の移動方向の指示を入力することができる。
 また、画像表示装置102側で音声入力を利用する場合には、ユーザー入力部514は、Ghostの音声を認識して、Bodyに対する視野の移動方向の指示に変換すればよい。画像表示装置102側でのこのような指示に対し、画像提供装置101側では、参照番号1101で示す矢印のような、視界の移動方向を示すAR画像をBodyの視界に重畳表示して(図11を参照のこと)、もっと左側を向く(あるいは左側に進む)ようにBodyに指示を与えることができる。
 また、表示部503は、図7や図11に示したような図形からなるAR画像をBodyの視界に重畳するという表示形態の他に、Ghostからの指示を表す文字情報を表示するようにしてもよい。図12には、参照番号1201で示すように、Ghostから指示された「もっと左を向いて」という文字情報を表示している様子を示している。あるいは、図13に示すように、Bodyの視界の周縁の領域1301を用いて、チャットや電子掲示板のような表示形式で、Ghostが指示する文字情報を表示するようにしてもよい。
 表示部503が文字情報をBodyの視界のどの場所に配置するは任意である。但し、観察者111が行なっている作業の邪魔にならないようにするには、図12に示したようにBodyの視界の周縁に文字情報を表示するようにして、なるべく視界を遮らないようにすることが好ましい。あるいは、BodyがGhostからの緊急の指示を見落とさないようにするには、表示部503は、敢えてBodyの視覚の中央に大きく(すなわち、目立つように)、文字情報を表示するようにしてもよい。
 また、Ghostから文字情報からなる指示が連続して送られてくる場合には、表示部503は、受信した順に文字情報を切り替えて表示したり、文字情報を垂直又は水平方向にスクロール表示したりするようにしてもよい。
 また、画像提供装置101側では、Ghostの指示を、画像表示装置102から文字情報として受け取った場合に、上記のように表示部503で表示するのではなく、文字情報を音声信号に変換して、第1の音声出力部504から音声出力して、音声のメッセージとしてBodyに伝達するようにしてもよい(図14を参照のこと)。文字情報を、視覚ではなく聴覚として出力することで、Bodyの視界を遮ることなく、Ghostからの指示を伝えることができる。Bodyとしての観察者111が視界を一部でも遮られると現場での作業に支障をきたす場合や、Bodyが現場での音声を聴かなくても作業を継続できる場合(一人作業の場合など)には、文字情報を音声信号に変換して音声出力するようにすれば、Bodyに対して効果的に指示を行なうことができる。
D.複数のGhostからBodyへの同時介入
 上述したように、Ghostは、画像表示装置102と画像提供装置101間のコミュニケーション機能を利用して、「視界介入」、「聴覚介入」、「身体介入」を行なうことによって、Bodyに対して現場での行動を指示することができる。
 BodyとGhostが1対1の関係にあるときには、Bodyは、「視界介入」、「聴覚介入」、「身体介入」が誰からの指示によるものかを明確に理解することができる。
 他方、図2に示したような、1つのBodyに対して複数(N)のGhostがJackInする1対N(若しくはN対N)のネットワーク・トポロジーでは、同時に複数のGhostが同時にBodyの視界、聴覚、身体に介入してくることも想定される。例えば、1人のBodyに対して複数のGhostが視覚介入してきてBodyの視界(AR表示)が煩雑になったり、複数のGhostからの聴覚介入が混じり合って個々のGhostからのインストラクションを聴き取れなくなったり、複数のGhostが同時に身体介入してBodyが身動きをとれなくなったりする「混信」が問題になる。
 1対N形式のJackInのユースケースとして、例えば図15に示すように、参照番号1500で示す空間で、2人のBody1510、1520がゲームなどの対戦を行なう際に、一方のBody1511に対して空間1300を俯瞰する複数のGhost1511、1512、1513が指示を送り(すなわち介入し)、同様に、他方のBody1520に対して後方の複数のGhost1521、1522、1523が指示を送る(すなわち介入する)、という形態が挙げられる。
 このような場合、Ghost1511、1512、1513の集団(若しくは、Ghost1521、1522、1523の集団)は、「三人寄れば文殊の知恵」の言葉の通りに、Body1510(若しくは、Body1520)に、一人一人では想起できない的確で優れた指示を与えることができる。逆に、Body1510(若しくは、Body1520)に指図する人間が多過ぎるために統一がとれず、見当違いの方向にゲームを進めてしまい、「船頭多くして船山に上る」という言葉の方がむしろ当てはまる状況に陥るおそれもある。
 そこで、本実施形態では、画像提供装置101側の出力部(表示部503、第1の音声出力部504、駆動部505、第2の音声出力部)は、複数のGhostが同時に介入してきた場合(すなわち、複数台の画像表示装置102からの情報を同時に受信した場合)、すべてのGhostからの情報を単純に出力するのではなく、複数の情報を集約してから出力することにより、Body側での混信防止処理を行なうようにする。
 例えば、Bodyによる撮像画像(一人称映像)を第1のGhostと第2のGhostがそれぞれ受信し、第1のGhostに対する入力に応じて生成される第1の情報と第2のGhostに対する入力に応じて生成される第2の情報がBodyに送られてくる場合、制御部509は、これら第1の情報と第2の情報を集約して得られる集約画像を表示部503で表示出力するように制御する。
 具体例について、図16を参照しながら説明する。複数のGhostがそれぞれ声を発しながらBodyの視野内のいずれかの場所を指し示すという視界介入を行なう場合、各Ghostがそれぞれ指示した場所に単にポインターをAR表示するだけでは、Bodyは各Ghostの声とポインターのマッチングをとることが難しい。そこで、視覚介入部403は、図16に示すように、該当するGhostの声のボリュームのパターン1602と同じ波形で同期的に明滅する明滅パターン1603をポインター1601に与えるようにする。これによって、Bodyは、声のボリュームの変化と同期して明滅するポインター1601を自分の視界内で探すことで、Ghostの声とポインターのマッチングをとり易くなる。
 図17には、画像提供装置101においてGhostからの視界介入を処理するための手順の一例をフローチャートの形式で示している。
 画像表示装置102から、Bodyの視界に介入するインストラクション(例えば、Ghostが指し示す場所の情報)を通信部406で受信したときには(ステップS1501のYes)、同じ画像表示装置102からGhostの音声情報も受信したかどうかをさらにチェックする(ステップS1502)。
 ここで、同じ画像表示装置102からGhostの音声情報を受信していない場合には(ステップS1502のNo)、表示部503は、Ghostが指し示す場所を示すポインターのAR画像を、そのまま(明滅なしに)Bodyの視界に重畳表示して(ステップS1503)、本処理ルーチンを終了する。
 一方、同じ画像表示装置102からGhostの音声情報を受信している場合には(ステップS1502のYes)、表示部503は、その音声情報を解析して音声のボリュームのパターンを抽出すると(ステップS1504)、声のボリュームのパターンと同じ明滅パターンを持つポインターのAR画像をBodyの視界に重畳表示して(ステップS1505)、本処理ルーチンを終了する。
 また、1人のBodyに対して膨大数のGhostが同時に視界介入してきたときに、各Ghostが指し示す場所にポインターを表示していくと、Bodyの視界はポインターで遮られ、実際にどの場所が指示されているのか分からなくなってしまう。また、Bodyの視界がポインターのAR画像で覆われてしまい、Bodyは現場で身動きが取れなくなってしまう。そこで、表示部503は、同時に視界介入してくる多数のGhostが指し示す場所を集計して、図18中の参照番号1801~1804で示すように、指示された場所の分布をヒートマップ形式にして表示するようにしてもよい。これにより、同時に視界介入してくるGhostの数がいくら増大しても、Bodyの視界が無制限に遮られるのを防ぐことができるとともに、Bodyは、より多くのGhostが指示する場所をヒートマップの表示に基づいて容易に視認することができる。
 ヒートマップは、集合的なポインター表示ということもできる。なお、ヒートマップは、表示部503の表示画面上の画素位置にマッピングされているのではなく、実際の3次元空間にマッピングされているので、Bodyが首を振ったり場所を移動したりしても、ヒートマップは3次元空間上の同じ場所に重畳表示されたままとなる。
 図19には、画像提供装置101において多数のGhostからの視界介入をヒートマップの形式で表示するための処理手順をフローチャートの形式で示している。
 まず、Bodyの視界に介入するGhostの数(すなわち、Ghostが指し示す場所の情報を送信してくる画像表示装置102の台数)が所定数を超えたか否かをチェックする(ステップS1701)。
 ここで、視界に介入するGhostの数が所定数未満のときには(ステップS1701のNo)、表示部503は、通常の視界介入処理を実行して(ステップS1702)、本処理ルーチンを終了する。通常の視覚介入処理は、例えば図17に示した処理手順に従って実施され、Ghostが指し示した場所にポインターが重畳表示される。
 一方、視界に介入するGhostの数が所定数を超えるときには(ステップS1701のYes)、表示部503は、同時に視界介入してくる多数のGhostが指し示す場所を示すヒートマップの表示を実施する。具体的には、Bodyの視界の3次元空間上で各Ghostが指し示す場所の分布をとり(ステップS1703)、その分布をカラースケール若しくは濃淡スケールに従ってプロットしたヒートマップを作成する(ステップS1704)。そして、作成したヒートマップをBodyの視界に重畳表示する(ステップS1705)。
 また、図13に示したように、画像表示装置102側でキーボードなどから文字入力された文字情報や、Ghostの音声を認識して得られる文字情報を、チャットのような表示形式でBodyの視界に表示するという視界介入の形態もある。ところが、多数のGhostから同時に文字情報が送られてきた場合に、これらを例えば時系列的に単純に並べてBodyの視界に表示すると、Bodyは何をすればよいのか分からなくなってしまう、という問題がある。簡単な例を挙げると、「もっと左を向いて」と「もっと右を向いて」という、相反する行動を指示する文字情報が同時に表示されると、Bodyはどちらの指示に従うべきか分からず、混乱してしまうであろう。また、Bodyの視界が沢山の文字情報で埋め尽くされてしまう、という問題がある。
 そこで、表示部503は、多数のGhostから送られてきた文字情報をすべて表示するのではなく、Bodyの視界に表示する文字情報の情報量(若しくは、文字数)を間引く処理を行なうことが好ましい。
 例えば、表示部503は、多数のGhostから送られてきた文字情報の中から共通し又は頻出する単語やキーワードとなっている単語だけを抽出して文字情報を間引き処理するようにしてもよい。単語抽出の際には、類似語を1つの単語にまとめるようにしてもよい。そして、表示部503は、抽出された複数のキーワードを、タグ・クラウド(tag cloud)の形式(例えば、特許文献5を参照のこと)で、出現頻度や重要度などに応じてフォント・サイズや色、濃淡などを変えて、雲のように浮かんで見えるようにBodyの視界に重畳表示するようにしてもよい。
 あるいは、表示部503は、送られてきた多数の文字情報に対して言語解析や言語認識などの処理を適用して、要約した文字情報だけをBodyの視界に表示するようにしてもよい。
 図20には、画像提供装置101においてGhostから送られてくる文字情報を表示するための処理手順をフローチャートの形式で示している。
 まず、Ghostから届いた文字情報の数(すなわち、文字情報を送信してくる画像表示装置102の台数)が所定数を超えたか否かをチェックする(ステップS1801)。
 ここで、文字情報の数が所定数未満のときには(ステップS1801のNo)、表示部503は、通常の視界介入処理を実行して(ステップS1802)、本処理ルーチンを終了する。通常の視界介入処理では、例えば図12に示したように、文字情報がそのまま表示される。あるいは、図13に示したように、Bodyの視界の周縁の領域を用いて、チャットや電子掲示板などの形式で文字情報を表示してもよい。
 一方、文字情報の数が所定数を超えるときには(ステップS1801のYes)、表示部503は、Bodyの視界に表示する文字情報の情報量(若しくは、文字数)を間引く処理を実施する。表示部503は、例えば、送られてきた多数の文字情報の中から共通する単語を抽出して(ステップS1803)、タグ・クラウド形式でBodyの視界に重畳表示する(ステップS1804)。あるいは、表示部503は、多数の文字情報に対して言語解析や言語認識などの処理を適用して、要約した文字情報だけをBodyの視界に表示する。間引き処理によって、Bodyは混乱しなくて済む。
 なお、ある1人のBodyに対する複数人のGhostからの指示情報を集約したりする上記処理は、画像表示装置102(例えば、Bodyが着用するヘッド・マウント・ディスプレイ)で行なうのではなく、BodyとGhost間に介在するサーバー上で実施して、サーバーによる処理結果をBodyに提供するようにしてもよい。
 以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
 本明細書で開示する技術は、例えば、外科手術などの医療現場、土木作業などの建築現場、飛行機やヘリコプターの操縦、自動車の運転者のナビゲーション、スポーツのインストラクションなど、さまざまな産業分野の作業支援などの用途に活用することができる。
 また、本明細書では、身体を以って現場で活動するBodyに対して、Bodyの一人称画像を共有するGhostがBodyの視界や聴覚などに介入するシステムに関する実施形態を中心に説明してきたが、本明細書で開示する技術の要旨はこれに限定されるものではない。ある人物の視界に他人からの支援や指示、誘導、案内に関する情報を表示するさまざまな情報処理装置に対しても、同様に本明細書で開示する技術を適用することができる。
 要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。
 なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
(1)撮像システムによる撮像画像を受信する第1のシステムに対する入力に応じて生成される第1の情報と、前記撮像システムによる撮像画像を受信する第2のシステムに対する入力に応じて生成される第2の情報とを集約して得られる集約画像の表示を制御する制御部を具備する、情報処理システム。
(2)前記制御部は、前記第1のシステムに入力される音声情報に基づく前記第1の情報と、前記第2のシステムに入力される音声情報に基づく前記第2の情報とを集約して得られる集約画像の表示を制御する、
上記(1)に記載の情報処理システム。
(3)前記制御部は、前記第1のシステムに入力される音声情報に基づいて、前記集約画像の表示を制御する、
上記(1)に記載の情報処理システム。
(4)前記制御部は、前記第1のシステムに入力される音声の強弱の変化に応じて、前記集約画像に含まれる前記第1の情報を変化させる、
上記(3)に記載の情報処理システム。
(5)前記制御部は、前記第1のシステム及び前記第2のシステムを含む、前記撮像画像を受信する複数のシステムで指示された場所の分布を示す集約画像の表示を制御する、
上記(1)に記載の情報処理システム。
(6)前記制御部は、文字情報からなる前記第1の情報及び前記第2の情報を集約して得られる集約画像の表示を制御する、
上記(1)に記載の情報処理システム。
(7)前記制御部は、前記第1のシステム及び前記第2のシステムを含む、前記撮像画像を受信する複数のシステムで生成された複数の文字情報の中から共通し又は頻出する単語を抽出して表示させる、
上記(1)に記載の情報処理システム。
(8)前記制御部は、前記抽出した単語をタグ・クラウド形式で表示させる、
上記(7)に記載の情報処理システム。
(9)前記制御部は、前記第1のシステム及び前記第2のシステムを含む、前記撮像画像を受信する複数のシステムで生成された複数の文字情報を要約して表示させる、
上記(1)に記載の情報処理システム。
(10)前記撮像画像を生成する撮像部をさらに備える、
上記(1)に記載の情報処理システム。
(11)表示部をさらに備え、
 前記制御部は、前記表示部による前記集約画像の表示を制御する、
上記(1)に記載の情報処理システム。
(12)前記表示部は、前記集約情報を実世界の風景に重畳して表示する、
上記(11)に記載の情報処理システム。
(13)撮像システムによる撮像画像を受信する第1のシステムに対する入力に応じて生成される第1の情報と、前記撮像システムによる撮像画像を受信する第2のシステムに対する入力に応じて生成される第2の情報とを集約して得られる集約画像の表示を制御する制御ステップを有する、情報処理方法。
 100…視界情報共有システム
 101…画像提供装置、102…画像表示装置
 501…撮像部、502…画像処理部、503…表示部
 504…第1の音声出力部、505…駆動部
 506…第2の音声出力部、507…位置検出部、508…通信部
 509…制御部、510…認証部
 511…通信部、512…画像復号部、513…表示部
 514…ユーザー入力部、515…位置姿勢検出部

Claims (13)

  1.  撮像システムによる撮像画像を受信する第1のシステムに対する入力に応じて生成される第1の情報と、前記撮像システムによる撮像画像を受信する第2のシステムに対する入力に応じて生成される第2の情報とを集約して得られる集約画像の表示を制御する制御部を具備する、情報処理システム。
  2.  前記制御部は、前記第1のシステムに入力される音声情報に基づく前記第1の情報と、前記第2のシステムに入力される音声情報に基づく前記第2の情報とを集約して得られる集約画像の表示を制御する、
    請求項1に記載の情報処理システム。
  3.  前記制御部は、前記第1のシステムに入力される音声情報に基づいて、前記集約画像の表示を制御する、
    請求項1に記載の情報処理システム。
  4.  前記制御部は、前記第1のシステムに入力される音声の強弱の変化に応じて、前記集約画像に含まれる前記第1の情報を変化させる、
    請求項3に記載の情報処理システム。
  5.  前記制御部は、前記第1のシステム及び前記第2のシステムを含む、前記撮像画像を受信する複数のシステムで指示された場所の分布を示す集約画像の表示を制御する、
    請求項1に記載の情報処理システム。
  6.  前記制御部は、文字情報からなる前記第1の情報及び前記第2の情報を集約して得られる集約画像の表示を制御する、
    請求項1に記載の情報処理システム。
  7.  前記制御部は、前記第1のシステム及び前記第2のシステムを含む、前記撮像画像を受信する複数のシステムで生成された複数の文字情報の中から共通し又は頻出する単語を抽出して表示させる、
    請求項1に記載の情報処理システム。
  8.  前記制御部は、前記抽出した単語をタグ・クラウド形式で表示させる、
    請求項7に記載の情報処理システム。
  9.  前記制御部は、前記第1のシステム及び前記第2のシステムを含む、前記撮像画像を受信する複数のシステムで生成された複数の文字情報を要約して表示させる、
    請求項1に記載の情報処理システム。
  10.  前記撮像画像を生成する撮像部をさらに備える、
    請求項1に記載の情報処理システム。
  11.  表示部をさらに備え、
     前記制御部は、前記表示部による前記集約画像の表示を制御する、
    請求項1に記載の情報処理システム。
  12.  前記表示部は、前記集約情報を実世界の風景に重畳して表示する、
    請求項11に記載の情報処理システム。
  13.  撮像システムによる撮像画像を受信する第1のシステムに対する入力に応じて生成される第1の情報と、前記撮像システムによる撮像画像を受信する第2のシステムに対する入力に応じて生成される第2の情報とを集約して得られる集約画像の表示を制御する制御ステップを有する、情報処理方法。
PCT/JP2016/070477 2015-09-30 2016-07-11 情報処理システム及び情報処理方法 WO2017056631A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
US15/761,635 US10628114B2 (en) 2015-09-30 2016-07-11 Displaying images with integrated information
KR1020237010501A KR102647544B1 (ko) 2015-09-30 2016-07-11 정보 처리 시스템 및 정보 처리 방법
KR1020187003850A KR102516096B1 (ko) 2015-09-30 2016-07-11 정보 처리 시스템 및 정보 처리 방법
JP2017542950A JP6822410B2 (ja) 2015-09-30 2016-07-11 情報処理システム及び情報処理方法
CN201680055516.3A CN108028906B (zh) 2015-09-30 2016-07-11 信息处理系统和信息处理方法
EP16850808.3A EP3358836B1 (en) 2015-09-30 2016-07-11 Information processing system and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-195059 2015-09-30
JP2015195059 2015-09-30

Publications (1)

Publication Number Publication Date
WO2017056631A1 true WO2017056631A1 (ja) 2017-04-06

Family

ID=58424089

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/070477 WO2017056631A1 (ja) 2015-09-30 2016-07-11 情報処理システム及び情報処理方法

Country Status (6)

Country Link
US (1) US10628114B2 (ja)
EP (1) EP3358836B1 (ja)
JP (1) JP6822410B2 (ja)
KR (2) KR102516096B1 (ja)
CN (1) CN108028906B (ja)
WO (1) WO2017056631A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019057251A (ja) * 2017-09-22 2019-04-11 株式会社シンコネクト 建設分野用システム
JP2020035127A (ja) * 2018-08-29 2020-03-05 株式会社日立製作所 作業支援システムおよび作業支援方法
JPWO2020178960A1 (ja) * 2019-03-04 2020-09-10
JP7452596B2 (ja) 2017-09-25 2024-03-19 株式会社リコー 通信端末、表示方法、プログラム及び画像通信システム
WO2024057783A1 (ja) * 2022-09-16 2024-03-21 ソニーグループ株式会社 360度画像視点位置同定部を備える情報処理装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6532393B2 (ja) * 2015-12-02 2019-06-19 株式会社ソニー・インタラクティブエンタテインメント 表示制御装置及び表示制御方法
CN110719408B (zh) * 2019-11-04 2021-06-08 浙江沃德尔科技集团股份有限公司 一种车载高清摄像头通讯方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231625A (ja) * 1999-02-12 2000-08-22 Sanyo Electric Co Ltd 指示情報伝達装置
JP2002132487A (ja) * 2000-10-25 2002-05-10 Oki Electric Ind Co Ltd 遠隔作業支援システム
JP2011217098A (ja) * 2010-03-31 2011-10-27 Ns Solutions Corp 情報処理システム、会議管理装置、情報処理方法、会議管理装置の制御方法及びプログラム
JP2015135641A (ja) * 2014-01-20 2015-07-27 Kddi株式会社 撮影動画像に指示画像を同期して重畳する映像指示同期方法、システム、端末、及びプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6611242B1 (en) 1999-02-12 2003-08-26 Sanyo Electric Co., Ltd. Information transmission system to transmit work instruction information
JP2004222254A (ja) 2002-12-27 2004-08-05 Canon Inc 画像処理システム、方法及びプログラム
US7949616B2 (en) * 2004-06-01 2011-05-24 George Samuel Levy Telepresence by human-assisted remote controlled devices and robots
JP4926400B2 (ja) 2004-12-27 2012-05-09 京セラ株式会社 移動カメラシステム
JP5245257B2 (ja) 2006-11-22 2013-07-24 ソニー株式会社 画像表示システム、表示装置、表示方法
US8486331B2 (en) * 2008-05-02 2013-07-16 Han Sup Uhm Sterilization effects of acidic ozone water
EP2136301A1 (en) 2008-06-20 2009-12-23 NTT DoCoMo, Inc. Method and apparatus for visualising a tag cloud
US8923523B2 (en) * 2010-03-25 2014-12-30 King Fahd University Of Petroleum And Minerals Selective filtering earplugs
US8797380B2 (en) * 2010-04-30 2014-08-05 Microsoft Corporation Accelerated instant replay for co-present and distributed meetings
KR20120073795A (ko) * 2010-12-27 2012-07-05 엘지에릭슨 주식회사 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법
US20120299962A1 (en) 2011-05-27 2012-11-29 Nokia Corporation Method and apparatus for collaborative augmented reality displays
US9584774B2 (en) * 2011-10-24 2017-02-28 Motorola Solutions, Inc. Method and apparatus for remotely controlling an image capture position of a camera
US9563265B2 (en) * 2012-01-12 2017-02-07 Qualcomm Incorporated Augmented reality with sound and geometric analysis
US9310611B2 (en) * 2012-09-18 2016-04-12 Qualcomm Incorporated Methods and systems for making the use of head-mounted displays less obvious to non-users
JP2014104185A (ja) 2012-11-28 2014-06-09 Sony Corp 運動補助装置及び運動補助方法
KR102167760B1 (ko) 2020-07-24 2020-10-19 주식회사 멀틱스 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231625A (ja) * 1999-02-12 2000-08-22 Sanyo Electric Co Ltd 指示情報伝達装置
JP2002132487A (ja) * 2000-10-25 2002-05-10 Oki Electric Ind Co Ltd 遠隔作業支援システム
JP2011217098A (ja) * 2010-03-31 2011-10-27 Ns Solutions Corp 情報処理システム、会議管理装置、情報処理方法、会議管理装置の制御方法及びプログラム
JP2015135641A (ja) * 2014-01-20 2015-07-27 Kddi株式会社 撮影動画像に指示画像を同期して重畳する映像指示同期方法、システム、端末、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3358836A4 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019057251A (ja) * 2017-09-22 2019-04-11 株式会社シンコネクト 建設分野用システム
JP7036363B2 (ja) 2017-09-22 2022-03-15 株式会社シンコネクト 建設分野用システム
JP7452596B2 (ja) 2017-09-25 2024-03-19 株式会社リコー 通信端末、表示方法、プログラム及び画像通信システム
JP2020035127A (ja) * 2018-08-29 2020-03-05 株式会社日立製作所 作業支援システムおよび作業支援方法
JP7084256B2 (ja) 2018-08-29 2022-06-14 株式会社日立製作所 作業支援システムおよび作業支援方法
JPWO2020178960A1 (ja) * 2019-03-04 2020-09-10
WO2020178960A1 (ja) * 2019-03-04 2020-09-10 マクセル株式会社 リモート操作指示システム、及びマウント型デバイス
JP7280346B2 (ja) 2019-03-04 2023-05-23 マクセル株式会社 リモート操作指示システム、及びマウント型デバイス
US11915339B2 (en) 2019-03-04 2024-02-27 Maxell, Ltd. Remote operation instructing system, and mount type device
WO2024057783A1 (ja) * 2022-09-16 2024-03-21 ソニーグループ株式会社 360度画像視点位置同定部を備える情報処理装置

Also Published As

Publication number Publication date
CN108028906B (zh) 2021-08-10
US10628114B2 (en) 2020-04-21
KR20180064370A (ko) 2018-06-14
EP3358836A4 (en) 2019-05-29
KR20230049131A (ko) 2023-04-12
EP3358836A1 (en) 2018-08-08
EP3358836B1 (en) 2021-08-25
KR102647544B1 (ko) 2024-03-18
KR102516096B1 (ko) 2023-03-31
CN108028906A (zh) 2018-05-11
US20180349083A1 (en) 2018-12-06
JPWO2017056631A1 (ja) 2018-07-19
JP6822410B2 (ja) 2021-01-27

Similar Documents

Publication Publication Date Title
WO2017056631A1 (ja) 情報処理システム及び情報処理方法
EP3410264B1 (en) Image display device and image display method
TWI610097B (zh) 電子系統、可攜式顯示裝置及導引裝置
WO2017064926A1 (ja) 情報処理装置及び情報処理方法
US10771739B2 (en) Information processing device and information processing method
JP6822413B2 (ja) サーバ装置及び情報処理方法、並びにコンピュータ・プログラム
CN111386517A (zh) 用于体验虚拟现实的用户之间的通信的装置和相关方法
JPWO2018216355A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20180278995A1 (en) Information processing apparatus, information processing method, and program
US20230215079A1 (en) Method and Device for Tailoring a Synthesized Reality Experience to a Physical Setting
US10986206B2 (en) Information processing apparatus, control method thereof, and computer readable medium for visual information sharing
WO2017068928A1 (ja) 情報処理装置及びその制御方法、並びにコンピュータ・プログラム
EP4325842A1 (en) Video display system, information processing device, information processing method, and program
WO2018216327A1 (ja) 情報処理装置、情報処理方法、及びプログラム
KR20210042483A (ko) 증강현실 및 가상현실을 이용한 도로포장 시공 원격자문 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16850808

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017542950

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20187003850

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2016850808

Country of ref document: EP