WO2021131023A1 - ヘッドマウント型情報出力装置 - Google Patents

ヘッドマウント型情報出力装置 Download PDF

Info

Publication number
WO2021131023A1
WO2021131023A1 PCT/JP2019/051450 JP2019051450W WO2021131023A1 WO 2021131023 A1 WO2021131023 A1 WO 2021131023A1 JP 2019051450 W JP2019051450 W JP 2019051450W WO 2021131023 A1 WO2021131023 A1 WO 2021131023A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
image
information
unit
head
Prior art date
Application number
PCT/JP2019/051450
Other languages
English (en)
French (fr)
Inventor
貞雄 鶴賀
橋本 康宣
吉澤 和彦
義憲 岡田
Original Assignee
マクセル株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マクセル株式会社 filed Critical マクセル株式会社
Priority to JP2021566727A priority Critical patent/JP7376616B2/ja
Priority to PCT/JP2019/051450 priority patent/WO2021131023A1/ja
Publication of WO2021131023A1 publication Critical patent/WO2021131023A1/ja
Priority to JP2023183635A priority patent/JP2024012379A/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Definitions

  • the present invention relates to a head-mounted information output device that is mounted on a user's head and visually recognizes images in a real space or a virtual space.
  • a head-mounted display that is worn on the user's head and is used is a display that displays images of real space or virtual space on a display unit provided on the front (so-called video transmission type) and virtual. There is one that visually recognizes the real space image in front of you while displaying the spatial image on the display unit (so-called optical transmission type).
  • video transmission type images of real space or virtual space on a display unit provided on the front
  • optical transmission type images of real space image in front of you while displaying the spatial image on the display unit
  • the real world and the virtual world can be seamlessly fused in real time, and the user can experience as if a virtual object exists in the real world. Further, in such a head-mounted display, it is possible to specify a desired object (object) from the displayed image and perform various processing on the designated object.
  • Patent Document 1 states that "a display device provided on an inner surface when the head-mounted display is attached to the user's head".
  • a touch pad provided on the outer surface when the head-mounted display is attached to the user's head, which can detect that a part of the user's body is in contact with or in close proximity, and a touch pad detected by the touch pad.
  • a display control unit that acquires image data generated based on input information indicating that a part of the user's body is in contact with or close to each other and displays the acquired image data on a display device. ” Is described.
  • Patent Document 1 The technique described in Patent Document 1 is an object on a display device corresponding to a designated position by touch-inputting a position designated by a user by a touch pad having an input area associated with the display area of the display device. It acquires image data of an object.
  • the display area on the display device corresponding to the touch position of the touch pad needs to display an image including an object that is a candidate for the user to select.
  • the user may want to immediately know detailed information about an object in the field of view in front of him.
  • the issue is how to easily select and specify the desired object from the field of view.
  • it is desirable that it can be realized by a direct operation such as a user pointing at an object in sight.
  • a direct operation such as a user pointing at an object in sight.
  • the processing for displaying the image and the device configuration become complicated, and the user sees the displayed image.
  • it is an indirect operation and is not easy to use.
  • an object of the present invention is to directly specify an actual object in the user's field of view without displaying an image including the object, and acquire information on the specified object.
  • the purpose of the present invention is to provide a head-mounted information output device for output.
  • one of the typical head-mounted information output devices of the present invention is a camera that captures a landscape image in the user's field of view, and an input region that corresponds to the image region captured by the camera.
  • An object designation unit that specifies the position of a desired object in the landscape image by the user, and an image portion corresponding to the position specified by the user by the object designation unit in the image taken by the camera.
  • the object identification unit that analyzes and identifies the object specified by the user, the object information acquisition unit that acquires and generates the object information related to the object identified by the object identification unit, and the object information acquisition unit acquire It is equipped with an information output unit that outputs the generated object information in text characters from the information display unit or by voice from the audio output unit, and the object specification unit does not display the image taken by the camera to the user.
  • the user specifies the position of the object while visually recognizing the scenery image in the field of view.
  • FIG. 1 The figure which shows the usage form of the head mount type information output device which concerns on Example 1.
  • FIG. The block diagram which shows the structure of the head mount type information output device which concerns on Example 1.
  • the figure which shows the operation when the desired image is specified input with one finger.
  • the figure which shows the operation when the desired image is specified input with one finger.
  • the figure which shows the operation when the desired image is specified input with one finger.
  • the figure which shows the operation when the desired image is specified input with a plurality of fingers The figure which shows the operation when the desired image is specified input with a plurality of fingers. The figure which shows the operation when the desired image is specified input with a plurality of fingers. The figure which shows the operation when the desired image is specified input by swiping a finger. The figure which shows the operation when the desired image is specified input by swiping a finger. The figure which shows the operation when the desired image is specified input by swiping a finger. The figure which shows the operation when the desired image is specified input by swiping a finger. The flowchart which shows the processing procedure of the head mount type information output device.
  • FIG. The figure which showed typically the information output operation in Example 2.
  • FIG. The figure which showed typically the information output operation in Example 3.
  • the head-mounted information output device of the present invention when the user selects and designates a desired object from the scenery seen in front, the designated object is identified, and information about the designated object is acquired and output. At that time, examples will be described separately according to how the designated object is identified and determined.
  • the head-mounted information output device will be referred to as "HMD”.
  • the scenery in front of the user is photographed with a camera, and a desired object designated by the user is identified and determined based on the photographed image.
  • FIG. 1 is a diagram schematically showing a usage pattern of the head-mounted information output device (HMD) 100 according to the first embodiment.
  • the HMD 100 is attached to the head of the user 10, and includes an information display unit 118 including a camera 111, a touch panel 112, a touch pad 113, an object identification unit 114, an object information acquisition unit 115, an information projection unit 116, and an optical combiner 117. It is equipped with headphones 119, a distance sensor 120, and the like. Further, it is possible to send and receive information to and from the information server 160 and the mobile information terminal 170.
  • the user 10 wearing the HMD 100 directly visually recognizes the scenery image 20 of the field of view in front of the eyes through the optical combiner 117 made of a half mirror and the transparent touch panel 112.
  • the camera 111 captures and captures a landscape image 20 of the field of view in front of the eyes.
  • the touch panel 112 is for the user 10 to specify and input a position in the input area with a finger.
  • the image area of the landscape image (called a camera image) captured by the camera 111 and the input area of the touch panel 112 are assigned by associating the position coordinates in each area (so-called mapping process). Has been done). Therefore, the user 10 can select an image portion associated with the mapping process from the camera images captured by the camera 111 by designating and inputting a desired position on the touch panel 112.
  • the touch panel 112 is installed in the viewing direction of the user 10, and the input area on the touch panel 112 and the image area of the landscape image 20 seen by the user 10 (dotted chain lines 151 and 152). Arrange so that it matches the enclosed area).
  • the scenery image 20 that the user 10 sees through the touch panel 112 and the camera image captured by the camera 111 coincide with each other on the touch panel 112. Therefore, the user 10 specifies the position of the desired image (for example, the object 21) that can be seen in the field of view on the touch panel 112, and selects the specified desired object from the camera images captured by the camera 111. It is possible to directly select and specify a real object in the user's field of view.
  • the object identification unit 114 analyzes the part of the camera image selected and designated by the touch panel 112, and identifies and determines what the object displayed by the image is. Further, the object information acquisition unit 115 acquires and generates various information (referred to as object information) regarding the object identified and determined by the object identification unit 114. When analyzing the camera image or acquiring and generating the object information, necessary information is acquired from the external information server 160. Alternatively, these may be acquired from the information data possessed in the HMD 100.
  • the information display unit 118 projects the acquired object information as text characters by the information projection unit 116, forms an image through the optical combiner 117, and displays it to the user 10.
  • the user 10 can visually recognize both of them in a form in which the displayed object information is superimposed on the background of the landscape image 20 in the field of view in front of the user.
  • the headphone 119 notifies the user 10 of the acquired object information by voice.
  • a touch pad 113 arranged on the side surface of the HMD 100 or the like can be used in addition to the touch panel 112.
  • the touch pad 113 operates the mouse pointer by tracing the panel flat sensor with a finger, and can perform the same designated input operation as the touch panel 112.
  • a mobile information terminal 170 such as a smartphone or a smart watch, and it has a touch panel on the display surface, so that the same designated input operation as the touch panel 112 of the HMD 100 can be performed.
  • the position information specified and input by the mobile information terminal 170 is taken into the HMD 100 by short-range wireless communication.
  • the method using the touch pad 113 or the mobile information terminal 170 has a degree of freedom in the posture of the user when performing the designated input operation, and is easier to operate.
  • the touchpad 113 is provided on both the left and right sides of the user 10, it is possible to touch with the left hand when holding the umbrella with the right hand in rainy weather, and with the right hand when holding the umbrella with the left hand. , Convenient.
  • the touch pad 113 or the mobile information terminal 170 when used, although the input areas thereof are mapped to the camera image area, the user can use the touch panel 112 of the HMD 100 as in the case of using the touch panel 112. This is different from the form in which the designated input is superimposed on the landscape image 20 to be viewed. Therefore, the position specified by the user may deviate from the desired image position.
  • the information display unit 118 may display a marker indicating a position specified by the user.
  • the user can confirm the position (marker position) specified by the user by superimposing it on the landscape image 20 viewed by the user, and can reliably select and specify the desired object.
  • the marker indicating the position specified by the user may also be displayed when the user is specified on the touch panel 112 of the HMD 100.
  • the distance sensor 120 detects the distance to an object existing in front, and detects the distance to an actual object selected and specified by the user.
  • the detected distance information is used as one of the object information.
  • FIG. 2 is a block diagram showing the configuration of the HMD shown in FIG. For those described in detail in FIG. 1, repetitive description will be omitted.
  • the HMD 100 includes a camera 111, an object designation unit 121, an information display unit 118, a distance sensor 120, an audio output unit 123, and an audio input unit 124. Further, it includes an object identification unit 114, an object information acquisition unit 115, a communication unit 127, a control unit 129, a memory unit 132, and a short-range communication unit 133, and each component unit is connected to each other via a bus 140. There is.
  • the camera 111 is installed in front of the HMD 100, captures the view of the field of view in front of the user, and captures it in the HMD 100 as a camera image.
  • the object designation unit 121 includes a touch panel 112 and a touch pad 113, has an input area associated with an image area of a camera image taken by the camera 111, and is input by a user touching or approaching with a finger. It specifies the position in the area.
  • Two left and right touch panels and touch pads may be installed in front of the eyes, so that the user can perform touch operations with either the left or right finger.
  • the information display unit 118 uses the information projection unit (projector) 116 and the optical combiner 117 to form and display object information such as text characters. It also displays the operating status of the HMD 100 and notification information to the user.
  • projector information projection unit
  • the distance sensor 120 emits LiDAR (Light Detection and Ringing), which irradiates a laser and measures the scattered light to detect the distance to an object and the state of an object, and emits millimeter-wave radio waves to capture the reflected waves.
  • LiDAR Light Detection and Ringing
  • a millimeter-wave radar that detects the distance to an object and the state of an object is used.
  • the distance to the object selected and specified by the user is detected.
  • the state information of the object detected by the distance sensor 120 may be used for the object analysis by the object identification unit 114.
  • the audio output unit 123 is composed of headphones 119, speakers, and the like, and converts object information into audio and outputs it to the user. It also outputs the operating status of the HMD 100 and notification information to the user.
  • the voice input unit 124 converts the voice from the user into a voice signal and inputs it.
  • the object identification unit 114 analyzes the image of the position selected and specified by the object designation unit 121 among the camera images, and identifies and determines what the object is.
  • the object information acquisition unit 115 acquires and generates various object information regarding the object identified and determined by the object identification unit 114.
  • An external information server 160 is used to collect and acquire the object information.
  • the object information may be acquired from the information data 131 owned in the HMD 100.
  • the communication unit 127 is a communication interface that communicates with an external information server 160 by wireless LAN, wired LAN, or base station communication.
  • the communication unit 127 is connected to the network 150 via the transmission / reception antenna 128 to transmit / receive information. Do.
  • the communication unit 127 can receive information necessary for image analysis and object information from the information server 160, and can also send and receive operation control signals to and from the information server 160.
  • long-distance wireless communication such as W-CDMA (Wideband Code Division Multiple Access) or GSM (Global System for Mobile communications, registered trademark) may be used.
  • the control unit 129 is composed of a CPU or the like, and controls the operation of each component of the HMD 100 by executing the program 130 stored and stored in the memory unit 132.
  • the memory unit 132 is composed of a flash memory or the like, and stores a program 130 such as an operation control application used by the OS (Operating System) and the control unit 129. It also stores information data 131 such as images, sounds, and signals handled by the HMD 100.
  • the information data 131 includes, for example, a captured image of the camera 111, a desired image selected and specified, a detected value of the distance sensor 120, and acquired and generated object information.
  • the short-range communication unit 133 is a communication interface that performs short-range wireless communication with the mobile information terminal 170.
  • the designated position information designated and input by the mobile information terminal 170 is received, and control information and the like are transmitted and received to and from the mobile information terminal 170.
  • the short-range communication unit 133 is performed using, for example, an electronic tag, but is not limited to this, and is not limited to Bluetooth (registered trademark), IrDA (Infrared Data Association), Zigbee (registered trademark), HomeRF (Home Radio Frequency, registered trademark). ) Or wireless LAN (IEEE802.11a, etc.) can also be used.
  • the information server 160 is configured by using an information generation unit 161, a memory unit 162, a control unit 163, a communication unit 164, and a transmission / reception antenna 165, and each component unit is connected to each other via a bus 166.
  • the information generation unit 161 generates the information necessary for the analysis of the selected and specified image and the object information related to the identified object at the request from the HMD 100.
  • the memory unit 162 is a flash memory or the like, and stores various information generated by the information generation unit 161 and various programs used by the control unit 163 in the information server 160.
  • the communication unit 164 is a communication interface that transmits / receives information to / from the HMD 100 via the network 150 via the transmission / reception antenna 165.
  • the control unit 163 controls the operation of the entire information server 160 by executing a program such as an OS or an operation control application stored and stored in the memory unit 162, which is composed of a CPU or the like.
  • control unit 163 In response to a request from the HMD 100, the control unit 163 receives information generated by the information generation unit 161 for image analysis, object information related to the object, or these information temporarily stored in the memory unit 162 after generation. Is controlled to each component so as to be transmitted to the HMD 100.
  • the mobile information terminal 170 is configured by using a display unit 171, a touch panel 172, a memory unit 173, a control unit 174, and a short-range communication unit 175, and each component unit is connected to each other via a bus 176.
  • the touch panel 172 provided on the surface of the display unit 171 has an input area allocated in association with the image area of the camera image captured by the HMD 100, and receives a designated input of a desired position by the user. However, when the user specifies and inputs the position on the touch panel 172, he / she operates while looking at the scenery image 20 in the field of view ahead.
  • the control unit 174 is composed of a CPU and the like, and controls each component of the mobile information terminal 170.
  • the memory unit 173 is a flash memory or the like, and stores information generated by the mobile information terminal 170, various programs used by the control unit 174, and the like.
  • the short-range communication unit 175 is a communication interface that performs short-range wireless communication with the HMD 100.
  • the HMD 100 can select an object in the camera image corresponding to the position specified by the user.
  • FIG. 3 is a diagram schematically showing an information output operation in this embodiment.
  • A is an example of a landscape image of the field of view in front of the user 10, and
  • (b) is a camera image captured by capturing the landscape image with the camera 111.
  • C is a transparent touch panel 112, and the user 10 can visually recognize the scenery image of (a) through the touch panel 112.
  • the input area of the touch panel 112 of (c) is allocated in association with the area of the camera image of (b) (mapping process).
  • the object identification unit 114 analyzes the image portion 22 corresponding to the position specified by the user in the camera image of (b), and determines that the object indicated by the image portion 22 is a “ ⁇ mushroom”. To do.
  • the object information acquisition unit 115 inquires at the information server 160 of (d) in order to collect information on the object " ⁇ mushroom” that has been identified and determined.
  • the information server 160 searches for the inquired object, and returns the information "it is a toxic mushroom" as the object information related to this XX mushroom.
  • the information display unit 118 of (e) or the headphone 119 of (f) provides the user with the object information received from the information server 160 in text characters or voice. For example, “This is a toxic XX mushroom” or "There is a poisonous mushroom 15 meters ahead” including distance information is output.
  • the user 10 immediately obtains information about the desired object by designating the position on the touch panel 112 where the desired image (object 21) can be seen while viewing the landscape image through the touch panel 112. be able to.
  • 4A to 4F are diagrams showing an operation when a desired image is designated and input with one finger.
  • FIG. 4A is an example of a landscape image 401 of the field of view in front of the user's eyes, and is a landscape in a park with a fountain 402, a swing 403, and the like.
  • FIG. 4B is a touch panel 112, which has an input area associated with an image area of a camera image, and a landscape image 401 in front of the user can be seen through the touch panel 112. The user uses one finger 11 to specify a position on the touch panel 112 where the fountain 402, which is a desired image, can be seen (the landscape image at the specified position is indicated by a dotted line).
  • the object identification unit 114 identifies and determines that the object is a "fountain", and the object information acquisition unit 115 acquires and generates information about the fountain that is the object from the information server 160.
  • the information display unit 118 displays the same information 406 in text characters in accordance with the view image 401.
  • the headphone 119 outputs, for example, information 407 that "the fountain is at a position 3 meters ahead" by voice.
  • the information display unit 118 displays the same information 408 in text characters in accordance with the view image 401.
  • FIG. 5A to 5D are diagrams showing an operation when a desired image is designated and input with a plurality of fingers.
  • FIG. 5A is an example of a landscape image 501 of the field of view in front of the eyes, which is a landscape in a park with a fountain 502, a child 503, a large tree 504, and the like.
  • FIG. 5B is a touch panel 112, and the landscape image 501 in front of the user can be seen through the touch panel 112.
  • the user uses a plurality of fingers 12 to specify a position on the touch panel 112 so as to surround the desired images of the fountain 502, the child 503, and the large tree 504 (the landscape image at the specified position is indicated by a dotted line).
  • the object identification unit 114 discriminates and determines that there are a plurality of objects and are a "fountain", a "child”, and a "big tree”, and the object information acquisition unit 115 identifies and determines that the objects are a fountain and a child. Get and generate multiple pieces of information about the tree.
  • the information 505 that "there is a fountain that spouts water in front of a big pine tree and there is an elementary school child on the left side” is output by voice from the headphones 119.
  • the information display unit 118 displays the same information 506 in text characters in accordance with the view image 501.
  • the distance to the object in the object information for example, "There is a large tree at a position 10 meters ahead, a fountain is at a position 3 meters ahead of it, and a position 2 meters ahead to the left of it. I have a child. "
  • the user can simultaneously output information on a plurality of objects by designating a plurality of images (objects) in the field of view using a plurality of fingers.
  • FIGS. 6A to 6D are diagrams showing an operation when a desired image is designated and input by swiping a finger. Swipe is an operation of sliding a finger on the touch surface to move it in a specific direction.
  • FIG. 6A is an example of a landscape image 601 of the field of view in front of the eyes, which is a landscape in a park with a flower bed 602, a fountain 603, a bench 604, and the like.
  • FIG. 6B is a touch panel 112, and the landscape image 601 in front of the user can be seen through the touch panel 112.
  • the user designates the flowerbed 602, the fountain 603, and the bench 604 existing in the swiped range (the landscape image at the specified position is shown by the dotted line). ..
  • the object identification unit 114 identifies and determines that the object is a "flowerbed”, a "fountain”, and a “bench”, and the object information acquisition unit 115 acquires information on the object, the flowerbed, the fountain, and the bench. Generate.
  • the information display unit 118 displays the same information 606 in text characters in accordance with the view image 601 of the field of view. If you want to include the distance to the object in the object information, for example, "There is a flower bed 4 meters to the left, a fountain 3 meters to the center, and a bench 2 meters to the right.” become.
  • the user can specify a plurality of images (objects) existing in the swiping direction in the field of view, and confirms the arrangement state of the objects in the landscape image as well. It becomes possible to recognize.
  • FIG. 7 is a flowchart showing the above-mentioned HMD processing procedure.
  • a desired image (object) is specified by the user, the flow of acquiring and outputting the object information is shown, and the following steps are advanced by the control unit 129.
  • S301 The field of view in front of the user is photographed by the camera 111, and the scenery image (camera image) seen by the user is captured.
  • S302 It is determined whether or not the desired image selection designation input has been performed by the user on the object designation unit 121 (touch panel 112 or the like). When the designated input is not performed, it waits until the designated input is performed, and during that time, the shooting of S301 is continued and the latest camera image is captured.
  • the object identification unit 114 refers to the camera image, analyzes a desired image corresponding to the position designated by the object designation unit 121, and projects the desired image on the object. Is identified and judged.
  • the user's designation method is one finger (shown in FIG. 4B)
  • one image is analyzed and one object is identified and determined.
  • the designation method uses multiple fingers (shown in FIG. 5B)
  • the image within the range surrounded by the multiple fingers is analyzed, and when the designation is made by swiping the fingers (shown in FIG. 6B)
  • the image is swiped.
  • the images in the range are analyzed to identify and judge a plurality of objects.
  • the object information acquisition unit 115 acquires and generates the object information related to the object whose identification is determined by the object identification unit 114. Therefore, the information server 160 is inquired to collect information. Alternatively, the object information may be collected and acquired from the information data 131 owned in the HMD 100.
  • S305 It is determined whether the distance detection to the object is requested by the user when the selection designation is input in S302. When the distance detection is requested, the process proceeds to S306, and when the distance detection is not requested, the process proceeds to S308.
  • S306 The distance sensor 120 detects the distance to the object. If there are multiple objects, perform for each object. At that time, the distance to each object included in the front scenery image is measured in a two-dimensional manner by the distance sensor 120, but the scenery image and the object designation unit 121 (touch panel) are associated with the positions in the area. Therefore, the distance data of the specified object can be easily extracted.
  • S307 The object information acquisition unit 115 adds the detected distance information to the object information acquired and generated in S304.
  • S308 The information display unit 118 or the voice output unit 123 displays the acquired and generated object information in text characters or outputs it by voice to notify the user. Of course, you may notify by both text text and voice.
  • S309 The above sequence is repeated until the selection designation input is completed.
  • the user's operation includes an operation of pressing more strongly, an operation of pressing longer than a predetermined time, or an operation of turning around the desired image position when a desired image is designated and input with a finger. If so, it can be distinguished from the selection designation input operation of the desired image in S302.
  • the object information is "this is a fountain", and when one finger is specified twice, "the shape of a pelican”. It's a fountain, "explains in detail. If you specify it 3 times, it says “Pelican-shaped fountain, water is blowing upward from the beak", and if you specify it 4 times, "It is a white pelican-shaped fountain, beak. The water is blowing upwards while repeating the strength and weakness. ”The more you specify, the more detailed the object information will be explained. As a result, the user can obtain necessary and sufficient object information by increasing the number of designated inputs until he / she is satisfied.
  • the voice input unit 124 in the HMD 100 may be used to capture the user's voice, and a detailed explanation may be given in a format of answering the user's question voice. For example, after performing a designated input operation with one finger, when the user says “Tell me in detail”, "a fountain in the shape of a white pelican blows water upward from the beak while repeating strength and weakness. Notify by text or voice, such as "I'm up.” As a result, it is possible to know the object information more easily.
  • a stereo microphone as the voice input unit 124, collect the voice uttered by the object specified by the finger with the stereo microphone, and analyze it together with the camera image. For example, if there is a crow that is ringing at the position specified by the finger in a park, etc., object information such as "It is a crow that is ringing" is generated including the voice of the object, and text characters are generated. Or voice notification. As a result, it is possible to recognize the state and state of the object including the voiced sound from the object.
  • the user can confirm and recognize the information of the object specified by the finger by text characters or voice while looking at the scenery in front.
  • it is an easy-to-use tool because it is possible to easily know the information of the object existing in front of them.
  • the map data at the current position is acquired without taking a picture of the scenery in front of the user with a camera, and the desired object specified by the user is identified and determined based on the map data.
  • FIG. 8 is a block diagram showing the configuration of the head-mounted information output device (HMD) 100'according to the second embodiment.
  • HMD head-mounted information output device
  • the HMD 100' is provided with a 3D map acquisition unit 201 and a field of view map image generation unit 202 instead of the camera 111 in the first embodiment, and further includes a position sensor 203 and a geomagnetic sensor 204. Further, the HMD 100'is connected to the map providing server 180 via the network 150. Other configurations are the same as in Example 1 (FIG. 2).
  • the 3D map acquisition unit 201 collects and acquires a 3D map, which is map data obtained by adding three-dimensional information in the height direction to a plane map, from an external map providing server 180 using a network 150, a cloud service, or the like.
  • the map providing server 180 which is the acquisition destination at this time, may be the same as the information server 160, which subsequently acquires the object information.
  • the three-dimensional information of the 3D map includes information such as the altitude of the land and the height of the building, which makes it possible to know the topography of the desired area and the shape of the building.
  • the field of view map image generation unit 202 cuts out the map data in the user's field of view from the 3D map and generates a "field of view map image".
  • the visibility map image is a map data in a range that can be seen from the position of the user, which is arranged according to the position of the scenery image seen by the user.
  • the input area of the object designation unit 121 (touch panel 112, etc.) is allocated in association with the image area of the view map image generated by the view map image generation unit 202, and the view map can be specified by the user by designating the position. You can specify an object at the corresponding position in the image.
  • the position sensor 203 is, for example, a GPS receiver that receives a signal from a GPS (Global Positioning System) satellite in the sky, and detects the current position of the HMD 100'(that is, the current position of the user).
  • GPS Global Positioning System
  • the geomagnetic sensor 204 detects the magnetic force of the earth and detects the direction in which the HMD100'is facing (that is, the direction in which the user is facing).
  • the distance sensor 120 detects the distance to the object selected and specified by the user, and also detects the height of the HMD 100'from the ground (that is, the height from the ground where the user is).
  • FIG. 9 is a diagram schematically showing the information output operation in this embodiment.
  • (A) is an example of a landscape image of the field of view in front of the user 10
  • (b1) is a 3D map acquired by the 3D map acquisition unit 201 from an external information server 160.
  • the user detected by the geomagnetic sensor 204 is suitable based on the position where the user detected by the position sensor 203 is located and the height position from the ground where the user detected by the distance sensor 120 is located. Determine the direction.
  • (B2) is a field of view map image, which is generated by the field of view map image generation unit 202 by cutting out map data corresponding to the front view that can be seen by the user at the base point from the above 3D map.
  • the scenery image of (a) and the field of view map image of (b2) seen by the user correspond to each other in the position in the image.
  • the object included in the view map image of (b2) is shown in the same illustration as the object of the landscape image of (a), but in reality, the three-dimensional information included in the 3D map is arranged at the corresponding position. Has been done.
  • (C) is a transparent touch panel 112, and the user 10 can visually recognize the landscape image of (a) via the touch panel 112.
  • the input area of the touch panel 112 of (c) is allocated in association with the area of the visual field map image of (b2) (mapping process).
  • the user 10 touches the finger 11 to the corresponding position on the touch panel 112 of (c) in order to obtain information about the desired image (object 21) in the landscape image of (a).
  • the object identification unit 114 analyzes the image portion 22 corresponding to the position specified by the user in the field of view map image of (b2) to identify and determine what the specified object is. At that time, if the map data of the 3D map of (b1) is referred to, for example, it can be found that it is simply a "school” or a " ⁇ city ⁇ elementary school".
  • the object information acquisition unit 115 sends the information server 160 to collect information about the object " ⁇ elementary school" that has been identified and determined. Inquire. Then, the object information received from the information server 160 is provided to the user in text characters or voice on the information display unit 118 or the headphone 119.
  • the user 10 specifies a position on the touch panel 112 on which the desired image (object 21) can be seen while viewing the landscape image through the touch panel 112, thereby indicating the desired image (object). Information about things) can be obtained immediately.
  • FIG. 10A to 10D are diagrams showing the information output operation of this embodiment as a specific example.
  • FIG. 10A shows a state in which the user 10 wearing the HMD 100'is located at Oyama 700 and is looking at the surrounding scenery.
  • the surrounding landscape image 701 includes towers 702, buildings 703, 704, and the like.
  • a view map image corresponding to the landscape image 701 viewed by the user is generated.
  • the generated field of view map image is not displayed, it cannot be seen by the user 10.
  • FIG. 10B is a touch panel 112, which has an input area associated with an image area of a field of view map image, and a landscape image 701 in front of the user can be seen through the touch panel 112.
  • the user specifies a position on the touch panel 112 on which the tower 702, which is a desired image, can be seen with a finger 11 (a landscape image at the specified position is indicated by a dotted line).
  • the object identification unit 114 identifies and determines that the object is a "tower", and the object information acquisition unit 115 acquires and generates information about the tower, which is the object, from the information server 160.
  • the information display unit 118 displays the same information 707 in text characters.
  • the user 10 uses a plurality of fingers as shown in FIG. 5B or swipes the fingers as shown in FIG. 6B in order to specify a desired image in the landscape image. Is also possible. It is also possible to display a marker indicating a position specified by the user as described in the first embodiment.
  • the user can confirm and recognize the information of the object designated by the finger by text characters or voice while looking at the scenery in front.
  • a 3D map is acquired from the map providing server 180, and the identification determination of the object is performed using the map data.
  • fixed objects such as buildings and roads are registered in the 3D map as unchanged map data, so this can be used, and the scenery in front of you is photographed with a camera as in Example 1. You don't have to.
  • the map data of the 3D map is used, but a similar operation can be realized by using the 2D map, that is, the two-dimensional map data.
  • the image of the surveillance camera is acquired from the outside, and the desired object specified by the user is identified and determined based on the image of the surveillance camera.
  • FIG. 11 is a block diagram showing the configuration of the head-mounted information output device (HMD) 100 ”according to the third embodiment.
  • HMD head-mounted information output device
  • FIG. 11 the same as the first embodiment (FIG. 2) and the second embodiment (FIG. 8).
  • the parts with the reference numerals are the same as those described above, and the detailed description thereof will be omitted and the different parts will be described.
  • the HMD 100 is configured by using the field of view monitoring image acquisition unit 211 instead of the camera 111 in the first embodiment and the 3D map acquisition unit 201 and the field of view map image generation unit 202 in the second embodiment. , Is connected to the surveillance video server 190 via the network 150. Other configurations are the same as those of the first and second embodiments.
  • the field of view monitoring video acquisition unit 211 acquires the captured video from the externally installed surveillance camera from the external surveillance video server 190 via the network 150, cloud service, or the like.
  • the monitoring video server 190 that is the acquisition destination at this time may be the same as the information server 160 that subsequently acquires the object information.
  • the surveillance video server 190 holds and manages the images of a large number of surveillance cameras that are widely installed. Then, the HMD 100 ”sends information such as the position, height, and direction of the user detected by the position sensor 203, the geomagnetic sensor 204, and the distance sensor 120 to the surveillance video server 190, and the view video generation of the surveillance video server 190 is generated.
  • the unit 191 cuts out and generates a surveillance camera image in front of the user from the surveillance camera image held, and transmits the image to the HMD 100 ”. Therefore, the surveillance camera image acquired by the field of view monitoring image acquisition unit 211 is arranged corresponding to the scenery image seen from the position of the user, and is hereinafter referred to as “field of view monitoring image”.
  • the input area of the object designation unit 121 (touch panel 112, etc.) is allocated in association with the image area of the field of view monitoring image acquired by the field of view monitoring image acquisition unit 211, and the user specifies the position to monitor the field of view. It is possible to specify an object at a corresponding position in the image.
  • FIG. 12 is a diagram schematically showing an information output operation in this embodiment.
  • (A) is an example of a landscape image of the field of view in front of the user 10
  • (b) is a field of view monitoring image acquired by the field of view monitoring image acquisition unit 211 from the monitoring image server 190.
  • This view monitoring image is cut out from the image of each surveillance camera based on the position, height, and direction of the user 10. Therefore, the scenery image of (a) and the field of view monitoring image of (b) viewed by the user correspond to the positions in the image.
  • the position of the user and the position of the surveillance camera are different, there is an object that is invisible to the user but can be seen by the surveillance camera, or vice versa. There is.
  • (C) is a transparent touch panel 112, and the user 10 can visually recognize the landscape image of (a) via the touch panel 112.
  • the input area of the touch panel 112 of (c) is allocated in association with the area of the field of view monitoring image of (b) (mapping process).
  • the object identification unit 114 analyzes the image portion 22 corresponding to the position specified by the user in the field of view monitoring image (b), and identifies and determines what the specified object is. In this example, it turns out to be a "car.”
  • the object information acquisition unit 115 inquires at the information server 160 in order to collect information on the object "automobile" that has been identified and determined. Then, the object information received from the information server 160 is provided to the user in text characters or voice on the information display unit 118 or the headphone 119.
  • the user 10 specifies a position on the touch panel 112 on which the desired image (object 21) can be seen while viewing the landscape image through the touch panel 112, thereby indicating the desired image (object). Information about things) can be obtained immediately.
  • FIG. 13A to 13D are diagrams showing the information output operation of this embodiment as a specific example.
  • FIG. 13A is a front view image 801 that the user 10 is looking at, in which the building 802 and the traveling automobile 803 are present.
  • the HMD 100 requests the surveillance camera image from the external surveillance image server 190, whereas the information server 160 requests the view surveillance image corresponding to the scenery seen in front of the user from the possessed surveillance camera image. It is cut out and generated and provided.
  • the received visibility monitoring image is not displayed on the HMD100 ", it is invisible to the user.
  • FIG. 13B is a touch panel 112, which has an input area associated with the image area of the received visibility monitoring image, and the scenery image 801 in front of the eyes can be seen through the touch panel 112.
  • the user uses his / her finger 11 to specify a position on the touch panel 112 on which the automobile 803, which is a desired image, can be seen (the landscape image at the specified position is indicated by a dotted line).
  • the object identification unit 114 identifies and determines that the object is a "moving vehicle", and the object information acquisition unit 115 acquires and generates information about the vehicle that is the object from the information server 160.
  • the information 806 "This is a minivan type car made of XX" is output by voice from the headphones 119. Further, as shown in FIG. 13D, the information display unit 118 displays the same information 807 in text characters.
  • the user 10 uses a plurality of fingers as shown in FIG. 5B or swipes the fingers as shown in FIG. 6B in order to specify a desired image in the landscape image. Is also possible. It is also possible to display a marker indicating a position specified by the user as described in the first embodiment.
  • the user can confirm and recognize the information of the object specified by the finger by text characters or voice while looking at the scenery in front.
  • the identification judgment of the object is performed by using the image taken by the surveillance camera. Therefore, not only a fixed object as in the second embodiment but also a moving or changing object such as a car or a passerby can be confirmed and recognized in real time. Further, even if the object moves and is hidden behind the building and cannot be seen by the user, it may be possible to take a picture with a surveillance camera installed near the object.
  • the information of the object invisible to the user may be confirmed and recognized by text characters or voice.
  • the present invention is not limited to the above-described embodiment, and includes various modifications.
  • the above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations.
  • it is possible to replace a part of the configuration of one embodiment with the configuration of another embodiment and it is also possible to add the configuration of another embodiment to the configuration of one embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

ヘッドマウント型情報出力装置100は、ユーザ10の視界内の景色画像20を撮影するカメラ111と、カメラで撮影された画像領域と対応する入力領域を有し、ユーザが景色画像内にある所望の対象物の位置を指定する対象物指定部121と、カメラが撮影した画像内で、対象物指定部によりユーザが指定した位置に対応する画像部分を解析して、ユーザが指定した対象物21を識別する対象物識別部114と、対象物識別部が識別した対象物に関する対象物情報を取得生成する対象物情報取得部115と、対象物情報取得部が取得した対象物情報を、情報表示部118からテキスト文字で、あるいは音声出力部123から音声で出力する情報出力部と、を備える。対象物指定部121では、カメラが撮影した画像をユーザに表示することなく、ユーザは視界内の景色画像20を視認した状態で対象物21の位置を指定する。

Description

ヘッドマウント型情報出力装置
 本発明は、ユーザの頭部に装着され現実空間や仮想空間の画像を視認するヘッドマウント型情報出力装置に関する。
 ユーザの頭部に装着して用いるヘッドマウントディスプレイ(Head Mounted Display:HMD)は、現実空間や仮想空間の画像を前面に設けられた表示部に表示するもの(所謂、ビデオ透過型)と、仮想空間画像を表示部で表示しつつ目の前の現実空間画像を視認するもの(所謂、光学透過型)とがある。これらの方式により、現実世界と仮想世界をリアルタイムかつシームレスに融合させて、ユーザに対し、あたかも現実世界のその場に仮想の物体が存在するかのような体験を行わせることができる。また、このようなヘッドマウントディスプレイでは、表示された画像の中から所望の対象物(オブジェクト)を指定し、指定した対象物に対し種々の処理を行うことも可能となっている。
 ここでユーザが所望の対象物を指定するための構成に関し、例えば、特許文献1には、「ヘッドマウントディスプレイがユーザの頭部に装着されたときに内側となる面に設けられた表示装置と、ヘッドマウントディスプレイがユーザの頭部に装着されたときに外側となる面に設けられた、ユーザの体の一部が接触又は近接したことを検知可能なタッチパッドと、タッチパッドにより検知された、ユーザの体の一部が接触又は近接したことを示す入力情報に基づいて生成される画像のデータを取得し、取得した画像のデータを表示装置に表示する表示制御部と、を備える」構成が記載されている。
特開2016-81476号公報
 特許文献1に記載される技術は、表示装置の表示領域と対応付けられた入力領域を有するタッチパッドにより、ユーザが指定する位置をタッチ入力し、指定された位置に相当する表示装置上の対象物の画像データを取得するものである。これを行うためには、タッチパッドのタッチ位置に対応する表示装置上の表示領域には、当然ながら、ユーザが選択する候補となる対象物を含む画像が表示されている必要がある。
 一方、ユーザは、目の前の視界内にある対象物について、即座に詳細な情報を知りたい場合がある。その際、視界から所望の対象物をいかに簡便に選択指定できるか、が課題となる。そのためには、視界にある対象物をユーザが指差すなどの直接的な操作で実現できることが望ましい。特許文献1の手法では、予め対象物を含む画像をユーザに提供することが必要であるが、そのためには画像表示のための処理や装置構成が複雑になり、またユーザにとって、表示画像を見ながらの間接的な操作となり、使い勝手が良くない。
 上記課題を鑑み、本発明の目的は、ユーザの視界内にある現実の対象物を、対象物を含む画像を表示することなく直接的に指定し、指定された対象物に関する情報を取得して出力するヘッドマウント型情報出力装置を提供することにある。
 上記課題を解決するために、代表的な本発明のヘッドマウント型情報出力装置の1つは、ユーザの視界内の景色画像を撮影するカメラと、カメラで撮影された画像領域と対応する入力領域を有し、ユーザが景色画像内にある所望の対象物の位置を指定する対象物指定部と、カメラが撮影した画像内で、対象物指定部によりユーザが指定した位置に対応する画像部分を解析して、ユーザが指定した対象物を識別する対象物識別部と、対象物識別部が識別した対象物に関する対象物情報を取得生成する対象物情報取得部と、対象物情報取得部が取得した対象物情報を、情報表示部からテキスト文字で、あるいは音声出力部から音声で出力する情報出力部と、を備え、対象物指定部では、カメラが撮影した画像をユーザに表示することなく、ユーザは視界内の景色画像を視認した状態で対象物の位置を指定する構成とした。
 本発明によれば、ユーザの視界内にある現実の対象物を直接的に選択指定し、指定した対象物に関する情報を出力することができるので、使い勝手の良いヘッドマウント型情報出力装置が実現する。
  また、上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
実施例1に係るヘッドマウント型情報出力装置の使用形態を示す図。 実施例1に係るヘッドマウント型情報出力装置の構成を示すブロック図。 実施例1における情報出力動作を模式的に示した図。 1本の指で所望画像を指定入力する場合の動作を示す図。 1本の指で所望画像を指定入力する場合の動作を示す図。 1本の指で所望画像を指定入力する場合の動作を示す図。 1本の指で所望画像を指定入力する場合の動作を示す図。 1本の指で所望画像を指定入力する場合の動作を示す図。 1本の指で所望画像を指定入力する場合の動作を示す図。 複数の指で所望画像を指定入力する場合の動作を示す図。 複数の指で所望画像を指定入力する場合の動作を示す図。 複数の指で所望画像を指定入力する場合の動作を示す図。 複数の指で所望画像を指定入力する場合の動作を示す図。 指をスワイプして所望画像を指定入力する場合の動作を示す図。 指をスワイプして所望画像を指定入力する場合の動作を示す図。 指をスワイプして所望画像を指定入力する場合の動作を示す図。 指をスワイプして所望画像を指定入力する場合の動作を示す図。 ヘッドマウント型情報出力装置の処理手順を示すフローチャート。 実施例2に係るヘッドマウント型情報出力装置の構成を示すブロック図。 実施例2における情報出力動作を模式的に示した図。 本実施例の情報出力動作を具体例で示す図。 本実施例の情報出力動作を具体例で示す図。 本実施例の情報出力動作を具体例で示す図。 本実施例の情報出力動作を具体例で示す図。 実施例3に係るヘッドマウント型情報出力装置の構成を示すブロック図。 実施例3における情報出力動作を模式的に示した図。 本実施例の情報出力動作を具体例で示す図。 本実施例の情報出力動作を具体例で示す図。 本実施例の情報出力動作を具体例で示す図。 本実施例の情報出力動作を具体例で示す図。
 以下、本発明のヘッドマウント型情報出力装置のいくつかの実施例について、図面を用いて説明する。いずれの実施例においても、ユーザは前方に見える景色から所望の対象物を選択指定すると、指定された対象物を識別し、それに関する情報を取得して出力するものである。その際、指定された対象物をどのようにして識別判定するかによって、実施例を分けて説明する。なお、以下の実施例では、ヘッドマウント型情報出力装置を「HMD」と呼ぶことにする。
 実施例1では、ユーザの前方の景色をカメラで撮影し、撮影した画像をもとにユーザが指定した所望の対象物を識別判定するものである。
 図1は、実施例1に係るヘッドマウント型情報出力装置(HMD)100の使用形態を模式的に示す図である。HMD100は、ユーザ10の頭部に装着され、カメラ111、タッチパネル112、タッチパッド113、対象物識別部114、対象物情報取得部115、情報投影部116と光学コンバイナ117からなる情報表示部118、ヘッドフォン119、距離センサ120などを備える。さらに、情報サーバ160や携帯情報端末170との間で情報の送受信を行うことが可能である。
 HMD100を装着したユーザ10は、目の前の視界の景色画像20を、ハーフミラーからなる光学コンバイナ117及び透明なタッチパネル112を透過して直接目で視認する。カメラ111は、目の前の視界の景色画像20を撮影して取り込む。タッチパネル112は、ユーザ10が入力領域内の位置を指で指定入力するものである。その際、カメラ111で撮影し取り込んだ景色画像(カメラ画像と呼ぶ)の画像領域とタッチパネル112の入力領域とは、互いの領域内の位置座標が対応付けて割り付けられている(いわゆるマッピング処理がなされている)。よって、ユーザ10はタッチパネル112で所望の位置を指定入力することにより、カメラ111で撮影し取り込んだカメラ画像の中からマッピング処理にて対応付けられた画像部分を選択することができる。
 その際、図1で模式的に示すように、タッチパネル112をユーザ10の視界方向に設置し、タッチパネル112上の入力領域と、ユーザ10の見る景色画像20の画像領域(一点鎖線151、152で囲まれた領域)とが一致するように配置する。これにより、ユーザ10がタッチパネル112を介して見える景色画像20と、カメラ111で撮影し取り込んだカメラ画像とは、タッチパネル112上で位置が一致することになる。よってユーザ10は、視界内に見える所望の画像(例えば対象物21)の位置をタッチパネル112上で指定することで、まさにカメラ111で撮影し取り込んだカメラ画像から指定した所望の対象物を選択することができ、ユーザの視界内にある現実の対象物を直接的に選択指定する操作を行うことができる。
 対象物識別部114は、タッチパネル112で選択指定されたカメラ画像の部分を解析し、画像が映し出し示している対象物が何かを識別判定する。さらに、対象物情報取得部115は、対象物識別部114で識別判定された対象物に関する種々の情報(対象物情報と呼ぶ)を取得生成する。カメラ画像の解析や対象物情報の取得生成に際しては、外部の情報サーバ160から必要な情報を取得する。あるいは、HMD100内に所有する情報データからこれらを取得してもよい。
 情報表示部118は、取得した対象物情報を情報投影部116によりテキスト文字として投影し、光学コンバイナ117を介して結像させユーザ10に表示する。これによりユーザ10は、目の前の視界の景色画像20を背景に、表示された対象物情報が重畳された形で両者を合わせて視認することができる。一方ヘッドフォン119は、取得した対象物情報を音声でユーザ10に通知する。
 ユーザ10がカメラ画像から所望の対象物を選択指定する手段としては、タッチパネル112の他に、HMD100の側面などに配置されたタッチパッド113を用いることができる。タッチパッド113は、パネル平板状のセンサを指でなぞることでマウスポインタの操作を行うもので、タッチパネル112と同様の指定入力操作を行うことができる。
 さらには、スマートフォンやスマートウオッチなどの携帯情報端末170を用いることも可能で、表示面にタッチパネルを有しており、HMD100のタッチパネル112と同様の指定入力操作を行うことができる。携帯情報端末170で指定入力された位置の情報は、近距離無線通信によりHMD100に取り込むようにする。
 タッチパッド113や携帯情報端末170を用いる方法は、指定入力操作を行う際のユーザの姿勢に自由度があり、より操作しやすいと言える。例えば、タッチパッド113をユーザ10の左右両側に設けておけば、雨天時などに右手で傘を持っているときは左手でタッチし、左手で傘を持っているときには右手でタッチすることができ、便利である。
 反面、タッチパッド113や携帯情報端末170を用いる場合には、それらの入力領域はカメラ画像の領域との間でマッピング処理はなされているものの、HMD100のタッチパネル112を用いる場合のように、ユーザが見る景色画像20に重ねて指定入力する形態とは異なる。よって、ユーザの指定した位置が所望の画像位置からずれることもありえる。その対策として、情報表示部118ではユーザの指定した位置を示すマーカを表示させるようにすればよい。これによりユーザは、自分の指定した位置(マーカ位置)をユーザが見る景色画像20に重ねて確認することができ、所望の対象物を確実に選択指定することができるようになる。このユーザの指定した位置を示すマーカは、HMD100のタッチパネル112におけるユーザの指定時にも表示してもよい。
 距離センサ120は、前方に存在する物体までの距離を検出するもので、ユーザにより選択指定された実際の対象物までの距離を検出する。検出した距離情報は、対象物情報の1つとして利用する。
 以上の構成により、ユーザが目の前の視界内の景色画像の中から所望の対象物を選択指定すると、指定された対象物に関する種々の対象物情報を、距離情報も含めテキスト文字や音声でユーザに通知することができる。これによりユーザは、目の前の視界の景色画像とともに、所望の対象物に関する情報をリアルタイムで視認することができ、使い勝手の良い情報出力装置が実現する。
 図2は、図1に示したHMDの構成を示すブロック図である。図1で詳しく説明したものについては、繰り返しの説明を省略する。
 HMD100は、カメラ111、対象物指定部121、情報表示部118、距離センサ120、音声出力部123、音声入力部124を有する。さらに、対象物識別部114、対象物情報取得部115、通信部127、制御部129、メモリ部132、近距離通信部133を備え、各構成部はそれぞれバス140を介して相互に接続されている。
 カメラ111は、HMD100の前面に設置され、ユーザの目の前の視界の景色を撮影し、カメラ画像としてHMD100内に取り込む。
 対象物指定部121は、タッチパネル112やタッチパッド113からなり、カメラ111で撮影されたカメラ画像の画像領域と対応付けられた入力領域を有し、ユーザが指で接触あるいは近接することで、入力領域内の位置の指定を行うものである。なお、タッチパネルやタッチパッドを目の前の前方に左右2枚設置してもよく、これによりユーザは左右どちらの指でもタッチ操作が可能となる。
 情報表示部118は、情報投影部(プロジェクタ)116と光学コンバイナ117を用いてテキスト文字などの対象物情報を結像して表示する。また、HMD100の動作状態やユーザへの通知情報を表示する。
 距離センサ120は、レーザーを照射しその散乱光を測定して物体までの距離や対象物の状態を検出するLiDAR(Light Detection and Ranging)や、ミリ波の電波を発射しその反射波を捉まえて物体までの距離や対象物の状態を検出するミリ波レーダーなどが用いられる。これにより、ユーザにより選択指定された対象物までの距離を検出する。また、距離センサ120で検出した対象物の状態情報を対象物識別部114での対象物解析に用いてもよい。
 音声出力部123は、ヘッドフォン119やスピーカーなどで構成され、対象物情報を音声に変換してユーザに出力する。また、HMD100の動作状態やユーザへの通知情報を出力する。音声入力部124は、ユーザからの音声を音声信号に変換して入力する。
 対象物識別部114は、カメラ画像のうち、対象物指定部121で選択指定した位置の画像を解析し、対象物が何かを識別判定する。対象物情報取得部115は、対象物識別部114で識別判定された対象物に関する種々の対象物情報を取得生成する。なお、対象物情報を収集取得するために、外部の情報サーバ160を利用する。あるいは、HMD100内に所有する情報データ131から対象物情報を取得してもよい。
 通信部127は、無線LAN、有線LAN、あるいは基地局通信により外部の情報サーバ160と通信を行う通信インターフェースであり、無線通信に際しては送受信アンテナ128を介してネットワーク150に接続し、情報の送受信を行う。通信部127では、情報サーバ160から画像解析に必要な情報や対象物情報を受信し、また情報サーバ160との間で動作制御信号の送受信を行うこともできる。なお、基地局通信としては、W-CDMA(Wideband Code Division Multiple Access)やGSM(Global System for Mobile communications、登録商標)などの遠距離の無線通信を用いればよい。
 制御部129は、CPU等で構成され、メモリ部132に記憶格納されているプログラム130を実行することによって、HMD100の各構成部の動作制御を行う。
 メモリ部132は、フラッシュメモリなどで構成され、OS(Operating System)や制御部129が使用する動作制御用アプリケーションなどのプログラム130を記憶している。また、HMD100で取り扱われる画像、音声、信号などの情報データ131を記憶している。情報データ131としては、例えば、カメラ111の撮影画像や選択指定された所望の画像、距離センサ120の検出値、取得生成された対象物情報が含まれる。
 近距離通信部133は、携帯情報端末170と近距離無線通信を行う通信インターフェースである。携帯情報端末170で指定入力された指定位置情報の受信や、携帯情報端末170との間で制御情報などの送受信を行う。近距離通信部133は、例えば電子タグを用いて行われるが、これに限定されず、Bluetooth(登録商標)、IrDA(Infrared Data Association)、Zigbee(登録商標)、HomeRF(Home Radio Frequency、登録商標)、または、無線LAN(IEEE802.11aほか)を用いることもできる。
 次に、HMD100の通信先である、情報サーバ160と携帯情報端末170の構成について説明する。
  情報サーバ160は、情報生成部161、メモリ部162、制御部163、通信部164、送受信アンテナ165を用いて構成され、各構成部はバス166を介して相互に接続されている。
 情報生成部161は、HMD100からの要求で、選択指定された画像の解析に必要な情報や識別判定された対象物に関する対象物情報を生成する。メモリ部162は、フラッシュメモリなどであり、情報生成部161で生成した各種の情報や、情報サーバ160内の制御部163が使用する各種プログラムなどを記憶している。
 通信部164は、送受信アンテナ165を介しネットワーク150を経由してHMD100と情報の送受信を行う通信インターフェースである。制御部163は、CPU等で構成され、メモリ部162に記憶格納されているOSや動作制御用アプリケーションなどのプログラムを実行することによって、情報サーバ160全体の動作制御を行う。
 制御部163は、HMD100からの要求に応じて、情報生成部161で生成された画像解析に必要な情報や対象物に関する対象物情報、あるいは生成後一旦メモリ部162に保存されているこれらの情報を、HMD100に送信するように各構成部を制御する。
 携帯情報端末170は、表示部171、タッチパネル172、メモリ部173、制御部174、近距離通信部175を用いて構成され、各構成部はバス176を介して相互に接続されている。
 表示部171の表面に設けられたタッチパネル172は、HMD100で取り込まれたカメラ画像の画像領域と対応付けて割り付けられた入力領域を有し、ユーザによる所望位置の指定入力を受け付ける。ただし、ユーザがタッチパネル172で位置を指定入力するときは、前方の視界内の景色画像20を見ながら操作することになる。
 制御部174は、CPU等で構成され、携帯情報端末170の各構成部を制御する。メモリ部173は、フラッシュメモリなどであり、携帯情報端末170で生成した情報や、制御部174が使用する各種プログラムなどを記憶している。近距離通信部175は、HMD100と近距離無線通信を行う通信インターフェースである。
 ユーザがタッチパネル172により入力領域内の所望の位置を指で指定入力すると、指定入力された位置の情報は、一旦メモリ部173に保存されるとともに、近距離通信部175を介してHMD100に送信される。その結果、HMD100では、ユーザが指定した位置に対応するカメラ画像内の対象物を選択することができる。
 図3は、本実施例における情報出力動作を模式的に示した図である。
  (a)はユーザ10の目の前の視界の景色画像の例で、(b)はカメラ111により景色画像を撮影して取り込んだカメラ画像である。(c)は透明なタッチパネル112で、ユーザ10はタッチパネル112を介して(a)の景色画像を視認することができる。(c)のタッチパネル112の入力領域は、(b)のカメラ画像の領域と対応付けて割り付けられている(マッピング処理)。
 ここでユーザ10は、(a)の景色画像内の所望の画像(対象物21)について情報を得ようとして、(c)のタッチパネル112の上の対応する位置に指11を接触させたとする。
 対象物識別部114は、(b)のカメラ画像において、ユーザが指定した位置に対応する画像部分22を解析して、画像部分22が示す対象物は「○○キノコ」であることを識別判定する。対象物情報取得部115は、識別判定した対象物「○○キノコ」に関する情報を収集するため、(d)の情報サーバ160に問い合わせる。情報サーバ160では問合せのあった対象物について検索し、この○○キノコに関する対象物情報として、「毒性のあるキノコである」という情報が返送される。
 (e)の情報表示部118、あるいは(f)のヘッドフォン119は、情報サーバ160から受け取った対象物情報を、テキスト文字あるいは音声にてユーザに提供する。例えば、「これは毒性のある○○キノコです」とか、距離情報も含めて「前方15メートルに毒キノコがあります」などと出力する。
 このようにユーザ10は、タッチパネル112を介して景色画像を見ながら、所望の画像(対象物21)が見えるタッチパネル112上の位置を指定することで、所望の対象物についての情報を即座に得ることができる。
 ここで、(c)のタッチパネル112上で、ユーザ10が指11を用いて景色画像内の所望の画像(対象物21)を選択指定する方法はいくつか可能であり、それらについて説明する。
  図4Aから図4Fは、1本の指で所望画像を指定入力する場合の動作を示す図である。
 図4Aは、ユーザの見る目の前の視界の景色画像401の例であり、噴水402やブランコ403などがある公園内の風景である。図4Bはタッチパネル112で、カメラ画像の画像領域と対応付けられた入力領域を有し、タッチパネル112を介して目の前の景色画像401が見えている。ユーザは1本の指11で、所望画像である噴水402の見えるタッチパネル112上の位置を指定する(指定された位置の景色画像を点線で示す)。
 対象物識別部114では対象物が「噴水」であることを識別判定し、対象物情報取得部115では、対象物である噴水に関する情報を情報サーバ160から取得生成する。
 そして図4Cに示すように、ヘッドフォン119から「これは水を噴出する装置である噴水です」という情報405を音声で出力する。また、図4Dに示すように、情報表示部118により視界の景色画像401に合わせて、テキスト文字で同様の情報406を表示する。
 さらに、ユーザの要求に応じて、距離センサ120により検出した対象物までの距離も含めた対象物情報を生成することも可能である。そして、図4Eに示すように、ヘッドフォン119から、例えば「3メートル前方の位置に噴水があります」という情報407を音声で出力する。また、図4Fに示すように、情報表示部118により視界の景色画像401に合わせて、テキスト文字で同様の情報408を表示する。
 図5Aから図5Dは、複数の指で所望画像を指定入力する場合の動作を示す図である。
  図5Aは、目の前の視界の景色画像501の例であり、噴水502、子供503、大きな木504などがある公園内の風景である。図5Bはタッチパネル112で、タッチパネル112を介して目の前の景色画像501が見えている。ユーザは複数の指12で、所望画像である噴水502、子供503、および大きな木504を囲むようにタッチパネル112上の位置を指定する(指定された位置の景色画像を点線で示す)。
 対象物識別部114では、対象物が複数あり、「噴水」と「子供」と「大きな木」であることを識別判定し、対象物情報取得部115では、対象物である噴水と子供と大きな木に関する複数の情報を取得生成する。
 そして図5Cに示すように、ヘッドフォン119から「大きな松の木の前に、水を噴出する噴水があり、その左側に小学生の子供がいます」という情報505を音声で出力する。また、図5Dに示すように、情報表示部118により視界の景色画像501に合わせて、テキスト文字で同様の情報506を表示する。
  なお、対象物情報に対象物までの距離を含める場合には、例えば「10メートル前方の位置に大きな木があり、その前の3メートル前方の位置に噴水があり、その左側2メートル前方の位置に子供がいます」といった情報になる。
 このように、ユーザは複数の指を用いて視界の中の複数の画像(対象物)を指定することで、複数の対象物の情報を同時に出力させることも可能である。
 図6Aから図6Dは、指をスワイプして所望画像を指定入力する場合の動作を示す図である。スワイプとは、タッチ面で指を滑らして特定の方向へ動かす操作である。
  図6Aは、目の前の視界の景色画像601の例であり、花壇602、噴水603、ベンチ604などがある公園内の風景である。図6Bはタッチパネル112で、タッチパネル112を介して目の前の景色画像601が見えている。タッチパネル112上でユーザは指11をスワイプ(矢印13で示す)することで、スワイプした範囲に存在する花壇602、噴水603、ベンチ604を指定する(指定された位置の景色画像を点線で示す)。
 対象物識別部114では、対象物が「花壇」と「噴水」と「ベンチ」であることを識別判定し、対象物情報取得部115では、対象物である花壇と噴水とベンチに関する情報を取得生成する。
 そして図6Cに示すように、ヘッドフォン119から「左に花などが植栽された花壇、真ん中に水を噴出する噴水、右に長いすのベンチがあります」という情報605を音声で出力する。また、図6Dに示すように、情報表示部118により視界の景色画像601に合わせて、テキスト文字で同様の情報606を表示する。
  なお、対象物情報に対象物までの距離を含める場合には、例えば「左4メートル前方の位置に花壇、真ん中3メートル前方の位置に噴水、右2メートル前方の位置にベンチがあります」といった情報になる。
 このように、ユーザは指をスワイプすることで、視界の中でスワイプした方向に存在する複数の画像(対象物)を指定することができ、景色画像内の対象物の配置状態も含めて確認認識することが可能となる。
 上記の例では、タッチパネル112を用いて対象物を指定する場合を説明したが、タッチパッド113や、携帯情報端末170のタッチパネル172を用いて対象物を指定する場合も同様の動作となる。ただしその場合は、ユーザが見る景色画像に重ねて指定入力する形態とは異なる。よって前述したように、ユーザの指定した位置を情報表示部118にてマーカで表示するようにすれば、ユーザは景色画像と指定位置との関係を容易に把握できる。その際、図5Bのように複数の指を用いる場合は複数のマーカを表示し、図6Bのように指でスワイプするときはスワイプ位置にライン状のマーカを表示すればよい。このマーカは、HMD100のタッチパネル112におけるユーザの指定時にも表示してもよい。
 図7は、上記したHMDの処理手順を示すフローチャートである。ここでは、ユーザにより所望の画像(対象物)が指定され、その対象物情報を取得して出力するまでの流れを示し、制御部129によって以下のステップが進行される。
 S301:カメラ111で目の前の視界を撮影し、ユーザの見ている景色画像(カメラ画像)を取り込む。
  S302:ユーザにより対象物指定部121(タッチパネル112など)にて所望の画像の選択指定入力が行われたかを判定する。指定入力が行われないときは、指定入力が行われるまで待機し、その間、S301の撮影を継続して最新のカメラ画像を取り込む。
 S303:指定入力が行われると、対象物識別部114はカメラ画像を参照し、対象物指定部121により指定された位置に対応する所望の画像を解析し、所望の画像が映し出している対象物を識別判定する。その際、ユーザの指定方法が1本の指による場合(図4Bに示す)は、1つの画像を解析し、1つの対象物を識別判定する。指定方法が複数の指による場合(図5Bに示す)は、複数の指に囲まれた範囲内の画像を解析し、指をスワイプして指定された場合(図6Bに示す)は、スワイプされた範囲内の画像を解析し、複数の対象物を識別判定する。
 S304:対象物情報取得部115は、対象物識別部114で識別判定された対象物に関する対象物情報を取得生成する。そのため、情報サーバ160に問合せて、情報収集を行う。あるいは、HMD100内に所有する情報データ131から対象物情報を収集取得してもよい。
 S305:S302で選択指定入力される際に、ユーザにより対象物までの距離検出が要求されたかを判定する。距離検出が要求されたときはS306へ、距離検出が要求されないときはS308へ進む。
 S306:距離センサ120にて対象物までの距離を検出する。対象物が複数存在するときは、それぞれの対象物について行う。その際、距離センサ120により前方の景色画像に含まれる各物体までの距離は2次元状に測定されるが、景色画像と対象物指定部121(タッチパネル)とは領域内位置が対応付けられているので、指定された対象物の距離データは容易に抽出できる。
  S307:対象物情報取得部115は、検出した距離情報を、S304で取得生成した対象物情報に追加する。
 S308:情報表示部118または音声出力部123は、取得生成された対象物情報をテキスト文字で表示、あるいは音声により出力してユーザに通知する。もちろん、テキスト文字と音声の両方で通知してもよい。
  S309:選択指定入力が終了するまで、上述のシーケンスを繰り返す。
 なお、S305において距離検出を要求する場合のユーザの操作は、指で所望画像を指定入力する際に、さらに強く押込む操作、所定時間以上長く押す操作、あるいは所望画像位置の周辺を回す操作などとすれば、S302における所望画像の選択指定入力操作と区別できる。
 さらに、ユーザが対象物の情報をより詳細に知りたい場合の選択指定の操作として、1本の指で所望画像を何度も指定入力する操作や、1本の指で長い時間指定する操作などを組み合わせることができる。
 具体的に言えば、例えば図4Bにおいて1本の指で1回指定した場合は、対象物情報を「これは噴水です」とし、1本の指で2回指定した場合は「ペリカンの形をした噴水です」と詳細に説明する。また3回指定した場合は「ペリカンの形をした噴水で、くちばしから水が上に向かって吹きあがっています」とし、さらに4回指定した場合は「白色のペリカンの形をした噴水で、くちばしから水が強弱を繰り返しながら上に向かって吹きあがっています」というように、指定回数を増やすほど対象物情報をより一層詳細に説明する。これによりユーザは、納得がいくまで指定入力回数を増やして必要十分な対象物情報を得ることできる。
 また、HMD100内の音声入力部124を用いてユーザの声を取り込み、ユーザの質問音声に対して答える形式で詳細な説明を行うように構成してもよい。例えば、1本の指で指定入力操作を行った後、ユーザが「詳しく教えて」と発声すると、「白色のペリカンの形をした噴水で、くちばしから水が強弱を繰り返しながら上に向かって吹きあがっています」というように、テキスト文字や音声にて通知する。これにより、一層使い勝手よく対象物情報を知ることができる。
 さらには、音声入力部124としてステレオマイクを搭載し、指で指定した対象物が発声している音声をステレオマイクで集音して、カメラ画像とともに解析することも可能である。例えば、公園などで指で指定した位置に鳴いているカラスがいると、対象物の発声音も含めた形で「カァーカァーと鳴いているカラスです」というような対象物情報を生成し、テキスト文字や音声で通知する。これにより、対象物からの発声音も含めて対象物の様子や状態を認識することができる。
 このように本実施例のヘッドマウント型情報出力装置(HMD)によれば、ユーザは前方の景色を見ながら、指で指定した対象物の情報をテキスト文字や音声で確認認識することができる。特に、視覚または聴覚が不自由なユーザの場合には、目の前に存在する対象物の情報を容易に知ることができるので、使い勝手の良いツールとなる。
 実施例2では、ユーザの前方の景色をカメラで撮影せずに、現在位置での地図データを取得し、ユーザが指定した所望の対象物について地図データをもとに識別判定する構成とした。
 図8は、実施例2に係るヘッドマウント型情報出力装置(HMD)100’の構成を示すブロック図である。図8において、実施例1(図2)と同一の符号を付した部分は前記した説明と同様であり、それらの詳細な説明は省略し相違する部分を説明する。
 HMD100’は、実施例1におけるカメラ111の代わりに、3Dマップ取得部201、視界地図画像生成部202を備え、さらに位置センサ203、地磁気センサ204を追加して構成している。またHMD100’は、ネットワーク150を介して地図提供サーバ180に接続されている。他の構成は、実施例1(図2)と同様である。
 3Dマップ取得部201は、平面地図に高さ方向の3次元情報を加えた地図データである3Dマップを、ネットワーク150やクラウドサービス等を用いて外部の地図提供サーバ180から収集取得する。なお、このとき取得先となる地図提供サーバ180は、この後に対象物情報を取得する情報サーバ160と同一であってもよい。3Dマップの3次元情報には、土地の標高や建築物の高さなどの情報が含まれ、これにより所望の地域の地形や建築物の形状を知ることができる。
 視界地図画像生成部202は、3Dマップからユーザの視界内の地図データを切り出して、「視界地図画像」を生成する。視界地図画像とは、ユーザの位置から見える範囲の地図データを、ユーザの見る景色画像の位置に対応して配置したものである。
 対象物指定部121(タッチパネル112など)の入力領域は、視界地図画像生成部202で生成した視界地図画像の画像領域と対応付けて割り付けられており、ユーザが位置を指定することで、視界地図画像内の対応する位置の対象物を指定することができる。
 位置センサ203は、例えば上空にあるGPS(Global Positioning System)衛星からの信号を受信するGPS受信器であり、HMD100’の現在位置(すなわちユーザの現在位置)を検出する。
 地磁気センサ204は、地球の磁力を検出し、HMD100’の向いている方角(すなわちユーザの向いている方向)を検出する。
 距離センサ120は、ユーザにより選択指定された対象物までの距離を検出するとともに、HMD100’の地面からの高さ(すなわちユーザが居る場所の地面からの高さ)を検出する。
 図9は、本実施例における情報出力動作を模式的に示した図である。
  (a)はユーザ10の目の前の視界の景色画像の例で、(b1)は3Dマップ取得部201が外部の情報サーバ160から取得した3Dマップである。この3Dマップ上で、位置センサ203が検出したユーザが居る位置と、距離センサ120で検出したユーザが居る場所の地面からの高さ位置を基点に、地磁気センサ204で検出したユーザが向いている方角を定める。
 (b2)は視界地図画像であり、視界地図画像生成部202が上記3Dマップから、上記基点に居るユーザが見ることのできる前方の景色に対応する地図データを切り出して生成したものである。その際、切り出した地図データをユーザの視界方向に合わせて配置することで、ユーザの見る(a)の景色画像と(b2)の視界地図画像とは、画像内位置が対応したものとなる。ここでは(b2)の視界地図画像に含まれる対象物を(a)の景色画像の対象物と同じイラストで示しているが、実際には3Dマップに含まれる3次元情報が対応する位置に配置されている。
 (c)は透明なタッチパネル112で、ユーザ10はタッチパネル112を介して(a)の景色画像を視認することができる。(c)のタッチパネル112の入力領域は、(b2)の視界地図画像の領域と対応付けて割り付けられている(マッピング処理)。ここでユーザ10は、(a)の景色画像内の所望の画像(対象物21)について情報を得ようとして、(c)のタッチパネル112の上の対応する位置に指11を接触させたとする。
 対象物識別部114は、(b2)の視界地図画像において、ユーザが指定した位置に対応する画像部分22を解析して、指定された対象物が何かを識別判定する。その際、(b1)の3Dマップの地図データを参照すれば、例えば単に「学校」であるとか、「〇〇市立〇〇小学校」であるとかが判明する。
 以後の動作は実施例1の図3(d)~(f)と同様で、対象物情報取得部115は、識別判定した対象物「〇〇小学校」に関する情報を収集するため、情報サーバ160に問い合わせる。そして、情報サーバ160から受け取った対象物情報を、情報表示部118あるいはヘッドフォン119にて、テキスト文字あるいは音声にてユーザに提供する。
 このように本実施例においても、ユーザ10は、タッチパネル112を介して景色画像を見ながら、所望の画像(対象物21)が見えるタッチパネル112上の位置を指定することで、所望の画像(対象物)についての情報を即座に得ることができる。
 図10Aから図10Dは、本実施例の情報出力動作を具体例で示す図である。
  図10Aは、HMD100’を装着したユーザ10が小山700に位置し、周辺の景色を見ている状態である。周辺の景色画像701には、タワー702、建物703、704などが存在している。このときHMD100’は、外部の地図提供サーバ180から3Dマップを取得する。そして、ユーザ10の位置とユーザ10の向いている方角705をもとに、ユーザの見ている景色画像701に対応する視界地図画像を生成する。ただし、生成した視界地図画像は表示されないので、ユーザ10には見えない。
 図10Bはタッチパネル112で、視界地図画像の画像領域と対応付けられた入力領域を有し、タッチパネル112を介して目の前の景色画像701が見えている。ユーザは指11で、所望画像であるタワー702の見えるタッチパネル112上の位置を指定する(指定された位置の景色画像を点線で示す)。
 対象物識別部114では対象物が「タワー」であることを識別判定し、対象物情報取得部115では、対象物であるタワーに関する情報を情報サーバ160から取得生成する。
 そして図10Cに示すように、ヘッドフォン119から「これは右前方1キロメートル先にあるタワーで、放送用の中継局です」という情報706を音声で出力する。また、図10Dに示すように、情報表示部118により同様の情報707をテキスト文字で表示する。
 なお、本実施例においても、ユーザ10が景色画像内の所望の画像を指定するために、前記図5Bのように複数の指を用いたり、前記図6Bのように指をスワイプしたりする操作も可能である。また、実施例1で説明したようにユーザの指定した位置を示すマーカの表示を行うことも可能である。
 このように本実施例においても、ユーザは前方の景色を見ながら、指で指定した対象物の情報をテキスト文字や音声で確認認識することができる。ただし本実施例では、ユーザの指定した対象物を認識判定するため、地図提供サーバ180から3Dマップを取得し、その地図データを利用して対象物の識別判定を行うようにしている。例えば建物や道路などの固定された対象物は、変化しない地図データとして3Dマップに登録されているので、これを利用することができ、実施例1のように目の前の景色をカメラで撮影する必要がなくなる。
  なお、上記説明では3Dマップの地図データを利用するものとしたが、2Dマップすなわち2次元の地図データを利用しても、類似の動作を実現できる。
 実施例3では、外部から監視カメラの映像を取得し、ユーザが指定した所望の対象物について監視カメラの映像をもとに識別判定する構成とした。
 図11は、実施例3に係るヘッドマウント型情報出力装置(HMD)100”の構成を示すブロック図である。図11において、実施例1(図2),実施例2(図8)と同一の符号を付した部分は前記した説明と同様であり、それらの詳細な説明は省略し相違する部分を説明する。
 HMD100”は、実施例1におけるカメラ111、及び実施例2における3Dマップ取得部201、視界地図画像生成部202の代わりに、視界監視映像取得部211を用いて構成している。またHMD100”は、ネットワーク150を介して監視映像サーバ190に接続されている。他の構成は、実施例1や実施例2と同様である。
 視界監視映像取得部211は、外部に設置した監視カメラからの撮影映像を、ネットワーク150やクラウドサービス等を介して外部の監視映像サーバ190から取得する。なお、このとき取得先となる監視映像サーバ190は、この後に対象物情報を取得する情報サーバ160と同一であってもよい。
 ここに監視映像サーバ190は、手広くくまなく設置されている多数の監視カメラの映像を保有管理している。そして、HMD100”が、位置センサ203、地磁気センサ204、距離センサ120で検出したユーザの位置、高さ、向いている方角といった情報を監視映像サーバ190に送る。すると監視映像サーバ190の視界映像生成部191は、保有している監視カメラ映像からユーザの前方の監視カメラ映像を切り出し生成して、HMD100”に送信する。よって、視界監視映像取得部211が取得する監視カメラ映像は、ユーザの位置から見える景色画像に対応して配置されたものであり、以下、「視界監視映像」と呼ぶ。
 対象物指定部121(タッチパネル112など)の入力領域は、視界監視映像取得部211で取得した視界監視映像の映像領域と対応付けて割り付けられており、ユーザが位置を指定することで、視界監視映像内の対応する位置の対象物を指定することができる。
 図12は、本実施例における情報出力動作を模式的に示した図である。
  (a)はユーザ10の目の前の視界の景色画像の例で、(b)は視界監視映像取得部211が監視映像サーバ190から取得した視界監視映像である。この視界監視映像は、ユーザ10の位置、高さ、向いている方角をもとに、各監視カメラの映像から切り出したものである。よって、ユーザの見る(a)の景色画像と(b)の視界監視映像とは、画像内位置が対応したものとなる。ただし、ユーザの位置と監視カメラの位置は異なることから、ユーザには見えないが監視カメラには写る物体、あるいはその逆に、ユーザには見えても監視カメラには写らない物体が存在する場合がある。
 (c)は透明なタッチパネル112で、ユーザ10はタッチパネル112を介して(a)の景色画像を視認することができる。(c)のタッチパネル112の入力領域は、(b)の視界監視映像の領域と対応付けて割り付けられている(マッピング処理)。
 ここでユーザ10は、(a)の景色画像内の所望の画像(対象物21)について情報を得ようとして、(c)のタッチパネル112の上の対応する位置に指11を接触させたとする。
 対象物識別部114は、(b)の視界監視映像において、ユーザが指定した位置に対応する映像部分22を解析して、指定された対象物が何かを識別判定する。この例では、「自動車」であることが判明する。
 以後の動作は実施例1の図3(d)~(f)と同様で、対象物情報取得部115は、識別判定した対象物「自動車」に関する情報を収集するため、情報サーバ160に問い合わせる。そして、情報サーバ160から受け取った対象物情報を、情報表示部118あるいはヘッドフォン119にて、テキスト文字あるいは音声にてユーザに提供する。
 このように本実施例においても、ユーザ10は、タッチパネル112を介して景色画像を見ながら、所望の画像(対象物21)が見えるタッチパネル112上の位置を指定することで、所望の画像(対象物)についての情報を即座に得ることができる。
 図13Aから図13Dは、本実施例の情報出力動作を具体例で示す図である。
  図13Aは、ユーザ10が見ている前方の景色映像801で、ビル802や走行している自動車803が存在している。このときHMD100”は、外部の監視映像サーバ190に、監視カメラ映像を要求する。これに対し情報サーバ160は、保有している監視カメラ映像からユーザの前方に見える景色に対応する視界監視映像を切り出し生成して提供する。ただし、HMD100”では受け取った視界監視映像は表示しないので、ユーザには見えない。
 図13Bはタッチパネル112で、受け取った視界監視映像の映像領域と対応付けられた入力領域を有し、タッチパネル112を介して目の前の景色画像801が見えている。ユーザは指11で、所望画像である自動車803の見えるタッチパネル112上の位置を指定する(指定された位置の景色画像を点線で示す)。
 対象物識別部114では対象物が「走行中の自動車」であることを識別判定し、対象物情報取得部115では、対象物である自動車に関する情報を情報サーバ160から取得生成する。
 そして図13Cに示すように、ヘッドフォン119から「これは○○製でミニバンタイプの車です」という情報806を音声で出力する。また、図13Dに示すように、情報表示部118により同様の情報807をテキスト文字で表示する。
 なお、本実施例においても、ユーザ10が景色画像内の所望の画像を指定するために、前記図5Bのように複数の指を用いたり、前記図6Bのように指をスワイプしたりする操作も可能である。また、実施例1で説明したようにユーザの指定した位置を示すマーカの表示を行うことも可能である。
 このように本実施例においても、ユーザは前方の景色を見ながら、指で指定した対象物の情報をテキスト文字や音声で確認認識することができる。ただし本実施例では、ユーザの指定した対象物を認識判定するため、監視カメラで撮影された映像を利用して対象物の識別判定を行うようにしている。よって実施例2のように固定された対象物だけでなく、自動車や通行人など移動あるいは変化する対象物であっても、リアルタイムに確認認識することが可能となる。また、対象物が移動し建物の陰に隠れてユーザからは見えない状態であっても、対象物近傍に設置した監視カメラでは撮影可能な場合がある。ひいては、360度監視カメラを利用すればほとんど死角なく撮影可能なので、例えば事件などがあった場合の対象物の追跡に有効な手段として利用できる。また、ユーザの要求に応じて、ユーザからは見えない状態の対象物の情報をテキスト文字や音声で確認認識できるようにしてもよい。
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 10:ユーザ、100、100’,100”:ヘッドマウント型情報出力装置(HMD)、111:カメラ、112:タッチパネル、113:タッチパッド、114:対象物識別部、115:対象物情報取得部、116:情報投影部、117:光学コンバイナ、118:情報表示部、119:ヘッドフォン、120:距離センサ、121:対象物指定部、123:音声出力部、124:音声入力部、127:通信部、129:制御部、132:メモリ部、133:近距離通信部、150:ネットワーク、160:情報サーバ、161:情報生成部、170:携帯情報端末、171:表示部、172:タッチパネル、180:地図提供サーバ、190:監視映像サーバ、201:3Dマップ取得部、202:視界地図画像生成部、203:位置センサ、204:地磁気センサ、211:視界監視映像取得部。

Claims (9)

  1.  ユーザが頭部に装着し現実空間や仮想空間の画像を視認するヘッドマウント型情報出力装置において、
     ユーザの視界内の景色画像を撮影するカメラと、
     前記カメラで撮影された画像領域と対応する入力領域を有し、ユーザが景色画像内にある所望の対象物の位置を指定する対象物指定部と、
     前記カメラが撮影した画像内で、前記対象物指定部によりユーザが指定した位置に対応する画像部分を解析して、ユーザが指定した対象物を識別する対象物識別部と、
     前記対象物識別部が識別した対象物に関する対象物情報を取得生成する対象物情報取得部と、
     前記対象物情報取得部が取得した対象物情報を、情報表示部からテキスト文字で、あるいは音声出力部から音声で出力する情報出力部と、を備え、
     前記対象物指定部では、前記カメラが撮影した画像をユーザに表示することなく、ユーザは視界内の景色画像を視認した状態で対象物の位置を指定することを特徴とするヘッドマウント型情報出力装置。
  2.  請求項1に記載のヘッドマウント型情報出力装置であって、
     前記対象物指定部は、ユーザが複数の指で接触あるいは近接して、複数の指で囲まれた範囲内の対象物を指定することを特徴とするヘッドマウント型情報出力装置。
  3.  請求項1に記載のヘッドマウント型情報出力装置であって、
     前記対象物指定部は、ユーザが指を滑らしスワイプし、スワイプした範囲内の対象物を指定することを特徴とするヘッドマウント型情報出力装置。
  4.  請求項1に記載のヘッドマウント型情報出力装置であって、
     前記対象物指定部に対し、ユーザが同じ位置を繰り返し指定した場合、あるいは同じ位置を所定時間より長く指定した場合には、前記対象物情報取得部では、対象物に関するより詳しい対象物情報を取得生成することを特徴とするヘッドマウント型情報出力装置。
  5.  請求項1に記載のヘッドマウント型情報出力装置であって、
     さらに、ユーザの視界内の対象物までの距離を検出する距離センサを有し、
     ユーザから対象物までの距離情報の要求があったときには、前記対象物情報取得部では、前記距離センサで検出した対象物までの距離情報を含めた対象物情報を取得生成することを特徴とするヘッドマウント型情報出力装置。
  6.  請求項1に記載のヘッドマウント型情報出力装置であって、
     さらに、外部の情報サーバと情報の送受信を行う通信部を有し、
     前記対象物情報取得部は、対象物に関する対象物情報を、前記通信部を介して前記情報サーバから取得して生成することを特徴とするヘッドマウント型情報出力装置。
  7.  請求項1に記載のヘッドマウント型情報出力装置であって、
     さらに、外部の携帯情報端末と情報の送受信を行う近距離通信部を有し、
     前記対象物指定部として、前記携帯情報端末のタッチパネルを用いてユーザが指定することが可能であり、
     前記情報表示部では、前記タッチパネルに対してユーザが指定した位置を示すマーカを表示することを特徴とするヘッドマウント型情報出力装置。
  8.  ユーザが頭部に装着し現実空間や仮想空間の画像を視認するヘッドマウント型情報出力装置において、
     平面地図に高さ方向の3次元情報を加えた地図データである3Dマップを取得する3Dマップ取得部と、
     前記取得した3Dマップからユーザの視界内の地図データを切り出して視界地図画像を生成する視界地図画像生成部と、
     前記ヘッドマウント型情報出力装置の現在位置を検出する位置センサと、
     前記ヘッドマウント型情報出力装置の向いている方角を検出する地磁気センサと、
     前記ヘッドマウント型情報出力装置の地面からの高さを検出する距離センサと、
     前記視界地図画像生成部で生成された視界地図画像の画像領域と対応する入力領域を有し、ユーザが視界内の景色画像内にある所望の対象物の位置を指定する対象物指定部と、
     前記視界地図画像生成部で生成された視界地図画像の画像内で、前記対象物指定部によりユーザが指定した位置に対応する画像部分を解析して、ユーザが指定した対象物を識別する対象物識別部と、
     前記対象物識別部が識別した対象物に関する対象物情報を取得生成する対象物情報取得部と、
     前記対象物情報取得部が取得した対象物情報を、情報表示部からテキスト文字で、あるいは音声出力部から音声で出力する情報出力部と、を備え、
     前記視界地図画像生成部では、前記3Dマップ取得部で取得した3Dマップから、前記位置センサにより検出された現在位置、および前記距離センサにより検出された地面からの高さにあって、前記地磁気センサにより検出された方角に向かって見える範囲の地図データを切り出して視界地図画像を生成し、
     前記対象物指定部では、前記視界地図画像生成部が生成した視界地図画像をユーザに表示することなく、ユーザは視界内の景色画像を視認した状態で対象物の位置を指定することを特徴とするヘッドマウント型情報出力装置。
  9.  監視カメラ映像を保有する監視映像サーバに接続し、ユーザが頭部に装着して現実空間や仮想空間の画像を視認するヘッドマウント型情報出力装置において、
     前記監視映像サーバと情報の送受信を行う通信部と、
     前記監視映像サーバから視界監視映像を取得する視界監視映像取得部と、
     前記ヘッドマウント型情報出力装置の現在位置を検出する位置センサと、
     前記ヘッドマウント型情報出力装置の向いている方角を検出する地磁気センサと、
     前記ヘッドマウント型情報出力装置の地面からの高さを検出する距離センサと、
     前記視界監視映像取得部で取得された視界監視映像と対応する入力領域を有し、ユーザが景色画像内にある所望の対象物の位置を指定する対象物指定部と、
     前記視界監視映像取得部で取得された視界監視映像内で、前記対象物指定部によりユーザが指定した位置に対応する映像部分を解析して、ユーザが指定した対象物を識別する対象物識別部と、
     前記対象物識別部が識別した対象物に関する対象物情報を取得生成する対象物情報取得部と、
     前記対象物情報取得部が取得した対象物情報を、情報表示部からテキスト文字で、あるいは音声出力部から音声で出力する情報出力部と、を備え、
     前記視界監視映像取得部は、前記監視映像サーバに、前記位置センサ、前記地磁気センサ、前記距離センサで検出されたユーザの位置、方角、高さの情報を送信するとともに、前記監視映像サーバから、前記監視映像サーバが保有する監視カメラ映像から切り出して生成したユーザの視界内の視界監視映像を取得し、
     前記対象物指定部では、前記視界監視映像取得部が取得した視界監視映像をユーザに表示することなく、ユーザは視界内の景色画像を視認した状態で対象物の位置を指定することを特徴とするヘッドマウント型情報出力装置。
PCT/JP2019/051450 2019-12-27 2019-12-27 ヘッドマウント型情報出力装置 WO2021131023A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021566727A JP7376616B2 (ja) 2019-12-27 2019-12-27 ヘッドマウント型情報出力装置
PCT/JP2019/051450 WO2021131023A1 (ja) 2019-12-27 2019-12-27 ヘッドマウント型情報出力装置
JP2023183635A JP2024012379A (ja) 2019-12-27 2023-10-26 ヘッドマウント型情報出力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/051450 WO2021131023A1 (ja) 2019-12-27 2019-12-27 ヘッドマウント型情報出力装置

Publications (1)

Publication Number Publication Date
WO2021131023A1 true WO2021131023A1 (ja) 2021-07-01

Family

ID=76573824

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/051450 WO2021131023A1 (ja) 2019-12-27 2019-12-27 ヘッドマウント型情報出力装置

Country Status (2)

Country Link
JP (2) JP7376616B2 (ja)
WO (1) WO2021131023A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023199468A1 (ja) * 2022-04-14 2023-10-19 日本電信電話株式会社 重畳表示装置、重畳表示方法及び重畳表示プログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198304A (ja) * 2010-03-24 2011-10-06 Brother Industries Ltd ヘッドマウントディスプレイ
JP2012068481A (ja) * 2010-09-24 2012-04-05 Asia Air Survey Co Ltd 拡張現実表現システムおよび方法
JP2013054661A (ja) * 2011-09-06 2013-03-21 Nec Biglobe Ltd 情報表示システム、情報表示方法、及び情報表示用プログラム
JP2014164003A (ja) * 2013-02-21 2014-09-08 Nec Networks & System Integration Corp 仮想屋内空間表示装置
JP2017004457A (ja) * 2015-06-16 2017-01-05 株式会社ファイン 仮想現実表示システム、仮想現実表示方法及びコンピュータプログラム
JP2017091433A (ja) * 2015-11-17 2017-05-25 セイコーエプソン株式会社 頭部装着型表示装置、頭部装着型表示装置を制御する方法、コンピュータープログラム
JP2018018291A (ja) * 2016-07-28 2018-02-01 カシオ計算機株式会社 表示制御装置、表示制御方法及びプログラム
JP2018116165A (ja) * 2017-01-19 2018-07-26 株式会社デンソー 情報提供システム、情報提供方法
JP2019510993A (ja) * 2016-01-12 2019-04-18 クゥアルコム・インコーポレイテッドQualcomm Incorporated 複数の詳細レベルをレンダリングするためのシステムおよび方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5929698B2 (ja) 2012-10-17 2016-06-08 ソニー株式会社 通信システムおよびプログラム
JP6525010B2 (ja) 2014-08-05 2019-06-05 ソニー株式会社 情報処理装置及び情報処理方法、並びに画像表示システム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198304A (ja) * 2010-03-24 2011-10-06 Brother Industries Ltd ヘッドマウントディスプレイ
JP2012068481A (ja) * 2010-09-24 2012-04-05 Asia Air Survey Co Ltd 拡張現実表現システムおよび方法
JP2013054661A (ja) * 2011-09-06 2013-03-21 Nec Biglobe Ltd 情報表示システム、情報表示方法、及び情報表示用プログラム
JP2014164003A (ja) * 2013-02-21 2014-09-08 Nec Networks & System Integration Corp 仮想屋内空間表示装置
JP2017004457A (ja) * 2015-06-16 2017-01-05 株式会社ファイン 仮想現実表示システム、仮想現実表示方法及びコンピュータプログラム
JP2017091433A (ja) * 2015-11-17 2017-05-25 セイコーエプソン株式会社 頭部装着型表示装置、頭部装着型表示装置を制御する方法、コンピュータープログラム
JP2019510993A (ja) * 2016-01-12 2019-04-18 クゥアルコム・インコーポレイテッドQualcomm Incorporated 複数の詳細レベルをレンダリングするためのシステムおよび方法
JP2018018291A (ja) * 2016-07-28 2018-02-01 カシオ計算機株式会社 表示制御装置、表示制御方法及びプログラム
JP2018116165A (ja) * 2017-01-19 2018-07-26 株式会社デンソー 情報提供システム、情報提供方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023199468A1 (ja) * 2022-04-14 2023-10-19 日本電信電話株式会社 重畳表示装置、重畳表示方法及び重畳表示プログラム

Also Published As

Publication number Publication date
JP2024012379A (ja) 2024-01-30
JP7376616B2 (ja) 2023-11-08
JPWO2021131023A1 (ja) 2021-07-01

Similar Documents

Publication Publication Date Title
US10955674B2 (en) Energy-harvesting beacon device
CN111433561B (zh) 头戴装置、在头戴装置中显示虚拟图像的方法和介质
US10490079B2 (en) Method and device for selecting and transmitting sensor data from a first motor vehicle to a second motor vehicle
KR101691564B1 (ko) 시선방향 추적을 이용한 증강현실 제공 방법
US11178344B2 (en) Head-mounted display apparatus, display system, and method of controlling head-mounted display apparatus
US20200106818A1 (en) Drone real-time interactive communications system
JP2016503918A (ja) 車両のためのシステム
US11725958B2 (en) Route guidance and proximity awareness system
JP2024012379A (ja) ヘッドマウント型情報出力装置
JP2019164420A (ja) 透過型頭部装着型表示装置および透過型頭部装着型表示装置の制御方法、透過型頭部装着型表示装置の制御のためのコンピュータープログラム
CN110132129B (zh) 基于增强现实的检查系统及方法
WO2018134897A1 (ja) 位置姿勢検出装置、ar表示装置、位置姿勢検出方法およびar表示方法
JP6145563B2 (ja) 情報表示装置
KR20170014451A (ko) 시야 확보 시스템, 방법 및 이를 수행하기 위한 단말
US20120002044A1 (en) Method and System for Implementing a Three-Dimension Positioning
JP3053172B2 (ja) 距離参照型景観ラベリング装置およびシステム
KR102468685B1 (ko) 가상현실 기반의 작업현장 안전관리장치 및 그 장치의 구동방법
JP7109253B2 (ja) 地図情報作成装置、地図情報表示システム、及び、地図情報表示方法
JP2017208070A (ja) 情報共有システム、情報共有方法、端末装置および情報処理プログラム
WO2022269887A1 (ja) ウェアラブル端末装置、プログラムおよび画像処理方法
EP3675502A1 (en) Method for street view service and apparatus for performing same method
CN115761046B (zh) 房屋信息的编辑方法、装置、电子设备及存储介质
WO2023026451A1 (ja) 物体捜索システム、物体捜索装置、物体捜索方法
US20230384871A1 (en) Activating a Handheld Device with Universal Pointing and Interacting Device
US20240027646A1 (en) Natural voice utility asset annotation system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19957567

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021566727

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19957567

Country of ref document: EP

Kind code of ref document: A1