WO2023243048A1 - 情報提示装置、情報提示方法、及びプログラム - Google Patents

情報提示装置、情報提示方法、及びプログラム Download PDF

Info

Publication number
WO2023243048A1
WO2023243048A1 PCT/JP2022/024164 JP2022024164W WO2023243048A1 WO 2023243048 A1 WO2023243048 A1 WO 2023243048A1 JP 2022024164 W JP2022024164 W JP 2022024164W WO 2023243048 A1 WO2023243048 A1 WO 2023243048A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information
presentation
area
unit
Prior art date
Application number
PCT/JP2022/024164
Other languages
English (en)
French (fr)
Inventor
勇貴 久保
幸生 小池
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/024164 priority Critical patent/WO2023243048A1/ja
Publication of WO2023243048A1 publication Critical patent/WO2023243048A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Definitions

  • the present invention relates to an information presentation device, an information presentation method, and a program.
  • Non-Patent Document 1 There is a device that displays information superimposed on the user's field of vision, such as a glasses-type information terminal equipped with a display. These devices can display application notifications superimposed on the user's field of vision, so they can quickly convey information to the user. In such cases, it is known that the display position of text on the glasses-type information terminal has an influence on the tasks that the user performs in daily life (for example, Non-Patent Document 1).
  • Non-Patent Document 1 it was verified through a subject experiment that task efficiency differs depending on the information presentation position of the display on the glasses in an optical glasses-type information terminal.
  • the information presentation method used in this research does not take into account the influence of the surrounding environment, and simply determines where on the display the information is presented, so depending on the presentation location, there is a possibility that the surrounding environment may be blocked.
  • the present invention has been made to solve the above-mentioned problems, and an object of the present invention is to provide an information presentation device, an information presentation method, and a program that can suppress the effect of obscuring the field of view due to the superimposed display of information. It's about doing.
  • an information presentation device includes an image acquisition section, a category classification section, a map image generation section, an area detection section, an area determination section, and an information presentation section.
  • the image acquisition unit acquires an image.
  • the category classification unit generates a classified image made up of a plurality of regions by classifying the image into categories for each attribute.
  • the map image generation unit generates a map image representing an area included in the image that is determined to be important.
  • the area detection unit generates an importance map image based on the map image and the classified image.
  • the area determination unit determines an information presentation area for displaying presentation information based on the importance map image generated by the area detection unit.
  • the information presentation section displays the presentation information according to the information presentation area determined by the area determination section.
  • FIG. 1 is a block diagram showing an example of the functional configuration of an information presentation device in this embodiment.
  • FIG. 2 is a block diagram showing an example of functional configurations provided in the HMD and computer in this embodiment.
  • FIG. 3 is a block diagram showing an example of the hardware configuration of the HMD and computer in this embodiment.
  • FIG. 4 is a flowchart showing the operation of the area detection section in this embodiment.
  • FIG. 5 is a flowchart showing the operation of the information presentation area determining section in this embodiment.
  • FIG. 6 is a diagram illustrating an example of a visual field image acquired by the image acquisition unit in this embodiment.
  • FIG. 7 is a diagram illustrating an example of an importance heat map image generated by the importance detecting section in this embodiment.
  • FIG. 8 is a diagram showing an example of a moving object heat map image generated by the moving object detection section in this embodiment.
  • FIG. 9 is a diagram showing an example of a classified image generated by the category classification section in this embodiment.
  • FIG. 10 is a diagram showing an example of a user's field of view when presentation information is displayed on a display by the information presentation unit in this embodiment.
  • FIG. 1 is a block diagram showing an example of the functional configuration of the information presentation device 10 in this embodiment.
  • the information presentation device 10 shown in FIG. 1 for example, computer functions are implemented, and each processing function unit is realized by executing a program by a processor.
  • the information presentation device 10 is, for example, an electronic device connected to a camera that takes images and a display that displays the images, or a glasses-type device that is equipped with a camera and a display and that is worn on the user's head (face).
  • the information terminal can be configured by combining an information terminal, a glasses-type information terminal equipped with a camera and a display, and a computer (electronic device).
  • the information presentation device 10 in this embodiment acquires information on the user's visual field as an image (visual field image), and categorizes objects included in the visual field image, the importance of information in the image, the presence or absence of moving objects, etc.
  • An importance level map image is generated, and based on the importance level map image, an area of low importance, for example, an area with a small amount of information in the field of view is detected, and presentation information to the user is presented to this area.
  • the information presentation device 10 includes an image acquisition section 21, a presentation information acquisition section 22, an information presentation section 23, a map image generation section 321 (importance detection section 31, moving object detection section 32), and a category classification section. 33, a model storage section 34, an area detection section 35, an information presentation area determination section 36, and a presentation information adjustment section 37.
  • the image acquisition unit 21 acquires, for example, an image of the field of view viewed by the user (visual field image), and provides it to the importance detection unit 31, the moving object detection unit 32, and the category classification unit 33.
  • the image acquisition unit 21 captures an image in the direction of the user's visual field, taken by a camera installed in, for example, a glasses-type information terminal (HMD (head mount display), etc.) worn on the user's head (face). get.
  • HMD head mount display
  • the image acquired by the image acquisition unit 21 is not limited to an image photographed by a camera provided in a glasses-type information terminal (HMD).
  • the importance detection section 31, the moving object detection section 32, the category classification section 33, and the model storage section 34 create an importance map that changes according to the importance in the field of view image based on the image acquired by the image acquisition section 21. Execute processing to create an image.
  • the degree of importance in the view image is defined, for example, according to the user's purpose (purpose of use of the information presentation device 10).
  • Important information includes information such as vehicle conditions (conditions, etc.), other vehicles traveling on the road, pedestrians, etc. Furthermore, when searching for pedestrians walking on a sidewalk on the side of a road based on a field-of-view image taken from a vehicle traveling on a road, the information on the sidewalk and pedestrians becomes important information.
  • the map image generation unit 321 generates a map image representing an area that is determined to be important and included in the field of view image.
  • the map image generation section 321 in this embodiment includes an importance detection section 31 and a moving object detection section 32.
  • the map image generation section 321 may further include a processing function section that is different from the importance detection section 31 and the moving object detection section 32 and that generates a map image representing an area determined to be important.
  • the importance detection section 31, the moving object detection section 32, the category classification section 33, and the model storage section 34 create a map image according to the importance defined according to the user's purpose (purpose of use of the information presentation device 10). It is configured as follows.
  • the importance detecting unit 31 generates an importance heat map image representing important places in the visual field image based on the image (visual field image) acquired by the image acquiring unit 21, and provides the generated importance heat map image to the area detecting unit 35.
  • An importance heat map image is an image in which the color changes from a position determined to be important to an area determined to be unimportant using a gradation, such as red, orange, yellow, yellow-green, cyan, and blue. be. Note that the importance heat map image is not limited to an image in which colors are changed, but may be an image in which shading is changed.
  • the moving object detecting section 32 generates a moving object heat map image representing the location of the moving object in the visual field image based on the image (visual field image) acquired by the image acquiring section 21 and provides it to the area detecting section 35.
  • a moving object heat map image is an image in which a region corresponding to a moving object in a visual field image is changed to a color tone different from that of the original pixel, for example.
  • the category classification unit 33 generates a classified image consisting of a plurality of areas in which the visibility image is classified into categories for each attribute based on the image (visual field image) acquired by the image acquisition unit 21, and sends the classified image to the area detection unit 35. provide. For example, the category classification unit 33 estimates the position of an object (category) included in the field of view image, divides the field into regions for each object, and generates a classified image.
  • the model storage unit 34 stores a learning model learned in advance, which is used in the processing in the importance level detection unit 31, the moving object detection unit 32, and the category classification unit 33.
  • a learning model learned in advance which is used in the processing in the importance level detection unit 31, the moving object detection unit 32, and the category classification unit 33.
  • AI Artificial Intelligence
  • the learning model stored in the model storage section 34 is used for each method.
  • a learning model corresponding to the above is stored by machine learning (deep learning) or the like.
  • the area detection unit 35 superimposes the importance heat map image generated by the importance level detection unit 31 and the moving body heat map image generated by the moving body detection unit 32 on the classified image generated by the category classification unit 33 to determine the importance level.
  • a degree map image is generated and provided to the information presentation area determining section 36.
  • the information presentation area determination unit 36 selects an information presentation area for displaying presentation information from the areas classified into categories, starting with the areas with the lowest importance based on the importance map image provided by the area detection unit 35.
  • the position (for example, coordinate values) of the information presentation area in the field of view image is determined and notified to the presentation information adjustment unit 37.
  • the information presentation area is, for example, a rectangular area having a predetermined shape and an aspect ratio within a set tolerance range.
  • the information presentation area determining unit 36 determines, from the area detected by the area detecting unit 35, a position where a rectangular area having a size exceeding a standard that allows presentation information to be provided is provided.
  • the shape of the information presentation area is not limited to a rectangular shape, and may be any other shape as long as presentation information can be displayed.
  • the presentation information acquisition unit 22 acquires information (presentation information) to be presented to the user by displaying it on a display, and provides the information to the presentation information adjustment unit 37 .
  • the presentation information can be, for example, content such as characters (text), graphics, images (still images, moving images), animations, and the like.
  • the presentation information acquisition unit 22 can acquire information according to the purpose of use by the user of the information presentation device 10 (or eyeglass-type information terminal (HMD)), for example, from an application program that is executed according to the usage situation.
  • the presentation information acquisition unit 22 may be configured to be able to acquire information not only from an application program but also from an input device operated by a user, an external electronic device, or the like.
  • the presentation information adjustment unit 37 adjusts the display size of the presentation information acquired by the presentation information acquisition unit 22 according to the size of the information presentation area determined by the information presentation area determination unit 36. Furthermore, the presentation information adjustment unit 37 adjusts the display angle, size, etc. of the content in accordance with changes in the viewpoint position and orientation accompanying changes in the user's posture and face orientation, that is, changes in the state of the visual field image taken by the camera. Adjustments can be made.
  • the information presentation unit 23 displays the presentation information acquired by the presentation information acquisition unit 22 and adjusted by the presentation information adjustment unit 37 on the display according to the information presentation area determined by the information presentation area determination unit 36.
  • FIGS. 2 and 3 are diagrams showing a configuration in which the information presentation device 10 in this embodiment is implemented by a glasses-type information terminal (hereinafter referred to as an HMD 20) and a computer 30.
  • FIG. 2 is a block diagram showing an example of a functional configuration provided in the HMD 20 and the computer 30 in this embodiment.
  • FIG. 3 is a block diagram showing an example of the hardware configuration of the HMD 20 and the computer 30 in this embodiment.
  • Each processing function unit shown in FIG. 2 corresponds to the processing function unit shown in FIG. 1 with the same reference numerals, and detailed description thereof will be omitted.
  • the HMD 20 implements an image acquisition section 21, a presentation information acquisition section 22, and an information presentation section 23, and the computer 30 implements an importance detection section 31, a moving object detection section 32, a category classification section 33, and a model classification section 33.
  • a storage unit 34, an area detection unit 35, an information presentation area determination unit 36, and a presentation information adjustment unit 37 are realized.
  • the HMD 20 is provided with, for example, a processing unit 201, a camera 211, a display 231, and a communication interface (IF) 202.
  • the processing unit 201 includes a processor, a memory, etc., and controls the HMD 20 by executing a program stored in the memory, and also realizes the processing functions of the image acquisition section 21, the presentation information acquisition section 22, and the information presentation section 23. do.
  • the programs executed by the processing unit 201 include an application program for presenting information according to the purpose of use of the HMD 20.
  • the camera 211 is installed in the HMD 20 so that when the user wears the HMD 20 on the user's head (face), the camera 211 takes a visual field image and sends the image data to the processing unit 201. Output.
  • the display 231 displays an image including content such as presentation information under the control of the processing unit 201.
  • the display 231 is configured, for example, to be of a transmissive type, and allows the user to visually check the front through the display 231 when the HMD 20 is worn on the user's head (face). By displaying images such as presentation information on the display 231, the information can be superimposed on the user's field of view.
  • the communication IF 202 communicates with the computer 30 (communication IF 304) under the control of the processing unit 201.
  • the communication IF 202 can include, for example, a communication module that communicates by wire or a communication module that communicates wirelessly using short-range wireless technology.
  • the computer 30 is configured by a computer such as a microcomputer or a personal computer, and includes a hardware processor 301 such as a CPU (Central Processing Unit).
  • a hardware processor 301 such as a CPU (Central Processing Unit).
  • the processor 301 may include multiple CPUs.
  • a program memory 302 a data memory 303, a communication interface (IF) 104, and an input/output interface (IF) 305 are connected to a processor 301.
  • the processor 301 controls the computer 30 by executing a program stored in the program memory 302, and also controls the importance detection section 31, the moving object detection section 32, the category classification section 33, the model storage section 34, and the area detection section 35. , the information presentation area determination section 36, and the presentation information adjustment section 37.
  • the communication IF 304 communicates with the HMD 20 (communication IF 202) under the control of the processor 301.
  • the communication IF 202 can include, for example, a communication module that communicates by wire or a communication module that communicates wirelessly using short-range wireless technology.
  • An input device 306 and a display device 307 are connected to the input/output IF 305.
  • the input device 306 and the display device 307 are so-called tablet-type input devices in which an input detection sheet using an electrostatic method or a pressure method is arranged on a display screen of a display device using, for example, a liquid crystal or organic EL (Electroluminescence).
  • a display device can be used.
  • the input device 306 and the display device 307 may be configured as independent devices.
  • the input/output IF 305 inputs the operation information input through the input device 306 to the processor 301 and causes the display device 307 to display display information generated by the processor 301 .
  • the program memory 302 is a non-temporary tangible computer-readable storage medium, such as a nonvolatile memory that can be written to and read from at any time, such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive), and a ROM (Read Only). It is used in combination with non-volatile memory such as
  • the program memory 302 stores programs necessary for the processor 301 to execute various control processes according to one embodiment. Part or all of each processing function unit may be implemented in various other formats, including application specific integrated circuits (ASICs) or integrated circuits such as field-programmable gate arrays (FPGAs). It's okay to be.
  • ASICs application specific integrated circuits
  • FPGAs field-programmable gate arrays
  • the data memory 303 is a tangible computer-readable storage medium that is used in combination with, for example, the above-mentioned nonvolatile memory and volatile memory such as RAM (Random Access Memory).
  • the data memory 303 is used to store various data acquired and created during various processes. That is, in the data memory 303, an area is secured for storing various data as appropriate during the process of performing various processes.
  • the data memory 303 can be provided with an image data storage section 3031, a model storage section 3032, a presentation information storage section 3033, an area information storage section 3034, and a temporary storage section (not shown).
  • the image data storage unit 3031 stores image data of a view image received from the HMD 20 through the communication IF 304.
  • the model storage unit 3032 corresponds to the model storage unit 34, and stores data of a model learned in advance, which is used in the processing in the importance level detection unit 31, moving object detection unit 32, and category classification unit 33.
  • the presentation information storage unit 3033 stores presentation information data received from the HMD 20 through the communication IF 304.
  • the area information storage unit 3034 stores data including the position of the information presentation area determined by the processing of the information presentation area determination unit 36.
  • a temporary storage unit (not shown) stores temporary data associated with the processing of each processing function unit.
  • the configurations shown in FIGS. 2 and 3 show an example in which the information presentation device 10 is configured by the HMD 20 and the computer 30, other configurations are also possible.
  • the information presentation device 10 may be realized only by the HMD 20, with each processing function unit that is realized by the computer 30 being executable by the HMD 20.
  • the HMD 20 and the computer 30 may be connected via an IP (internet protocol) network including the Internet and an access network for accessing this IP network.
  • IP internet protocol
  • the access network for example, a public wired network, a mobile phone network, a wired LAN (Local Area Network), a wireless LAN, a CATV (Cable Television) network, etc. are used. That is, the computer 30 can function as a cloud server.
  • the HMD 20 is provided with processing functions of an image acquisition section 21 and an information presentation section 23, and executes only image capturing with a camera and information display on a display, and performs other processing including the processing functions of the presentation information acquisition section 22. It may also be executed by the computer 30. Further, the computer 30 may be realized not only by one computer but also by a plurality of computers working together.
  • the information presentation device 10 (HMD 20, computer 30) having the configuration shown in FIGS. 2 and 3 will be described as an example.
  • the user wears the HMD 20 and executes an application program installed on the HMD 20, for example.
  • an application program is executed that presents information to the user to assist in driving the vehicle.
  • the processing unit 201 acquires image data of an image (field of view image) taken by the camera 211 and outputs it to the processing unit 201 .
  • the processing unit 201 transmits image data of a view image taken by the camera 211 to the computer 30 through the communication IF 202.
  • the computer 30 When the computer 30 (processor 301) receives the image data of the field of view image through the communication IF 304, the computer 30 (processor 301) stores it in the image data storage unit 3031 of the data memory 303, and the importance detection unit 31, moving object detection unit 32, and category classification unit 33 Perform processing.
  • the processing in the importance level detection unit 31, the moving object detection unit 32, and the category classification unit 33 uses a learning model stored in advance in the model storage unit 3032 (model storage unit 34). Any other form of processing that does not use a learning model may be used as long as substantially similar processing results can be obtained.
  • the importance detection unit 31 detects important places (for example, places with a large amount of information) in the view image provided by the image acquisition unit 21, and generates an importance heat map image representing the important places. .
  • the importance detection unit 31 detects important places in the field of view image using a method such as Seg-Grad-CAM, for example.
  • the importance detection unit 31 acquires Seg-Grad-CAM model data acquired by machine learning from the model storage unit 34, creates an importance heat map image based on the image data of the visual field image, and performs area detection. Hand it over to Department 35. Note that any other form of processing may be used as long as it is an algorithm that determines the degree of importance (for example, whether the amount of information is large or not) in the field of view image.
  • FIG. 6 is a diagram showing an example of a visual field image acquired by the image acquisition unit 21 in this embodiment.
  • FIG. 6 shows an example of a driver's field of view image taken from a vehicle traveling on a road.
  • the visibility image shown in FIG. 6 includes the road ahead, other vehicles traveling on the road ahead, guardrails, buildings lined up along the road, street trees, and the like.
  • FIG. 7 is a diagram showing an example of an importance heat map image generated by the importance detecting section 31 in this embodiment.
  • the importance detecting unit 31 performs processing on the visibility image shown in FIG. A range is detected as important, and the color ranges from the location (pixel) on the road that is determined to be important to the area off the road that is determined to be unimportant, such as red, orange, yellow, yellow-green, cyan, and blue.
  • An image HM in which the image is changed by gradation is added.
  • the moving object detection unit 32 detects a moving object from the field of view image provided by the image acquisition unit 21, and generates a moving object heat map image representing the location of the moving object.
  • the moving object detection unit 32 uses, for example, an algorithm such as semantic optical flow to distinguish between stationary objects and moving objects in the field of view.
  • the moving object detection section 32 acquires semantic optical flow model data obtained by machine learning from the model storage section 34, creates a moving object heat map image based on the image data of the visual field image, and passes it to the area detection section 35.
  • other forms of processing may be used as long as the algorithm detects a dynamic object in a field of view image.
  • FIG. 8 is a diagram showing an example of a moving object heat map image generated by the moving object detection unit 32 in this embodiment.
  • the moving object heat map image shown in FIG. 8 by executing processing by the moving object detection unit 32 on the field of view image shown in FIG. An image MM is added in which an area of the vehicle corresponding to , for example, is changed to red, which is different from the original pixels.
  • the category classification unit 33 generates a classified image consisting of a plurality of areas in which the view image is classified into categories for each attribute. For example, the category classification unit 33 performs semantic segmentation on the field of view image using an algorithm such as U-net.
  • the category classification unit 33 acquires the U-net model data acquired by machine learning from the model storage unit 34, and creates a classified image consisting of a plurality of categories of the visual field image based on the image data of the visual field image. It is generated and passed to the area detection section 35.
  • any other form of processing may be used as long as it is an algorithm that can obtain a classified image that performs semantic segmentation and categorizes the visual field image.
  • FIG. 9 is a diagram showing an example of a classified image generated by the category classification section 33 in this embodiment.
  • areas corresponding to roadside trees, etc. are categorized as areas having different attributes.
  • the area detection unit 35 executes processing to generate an importance map image based on the processing results of the importance detection unit 31, the moving object detection unit 32, and the category classification unit 33.
  • FIG. 4 is a flowchart showing the operation of the area detection section 35 in this embodiment.
  • the area detection unit 35 acquires the importance heat map image generated by the importance level detection unit 31, the moving body heat map image generated by the moving body detection unit 32, and the classified image generated by the category classification unit 33 (step S101 ).
  • the area detection unit 35 superimposes the importance heat map image and the moving object heat map image on the classified image (step S102), and creates a visual field image in which the importance heat map image and the moving object heat map image are superimposed on the classified image.
  • An importance map image is created in (step S103).
  • the area detection unit 35 performs alpha blend processing, which is one of image processing, on the classified image to transmit the importance heat map image and the moving body heat map image and superimpose them on the classified image. By doing this, an importance map image is created.
  • the process of superimposing a heat map on a classified image may be any other type of process as long as its characteristics (transparently superimposed) appear on the classified image.
  • the area detection unit 35 passes the importance map image to the information presentation area determination unit 36 (step S104).
  • the information presentation area determination unit 36 executes processing for determining an information presentation area for displaying presentation information based on the importance map image generated by the area detection unit 35.
  • FIG. 5 is a flowchart showing the operation of the information presentation area determining section 36 in this embodiment.
  • the information presentation area determination unit 36 acquires an importance map image from the area detection unit 35 (step S201).
  • the information presentation area determination unit 36 detects divided areas, which are divided into pixels having similar attributes, for example, from the importance map image.
  • the information presentation area determination unit 36 uses an area division algorithm such as GMM (Gaussian Mixture Model).
  • the information presentation area determination unit 36 arbitrarily sets the number of divided areas for the importance map image, and uses the GMM algorithm to express the color distribution within the importance map image as a linear combination of Gaussian functions (Ste S202).
  • the information presentation area determination unit 36 uses an EM (expectation-maximization) algorithm to determine which divided area each pixel belongs to, from a list of expected values for each set divided area, to which the expected value is the highest. It is determined by the maximum likelihood estimation method that it belongs to a certain region (step S203), and an image divided into regions is generated (step S204).
  • EM extraction-maximization
  • the information presentation area determination unit 36 selects a sparse area (hereinafter referred to as sparse area ) is determined, and the coordinates of the sparse area in the field of view image are obtained (step S205).
  • the judgment conditions include, for example, a region with the largest number of similar pixels, or a region with an area larger than a reference value that can be used as an information presentation region, and the length of the outer circumference of the region is small (i.e., Conditions such as an area with few irregularities on the outer periphery can be set in advance.
  • Pixel changes in the area where the image HM added to the importance heat map image (see Figure 7) or the image MM added to the moving object heat map image (see Figure 8) included in the importance map image are superimposed. is large, so it is difficult to create a large area in divided areas divided into pixels having similar attributes. Therefore, by determining a sparse region from a region with a large number of pixels from a plurality of divided regions or a region having an area larger than a reference value, it is possible to avoid regions containing important information in the visual field image.
  • the information presentation area determining unit 36 determines an information presentation area to be used as a display area for information presentation from the determined divided areas (sparse areas) (step S206).
  • the information presentation area determining unit 36 performs, for example, convex hull processing to determine a rectangular area that includes the determined sparse area.
  • the process of determining the information presentation area from the divided areas may be any other form of processing as long as it is a method of determining the information presentation area based on the divided areas.
  • the information presentation area determination unit 36 passes information indicating the location of the information presentation area (rectangular area) in the field of view image (importance map image) to the presentation information adjustment unit 37 (step S207).
  • the presentation information adjustment unit 37 has acquired data of content (figures, images, characters, etc.) to be presented information from the presentation information acquisition unit 22 in advance.
  • the presentation information adjustment unit 37 adjusts the graphics and font size of the content obtained from the presentation information acquisition unit 22 according to the size of the information presentation area indicated by the information obtained from the information presentation area determination unit 36. For example, the presentation information adjustment unit 37 calculates and determines the maximum font size while displaying all characters, taking into account the number of characters to be displayed and the size of the information presentation area, and sets the font size of the characters. It is also conceivable to adjust the number of displayed characters itself using any text summarization method. Regarding adjustments to content, font size, etc., any format may be used as long as the algorithm takes readability into consideration for the user.
  • the presentation information adjustment unit 37 provides the information presentation unit 23 with the presentation information acquired from the presentation information acquisition unit 22, information on the content adjusted to match the information presentation area, and information indicating the location of the information presentation area (rectangular area). hand over.
  • the information presentation unit 23 adjusts the graphics, font size, etc. of the content based on the information obtained from the presentation information adjustment unit 37, displays the content in the information presentation area (rectangular area), and presents the content to the user.
  • FIG. 10 is a diagram showing an example of the user's field of view when presentation information (image) PA is displayed on the display 231 by the information presentation unit 23 in this embodiment.
  • presentation information image
  • the characters "TEXT" are displayed as the content.
  • the information presentation areas are arranged along a road that does not overlap with a road surface detected as important by the importance detection unit 31 or a vehicle in front detected as a moving object by the moving object detection unit 32.
  • An information presentation area is set in an area corresponding to the building, and content is displayed.
  • the information presentation unit 23 uses, for example, the execution of a process for making an arbitrary notification from an application used by the user as a trigger for the information presentation timing, and performs the processing of the information presentation area determination unit 36 when the trigger is issued. Present the information at the specified information presentation position.
  • the information presentation is finished after being presented for a preset time (for example, 5 seconds).
  • a preset time for example, 5 seconds.
  • the presentation information needs to be presented continuously, for example, if a dynamic area of 30% or more of the image is detected by the processing of the moving object detection unit 32, the information presentation area is determined such that the information is not presented.
  • the category classification unit 33 detects a wall (boundary of a categorized area)
  • these conditions can be set.
  • Information will be presented when the conditions are met. Conditions regarding information presentation are set in advance, and the information presentation unit 23 controls the display of presentation information based on the set conditions.
  • the information presentation device 10 in this embodiment is effective, for example, for temporarily presenting information to a user.
  • This system can be applied to application notifications, navigation while driving, and advertising information in the real world. Furthermore, in order to take into account the difference in viewpoint between the image acquisition unit 21 and the actual user, the absolute position information between these two points is acquired as known information in the system.
  • the display coordinates of the information presentation area are treated as the global coordinate system of the surrounding environment, and the difference between the user viewpoint position and the camera position of the image acquisition unit 21 is determined by coordinate transformation that takes into account each local coordinate system. By doing so, information can be presented without being affected by these differences.
  • the methods described in each embodiment are implemented using, for example, magnetic disks (flexible disks, hard disks, etc.), optical disks (CD-ROM, DVD, MO, etc.) as programs (software means) that can be executed by a computer. ), semiconductor memory (ROM, RAM, flash memory, etc.), and can also be transmitted and distributed via communication media.
  • the programs stored on the medium side also include a setting program for configuring software means (including not only execution programs but also tables and data structures) in the computer to be executed by the computer.
  • a computer that realizes this device reads a program recorded on a recording medium, and if necessary, constructs software means using a setting program, and executes the above-described processing by controlling the operation of the software means.
  • the recording medium referred to in this specification is not limited to those for distribution, and includes storage media such as magnetic disks and semiconductor memories provided inside computers or devices connected via a network.
  • the present invention is not limited to the above-described embodiments, and can be variously modified at the implementation stage without departing from the gist thereof. Moreover, each embodiment may be implemented by appropriately combining them as much as possible, and in that case, the combined effects can be obtained. Further, the embodiments described above include inventions at various stages, and various inventions can be extracted by appropriately combining the plurality of disclosed constituent elements.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

一実施形態に係る情報提示装置は、画像取得部、カテゴリ分類部、マップ画像生成部、領域検出部、領域判定部、情報提示部を有する。画像取得部は、画像を取得する。カテゴリ分類部は、前記画像を属性毎にカテゴリ分類した複数の領域からなる分類画像を生成する。マップ画像生成部は、前記画像に含まれる重要と判定される領域を表すマップ画像を生成する。領域検出部は、前記マップ画像と前記分類画像をもとに重要度マップ画像を生成する。領域判定部は、前記領域検出部により生成された前記重要度マップ画像をもとに提示情報を表示するための情報提示領域を判定する。情報提示部は、前記領域判定部により判定された前記情報提示領域に応じて、前記提示情報を表示させる。

Description

情報提示装置、情報提示方法、及びプログラム
 本発明は、情報提示装置、情報提示方法、及びプログラムに関する。
 ディスプレイを備えた眼鏡型情報端末等のユーザの視界に情報を重畳表示する装置がある。これら装置は、アプリケーションの通知を視界に重ねて表示できるために、ユーザに素早く情報の伝達を行うことができる。このようなとき、眼鏡型情報端末におけるテキストの表示位置は、ユーザが日常生活において行うタスクへ影響があることも知られている(例えば、非特許文献1)。
 非特許文献1では、光学式の眼鏡型情報端末において眼鏡上のディスプレイの情報提示位置によって、タスクの効率に差異が生じることを被験者実験により検証した。しかし、この研究における情報提示手段は周辺環境の影響を考慮せず、単にディスプレイのどの位置に情報を提示するかというものであるため、提示場所によっては周辺環境を遮蔽する可能性がある。 
Rufat Rzayev, Pawel W Wozniak, Tilman Dingler, Niels Henze. Reading on Smart Glasses: The Effect of Text Position, Presentation Type and Walking. Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, 2018. (CHI ’18)
 このように従来の技術では、視界に情報を重畳表示させる際に、周辺環境を考慮せずに提示するため、情報の重畳表示により視界の重要な情報に対する遮蔽が発生し、ユーザの注意や作業に影響を与えるおそれがあった。
 本発明は上記課題を解決するためになされたものであり、本発明の目的は、情報の重畳表示による視界の遮蔽の影響を抑えることが可能な情報提示装置、情報提示方法、及びプログラムを提供することにある。
 上記課題を解決するために、この発明の一態様に係る情報提示装置は、画像取得部、カテゴリ分類部、マップ画像生成部、領域検出部、領域判定部、情報提示部を有する。画像取得部は、画像を取得する。カテゴリ分類部は、前記画像を属性毎にカテゴリ分類した複数の領域からなる分類画像を生成する。マップ画像生成部は、前記画像に含まれる重要と判定される領域を表すマップ画像を生成する。領域検出部は、前記マップ画像と前記分類画像をもとに重要度マップ画像を生成する。領域判定部は、前記領域検出部により生成された前記重要度マップ画像をもとに提示情報を表示するための情報提示領域を判定する。情報提示部は、前記領域判定部により判定された前記情報提示領域に応じて、前記提示情報を表示させる。
 この発明の一態様によれば、情報の重畳表示による視界の遮蔽の影響を抑えることが可能となる。
図1は、本実施形態における情報提示装置の機能構成の一例を示すブロック図である。 図2は、本実施形態におけるHMDと計算機に設けられる機能構成の一例を示すブロック図である。 図3は、本実施形態におけるHMDと計算機のハードウェア構成の一例を示すブロック図である。 図4は、本実施形態における領域検出部の動作を示すフローチャートである。 図5は、本実施形態における情報提示領域判定部の動作を示すフローチャートである。 図6は、本実施形態における画像取得部により取得された視界画像の一例を示す図である。 図7は、本実施形態における重要度検出部により生成される重要度ヒートマップ画像の一例を示す図である。 図8は、本実施形態における動体検出部により生成される動体ヒートマップ画像の一例を示す図である。 図9は、本実施形態におけるカテゴリ分類部により生成される分類画像の一例を示す図である。 図10は、本実施形態における情報提示部によりディスプレイに提示情報が表示されたユーザの視界の一例を示す図ある。
 以下、本実施形態について、図面を参照しながら説明する。
 図1は、本実施形態における情報提示装置10の機能構成の一例を示すブロック図である。図1に示す情報提示装置10は、例えばコンピュータの機能が実装され、プログラムをプロセッサにより実行することにより各処理機能部が実現される。
 情報提示装置10は、例えば、画像を撮影するカメラと画像を表示するディスプレイが接続された電子機器、あるいはカメラとディスプレイとが実装された、ユーザにより頭部(顔部)に装着される眼鏡型情報端末、さらにカメラとディスプレイとが実装された眼鏡型情報端末と計算機(電子機器)とを組合わせて構成することができる。
 本実施形態における情報提示装置10は、ユーザの視界の情報を画像(視界画像)として取得し、視界画像に含まれる物体のカテゴライズ、画像内の情報の重要度、動的物体の有無等から視界の重要度マップ画像を生成し、重要度マップ画像をもとにして重要度の低い領域、例えば視界において情報量が少ない領域を検出して、この領域にユーザに対する提示情報を提示する。
 図1に示すように、情報提示装置10は、画像取得部21、提示情報取得部22、情報提示部23、マップ画像生成部321(重要度検出部31、動体検出部32)、カテゴリ分類部33、モデル記憶部34、領域検出部35、情報提示領域判定部36、提示情報調整部37を有する。
 画像取得部21は、例えばユーザが見ている視界の画像(視界画像)を取得し、重要度検出部31、動体検出部32、カテゴリ分類部33に提供する。画像取得部21は、例えばユーザにより頭部(顔部)に装着される、例えば眼鏡型情報端末(HMD(head mount display)等)に設けられたカメラにより撮影された、ユーザの視界方向の画像を取得する。なお、画像取得部21により取得される画像は、眼鏡型情報端末(HMD)に設けられたカメラに撮影された画像に限定されない。
 重要度検出部31、動体検出部32、カテゴリ分類部33及びモデル記憶部34は、画像取得部21により取得された画像をもとに、視界画像中の重要度に応じて変化する重要度マップ画像を作成するための処理を実行する。視界画像中の重要度は、例えばユーザの目的(情報提示装置10の使用目的)に応じて定義される。
 例えば、道路を走行する車両から撮影された運転者の視界画像を対象として、運転のアシストをする情報を提示するために使用する場合には、車両を走行するために道路の状況(形状、路面状態など)や道路を走行する他の車両や歩行者などが重要な情報となる。また、道路を走行する車両から撮影される視界画像をもとに、道路脇の歩道を歩く歩行者を探索する場合には、歩道や歩行者などが重要な情報となる。
 マップ画像生成部321は、視界画像に含まれる重要と判定される領域を表すマップ画像を生成する。本実施形態におけるマップ画像生成部321には、重要度検出部31と動体検出部32が含まれる。なお、マップ画像生成部321には、重要度検出部31と動体検出部32とは異なる、重要と判定される領域を表すマップ画像を生成する処理機能部がさらに含まれていても良い。
 重要度検出部31、動体検出部32、カテゴリ分類部33及びモデル記憶部34は、ユーザの目的(情報提示装置10の使用目的)に応じて定義された重要度に応じたマップ画像を作成するように構成される。
 重要度検出部31は、画像取得部21により取得された画像(視界画像)をもとに、視界画像おける重要な場所を表す重要度ヒートマップ画像を生成して、領域検出部35に提供する。重要度ヒートマップ画像は、例えば重要と判定される位置から重要ではないと判定される領域にかけて、例えば赤、オレンジ、黄色、黄緑、シアン、ブルーのように色をグラデーションにより変化させた画像である。なお、重要度ヒートマップ画像は、色を変化させた画像に限らず、濃淡を変化させた画像であっても良い。
 動体検出部32は、画像取得部21により取得された画像(視界画像)をもとに、視界画像おける動的物体の場所を表す動体ヒートマップ画像を生成して、領域検出部35に提供する。動体ヒートマップ画像は、視界画像中の動的物体に相当する領域を、例えば元の画素とは異なる色調に変化させた画像である。
 カテゴリ分類部33は、画像取得部21により取得された画像(視界画像)をもとに、視界画像を属性毎にカテゴリ分類した複数の領域からなる分類画像を生成して、領域検出部35に提供する。例えば、カテゴリ分類部33は、視界画像に含まれる物体(カテゴリ)の位置を推定して、物体毎の領域に分割して分類画像を生成する。
 モデル記憶部34は、重要度検出部31、動体検出部32、及びカテゴリ分類部33における処理において用いられる、予め学習された学習モデルを記憶する。モデル記憶部34に記憶される学習モデルは、重要度検出部31、動体検出部32、及びカテゴリ分類部33における処理において、AI(Artificial Intelligence)技術を利用した手法を用いる場合に、それぞれの手法に対応する学習モデルを、機械学習(デイープラーニング(深層学習))等によって記憶される。
 領域検出部35は、重要度検出部31により生成される重要度ヒートマップ画像と動体検出部32により生成される動体ヒートマップ画像を、カテゴリ分類部33に生成された分類画像に重畳して重要度マップ画像を生成し、情報提示領域判定部36に提供する。
 情報提示領域判定部36は、領域検出部35から提供される重要度マップ画像をもとに、カテゴリ分類された領域のうち重要度が低い領域から、提示情報を表示するための情報提示領域を判定して、視界画像における情報提示領域の位置(例えば座標値)を提示情報調整部37に通知する。情報提示領域は、例えば、予め決められた形状とし、縦横比が設定された許容範囲内とする矩形状領域とする。情報提示領域判定部36は、領域検出部35により検出された領域から、提示情報の表示が可能とする基準を超える大きさの矩形状領域を設けられる位置を判定する。なお、情報提示領域の形状は矩形状に限定されるものではなく、提示情報を表示可能であれば他の形状とすることもできる。
 提示情報取得部22は、ディスプレイに表示させることでユーザに提示する情報(提示情報)を取得して、提示情報調整部37に提供する。提示情報は、例えば文字(テキスト)、図形、画像(静止画、動画像)、アニメーションなどのコンテンツとすることができる。提示情報取得部22は、情報提示装置10(あるいは眼鏡型情報端末(HMD))のユーザによる利用目的に応じた情報を、例えば利用状況に合わせて実行されるアプリケーションプログラムから取得することができる。また、提示情報取得部22は、アプリケーションプログラムに限らず、ユーザにより操作される入力装置、外部の電子機器などから取得できるようにしても良い。
 提示情報調整部37は、提示情報取得部22によって取得された提示情報の表示サイズを、情報提示領域判定部36によって判定された情報提示領域の大きさに応じて調整する。さらに、提示情報調整部37は、ユーザの姿勢や顔の向きの変化に伴う視点位置と向き、すなわちカメラにより撮影される視界画像の状態の変化に応じて、コンテンツの表示角度、大きさ等の調整をすることができる。
 情報提示部23は、提示情報取得部22により取得され、提示情報調整部37によって調整された提示情報を、情報提示領域判定部36により判定された情報提示領域に応じてディスプレイに表示させる。
 図2及び図3は、本実施形態における情報提示装置10を眼鏡型情報端末(以下、HMD20)と計算機30により実現される場合の構成を示す図である。図2は、本実施形態におけるHMD20と計算機30に設けられる機能構成の一例を示すブロック図である。図3は、本実施形態におけるHMD20と計算機30のハードウェア構成の一例を示すブロック図である。
 図2に示す各処理機能部は、図1に示す同じ符号が付された処理機能部とそれぞれ対応するものとして、詳細な説明を省略する。
 図2に示すように、HMD20では、画像取得部21、提示情報取得部22、情報提示部23が実現され、計算機30では、重要度検出部31、動体検出部32、カテゴリ分類部33、モデル記憶部34、領域検出部35、情報提示領域判定部36、提示情報調整部37が実現される。
 図3に示すように、HMD20には、例えば、処理ユニット201、カメラ211、ディスプレイ231、通信インタフェース(IF)202が設けられる。
 処理ユニット201は、プロセッサ、メモリ等を含み、メモリに記憶されたプログラムを実行することにより、HMD20を制御すると共に、画像取得部21、提示情報取得部22、情報提示部23の処理機能を実現する。処理ユニット201により実行されるプログラムには、HMD20の利用目的に応じた情報提示をするためのアプリケーションプログラムが含まれる。
 カメラ211は、HMD20がユーザにより頭部(顔部)に装着された際に、ユーザの視界方向を撮影範囲とするようにHMD20に設けられ、視界画像を撮影して画像データを処理ユニット201に出力する。
 ディスプレイ231は、処理ユニット201の制御により提示情報などのコンテンツを含む画像を表示させる。ディスプレイ231は、例えば透過型に構成されており、HMD20がユーザにより頭部(顔部)に装着された際に、ユーザがディスプレイ231を通じて前方を視認できる。ディスプレイ231に提示情報などの画像が表示されることで、ユーザの視界に情報を重畳させることができる。
 通信IF202は、処理ユニット201の制御により計算機30(通信IF304)と通信する。通信IF202は、例えば有線により通信する通信モジュール、または近距離無線技術を利用した無線により通信する通信モジュールを含むことができる。
 計算機30は、例えばマイクロコンピュータやパーソナルコンピュータ等のコンピュータにより構成され、CPU(Central Processing Unit)等のハードウェアプロセッサ301を有する。
 なお、CPUは、マルチコア及びマルチスレッドのものを用いることで、同時に複数の情報処理を実行することができる。また、プロセッサ301は、複数のCPUを備えていても良い。計算機30では、プロセッサ301に対し、プログラムメモリ302と、データメモリ303と、通信インタフェース(IF)104と、入出力インタフェース(IF)305とが接続される。
 プロセッサ301は、プログラムメモリ302に記憶されたプログラムを実行することにより、計算機30を制御すると共に、重要度検出部31、動体検出部32、カテゴリ分類部33、モデル記憶部34、領域検出部35、情報提示領域判定部36、提示情報調整部37の処理機能を実現する。
 通信IF304は、プロセッサ301の制御によりHMD20(通信IF202)と通信する。通信IF202は、例えば有線により通信する通信モジュール、または近距離無線技術を利用した無線により通信する通信モジュールを含むことができる。
 入出IF305には、入力装置306及び表示装置307が接続される。入力装置306及び表示装置307は、例えば液晶または有機EL(Electroluminescence)を使用した表示デバイスの表示画面上に、静電方式または圧力方式を採用した入力検知シートを配置した、いわゆるタブレット型の入力・表示デバイスを用いることができる。
 また、入力装置306及び表示装置307は独立するデバイスにより構成されてもよい。入出IF305は、入力装置306において入力された操作情報をプロセッサ301に入力すると共に、プロセッサ301で生成された表示情報を表示装置307に表示させる。
 プログラムメモリ302は、非一時的な有形のコンピュータ可読記憶媒体として、例えば、HDD(Hard disk drive)またはSSD(Solid State Drive)等の随時書込み及び読出しが可能な不揮発性メモリと、ROM(Read Only Memory)等の不揮発性メモリとが組合せて使用される。プログラムメモリ302には、プロセッサ301が一実施形態に係る各種制御処理を実行するために必要なプログラムが格納される。なお、各処理機能部の一部または全部は、特定用途向け集積回路(ASIC(Application Specific Integrated Circuit))またはFPGA(field-programmable gate array)等の集積回路を含む、他の多様な形式によって実現されても良い。
 データメモリ303は、有形のコンピュータ可読記憶媒体として、例えば、上記の不揮発性メモリと、RAM(Random access memory)等の揮発性メモリとが組合せて使用されたものである。データメモリ303は、各種処理が行われる過程で取得及び作成された各種データが記憶されるために用いられる。すなわち、データメモリ303には、各種処理が行われる過程で、適宜、各種データを記憶するための領域が確保される。例えば、データメモリ303には、画像データ記憶部3031、モデル記憶部3032、提示情報記憶部3033、領域情報記憶部3034、及び一時記憶部(図示せず)を設けることができる。
 画像データ記憶部3031は、通信IF304を通じてHMD20から受信される、視界画像の画像データが記憶される。
 モデル記憶部3032は、モデル記憶部34に相当し、重要度検出部31、動体検出部32、及びカテゴリ分類部33における処理において用いられる、予め学習されたモデルのデータが記憶される。
 提示情報記憶部3033は、通信IF304を通じてHMD20から受信される、提示情報のデータが記憶される。
 領域情報記憶部3034は、情報提示領域判定部36の処理により判定される情報提示領域の位置を含むデータが記憶される。
 一時記憶部(図示せず)は、各処理機能部の処理に伴う一時的なデータが記憶される。
 なお、図2及び図3に示す構成は、HMD20と計算機30により情報提示装置10を構成する例を示しているが、その他の構成も可能である。例えば、計算機30により実現されるとした各処理機能部をHMD20において実行可能として、HMD20のみによって情報提示装置10を実現しても良い。また、HMD20と計算機30とを、インターネットを含むIP(internet protocol)網と、このIP網にアクセスするためのアクセス網とを介して接続した構成とすることができる。アクセス網としては、例えば公衆有線網や携帯電話網、有線LAN(Local Area Network)、無線LAN、CATV(Cable Television)網などが用いられる。すなわち、計算機30をクラウドサーバとして機能させることができる。さらに、HMD20では、画像取得部21と情報提示部23の処理機能を設けて、カメラによる画像の撮影とディスプレイにおける情報表示のみを実行し、提示情報取得部22の処理機能を含む他の処理を計算機30で実行するようにしても良い。また、計算機30は、1台のコンピュータにより実現するだけでなく、複数のコンピュータが協働して実現されるものであっても良い。
 次に、本実施形態における情報提示装置10の動作について説明する。
 以下の説明では、図2及び図3に示す構成の情報提示装置10(HMD20、計算機30)を例にして説明する。
 ユーザは、情報提示装置10を利用する場合、HMD20を装着して、例えばHMD20に搭載されたアプリケーションプログラムを実行させる。以下の説明では、車両を運転する際に運転のアシストをする情報をユーザに提示するアプリケーションプログラムが実行されるものとする。
 ユーザによりHMD20が装着されると、カメラ211は、ユーザの視界の範囲とする画像を撮影する。処理ユニット201(画像取得部21)は、カメラ211により撮影される画像(視界画像)の画像データを取得して処理ユニット201に出力する。処理ユニット201は、カメラ211により撮影された視界画像の画像データを、通信IF202を通じて計算機30に送信する。
 計算機30(プロセッサ301)は、通信IF304を通じて視界画像の画像データを受信するとデータメモリ303の画像データ記憶部3031に記憶させ、重要度検出部31、動体検出部32、カテゴリ分類部33により、各処理を行う。なお、以下の説明では、重要度検出部31、動体検出部32及びカテゴリ分類部33における処理は、モデル記憶部3032(モデル記憶部34)に予め記憶された学習モデルを用いるものとするが、実質、同様の処理結果を得られるのであれば、学習モデルを用いない、その他の形態の処理であっても良い。
 まず、重要度検出部31は、画像取得部21から提供された視界画像における重要な場所(例えば、情報量が多い場所)を検出して、重要な場所を表す重要度ヒートマップ画像を生成する。重要度検出部31は、例えば、Seg-Grad-CAMなどの手法を用いて視界画像中の重要な場所を検出する。重要度検出部31は、モデル記憶部34から機械学習により取得されたSeg-Grad-CAMモデルデータを取得し、視界画像の画像データをもとに重要度ヒートマップ画像を作成して、領域検出部35に渡す。なお、視界画像中の重要度(例えば、情報量が多いか否か)を判定するアルゴリズムであれば、その他の形態の処理であっても良い。
 図6は、本実施形態における画像取得部21により取得された視界画像の一例を示す図である。図6は、道路を走行する車両から撮影された運転者の視界画像の例を示す。図6に示す視界画像には、前方の道路、前方で道路を走行する他の車両、ガードレール、道路に沿って並ぶ建築物、街路樹などが含まれている。
 図7は、本実施形態における重要度検出部31により生成される重要度ヒートマップ画像の一例を示す図である。図7に示す重要度ヒートマップ画像では、図6に示す視界画像に対して重要度検出部31による処理を実行することにより、運転のアシストをするために重要な場所として、例えば前方の道路の範囲が重要として検出され、重要と判定された道路上の位置(画素)から重要ではないと判定される道路外の領域にかけて、例えば赤、オレンジ、黄色、黄緑、シアン、ブルーのように色をグラデーションにより変化させた画像HMが付加されている。
 図7に示すように、画像HMが付加されることで重要と判定された道路の領域の変化が大きく、その他のガードレール、道路に沿って並ぶ建築物、街路樹などに該当する領域の変化が少なくなる(一様なブルーの領域)。
 次に、動体検出部32は、画像取得部21から提供された視界画像から動的物体を検出して、動的物体の場所を表す動体ヒートマップ画像を生成する。動体検出部32は、例えば、視界中の静止物体と動的物体を区別するために、semantic optical flowなどのアルゴリズムを用いる。動体検出部32は、モデル記憶部34から機械学習により取得されたsemantic optical flowモデルデータを取得し、視界画像の画像データをもとに動体ヒートマップ画像を作成して、領域検出部35に渡す。なお、視界画像中の動的物体を検出するアルゴリズムであれば、その他の形態の処理であっても良い。
 図8は、本実施形態における動体検出部32により生成される動体ヒートマップ画像の一例を示す図である。図8に示す動体ヒートマップ画像では、図6に示す視界画像に対して動体検出部32による処理を実行することにより、例えば道路を走行する前方の車両が動的物体として検出され、動的物体に相当する車両の領域が、例えば元の画素とは異なる赤色に変化させた画像MMが付加されている。
 次に、カテゴリ分類部33は、画像取得部21から提供された視界画像に関して、視界画像を属性毎にカテゴリ分類した複数の領域からなる分類画像を生成する。カテゴリ分類部33は、例えば、視界画像に関して、U-netなどのアルゴリズムを用いてセマンティックセグメンテーションを実行する。カテゴリ分類部33は、モデル記憶部34から機械学習により取得されたU-netモデルデータを取得し、視界画像の画像データをもとに、視界画像のカテゴリ分類した複数の領域からなる分類画像を生成して、領域検出部35に渡す。なお、セマンティックセグメンテーションを行い、視界画像のカテゴリ分類を行った分類画像を得られるアルゴリズムであれば、その他の形態の処理であっても良い。
 図9は、本実施形態におけるカテゴリ分類部33により生成される分類画像の一例を示す図である。図9に示す分類画像では、図6に示す視界画像に対してカテゴリ分類部33動による処理を実行することにより、例えば道路、道路を走行する他の車両、ガードレール、道路に沿って並ぶ建築物、街路樹などに相当する領域が、それぞれ異なる属性を有する領域としてカテゴリ分類されている。
 次に、領域検出部35は、重要度検出部31、動体検出部32及びカテゴリ分類部33の処理結果をもとに、重要度マップ画像を生成する処理を実行する。
 図4は、本実施形態における領域検出部35の動作を示すフローチャートである。
 領域検出部35は、重要度検出部31により生成された重要度ヒートマップ画像、動体検出部32により生成された動体ヒートマップ画像、カテゴリ分類部33により生成された分類画像を取得する(ステップS101)。
 次に、領域検出部35は、分類画像に、重要度ヒートマップ画像と動体ヒートマップ画像を重畳させ(ステップS102)、重要度ヒートマップ画像と動体ヒートマップ画像が分類画像に重畳された視界画像における重要度マップ画像を作成する(ステップS103)。
 例えば、領域検出部35は、分類画像に対して画像処理の1つであるアルファブレンド処理によって、重要度ヒートマップ画像と動体ヒートマップ画像とを、それぞれ透過して分類画像に重ね合わせる処理を行うことによって、重要度マップ画像を作成する。
 なお、分類画像にヒートマップを重畳する処理については、分類画像にその特徴(透過して重ね合わせる)が表れる処理であれば、その他の形態の処理であっても良い。
 領域検出部35は、重要度マップ画像を情報提示領域判定部36に渡す(ステップS104)。
 次に、情報提示領域判定部36は、領域検出部35により生成された重要度マップ画像をもとに提示情報を表示するための情報提示領域を判定するための処理を実行する。
 図5は、本実施形態における情報提示領域判定部36の動作を示すフローチャートである。
 まず、情報提示領域判定部36は、領域検出部35から重要度マップ画像を取得する(ステップS201)。情報提示領域判定部36は、重要度マップ画像に対して、例えば類似した属性を有する画素毎に分割した分割領域を検出する。例えば、情報提示領域判定部36は、GMM(Gaussian Mixture Model)等の領域分割アルゴリズムを用いる。
 情報提示領域判定部36は、例えば、重要度マップ画像に対して分割領域数を任意に設定し、GMMアルゴリズムを用いて、重要度マップ画像内の色分布をガウス関数の線形結合で表現する(ステップS202)。
 これに対し、情報提示領域判定部36は、EM(expectation-maximization)アルゴリムを用いて、各画素が何れの分割領域に属するか、設定された各分割領域に対する期待値の一覧から最も期待の高いある領域に属すると判定する最尤推定法により判定し(ステップS203)、領域分割した画像を生成する(ステップS204)。
 なお、重要度マップ画像を類似した属性を有する画素毎に領域として分割して得られるアルゴリズムであれば、その他の形態の処理であっても良い。
 この時、情報提示領域判定部36は、予め設定された判定条件に基づいて、分割して得られた複数の分割領域のうち、情報提示領域とすることができる疎な領域(以下、疎領域と称する)を決定し、視界画像中における疎領域の座標を得る(ステップS205)。
 判定条件としては、例えば、最も類似する画素数が多い領域、あるいは情報提示領域とすることができる基準値よりも大きな面積の領域であり、かつ領域の外周の長さが小さい(すなわち、領域の外周形状に凹凸が少ない)領域等などの条件を予め設定しておくことができる。
 重要度マップ画像に含まれる、重要度ヒートマップ画像に付加された画像HM(図7参照)、あるいは動体ヒートマップ画像に付加された画像MM(図8参照)が重畳された領域では画素の変化が大きいために、類似した属性を有する画素毎に分割した分割領域では大きな領域となりにくい。従って、複数の分割領域から画素数が多い領域、あるいは基準値よりも大きな面積の領域から疎領域を決定することで、視界画像において重要な情報を含む領域を避けることができる。
 情報提示領域判定部36は、決定した分割領域(疎領域)から情報提示の表示領域として利用する情報提示領域を決定する(ステップS206)。情報提示領域判定部36は、例えば、凸包処理を行い、決定した疎領域を内包する四角形領域を決定する処理を行う。分割領域から情報提示領域を決定する処理については、分割領域をもとにして情報提示領域を決定する手法であれば、その他の形態の処理であっても良い。
 情報提示領域判定部36は、視界画像(重要度マップ画像)における情報提示領域(四角形領域)の場所を示す情報を、提示情報調整部37に渡す(ステップS207)。
 提示情報調整部37は、提示情報とするコンテンツ(図形、画像、文字など)のデータは予め提示情報取得部22から取得されているものとする。
 提示情報調整部37は、情報提示領域判定部36より得た情報が示す情報提示領域の大きさに応じ、提示情報取得部22より得たコンテンツの図形やフォントサイズを調整する。例えば、提示情報調整部37は、表示する文字数と情報提示領域の大きさを考慮して、文字をすべて表示しつつ、最大のフォントサイズを計算して求めて、文字のフォントサイズを設定する。また、任意の文章要約手法を用いて、表示文字数自体を調整することも考えられる。コンテンツやフォントサイズ等の調整については、ユーザの可読性を考慮し調整するアルゴリズムであればその形態を問わない。
 提示情報調整部37は、提示情報取得部22から取得した提示情報と共に、情報提示領域に合わせて調整したコンテンツの情報、及び情報提示領域(四角形領域)の場所を示す情報を情報提示部23に渡す。
 情報提示部23は、提示情報調整部37から取得した情報をもとに、コンテンツの図形やフォントサイズ等を調整して、情報提示領域(四角形領域)にコンテンツを表示し、ユーザに提示する。
 図10は、本実施形態における情報提示部23によりディスプレイ231に提示情報(画像)PAが表示されたユーザの視界の一例を示す図ある。コンテンツとして、例えば「TEXT」の文字が表示されている。
 図10に示す例では、情報提示領域が、重要度検出部31により重要として検出された路面や、動体検出部32によって動的物体として検出された前方の車両と重複しない、道路に沿って並ぶ建築物に相当する範囲に情報提示領域が設定され、コンテンツが表示されている。
 これにより、提示情報取得部22により取得された提示情報(コンテンツ)を視界に重畳表示させても、コンテンツにより視界における重要な情報を遮蔽することがないので、車両の運転時などにおける、ユーザの注意や作業に影響を与えることがない。
 なお、情報提示部23は、例えば、ユーザが用いるアプリケーションより任意の通知を行う処理が実行されることを情報提示タイミングのトリガとして利用し、トリガ発行時に情報提示領域判定部36の処理を行い、指定した情報提示位置に情報を提示する。
 例えば、通知のような一時的な情報の場合は、予め設定された時間(例えば、5秒間)だけ情報提示した後、情報提示を終了する。また、提示情報の提示が継続的に必要な場合には、例えば、動体検出部32の処理で画像の30%以上の動的領域が検出された場合は情報を提示しない、情報提示領域の判定を予め設定された時間(例えば5秒)ごとに行う、カテゴリ分類部33で壁(カテゴリ分類された領域の境界)が検出されたときに行う等、情報提示に関する条件を設けて、これら条件を満たした際に情報提示を行う。情報提示に関する条件は予め設定おくものとし、情報提示部23は、設定された条件に基づいて、提示情報の表示を制御する。
 本実施形態における情報提示装置10は、例えば、ユーザへの一時的な情報の提示に対して有効である。アプリケーションの通知や、運転時のナビゲーションの提示、現実世界への広告情報の提示などが本システムの適用先として挙げられる。また、画像取得部21と実際のユーザの視点の差異を考慮するために、これらの2点間の絶対位置情報をシステムにおいて既知の情報として取得しておく。
 表示位置の指定にあたっては、例えば、情報提示領域の表示座標は周辺環境のグローバル座標系として扱い、ユーザ視点位置と画像取得部21のカメラ位置の差異については各ローカル座標系を考慮した座標変換を行うことで、これらの差異の影響なく情報提示を行うことができる。
 なお、各実施形態に記載した手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウエア手段)として、例えば磁気ディスク(フレキシブルディスク、ハードディスク等)、光ディスク(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ等)等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段(実行プログラムのみならずテーブルやデータ構造も含む)を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスクや半導体メモリ等の記憶媒体を含むものである。
 なお、本願発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。
 10…情報提示装置
 20…HMD
 21…画像取得部
 22…提示情報取得部
 23…情報提示部
 30…計算機
 31…重要度検出部
 32…動体検出部
 33…カテゴリ分類部
 34…モデル記憶部
 35…領域検出部
 36…情報提示領域判定部
 37…提示情報調整部
 201…処理ユニット
 202…通信IF
 211…カメラ
 231…ディスプレイ
 301…プロセッサ
 302…プログラムメモリ
 303…データメモリ
 3031…画像データ記憶部
 3032…モデル記憶部
 3033…提示情報記憶部
 3034…領域情報記憶部
 304…通信IF
 305…入出IF
 306…入力装置
 307…表示装置
 

Claims (7)

  1.  画像を取得する画像取得部と、
     前記画像を属性毎にカテゴリ分類した複数の領域からなる分類画像を生成するカテゴリ分類部と、
     前記画像に含まれる重要と判定される領域を表すマップ画像を生成するマップ画像生成部と、
     前記マップ画像と前記分類画像をもとに重要度マップ画像を生成する領域検出部と、
     前記領域検出部により生成された前記重要度マップ画像をもとに提示情報を表示するための情報提示領域を判定する領域判定部と、
     前記領域判定部により判定された前記情報提示領域に応じて、前記提示情報を表示させる情報提示部と
    を有する情報提示装置。
  2.  前記マップ画像生成部は、前記画像における動的物体の場所を表す動体ヒートマップ画像を生成する動体検出部を有し、
     前記領域検出部は、前記動体ヒートマップ画像と前記分類画像を重畳して前記重要度マップ画像を生成し、
     前記領域判定部は、前記重要度マップ画像をもとに、カテゴリ分類された領域のうち重要度が低い領域を前記情報提示領域として検出する請求項1記載の情報提示装置。
  3.  前記マップ画像生成部は、前記画像における重要な場所を表す重要度ヒートマップ画像を生成する重要度検出部を有し、
     前記領域検出部は、前記重要度ヒートマップ画像と前記分類画像を重畳して重要度マップ画像を生成し、
     前記領域判定部は、前記重要度マップ画像をもとに、カテゴリ分類された領域のうち重要度が低い領域を前記情報提示領域として検出する請求項1記載の情報提示装置。
  4.  前記提示情報を取得する提示情報取得部と、
     前記提示情報取得部によって取得された前記提示情報の表示サイズを、前記領域判定部によって検出された前記領域の大きさに応じて調整する提示情報調整部と
    をさらに有する請求項1記載の情報提示装置。
  5.  前記情報提示部は、前記提示情報の提示が継続的に必要な場合に、予め設定された情報提示に関する条件を満たした際に前記提示情報を表示させる請求項1記載の情報提示装置。
  6.  画像を取得する取得工程と、
     前記画像を属性毎にカテゴリ分類した複数の領域からなる分類画像を生成するカテゴリ分類工程と、
     前記画像に含まれる重要と判定される領域を表すマップ画像を生成するマップ画像生成工程と、
     前記マップ画像と前記分類画像をもとに重要度マップ画像を生成する領域検出工程と、
     前記領域検出工程により検出された前記重要度マップ画像をもとに提示情報を表示するための情報提示領域を判定する領域判定工程と、
     前記領域判定工程により判定された前記情報提示領域に応じて、前記提示情報を表示させる情報提示工程とを実行する情報提示方法。
  7.  請求項1乃至5の何れかに記載の情報提示装置が有する各部が行う処理を、当該情報提示装置が備えるコンピュータに実行させる情報提示プログラム。
PCT/JP2022/024164 2022-06-16 2022-06-16 情報提示装置、情報提示方法、及びプログラム WO2023243048A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/024164 WO2023243048A1 (ja) 2022-06-16 2022-06-16 情報提示装置、情報提示方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/024164 WO2023243048A1 (ja) 2022-06-16 2022-06-16 情報提示装置、情報提示方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023243048A1 true WO2023243048A1 (ja) 2023-12-21

Family

ID=89192533

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/024164 WO2023243048A1 (ja) 2022-06-16 2022-06-16 情報提示装置、情報提示方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023243048A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016095579A (ja) * 2014-11-12 2016-05-26 キヤノン株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム
JP2021511729A (ja) * 2018-01-18 2021-05-06 ガムガム インコーポレイテッドGumgum, Inc. 画像、又はビデオデータにおいて検出された領域の拡張

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016095579A (ja) * 2014-11-12 2016-05-26 キヤノン株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム
JP2021511729A (ja) * 2018-01-18 2021-05-06 ガムガム インコーポレイテッドGumgum, Inc. 画像、又はビデオデータにおいて検出された領域の拡張

Similar Documents

Publication Publication Date Title
US11200716B2 (en) Overlay contrast control in augmented reality displays
US11188739B2 (en) Processing uncertain content in a computer graphics system
US9674047B2 (en) Correlating user reactions with augmentations displayed through augmented views
JP2015049898A (ja) 適応型レンダリングのための動的に調整可能な距離場
US10152815B2 (en) Overlay emphasis modification in augmented reality displays
US11587253B2 (en) Method, apparatus, and computer program product for displaying virtual graphical data based on digital signatures
US20220198721A1 (en) Method, apparatus, and computer program product for training a signature encoding module and a query processing module using augmented data
JP2013203374A (ja) 車両用表示装置、その制御方法及びプログラム
US11922594B2 (en) Context-aware extended reality systems
US20150325048A1 (en) Systems, methods, and computer-readable media for generating a composite scene of a real-world location and an object
US9996961B2 (en) Method and apparatus for generating a composite image based on an ambient occlusion
CN112424832A (zh) 用于检测对象的3d关联的系统与方法
US20220332191A1 (en) Control method and apparatus, device and storage medium
US20130182943A1 (en) Systems and methods for depth map generation
JP2014191474A (ja) 集中度判定プログラム、集中度判定装置、および集中度判定方法
US9846819B2 (en) Map image display device, navigation device, and map image display method
US11302285B1 (en) Application programming interface for setting the prominence of user interface elements
WO2023243048A1 (ja) 情報提示装置、情報提示方法、及びプログラム
JP2015125543A (ja) 視線予測システム、視線予測方法、および視線予測プログラム
US9582857B1 (en) Terrain relief shading enhancing system, device, and method
KR20230129975A (ko) 드라이빙 내비게이션의 명시적인 신호체계 가시성 단서들
US11282171B1 (en) Generating a computer graphic for a video frame
US20230100305A1 (en) System and process for repainting of planar objects in video
KR20220163671A (ko) 구조물의 특정 공간에 대한 콘텐츠 스페이스 설정 방법 및 그 시스템
CN115984100A (zh) 图像生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22946865

Country of ref document: EP

Kind code of ref document: A1