WO2023119527A1 - 携帯情報端末および情報処理方法 - Google Patents

携帯情報端末および情報処理方法 Download PDF

Info

Publication number
WO2023119527A1
WO2023119527A1 PCT/JP2021/047712 JP2021047712W WO2023119527A1 WO 2023119527 A1 WO2023119527 A1 WO 2023119527A1 JP 2021047712 W JP2021047712 W JP 2021047712W WO 2023119527 A1 WO2023119527 A1 WO 2023119527A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
person
interviewer
processing
Prior art date
Application number
PCT/JP2021/047712
Other languages
English (en)
French (fr)
Inventor
康宣 橋本
保 伊藤
治 川前
仁 秋山
信夫 益岡
Original Assignee
マクセル株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マクセル株式会社 filed Critical マクセル株式会社
Priority to PCT/JP2021/047712 priority Critical patent/WO2023119527A1/ja
Publication of WO2023119527A1 publication Critical patent/WO2023119527A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to a mobile information terminal and an information processing method.
  • face-to-face person a person who once had a face-to-face conversation in the past (hereinafter also referred to as "face-to-face person"), if the next meeting with that person will be several years later, or if you have met several times in the past, but frequently There are not a few cases where a person who has not met suddenly visits one day.
  • Patent Literature 1 describes a technique related to a technique in which a user faces an interview partner and acquires information about the interview partner.
  • Patent Literature 1 The method described in Patent Literature 1 is performed in the following procedure. (1) A user takes an image of an interviewee with a camera provided in an HMD (Head Mounted Display), which is a portable information terminal. (2) By performing face image authentication processing on the photographed image, the face image is identified and the person to be interviewed is specified. (3) Acquiring (obtaining) information about the identified interview partner. (4) Notify the user of the acquired information about the person to be interviewed.
  • HMD Head Mounted Display
  • An object of the present invention is to provide a mobile information terminal and an information processing method that can more quickly provide a user with information on an interview partner.
  • a mobile information terminal determines whether or not a person around a user can be an interviewer by behavior analysis of the person. Get additional information about As a result, when the user recognizes the person as the person to be interviewed, the user already knows additional information about the person to be interviewed.
  • the mobile information terminal automatically determines whether or not a person around the user can be the interviewer, and if it is determined that the person can be , additional information about the person is acquired. Therefore, the information of the person to be interviewed can be provided to the user more quickly.
  • FIG. 1 is a schematic diagram for explaining the outline of the present invention
  • FIG. 1 is an external view showing an example of an HMD according to Embodiment 1
  • FIG. 2 is a system configuration diagram showing an internal configuration example of the HMD of Embodiment 1
  • FIG. 2 is a functional block diagram showing an example of functional block configuration according to Embodiment 1.
  • FIG. 4 is a flow chart of new interviewer processing in Embodiment 1.
  • FIG. 4 is a flow chart showing a subroutine of face information detection processing according to Embodiment 1.
  • FIG. 4 is an example of a table that stores interviewee information according to Embodiment 1.
  • FIG. 4 is a flowchart of interviewer identification/information acquisition processing according to Embodiment 1.
  • FIG. 10 is a system configuration diagram showing an internal configuration example of an HMD 1 according to Embodiment 2;
  • FIG. 10 is a functional block diagram showing an example of functional block configuration according to Embodiment 2;
  • 10 is a flowchart of new interviewer processing in Embodiment 2.
  • FIG. 10 is a flow chart showing a subroutine of voice information detection processing according to Embodiment 2.
  • FIG. It is an example of a table that stores interviewee information according to the second embodiment.
  • 10 is a flowchart of interviewer identification/information acquisition processing in Embodiment 2.
  • FIG. 10 is a flowchart of interviewer information processing according to Embodiment 2.
  • FIG. FIG. FIG. 10 is a flowchart of interviewer information processing according to Embodiment 2.
  • FIG. FIG. FIG. 10 is a system configuration diagram showing an internal configuration example of an HMD 1 according to Embodiment 2;
  • FIG. 10 is a functional block diagram showing an example of functional block configuration according to Embodi
  • FIG. 12 is a schematic diagram for explaining the outline of the third embodiment;
  • FIG. 14 is a flow chart of interviewer identification/information acquisition processing in Embodiment 3.
  • FIG. 14 is a flowchart of voice information independent processing in Embodiment 3.
  • FIG. 12 is an external view showing an example of an HMD used in Embodiment 4; 19 is a flowchart of interviewer identification/information acquisition processing according to Embodiment 5.
  • FIG. It is an example of information display in Embodiment 1.
  • FIG. It is an example of information display in Embodiment 1.
  • FIG. It is an example of information display in Embodiment 5.
  • FIG. 1 is a schematic diagram for explaining the outline of the first embodiment.
  • FIG. 2 is an external view showing an example of the HMD according to the first embodiment.
  • FIG. 3 is a system configuration diagram showing an internal configuration example of the HMD of the first embodiment.
  • FIG. 1 schematically shows a scene in which a person 15 is in front of a user 10 wearing a spectacle-shaped transmissive HMD 1 .
  • the transmissive HMD 1 is shown separated from the user 10 in FIG. assume that you are looking at
  • the person 15 may be referred to as an "interview partner 15" below.
  • a transmissive HMD 1 includes a translucent (transmissive) display screen 75 (display unit) at the lens position of eyeglasses.
  • the user can visually recognize the real space through the transmissive display screen 75 .
  • the display screen 75 can display an augmented reality AR object (interviewer information). Therefore, the wearer of the HMD 1 (the user 10 in this example) can simultaneously view both the augmented reality AR object (interviewer information) displayed on the display screen 75 and the situation in the real space.
  • FIG. 1 shows a state in which there is no interlocutor 15 in the line-of-sight direction 19 of the user 10 and the user 10 does not recognize the presence of the interlocutor 15 . More specifically, since the user 10 wears the HMD 1, the field of view of the real space other than the line-of-sight direction 19 is slightly narrower than the field of view when viewed with the naked eye. On the other hand, interviewee 15 recognizes the existence of user 10 and raises the right hand earlier than user 10 recognizes the existence of interviewee 15 .
  • the HMD 1 acquires the surrounding information of the HMD 1 using the surrounding information acquisition device immediately after activation.
  • "ambient information” is video, ranging information, audio, or a combination thereof.
  • the ambient information acquisition device includes an imaging unit 71 that acquires an image of the surroundings of the HMD 1 (and thus the user 10 carrying the HMD 1), and distance measurement data (the distance between the user and the object).
  • a sensor unit 5 including a distance measurement sensor 55 for acquiring information, a human detection sensor 56 for detecting the presence and approach of a person, and an audio input unit 81 such as a microphone for collecting (obtaining) the surrounding audio of the user. handle.
  • the HMD 1 recognizes the person 15 who is (or has appeared) around the user by analyzing the surrounding information acquired through the surrounding information acquisition device.
  • FIG. 1 according to Embodiment 1 shows an example in which only the imaging unit 71 is used as the ambient information acquisition device, and an image of the user's surroundings is acquired by the imaging unit 71 as ambient information.
  • the imaging unit 71 and the voice input unit 81 are used as the ambient information acquisition device.
  • Embodiment 3 which will be described later, only the voice input unit 81 is used as the ambient information acquisition device.
  • the HMD 1 determines whether or not the person 15 can be the interview partner by the behavior analysis processing unit 74, and when it determines that the person 15 can be the interview partner, acquires supplementary information about the person 15.
  • the acquired incidental information is presented to the user through the information presentation unit.
  • This additional information is presented by either or both images and sounds.
  • the display screen 75 controlled by the display section 72 corresponds to the information presentation section.
  • the voice output section 82 serves as the information presentation section.
  • FIG. 1 shows an example of displaying incidental information about the person 15 on the display screen 75 . That is, in FIG. 1 , the name 18 (“Taro Yamada” in this example) is displayed on the display screen 75 as supplementary information about the person 15 .
  • the name 18 (“Taro Yamada” in this example) is displayed on the display screen 75 as supplementary information about the person 15 .
  • video and image can be both moving images and still images.
  • the HMD 1 is configured to be connectable to a network server 32 on a network 33. More specifically, the HMD 1 is connected to the access point 31 by the communication processing unit 6 described later with reference to FIG.
  • the network server 32 shown in FIG. 1 includes various servers such as a processing server that performs various arithmetic processing and a data server that stores various data. Therefore, the HMD 1 can utilize various external resources by communicating with the server as necessary.
  • FIG. 2 is an external view showing an example of the HMD 1 used in this embodiment.
  • a display screen 75 is configured at the left and right lens positions of the glasses, and a right camera 711 is arranged at the end of the right lens position of the glasses, and a left camera 712 is arranged at the end of the left lens position of the glasses.
  • microphones are not shown, they are arranged near the right camera 711 and near the left camera 712 .
  • a right speaker 821 and a left speaker 822 are arranged at portions corresponding to the tendrils of the glasses.
  • electronic components such as circuits of the HMD 1 are divided and stored in the right housing 111 and the left housing 112 .
  • the main body of the HMD 1 used in the present invention is composed of various blocks described below.
  • FIG. 3 is a system configuration diagram showing an example of the internal configuration of the HMD 1 described above.
  • the HMD 1 includes a main control section 2, a system bus 3, a storage section 4, a sensor section 5, a communication processing section 6, a video processing section 7, an audio processing section 8, an operation input section 9, and the like. consists of
  • the main control section 2 is a microprocessor unit that controls the entire HMD 1 according to a predetermined operating program.
  • the system bus 3 is a data communication path for transmitting and receiving various commands and data between the main control unit 2 and each component block in the HMD 1 .
  • the storage unit 4 stores a program unit 41 that stores a program for controlling the operation of the HMD 1, and various data such as operation setting values, detection values from sensors, objects including content, and library information downloaded from a library. and a rewritable program function section 43 such as a work area used in various program operations.
  • the storage unit 4 can store an operation program downloaded from a network, various data created by the operation program, and the like. In addition, it is possible to store content such as moving images, still images, and audio downloaded from the network. In addition, it is possible to store data such as moving images and still images taken using the shooting function of the camera. In addition, the storage unit 4 can store necessary information (set values such as threshold values, image data, etc.) in advance.
  • the storage unit 4 must retain stored information even when power is not supplied to the HMD 1 from the outside. Therefore, for the storage unit 4, devices such as semiconductor element memories such as flash ROMs and SSDs (Solid State Drives), and magnetic disk drives such as HDDs (Hard Disc Drives) are used. Each operating program stored in the storage unit 4 can be updated and expanded in function by downloading from each server device on the network.
  • devices such as semiconductor element memories such as flash ROMs and SSDs (Solid State Drives), and magnetic disk drives such as HDDs (Hard Disc Drives) are used.
  • Each operating program stored in the storage unit 4 can be updated and expanded in function by downloading from each server device on the network.
  • the sensor unit 5 is a sensor group of various sensors (in other words, "sensor device") for detecting the state of the HMD 1.
  • the sensor unit 5 includes a GPS (Global Positioning System) receiver 51, a geomagnetic sensor 52, an acceleration sensor 53, a gyro sensor 54, a distance sensor 55, a human sensor 56, and the like.
  • GPS Global Positioning System
  • the sensor unit 5 can detect the position, tilt, direction, movement, etc., of the HMD 1 through the various sensors described above, and can also measure the distance to an object (interview partner, other various objects). can be done. For this reason, the sensor unit 5 constitutes a part of an ambient information acquisition device that acquires ambient information including information about the person to be interviewed.
  • the distance measuring sensor 55 is, for example, of an optical ToF (Time of Flight) type, and the surroundings of the HMD 1 and the user 10 (hereinafter, for simplicity, may be simply referred to as the surroundings).
  • People and personal accessories such as glasses, hats, canes, flags, clothes, masks, etc., and buildings, roads, etc.).
  • the human sensor 56 is, for example, of an infrared type, and can selectively sense a person (human) among the above-described various objects existing in the surroundings.
  • the GPS (Global Positioning System) receiving unit 51 can acquire the location of the HMD 1, in other words, the location from which the surrounding information is acquired, by acquiring the current position information using satellite communication.
  • other systems such as other systems in the GNSS (Global Navigation Satellite System) may be used to acquire the current position information.
  • the sensor unit 5 may further include other sensors, for example, detection or measurement devices such as illuminance sensors and altitude sensors, and these sensors can also be components of the ambient information acquisition device.
  • detection or measurement devices such as illuminance sensors and altitude sensors, and these sensors can also be components of the ambient information acquisition device.
  • the communication processing unit 6 is a communication device including a LAN (Local Area Network) communication unit 61, a telephone network communication unit 62, and the like.
  • the LAN communication unit 61 is connected to a network 33 such as the Internet (see FIG. 1 as appropriate) via the access point 31 or the like, and transmits and receives data to and from each network server 32 on the network 33 .
  • the connection between the LAN communication unit 61 and the access point 31 or the like is performed by wireless communication such as Wi-Fi (registered trademark).
  • main control unit 2 can cause an external server (network server 32) to perform at least part of the characteristic processing performed by the HMD 1 via the communication processing unit 6 (communication device).
  • network server 32 network server 32
  • the telephone network communication unit 62 performs telephone communication (call) and data transmission/reception through wireless communication with a base station or the like of a mobile telephone communication network. Communication with base stations, etc., may be carried out by the LTE (Long Term Evolution) method, 5G method (5th generation mobile communication system aiming at high-speed, large-capacity, low-delay, and multiple simultaneous connections), or other communication methods. good.
  • LTE Long Term Evolution
  • 5G method 5th generation mobile communication system aiming at high-speed, large-capacity, low-delay, and multiple simultaneous connections
  • the LAN communication unit 61 and telephone network communication unit 62 each include an encoding circuit, a decoding circuit, an antenna, and the like. Moreover, the communication processing unit 6 may further include other communication units such as an infrared communication unit.
  • the video processing unit 7 includes an imaging unit 71, a display unit 72, a face information processing unit 73, and a behavior analysis processing unit 74.
  • the imaging unit 71 uses electronic devices such as CCD (Charge Coupled Device) and CMOS (Complementary Metal Oxide Semiconductor) sensors to convert the light input from the lens into electrical signals, thereby generating image data (video) of the surroundings and objects. ) is the input camera.
  • the imaging unit 71 includes a right camera 711, a left camera 712, and the like.
  • the imaging unit 71 (right camera 711, left camera 712, etc.) constitutes part of an ambient information acquisition device (imaging device or image acquisition device) that acquires ambient information including information about the person being interviewed.
  • the display unit 72 is, for example, a transmissive display device (liquid crystal display device) using translucent liquid crystal.
  • the display unit 72 configures a display screen 75 (see FIGS. 22A, 22B, and 23 as appropriate) and provides the user 10 of the HMD 1 with supplementary information about the interview partner.
  • the face information processing unit 73 is a processing unit that extracts face information from the image of the interviewer captured by the imaging unit 71 .
  • the details of the processing mainly executed by the face information processing unit 73 will be described later.
  • the behavior analysis processing unit 74 is a processing unit that analyzes the behavior of a person based on the image of the person captured by the imaging unit 71 and the distance to the person measured by the distance sensor 55 . The details of the processing mainly performed by the behavior analysis processing unit 74 will be described later.
  • the face information processing unit 73 and the behavior analysis processing unit 74 are each composed of separate processors. As another example, these processing units 73 and 74 may be configured by the same processor.
  • the audio processing unit 8 is composed of an audio input unit 81 and an audio output unit 82 .
  • the audio input unit 81 is a microphone (hereinafter sometimes abbreviated as a microphone) that converts sounds in the real space, user's voice, etc. into audio data and inputs them.
  • microphones are arranged near the right camera 711 and the left camera 712, respectively.
  • the voice input unit 81 constitutes part of an ambient information acquisition device (sound pickup device or voice acquisition device) that acquires ambient information including information about the person being interviewed.
  • an ambient information acquisition device sound pickup device or voice acquisition device
  • the audio output unit 82 is a speaker that outputs necessary audio information for the user.
  • the audio output unit 82 has a right speaker 821 and a left speaker 822 arranged near the ears of the user.
  • the audio output unit 82 may include wired or wireless terminals for connecting external audio output devices such as earphones and headphones. According to the HMD 1 having such a configuration, it is possible to properly use the output method or route of the sound depending on the application.
  • the operation input unit 9 is a hardware device equipped with key switches and the like for inputting operation instructions to the HMD 1, and outputs operation input signals to the main control unit 2 in accordance with user's operation contents (input instructions).
  • the operation input unit 9 and the main control unit 2 are a setting unit or setting process for setting characteristic functions of the HMD 1 (for example, surrounding information acquisition, behavior analysis processing, information presentation, etc.). It works as a device.
  • the display unit 72 described above may be included as another component of the setting unit or setting processing device.
  • the hardware configuration example of the HMD 1 shown in FIG. 3 also includes components that are less relevant to the configuration for solving the above-described problems. Therefore, even if the configuration does not include parts or the like that are less relevant to solving the problem, the unique effects of the present embodiment are not lost. Also, a configuration not shown, such as an electronic money settlement function, may be added.
  • FIG. 4 is a functional block diagram showing an example of the functional block configuration of the HMD 1 of this embodiment.
  • the control function 21 is a function for controlling the entire HMD 1, and as shown in FIG.
  • the communication processing function 22 is a function that performs communication processing for connecting to the network 33 by the LAN communication unit 61 of the communication processing unit 6 and the telephone network communication unit 62 of the communication processing unit 6 (as appropriate , see also FIGS. 1 and 3).
  • the photographed data acquisition function 23 is a function for photographing an interviewee and acquiring photographed data using the imaging unit 71 (the right camera 711 and the left camera 712) of the video processing unit 7.
  • the face information processing function 24 is a function that analyzes the face information by the face information processing unit 73 from the image of the interviewer acquired by the photographed data acquisition function 23, and determines the interviewer. Details of face information processing will be described later.
  • the face information storage function 25 is a function for storing the face information for discriminating the interviewer obtained by the face information processing function 24 in the data storage section 42 of the storage section 4 .
  • the interviewee information storage function 26 is a function for storing supplementary information about the interviewee in the data storage section 42 of the storage section 4 .
  • the interviewer information output function 27 is a function to read out additional information about the interviewer stored in the interviewer information storage function 26 and display it on the display unit 72 of the video processing unit 7 .
  • the behavior analysis processing function 30 analyzes the behavior of the person by the behavior analysis processing unit 74 based on the distance between the image of the person acquired by the photographed data acquisition function 23 and the person acquired by the ranging data acquisition function 1000, It is a function to determine whether or not to become an interview candidate. The details of the interview candidate determination process will be described later.
  • FIG. 5 is a flow chart showing a procedure of new interviewer processing (step S400) for acquiring information of a new interviewer according to the present embodiment.
  • the processing procedure shown in FIG. 5 will be described below with reference to the functional block diagram of FIG.
  • step S400 From the viewpoint of personal information protection, it is assumed that the consent of the new interviewer has been obtained in advance when executing the new interviewer processing (step S400).
  • the new interviewer process (step S400) shown in FIG. 5 is executed, for example, according to the following procedure. That is, after the start processing (step S401), such as starting software and resetting the memory, first, the new interviewer is photographed (step S402). This corresponds to preprocessing for acquiring face information from the video of the new interviewer.
  • step S402 under the control of the main control section 2, the imaging section 71 of the video processing section 7 operates to photograph the background or subject in front of the user of the HMD 1.
  • the subject in front of the user is a new interviewer.
  • step S420 face information detection processing (step S420), which is defined processing (subroutine), is performed.
  • This face information detection process (step S420) is a process of acquiring the face information of the new interlocutor. Specifically, in step S420, under the control of the main control unit 2, the face information processing unit 73 of the image processing unit 7 analyzes the image of the subject photographed in step S402 to determine the face of the new interviewer. Get information. This process provides facial information that identifies the new interviewer.
  • FIG. 6 is a flow chart showing the processing procedure of the subroutine of face information detection processing (step S420).
  • the face information processing section 73 reads the programs of the face recognition method stored in the program section 41 of the storage section 4 and sequentially executes them.
  • the face information processing unit 73 first detects the face contour of the new interviewer in the photographed frame by the face contour detection program after the start processing (step S421) such as software activation and memory reset. (step S422).
  • step S423 the face information processing unit 73 determines whether or not the face contour of the new interlocutor has been detected by the face contour detection process (step S422).
  • step S423 NO
  • the face detection error setting process step S428, for setting a face detection error is performed. .
  • step S423 determines that the face contour of the new interviewer has been detected (step S423: YES)
  • the process proceeds to face element detection processing (step S424).
  • the face information processing section 73 performs processing for detecting face elements such as the eyes, nose, mouth, etc. inside the outline of the face by means of the face element detection section program.
  • the face information processing unit 73 determines whether or not the face element of the new interviewer has been detected by the face contour detection process (step S424).
  • step S424 determines that the face element of the new interviewee is not detected by the face contour detection process (step S424) (step S425: NO)
  • step S425 NO
  • the face detection error setting section 73 sets a face detection error. The process proceeds to setting processing (step S428).
  • step S424 when the face information processing unit 73 determines that the face elements of the new interviewee have been detected by the face contour detection process (step S424), the process proceeds to the next face feature amount detection process (step S426).
  • the face information processing unit 73 performs processing for detecting face feature amounts such as the size and position of each element, the positional relationship between elements, etc. by the face feature amount detection program. .
  • the face information processing unit 73 determines whether or not the face feature amount of the new interviewee has been detected by the face information feature amount detection processing (step S426).
  • step S426 determines that the face information feature quantity detection processing (step S426) has not detected the face feature quantity of the new interviewer (step S427: NO), it sets a face detection error. The process proceeds to face detection error setting processing (step S428).
  • step S426 determines that the face element of the new interviewee is detected by the face information feature quantity detection process (step S426) (step S427: YES)
  • step S420 the face information detection process (step S420) is performed. is ended (step S429).
  • the face information processing unit 73 indicates at what stage the face detection error occurred, and ends the face information detection process (step S420) (step S429).
  • the network server 32 may perform the face information detection process (step S420) described above.
  • the main control unit 2 of the HMD 1 transmits the image of the new interviewer captured by the image processing unit 7 (image capturing unit 71) via the network 33 to the network server 32 that performs face information detection processing.
  • the communication processing unit 6 is controlled as follows. Subsequently, the main control unit 2 of the HMD 1 receives the detection result (only) of the face information executed by the network server 32 from the network server 32 via the network 33 .
  • step S403 following the face information detection process (step S420) described above, the face information processing unit 73 determines whether or not the face information of the new interviewee has been acquired by the face information detection process (step S420).
  • step S403 NO
  • step S405 new interviewee information processing
  • step S404 the face information storage process
  • the face information processing unit 73 saves the face feature amount of the interviewer related to the face identification of the interviewer to the storage unit 4 by executing the face information storage function 25 (see FIG. 4). is stored in the data storage unit 42 of the Next, the face information processing unit 73 proceeds to new interviewer information acquisition processing (step S405).
  • the new interviewer information acquisition process (step S405) is a process for acquiring supplementary information of the new interviewer.
  • the face information processing unit 73 performs a process of acquiring incidental information regarding the new interviewer, such as the name and age of the new interviewer.
  • the face information processing unit 73 determines whether or not additional information regarding the new interviewer has been acquired by the new interviewer information acquisition process (step S405) (step S406).
  • step S406 determines that the supplementary information regarding the new interviewer could not be acquired
  • step S400 the new interviewer processing shown in FIG. 5 ends (step S408).
  • step S406 determines that the supplementary information regarding the new interviewer has been acquired (step S406: YES)
  • the process proceeds to step S407.
  • step S407 the face information processing unit 73 saves the acquired incidental information about the new interviewer in the data storage unit 42 of the storage unit 4 by executing the interviewer information storage function 26 (see FIG. 4).
  • the new interviewer processing step S400 shown in FIG. 5 is ended (step S408).
  • the HMD 1 when the supplementary information about the new interviewer is stored in the network server 32, the HMD 1, under the control of the main control unit 2, transmits the supplementary information about the new interviewer via the network 33 to the network. It can also be obtained from the server 32 .
  • the face information processing unit 73 saves the incidental information about the new interviewer acquired from the network server 32 in the data storage unit 42 of the storage unit 4, and then terminates the new interviewer processing (step S400) ( step S408).
  • FIG. 7 is a table showing an example of interviewee information stored in the data storage unit 42 of the storage unit 4.
  • FIG. 7 is a table showing an example of interviewee information stored in the data storage unit 42 of the storage unit 4.
  • the interviewer table (T840) shown in FIG. 7 includes a person column 860 indicating the type of person (interviewer, etc.) and information (item ) are associated with the item column 850 indicating the .
  • the item column 850 consists of two items: face information 851 and incidental information 852 regarding the interviewer.
  • a user 861 is registered in addition to interviewees (862 to 864). Metaphorically speaking, the fact that the user 861 exists in the person column 860 indicating the type of interviewer is like a profile in a mobile phone. Also, the face information 851 of the user (861) can be acquired, for example, by photographing using a mirror (in this case, a horizontally reversed image is obtained) or by so-called "self-portrait".
  • the interviewee table (T840) as shown in FIG. 7 can also be saved in the network server 32 via the network 33.
  • the network server 32 specialized for the process of specifying the interviewer from the face feature amount it is possible to speed up the process of specifying the interviewer.
  • FIG. 8 shows a process of determining whether or not a person can be an interviewer, which is the gist of the present embodiment, and acquiring supplementary information about the interviewer in advance if the person can be an interviewer (interviewer identification/information acquisition). processing).
  • FIG. 8 The processing procedure of FIG. 8 will be described with reference to the block diagram of FIG. 3 and the functional block diagram of FIG. In the following description, the main control unit 2 is assumed to be the subject of each process shown in FIG.
  • the main control unit 2 promptly starts processing (step S431) in order to perform processing such as interviewer identification and information acquisition.
  • step S432 the main control unit 2 first performs surrounding photographing process. This is a process of photographing the surroundings of the HMD 1, that is, the environment (landscape or scenery) around the user 10 by the photographed data acquisition function 23 and acquiring the photographed data.
  • the photographed data to be acquired may be a moving image or a still image. If the photographed data is a moving image, it can be expected that the accuracy of behavior analysis will be higher than that for still images. On the other hand, when the photographed data is a still image, it can be expected that the power consumption of the HMD 1 can be suppressed as compared with the case of a moving image. From the viewpoint of ensuring the accuracy of behavior analysis at a certain level or higher, when the photographed data is a still image, it is preferable to take an image, that is, acquire a still image at each predetermined cycle.
  • the main control unit 2 controls the image processing unit 7 so that the imaging unit 71 starts imaging.
  • the video processing unit 7 captures an image with the imaging unit 71 (camera), analyzes the captured image with the face information processing unit 73 and the behavior analysis processing unit 74 , and outputs the analysis result to the main control unit 2 .
  • step S433 after receiving the analysis result from the video processing unit 7, the main control unit 2 determines whether or not a person is present in the acquired image (hereinafter referred to as "capture data"). .
  • step S433 determines that no person exists in the photographed data (step S433, NO)
  • step S433 determines that no person exists in the photographed data
  • step S433, YES when the main control unit 2 determines that a person exists in the photographed data (step S433, YES), it proceeds to interview candidate determination processing in step S900.
  • step S900 the main control unit 2 determines whether or not a person around the user can become an interviewee. This determination is based on the behavior analysis result of the person in the photographed data by the behavior analysis processing unit 74, and determines that the person can be the interviewer if the person's attention is directed to the user. A video or still image may additionally be taken for this determination.
  • the conditions for judging that the person's attention is directed to the user include, for example, the following actions (person's actions).
  • person's actions The line-of-sight direction of the person is the direction of the user.
  • Condition 2) A person greets the user by raising his or her hand.
  • Condition 3) A person is approaching the user.
  • Condition 4) A person calls the user's name, or speaks the name of himself (or the company or organization to which the person belongs).
  • condition 4 is an action based on a person's utterance (voice), so it is not necessarily easy to acquire (extract) from an image. More specifically, for example, by analyzing the movement of the lips of a person in a moving image, it is possible to estimate the content (spoken sound) of the person. On the other hand, in recent social conditions, the number of cases of wearing masks to prevent infection with various diseases (such as the new coronavirus) is increasing, and in this case, it is difficult to analyze the movement of a person's lips. It is considered to be.
  • condition 1 to 3 will be mainly considered in the first embodiment, and condition 4 will be explained in the second and third embodiments.
  • Conditions 1 to 3 described above are actions based on a person's bodily movements, and can be generally defined as "actions that show interest in the user". For this reason, the main control unit 2 (behavior analysis processing device) determines that when the behavior of a person included in the photographed data (surrounding information) is a behavior that indicates an interest in the user 10, the person can be the interviewee ( Step S900, YES).
  • the person (person) who can be the interviewer will be referred to as the "interview candidate" as appropriate.
  • conditions 1 to 3 merely show a part of examples of "behavior showing interest in the user", and in actual operation, various other conditions (modes of behavior of a person) can be added.
  • the main control unit 2 for example, based on the detection result of the human sensor 56 described above, when the distance between the user and the person is closer than a predetermined constant distance, Regardless of the above conditions, it may be determined that the person is an interview candidate (step S900, YES). This is because, for example, the user 10 is wearing a mask, and the other person may notice the identity of the user 10 only after coming near the user 10 .
  • step S900 may be performed so that the interview candidate is not selected.
  • this takes into account the case where the user is only interested in the user as a professional response, such as a staff member at a store, a receptionist at a facility such as a receptionist at a company, or a security guard. More specifically, incidental information is usually not registered for these persons, and if incidental information acquisition processing is performed for these persons, acquisition of incidental information for truly necessary persons is hindered. This is because there is a risk that
  • the main control section 2 may determine whether or not it is the "specific place” based on the information received by the GPS receiving section 51 (see FIG. 3).
  • a person who is frequently met such as a family member, may be excluded from the processing target persons in steps S420 and S450 (so-called “excluded person”). "settings of). Also, for a person who has once performed the processing of steps S420 and S450, the processing of steps S420 and S450 may not be performed for a certain period of time (setting of a so-called “display stop period").
  • exclusion settings can be made by the user operating the operation input unit 9, for example.
  • unnecessary information presentation can be suppressed, contributing to the quick acquisition of incidental information for the person who really needs it, thus improving convenience. do.
  • the main control unit 2 determines in the interview candidate determination process in step S900 that the person in the surrounding area is not an interview candidate, it proceeds to the end instruction determination process in step S434.
  • step S434 the main control unit 2 monitors, for example, an input signal from the operation input unit 9, and determines whether or not the user 10 or the like has instructed to end the processing of the present embodiment.
  • step S434 determines that the end of processing has been instructed (step S434: YES)
  • step S436 ends the routine (interview candidate determination/information acquisition processing) shown in FIG. 8 (step S436).
  • step S434 determines that the end of the process has not been instructed yet (step S434: NO)
  • the main control unit 2 performs surrounding photographing processing for photographing the surroundings of the HMD 1 (step S432) in order to continue the routine shown in FIG. back to
  • step S900 determines in the interview candidate determination process in step S900 that the person in the vicinity is an interview candidate (step S900: YES)
  • the face information processing which is a defined process (subroutine)
  • Detection processing step S420 is performed.
  • the main control unit 2 displays a display 1100 indicating that the mobile information terminal has recognized the interview candidate (in the illustrated example, "interview candidate You may display a message that At that time, the main control unit 2 may superimpose a mark 1101 indicating the person to inform the user of the position of the interview candidate.
  • the mark 1101 displays a figure surrounding the person 15 as the interview candidate, but other figures such as an "arrow" pointing to the person 15 may be used.
  • step S420 the details of the face information detection process (step S420) have been explained in the flow chart of FIG. 6, so the explanation here will be omitted.
  • interviewer information processing (step S450), which is a defined process (subroutine).
  • interviewer information processing (step S450) is a process of identifying the interviewer and acquiring incidental information about the interviewer.
  • the main control unit 2 waits for the end of the interviewer information processing (step S450), and ends the interviewer identification/information acquisition process of the present embodiment (step S436).
  • FIG. 9 is a flow chart showing the processing procedure of the interviewee information processing (step S450), which is a subroutine.
  • the processing procedure shown in FIG. 9 will be described with reference to the hardware block diagram of FIG. 3 and the functional block diagram of FIG. 4 as appropriate.
  • step S450 interface information processing
  • the main control unit 2 firstly detects the face information detected in the face information detection processing (step S420) as the face of a known interviewer. It is determined whether or not it is information (step S452).
  • the main control unit 2 stores the face information (face feature amount) detected in the face information detection process (step S420) and the face information (face feature amount) stored by the face information storage function 25. If they are compared and closely resemble each other (for example, if the degree of matching of the facial outlines (contours) is within a preset threshold value), they are determined as known interviewees. In recent years, the number of people wearing masks has been increasing for the purpose of preventing infectious diseases. It is determined whether or not the matching degree of (contour) is within the above threshold.
  • the main control unit 2 determines NO in step S452, that is, when the detected face information (face feature amount) does not match the stored face information (face feature amount), or when the face information (face feature amount) In the information detection process (step S420), if face information sufficient to identify a person cannot be detected, it is determined that the person is not a known interviewer, and the process proceeds to step S400.
  • step S452 determines whether the face information (face feature amount) matches the stored face information (face feature amount). If the determination in step S452 is YES, that is, if the detected face information (face feature amount) matches the stored face information (face feature amount), the main control unit 2 proceeds to step S453. Transition. In step S453, the main control unit 2 acquires supplementary information about the known interviewer stored by the interviewer information storage function 26, and proceeds to step S454.
  • the main control unit 2 determines whether or not the supplementary information regarding the known interviewer needs to be corrected.
  • step S454 determines that the incidental information about the known interviewer does not need to be corrected (step S454: NO), it proceeds to the interviewer information output process (step S457).
  • step S454 determines that the incidental information about the known interviewer needs to be corrected
  • step S455 the main control unit 2 performs an interviewer corrected information saving process for saving the corrected interviewer information
  • step S455 the main control unit 2 corrects the interviewer information saved by the interviewer information saving function 26, and saves the corrected interviewer information. After completing the interviewer corrected information storage process (step S455), the main control unit 2 shifts to the interviewer information output process (step S457).
  • step S452 determines whether the interviewer is a known interviewer in the determination process of step S452 (step S452: NO). If it is determined that the interviewer is not a known interviewer in the determination process of step S452 (step S452: NO), there is no information about the interviewer, so it is necessary to newly acquire information about the interviewer. Therefore, the main control unit 2 performs the new interviewee process (step S400) of the present embodiment.
  • the details of the new interviewer process (step S400) have been described with reference to the flow chart of FIG. 5, so description thereof will be omitted here.
  • the main control unit 2 determines whether interviewer information has been obtained in the new interviewer processing (step S400) (step S456).
  • step S456 determines that the new interviewer information has been obtained (step S456: YES)
  • step S457 the interviewer information output process
  • step S400 if the incidental information about the interviewer can be obtained, the new interviewer information has already been saved, so the process can proceed to the interviewer information output processing (step S457). can.
  • the main control unit 2 uses the interviewer information output function 27 to output additional information about the interviewer to the outside.
  • the main control unit 2 displays the information 1102 of the interviewer on the display unit 72 of the video processing unit 7 (see FIG. 22B).
  • step S457 After completing the interviewer information output process (step S457), the main control unit 2 terminates the interviewer information processing (step S450) (step S458). Also, when the main control unit 2 determines in the determination process of step S456 that the interviewer information has not been obtained, the interviewer information processing (step S450) ends (step S458).
  • the face information of the new interviewer and additional information about the new interviewer are acquired and stored in advance. Then, before the user recognizes it, the main control unit 2 determines whether or not the person in the surroundings can be the interviewer by behavior analysis of the person, and when it is determined that the person can be the interviewer, character information such as the name of the person concerned is presented to the user 10 by displaying it on the display screen 75 (see FIG. 22B, etc.).
  • the supplementary information to be stored and presented may be graphic information such as illustrations, or audio information using the output from the right speaker 821 or the left speaker 822.
  • the HMD 1 of Embodiment 1 the portable information terminal is an ambient information acquisition device (sensor unit 5, imaging unit 71, voice input unit 81) that acquires the ambient information of the terminal and the user 10, and the acquired A behavior analysis processing device (main control unit 2, behavior analysis processing) that determines whether or not there is an interview candidate for the user 10 (a person who is going to interview the user) by analyzing the behavior of the person included in the surrounding information 74), and an information presentation device (display unit 72) that presents supplementary information corresponding to the person to the user 10 when it is determined that there is an interview candidate.
  • an ambient information acquisition device sensor unit 5, imaging unit 71, voice input unit 81
  • a behavior analysis processing device main control unit 2, behavior analysis processing
  • the HMD 1 it is possible to provide the user 10 with additional information about the interviewee more quickly, and at the time the user 10 recognizes the person as the interviewee, the user 10 knows the additional information about the interviewee. state.
  • the problem of the time lag that has been a problem in the conventional device that is, the inconvenience that the interview is started in a state where there is no or insufficient information about the other party and the conversation does not mesh at the beginning of the meeting. Problems such as those that occur can be effectively prevented.
  • interview candidates are identified using the interviewer's face information.
  • interview candidates are identified in consideration of voice information of a person. The present embodiment will be described below.
  • FIG. 10 is a system configuration diagram showing an example of the internal configuration of the HMD 1 used in this embodiment.
  • the system configuration diagram shown in FIG. 10 is substantially the same as the system configuration diagram of FIG. 3, and a voice information processing section 83 is added to the system configuration diagram of FIG.
  • a voice information processing section 83 is added to the system configuration diagram of FIG.
  • only the configuration of the audio information processing section 83 will be described.
  • the voice information processing unit 83 performs a function of extracting voice information from the interviewer's voice input from the voice input unit 81 .
  • the audio information processor 83 uses a hardware processor separate from the main controller 2 and performs the above functions under the control of the main controller 2 . Details of the processing executed by the audio information processing unit 83 will be described later.
  • FIG. 11 is a functional block diagram showing an example of the functional block configuration of the HMD 1 of this embodiment.
  • the functional block diagram shown in FIG. 11 is almost the same as the already described functional block diagram shown in FIG. 4, and is obtained by adding a voice information processing function 28 and a voice information storage function 29 to the functional block diagram of FIG. is.
  • the added voice information processing function 28 and voice information storage function 29 will be described below.
  • the voice information processing function 28 is a function of analyzing the voice information by the voice information processing unit 83 from the voice of the interviewer input from the voice input unit 81, and discriminating the interviewer. This is one of the functions performed by the unit 83 .
  • the voice information storage function 29 is a function for storing voice information for discriminating interviewees obtained by the voice information processing function 28 in the data storage section 42 of the storage section 4 .
  • FIG. 12 is a flow chart showing the procedure of the new interviewee process (step S460) for obtaining information including the voice information of the new interviewee according to the present embodiment.
  • the processing procedure of FIG. 12 will be described below with reference to the functional block diagram of FIG.
  • step S460 From the viewpoint of personal information protection, it is desirable to obtain the consent of the new interviewer in advance when executing this new interviewer processing (step S460).
  • such understanding does not imply a technical limitation.
  • step S460 The flowchart showing the procedure of the new interviewer processing (step S460) in FIG. 12 is almost the same as the flowchart showing the procedure of the new interviewer processing (step S400) in FIG.
  • the points of difference are the audio information detection processing (step S470), which is a predefined subroutine, the judgment processing (step S462) for judging the detection result of the audio information detection processing (step S470), and the audio information detection processing (step S470).
  • step S463 A saving process for saving the obtained voice information is added. Only the processing added in FIG. 12 will be described here.
  • step S460 When the new interviewee process (step S460) in the present embodiment is started (step S461), the same process (steps S402 to S404) as in FIG. 5 is executed, and the process related to face information ends.
  • FIG. 13 is a flow chart showing the processing procedure of the voice information detection process (step S470), which is a subroutine. The processing procedure of FIG. 13 will be described below with reference to the functional block diagram of FIG.
  • the voice information processing unit 83 reads out the voice recognition method program stored in the program unit 41 of the storage unit 4 under the control of the main control unit 2 in order to perform the functions of the voice information processing function 28 (step S471). ), and the processing from step S472 onward is executed sequentially.
  • step S470 voice information detection process
  • the voice information processing unit 83 determines whether or not sound has been detected (step S472).
  • step S472 determines that no sound has been detected (step S472: YES)
  • step S477 determines that sound has been detected
  • step S473 sound source separation processing
  • step S473 sound source separation processing
  • the sound information processing unit 83 confirms the direction of sound generation and specifies (separates) the position of the sound source.
  • the position of the mouth where the new interviewer speaks is the sound source position.
  • the voice information processing unit 83 determines whether or not the sound whose sound source has been specified (separated) is human voice. It should be noted that it is possible to determine (discriminate) whether or not the sound is a human voice based on, for example, the frequency band of the sound, the characteristics of the waveform, and the like. Since such a technique is publicly known, detailed description thereof will be omitted.
  • step S474 when the voice information processing unit 83 determines that the voice is not human voice (step S474, NO), the voice detection error setting process (step S477) is performed. On the other hand, when the voice information processing unit 83 determines that the voice is human voice (step S474, YES), the voice information processing unit 83 proceeds to voice feature amount detection processing (step S475).
  • the voice information processing unit 83 extracts the elements caused by the individual (speech style, habit, intonation, etc.) as voice feature amounts. Note that other methods (for example, identifying a specific person when a specific rare language is extracted) may be used as long as the method can identify individual characteristics.
  • the voice information processing unit 83 determines whether or not the individual feature (voice feature in this example) has been detected from the processing result of the voice feature amount detection process (step S475).
  • step S476 when the audio information processing unit 83 determines that the audio feature amount could not be detected (step S476, NO), it proceeds to the audio detection error setting process (step S477).
  • step S470 ends (step S478).
  • step S477 the voice information processing unit 83 causes the display unit 72 to clearly indicate at what stage the voice detection error occurred. After that, the voice information detection process (step S470) ends (step S478).
  • the HMD 1 transmits the voice of the newly interviewed person acquired via the network 33 to the network server 32 that performs the voice information detection process.
  • a voice information detection process may also be performed at 32 .
  • the communication processing section 6 receives only the detection result of the voice information from the network server 32 via the network 33 .
  • the main control unit 2 of the HMD 1 can cause separate network servers 32 to perform face information detection processing and voice information detection processing through the communication processing unit 6 .
  • the main control unit 2 (or the voice information processing unit, hereinafter, the same applies to the processing entity up to S464) performs voice information detection processing (step S470), and then performs voice information detection processing (step S470). It is determined whether information has been acquired (step S462).
  • step S462 determines in the determination process of step S462 that the voice information of the new interviewer could not be acquired by the voice information detection process (step S470), there is no voice information to be saved.
  • the process proceeds to interviewer information acquisition processing (step S405).
  • step S462 determines in the determination process of step S462 that the voice information of the new interviewee has been acquired by the voice information detection process (step S470)
  • the main control part 2 proceeds to the voice information storage process (step S463).
  • the voice information storage process step S463
  • the main control unit 2 stores the interviewer's voice feature amount related to the interviewer's voice identification in the data storage unit 42 of the storage unit 4 by the voice information storage function 29 .
  • step S405 shifts to new interviewer information acquisition processing.
  • the main control unit 2 performs processes (steps S406 and S407) equivalent to those in the flowchart of FIG. S460) is terminated (step S464).
  • FIG. 14 is a table (T870) showing an example of interviewee information stored in this embodiment.
  • the interviewer table (T870) shown in FIG. 14 consists of an interviewer (person) type 860 and information items 850 regarding each interviewer.
  • the information item 850 regarding each interviewee consists of face information 851, voice information 853, and incidental information 852 regarding the interviewee.
  • interviewers 862 to 864
  • a user 861 exists in the type 860 of interviewees (persons).
  • the presence of user 861 in the interviewer type has the implication of a profile on a mobile phone and the implication of separating the user's voice information and the voice of the new interviewer during the conversation with the new interviewer.
  • This interviewee table can also be transmitted from the HMD 1 to the network server 32 via the network 33 (see FIG. 1) and stored in the storage medium of the network server 32.
  • the network server 32 specialized for processing to specify the interviewee from the face feature amount and voice feature amount, the speed of the process of specifying the interviewee with the HMD 1 is increased. be able to.
  • FIG. 15 shows a process of judging whether or not a person can be an interviewer by adding voice information, which is the gist of the present embodiment, and acquiring supplementary information about the person to be interviewed in advance if the person can be an interviewer ( 10 is a flowchart showing a procedure of interviewer identification/information acquisition processing). The description of the processing procedure in FIG. 15 will be made with reference to the functional block diagram in FIG.
  • step S490 the interviewer information processing in the second embodiment is indicated by a step number (step S490) different from that in the first embodiment (step S450).
  • Embodiment 2 differs from Embodiment 1 in that a voice information detection process (step S470), which is a predefined subroutine, is added.
  • a voice information detection process (step S470)
  • the details of the voice information detection process (step S470) have already been described in the flowchart of FIG. 13, so a repeated description will be omitted.
  • FIG. 16 is a flowchart (subroutine) showing the details of the processing procedure of interviewer information processing (step S490) according to the second embodiment. Details of the processing procedure shown in FIG. 16 will be described with reference to the hardware block diagram of FIG. 10 and the functional block diagram of FIG.
  • step S492 the determination (determination) process of the second embodiment is indicated by a step number (step S492) different from that of the first embodiment (step S452).
  • the new interviewer processing is different from that in the first embodiment. It is indicated by a number (step S460).
  • step S490 interviewer information processing
  • step S490 interviewer information processing
  • the face information processing unit 73 stores the face information (face feature amount) detected in the face information detection process (step S420 in FIG. 6) and the face information stored by the face information storage function 25 ( face/voice feature amount), and if they match within a preset threshold value, it is determined that the person is a known interviewer (step S492, YES).
  • the main control unit 2 stores the voice information (voice feature amount) detected in the voice information detection process (step S470) and the voice stored by the voice information storage function 29. information (speech feature amount), and if they match within a preset threshold, it is determined that the interviewer is a known interviewee (step S492, YES).
  • step S492, NO it is possible to determine that the interviewer is a known interviewer only by matching the face information or the matching voice information, or it is possible to determine that the interviewer is a known interviewer by matching both the face information and the voice information. If neither face information nor voice information match, or if neither face information nor voice information sufficient to identify a person is detected, it is determined that the person is not a known interviewee (step S492, NO), and the process proceeds to step S460. do.
  • step S460 new interviewer processing
  • step S493 when it is determined that the interviewee is known (step S492, YES), the processes of steps S453 to S457 described with reference to FIG. End (step S493).
  • FIG. 17 is a schematic diagram for explaining the background of this embodiment.
  • the interviewer is present in the line-of-sight direction 19 (see the dotted arrow in the figure) of the user 10 wearing the eyeglass-shaped HMD 1 and in the field of view of the user 10. indicates a state in which the
  • the interviewee 16 approaches from behind (behind) the user 10, and the interviewee 16 recognizes the existence of the user 10 earlier than the user 10 recognizes the existence of the interviewee 16. It shows a state in which a voice 14 "Oi" indicated by a balloon is being emitted.
  • the HMD 1 is activated in response to the voice 14 saying "Hey” in a scene as shown in FIG. , a configuration for recognizing the person 16 .
  • the HMD 1 determines whether or not the person 16 can be the interviewee (whether or not the person 16 is an interview candidate) as a process of analyzing the surrounding video and audio. 16 is acquired, and the acquired incidental information is displayed on the display screen 75 . In the example shown in FIG. 17 , the HMD 1 displays a name (Jiro Yamada) 17 as additional information about the person 16 on the display screen 75 .
  • the HMD 1 is connected via an access point 31 to a network 33 to which a network server 32 is connected.
  • the network server 32 includes a network server that performs various types of arithmetic processing, a network server that stores various types of data, and the like, and the HMD 1 can utilize them as necessary.
  • the main control unit 2 causes an external server (network server 32) to perform processing of the action analysis processing unit 74 (action analysis processing device) of the HMD 1 via the communication processing unit 6 (communication device).
  • an external server network server 32
  • processing of the action analysis processing unit 74 action analysis processing device of the HMD 1 via the communication processing unit 6 (communication device).
  • the resources of the entire HMD 1 can be used efficiently, so the processing speed is improved, which leads to prompt presentation of necessary information to the user.
  • FIG. 18 shows the outline of the present embodiment, which is a process of determining whether or not a person can be an interviewer based on voice information, and acquiring supplementary information about the interviewer in advance if the person can be an interviewer (interviewer Identification/Information Acquisition Processing)
  • step S500 When the interviewer identification/information acquisition process (step S500) is started (step S501), the same process as in the flowchart of FIG. 15 is performed. S433, NO), and when it is determined from the image information that there are no interview candidates around (step S900, NO), the subroutine voice information independent processing (step S510) is executed.
  • FIG. 19 is a flow chart showing the processing procedure of the audio information single processing (step S510), which is a subroutine. The description of the processing procedure in FIG. 19 will be made with reference to the functional block diagram in FIG.
  • Embodiment 3 The voice-only processing (step S510) of Embodiment 3 shown in FIG. 19 is almost the same as the voice information detection processing (Step S470) shown in FIG. 13 (Embodiment 2).
  • Step S470 voice information detection processing
  • Embodiment 3 differs from FIG. 13 in that there is no decision processing in step S476, and interview candidate decision (step S901) and interviewer information processing (step S490), which is a subroutine, are not performed. It is an added point.
  • step S511 After starting (step S511) the audio-only processing (step S510), the HMD 1 performs the same processing as that described above with reference to FIG. 13 from step S472 to step S474.
  • the voice detection error setting process in step S477 is also the same as described above.
  • step S901 the HMD 1 determines whether or not the main voice is the voice of the interview candidate. In one specific example, in step S901, the HMD 1 determines whether the voice content may be a call to the user.
  • the HMD 1 determines that the voice is the voice of the interview candidate (step S901, YES). In this case, the HMD 1 proceeds to the audio feature detection process (step S475) described above with reference to FIG.
  • step S901 determines whether the owner of the voice is not that of the interview candidate. If it is determined in the interview candidate determination in step S901 that the owner of the voice is not that of the interview candidate (step S901, NO), the process proceeds to end processing of this routine (step S512).
  • the HMD 1 executes the interviewer information processing (step S490) described above in the subroutine of FIG. 16, and then ends the voice alone process (step S510) (step S512).
  • the interview candidate can be determined based only on the voice information. Additional information about can be obtained. Therefore, even if a person's image cannot be completely acquired due to a crowd, or if the imaging unit 71 is out of order, information about the interview candidate can be acquired.
  • Embodiment 4 The fourth embodiment of the present invention will be described below.
  • the basic hardware configuration and software configuration of Embodiment 4 are the same as those of Embodiments 1 to 3 described above. 1 to 3 will be mainly described, and descriptions of common parts will be omitted as much as possible to avoid duplication.
  • FIG. 20 is an external view showing an example of the HMD used in Embodiment 4.
  • FIG. The HMD 100 shown in FIG. 20 has a goggle-like housing (hereinafter also simply referred to as “goggles”) and outer shape, and includes an HMD mounting belt 180 . Then, as shown in FIG. 20, the user 101 wears the HMD 100 on the head of the user 101 by putting the HMD wearing belt 180 on the back of the head.
  • goggle-like housing hereinafter also simply referred to as “goggles”
  • HMD mounting belt 180 the user 101 wears the HMD 100 on the head of the user 101 by putting the HMD wearing belt 180 on the back of the head.
  • the HMD 100 has a display screen (display for displaying images) 175 on the front of the goggles, and a left camera 172 and a right camera 171 on the front of the goggles near the left end and right end, respectively.
  • left and right speakers are arranged at positions corresponding to the ears of the user 101, respectively. Note that FIG. 20 shows the left speaker 182 and does not show the right speaker because it is behind the user 101 .
  • the HMD wearing belt 180 is provided with a rear camera different from the cameras (171, 172, 173) at a position corresponding to the back of the user's 101 head.
  • a right lateral camera which is a camera different from the right camera 171 described above, is also arranged in the vicinity of the right speaker described above.
  • the fourth embodiment is characterized by adding a camera and expanding the range in which the surroundings of the user 101 are photographed.
  • the surrounding information acquisition device includes a plurality of cameras that acquire images, and each camera is arranged to acquire images of a wider range than the field of view of the user 101 .
  • the device as the ambient information acquisition device is arranged so as to acquire ambient information in a range out of the field of view of the user 101, it is possible to capture an interview candidate who is in a position that the user 101 does not notice. Increased probability and improved convenience.
  • a camera is used as a device of the surrounding information acquisition device
  • a configuration in which a plurality of distance measurement sensors 55 and motion sensors 56 (see FIG. 3) are arranged may be used.
  • Embodiment 5 A fifth embodiment of the present invention will be described below.
  • the basic hardware configuration and software configuration of Embodiment 5 are the same as those of the above-described embodiment, and the differences between this embodiment (Embodiment 5) and the above-described embodiment will be described below. will be mainly described, and descriptions of common parts will be omitted as much as possible to avoid duplication.
  • Embodiment 5 the case where there are multiple interview candidates will be considered.
  • the present embodiment will be described below.
  • FIG. 21 shows the outline of the present embodiment, which is a process of determining whether or not a person can be an interviewer, and if the person can be an interviewer, acquiring additional information about the interviewer in advance (interviewer identification/information acquisition). processing).
  • the interviewer identification/information acquisition process shown in FIG. 21 is substantially the same as the interviewer identification/information acquisition process described above with reference to FIG. ) and a priority determination process (step S523) are added.
  • step S521 When the interviewer identification/information acquisition process of the present embodiment is started (step S521), the HMD 1 performs steps S432 (surroundings photographing process), step S433 (human presence/absence determination process), and step S433 described in FIG. S900 (process for judging whether or not the person is an interviewee candidate) is performed.
  • steps S432 surroundings photographing process
  • step S433 human presence/absence determination process
  • step S433 described in FIG. S900 process for judging whether or not the person is an interviewee candidate
  • step S900 determines that the candidate is an interview candidate
  • step S502 the HMD 1 determines whether the number of persons detected as interview candidates is one or more.
  • step S522 if one person is detected (step S522, NO), HMD 1 performs face information detection processing (step S420) and interview information processing (step S450) as in the other embodiments. After doing this, terminate this routine.
  • step S522 if the number of persons detected as interview candidates (hereinafter sometimes simply referred to as "interview candidates") is plural, the HMD 1 performs priority determination processing (step S523). transition to
  • the present inventors have come up with the idea that when there are multiple interview candidates, it is effective to narrow down or order the persons whose information is to be obtained. A configuration for judging the degree was provided.
  • the HMD 1 selects a person who is most likely to be an interviewer or who is considered to be the most important person among a plurality of potential interviewees. Identify as
  • the HMD 1 for example, (A) The line-of-sight direction of a person is the direction of the user. (B) A person greets the user by raising his or her hand. (C) A person is approaching the user. (D) The distance to the user is short. For each action such as, predetermined weighting is performed to determine the priority, and the person with the highest priority is specified as the priority person.
  • step S523 When the priority determination process (step S523) is executed, the candidate person is narrowed down to one person, resulting in the same state as the other embodiments. Therefore, the HMD 1 thereafter sequentially performs face information detection processing (step S420) and interview information processing (step S450), as in the other embodiments, and then terminates this routine.
  • the HMD 1 identifies (D), that is, the closest person among the above (A) to (D), as the priority person in step S523.
  • the person with the highest possibility of starting an interview (dialogue) earliest among the plurality of interview candidates is specified as a priority person, so that the user can quickly know the information of the person (step S450). see also).
  • the HMD 1, in step S523, selects (B) among (A) to (D), i. as a priority person. This is because, in cases where there are multiple interviewees, if the interviewees are a superior and a subordinate, the superior (higher-ranked person) is usually expected to make the greetings, and the superior does not necessarily take the lead. This was done in consideration of the fact that subordinates may lead instead.
  • weighting settings can be arbitrarily set by the user in advance by operating the operation input unit 9 or the like.
  • the configuration is such that the information of only one person is acquired.
  • the processes of steps S420 and S450 may be sequentially performed in descending order of priority identified through the priority determination process (step S523). By performing such processing, it is possible to present information on all interview candidates to the user in descending order of priority (in other words, importance) while effectively utilizing the hardware resources of the HMD 1 .
  • steps S420 and S450 may be performed for the same number of times. Such processing is effective, for example, when the number of interview candidates is large. ) can be presented to the user in descending order.
  • FIGS. 22A, 22B, and 23 the information is simplified when the interview candidate is far away (FIG. 22A), and the interview candidate A process of displaying details when approaching (FIG. 22B) may be performed.
  • the HMD 1 displays simple information 1103a and 1103c (names only in this example) for distant persons 15a and 15c, and detailed information 1104b (names in this example) for a nearby person 15b. and various other information).
  • step S524 When performing the process of such a modified example, after performing the same process as in the other embodiments for all interview candidates (target persons), the interviewer identification/information acquisition process of the present embodiment ends (step S524).
  • Embodiment 5 As described above, with the configuration of Embodiment 5, it is possible to respond quickly even when there are multiple candidates who can be interviewed.
  • the mobile information terminal (HMD 1, 100) of the present disclosure is a peripheral information acquisition device (sensor unit 5, imaging unit 71, voice input unit 81) that acquires peripheral information of the terminal and user 10. , a behavior analysis processing device (main control unit 2. A behavior analysis processing unit 74) and an information presentation device (display unit 72) that presents supplementary information corresponding to the interview candidate to the user 10 when it is determined that there is an interview candidate.
  • the portable information terminal HMD 1, 100
  • the user 10 knows additional information about the person.
  • the portable information terminal (HMD 1, 100) described above includes an image captured by the imaging unit 71, distance information obtained by measuring the distance to an object including a person by the ranging sensor 55, and voice input unit 81. and voices picked up by the device are acquired as ambient information.
  • the ambient information acquisition device can acquire ambient information in consideration of the advantages of various information and the resources of the HMD 1 (100) (execution state of original functions, etc.). can be provided to the user 10 more quickly.
  • the portable information terminal (HMD 1, 100) described above has a configuration in which the action analysis processing unit 74 does not determine interview candidates depending on the location where the surrounding information is acquired.
  • the behavior analysis processing unit 74 assigns priority to each interview according to the behavior analysis result. Assigned to candidates, the number or order of interview candidates related to the incidental information presented by the information presentation device (display unit 72) is determined according to the assigned priority.
  • the information presentation device displays the presence of the interview candidate. Presentation of information and presentation of the incidental information corresponding to the interview candidate are performed step by step.
  • the user's attention can be focused on the information of the person for whom more information is desired, and convenience is enhanced.
  • Embodiments 1 to 5 examples of embodiments of the present invention have been described using Embodiments 1 to 5, but the configuration for realizing the technology of the present invention is not limited to the above-described embodiments, and various modifications are conceivable. .
  • Numerical values, messages, and the like appearing in the sentences and drawings are merely examples, and the effects of the present invention are not impaired even if different ones are used.
  • Some or all of the functions and the like of the present invention described above may be realized by hardware, for example, by designing an integrated circuit.
  • the functions may be realized by software, in which the microprocessor unit or the like interprets and executes a program for realizing each function.
  • Hardware and software may be used together.
  • the software may be stored in advance in the program section 41 of the HMD 1 or the like at the time of product shipment. It may be acquired from various server devices on the Internet after product shipment. Alternatively, the software may be acquired from a memory card, an optical disc, or the like.
  • control lines and information lines shown in the diagram show what is considered necessary for explanation, and do not necessarily show all the control lines and information lines on the product. In practice, it may be considered that almost all configurations are interconnected.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Abstract

面談者情報をユーザが保持する携帯情報端末に表示する従来の装置では、実際に面談者と対面する際、面談者に関する情報を面談直前のタイミングで速やかに取得することができず、かかる情報を面談開始後に取得していた。このため、面談開始時において話が噛み合わない等の不都合があった。代表的な実施の形態による携帯情報端末は、ユーザの周囲にいる人物が面談者となり得るか否かを当該人物の行動解析により判定し、面談者となり得ると判定した場合、当該人物に関する情報を取得しユーザに提示する。その結果、ユーザは、面談開始前ひいては当該人物を面談者として認識した時点において、既に面談者に関する情報を知っている。

Description

携帯情報端末および情報処理方法
 本発明は、携帯情報端末および情報処理方法に関する。
 かつて過去に直接対面して会話した人物(以下、「対面者」とも称する。)に関し、その人物と次に会うのが数年後のような場合、あるいは過去に何度か対面したが頻繁には会っていない人物がある日突然訪問してくるような場合は、少なからず発生する。
 そして、そのような過去に対面した人物と次に直接対面した際に、相手の情報(名前など)をすっかり忘却しており、会話が始まった段階で相手(対面者)は自分の名前を言えるのに、こちらは相手の名前を言えない(思い出せない)等の、気まずい事態が起こり得る。
 上記のような事態の発生を可能な限り避けることを目的として、ユーザの手帳等(紙や電子などの媒体を問わない)に、多くの友人や関係者の情報を記載して記録する方法もある。一方、そのような方法を実行したユーザでも、例えば、過去に対面した人物(言い換えると、手帳等に記録された人物の情報)が非常に多いような場合には、上記と同様の問題が発生し得る。
 より具体的には、手帳等に記録された人物(過去の対面者)の情報が多くなるほど、当該記録された人物の情報は、徐々に(例えば古いものから)ユーザの脳内の記憶(顕在意識)から失われてゆく。このため、過去に対面した人物がある日突然訪問して来た場合、ユーザは、対面者のキーワードを短時間で脳内から引き出すことができず、会話が始まった段階で相手の名前を言えない(思い出せない)等の、気まずい事態が起こり得る。
 最近では、顔写真を付けた電子情報を有する携帯情報端末を持ち歩き、面会前に事前に対面者(面談相手)の情報をチェックして、ユーザの記憶を呼び戻して面談に備えるということも行われるようになっている。このような電子情報を記憶した携帯情報端末は、対面者(面談相手)が予め分かっている場合には、有効なツールになり得る。しかしながら、上記と同様の場合、すなわち、顔写真等の電子情報が携帯情報端末に記憶されている人物が、ある日突然訪問して来てユーザに対面した等の場合には、やはり上記と同様の問題が発生し得る。
 他の側面から述べると、上記のようなツールを使うユーザは、突然の訪問者に対してとっさに名前等の情報が言えるようになるためには、ツールに記録された情報を頻繁にチェックして、常にユーザの記憶を呼び戻しておく必要がある。しかしながら、このような作業は、記録された情報が多くなるにつれて煩雑化および長時間化を招く問題がある。加えて、突然の来訪者は実際にはさほど多くない場合でも、近い将来に備えて非常に多くの人の情報の記憶を呼び戻す作業について、非効率と感じるあるいは抵抗感(難色)を示すユーザも少なくないと考えられる。
 総じて、上記のような携帯情報端末も、突然の来訪者にはユーザが対応できないという点で、有効なツールにならないものと考えられる。
 ところで、近年、顔認識技術の進歩や、小型のカメラを搭載した携帯情報端末の普及が進んでおり、これらの技術を利用することで、人物(面談相手)を識別し、かつ面談相手に関する情報を取得することが可能になりつつある。
 例えば、特許文献1では、ユーザが面談相手に対面し、かかる面談相手に関する情報を取得する手法に関する技術が記載されている。
特開2018-106579号公報
 特許文献1に記載の手法は、以下の手順で行われる。
(1)ユーザは、携帯情報端末であるHMD(Head Mounted Display)に備えられたカメラで面談相手を撮影する。
(2)当該撮影された画像について顔画像認証処理を行うことにより、顔画像を識別し、面談相手を特定する。
(3)特定された面談相手に関する情報を取得(入手)する。
(4)取得された面談相手に関する情報をユーザに報知する。
 しかしながら、特許文献1に記載の技術では、ユーザが面談相手に対面する必要があり、かかる対面後に、面談相手に関する情報を取得するので、情報取得までのタイムラグが発生する。言い換えると、特許文献1に記載の技術では、「この人物は私の面談相手である(らしい)」旨の判断をユーザが行う必要がある。その結果、ユーザは、相手に関する情報が無いまたは不足した状態で面談を開始することになり、対面当初において話が噛み合わない等の不都合が生じる。特に、面談相手の方がユーザより先にユーザに関する情報(名前、職業、など)を認識した場合は、上述したタイムラグに加えて、ユーザが「この人物は私の面談相手である(らしい)」と認識するまでのロスタイムが余計に発生する。
 本発明の目的は、面談相手の情報をユーザへより迅速に提供することが可能な携帯情報端末及び情報処理方法を提供することにある。
 本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
 本発明の代表的な実施の形態による携帯情報端末は、ユーザの周囲にいる人物が面談者となり得るか否かを当該人物の行動解析により判定し、面談者となり得ると判定した場合、当該人物に関する付帯情報を取得しておく。その結果、ユーザが当該人物を面談者として認識した時点では、面談者に関する付帯情報をユーザが知っている状態となっている。
 本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば、以下のとおりである。
 すなわち、本発明の代表的な実施の形態によれば、ユーザの周囲にいる人物が面談者になり得るか否かの判定が携帯情報端末によって自動で実行され、なり得ると判定されたた場合、当該人物に関する付帯情報が取得される。したがって、面談相手の情報をユーザへより迅速に提供することができる。
本発明の概要を説明するための模式図である。 実施の形態1におけるHMDの一例を示す外観図である。 実施の形態1のHMDにおける内部構成例を示すシステム構成図である。 実施の形態1における機能ブロック構成例を示す機能ブロック図である。 実施の形態1における新規面談者処理のフローチャートである。 実施の形態1における顔情報検出処理のサブルーチンを示すフローチャートである。 実施の形態1における面談者情報を保存するテーブル例である。 実施の形態1における面談者識別・情報取得処理のフローチャートである。 実施の形態1における面談者情報処理のサブルーチンを示すフローチャートである。 実施の形態2におけるHMD1の内部構成例を示すシステム構成図である。 実施の形態2における機能ブロック構成例を示す機能ブロック図である。 実施の形態2における新規面談者処理のフローチャートである。 実施の形態2における音声情報検出処理のサブルーチンを示すフローチャートである。 実施の形態2における面談者情報を保存するテーブル例である。 実施の形態2における面談者識別・情報取得処理のフローチャートである。 実施の形態2における面談者情報処理のフローチャートである。 実施の形態3の概要を説明するための模式図である。 実施の形態3における面談者識別・情報取得処理のフローチャートである。 実施の形態3における音声情報単独処理のフローチャートである。 実施の形態4で使用されるHMDの一例を示す外観図である。 実施の形態5における面談者識別・情報取得処理のフローチャートである。 実施の形態1における情報表示の例である。 実施の形態1における情報表示の例である。 実施の形態5における情報表示の例である。
 以下、本発明を適用した実施の形態の具体例を、図面を参照して詳細に説明する。以下に説明する各実施の形態は、本発明を実現するための一例であり、本発明の技術範囲を限定するものではない。なお、実施の形態において、同一の機能を有する部材には同一の符号を付し、その繰り返しの説明は、特に必要な場合を除き省略する。
 <<実施の形態1>>
 まず、図1~図3を参照して、本発明に係る実施の形態1について説明する。ここで、図1は、実施の形態1の概要を説明するための模式図である。また、図2は、実施の形態1におけるHMDの一例を示す外観図である。さらに、図3は、実施の形態1のHMDにおける内部構成例を示すシステム構成図である。
 図1では、眼鏡形状の透過型HMD1を装着したユーザ10の前方に、一人の人物15がいる情景を模式的に示している。なお、説明の便宜のため、図1では透過型HMD1をユーザ10から離して示しているが、実際には、ユーザ10は、その頭部前面(眼鏡装着位置)にHMD1を装着した状態で前方を見ているものとする。また、以下は、人物15を「面談相手15」と称する場合がある。
 本実施の形態の透過型HMD1は、眼鏡のレンズ位置に半透明(透過型)の表示画面75(表示部)を備えている。ユーザは、かかる透過型の表示画面75を介して、実空間を視認することができる。また、表示画面75には、拡張現実のARオブジェクト(面談者情報)を表示することができる。従って、HMD1の装着者(この例ではユーザ10)は、表示画面75に表示された拡張現実のARオブジェクト(面談者情報)と、実空間の状況との両方を同時に視認することができる。
 図1では、ユーザ10の視線方向19に面談相手15が存在しておらず、ユーザ10が面談相手15の存在を認識していない状態を示している。より具体的には、ユーザ10の視野は、HMD1を装着しているので、視線方向19以外の実空間の視野が、裸眼で目視する場合の視野に比べてやや狭くなっている。これに対して、面談相手15は、ユーザ10が面談相手15の存在を認識するより早く、ユーザ10の存在を認識し、右手を上げている状態である。
 本実施の形態では、例えば図1に示す情景において、HMD1は、起動後速やかにHMD1の周囲情報を、周囲情報取得装置を用いて取得する。一具体例では、「周囲情報」とは、映像、測距情報、音声のいずれか、またはそれらの組合せである。
 図3に示すブロックとの関係では、周囲情報取得装置は、HMD1(ひいてはHMD1を携帯するユーザ10)の周囲の映像を取得する撮像部71、測距データ(ユーザと対象物との距離)を取得する測距センサ55、人物の存在をおよび接近をより感知する人感センサ56等を含むセンサ部5、および、ユーザの周囲の音声を収音(取得)するマイクロホン等の音声入力部81が対応する。HMD1は、上記の周囲情報取得装置を通じて取得された周囲情報を解析することにより、ユーザの周囲にいる(あるいは出現した)人物15を認識する。
 なお、実施の形態1に係る図1では、周囲情報取得装置として撮像部71のみを使用し、撮像部71によってユーザの周囲の映像を周囲情報として取得する例を示している。これに対し、後述する実施の形態2では、周囲情報取得装置として撮像部71および音声入力部81を使用する。また、後述する実施の形態3では、周囲情報取得装置として音声入力部81のみを使用する。
 HMD1は、人物15が面談相手となり得るかどうかを行動解析処理部74により判断し、面談相手となり得ると判断した場合は、人物15に関する付帯情報を取得する。取得された付帯情報は、情報提示部を通してユーザに提示される。
 この付帯情報の提示は、画像および音声のいずれか或いは双方によりなされる。画像により情報提示がなされる場合、情報提示部は、表示部72により制御される表示画面75が対応する。一方、音声により情報提示がなされる場合、情報提示部は、音声出力部82が対応する。
 図1では、表示画面75に人物15に関する付帯情報を表示した例を示している。すなわち、図1では、人物15に関する付帯情報として、氏名18(この例では「山田太郎」)を表示画面75に表示している。
 なお、本明細書においては、「映像」、「画像」の用語は、動画像と静止画像のどちらもあり得るものとする。
 図1に示すように、HMD1は、ネットワーク網33上のネットワークサーバ32と接続可能に構成される。より具体的には、HMD1は、図2で後述する通信処理部6によってアクセスポイント31に接続し、アクセスポイント31を介して、ネットワーク網33に接続されたネットワークサーバ32と通信を行う。図1に示すネットワークサーバ32には、各種演算処理を行う処理サーバや、各種データを保存するデータサーバなど、種々のサーバが含まれる。したがって、HMD1は、必要に応じて上記のサーバと通信を行うことで、外部の種々のリソースを活用することができる。
 図2は、本実施の形態で使用されるHMD1の1例を示した外観図である。眼鏡の左右レンズ位置に表示画面75を構成し、眼鏡の右レンズ位置の端に右カメラ711と、眼鏡の左レンズ位置の端に左カメラ712を配置している。
 また、マイクは図示していないが、右カメラ711の近傍と左カメラ712の近傍に配置している。また、スピーカは、眼鏡の蔓にあたる部分に、右スピーカ821と左スピーカ822を配置している。
 また、HMD1の回路等の電子部品は、右筐体111と左筐体112に分割して格納している。
 以下、本開示における課題、すなわち面談相手の情報をユーザへより迅速に提供することを実現するための具体的手法について、図面を参照して、より詳細に説明する。
 [HMDのシステム構成例]
 本発明で利用するHMD1の本体には、以下で説明する種々のブロックで構成されている。
 図3は、上述したHMD1における内部構成の一例を示すシステム構成図である。図3に示すように、HMD1は、主制御部2、システムバス3、記憶部4、センサ部5、通信処理部6、映像処理部7、音声処理部8、操作入力部9、などを備えて構成される。
 主制御部2は、所定の動作プログラムに従ってHMD1全体を制御するマイクロプロセッサユニットである。システムバス3は、主制御部2とHMD1内の各構成ブロックとの間で各種コマンドやデータなどの送受信を行うためのデータ通信路である。
 記憶部4は、HMD1の動作を制御するためのプログラムなどを記憶するプログラム部41、動作設定値やセンサからの検出値やコンテンツを含むオブジェクトやライブラリからダウンロードしたライブラリ情報などの各種のデータを記憶するデータ記憶部42、各種プログラム動作で使用するワークエリアなどの書き替え可能なプログラム機能部43から構成している。
 また、記憶部4は、ネットワーク上からダウンロードした動作プログラムや、前記動作プログラムで作成した各種データ等を記憶可能である。また、ネットワーク上からダウンロードした動画や静止画や音声等のコンテンツを記憶可能である。また、カメラによる撮影機能を使用して撮影した動画や静止画等のデータを記憶可能である。また、記憶部4は、必要な情報(閾値等の設定値や画像データ等)を予め記憶しておくことが可能である。
 また、記憶部4は、HMD1に外部から電源が供給されていない状態であっても記憶している情報を保持する必要がある。したがって、記憶部4は、例えば、フラッシュROMやSSD(Solid State Drive)などの半導体素子メモリ、HDD(Hard Disc Drive)などの磁気ディスクドライブ、等のデバイスが用いられる。なお、記憶部4に記憶された各動作プログラムは、ネットワーク上の各サーバ装置からのダウンロード処理により更新及び機能拡張することができるようになっている。
 センサ部5は、HMD1の状態を検出するための各種センサのセンサ群(言い換えると「センサ装置」)である。センサ部5は、GPS(Global Positioning System)受信部51、地磁気センサ52、加速度センサ53、ジャイロセンサ54、測距センサ55、人感センサ56などで構成される。
 センサ部5は、上記の種々のセンサを通じて、HMD1の位置、傾き、方角、動き、等を検出することができ、また、対象(面談相手、その他の種々のもの)との距離を測定することができる。このため、センサ部5は、面談相手の情報を含む周囲情報を取得する周囲情報取得装置の一部を構成する。
 上記のうち、測距センサ55は、例えば光学式のToF(Time of Flight)形式のものであり、HMD1およびユーザ10の周囲(以下は簡明のため、単に周囲と称する場合がある)の対象物(人物および人物の付帯物(例えば、眼鏡、帽子、杖、旗、衣服、マスクなど)、および、建物、道路、など)との距離を測定する。
 なお、以下は簡明のため、「HMD1およびユーザ10の周囲」を単に「周囲」と称する場合がある。
 また、人感センサ56は、例えば赤外線式のものであり、周囲に存在する上述した種々の対象物のうちの人物(人間)を、選択的に感知することができる。
 加えて、GPS(Global Positioning System)受信部51は、衛星通信を利用して現在位置情報を取得することにより、HMD1の場所、言い換えると周囲情報が取得される場所を取得することができる。また、現在位置情報を取得するために、他のシステム、例えば、GNSS(Global Navigation Satelite System)の中の他のシステムを用いても構わない。
 なお、センサ部5は、さらに他のセンサ、例えば、照度センサ、高度センサなどの検出ないし測定デバイスを備えていてもよく、これらのセンサも周囲情報取得装置の構成要素となり得る。
 通信処理部6は、LAN(Local Area Network)通信部61、電話網通信部62などを備える通信装置である。このうち、LAN通信部61は、アクセスポイント31等を介してインターネット等のネットワーク網33(適宜、図1を参照)と接続され、ネットワーク網33上の各ネットワークサーバ32とデータの送受信を行う。LAN通信部61とアクセスポイント31等との接続は、Wi-Fi(登録商標)等の無線通信により行われる。
 なお、主制御部2は、通信処理部6(通信装置)を介して、HMD1が行う特徴的な処理の少なくとも一部を外部のサーバ(ネットワークサーバ32)に行わせることができる。
 電話網通信部62は、移動体電話通信網の基地局等との無線通信により、電話通信(通話)及びデータの送受信を行う。基地局等との通信は、LTE(Long Term Evolution)方式、5G方式(高速大容量、低遅延、多数同時接続を目指した第5世代移動通信システム)、或いはその他の通信方式によって行われてもよい。
 LAN通信部61、電話網通信部62は、それぞれ符号化回路や復号回路やアンテナ等を備える。また、通信処理部6は、赤外線通信部など、他の通信部を更に備えていてもよい。
 映像処理部7は、撮像部71と、表示部72と、顔情報処理部73と、行動解析処理部74とを備えている。
 撮像部71は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)センサ等の電子デバイスを用いてレンズから入力した光を電気信号に変換することにより、周囲や対象物の画像データ(映像)を入力するカメラである。本実施の形態では、撮像部71は、右カメラ711、左カメラ712、などを備える。
 かかる撮像部71(右カメラ711、左カメラ712、)は、面談相手の情報を含む周囲情報を取得する周囲情報取得装置の一部(撮像装置または画像取得装置)を構成する。
 表示部72は、例えば、半透明の液晶による透過型ディスプレイの表示デバイス(液晶表示装置)である。表示部72は、表示画面75(適宜、図22A,図22B,図23を参照)を構成し、面談相手に関する付帯情報等を、HMD1のユーザ10に提供する。
 顔情報処理部73は、撮像部71で撮影された面談者の映像から、顔情報を抽出する処理部である。顔情報処理部73が主体となって実行する処理の詳細については後述する。
 行動解析処理部74は、撮像部71で撮影された人物の映像や、測距センサ55で測定された人物との距離から、人物の行動解析を行う処理部である。行動解析処理部74が主体となって実行する処理の詳細については後述する。
 一具体例では、顔情報処理部73および行動解析処理部74は、各々、別個のプロセッサで構成される。他の例として、これら処理部73,74が同一のプロセッサで構成されてもよい。
 音声処理部8は、音声入力部81と、音声出力部82とで構成される。
 音声入力部81は、実空間の音やユーザの音声などを音声データに変換して入力するマイクロホン(以下、マイクと略称する場合がある)である。本実施の形態では、右カメラ711と左カメラ712の近傍に、それぞれマイクを配置している。
 音声入力部81は、面談相手の情報を含む周囲情報を取得する周囲情報取得装置の一部(収音装置または音声取得装置)を構成する。
 音声出力部82は、ユーザに必要な音声情報等を出力するスピーカである。本実施の形態では、音声出力部82は、ユーザの耳に近い位置に、右スピーカ821と左スピーカ822を配置している。図示しないが、音声出力部82は、イヤホン、ヘッドホンなどの外部の音声出力機器を接続するための有線または無線の端子を備えていてもよい。このような構成のHMD1によれば、音声の出力方法ないし経路を、用途等に応じて適宜に使い分けることができる。
 操作入力部9は、HMD1に対する操作指示等の入力を行うキースイッチ等を備えたハードウェア装置であり、ユーザの操作内容(入力指示)に従った操作入力信号を主制御部2に出力する。
 本開示において、操作入力部9および主制御部2は、HMD1における特徴的な機能(例えば、周囲情報取得、行動解析処理、情報提示、など)についての設定を行うための、設定部ないし設定処理装置として機能する。設定部ないし設定処理装置の他の構成要素として、上述した表示部72を含めてもよい。
 なお、図3に示したHMD1のハードウェア構成例では、上述した課題を解決するための構成と関連性が低い部品等も含まれている。したがって、課題解決との関連性が低い部品等を備えない構成であっても、本実施の形態における特有の効果を損なうことはない。また、電子マネー決済機能等、図示していない構成が更に加えられていてもよい。
[本実施の形態の機能ブロック]
 図4は、本実施の形態のHMD1における機能ブロック構成の一例を示す機能ブロック図である。制御機能21は、HMD1の全体を制御する機能であり、図4に示すように、主に、主制御部2と、記憶部4のプログラム部41及びプログラム機能部43によって構成される。
 上記のうち、通信処理機能22は、通信処理部6のLAN通信部61や、通信処理部6の電話網通信部62により、ネットワーク網33に接続するための通信処理を行う機能である(適宜、図1および図3も参照)。
 撮影データ取得機能23は、映像処理部7の撮像部71(右カメラ711、左カメラ712)により、面談者を撮影し、撮影データを取得する機能である。
 顔情報処理機能24は、撮影データ取得機能23で取得した面談者の映像から、顔情報処理部73により顔情報を解析し、面談者を判別する機能である。顔情報処理の詳細については、後述する。
 顔情報保存機能25は、顔情報処理機能24で得られた面談者を判別する顔情報を、記憶部4のデータ記憶部42に保存する機能である。
 面談者情報保存機能26は、面談者に関する付帯情報を、記憶部4のデータ記憶部42に保存する機能である。
 面談者情報出力機能27は、面談者情報保存機能26に保存されている面談者に関する付帯情報を読み出して、映像処理部7の表示部72に表示する機能である。
 行動解析処理機能30は、撮影データ取得機能23で取得した人物の映像と、測距データ取得機能1000で取得した人物との距離から、行動解析処理部74により人物の行動を解析し、人物が面談候補者になるか否かを判定する機能である。面談候補者判定処理の詳細については、後述する。
 [本実施の形態の処理手順]
 図5は、本実施の形態における新規面談者の情報を取得する新規面談者処理(ステップS400)の手順を示すフローチャートである。以下に、図5に示す処理手順を、図4の機能ブロック図を参照して説明する。
 なお、新規面談者処理(ステップS400)の実行にあたっては、個人情報保護の観点から、予め新規面談者の了解が得られていることを前提とする。
 図5に示す新規面談者処理(ステップS400)は、例えば以下のような手順により実行される。すなわち、ソフトウェアの起動やメモリのリセットなどの開始処理(ステップS401)の後、先ず、新規面談者を撮影する(ステップS402)。これは、新規面談者の映像から顔情報を取得するための前処理に相当する。
 具体的には、ステップS402では、主制御部2の制御の下、映像処理部7の撮像部71が動作することにより、HMD1のユーザの前方の背景ないし被写体が撮影される。以下、ユーザの前方の被写体に新規面談者がいる場合を前提として説明する。
 次に、定義済み処理(サブルーチン)である顔情報検出処理(ステップS420)が行われる。この顔情報検出処理(ステップS420)は、新規面談者の顔情報を取得する処理である。具体的には、ステップS420では、主制御部2の制御の下、映像部処理7の顔情報処理部73が、ステップS402で撮影された被写体の画像を解析することによって、新規面談者の顔情報を取得する。この処理により、新規面談者を識別する顔情報が得られる。
 ここで、ステップS420(顔情報検出処理)のより詳細な処理手順を、図6を参照して説明する。図6は、顔情報検出処理(ステップS420)のサブルーチンの処理手順を示すフローチャートである。
 以下に、図6に示す処理手順を、図3のブロック図および図4の機能ブロック図を参照して説明する。顔情報処理部73は、顔情報処理機能24を遂行するために、記憶部4のプログラム部41に格納されている顔認識方法のプログラムを読み出し、順次実行する。
 具体的には、顔情報処理部73は、ソフトウェアの起動やメモリのリセットなどの開始処理(ステップS421)の後、先ず、顔輪郭検出プログラムにより、撮影フレーム中の新規面談者の顔輪郭を検出する処理を行う(ステップS422)。
 続くステップS423において、顔情報処理部73は、顔輪郭検出処理(ステップS422)によって新規面談者の顔輪郭が検出されたか否かを判定する。
 ここで、顔情報処理部73は、新規面談者の顔輪郭が検出されていないと判定した場合(ステップS423:NO)、顔検出エラーを設定する顔検出エラー設定処理(ステップS428)に移行する。
 一方、顔情報処理部73は、新規面談者の顔輪郭が検出されていると判定した場合(ステップS423:YES)は、顔要素検出処理(ステップS424)に移行する。
 顔要素検出処理(ステップS424)では、顔情報処理部73は、顔要素検出部プログラムによって、顔の輪郭の内部の目、鼻、口、等の顔の要素を検出する処理を行う。
 続くステップS425において、顔情報処理部73は、顔輪郭検出処理(ステップS424)によって新規面談者の顔要素が検出されたか否かを判定する。
 ここで、顔情報処理部73は、顔輪郭検出処理(ステップS424)によって新規面談者の顔要素が検出されていないと判定した場合(ステップS425:NO)、顔検出エラーを設定する顔検出エラー設定処理(ステップS428)に移行する。
 一方、顔情報処理部73は、顔輪郭検出処理(ステップS424)によって新規面談者の顔要素が検出されていると判定した場合は、次の顔特徴量検出処理(ステップS426)に移行する。
 顔情報特徴量検出処理(ステップS426)では、顔情報処理部73は、顔特徴量検出プログラムによって、各要素の大きさ、位置、要素間の位置関係等の顔特徴量を検出する処理を行う。
 続くステップS427において、顔情報処理部73は、顔情報特徴量検出処理(ステップS426)によって新規面談者の顔特徴量が検出されたか否かを判定する。
 ここで、顔情報処理部73は、顔情報特徴量検出処理(ステップS426)によって新規面談者の顔特徴量が検出されていないと判定した場合(ステップS427:NO)、顔検出エラーを設定する顔検出エラー設定処理(ステップS428)に移行する。
 一方、顔情報処理部73は、顔情報特徴量検出処理(ステップS426)によって新規面談者の顔要素が検出されていると判定した場合(ステップS427:YES)、顔情報検出処理(ステップS420)を終了する(ステップS429)。
 また、顔検出エラー設定処理(ステップS428)では、顔情報処理部73は、顔検出エラーがどの段階で発生したかを明示し、顔情報検出処理(ステップS420)を終了する(ステップS429)。
 他の例として、上述した本顔情報検出処理(ステップS420)を、ネットワークサーバ32によって行う構成としてもよい。この場合、HMD1の主制御部2は、映像処理部7(撮像部71)で撮影された新規面談者の映像を、ネットワーク網33を介して、顔情報検出処理を行うネットワークサーバ32に送信するように、通信処理部6を制御する。続いて、HMD1の主制御部2は、ネットワークサーバ32により実行された顔情報の検出結果(のみ)を、ネットワーク網33を介して、ネットワークサーバ32から受信する。
 ここで、図5のフローチャートの処理手順の説明に戻る。顔情報処理部73は、上述した顔情報検出処理(ステップS420)に続くステップS403において、顔情報検出処理(ステップS420)によって新規面談者の顔情報が取得できたか否かを判定する。
 ここで、顔情報処理部73は、顔情報検出処理(ステップS420)の処理により新規面談者の顔情報が取得できなかったと判定した場合(ステップS403:NO)、保存すべき顔情報がないものと判断し、新規面談者情報処理(ステップS405)に移行する。
 一方、顔情報処理部73は、顔情報検出処理(ステップS420)の処理により新規面談者の顔情報が取得できたと判定した場合(ステップS403:YES)、顔情報保存処理(ステップS404)に移行する。
 顔情報処理部73は、顔情報保存処理(ステップS404)では、顔情報保存機能25(図4を参照)の遂行により、面談者の顔識別に係わる面談者の顔特徴量を、記憶部4のデータ記憶部42に保存する。次に、顔情報処理部73は、新規面談者情報取得処理(ステップS405)に移行する。
 新規面談者情報取得処理(ステップS405)は、新規面談者の付帯情報を取得する処理である。このステップS405において、顔情報処理部73は、新規面談者の氏名や年齢などの、新規面談者に関する付帯情報を取得する処理を行う。
 次に、顔情報処理部73は、新規面談者情報取得処理(ステップS405)によって新規面談者に関する付帯情報が取得できたか否かを判定する(ステップS406)。
 ここで、顔情報処理部73は、新規面談者に関する付帯情報が取得できなかったと判定した場合(ステップS406:NO)、図5に示す新規面談者処理(ステップS400)を終了する(ステップS408)。
 一方、顔情報処理部73は、新規面談者に関する付帯情報が取得できたと判定した場合(ステップS406:YES)、ステップS407に移行する。ステップS407において、顔情報処理部73は、面談者情報保存機能26(図4を参照)の遂行により、当該取得された新規面談者に関する付帯情報を、記憶部4のデータ記憶部42に保存し、この後、図5に示す新規面談者処理(ステップS400)を終了する(ステップS408)。
 なお、この新規面談者に関する付帯情報が、ネットワークサーバ32に保存されている場合は、HMD1は、主制御部2の制御の下、新規面談者に関する付帯情報を、ネットワーク網33を介して、ネットワークサーバ32から取得することもできる。この場合も、顔情報処理部73は、ネットワークサーバ32から取得された新規面談者に関する付帯情報を記憶部4のデータ記憶部42に保存した後に、新規面談者処理(ステップS400)を終了する(ステップS408)。
 図7は、記憶部4のデータ記憶部42に保存されている面談者情報の一例を示したテーブルである。
 図7に示す面談者テーブル(T840)は、人物(面談者など)の種別を示す人物欄860と、ユーザおよび各面談者(面談者1,面談者2,…面談者n)に関する情報(項目)を示す項目欄850と、が対応付けられた構成となっている。
 上記のうち、項目欄850は、顔情報851と、面談者に関する付帯情報852と、の二つの項目から構成されている。
 一方、人物欄860には、面談者(862~864)に加えて、ユーザ861が登録されている。なお、本来的には面談者の種別を示す人物欄860にユーザ861が存在するのは、比喩的に言うと、携帯電話におけるプロフィールのようなものである。また、ユーザ(861)の顔情報851は、例えば、鏡を用いた撮影(この場合、左右が反転した画像が得られる)、あるいは、いわゆる「自撮り」などによって取得できる。
 図7に示すような面談者テーブル(T840)は、ネットワーク網33を介して、ネットワークサーバ32に保存することもできる。特に、顔特徴量に関しては、顔特徴量から面談者を特定する処理に特化したネットワークサーバ32を活用することにより、面談者を特定する処理の高速化を図ることができる。
 本実施の形態では、図5、図6で上述した処理と、図7に示すようなデータ構造のテーブルを用いることによって、新規面談者の顔情報と、新規面談者に関する付帯情報を取得し、HMD1内に保存することができる。
 〔面談者識別・情報取得処理〕
 次に、面談者を識別し、面談者に関する付帯情報を取得する処理について説明する。図8は、本実施の形態における骨子である、面談者になり得るかどうかを判断し、面談者になり得る場合は、面談者に関する付帯情報を事前に取得する処理(面談者識別・情報取得処理)の手順を示すフローチャートである。
 図8の処理手順については、図3のブロック図および図4の機能ブロック図を参照して説明する。なお、以下の説明では、図8に示す各処理の主体を主制御部2として説明するが、処理の一部または全部を行動解析処理部74が行っても構わない。
 HMD1が起動されると、主制御部2は、面談者識別、情報取得等の処理を行うべく、速やかにその処理を開始(ステップS431)する。
 面談者識別・情報取得処理が開始(ステップS431)されると、主制御部2は、先ず、周囲撮影処理(ステップS432)を行う。これは、HMD1の周囲すなわちユーザ10の周囲の環境(風景ないし景色)を、撮影データ取得機能23により撮影し、撮影データを取得する処理である。
 ここで、取得する撮影データは、動画であっても静止画であってもよい。撮影データが動画である場合、静止画の場合と比較して、行動解析の精度が高くなることが期待できる。一方、撮影データが静止画である場合、動画の場合と比較して、HMD1の消費電力が抑えられることが期待できる。なお、行動解析の精度を一定以上に確保する観点からは、撮影データが静止画である場合、所定の周期毎に撮像すなわち静止画を取得すると良い。
 上記の処理を実行するため、主制御部2は、撮像部71による撮像を開始するように映像処理部7を制御する。このとき、映像処理部7は、撮像部71(カメラ)によって撮像し、撮像された画像を顔情報処理部73および行動解析処理部74によって解析し、解析結果を主制御部2に出力する。
 解析結果を映像処理部7から受信した後のステップS433において、主制御部2は、取得された画像(以下、「撮影データ」と称する)中に、人物が存在しているか否かを判定する。
 ここで、主制御部2は、撮影データ中に人物が存在していないと判定した場合(ステップS433、NO)、ステップS434の終了指示判別処理に移行する。
 一方、主制御部2は、撮影データ中に人物が存在していると判定した場合(ステップS433、YES)、ステップS900の面談候補者判定処理に移行する。
 ステップS900(面談候補者判定処理)において、主制御部2は、ユーザの周囲にいる人物が、面談者になりうるか否かを判定する。この判定は、行動解析処理部74による撮影データ中の人物の行動解析結果に基づき、その人物の注意がユーザに向けられていた場合に、面談者になりうる、と判定する。この判定のために、動画または静止画を追加で撮影してもよい。
 ここで、人物の注意がユーザに向けられている、と判断する条件は、例えば下記のような行為(人物の行動)が挙げられる。
(条件1)人物の視線方向がユーザの方向である。
(条件2)人物がユーザに対して手を挙げる等の挨拶行為を行っている。
(条件3)人物がユーザに向かって近づいて来ている。
 (条件4)人物がユーザの名前を呼んでいる、または自分(あるいは当該人物が所属する会社や組織など)の名前を発言している。
 上記のうち、条件4については人物の発声(音声)に基づく行動であるため、画像から取得(抽出)することは必ずしも容易でないと考えられる。より具体的には、例えば動画像中の人物の唇の動きを解析することによって、当該人物が発言した内容(発声音)を推定することはできる。一方で、昨今の社会情勢では、種々の病気(例えば新型コロナウイルス)に対する感染予防等を目的としてマスクを着用する事例が増えており、この場合、人物の唇の動きを解析することが困難になると考えられる。
 上記の事情を考慮して、実施の形態1では主として条件1~3について考察し、条件4に関しては実施の形態2および3で説明する。
 上述した条件1~3は、人物の身体の動作に基づく行動であり、概して「ユーザに対する関心を示す行動」と定義することができる。このため、主制御部2(行動解析処理装置)は、撮影データ(周囲情報)に含まれる人物の行動が、ユーザ10に対する関心を示す行動である場合に、当該人物は面談者になりうる(ステップS900、YES)と判定する。
 以下、面談者になりうる者(人物)を適宜、「面談候補者」と称して説明する。
 なお、上述した条件1~条件3は、あくまでも「ユーザに対する関心を示す行動」の例の一部を示したものであって、実際の運用では他にも様々な条件(人物の行動の態様)を加えることができる。
 さらに、例外的な処理(判定基準)として、主制御部2は、例えば上述した人感センサ56の検知結果に基づき、ユーザと人物の距離が予め定められた一定距離よりも近づいた場合は、上記の条件に関わらず、当該人物は面談候補者である(ステップS900、YES)と判定してもよい。これは、例えばユーザ10がマスクを着用している等により、相手の人物が、ユーザ10の近くに来て初めてユーザ10の素性に気が付くような場合もあり得るからである。
 また、別の例外的な処理(判定基準)として、主制御部2は、人物の注意がユーザに向けられていても(例えば条件1~3の全てを満たしている場合であっても)、面談候補者としない、すなわちステップS900でNOと判定する処理を行ってもよい。
 これは例えば、店舗における店員、会社の受付等の受付員等の施設における応対者、また、警備員等、職業的対応としてユーザに関心を向けているだけの場合などを考慮したものである。より具体的には、これらの人物については付帯情報を登録していないのが通常であり、これらの人物に対する付帯情報の取得の処理を行うと、真に必要な人物に対する付帯情報の取得が妨げられるおそれがあるためである。
 また、真に必要な人物に対する付帯情報の取得を優先する観点からは、自宅等、知っている人物としか対面しないような特定の場所では、図8に示す処理を行わない(当該機能を自動的に停止する)こととしてもよい。この場合、主制御部2は、GPS受信部51(図3を参照)の受信情報に基づいて、「特定の場所」であるか否かを判定すればよい。
 さらに、真に必要な人物に対する付帯情報の取得を優先する観点からは、家族等、頻繁に会う人物については、ステップS420およびステップS450の処理対象者から除外してもよい(いわゆる「除外対象人物」の設定)。また、ステップS420およびステップS450の処理を一度行った人物に関しては、一定期間はステップS420およびステップS450の処理を行わないようにしてもよい(いわゆる「表示停止期間」の設定)。
 上述した種々の例外的な処理の設定(いわゆる除外設定)は、例えばユーザが操作入力部9を操作することにより行えるようにすることができる。上述した種々の除外的な設定または除外処理を行うことにより、不必要な情報提示を抑制でき、真に必要な人物に対する付帯情報の取得を素早く取得することに貢献することから、利便性が向上する。
 主制御部2は、ステップS900の面談候補者判定処理で、周囲にいる人物が面談候補者ではない、と判断した場合は、ステップS434の終了指示判定処理に移行する。
 ステップS434において、主制御部2は、例えば操作入力部9からの入力信号を監視して、ユーザ10等により本実施の形態の処理終了が指示されたか否かを判定する。
 ここで、主制御部2は、処理終了が指示されたと判定した場合(ステップS434:YES)、図8に示すルーチン(面談候補者判定・情報取得処理)を終了する(ステップS436)。
 一方、主制御部2は、未だ処理終了が指示されていないと判定した場合(ステップS434:NO)、図8に示すルーチンを継続すべく、HMD1の周囲を撮影する周囲撮影処理(ステップS432)に戻る。
 かくして、主制御部2は、ステップS900の面談候補者判定処理で、周囲にいる人物が面談候補者である、と判定した場合(ステップS900:YES)、定義済処理(サブルーチン)である顔情報検出処理(ステップS420)を行う。
 なお、主制御部2は、面談候補者の情報取得前であっても、例えば図22Aに示すように、携帯情報端末が面談候補者を認識した旨の表示1100(図示の例では「面談候補者がいます」とのメッセージ表示)を行ってもよい。その際、主制御部2は、面談候補者の位置をユーザに知らせるため、当該人物を示すマーク1101を重畳的に表示してもよい。マーク1101につき、図示の例では面談候補者としての人物15の周囲を囲う図形を表示しているが、例えば人物15を指し示す「矢印」など、他の図形であってもよい。
 また、顔情報検出処理(ステップS420)の詳細については、図6のフローチャートで説明したので、ここでの説明は省略する。
 主制御部2は、顔情報検出処理(ステップS420)の終了後に、定義済み処理(サブルーチン)である面談者情報処理(ステップS450)を行う。この面談者情報処理(ステップS450)は、面談者の識別と、該当面談者に関する付帯情報を取得する処理である。
 主制御部2は、面談者情報処理(ステップS450)の終了を待って、本実施の形態の面談者識別・情報取得処理を終了する(ステップS436)。
 ここで、面談者情報処理のより具体的な内容(ステップS450のサブルーチンの処理)について説明する。図9は、サブルーチンである面談者情報処理(ステップS450)の処理手順を示すフローチャートである。かかる図9に示す処理手順について、適宜、図3のハードウェアブロック図および図4の機能ブロック図を参照して説明する。
 主制御部2は、ステップS450の処理(面談者情報処理)が開始(ステップS451)されると、先ず、顔情報検出処理(ステップS420)において検出された顔情報が、既知の面談者の顔情報であるか否かを判定する(ステップS452)。
 この例では、主制御部2は、顔情報検出処理(ステップS420)において検出された顔情報(顔特徴量)と、顔情報保存機能25により保存されている顔情報(顔特徴量)とを比較し、酷似する場合(例えば、顔の外形(輪郭)の一致度が予め設定された閾値内で一致している場合)は、既知面談者として判別する。なお、近年では、感染症予防等のためにマスク着用者が増えていることから、マスク着用者については、主制御部2は、顔の外形(輪郭)のうち、マスク部分以外の顔の外形(輪郭)の一致度が上記の閾値内であるか否かを判定する。
 主制御部2は、ステップS452でNOと判定された場合、すなわち検出された顔情報(顔特徴量)と保存されている顔情報(顔特徴量)とが一致しなかった場合、あるいは、顔情報検出処理(ステップS420)において、人物が特定できるほどの顔情報が検出できなかった場合は、既知面談者ではないと判断して、ステップS400に移行する。
 一方、主制御部2は、ステップS452でYESと判定された場合、すなわち検出された顔情報(顔特徴量)と保存されている顔情報(顔特徴量)とが一致した場合、ステップS453に移行する。主制御部2は、ステップS453において、面談者情報保存機能26により保存されている既知面談者に関する付帯情報を取得し、ステップS454に移行する。
 主制御部2は、ステップS454において、既知面談者に関する付帯情報に修正が必要か否かを判定する。
 ここで、主制御部2は、既知面談者に関する付帯情報に修正が必要でないと判定した場合(ステップS454:NO)、面談者情報出力処理(ステップS457)に移行する。
 一方、主制御部2は、既知面談者に関する付帯情報に修正が必要であると判定した場合(ステップS454:YES)、修正後の面談者情報を保存する面談者修正情報保存処理(ステップS455)に移行する。
 面談者修正情報保存処理(ステップS455)では、主制御部2は、面談者情報保存機能26にて保存された面談者情報を修正し、修正後の面談者情報を保存する。主制御部2は、面談者修正情報保存処理(ステップS455)の終了後、面談者情報出力処理(ステップS457)に移行する。
 これに対して、ステップS452の判別処理で、既知面談者でないと判定された場合(ステップS452:NO)、面談者に関する情報が無いので、新規に面談者に関する情報を取得する必要がある。そこで、主制御部2は、本実施の形態の新規面談者処理(ステップS400)を行う。なお、新規面談者処理(ステップS400)の詳細については、図5のフローチャートで説明したので、ここでの説明は省略する。
 次に、主制御部2は、新規面談者処理(ステップS400)にて、面談者情報が得られたか否かを判定する(ステップS456)。
 ここで、主制御部2は、新規面談者情報が得られたと判定した場合(ステップS456:YES)、面談者情報出力処理(ステップS457)に移行する。なお、新規面談者処理(ステップS400)において、面談者に関する付帯情報が取得できた場合は、新規面談者情報が保存済みであることから、面談者情報出力処理(ステップS457)に移行することができる。
 面談者情報出力処理(ステップS457)では、主制御部2は、面談者に関する付帯情報を面談者情報出力機能27により、外部に出力する。本実施の形態では、主制御部2は、映像処理部7の表示部72に面談者の情報1102を表示出力する(図22Bを参照)。
 主制御部2は、面談者情報出力処理(ステップS457)の終了後、面談者情報処理(ステップS450)を終了する(ステップS458)。また、主制御部2は、ステップS456の判断処理で、面談者情報が得られなかったと判断した場合も、面談者情報処理(ステップS450)を終了する(ステップS458)。
 本実施の形態では、新規面談者の顔情報及び新規面談者に関する付帯情報を予め取得・保存している。そして、主制御部2は、ユーザが認識する前に、周囲にいる人物が面談者となり得るか否を、その人物の行動解析により判定し、面談者となり得ると判定した場合は、付帯情報としての当該人物に関する名前等の文字情報を、表示画面75に表示することでユーザ10に提示する(図22B等を参照)。
 他の例として、保存および提示する付帯情報は、イラスト等の図形情報でもよく、あるいは右スピーカ821や左スピーカ822からの出力を利用した音声情報でもよい。
 このように、実施の形態1のHMD1(携帯情報端末は、当該端末およびユーザ10の周囲情報を取得する周囲情報取得装置(センサ部5、撮像部71、音声入力部81)と、取得された周囲情報に含まれる人物の行動を解析することにより、ユーザ10への面談候補者(ユーザに面談しようとしている人物)がいるか否かを判定する行動解析処理装置(主制御部2、行動解析処理部74)と、面談候補者がいると判定された場合、当該人物に対応する付帯情報をユーザ10に提示する情報提示装置(表示部72)と、を備える。
 かかるHMD1によれば、面談相手の付帯情報をユーザ10へより迅速に提供することができ、ユーザ10が当該人物を面談者として認識した時点では、面談者に関する付帯情報をユーザ10が知っている状態となっている。
 したがって、本開示のHMD1によれば、従来装置で問題となっていたタイムラグの問題、すなわち、相手に関する情報が無いまたは不足した状態で面談を開始し、対面当初において話が噛み合わない等の不都合が生じる等の問題を、有効に防止することができる。
 <<実施の形態2>>
 以下では、本開示の実施の形態2について説明する。なお、実施の形態2の基本的なハードウェア構成及びソフトウェア構成は前述の実施の形態1と同様であり、以下では、本実施の形態(実施の形態2)と前述の実施の形態1との相違点に関して主に説明し、共通する部分は重複を避けるため極力説明を省略する。
 前述の実施の形態1では、面談者の顔情報を用いて面談候補者の識別を行った。これに対して、本実施の形態では、人物の音声情報を加味して、面談候補者の識別を行う。以下、本実施の形態について説明する。
 [実施の形態2のシステム構成例]
 図10は、本実施の形態で使用する本HMD1における内部構成の一例を示すシステム構成図である。図10に示すシステム構成図は、図3のシステム構成図とほぼ同じであり、図3のシステム構成図に、音声情報処理部83が追加されている。ここでは、専ら音声情報処理部83の構成について説明する。
 音声情報処理部83は、音声入力部81から入力された面談者の音声から、音声情報を抽出する処理を行う機能を遂行する。一具体例では、音声情報処理部83は、主制御部2とは別個のハードウェアプロセッサを使用し、主制御部2の制御下において上記機能を遂行する。なお、音声情報処理部83が実行する処理の詳細については後述する。
 [本実施の形態の機能ブロック]
 図11は、本実施の形態のHMD1における機能ブロック構成の一例を示す機能ブロック図である。
 図11に示す機能ブロック図は、既に説明した図4に示す機能ブロック図とほぼ同じであり、図4の機能ブロック図に、音声情報処理機能28と、音声情報保存機能29とを追加したものである。以下は、追加された音声情報処理機能28と、音声情報保存機能29とについて説明する。
 音声情報処理機能28は、音声入力部81から入力された面談者の音声から、音声情報処理部83により音声情報を解析し、面談者を判別する機能であり、図10で上述した音声情報処理部83に奏される機能の一つである。
 音声情報保存機能29は、音声情報処理機能28で得られた面談者を判別する音声情報を、記憶部4のデータ記憶部42に保存する機能である。
 [実施の形態2の処理手順]
 図12は、本実施の形態における新規面談者の音声情報を加味した情報を取得する新規面談者処理(ステップS460)の手順を示すフローチャートである。以下、図12の処理手順について、図11の機能ブロック図を参照して説明する。
 本新規面談者処理(ステップS460)の実行にあたっては、個人情報保護の観点から、予め新規面談者の了解が得られていることが望ましい。但し、かかる了解事項は、技術的な制限事項を意味するものではない。
 図12の新規面談者処理(ステップS460)の手順を示すフローチャートは、図5の新規面談者処理(ステップS400)の手順を示すフローチャートとほぼ同じである。異なる点は、定義済みサブルーチンである音声情報検出処理(ステップS470)と、音声情報検出処理(ステップS470)の検出結果を判断する判断処理(ステップS462)と、音声情報検出処理(ステップS470)で得られた音声情報を保存する保存処理(ステップS463)と、が追加されている点である。ここでは、図12で追加された処理についてのみ説明する。
 本実施の形態における新規面談者処理(ステップS460)が開始された場合(ステップS461)、図5と同等の処理(ステップS402~ステップS404)を実行し、顔情報に関する処理が終了する。
 ここで、サブルーチンであるステップS470の処理(音声情報検出処理)について、説明する。図13は、サブルーチンである音声情報検出処理(ステップS470)の処理手順を示すフローチャートである。以下、図13の処理手順について、図11の機能ブロック図を参照して説明する。
 音声情報処理部83は、音声情報処理機能28の機能を遂行すべく、主制御部2の制御の下、記憶部4のプログラム部41に格納されている音声認識方法のプログラムを読み出し(ステップS471)、ステップS472以下の処理を順次実行する。
 ステップS470の処理(音声情報検出処理)が開始されると、先ず、音声情報処理部83は、音が検出されたか否かを判定する(ステップS472)。
 ここで、音声情報処理部83は、音が検出されなかったと判定した場合(ステップS472:YES)、音声検出エラー設定処理(ステップS477)に移行する。一方、音声情報処理部83は、音が検出されたと判定した場合(ステップS472:NO)、ステップS473(音源分離処理)に移行する。
 ステップS473(音源分離処理)において、音声情報処理部83は、音の発生方向を確認し、音源の位置を特定(分離)する。本実施の形態では、新規面談者が声を発声する口の位置が、音源位置となる。
 続くステップS474において、音声情報処理部83は、音源を特定(分離)した音が、人間の音声であるか否かを判定する。なお、人間の音声であるか否かは、例えば、音の周波数帯域、波形の特徴などから判定(識別)することが可能である。かかる技術は公知であるため、詳細な説明を省略する。
 ここで、音声情報処理部83は、人間の音声ではないと判定した場合(ステップS474、NO)、音声検出エラー設定処理(ステップS477)に移行する。一方、音声情報処理部83は、人間の音声であると判定した場合(ステップS474、YES)、音声特徴量検出処理(ステップS475)に移行する。
 音声特徴量検出処理(ステップS475)において、音声情報処理部83は、個人に起因する要素(話し方、くせ、イントネーション等)を、音声特徴量として抽出する。なお、個人の特徴を識別できる手法であれば、他の手法(例えば、特定の珍しい言語が抽出されたような場合に特定人を識別する等)を用いてもよい。
 続くステップS476において、音声情報処理部83は、音声特徴量検出処理(ステップS475)の処理結果から、個人の特徴(この例では音声特徴量)を検出できたか否かを判定する。
 ここで、音声情報処理部83は、音声特徴量を検出できなかったと判定した場合(ステップS476、NO)、音声検出エラー設定処理(ステップS477)に移行する。
 一方、音声情報処理部83は、音声特徴量を検出できたと判定した場合(ステップS476、YES)、本音声情報検出処理(ステップS470)を終了する(ステップS478)。
 音声検出エラー設定処理(ステップS477)において、音声情報処理部83は、音声検出エラーがどの段階で発生したかを明示するように表示部72に表示させる。この後、音声情報検出処理(ステップS470)を終了する(ステップS478)。
 本音声情報検出処理(ステップS470)の他の例として、HMD1は、取得された新規面談者の音声を、ネットワーク網33を介して、音声情報検出処理を行うネットワークサーバ32に送信し、ネットワークサーバ32にて音声情報検出処理を行うこともできる。その際、HMD1は、主制御部2の制御の下、上述した通信処理部6が、音声情報の検出結果のみを、ネットワーク網33を介して、ネットワークサーバ32から受信する。
 また、HMD1の主制御部2は、通信処理部6を通じて、顔情報検出処理と、音声情報検出処理を、それぞれ別のネットワークサーバ32に行わせることもできる。
 ここで、図12の処理手順に戻って、主制御部2または音声情報処理部83の行う処理についての説明を継続する。主制御部2(または音声情報処理部、以下、S464までの処理主体につき同様)は、音声情報検出処理(ステップS470)の次に、音声情報検出処理(ステップS470)により、新規面談者の音声情報が取得できたかどうかを判断する(ステップS462)。
 主制御部2は、ステップS462の判断処理で、音声情報検出処理(ステップS470)の処理により新規面談者の音声情報が取得できなかったと判断した場合は、保存すべき音声情報がないので、新規面談者情報取得処理(ステップS405)に移行する。
 主制御部2は、ステップS462の判断処理で、音声情報検出処理(ステップS470)の処理により新規面談者の音声情報が取得できたと判断した場合は、音声情報保存処理(ステップS463)に移行する。
 主制御部2は、音声情報保存処理(ステップS463)では、面談者の音声識別に係わる面談者の音声特徴量を音声情報保存機能29により、記憶部4のデータ記憶部42に保存する。次に、主制御部2は、新規面談者情報取得処理(ステップS405)に移行する。
 主制御部2は、新規面談者情報取得処理(ステップS405)以降の処理については、図5のフローチャートと同等の処理(ステップS406、S407)を行い、本実施の形態の新規面談者処理(ステップS460)を終了する(ステップS464)。
 図14は、本実施の形態で保存されている面談者情報の1例を示したテーブル(T870)である。図14に示す面談者テーブル(T870)は、面談者(人物)の種別860と、各面談者に関する情報項目850で構成されている。
 各面談者に関する情報項目850は、顔情報851と、音声情報853と、面談者に関する付帯情報852の三つから構成されている。面談者(人物)の種別860には、面談者(862~864)に加えて、ユーザ861が存在している。
 面談者種別にユーザ861が存在するのは、携帯電話におけるプロフィール的意味合いと、新規面談者との会話中に、ユーザの音声情報と新規面談者の音声を分離する意味合いを有している。
 この面談者テーブル(T870)は、ネットワーク網33(図1を参照)を介してHMD1からネットワークサーバ32に送信し、ネットワークサーバ32の記憶媒体に保存することもできる。特に、顔特徴量や音声情報に関して、顔特徴量や音声特徴量から面談者を特定する処理に特化したネットワークサーバ32を活用することにより、HMD1で面談者を特定する処理の高速化を図ることができる。
 以上、本実施の形態では、図12から図13の処理と、図14のテーブルにより、音声情報を加味した新規面談者の情報を取得し、保存することができる。
 <面談者識別・情報取得処理>
 次に、面談者を識別し、面談者に関する付帯情報を取得する処理について説明する。図15は、本実施の形態の骨子である、音声情報を加味して面談者になり得るかどうかを判断し、面談者になり得る場合は、面談者に関する付帯情報を事前に取得する処理(面談者識別・情報取得処理)の手順を示すフローチャートである。図15の処理手順の説明には、図11の機能ブロック図を参照して説明する。
 図15に示す実施の形態2のフローチャートは、図8で上述した実施の形態1のフローチャートとほぼ同じであり、面談者情報処理の処理内容が異なっている。この点、区別のため、実施の形態2の面談者情報処理については、実施の形態1(ステップS450)とは異なるステップ番号(ステップS490)で示す。
 また、実施の形態2では、定義済みサブルーチンである音声情報検出処理(ステップS470)が追加されていることが実施の形態1と異なっている。なお、音声情報検出処理(ステップS470)の詳細については、図13のフローチャートで説明しているので、再度の説明は省略する。
 図16は、実施の形態2の面談者情報処理(ステップS490)の処理手順の詳細を示すフローチャート(サブルーチン)である。図16に示す処理手順の詳細については、図10のハードウェアブロック図および図11の機能ブロック図を参照して説明する。
 図16に示す実施の形態2のフローチャートは、図9で上述した実施の形態1のフローチャートとほぼ同じであり、既知の面談者か否かを判定(判別)する処理の内容が異なっている。この点、区別のため、実施の形態2の判定(判別)処理については、実施の形態1(ステップS452)とは異なるステップ番号(ステップS492)で示す。
 また、実施の形態2では、新規面談者処理が実施の形態1とは異なっており、かかる新規面談者処理につき、区別のため、実施の形態1でのステップ番号(ステップS400)とは異なるステップ番号(ステップS460)で示す。
 ステップS490の処理(面談者情報処理)が開始(ステップS491)されると、先ず、顔情報検出処理(ステップS420)において検出された顔情報により、既知の面談者か否かが判別される(ステップS492)。
 より具体的には、顔情報処理部73は、顔情報検出処理(図6のステップS420)において検出された顔情報(顔特徴量)と、顔情報保存機能25により保存されている顔情報(顔声特徴量)とを比較し、予め設定された閾値内で一致した場合、既知の面談者であると判定する(ステップS492、YES)。
 他の例では、音声を取得できた場合、主制御部2は、音声情報検出処理(ステップS470)において検出された音声情報(音声特徴量)と、音声情報保存機能29により保存されている音声情報(音声特徴量)とを比較し、予め設定された閾値内で一致した場合、既知の面談者であると判定する(ステップS492、YES)。
 ここでは、顔情報の一致もしくは音声情報一致のみで、既知面談者と判断することもできるし、顔情報と音声情報の両方が一致することにより、既知面談者と判断することもできる。顔情報も音声情報も一致しない場合、または、人物が特定できるほどの顔情報も音声情報も検出できていない場合は、既知面談者ではないと判定し(ステップS492、NO)、ステップS460に移行する。
 なお、ステップS460(新規面談者処理)の詳細については、図12のフローチャートで説明したので、ここでの説明は省略する。
 かくして、既知の面談者であると判定された場合(ステップS492、YES)、図9で述べたステップS453~ステップS457の処理を実行し、本実施の形態の面談者情報処理(ステップS490)を終了する(ステップS493)。
 以上のように、本実施の形態の構成によれば、音声情報を加味した面談者候補の識別を行うことができ、面談相手の情報提供の精度の向上を実現できる。
 <<実施の形態3>>
 以下では、本発明の実施の形態3について説明する。なお、実施の形態3の基本的なハードウェア構成及びソフトウェア構成は前述の実施の形態と同様であり、以下では、本実施の形態(実施の形態3)と前述の実施の形態との相違点に関して主に説明し、共通する部分は重複を避けるため極力説明を省略する。
 前述の実施の形態では、ユーザが眼鏡形状のHMDを装着していることを前提とし、かつ面談者を認識するには、面談者がユーザの前方に存在することを前提として説明した。本実施の形態では、ユーザが眼鏡形状のHMDを装着していることを前提とする一方で、面談者が後方に存在するなど、ユーザが容易に面談(候補)者を認識することが難しい場合について検討する。以下、本実施の形態を説明する。
 〔動作等の概要〕
 図17は、本実施の形態の背景を説明するための模式図である。上述した図1と比較して分かるように、図17では、眼鏡形状のHMD1を装着したユーザ10の視線方向19(図中の点線矢印を参照)およびユーザ10の視界に、面談者が存在していない状態を示している。また、図17では、ユーザ10の後方(背後)から面談相手16が近づいて来て、ユーザ10が面談相手16の存在を認識するよりも早く、面談相手16がユーザ10の存在を認識し、吹き出しで示す「オーイ」という音声14を発している状態を示している。
 本実施の形態において、HMD1は、図17に示すような情景において、「オーイ」という音声14に応答してHMD1が起動し、起動後速やかにHMD1の周囲の映像および音声を解析する処理を行い、人物16を認識する構成を備える。
 ここで、HMD1は、周囲の映像および音声を解析する処理として、人物16が面談者となり得るか否か(面談候補者であるか否か)を判定し、面談者となり得る場合は、当該人物16に関する付帯情報を取得し、取得された当該付帯情報を表示画面75に表示する。図17に示す例では、HMD1は、人物16に関する付帯情報としての氏名(山田次郎)17を表示画面75に表示している。
 また、HMD1は、図17に示すように、アクセスポイント31を介して、ネットワークサーバ32が接続されたネットワーク網33に接続している。ここで、ネットワークサーバ32には、各種演算処理を行うネットワークサーバや、各種データを保存するネットワークサーバなどがあり、必要に応じてHMD1が活用することができる。
 一具体例では、主制御部2は、通信処理部6(通信装置)を介して、HMD1の行動解析処理部74(行動解析処理装置)の処理を外部のサーバ(ネットワークサーバ32)に行わせるように制御することができる。
 このような構成とすることにより、HMD1全体のリソースを効率的に使うことができるので、処理速度が向上し、ひいてはユーザに対し、迅速に必要な情報を提示することにつながる。
 〔付帯情報を取得する処理〕
 次に、面談者を識別し、面談者に関する付帯情報を取得する処理について説明する。
 図18は、本実施の形態の骨子である、音声情報により、面談者になり得るかどうかを判断し、面談者になり得る場合は、面談者に関する付帯情報を事前に取得する処理(面談者識別・情報取得処理)ステップS500の手順を示すフローチャートである。図18の処理手順の説明には、図11の機能ブロック図を参照して説明する。
 図18の処理手順を示すフローチャートは、図15の手順を示すフローチャートとほとんど同じであり、定義済みサブルーチンである音声情報単独処理(ステップS510)が追加されている。
 面談者識別・情報取得処理(ステップS500)が開始(ステップS501)されると、図15のフローチャートと同じ処理が行われるが、HMD1は、画像情報から周囲に人がいないと判断した場合(ステップS433、NO)、および画像情報から周囲に面談候補者がいないと判断した場合(ステップS900、NO)に、サブルーチンである音声情報単独処理(ステップS510)を実行する。
 ここで、サブルーチンであるステップS510の処理(音声情報単独処理)について説明する。図19は、サブルーチンである音声情報単独処理(ステップS510)の処理手順を示すフローチャートである。図19の処理手順の説明には、図11の機能ブロック図を参照して説明する。
 図19に示す実施の形態3の音声単独処理(ステップS510)は、図13(実施の形態2)で示した音声情報検出処理(ステップS470)とほとんど同じである。異なる点は、実施の形態3では、図13と比較して、ステップS476の判定処理がないこと、および、面談候補者判定(ステップS901)と、サブルーチンである面談者情報処理(ステップS490)が追加されている点である。
 HMD1は、音声単独処理(ステップS510)の開始(ステップS511)の後は、ステップS472からステップS474までは、図13で上述した処理と同一の処理を行う。また、ステップS477の音声検出エラー設定処理についても上述と同様である。
 ステップS474に続くステップS901において、HMD1は、当該音声の主が面談候補者の音声であるか否かを判定する。一具体例では、ステップS901において、HMD1は、音声の内容がユーザへの呼びかけである可能性があるかどうかの判断を行う。
 ここで、音声の内容がユーザへの呼びかけである可能性がある場合としては、例えば、
(1)ユーザの名前が含まれている場合、
(2)人に対する呼びかけの声である場合(例えば、「あ、そこの貴方」、「もしかして君は」などの呼びかけの場合)、
が挙げられる。
 したがって、上記(1)または(2)の場合であれば、HMD1は、当該音声の主が面談候補者の音声である(ステップS901、YES)と判定する。この場合、HMD1は、図13で上述した音声特徴検出処理(ステップS475)へ移行する。
 一方、ステップS901の面談候補者判定で、音声の主が、面談候補者のものでないと判定された場合(ステップS901、NO)は、本ルーチンの終了処理に移行する(ステップS512)。
 音声特徴検出処理(ステップS475)の後、HMD1は、図16のサブルーチンで上述した面談者情報処理(ステップS490)を実行し、その後、音声単独処理(ステップS510)を終了する(ステップS512)。
 上述した音声単独処理(ステップS510)を行う実施の形態3のHMD1によれば、画像情報から面談候補者が判定できない状態であっても、音声情報のみで面談候補者を判断し、面談候補者に関する付帯情報を取得することができる。したがって、例えば人混みで人物の画像が完全に取得できない場合や、上述の撮像部71が故障したような場合でも、面談候補者に関する情報を取得できる。
 <<実施の形態4>>
 以下は、本発明の実施の形態4に関して説明する。なお、実施の形態4の基本的なハードウェア構成及びソフトウェア構成は前述の実施の形態1~3と同様であり、以下では、本実施の形態(実施の形態4)と前述の実施の形態1~3との相違点に関して主に説明し、共通する部分は重複を避けるため極力説明を省略する。
 前述の実施の形態1~3では、眼鏡形状のHMDを装着している場合を前提とした。これに対して、実施の形態4では、眼鏡形状以外のHMDを装着した場合について検討する。以下、本実施の形態を説明する。
 図20は、実施の形態4で使用されるHMDの一例を示す外観図である。図20に示すHMD100は、ゴーグル状の筐体(以下、単に「ゴーグル」とも称する)および外形を有し、HMD装着ベルト180を備えている。そして、図20に示すように、ユーザ101は、HMD装着ベルト180を後頭部に掛けることによって、HMD100を当該ユーザ101の頭部に装着する。
 HMD100は、ゴーグルの前面に表示画面(画像を表示するディスプレイ)175を配置し、ゴーグルの前面の左端寄りおよび右端寄りに、左カメラ172および右カメラ171を各々配置している。
 また、HMD100では、ユーザ101の耳に対応する位置に、左右のスピーカを各々配置している。なお、図20では、左スピーカ182を示しており、右スピーカについてはユーザ101の陰となるため図示していない。
 図20に示す例では、左スピーカ182の近傍に、上述した左カメラ172とは別のカメラである左横カメラ173を配置している。また、図示しないが、HMD装着ベルト180には、ユーザ101の後頭部に対応する位置に、上記カメラ(171,172,173)とは別のカメラである後方カメラを配置している。さらに、図示しないが、上述した右カメラ171とは別のカメラである右横カメラも、上述した右スピーカの近傍に配置している。
 このように、本実施の形態では、カメラを追加ないし増設することにより、ユーザ101の周囲を撮影する範囲を拡大することができる。特に、ユーザ101の後面側に後方カメラを設置することにより、図17で説明したような位置関係であっても、ユーザ101が後ろに振り向くことなしに、後面側にいる人物16を顔情報で識別することができる。
 実施の形態4では、カメラを増設し、ユーザ101の周囲を撮影する範囲を拡大したことを特徴としている。言い換えると、実施の形態4では、周囲情報取得装置として、映像を取得する複数のカメラを含み、各カメラが、ユーザ101の視界よりも広い範囲の映像を取得するように配置されている。
 このように、周囲情報取得装置としてのデバイスがユーザ101の視界が及ばない範囲の周囲情報を取得できるように配置された構成によれば、ユーザ101が気付かない位置にいる面談候補者を捕捉できる確率が向上し、利便性も向上する。
 また、ここでは周囲情報取得装置のデバイスとしてカメラを使用する例を挙げたが、他の例として、例えば測距センサ55や人感センサ56(図3を参照)を複数配置する構成としてもよい。
 <<実施の形態5>>
 以下では、本発明の実施の形態5に関して説明する。なお、実施の形態5の基本的なハードウェア構成及びソフトウェア構成は前述の実施の形態と同様であり、以下では、本実施の形態(実施の形態5)と前述の実施の形態との相違点に関して主に説明し、共通する部分は重複を避けるため極力説明を省略する。前述の実施の形態1~4では、面談候補者が一人の場合を想定した。これに対し、実施の形態5では、面談候補者が複数人いる場合について検討する。以下、本実施の形態を説明する。
 図21は、本実施の形態の骨子である、面談者になり得るかどうかを判定し、面談者になり得る場合は、面談者に関する付帯情報を事前に取得する処理(面談者識別・情報取得処理)の手順を示すフローチャートである。
 図21に示す面談者識別・情報取得処理は、図8で上述した面談者識別・情報取得処理とほぼ同じであり、異なる点は、面談者となり得る人物が複数かどうかの判別処理(ステップS522)と、優先度判定処理(ステップS523)が追加されていることである。
 本実施の形態の面談者識別・情報取得処理が開始(ステップS521)されると、HMD1は、図8で説明したステップS432(周囲撮影処理)、ステップS433(人物存在有無の判定処理)およびステップS900(面談者候補か否かの判定処理)を行う。
 そして、HMD1は、面談候補者であると判定した場合(ステップS900、YES)、ステップS522に移行する。ステップS522において、HMD1は、面談候補者である旨が検出された人物の数が、一人であるか複数人であるかを判別する。
 ステップS522において、HMD1は、検出された人物が一人である場合(ステップS522、NO)は、他の実施の形態と同様に、顔情報検出処理(ステップS420)および面談情報処理(ステップS450)を行った後に本ルーチンを終了させる。
 一方、ステップS522において、HMD1は、面談候補者であると検出された人物(以下、単に「面談候補者」と称する場合がある)が複数人である場合は、優先度判定処理(ステップS523)に移行する。
 ここで、優先度判定処理の意義について説明する。HMD1内のプロセッサの処理速度やRAM等のリソースなどに余裕がある場合は、面談候補者が複数であっても全ての者に対応し得るとも考えられる。
 しかしながら、実際にはハードウェア資源に余裕がない場合が多いと考えられ、特に、HMD1本来の機能を遂行している場合(例えば所定のコンテンツの動画を再生している場合など)、全ての面談候補者の情報を取得しようとすると処理時間が長くなる。このような処理時間の長期化は、対面者のうちの少なくとも一人がユーザに対面し、面談(会話等)が始まってしまい、上述した問題(相手の名前等を言えないユーザの心理的負担が増える等)を招来しかねない。
 本発明者らは、上記のような問題に鑑みて、面談候補者が複数人いる場合、情報取得の対象となる人物を絞る、あるいは順序付けることが有効であるとの着想を得て、優先度を判定する構成を設けた。
 具体的には、優先度判定処理(ステップS523)において、HMD1は、面談者となり得る複数の人物について、最も面談者となり得る可能性の高い人物ないし最も重要であると考えられる人物を、優先人物として特定する。
 より詳細には、ステップS523において、HMD1は、例えば、
(A)人物の視線方向が、ユーザの方向である。
(B)人物がユーザに対して手を挙げる等の挨拶行為を行っている。
(C)人物がユーザに近づいて来ている。
(D)ユーザ迄の距離が近い。
等の各行為について、予め定められた重み付けを行って優先度を判定し、最も優先度の高い人物を優先人物として特定する。
 優先度判定処理(ステップS523)が実行された場合、候補となる人物が一人に絞られることにより、他の実施の形態と同様の状態となる。したがって、HMD1は、この後、他の実施の形態と同様に、顔情報検出処理(ステップS420)および面談情報処理(ステップS450)を順次行った後に本ルーチンを終了する。
 重み付けの設定例の一例として、HMD1は、ステップS523において、上記(A)~(D)のうち、(D)すなわち最も距離が近い人を優先人物として特定する。かかる処理により、複数の面談候補者のうち、面談(対話)が最も早く始まる可能性の高い者が優先人物として特定されるので、ユーザは当該人物の情報を一早く知ることができる(ステップS450も参照)。
 重み付けの設定例の他の一例では、HMD1は、ステップS523において、上記(A)~(D)のうち、(B)すなわち人物がユーザに対して手を挙げる等の挨拶行為を行っている人を優先人物として特定する。これは、面談者が複数いる事例において、当該面談者が上司と部下の場合には、通常は上司(地位が高い者)が挨拶行為を行うと考えられること、および必ずしも上司が先頭に立っているとは限らず、むしろ部下が先導している場合があることを考慮したものである。
 上述した重み付けの設定は、予めユーザが操作入力部9の操作等を通じて任意に設定できるようにしておくとよい。
 また、図21に示す例では、一人の者のみの情報を取得する構成とした。他の例として、面談候補者が複数人である場合、優先度判定処理(ステップS523)を通じて特定された優先度の高い順に、ステップS420およびステップS450の処理を順次行うようにしてもよい。このような処理を行うことにより、HMD1のハードウェア資源の有効活用を図りながら、全ての面談候補者の情報を優先度(言い換えると重要度)の高い順にユーザに提示することができる。
 さらに他の例として、面談候補者が複数人である場合、優先度判定処理(ステップS523)を通じて特定された優先度の高い順に、かつ、予め定められたN(Nは1以上の整数)人分だけ、ステップS420およびステップS450の処理を行うようにしてもよい。このような処理は、例えば面談候補者の数が多いような場合に有効であり、HMD1のハードウェア資源の有効活用を図りながら、一定数の面談候補者の情報を優先度(言い換えると重要度)の高い順にユーザに提示することができる。
 さらに、優先順位を付ける処理の変形例として、図22A、図22B、および図23に示すように、面談候補者が遠くにいる段階では情報の簡略表示を行い(図22A)、面談候補者が近づいてきたら詳細表示を行う(図22B)、という処理を行ってもよい。
 図23を参照すると、HMD1は、遠くにいる人物15a、15cに関しては、簡略情報1103a、1103c(この例では名前だけ)を表示し、近くにいる人物15bについては詳細情報1104b(この例では名前およびそれ以外の各種情報)を表示する。
 このように、表示(すなわちユーザに提示ないし報知)する情報の詳細度を、面談候補者(対象人物)の距離に応じて変更する構成を設けることにより、より情報の欲しい人物の情報にユーザの注意を集中させることができ、利便性が高まる。
 このような変形例の処理を行う場合、全ての面談候補者(対象人物)について他の実施の形態と同等の処理を行った後、本実施の形態の面談者識別・情報取得処理を終了(ステップS524)すればよい。
 上述したように、実施の形態5の構成により、面談者となり得る候補が複数存在した場合でも、迅速に対応することができる。
 以上、詳述したように、本開示の携帯情報端末(HMD1,100)は、当該端末およびユーザ10の周囲情報を取得する周囲情報取得装置(センサ部5、撮像部71、音声入力部81)と、取得された周囲情報に含まれる人物の行動を解析することにより、ユーザ10への面談候補者(ユーザに面談しようとしている人物)がいるか否かを判定する行動解析処理装置(主制御部2、行動解析処理部74)と、面談候補者がいると判定された場合、当該人物に対応する付帯情報をユーザ10に提示する情報提示装置(表示部72)と、を備える。
 上記の構成を備える携帯情報端末(HMD1,100)によれば、面談相手の付帯情報をユーザ10へより迅速に提供することができ、ユーザ10が当該人物を面談者として認識した時点では、面談者に関する付帯情報をユーザ10が知っている状態となっている。
 また、上述した携帯情報端末(HMD1,100)は、撮像部71により撮像されている映像、人物を含む対象物までの距離が測距センサ55により測距されている距離情報、音声入力部81により収音されている音声、のいずれか一つ以上を周囲情報として取得する構成を有する。
 かかる構成によれば、周囲情報取得装置は、種々の情報の長所、HMD1(100)のリソース(本来の機能の実行状態等)を考慮した周囲情報の取得を行うことができ、ひいては、面談相手の付帯情報をユーザ10へより迅速に提供することを実現できる。
 また、上述した携帯情報端末(HMD1,100)は、周囲情報が取得される場所によっては、行動解析処理部74による面談候補者の判定を行わない構成を備えている。
 かかる構成によれば、不必要な情報提示を抑制でき、真に必要な人物に対する付帯情報の取得を素早く取得することに貢献することから、利便性が向上する。
 また、上述した携帯情報端末(HMD1,100)では、行動解析処理部74は、面談候補者であると判定された人物が複数人いる場合、行動の解析結果に応じた優先順位を各々の面談候補者に付与し、付与された優先順位に従って、情報提示装置(表示部72)によって提示される付帯情報に係る面談候補者の数または順序を決定する。
 さらに、上述した携帯情報端末(HMD1,100)では、情報提示装置(表示部72)は、前記行動解析処理装置によって前記面談候補者が存在すると判定された場合、面談候補者が存在する旨の情報の提示と、当該面談候補者に対応する前記付帯情報の提示と、を段階的に行う。
 かかる構成によれば、より情報の欲しい人物の情報にユーザの注意を集中させることができ、利便性が高まる。
 以上、本発明の実施形態の例を実施の形態1~5を用いて説明したが、本発明の技術を実現する構成は前記実施の形態に限られるものではなく、様々な変形例が考えられる。例えば、ある実施の形態の構成の一部を他の実施の形態の構成と置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。これらは全て本発明の範疇に属するものである。また、文中や図中に現れる数値やメッセージ等もあくまでも一例であり、異なるものを用いても本発明の効果を損なうことはない。
 前述した本発明の機能等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現しても良い。また、マイクロプロセッサユニット等がそれぞれの機能等を実現するプログラムを解釈して実行することによりソフトウェアで実現しても良い。ハードウェアとソフトウェアを併用しても良い。前記ソフトウェアは、製品出荷の時点で、予めHMD1のプログラム部41等に格納された状態であっても良い。製品出荷後に、インターネット上の各種サーバ装置等から取得するものであっても良い。また、メモリカードや光ディスク等で提供される前記ソフトウェアを取得するものであってもよい。
 また、図中に示した制御線や情報線は説明上必要と考えられるものを示しており、必ずしも製品上の全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
1…HMD(携帯情報端末)、2…主制御部、3…システムバス、4…記憶部、5…センサ部、6…通信処理部(通信装置)、7…映像処理部、8…音声処理部、9…操作入力部、10…ユーザ、15…人物(面談候補者)、16…人物(面談相手)、32…ネットワークサーバ、42…データ記憶部、71…撮像部(周囲情報取得装置)、72…表示部(情報提示装置)、73…顔情報処理部、74…行動解析処理部(行動解析処理装置)、75…表示画面、81…音声入力部(周囲情報取得装置)、82…音声出力部、83…音声情報処理部、100…HMD(携帯情報端末)、171…右カメラ、172…左カメラ、173…左横カメラ、175…表示画面、711…右カメラ、712…左カメラ。

Claims (14)

  1.  ユーザによって携帯される携帯情報端末において、
     周囲情報を取得する周囲情報取得装置と、
     取得された前記周囲情報に含まれる人物の行動を解析して、前記ユーザに面談しようとしている面談候補者を判定する行動解析処理装置と、
     前記面談候補者に対応する付帯情報をユーザに提示する情報提示装置と、を備える、
     携帯情報端末。
  2.  請求項1に記載の携帯情報端末において、
     前記周囲情報は、撮像されている映像、前記人物を含む対象物までの距離が測距されている距離情報、収音されている音声のいずれか一つ以上である、
     携帯情報端末。
  3.  請求項1に記載の携帯情報端末において、
     前記行動解析処理装置は、前記周囲情報に含まれる人物の行動が、前記ユーザに対する関心を示す行動である場合に、前記面談候補者であると判定する
     携帯情報端末。
  4.  請求項3に記載の携帯情報端末において、
     前記ユーザに対する関心を示す行動は、視線を向ける行動、挨拶行動、接近行動、呼びかけ行動、のうちの一つ以上である
     携帯情報端末。
  5.  請求項1に記載の携帯情報端末において、
     さらに、前記周囲情報に含まれる人物の種類によっては、前記行動解析処理装置による前記面談候補者の判定を行わないように構成されている、
     携帯情報端末。
  6.  請求項5に記載の携帯情報端末において、
     前記判定を行わない人物の種類は、施設の応対者、警備員、のうち一以上を含む、
     携帯情報端末。
  7.  請求項1に記載の携帯情報端末において、
     さらに、前記周囲情報が取得される場所によっては、前記行動解析処理装置による前記面談候補者の判定を行わないように構成されている、
     携帯情報端末。
  8.  請求項1に記載の携帯情報端末において、
     前記行動解析処理装置は、前記面談候補者であると判定された人物が複数人いる場合、
     前記行動の解析結果に応じた優先順位を各々の前記面談候補者に付与し、
     付与された前記優先順位に従って、前記情報提示装置によって提示される前記付帯情報に係る前記面談候補者の数または順序を決定する、
     携帯情報端末。
  9.  請求項1に記載の携帯情報端末において、
     前記情報提示装置は、前記行動解析処理装置によって前記面談候補者が存在すると判定された場合、面談候補者が存在する旨の情報の提示と、当該面談候補者に対応する前記付帯情報の提示と、を段階的に行う
     携帯情報端末。
  10.  請求項1に記載の携帯情報端末において、
     前記情報提示装置は、前記行動解析処理装置によって前記面談候補者であると判定された人物が複数人いる場合、前記ユーザからの距離が近くなるほど、提示する情報を詳細にするように、前記面談候補者に対応する前記付帯情報をユーザに提示する、
     携帯情報端末。
  11.  請求項1に記載の携帯情報端末において、
     前記周囲情報取得装置は、映像を取得する複数のカメラを含み、
     前記カメラは、前記ユーザの視界よりも広い範囲の前記映像を取得するように配置されている、
     携帯情報端末。
  12.  請求項1に記載の携帯情報端末において、
     通信装置を介して前記行動解析処理装置が行う処理の一部を外部のサーバに行わせるように構成されている、
     携帯情報端末。
  13.  請求項1に記載の携帯情報端末において、
     前記携帯情報端末がHMD(Head Mounted Display)である、
     携帯情報端末。
  14.  携帯情報端末における情報処理方法であって、
     ユーザの周囲情報を取得し、
     取得された前記周囲情報に含まれる人物の行動を解析して、前記ユーザに面談しようとしている面談候補者を決定し、
     決定された前記面談候補者に対応する付帯情報をユーザに提示する、
     情報処理方法。
PCT/JP2021/047712 2021-12-22 2021-12-22 携帯情報端末および情報処理方法 WO2023119527A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/047712 WO2023119527A1 (ja) 2021-12-22 2021-12-22 携帯情報端末および情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/047712 WO2023119527A1 (ja) 2021-12-22 2021-12-22 携帯情報端末および情報処理方法

Publications (1)

Publication Number Publication Date
WO2023119527A1 true WO2023119527A1 (ja) 2023-06-29

Family

ID=86901588

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/047712 WO2023119527A1 (ja) 2021-12-22 2021-12-22 携帯情報端末および情報処理方法

Country Status (1)

Country Link
WO (1) WO2023119527A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010073616A1 (ja) * 2008-12-25 2010-07-01 パナソニック株式会社 情報表示装置および情報表示方法
JP2013242653A (ja) * 2012-05-18 2013-12-05 Sharp Corp 注目位置表示装置
JP2017123050A (ja) * 2016-01-07 2017-07-13 ソニー株式会社 情報処理装置、情報処理方法、プログラム、及びサーバ
WO2017154136A1 (ja) * 2016-03-09 2017-09-14 日立マクセル株式会社 携帯情報端末及びそれに用いる情報処理方法
JP2018106579A (ja) * 2016-12-28 2018-07-05 株式会社コロプラ 情報提供方法、プログラム、および、情報提供装置
JP2019047159A (ja) * 2017-08-29 2019-03-22 シャープ株式会社 電子機器、制御装置、制御装置の制御方法および制御プログラム
JP2020005036A (ja) * 2018-06-25 2020-01-09 大日本印刷株式会社 コンピュータプログラム及びサーバ
JP2021117479A (ja) * 2020-01-23 2021-08-10 株式会社ユピテル 表示装置等

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010073616A1 (ja) * 2008-12-25 2010-07-01 パナソニック株式会社 情報表示装置および情報表示方法
JP2013242653A (ja) * 2012-05-18 2013-12-05 Sharp Corp 注目位置表示装置
JP2017123050A (ja) * 2016-01-07 2017-07-13 ソニー株式会社 情報処理装置、情報処理方法、プログラム、及びサーバ
WO2017154136A1 (ja) * 2016-03-09 2017-09-14 日立マクセル株式会社 携帯情報端末及びそれに用いる情報処理方法
JP2018106579A (ja) * 2016-12-28 2018-07-05 株式会社コロプラ 情報提供方法、プログラム、および、情報提供装置
JP2019047159A (ja) * 2017-08-29 2019-03-22 シャープ株式会社 電子機器、制御装置、制御装置の制御方法および制御プログラム
JP2020005036A (ja) * 2018-06-25 2020-01-09 大日本印刷株式会社 コンピュータプログラム及びサーバ
JP2021117479A (ja) * 2020-01-23 2021-08-10 株式会社ユピテル 表示装置等

Similar Documents

Publication Publication Date Title
US20220377467A1 (en) Hearing aid systems and mehods
US11825012B2 (en) Server, client terminal, control method, and storage medium
US20220021985A1 (en) Selectively conditioning audio signals based on an audioprint of an object
EP2898505B1 (en) Leveraging head mounted displays to enable person-to-person interactions
US9298969B2 (en) Information processing device and storage medium, for replacing a face image
WO2016180285A1 (zh) 智能眼镜
US20200236070A1 (en) Information processing system and information processing method
US11546690B2 (en) Processing audio and video
US20220066207A1 (en) Method and head-mounted unit for assisting a user
US20210350823A1 (en) Systems and methods for processing audio and video using a voice print
US11929087B2 (en) Systems and methods for selectively attenuating a voice
JP6096654B2 (ja) 画像の記録方法、電子機器およびコンピュータ・プログラム
WO2017154136A1 (ja) 携帯情報端末及びそれに用いる情報処理方法
JP6139277B2 (ja) 人物情報登録装置及びプログラム
US20230005471A1 (en) Responding to a user query based on captured images and audio
WO2023119527A1 (ja) 携帯情報端末および情報処理方法
US8913142B2 (en) Context aware input system for focus control
JP6669342B2 (ja) 認知支援システム、認知支援装置、および認知支援サーバ
US11875791B2 (en) Systems and methods for emphasizing a user's name
US11736874B2 (en) Systems and methods for transmitting audio signals with varying delays

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21968964

Country of ref document: EP

Kind code of ref document: A1