WO2022230629A1 - 電子機器、電子機器の制御方法、及びプログラム - Google Patents

電子機器、電子機器の制御方法、及びプログラム Download PDF

Info

Publication number
WO2022230629A1
WO2022230629A1 PCT/JP2022/017279 JP2022017279W WO2022230629A1 WO 2022230629 A1 WO2022230629 A1 WO 2022230629A1 JP 2022017279 W JP2022017279 W JP 2022017279W WO 2022230629 A1 WO2022230629 A1 WO 2022230629A1
Authority
WO
WIPO (PCT)
Prior art keywords
subject
information
electronic device
internal state
sight
Prior art date
Application number
PCT/JP2022/017279
Other languages
English (en)
French (fr)
Inventor
淳吾 宮崎
裕亮 西井
Original Assignee
京セラ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京セラ株式会社 filed Critical 京セラ株式会社
Priority to EP22795545.7A priority Critical patent/EP4332885A1/en
Priority to CN202280030804.9A priority patent/CN117242486A/zh
Publication of WO2022230629A1 publication Critical patent/WO2022230629A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B3/00Apparatus for testing the eyes; Instruments for examining the eyes
    • A61B3/10Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
    • A61B3/113Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for determining or recording eye movement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to an electronic device, an electronic device control method, and a program.
  • Safe driving of mobile vehicles requires the driver's attention. Therefore, it is being considered to monitor the attention of the driver and issue a warning to the driver or assist the driver when the attention is reduced.
  • the cumulative visibility is the cumulative value of the degree of overlap of the line of sight with respect to objects such as oncoming vehicles around the own vehicle, and compare it with a reference value (see Patent Document 1). ).
  • Non-Patent Document 1 For example, an attempt to diagnose a chest X-ray by deep learning by collecting line-of-sight data of radiologists who examine X-rays and data of diagnosis results has also been reported (see Non-Patent Document 2).
  • Tatsunori Matsui, Tatsuro Uno, Yoshimasa Tawatsuji "An attempt to estimate a learner's mental state from biological information considering the time delay and persistence model of the mental state", 2018 Annual Conference of the Japanese Society for Artificial Intelligence (No. 32 times), The Japanese Society for Artificial Intelligence Daiki Inoue, Jinsei Kimura, Kotaro Nakayama, Kenya Sakka, Rahman Abdul, Ai Nakajima, Patrick Radkohl, Satoshi Iwai, Yoshimasa Kawazoe, Kazuhiko Oe, "Diagnostic classification of chest radiographs by deep learning using gaze data , 2019 Annual Conference of the Japanese Society for Artificial Intelligence (33rd), The Japanese Society for Artificial Intelligence
  • An electronic device includes: an encoder for estimating an unknown value based on first biological information including the line of sight of the subject extracted from the image of the subject, attribute information of the subject, and information indicating the internal state of the subject; a decoder for estimating second biological information including a line of sight of the subject based on the unknown value, the subject's attribute information, and information indicating the subject's internal state; Prepare.
  • the electronic device adjusts parameters of the encoder and the decoder based on the reproducibility of the first biometric information by the second biometric information.
  • an electronic device includes: An unknown value is calculated based on values assumed as first biometric information including the line of sight of the subject extracted from the image of the subject, attribute information of the subject, and information indicating the internal state of the subject. an encoder to estimate; a decoder for estimating second biological information including a line of sight of the subject based on the unknown value, the subject's attribute information, and a value assumed as information indicating the subject's internal state; Assuming a plurality of values as the information indicating the internal state of the subject, the value at which the reproducibility of the first biological information by the second biological information is the highest among the plurality of values is determined as the internal state of the subject. an estimating unit for estimating information indicating a state; Prepare.
  • a control method for an electronic device includes: an encoding step of estimating an unknown value based on first biometric information including the line of sight of the subject extracted from the image of the subject, attribute information of the subject, and information indicating the internal state of the subject; , a decoding step of estimating second biometric information including the line of sight of the subject based on the unknown value, the attribute information of the subject, and information indicating the internal state of the subject; adjusting parameters in the encoding step and the decoding step based on the reproducibility of the first biometric information by the second biometric information; including.
  • a control method for an electronic device includes: An unknown value is calculated based on values assumed as first biometric information including the line of sight of the subject extracted from the image of the subject, attribute information of the subject, and information indicating the internal state of the subject. an estimated encoding step; a decoding step of estimating second biological information including a line of sight of the subject based on the unknown value, the subject's attribute information, and a value assumed as information indicating the subject's internal state; Assuming a plurality of values as the information indicating the internal state of the subject, the value at which the reproducibility of the first biological information by the second biological information is the highest among the plurality of values is determined as the internal state of the subject. a step of estimating information indicative of a state; including.
  • a program comprises: electronic equipment, an encoding step of estimating an unknown value based on first biometric information including the line of sight of the subject extracted from the image of the subject, attribute information of the subject, and information indicating the internal state of the subject; , a decoding step of estimating second biometric information including the line of sight of the subject based on the unknown value, the attribute information of the subject, and information indicating the internal state of the subject; adjusting parameters in the encoding step and the decoding step based on the reproducibility of the first biometric information by the second biometric information; to run.
  • a program comprises: electronic equipment, An unknown value is calculated based on values assumed as first biometric information including the line of sight of the subject extracted from the image of the subject, attribute information of the subject, and information indicating the internal state of the subject. an estimated encoding step; a decoding step of estimating second biological information including a line of sight of the subject based on the unknown value, the subject's attribute information, and a value assumed as information indicating the subject's internal state; Assuming a plurality of values as the information indicating the internal state of the subject, the value at which the reproducibility of the first biological information by the second biological information is the highest among the plurality of values is determined as the internal state of the subject. a step of estimating information indicative of a state; to run.
  • FIG. 1 is a block diagram showing a schematic configuration of an electronic device according to a first embodiment
  • FIG. 4 is a conceptual diagram illustrating an example of encoding by the electronic device according to the first embodiment
  • FIG. 4 is a conceptual diagram illustrating an example of decoding by the electronic device according to the first embodiment
  • FIG. FIG. 4 is a conceptual diagram explaining the operation of the autoencoder in the electronic device according to the first embodiment
  • 4 is a flowchart for explaining operations performed by the electronic device according to the first embodiment in a learning phase
  • 4 is a flowchart for explaining operations performed by the electronic device according to the first embodiment in an estimation phase
  • It is a block diagram which shows schematic structure of the electronic device which concerns on 2nd Embodiment.
  • Non-Patent Document 1 there is concern that the causal relationship between the subject's biological information and internal state (emotions, etc.) may be difficult to model rationally using a simple identification model. That is, originally, it is considered that the rational flow of information processing is that a biological reaction is caused by a mental state such as emotion. However, in the learning of a simple discriminative model, conversely, the flow is to infer mental states from biological information. For this reason, it is assumed that the structure of the model differs from the truth, and the learning of the model does not proceed well. In addition, there are situations where it is necessary to explain to the user the behavior of the model that estimates the internal state based on the subject's biological information.
  • Non-Patent Document 2 as in Non-Patent Document 1, the causal relationship between the subject's biological information (line-of-sight data, etc.) and the internal state (disease judgment, etc.) is similarly rational depending on the simple identification model. There is concern that modeling will become difficult. Also, in Non-Patent Document 2, further verification of the rationality of the causal relationship of the model that estimates the internal state of the subject based on the biological information of the subject is desired.
  • An object of the present disclosure is to provide an electronic device, a control method for the electronic device, and a program that reasonably estimate an internal state such as a subject's degree of concentration based on a data generation process. According to one embodiment, it is possible to provide an electronic device, a control method for the electronic device, and a program for reasonably estimating an internal state such as a degree of concentration of a subject.
  • an electronic device a control method for the electronic device, and a program for reasonably estimating an internal state such as a degree of concentration of a subject.
  • electronic device may be a device driven by electric power.
  • An electronic device estimates an internal state of a subject, such as a degree of concentration.
  • the “subject” may be a person (typically a person) whose internal state is estimated by the electronic device according to one embodiment.
  • a “user” may be a person (typically a human being) who uses the electronic device according to one embodiment. The 'user' may be the same as or different from the 'subject'.
  • the “user” and the “subject” may be humans or animals other than humans.
  • Mobile objects may include, for example, vehicles, ships, aircraft, and the like.
  • Vehicles may include, for example, automobiles, industrial vehicles, railroad vehicles, utility vehicles, fixed-wing aircraft that travel on runways, and the like.
  • Motor vehicles may include, for example, cars, trucks, buses, motorcycles, trolleybuses, and the like.
  • Industrial vehicles may include, for example, industrial vehicles for agriculture and construction, and the like.
  • Industrial vehicles may include, for example, forklifts, golf carts, and the like.
  • Industrial vehicles for agriculture may include, for example, tractors, tillers, transplanters, binders, combines, lawn mowers, and the like.
  • Industrial vehicles for construction may include, for example, bulldozers, scrapers, excavators, mobile cranes, tippers, road rollers, and the like. Vehicles may include those that are powered by humans. Vehicle classification is not limited to the above example. For example, automobiles may include road-drivable industrial vehicles. Multiple classifications may contain the same vehicle. Watercraft may include, for example, personal watercraft (PWCs), boats, tankers, and the like. Aircraft may include, for example, fixed-wing aircraft, rotary-wing aircraft, and the like. Also, the “user” and “subject” of the present disclosure may be a person driving a mobile object such as a vehicle, or may be a passenger of a vehicle that is not driving a mobile object such as a vehicle.
  • PWCs personal watercraft
  • Aircraft may include, for example, fixed-wing aircraft, rotary-wing aircraft, and the like.
  • the “user” and “subject” of the present disclosure may be a person driving a mobile object such as a vehicle, or may be
  • the electronic device 1 may be various devices.
  • the electronic device according to one embodiment may be any device such as a specially designed terminal, a general-purpose smartphone, a tablet, a phablet, a notebook computer (laptop PC), a computer, or a server.
  • the electronic device according to one embodiment may have a function of communicating with other electronic devices, such as a mobile phone or a smart phone.
  • the above-mentioned "other electronic device” may be an electronic device such as a mobile phone or a smart phone, or may be any device such as a base station, a server, a dedicated terminal, or a computer.
  • “other electronic devices” in the present disclosure may also be devices or devices driven by electric power. When an electronic device according to an embodiment communicates with another electronic device, wired and/or wireless communication may be performed.
  • the electronic device 1 will be described below assuming that it is installed in a moving object such as a passenger car.
  • the electronic device 1 can estimate a predetermined internal state (for example, a predetermined psychological state) of a person (driver or non-driver) riding in a moving object such as a passenger car. can.
  • a predetermined internal state for example, a predetermined psychological state
  • the electronic device 1 according to one embodiment estimates the degree of concentration of the driver during driving as the internal state of the driver who drives a mobile object such as a passenger car.
  • the electronic device 1 according to one embodiment can estimate the degree of concentration of the driver during driving based on, for example, an image of the driver captured during driving.
  • FIG. 1 is a block diagram showing a schematic functional configuration of an electronic device according to one embodiment.
  • the electronic device 1 may include a control unit 10, an imaging unit 20, a storage unit 30, and a notification unit 40. Moreover, as shown in the control part 10 and FIG. 1, the extraction part 12, the estimation part 14, and the determination part 16 may be included.
  • the electronic device 1 according to one embodiment may include all the functional units shown in FIG. 1, or may not include at least part of the functional units shown in FIG.
  • the electronic device 1 according to one embodiment may include only the controller 10 shown in FIG. In this case, the electronic device 1 according to one embodiment may be connected to the imaging unit 20, the storage unit 30, the notification unit 40, etc., which are prepared as external devices.
  • the functions of the encoder ENN and the decoder DNN described below are realized by at least one function of the control unit 10, the estimation unit 14, and the storage unit 30.
  • FIG. The input information and data may be transmitted to the extraction unit 12, the encoder ENN, the decoder DNN, and the determination unit 16 in this order, for example.
  • the encoder ENN may output a latent variable Z, which will be described below. In this case, the output latent variable Z may be input to the decoder DNN.
  • the control unit 10 controls and/or manages the electronic device 1 as a whole, including each functional unit that configures the electronic device 1 .
  • the control unit 10 may include at least one processor, such as a CPU (Central Processing Unit) or a DSP (Digital Signal Processor), to provide control and processing power for performing various functions.
  • the control unit 10 may be implemented collectively by one processor, may be implemented by several processors, or may be implemented by individual processors.
  • a processor may be implemented as a single integrated circuit. An integrated circuit is also called an IC (Integrated Circuit).
  • a processor may be implemented as a plurality of communicatively coupled integrated and discrete circuits. Processors may be implemented based on various other known technologies.
  • the control unit 10 may include one or more processors and memories.
  • the processor may include a general-purpose processor that loads a specific program to execute a specific function, and a dedicated processor that specializes in specific processing.
  • a dedicated processor may include an Application Specific Integrated Circuit (ASIC).
  • the processor may include a programmable logic device (PLD).
  • the PLD may include an FPGA (Field-Programmable Gate Array).
  • the control unit 10 may be either an SoC (System-on-a-Chip) in which one or more processors cooperate, or a SiP (System In a Package).
  • SoC System-on-a-Chip
  • SiP System In a Package
  • control unit 10 may be configured including at least one of software and hardware resources.
  • control unit 10 may be configured by specific means in which software and hardware resources cooperate.
  • At least one of the extraction unit 12, the estimation unit 14, and the determination unit 16 included in the control unit 10 may be configured including at least one of software and hardware resources.
  • at least one of the extracting unit 12, the estimating unit 14, and the determining unit 16 may be configured by specific means in which software and hardware resources cooperate.
  • the extraction unit 12 extracts the line of sight of the subject from the image of the subject captured by the imaging unit 20 .
  • the estimating unit 14 estimates an internal state such as the subject's degree of concentration.
  • the determination unit 16 determines whether the subject's internal state estimated by the estimation unit 14 satisfies a predetermined condition.
  • the determination unit 16 outputs a predetermined alarm signal to the notification unit 40 when the subject's internal state satisfies a predetermined condition (for example, when the subject's degree of concentration drops below a predetermined level).
  • line-of-sight data from which a subject's line of sight is extracted as data may be treated as coordinate values (x, y) of a gaze point.
  • the line-of-sight data may use not only the coordinates of the gaze point of the subject, but also pupil diameter and/or eyeball rotation information, for example, as line-of-sight feature amounts.
  • control unit 10 The operation of the control unit 10 and the operations of the extraction unit 12, the estimation unit 14, and the determination unit 16 included in the control unit 10 will be further described later.
  • the imaging unit 20 may include an image sensor that electronically captures an image, such as a digital camera.
  • the imaging unit 20 may include an imaging element that performs photoelectric conversion, such as a CCD (Charge Coupled Device Image Sensor) or CMOS (Complementary Metal Oxide Semiconductor) sensor.
  • the imaging unit 20 may supply a signal based on the captured image to the control unit 10 or the like. Therefore, as shown in FIG. 1, the imaging unit 20 may be connected to the control unit 10 by wire and/or wirelessly.
  • the imaging unit 20 is not limited to an imaging device such as a digital camera, and may be any imaging device as long as it captures an image of the subject. For example, by employing a near-infrared camera, the imaging unit 20 can capture, as an image, the difference in light reflecting characteristics and/or the difference in light absorbing characteristics.
  • the imaging unit 20 captures an image of the subject.
  • a driver who drives a mobile object such as a passenger car is assumed. That is, in one embodiment, the imaging unit 20 images a driver driving a mobile object such as a passenger car.
  • the imaging unit 20 may, for example, capture a still image of the subject at predetermined time intervals (eg, 30 frames per second). Further, in one embodiment, the imaging unit 20 may, for example, capture a continuous moving image of the subject.
  • the imaging unit 20 may capture an image of the subject in various data formats such as RGB data and/or infrared data.
  • the imaging unit 20 may be installed facing the driver, for example, in front of the interior of a moving object such as a passenger car.
  • An image of the subject imaged by the imaging unit 20 is supplied to the control unit 10 .
  • the extraction unit 12 extracts biological information including the line of sight of the subject from the image of the subject. Therefore, the imaging unit 20 may be installed at a location suitable for capturing an image including the line of sight of the driver.
  • the storage unit 30 may have a function as a memory that stores various information.
  • the storage unit 30 may store, for example, programs executed by the control unit 10, results of processing executed by the control unit 10, and the like.
  • the storage unit 30 may function as a work memory for the control unit 10 . Therefore, as shown in FIG. 1, the storage unit 30 may be connected to the control unit 10 by wire and/or wirelessly.
  • the storage unit 30 may include, for example, at least one of RAM (Random Access Memory) and ROM (Read Only Memory).
  • the storage unit 30 can be configured by, for example, a semiconductor memory or the like, but is not limited to this, and can be an arbitrary storage device.
  • the storage unit 30 may be a storage medium such as a memory card inserted into the electronic device 1 according to one embodiment.
  • the storage unit 30 may be an internal memory of the CPU used as the control unit 10, or may be connected to the control unit 10 as a separate entity.
  • the storage unit 30 may store machine learning data, for example.
  • the machine learning data may be data generated by machine learning.
  • Machine learning data may include parameters generated by machine learning.
  • machine learning may be based on AI (Artificial Intelligence) technology that enables execution of specific tasks through training. More specifically, machine learning may be a technique by which an information processing device, such as a computer, learns a lot of data and automatically builds algorithms or models to perform tasks such as classification and/or prediction.
  • part of AI may include machine learning.
  • machine learning may include supervised learning in which features or rules of input data are learned based on correct data.
  • Machine learning may also include unsupervised learning that learns the features or rules of input data in the absence of correct data.
  • machine learning may include reinforcement learning, etc., in which a reward or punishment is given to learn the characteristics or rules of input data.
  • machine learning may be any combination of supervised learning, unsupervised learning, and reinforcement learning.
  • the concept of machine learning data in this embodiment may include an algorithm that outputs a predetermined inference (estimation) result using an algorithm learned on input data.
  • This embodiment uses, for example, a linear regression that predicts the relationship between a dependent variable and an independent variable, a neural network (NN) that mathematically models neurons in the human nervous system, and a least squares algorithm that calculates by squaring an error.
  • Other suitable algorithms can be used, such as multiplication, decision trees for tree-structured problem solving, and regularization for transforming data in a predetermined way.
  • the present embodiment may utilize a deep neural network, which is a type of neural network.
  • a deep neural network is a kind of neural network, and generally means a deep structure with one or more intermediate layers of the network. Deep learning is widely used as an algorithm that constitutes AI.
  • the information stored in the storage unit 30 may be, for example, information stored in advance before shipment from the factory, or may be information obtained by the control unit 10 or the like as appropriate.
  • the storage unit 30 may store information received from a communication unit (communication interface) connected to the control unit 10 or the electronic device 1 or the like.
  • the communication unit may receive various kinds of information, for example, by communicating with an external electronic device, base station, or the like at least either wirelessly or by wire.
  • the storage unit 30 may store information input to an input unit (input interface) or the like connected to the control unit 10 or the electronic device 1 . In this case, the user of the electronic device 1 or others may input various information by operating the input unit.
  • the notification unit 40 may output a predetermined warning to alert the user of the electronic device 1 or the like based on a predetermined signal (for example, a warning signal) output from the control unit 10 . Therefore, as shown in FIG. 1, the notification unit 40 may be connected to the control unit 10 by wire and/or wirelessly.
  • the notification unit 40 may be any functional unit that stimulates at least one of the user's auditory, visual, and tactile senses, such as sound, voice, light, text, video, and vibration, as a predetermined alarm.
  • the notification unit 40 includes at least one of an audio output unit such as a buzzer or a speaker, a light emitting unit such as an LED, a display unit such as an LCD, and a tactile sensation providing unit such as a vibrator.
  • the notification section 40 may output a predetermined warning based on a predetermined signal output from the control section 10 .
  • the notification unit 40 may output a predetermined alarm as information that affects at least one of auditory, visual, and tactile senses of a creature such as a human being.
  • the notification unit 40 outputs an alarm to the effect that the concentration of the subject has decreased, for example, when the concentration of the subject is estimated to fall below a predetermined threshold value as the internal state of the subject. you can For example, in one embodiment, when the concentration level of the driver is estimated to fall below a predetermined threshold, the notification unit 40 that outputs visual information notifies the driver and/or the driver by emitting light or displaying a predetermined display. Alternatively, other users may be notified. Further, in one embodiment, the notification unit 40 that outputs auditory information, for example, when it is estimated that the degree of concentration of the driver is lower than a predetermined threshold, notifies the driver and/or the driver by a predetermined sound or voice. Alternatively, other users may be notified.
  • the notification unit 40 that outputs tactile information, for example, when it is estimated that the degree of concentration of the driver has decreased below a predetermined threshold value, notifies the driver and/or others by a predetermined vibration or the like. Users may be notified. In this way, the driver and/or other users, for example, can know that the driver's concentration is declining.
  • the electronic device 1 uses an auto encoder to perform machine learning based on an image of the driver while driving, so that the internal state such as the degree of concentration of the driver to estimate
  • An autoencoder is one of the neural network architectures.
  • An autoencoder is a neural network that includes an encoder (hereinafter sometimes associated with the code ENN) and a decoder (hereinafter sometimes associated with the code DNN).
  • the control section 10 may include a function as an autoencoder. That is, the control unit 10 of the electronic device 1 according to one embodiment has functions as an encoder ENN and a decoder DNN.
  • FIG. 2 and 3 are diagrams conceptually showing a neural network that functions as an autoencoder in the electronic device 1 according to one embodiment.
  • FIG. 2 is a diagram conceptually showing an encoder. That is, FIG. 2 is a diagram conceptually showing a neural network encoder ENN that functions as an autoencoder in the electronic device 1 according to one embodiment.
  • FIG. 3 is a diagram conceptually showing a decoder.
  • the second biological information X' related to the image of the subject may be information including the image of the line of sight of the subject (for example, the driver).
  • the information Y indicating the internal state may include information indicating the internal state of the subject, such as the degree of concentration.
  • the unknown value Z may also include unobservable latent variables.
  • the attribute information D may include information indicating attributes such as age and/or sex of the subject.
  • the first biological information X related to the image of the subject may be information including the image of the line of sight of the subject (for example, the driver).
  • the image of the subject's line of sight included in the first biometric information X may be extracted by the extraction unit 12 from the image of the subject captured by the imaging unit 20 .
  • the information Y indicating the internal state may include information indicating the internal state of the subject, such as the degree of concentration, as described above.
  • the attribute information D may include information indicating the attributes of the subject, such as age and/or sex, as described above.
  • the unknown value Z may include unobservable latent variables, as described above.
  • the phase of learning for estimating the subject's internal state may be simply referred to as the "learning phase”.
  • a second biometric information X' can be generated that relates to the image of the subject.
  • the second biometric information X' related to the image of the subject is obtained by reconstructing the first biometric information X related to the image of the subject.
  • the degree of change of the second biometric information X' from the original first biometric information X may be used as a loss function, and the weight parameters of the neural network may be updated by error back propagation.
  • the loss function may also include a regularization term that indicates how much the probability distribution followed by the unknown value Z deviates from a predetermined probability distribution. This predetermined probability distribution may be, for example, a normal distribution. Kullback-Leibler divergence may be used as a term representing the degree of deviation between the predetermined probability distribution and the distribution followed by the unknown value Z.
  • FIG. 4 is a diagram conceptually showing implementation by an autoencoder in the electronic device 1 according to one embodiment. First, the learning phase by the electronic device 1 according to one embodiment will be described.
  • the electronic device 1 when the first biometric information X shown in the bottom row is given, and further the information Y indicating the internal state and the attribute information D are given, the middle row in FIG. The unknown value Z shown in is inferred. Then, in the electronic device 1 according to one embodiment, when the unknown value Z is inferred and the information Y indicating the internal state and the attribute information D are given, the second biometric information X' shown at the top is obtained.
  • the information Y indicating the internal state and the unknown value Z may be estimated by being given only the first biometric information X and the attribute information D.
  • Attribute information D including information indicating attributes such as age and/or gender of the subject may be stored in the storage unit 30 in advance, may be input from the input unit, or may be received from the communication unit. You may Also, the attribute information D may be estimated by the control unit 10 or the like from the image of the subject captured by the imaging unit 20 .
  • the autoencoder converts an unknown Reproduce the second biometric information X' associated with the image of the subject via the value Z of . That is, in the electronic device 1 according to one embodiment, the autoencoder generates an image of the subject's line of sight and a It has a function of reconstructing at least one of the line-of-sight feature amount (second biometric information X′).
  • at least one of the image of the line of sight of the subject and the feature amount of the line of sight may include the coordinate values (x, y) of the gaze point.
  • the image of the line of sight of the subject and the feature amount of the line of sight include not only the coordinates of the point of gaze, but also the feature amount of the line of sight, such as pupil diameter or eyeball rotation information, or a combination thereof.
  • extracting at least one of the line-of-sight image and the line-of-sight feature amount of the subject may simply be referred to as "extracting the line of sight” or "obtaining the line of sight”.
  • estimating at least one of the line-of-sight image and the line-of-sight feature amount of the subject may be simply referred to as 'estimating the line of sight' or 'calculating the line of sight'.
  • At least one of the image of the line of sight of the subject and the feature amount of the line of sight may include an image including the eyeball region.
  • the information input to the neural network is biometric information obtained after image processing, so it may be defined as line-of-sight information having an image including the eyeball region.
  • the image of the line of sight of the subject or the feature amount of the line of sight may be reconstructed.
  • the image of the subject's line of sight corresponding to the information Y indicating the internal state at that time or the feature amount of the line of sight may be reconstructed by an autoencoder of the electronic device 1 according to an embodiment.
  • a state in which the subject is not completely focused on driving the mobile body is intentionally created, and the subject's line-of-sight image or the line-of-sight feature amount (first 2 biometric information X′) may be reconstructed by the autoencoder of the electronic device 1 according to an embodiment.
  • the state in which the target person is not completely concentrating on driving the mobile object may be a state in which the driver's attention is deprived of tasks other than driving. For example, while the driver is driving the mobile object, the driver may simultaneously perform a predetermined mental calculation as a task other than driving.
  • a state in which a driver simultaneously performs very simple mental arithmetic while driving a mobile object may be a state in which the target person is not completely focused on driving the mobile object, but relatively concentrated.
  • the state in which the driver simultaneously performs considerably complicated mental arithmetic while driving the moving body may be a state in which the subject is relatively unconcentrated on driving the moving body.
  • the image of the line of sight of the subject or the feature amount of the line of sight (second biometric information X′) is reconstructed.
  • the image of the line of sight of the subject (second biological information X′) reconstructed based on the information Y indicating various internal states reproduces the original image of the line of sight of the subject (first biological information X).
  • the validity of the information Y indicating the internal state may be determined according to the degree of the change.
  • the image of the line of sight of the subject (second biometric information X′) reconstructed based on the information Y1 indicating a certain internal state is the original image of the line of sight of the subject or the feature amount of the line of sight (first biometric information When the degree of reproduction of X) is high, it may be determined that the information Y1 indicating the internal state is highly valid (that is, close to the correct answer).
  • the subject's line-of-sight image or line-of-sight feature amount (second biometric information X') reconstructed based on the information Y2 indicating a certain internal state is the original line-of-sight image or line-of-sight feature amount of the subject.
  • the electronic device 1 may adjust the parameters of the encoder ENN and the decoder DNN based on the reproducibility of the first biometric information X by the second biometric information X'. In addition to this reproducibility, based on the loss function including the degree of deviation of the probability distribution that the unknown value Z estimated by the encoder ENN follows from the predetermined probability distribution, the encoder ENN and parameters of the decoder DNN may be adjusted.
  • the predetermined probability distribution may be a normal distribution. Also, in the above case, the distribution deviance may be the Kullback-Leibler divergence.
  • FIG. 5 is a flowchart explaining the learning phase by the electronic device 1 according to one embodiment.
  • the learning phase by the electronic device 1 according to one embodiment will be described below with reference to FIG. 5 .
  • the target person is driving a mobile object when the operation of the learning phase shown in FIG. 5 starts.
  • the subject may actually drive a mobile object such as a passenger car, or may virtually drive the mobile object using, for example, a drive simulator.
  • the imaging unit 20 is capturing an image of the subject when the operation shown in FIG. 5 starts.
  • the imaging unit 20 may capture an image including the line of sight of the subject so that at least one of the image of the line of sight of the subject and the characteristic amount of the line of sight of the subject can be extracted from the image of the subject.
  • the storage unit 30 stores predetermined attribute information of the subject when the operation shown in FIG. 5 starts.
  • the predetermined attribute information of the subject may include, for example, at least one of the subject's sex, age, and age group (20s, 30s, 40s, etc.). Other attribute information such as driving history may be used.
  • the storage unit 30 may store in advance the predetermined attribute information of the subject as described above, may request the subject to input from the input unit or the like as necessary, or may request the subject to input from the input unit as necessary. It may be received from the communication unit or the like.
  • the control unit 10 of the electronic device 1 acquires an image of the subject captured by the imaging unit 20 (step S11).
  • the image of the subject acquired in step S11 may be an image including the line of sight of the subject so that at least one of the image of the subject's line of sight and the characteristic amount of the line of sight can be extracted, as described above.
  • the extraction unit 12 of the control unit 10 extracts at least one of the image of the line of sight and the feature amount of the line of sight, such as the coordinates of the position of the gaze point of the subject, from the image of the subject. (Step S12). Any technique such as image recognition may be adopted as the technique for extracting the line of sight of the subject from the image of the subject in step S12. In this way, the control unit 10 of the electronic device 1 according to one embodiment acquires the first biological information X including the line of sight of the subject extracted from the image of the subject in step S12.
  • the control unit 10 acquires the target person's predetermined attribute information (step S13).
  • the control unit 10 may acquire predetermined attribute information of the subject from the storage unit 30 , for example.
  • the predetermined attribute information of the subject includes, for example, at least one of the subject's sex, age, age group (20s, 30s, 40s, etc.), and driving history. Good as a thing.
  • the control unit 10 of the electronic device 1 acquires the subject's attribute information D in step S13.
  • Driving history in the present disclosure may include at least one of driving duration, accident history, license acquisition time, license holding duration, driving course attendance history, drivable vehicle type information, and the like.
  • the estimation unit 14 of the control unit 10 estimates an unknown value (step S14).
  • the estimating unit 14 uses the encoder ENN of the autoencoder to perform , may estimate the unknown value Z (see FIG. 2).
  • the information Y indicating the subject's internal state may be a value corresponding to the subject's degree of concentration created externally, as described above.
  • the estimation unit 14 of the control unit 10 estimates second biological information including the line of sight of the subject (step S15).
  • the estimating unit 14 uses the decoder DNN of the autoencoder to include the subject's line of sight based on the information Y indicating the subject's internal state, the unknown value Z, and the subject's attribute information D.
  • Second biometric information X' may be estimated (see FIG. 3).
  • the control unit 10 adjusts the parameters of the encoder ENN and decoder DNN (step S16).
  • step S16 the control unit 10 sets parameters of the encoder ENN and the decoder DNN based on the degree to which the first biological information X including the line of sight of the subject is reproduced by the second biological information X' including the line of sight of the subject. can be adjusted.
  • the loss function includes the degree of deviation of the distribution, which indicates how much the probability distribution followed by the unknown value Z inferred by the encoder ENN deviates from the predetermined probability distribution. parameters of the encoder ENN and the decoder DNN may be adjusted based on .
  • the encoder ENN of the control unit 10 includes the first biological information X including the subject's line of sight extracted from the subject's image, the subject's attribute information D, and An unknown value Z is estimated based on the information Y indicating the subject's internal state. Further, in the electronic device 1 according to one embodiment, the decoder DNN of the control unit 10 detects the line of sight of the subject based on the unknown value Z, the attribute information D of the subject, and the information Y indicating the internal state of the subject.
  • Estimate the second biometric information X' including Then, the electronic device 1 according to one embodiment, based on at least one of the reproducibility of the first biological information X by the second biological information X' and the distribution deviation of the reproducibility and the unknown value Z, Adjust the parameters of the encoder ENN and the decoder DNN.
  • the information Y indicating the subject's internal state may include information indicating the subject's degree of concentration.
  • the information Y indicative of the subject's internal state may include information indicative of the subject's degree of concentration while driving a vehicle.
  • the subject's attribute information D may include the subject's gender. Moreover, in one embodiment, the subject's attribute information D may include the subject's age or age division. Further, in one embodiment, the subject's attribute information D may include the subject's driving history and the like.
  • attributes of the subject are estimated from the subject's image.
  • the control unit 10 or the estimation unit 14
  • the control unit 10 from the image of the subject captured by the imaging unit 20, determines the sex of the subject, the age of the subject, the age of the subject, and the age of the subject. and/or the subject's driving history may be estimated.
  • the attributes of the subject may be estimated from the image of the subject by any technique such as image recognition.
  • the attributes of the subject may be more accurately estimated from the image of the subject by machine learning or the like.
  • the subject's attribute information D may be estimated based on the subject's image. Also, only the portion for estimating attribute information from this image may be machine-learned in advance. At that time, learning may be performed using data different from the learning data used for estimating the internal state.
  • the electronic device 1 can estimate the subject's internal state by executing the learning phase.
  • the phase for estimating the subject's internal state may be simply referred to as the "estimation phase”.
  • FIG. 6 is a flow chart explaining the estimation phase by the electronic device 1 according to one embodiment.
  • the estimation phase by the electronic device 1 according to one embodiment will be described with reference to FIG. 6 .
  • the target person is driving a mobile object when the operation of the estimation phase shown in FIG. 6 starts.
  • the target person is actually driving a mobile object such as a passenger car.
  • the subject may virtually drive a mobile object using, for example, a drive simulator.
  • the imaging unit 20 is capturing an image of the subject when the operation shown in FIG. 6 starts.
  • the imaging unit 20 may capture an image including the line of sight of the subject so that the line of sight of the subject can be extracted from the image of the subject.
  • the storage unit 30 stores predetermined attribute information of the subject when the operation shown in FIG. 6 starts.
  • the predetermined attribute information of the subject may include, for example, at least one of the subject's sex, age, age category (20s, 30s, 40s, etc.), and driving history.
  • the storage unit 30 may store in advance the predetermined attribute information of the subject as described above, may request the subject to input from the input unit or the like as necessary, or may request the subject to input from the input unit as necessary. It may be received from the communication unit or the like.
  • the control unit 10 of the electronic device 1 acquires an image of the subject captured by the imaging unit 20 (step S21).
  • the image of the subject acquired in step S21 may be an image including the line of sight of the subject so that the line of sight of the subject can be extracted as described above.
  • the operation of step S21 may be performed in the same manner as the operation of step S11 shown in FIG.
  • step S22 After acquiring the image of the subject in step S21, the extraction unit 12 of the control unit 10 extracts at least one of the line of sight of the subject and the feature amount of the line of sight from the image of the subject (step S22).
  • the operation of step S22 may be performed in the same manner as the operation of step S12 shown in FIG. In this manner, in step S22, the control unit 10 of the electronic device 1 according to one embodiment acquires the first biological information X including the line of sight of the subject extracted from the image of the subject.
  • the estimation unit 14 of the control unit 10 estimates information Y indicating the subject's internal state (step S23).
  • the information Y indicating the subject's internal state estimated in step S23 may be, for example, information indicating the subject's degree of concentration.
  • the information Y indicating the internal state of the subject may include information indicating the degree of concentration while the subject is driving a vehicle (moving object) such as a passenger car.
  • the electronic device 1 may estimate information Y indicating the internal state of the subject, for example, as follows. That is, for example, the control unit 10 of the electronic device 1 according to one embodiment sets the information Y indicating the internal state in a concentrated state to 0, and sets the information Y indicating the internal state in a non-concentrated state to 1. Assume information Y indicating a plurality of internal states such as . Similarly, in one embodiment, the control unit 10 may assume a plurality of information Y between 0 and 1 indicating the internal state, for example.
  • the control unit 10 determines at least one of the reconstructed line of sight of the subject and the feature amount of the line of sight (second biometric information X′). verifies the degree of reproduction of the original image of the subject's line of sight (first biometric information X). Then, the estimating unit 14 determines that at least one of the reconstructed line of sight of the subject and the feature amount of the line of sight (second biological information X′) is at least On the other hand, the information Y indicating the internal state that maximizes the degree of reproduction (reproducibility) of the (first biological information X) is estimated as the internal state (concentration degree) of the subject at that time.
  • the estimation unit 14 may estimate that the subject is in a concentrated state.
  • the estimation unit 14 may estimate that the subject is not concentrated.
  • the estimating unit 14 determines that the subject has a degree of concentration corresponding to the value. It can be assumed to be a certain state.
  • the estimation unit 14 may estimate the subject's internal state using a distribution deviance that indicates how much the probability distribution followed by the unknown value Z estimated by the encoder ENN deviates from a predetermined probability distribution.
  • the predetermined probability distribution may be a normal distribution.
  • the Kullback-Libra divergence may be used for the degree of subject-matter deviation.
  • the determination unit 16 determines whether or not the estimated degree of concentration is equal to or less than a predetermined threshold (step S24).
  • a predetermined threshold may be set in advance as a reference for issuing a warning regarding the subject's degree of concentration.
  • the predetermined threshold value set in this manner may be stored in the storage unit 30, for example.
  • the determination unit 16 may determine whether the estimated degree of concentration satisfies a predetermined condition, such as whether the estimated degree of concentration is equal to or less than a predetermined threshold.
  • step S24 If the degree of concentration is equal to or less than the predetermined threshold value (the degree of concentration has decreased) in step S24, the determination unit 16 outputs a predetermined alarm from the notification unit 40 (step S25), and ends the operation shown in FIG. you can On the other hand, if the degree of concentration is not equal to or less than the predetermined threshold in step S24 (the degree of concentration has not decreased), the determination unit 16 may end the operation shown in FIG. When the operation shown in FIG. 6 ends, the control unit 10 may restart the process shown in FIG. 6 as appropriate.
  • the encoder ENN of the control unit 10 includes the first biological information X including the subject's line of sight extracted from the subject's image, the subject's attribute information D, and An unknown value Z is estimated based on the value assumed as the information Y indicating the subject's internal state. Further, in the electronic device 1 according to one embodiment, the decoder DNN of the control unit 10 performs , second biometric information X′ including the line of sight of the subject is estimated. Then, the electronic device 1 according to one embodiment assumes a plurality of values as the information Y indicating the internal state of the subject, and reproduces the first biological information X by the second biological information X′ among the plurality of values.
  • the value with the highest degree is estimated as the information Y indicating the subject's internal state.
  • the electronic device 1 also considers the degree of distribution deviation, which indicates how much the probability distribution followed by the unknown value Z estimated by the encoder ENN deviates from a predetermined probability distribution. As such, it may be estimated as information Y indicating the internal state of the subject.
  • the predetermined probability distribution may be a normal distribution.
  • the Kullback-Libra divergence may be used for the degree of subject-matter deviation.
  • a value that maximizes the reproducibility of the first biological information X by the second biological information X′ among a plurality of values assumed as the information Y indicating the internal state of the subject is predetermined.
  • a predetermined alarm may be output when the conditions of are satisfied.
  • the predetermined probability distribution may be a normal distribution.
  • the Kullback-Libra divergence may be used for the degree of subject-matter deviation.
  • the electronic device 1 estimates the internal state of the subject based on the model in which the biological information including the line of sight of the subject is generated due to the internal state of the subject. be able to. Therefore, the electronic device 1 according to one embodiment can reasonably estimate the internal state such as the degree of concentration of the subject based on the natural causal relationship. In addition, the electronic device 1 according to one embodiment can output a predetermined alarm when, for example, the concentration level of the target person who is driving a mobile body is lowered. Therefore, according to the electronic device 1 according to one embodiment, it is possible to enhance the safety of the target person who is driving a mobile object, for example.
  • human gaze and/or attentional behavior inherently have large individual differences.
  • an elderly person has a narrower range of motion of the line of sight than a young person. Therefore, when estimating the subject's internal state, there is a concern that, for example, the above-described individual differences may not be appropriately considered, or a highly accurate result cannot be obtained.
  • the causal relationship between the two is reversed as in conventional machine learning. It is also assumed that learning is performed so as to estimate the internal state from the reaction data. However, in such a case, the data structure inside the model becomes a black box because the causal relationship is reversed. . Moreover, since the causal relationship is black-boxed, it is difficult to objectively explain the causal relationship model to the user.
  • the algorithm for estimating the subject's internal state in the electronic device 1 is based on a generative model different from a general recognition model or regression model.
  • the generative model in the electronic device 1 learns from data the process in which the target's line of sight is generated based on the target's internal state and the target's attributes (age, gender, etc.). Therefore, according to the electronic device 1 according to one embodiment, it can be expected that the estimation accuracy can be improved in consideration of the individual attributes of the subject. Further, according to the electronic device 1 according to one embodiment, it is possible to objectively explain to the user the mechanism based on the data generation process. According to one embodiment, the subject's internal state, such as concentration, can be reasonably estimated based on the data generation process.
  • FIG. 7 is a block diagram showing a schematic functional configuration of an electronic device according to another embodiment.
  • an electronic device 2 includes a first imaging section 21 and a second imaging section 22, unlike the electronic device 1 shown in FIG.
  • the first imaging section 21 shown in FIG. 7 may function similarly to the imaging section 20 shown in FIG. That is, the first imaging unit 21 shown in FIG. 7 may be configured to capture an image of the subject. For this reason, the first imaging unit 21 shown in FIG. 7 may be installed facing the driver in front of a moving object such as a passenger car, like the imaging unit 20 shown in FIG.
  • the second imaging unit 22 shown in FIG. 7 may capture an image of the scenery that the subject can see.
  • the second imaging unit 22 may capture an image (for example, a peripheral image) including the scenery ahead of the subject's line of sight.
  • the second imaging unit 22 shown in FIG. may be
  • the data of the image captured by the second imaging section 22 is supplied to the line-of-sight prediction section 18 of the control section 10 .
  • the line-of-sight prediction unit 18 predicts the line of sight of the subject in the image of the scenery that the subject can see.
  • the line-of-sight predicting unit 18 estimates a map (line-of-sight prediction map) to which the subject's line of sight is predicted to be directed, from an image (for example, a peripheral image) including the scenery ahead of the subject's line of sight.
  • a map line-of-sight prediction map
  • an image for example, a peripheral image
  • Any existing technology may be adopted as the technology for generating the gaze prediction map based on the image of the scenery viewable by the subject.
  • the data of the line-of-sight prediction map estimated by the line-of-sight prediction unit 18 may be supplied to the estimation unit 14 .
  • the estimating unit 14 may add the data of the line-of-sight prediction map to the above-described motion in the learning phase and/or the estimating phase.
  • data of a line-of-sight prediction map may be included.
  • the subject's attribute information D may include information for predicting the subject's line of sight. Further, in this case, information for predicting the line of sight of the subject may be information predicted from a landscape image in front of the subject.
  • the electronic device 2 shown in FIG. 7 can estimate the subject's internal state based on the data of the subject's line-of-sight prediction map. Therefore, the electronic device 2 shown in FIG. 7 can be expected to have higher estimation accuracy than the electronic device 1 shown in FIG. 1 depending on the environment.
  • the second imaging section 22 is shown as a separate member from the first imaging section 21 .
  • image data used by the first imaging unit 21 and the second imaging unit 22 may be extracted from an image captured by one imaging unit like a drive recorder capable of 360° imaging.
  • the information Y indicating the internal state of the subject includes information indicating the degree of concentration of the subject (who is driving a moving object such as a passenger car).
  • the estimating unit 14 may estimate the subject's emotion or mood as the information Y indicating the subject's internal state.
  • the information indicating the emotion or mood of the subject is, for example, information indicating the degree of stress of the subject, information indicating the irritation or anger of the subject, fatigue, anxiety or worry of the subject.
  • Various types of information such as information indicating the emotions held, may be used.
  • the electronic device can perform the target An alert can be output according to the person's emotion or mood.
  • the estimating unit 14 of the electronic device according to one embodiment may include information indicating the emotion or mood of the subject when estimating the internal state of the subject in step S23 of FIG.
  • the control unit 10 of the electronic device may output a predetermined alarm according to the emotion or mood of the subject. Specifically, when the subject's degree of concentration is lowered and the subject's feelings of irritation or anger are shown, the control unit 10 of the electronic device according to one embodiment may, for example, soothe the subject. Tone and/or wording alerts may be output.
  • the information Y indicating the subject's internal state may include information indicating the subject's emotion or mood. Further, the electronic device according to one embodiment may output an alarm according to the subject's emotion or mood as a predetermined alarm, for example, when the subject's degree of concentration drops below a predetermined level.
  • the electronic device 1 according to the modified example of the embodiment described above can output an alarm according to the subject's emotion or mood. Therefore, the electronic device 1 according to the modified example of the embodiment described above can be expected to further improve the safety of the subject who is driving a mobile object, for example.
  • each functional unit, each means, each step, etc. are added to other embodiments so as not to be logically inconsistent, or each functional unit, each means, each step, etc. of other embodiments can be replaced with Also, in each embodiment, it is possible to combine a plurality of functional units, means, steps, etc. into one or divide them.
  • the above-described embodiments of the present disclosure are not limited to faithful implementation of the respective described embodiments, and may be implemented by combining features or omitting some of them as appropriate. can also
  • Reference Signs List 1 2 electronic device 10 control unit 12 extraction unit 14 estimation unit 16 determination unit 18 line-of-sight prediction unit 20 imaging unit 21 first imaging unit 22 second imaging unit 30 storage unit 40 notification unit ENN encoder DNN decoder

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Eye Examination Apparatus (AREA)
  • Image Analysis (AREA)

Abstract

電子機器は、エンコーダ及びデコーダを備える。エンコーダは、対象者の画像から抽出される対象者の視線を含む第1生体情報、対象者の属性情報、及び対象者の内部状態を示す情報に基づいて、未知の値を推定する。デコーダは、未知の値、対象者の属性情報、及び対象者の内部状態を示す情報に基づいて、対象者の視線を含む第2生体情報を推定する。電子機器は、第2生体情報による第1生体情報の再現度に基づいて、エンコーダ及びデコーダのパラメータを調整する。

Description

電子機器、電子機器の制御方法、及びプログラム 関連出願の相互参照
 本出願は、2021年4月27日に日本国に特許出願された特願2021-75343の優先権を主張するものであり、この先の出願の開示全体を、ここに参照のために取り込む。
 本発明は、電子機器、電子機器の制御方法、及びプログラムに関する。
 移動体の安全な運転には、運転者の注意力が求められる。それゆえ、運転者の注意力を観察して、注意力が低下する場合、運転者への警告を発したり、運転の支援を行ったりすることが検討されている。注意力の観察として、自車の周辺の対向車などの対象物に対する視線の重なり度合いの累積値である累積視認度を算出し、基準値と比較することが提案されている(特許文献1参照)。
 また、近年、対象者の集中度又は感情などの内部状態の推定を試みる研究が行われている。例えば、講義中に、教師の発話、学習者の生体情報、及び学習者の動画を記録し、講義後に学習者が各シーンにおける自身の感情を内観報告することにより、学習者の心的状態を推定する試みが報告されている(非特許文献1参照)。さらに、例えば、X線写真を診る読影士の視線データ及び診断結果のデータを収集して、深層学習によって胸部X線写真を診断する試みも報告されている(非特許文献2参照)。
国際公開第2008/029802号
松居 辰則、宇野 達朗、田和辻 可昌、「心的状態の時間遅れと持続モデルを考慮した生体情報からの学習者の心的状態推定の試み」、2018年度人工知能学会全国大会(第32回)、一般社団法人 人工知能学会 井上 大輝、木村 仁星、中山 浩太郎、作花 健也、Rahman Abdul、中島 愛、Patrick Radkohl、岩井 聡、河添 悦昌、大江 和彦、「視線データを活用した深層学習による胸部X線写真の診断的分類」、2019年度人工知能学会全国大会(第33回)、一般社団法人 人工知能学会
 一実施形態に係る電子機器は、
 対象者の画像から抽出される前記対象者の視線を含む第1生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、未知の値を推定するエンコーダと、
 前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、前記対象者の視線を含む第2生体情報を推定するデコーダと、
 を備える。
 前記電子機器は、前記第2生体情報による前記第1生体情報の再現度に基づいて、前記エンコーダ及び前記デコーダのパラメータを調整する。
 また、一実施形態に係る電子機器は、
 対象者の画像から抽出される前記対象者の視線を含む第1生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、未知の値を推定するエンコーダと、
 前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、前記対象者の視線を含む第2生体情報を推定するデコーダと、
 前記対象者の内部状態を示す情報として複数の値を仮定して、当該複数の値のうち前記第2生体情報による前記第1生体情報の再現度が最も高くなる値を、前記対象者の内部状態を示す情報と推定する推定部と、
 を備える。
 一実施形態に係る電子機器の制御方法は、
 対象者の画像から抽出される前記対象者の視線を含む第1生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、未知の値を推定するエンコードステップと、
 前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、前記対象者の視線を含む第2生体情報を推定するデコードステップと、
 前記第2生体情報による前記第1生体情報の再現度に基づいて、前記エンコードステップ及び前記デコードステップにおけるパラメータを調整するステップと、
 を含む。
 一実施形態に係る電子機器の制御方法は、
 対象者の画像から抽出される前記対象者の視線を含む第1生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、未知の値を推定するエンコードステップと、
 前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、前記対象者の視線を含む第2生体情報を推定するデコードステップと、
 前記対象者の内部状態を示す情報として複数の値を仮定して、当該複数の値のうち前記第2生体情報による前記第1生体情報の再現度が最も高くなる値を、前記対象者の内部状態を示す情報と推定するステップと、
 を含む。
 一実施形態に係るプログラムは、
 電子機器に、
 対象者の画像から抽出される前記対象者の視線を含む第1生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、未知の値を推定するエンコードステップと、
 前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、前記対象者の視線を含む第2生体情報を推定するデコードステップと、
 前記第2生体情報による前記第1生体情報の再現度に基づいて、前記エンコードステップ及び前記デコードステップにおけるパラメータを調整するステップと、
 を実行させる。
 一実施形態に係るプログラムは、
 電子機器に、
 対象者の画像から抽出される前記対象者の視線を含む第1生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、未知の値を推定するエンコードステップと、
 前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、前記対象者の視線を含む第2生体情報を推定するデコードステップと、
 前記対象者の内部状態を示す情報として複数の値を仮定して、当該複数の値のうち前記第2生体情報による前記第1生体情報の再現度が最も高くなる値を、前記対象者の内部状態を示す情報と推定するステップと、
 を実行させる。
第1実施形態に係る電子機器の概略構成を示すブロック図である。 第1実施形態に係る電子機器によるエンコードの例を説明する概念図である。 第1実施形態に係る電子機器によるデコードの例を説明する概念図である。 第1実施形態に係る電子機器における自己符号化器の動作を説明する概念図である。 第1実施形態に係る電子機器が学習フェーズにおいて行う動作を説明するローチャートである。 第1実施形態に係る電子機器が推定フェーズにおいて行う動作を説明するローチャートである。 第2実施形態に係る電子機器の概略構成を示すブロック図である。
 非特許文献1においては、対象者の生体情報と内部状態(感情など)との因果関係は、単純な識別モデルによっては合理的なモデル化が困難になることが懸念される。すなわち、本来、感情など心的状態が原因となって生体反応が生起されるのが合理的な情報処理の流れと考えられる。しかしながら、単純な識別モデルの学習では、逆に、生体情報から心的状態を推論する流れになっている。このため、モデルの構造が真実とは異なり、モデルの学習がうまく進まないことが想定される。また、対象者の生体情報に基づいて内部状態を推定するモデルのふるまいを使用者に説明することが必要な場面もある。このような観点からも、対象者の生体情報に基づいて内部状態を推定するモデルの因果関係について、合理性の更なる検証が望まれる。非特許文献2においても、非特許文献1と同様に、対象者の生体情報(視線データなど)と内部状態(疾患判断など)との因果関係も同様に、単純な識別モデルによっては合理的なモデル化が困難になることが懸念される。また、非特許文献2においても、対象者の生体情報に基づいて内部状態を推定するモデルの因果関係については、合理性の更なる検証が望まれる。以上のように、対象者の生体情報から対象者の集中度又は感情などの内部状態を良好な精度で推定するためには、データ生成の因果関係に関する合理的なモデル化が望ましい。特許文献1においては、累積視認度を算出するために、毎時における視認度を、テーブルを用いて算出している。しかしながら、実環境の多様な運転状況に対して適切なテーブルは異なっており、多様な運転状況において、運転者の注意力を正確に観察することは困難であった。
 本開示の目的は、対象者の集中度のような内部状態をデータ生成過程に基づいて合理的に推定する電子機器、電子機器の制御方法、及びプログラムを提供することにある。一実施形態によれば、対象者の集中度のような内部状態を合理的に推定する電子機器、電子機器の制御方法、及びプログラムを提供することができる。
以下、本開示を適用した電子機器の実施形態について、図面を参照して説明する。以下の説明は、本開示を適用した、電子機器の制御方法、及びプログラムの説明を兼ねてもよい。
 本開示において、「電子機器」とは、電力により駆動する機器としてよい。一実施形態に係る電子機器は、対象者の例えば集中度のような内部状態を推定する。ここで、「対象者」とは、一実施形態に係る電子機器によって内部状態が推定される対象となる者(典型的には人間)としてよい。また、本開示において、「ユーザ」とは、一実施形態に係る電子機器を使用する者(典型的には人間)としてよい。「ユーザ」は、「対象者」と同じ者としてもよいし、異なる者としてもよい。また、「ユーザ」及び「対象者」は、人間としてもよいし、人間以外の動物としてもよい。
 本開示の一実施形態に係る電子機器は、例えば、移動体に設けられる。移動体は、例えば車両、船舶、及び航空機等を含んでよい。車両は、例えば自動車、産業車両、鉄道車両、生活車両、及び滑走路を走行する固定翼機等を含んでよい。自動車は、例えば乗用車、トラック、バス、二輪車、及びトロリーバス等を含んでよい。産業車両は、例えば農業及び建設向けの産業車両等を含んでよい。産業車両は、例えばフォークリフト及びゴルフカート等を含んでよい。農業向けの産業車両は、例えばトラクター、耕耘機、移植機、バインダー、コンバイン、及び芝刈り機等を含んでよい。建設向けの産業車両は、例えばブルドーザー、スクレーバー、ショベルカー、クレーン車、ダンプカー、及びロードローラ等を含んでよい。車両は、人力で走行するものを含んでよい。車両の分類は、上述した例に限られない。例えば、自動車は、道路を走行可能な産業車両を含んでよい。複数の分類に同じ車両が含まれてよい。船舶は、例えばマリンジェット(personal watercraft(PWC))、ボート、及びタンカー等を含んでよい。航空機は、例えば固定翼機及び回転翼機等を含んでよい。また、本開示の「ユーザ」及び「対象者」は、車両などの移動体を運転している者でもよいし、車両なの移動体を運転していない車両の同乗者でもよい。
 一実施形態に係る電子機器1は、各種の機器としてよい。例えば、一実施形態に係る電子機器は、専用に設計された端末の他、汎用のスマートフォン、タブレット、ファブレット、ノートパソコン(ノートPC)、コンピュータ、又はサーバなどのように、任意の機器としてよい。また、一実施形態に係る電子機器は、例えば携帯電話又はスマートフォンのように、他の電子機器と通信を行う機能を有してもよい。ここで、上述の「他の電子機器」とは、例えば携帯電話又はスマートフォンのような電子機器としてもよいし、例えば基地局、サーバ、専用端末、又はコンピュータのように、任意の機器としてもよい。また、本開示における「他の電子機器」も、電力によって駆動される機器又は装置などとしてよい。一実施形態に係る電子機器が、他の電子機器と通信を行う際には、有線及び/又は無線による通信を行うものとしてよい。
 以下、一例として、一実施形態に係る電子機器1は、例えば乗用車のような移動体に設けられるものとして説明する。この場合、一実施形態に係る電子機器1は、乗用車のような移動体に搭乗している者(運転者又は非運転者)の所定の内部状態(例えば所定の心理状態)を推定することができる。以下、一実施形態に係る電子機器1が、乗用車のような移動体を運転する運転者の内部状態として、運転者の運転時の集中度を推定する例について説明する。この場合、一実施形態に係る電子機器1は、例えば運転中に撮像された運転者の画像などに基づいて、運転者の運転時の集中度を推定することができる。
 図1は、一実施形態に係る電子機器の機能的な概略構成を示すブロック図である。
 図1に示すように、一実施形態に係る電子機器1は、制御部10、撮像部20、記憶部30、及び報知部40を含んで構成されてよい。また、制御部10、図1に示すように、抽出部12、推定部14、及び判定部16を含んで構成されてよい。一実施形態に係る電子機器1は、図1に示す全ての機能部を含んでもよいし、図1に示す機能部の少なくとも一部を含まなくてもよい。例えば、一実施形態に係る電子機器1は、図1に示す制御部10のみを備えてもよい。この場合、一実施形態に係る電子機器1は、外部機器として用意される、撮像部20、記憶部30、及び報知部40などに接続されるようにしてもよい。また、以下に説明するエンコーダENN及びデコーダDNNの機能は、制御部10、推定部14、及び記憶部30の少なくともいずれか1つの機能により実現される。入力した情報やデータは、例えば、抽出部12、エンコーダENN、デコーダDNN、判定部16の順に送信されるとしてよい。また、エンコーダENNから、以下に説明する潜在変数Zが出力されてもよい。この場合、出力された潜在変数Zは、デコーダDNNに入力されてもよい。
 制御部10は、電子機器1を構成する各機能部をはじめとして、電子機器1の全体を制御及び/又は管理する。制御部10は、種々の機能を実行するための制御及び処理能力を提供するために、例えばCPU(Central Processing Unit)又はDSP(Digital Signal Processor)のような、少なくとも1つのプロセッサを含んでよい。制御部10は、まとめて1つのプロセッサで実現してもよいし、いくつかのプロセッサで実現してもよいし、それぞれ個別のプロセッサで実現してもよい。プロセッサは、単一の集積回路として実現されてよい。集積回路は、IC(Integrated Circuit)ともいう。プロセッサは、複数の通信可能に接続された集積回路及びディスクリート回路として実現されてよい。プロセッサは、他の種々の既知の技術に基づいて実現されてよい。
 制御部10は、1以上のプロセッサ及びメモリを含んでもよい。プロセッサは、特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、及び特定の処理に特化した専用のプロセッサを含んでよい。専用のプロセッサは、特定用途向けIC(ASIC;Application Specific Integrated Circuit)を含んでよい。プロセッサは、プログラマブルロジックデバイス(PLD;Programmable Logic Device)を含んでよい。PLDは、FPGA(Field-Programmable Gate Array)を含んでよい。制御部10は、1つ又は複数のプロセッサが協働するSoC(System-on-a-Chip)、及びSiP(System In a Package)のいずれかであってもよい。制御部10は、電子機器1の各構成要素の動作を制御する。
 制御部10は、例えば、ソフトウェア及びハードウェア資源の少なくとも一方を含んで構成されてよい。また、一実施形態に係る電子機器1において、制御部10は、ソフトウェアとハードウェア資源とが協働した具体的手段によって構成されてもよい。制御部10に含まれる抽出部12、推定部14、及び判定部16の少なくともいずれかは、ソフトウェア及びハードウェア資源の少なくとも一方を含んで構成されてよい。また、一実施形態に係る電子機器1において、抽出部12、推定部14、及び判定部16の少なくともいずれかは、ソフトウェアとハードウェア資源とが協働した具体的手段によって構成されてもよい。
 抽出部12は、撮像部20によって撮像された対象者の画像から、対象者の視線を抽出する。推定部14は、例えば対象者の集中度のような内部状態を推定する。判定部16は、推定部14によって推定された対象者の内部状態が所定の条件を満たすか否か判定する。判定部16は、対象者の内部状態が所定の条件を満たす場合(例えば対象者の集中度が所定以下に低下した場合など)、所定の警報信号を報知部40に出力する。本開示において、対象者の視線がデータとして抽出される視線のデータは、注視点の座標値(x,y)として扱ってよい。また、本開示において、視線のデータは、対象者の注視点の座標のみならず、例えば瞳孔径及び/又は眼球の回転情報などを視線の特徴量として用いてもよい。
 制御部10の動作、並びに、制御部10に含まれる抽出部12、推定部14、及び判定部16の動作については、さらに後述する。
 撮像部20は、例えばデジタルカメラのような、電子的に画像を撮像するイメージセンサを含んで構成されてよい。撮像部20は、CCD(Charge Coupled Device Image Sensor)又はCMOS(Complementary Metal Oxide Semiconductor)センサ等のように、光電変換を行う撮像素子を含んで構成されてよい。例えば、撮像部20は、撮像した画像に基づく信号を、制御部10などに供給してよい。このため、図1に示すように、撮像部20は、制御部10に有線及び/又は無線で接続されてよい。撮像部20は、対象者の画像を撮像するものであれば、デジタルカメラのような撮像デバイスに限定されず、任意の撮像デバイスとしてよい。例えば、撮像部20は、近赤外線カメラを採用することで、光を反射する特徴の差異、及び/又は、光を吸収する特徴の差異などを、画像として撮像することができる。
 撮像部20は、対象者の画像を撮像する。以下、対象者の例として、乗用車のような移動体を運転する運転者を想定して説明する。すなわち、一実施形態において、撮像部20は、乗用車のような移動体を運転する運転者を撮像する。一実施形態において、撮像部20は、例えば対象者を所定時間ごと(例えば秒間30フレーム)の静止画として撮像してもよい。また、一実施形態において、撮像部20は、例えば対象者を連続した動画として撮像してもよい。撮像部20は、RGBデータ、及び/又は、赤外線データなどの各種のデータ形態で対象者の画像を撮像するものとしてよい。
 撮像部20は、運転者を撮像するために、例えば乗用車のような移動体の内部前方において、運転者に向けて設置されてよい。撮像部20によって撮像された対象者の画像は、制御部10に供給される。後述のように、制御部10において、抽出部12は、対象者の画像から、対象者の視線を含む生体情報を抽出する。このため、撮像部20は、運転者の視線を含む画像を撮像するのに適した箇所に設置されてよい。
 記憶部30は、各種の情報を記憶するメモリとしての機能を有してよい。記憶部30は、例えば制御部10において実行されるプログラム、及び、制御部10において実行された処理の結果などを記憶してよい。また、記憶部30は、制御部10のワークメモリとして機能してよい。このため、図1に示すように、記憶部30は、制御部10に有線及び/又は無線で接続されてよい。記憶部30は、例えば、RAM(Random Access Memory)及びROM(Read Only Memory)の少なくとも一方を含んでもよい。記憶部30は、例えば半導体メモリ等により構成することができるが、これに限定されず、任意の記憶装置とすることができる。例えば、記憶部30は、一実施形態に係る電子機器1に挿入されたメモリカードのような記憶媒体としてもよい。また、記憶部30は、制御部10として用いられるCPUの内部メモリであってもよいし、制御部10に別体として接続されるものとしてもよい。
 記憶部30は、例えば機械学習データを記憶してもよい。ここで、機械学習データは、機械学習によって生成されるデータとしてよい。機械学習データは、機械学習によって生成されるパラメータを含むものとしてよい。また、機械学習とは、特定のタスクをトレーニングによって実行可能になるAI(Artificial Intelligence)の技術に基づくものとしてよい。より具体的には、機械学習とは、コンピュータのような情報処理装置が多くのデータを学習し、分類及び/又は予測などのタスクを遂行するアルゴリズム又はモデルを自動的に構築する技術としてよい。本明細書において、AIの一部には、機械学習が含まれるとしてもよい。本明細書において、機械学習には、正解データをもとに入力データの特徴又はルールを学習する教師あり学習が含まれるものとしてよい。また、機械学習には、正解データがない状態で入力データの特徴又はルールを学習する教師なし学習が含まれるものとしてもよい。さらに、機械学習には、報酬又は罰などを与えて入力データの特徴又はルールを学習する強化学習などが含まれるものとしてもよい。また、本明細書において、機械学習は、教師あり学習、教師なし学習、及び強化学習を任意に組み合わせたものとしてもよい。
 本実施形態の機械学習データの概念は、入力データに対して学習されたアルゴリズムを用いて所定の推論(推定)結果を出力するアルゴリズムを含むとしてもよい。本実施形態は、このアルゴリズムとして、例えば、従属変数と独立変数との関係を予測する線形回帰、人の脳神経系ニューロンを数理モデル化したニューラルネットワーク(NN)、誤差を二乗して算出する最小二乗法、問題解決を木構造にする決定木、及びデータを所定の方法で変形する正則化などその他適宜なアルゴリズムを用いることができる。本実施形態は、ニューラルネットワークの一種であるディープニューラルネットワークを利用するとしてよい。ディープニューラルネットワークは、ニューラルネットワークの一種であり、一般にネットワークの中間層が1層以上の深い構造のものを意味する。ディープラーニングは、AIを構成するアルゴリズムとして多用されている。
 一実施形態において、記憶部30に記憶される情報は、例えば工場出荷時などまでに予め記憶された情報としてもよいし、制御部10などが適宜取得する情報としてもよい。一実施形態において、記憶部30は、制御部10又は電子機器1などに接続された通信部(通信インタフェース)から受信する情報を記憶してもよい。この場合、通信部は、例えば外部の電子機器又は基地局などと無線又は有線の少なくとも一方で通信することにより、各種の情報を受信してよい。また、一実施形態において、記憶部30は、制御部10又は電子機器1に接続された入力部(入力インタフェース)などに入力された情報を記憶してもよい。この場合、電子機器1のユーザ又はその他の者は、入力部を操作することにより、各種の情報を入力してよい。
 報知部40は、制御部10から出力される所定の信号(例えば警報信号など)に基づいて、電子機器1のユーザなどに注意を促すための所定の警報を出力してよい。このため、図1に示すように、報知部40は、制御部10に有線及び/又は無線で接続されてよい。報知部40は、所定の警報として、例えば音、音声、光、文字、映像、及び振動など、ユーザの聴覚、視覚、及び触覚の少なくともいずれかを刺激する任意の機能部としてよい。具体的には、報知部40は、例えばブザー又はスピーカのような音声出力部、LEDのような発光部、LCDのような表示部、及びバイブレータのような触感呈示部などの少なくともいずれかを含んで構成されてよい。このように、報知部40は、制御部10から出力される所定の信号に基づいて、所定の警報を出力してよい。一実施形態において、報知部40は、所定の警報を、人間などの生物の聴覚、視覚、及び触覚の少なくともいずれかに作用する情報として出力してもよい。
 一実施形態において、報知部40は、例えば対象者の内部状態として当該対象者の集中度が所定の閾値以下に低下と推定されると、対象者の集中力が低下した旨の警報を出力してよい。例えば、一実施形態において、視覚情報を出力する報知部40は、例えば運転者の集中度が所定の閾値以下に低下と推定されると、その旨を発光又は所定の表示などによって運転者及び/又は他のユーザなどに報知してよい。また、一実施形態において、聴覚情報を出力する報知部40は、例えば運転者の集中度が所定の閾値以下に低下と推定されると、その旨を所定の音又は音声などによって運転者及び/又は他のユーザなどに報知してよい。また、一実施形態において、触覚情報を出力する報知部40は、例えば運転者の集中度が所定の閾値以下に低下と推定されると、その旨を所定の振動などによって運転者及び/又は他のユーザなどに報知してよい。このようにして、運転者及び/又は他のユーザなどは、例えば運転者の集中度が低下している旨を知ることができる。
 次に、一実施形態に係る電子機器1による、対象者の内部情報の推定について説明する。
 一実施形態に係る電子機器1は、自己符号化器(auto encoder)を用いて、運転者の運転中の画像などに基づく機械学習を行うことにより、運転者の集中度などのような内部状態を推定する。自己符号化器は、ニューラルネットワークのアーキテクチャの1つである。自己符号化器は、エンコーダ(以下、符号ENNを対応させることがある)及びデコーダ(以下、符号DNNを対応させることがある)を含むニューラルネットワークである。一実施形態に係る電子機器1において、制御部10は、自己符号化器としての機能を含んでよい。すなわち、一実施形態に係る電子機器1の制御部10は、エンコーダENN及びデコーダDNNとしての機能を備える。
 図2及び図3は、一実施形態に係る電子機器1において自己符号化器として機能するニューラルネットワークを概念的に示す図である。図2は、エンコーダを概念的に示す図である。すなわち、図2は、一実施形態に係る電子機器1において自己符号化器として機能するニューラルネットワークのエンコーダENNを概念的に示す図である。また、図3は、デコーダを概念的に示す図である。まず、一実施形態に係る電子機器1が対象者(運転者)の画像に基づいて、対象者の集中度のような内部状態を推定する原理について説明する。すなわち、図3は、一実施形態に係る電子機器1において自己符号化器として機能するニューラルネットワークのデコーダDNNを概念的に示す図である。
 一実施形態に係る電子機器1によって対象者の内部状態を推定するに際し、図3に示すように、対象者の画像に関連する第2生体情報X’は、内部状態を示す情報Yと、未知の値Zと、属性情報Dが原因となって生じる、という生成プロセスを仮定する。ここで、対象者の画像に関連する第2生体情報X’は、対象者(例えば運転者)の視線の画像を含む情報としてよい。また、内部状態を示す情報Yは、対象者の例えば集中度のような内部状態を示す情報を含むものとしてよい。また、未知の値Zは、観測できない潜在変数を含むものとしてよい。さらに、属性情報Dは、対象者の例えば年齢及び/又は性別などの属性を示す情報を含むものとしてよい。
 一実施形態に係る電子機器1による機械学習時においては、まず、図2に示すように、ニューラルネットワークのエンコーダENNを用いて、対象者の画像に関連する第1生体情報Xと、内部状態を示す情報Yと、属性情報Dとから、未知の値Zを推論する。ここで、対象者の画像に関連する第1生体情報Xは、対象者(例えば運転者)の視線の画像を含む情報としてよい。この第1生体情報Xに含まれる対象者の視線の画像は、撮像部20によって撮像される対象者の画像から、抽出部12によって抽出されるものとしてよい。また、内部状態を示す情報Yは、上述のように、対象者の例えば集中度のような内部状態を示す情報を含むものとしてよい。また、属性情報Dは、上述のように、対象者の例えば年齢及び/又は性別などの属性を示す情報を含むものとしてよい。さらに、未知の値Zは、上述のように、観測できない潜在変数を含むものとしてよい。以下、対象者の内部状態を推定するための学習を行うフェーズを、単に「学習フェーズ」と記すことがある。
 上述のように未知の値Zが推論されると、図3に示すニューラルネットワークのデコーダDNNを用いて、推論された未知の値Zと、内部状態を示す情報Yと、属性情報Dとから、対象者の画像に関連する第2生体情報X’を生成することができる。ここで、対象者の画像に関連する第2生体情報X’は、対象者の画像に関連する第1生体情報Xを再構成したものとなる。一実施形態に係る電子機器1において、この第2生体情報X’が、元の第1生体情報Xから変化した度合いを損失関数とし、誤差逆伝搬によってニューラルネットワークの重みパラメータを更新してよい。また、この損失関数に、未知の値Zの従う確率分布が所定の確率分布からどの程度逸脱したかを表す正則化項を含んでもよい。この所定の確率分布は、例えば正規分布であってもよい。この所定の確率分布と未知の値Zが従う分布との逸脱度合いを表す項として、カルバック・ライブラダイバージェンスを用いてもよい。
 図4は、一実施形態に係る電子機器1における自己符号化器による実装を概念的に示す図である。まず、一実施形態に係る電子機器1による学習フェーズについて説明する。
 図4に示すように、一実施形態に係る電子機器1において、最下段に示す第1生体情報Xが与えられ、さらに内部状態を示す情報Y及び属性情報Dが与えられると、図4の中段に示す未知の値Zが推論される。そして、一実施形態に係る電子機器1において、未知の値Zが推論され、さらに内部状態を示す情報Y及び属性情報Dが与えられると、最上段に示す第2生体情報X’が得られる。
 一実施形態に係る電子機器1において、第1生体情報X及び属性情報Dのみが与えられることにより、内部状態を示す情報Y及び未知の値Zが推定されるようにしてもよい。また、対象者の例えば年齢及び/又は性別などの属性を示す情報を含む属性情報Dは、予め記憶部30に記憶されてもよいし、入力部から入力されてもよいし、通信部から受信してもよい。また、属性情報Dは、撮像部20によって撮像される対象者の画像から、制御部10などによって推定されるものとしてもよい。
 図4に示すように、一実施形態に係る電子機器1において、自己符号化器は、対象者の画像に関連する第1生体情報X、内部状態を示す情報Y、及び属性情報Dから、未知の値Zを介して、対象者の画像に関連する第2生体情報X’を再現する。すなわち、一実施形態に係る電子機器1において、自己符号化器は、対象者の視線の画像及び視線の特徴量(第1生体情報X)の少なくとも一方に基づいて、対象者の視線の画像及び視線の特徴量(第2生体情報X’)の少なくとも一方を再構成する機能を備える。本開示において、対象者の視線の画像及び視線の特徴量の少なくとも一方には、注視点の座標値(x,y)を含むとしてよい。また、本開示において、対象者の視線の画像及び視線の特徴量には、注視点の座標だけでなく、例えば瞳孔径若しくは眼球の回転情報、又はこれらの組み合わせなどの視線の特徴量が含まれるとしてもよい。本開示において、対象者の視線の画像及び視線の特徴量の少なくとも一方を抽出することを、単に「視線を抽出する」又は「視線を取得する」等と表記することがある。本開示において、対象者の視線の画像及び視線の特徴量の少なくとも一方を推定することを、単に「視線を推定する」又は「視線を算出する」等と表記することもある。また、本開示において、対象者の視線の画像及び視線の特徴量の少なくとも一方は、眼球領域を含む画像を含むとしてもよい。また、以下の説明において、ニューラルネットワークに入力される情報は、画像を処理した後に得られる生体情報であるため、上記眼球領域を含む画像を有する視線情報と定義してもよい。
 一実施形態に係る電子機器1において、内部状態を示す情報Yを推定するために、例えば集中度とする内部状態の種々の場合について、対象者の視線の画像又は視線の特徴量(第2生体情報X’)を再構成してよい。例えば、対象者が移動体の運転のみに完全に集中している状態を意図的に作り出し、その時の内部状態を示す情報Yに対応する対象者の視線の画像又は視線の特徴量(第2生体情報X’)を、一実施形態に係る電子機器1の自己符号化器によって再構成してよい。また、例えば、対象者が移動体の運転に完全には集中していない状態を意図的に作り出し、その時の内部状態を示す情報Yに対応する対象者の視線の画像又は視線の特徴量(第2生体情報X’)を、一実施形態に係る電子機器1の自己符号化器によって再構成してよい。ここで、対象者が移動体の運転に完全には集中していない状態とは、運転者が運転以外のタスクに注意を奪われている状態であるとしてよい。例えば、運転者が移動体の運転中に、運転以外のタスクとして所定の暗算などを同時に行う状態としてもよい。そして、所定の暗算のレベル(比較的簡単な暗算又は比較的複雑な暗算など)に応じて、対象者が移動体の運転に完全には集中していない状態の度合いを段階的に調節してもよい。例えば、運転者が移動体の運転中に非常に簡単な暗算を同時に行う状態は、対象者が移動体の運転に完全には集中していないが比較的集中している状態としてもよい。また、運転者が移動体の運転中に相当複雑な暗算を同時に行う状態は、対象者が移動体の運転に比較的集中していない状態としてもよい。
 上述のようにして、一実施形態に係る電子機器1において、内部状態を示す情報Yの種々の場合について、対象者の視線の画像又は視線の特徴量(第2生体情報X’)を再構成してよい。内部状態を示す情報Yは、例えば集中している状態においてY=0とし、例えば集中していない状態においてY=1などとしてよい。そして、種々の内部状態を示す情報Yに基づいて再構成される対象者の視線の画像(第2生体情報X’)が、元の対象者の視線の画像(第1生体情報X)を再現した度合いに応じて、内部状態を示す情報Yの妥当性を判断してよい。例えば、ある内部状態を示す情報Y1に基づいて再構成された対象者の視線の画像(第2生体情報X’)が、元の対象者の視線の画像又は視線の特徴量(第1生体情報X)を再現する度合いが高い場合、内部状態を示す情報Y1の妥当性は高い(すなわち正解に近い)と判断してよい。一方、ある内部状態を示す情報Y2に基づいて再構成された対象者の視線の画像又は視線の特徴量(第2生体情報X’)が、元の対象者の視線の画像又は視線の特徴量(第1生体情報X)を再現する度合いが低い場合、内部状態を示す情報Y2の妥当性は低い(すなわち正解から遠い)と判断してよい。このようにして、一実施形態に係る電子機器1は、第2生体情報X’による第1生体情報Xの再現度に基づいて、エンコーダENN及びデコーダDNNのパラメータを調整してよい。また、この再現度に加えて、エンコーダENNによって推定された未知の値Zの従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度も含めた損失関数に基づいて、エンコーダENN及びデコーダDNNのパラメータを調整してよい。この場合、所定の確率分布は、正規分布であってもよい。また、前述の場合、分布逸脱度はカルバック・ライブラダイバージェンスであってもよい。
 図5は、一実施形態に係る電子機器1による学習フェーズを説明するフローチャートである。以下、図5を参照して、一実施形態に係る電子機器1による学習フェーズを説明する。
 図5に示す学習フェーズの動作が開始するに際し、対象者(運転者)は移動体を運転しているものとする。ここで、対象者は、乗用車のような移動体を現実に運転していてもよいし、例えばドライブシミュレータを用いて仮想的に移動体を運転していてもよい。また、図5に示す動作が開始するに際し、撮像部20は対象者の画像を撮像しているものとする。ここで、撮像部20は、対象者の画像から対象者の視線の画像及び視線の特徴量の少なくとも一方が抽出できるように、対象者の視線を含む画像を撮像するものとしてよい。
 また、図5に示す動作が開始するに際し、記憶部30は、対象者の所定の属性情報を記憶しているものとする。ここで、対象者の所定の属性情報とは、例えば、対象者の性別、年齢、及び年齢の区分(20代、30代、40代など)の少なくともいずれかを含むものとしてよいが、運転者の運転歴など他の属性情報であってもよい。記憶部30は、上述のような対象者の所定の属性情報を予め記憶していてもよいし、必要に応じて対象者などに入力部などから入力を求めてもよいし、必要に応じて通信部などから受信してもよい。
 図5に示す動作が開始すると、一実施形態に係る電子機器1の制御部10は、撮像部20によって撮像された対象者の画像を取得する(ステップS11)。ステップS11において取得される対象者の画像とは、上述のように、対象者の視線の画像及び視線の特徴量の少なくとも一方が抽出できるように、対象者の視線を含む画像としてよい。
 ステップS11において対象者の画像を取得したら、制御部10の抽出部12は、対象者の画像から対象者の注視点の位置の座標など、視線の画像及び視線の特徴量の少なくとも一方を抽出する(ステップS12)。ステップS12において、対象者の画像から対象者の視線を抽出する技術は、例えば画像認識などの任意の技術を採用してよい。このようにして、一実施形態に係る電子機器1の制御部10は、ステップS12において、対象者の画像から抽出される対象者の視線を含む第1生体情報Xを取得する。
 ステップS12において対象者の視線が抽出されたら、制御部10は、対象者の所定の属性情報を取得する(ステップS13)。ステップS13において、制御部10は、対象者の所定の属性情報を例えば記憶部30から取得してよい。また、上述のように、対象者の所定の属性情報とは、例えば、対象者の性別、年齢、年齢の区分(20代、30代、40代など)、及び運転歴の少なくともいずれかを含むものとしてよい。このようにして、一実施形態に係る電子機器1の制御部10は、ステップS13において、対象者の属性情報Dを取得する。本開示における運転歴は、運転期間、事故履歴、免許取得時期、免許保持期間、運転講習受講履歴、及び運転可能な車種情報などのうちの少なくとも1つを含むとしてよい。
 ステップS13において対象者の属性情報を取得したら、制御部10の推定部14は、未知の値を推定する(ステップS14)。ステップS14において、推定部14は、自己符号化器のエンコーダENNによって、対象者の視線を含む第1生体情報X、対象者の属性情報D、及び対象者の内部状態を示す情報Yに基づいて、未知の値Zを推定してよい(図2参照)。ここで、対象者の内部状態を示す情報Yは、上述のように、外的に作り出した対象者の集中度に対応する値としてよい。
 ステップS14において未知の値が推定されたら、制御部10の推定部14は、対象者の視線を含む第2生体情報を推定する(ステップS15)。ステップS14において、推定部14は、自己符号化器のデコーダDNNによって、対象者の内部状態を示す情報Y、未知の値Z、及び対象者の属性情報Dに基づいて、対象者の視線を含む第2生体情報X’を推定してよい(図3参照)。
 ステップS15において第2生体情報X’が推定されたら、制御部10は、エンコーダENN及びデコーダDNNのパラメータを調整する(ステップS16)。ステップS16において、制御部10は、対象者の視線を含む第2生体情報X’によって、対象者の視線を含む第1生体情報Xが再現される度合いに基づいて、エンコーダENN及びデコーダDNNのパラメータを調整してよい。また、前述のように、この再現の度合いに加えて、エンコーダENNによって推論された未知の値Zの従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度も含めた損失関数に基づいて、エンコーダENN及びデコーダDNNのパラメータを調整してよい。以上のような学習フェーズにおける動作によって、一実施形態に係る電子機器1は学習を行うことができる。
 このように、一実施形態に係る電子機器1において、制御部10のエンコーダENNは、対象者の画像から抽出される対象者の視線を含む第1生体情報X、対象者の属性情報D、及び対象者の内部状態を示す情報Yに基づいて、未知の値Zを推定する。また、一実施形態に係る電子機器1において、制御部10のデコーダDNNは、未知の値Z、対象者の属性情報D、及び対象者の内部状態を示す情報Yに基づいて、対象者の視線を含む第2生体情報X’を推定する。そして、一実施形態に係る電子機器1は、第2生体情報X’による第1生体情報Xの再現度、及び当該再現度と未知の値Zの分布逸脱度のうちの少なくとも一方に基づいて、エンコーダENN及びデコーダDNNのパラメータを調整する。
 一実施形態において、対象者の内部状態を示す情報Yは、対象者の集中度を示す情報を含んでもよい。特に、一実施形態において、対象者の内部状態を示す情報Yは、対象者が乗り物を運転している最中の集中度を示す情報を含んでもよい。
 また、一実施形態において、対象者の属性情報Dは、対象者の性別を含んでもよい。また、一実施形態において、対象者の属性情報Dは、対象者の年齢又は年齢の区分を含んでもよい。また、一実施形態において、対象者の属性情報Dは、対象者の運転歴などを含んでもよい。
 一方、一実施形態において、対象者の性別、対象者の年齢、対象者の年齢の区分、及び対象者の運転歴の少なくともいずれかのような対象者の属性は、対象者の画像から推定されてもよい。例えば、一実施形態に係る電子機器1において、制御部10(又は推定部14)は、撮像部20によって撮像された対象者の画像から、対象者の性別、対象者の年齢、対象者の年齢の区分、及び対象者の運転歴の少なくともいずれかのような対象者の属性を推定してもよい。ここで、対象者の属性は、対象者の画像から画像認識などの任意の技術によって推定されてよい。また、対象者の属性は、機械学習などによって、対象者の画像から推定される精度を向上させてもよい。すなわち、一実施形態において、対象者の属性情報Dは、対象者の画像に基づいて推定されてもよい。また、この画像から属性情報を推定する部分のみを事前に機械学習してもよい。その際、内部状態の推定に使用する学習データとは別のデータをつかって学習を行ってもよい。
 上述のようにして、一実施形態に係る電子機器1は、学習フェーズを実行することにより、対象者の内部状態を推定することができる。以下、対象者の内部状態を推定するフェーズを、単に「推定フェーズ」と記すことがある。
 図6は、一実施形態に係る電子機器1による推定フェーズを説明するフローチャートである。以下、図6を参照して、一実施形態に係る電子機器1による推定フェーズを説明する。
 図6に示す推定フェーズの動作が開始するに際し、対象者(運転者)は移動体を運転しているものとする。ここで、対象者は、乗用車のような移動体を現実に運転しているものとする。また、検証実験のようなテストにおいては、対象者は、例えばドライブシミュレータを用いて仮想的に移動体を運転していてもよい。また、図6に示す動作が開始するに際し、撮像部20は対象者の画像を撮像しているものとする。ここで、撮像部20は、対象者の画像から対象者の視線が抽出できるように、対象者の視線を含む画像を撮像するものとしてよい。
 また、図6に示す動作が開始するに際し、記憶部30は、対象者の所定の属性情報を記憶しているものとする。ここで、対象者の所定の属性情報とは、例えば、対象者の性別、年齢、年齢の区分(20代、30代、40代など)、及び運転歴の少なくともいずれかを含むものとしてよい。記憶部30は、上述のような対象者の所定の属性情報を予め記憶していてもよいし、必要に応じて対象者などに入力部などから入力を求めてもよいし、必要に応じて通信部などから受信してもよい。
 図6に示す動作が開始すると、一実施形態に係る電子機器1の制御部10は、撮像部20によって撮像された対象者の画像を取得する(ステップS21)。ステップS21において取得される対象者の画像とは、上述のように、対象者の視線が抽出できるように、対象者の視線を含む画像としてよい。ステップS21の動作は、図5に示したステップS11の動作と同様に行ってよい。
 ステップS21において対象者の画像を取得したら、制御部10の抽出部12は、対象者の画像から対象者の視線及び視線の特徴量のうちの少なくとも一方を抽出する(ステップS22)。ステップS22の動作は、図5に示したステップS12の動作と同様に行ってよい。このようにして、一実施形態に係る電子機器1の制御部10は、ステップS22において、対象者の画像から抽出される対象者の視線を含む第1生体情報Xを取得する。
 ステップS22において対象者の視線が抽出されたら、制御部10の推定部14は、対象者の内部状態を示す情報Yを推定する(ステップS23)。ステップS23において推定される対象者の内部状態を示す情報Yは、例えば対象者の集中度を示す情報としてよい。特に、一実施形態において、対象者の内部状態を示す情報Yは、例えば対象者が乗用車のような乗り物(移動体)を運転している最中の集中度を示す情報を含んでよい。
 ステップS23において、一実施形態に係る電子機器1は、例えば以下のようにして、対象者の内部状態を示す情報Yを推定してよい。すなわち、例えば、一実施形態に係る電子機器1の制御部10は、例えば集中している状態における内部状態を示す情報Yを0とし、例えば集中していない状態における内部状態を示す情報Yを1とするなどとして、複数の内部状態を示す情報Yを仮定する。同様に、一実施形態において、制御部10は、例えば内部状態を示す情報Yを0から1の間で複数仮定してもよい。
 そして、制御部10は、このように仮定した複数の内部状態を示す情報Yのそれぞれについて、再構成された対象者の視線及び視線の特徴量のうちの少なくとも一方(第2生体情報X’)が、元の対象者の視線の画像(第1生体情報X)を再現する度合いを検証する。そして、推定部14は、再構成された対象者の視線及び視線の特徴量のうちの少なくとも一方(第2生体情報X’)が、元の対象者の視線及び視線の特徴量のうちの少なくとも一方(第1生体情報X)を再現する度合い(再現度)を最も高くする内部状態を示す情報Yを、その時の対象者の内部状態(集中度)と推定する。例えば、対象者の内部状態を示す情報Yが0の時に、上述の再現度が最も高くなる場合、推定部14は、対象者が集中している状態と推定してよい。一方、例えば、対象者の内部状態を示す情報Yが1の時に、上述の再現度が最も高くなる場合、推定部14は、対象者が集中していない状態と推定してよい。また、例えば、対象者の内部状態を示す情報Yが0から1の間の値の時に、上述の再現度が最も高くなる場合、推定部14は、対象者が当該値に対応する集中度である状態と推定してよい。また、推定部14は、エンコーダENNが推定した未知の値Zの従う確率分布が所定の確率分布からどれくらい逸脱しているかを表す分布逸脱度を用いて対象者の内部状態を推定してもよい。当該所定の確率分布は正規分布であってもよい。当該分野逸脱度はカルバック・ライブラダイバージェンスを用いてもよい。
 ステップS23において対象者の内部状態を示す情報Yが推定されたら、判定部16は、推定された集中度が所定の閾値以下であるか否かを判定する(ステップS24)。ステップS24の処理を行うに際し、対象者の集中度について警報を出す基準となる所定の閾値を予め設定しておいてよい。このようにして設定された所定の閾値は、例えば記憶部30に記憶してもよい。ステップS24において、判定部16は、推定された集中度が所定の閾値以下であるか否かのように、推定された集中度が所定の条件を満たすか否かを判定してよい。
 ステップS24において集中度が所定の閾値以下である(集中度が低下した)場合、判定部16は、所定の警報を報知部40から出力して(ステップS25)、図6に示す動作を終了してよい。一方、ステップS24において集中度が所定の閾値以下でない(集中度が低下していない)場合、判定部16は、図6に示す動作を終了してよい。図6に示す動作が終了すると、制御部10は、適宜、図6に示す処理を再び開始してもよい。
 このように、一実施形態に係る電子機器1において、制御部10のエンコーダENNは、対象者の画像から抽出される対象者の視線を含む第1生体情報X、対象者の属性情報D、及び対象者の内部状態を示す情報Yとして仮定される値に基づいて、未知の値Zを推定する。また、一実施形態に係る電子機器1において、制御部10のデコーダDNNは、未知の値Z、対象者の属性情報D、及び対象者の内部状態を示す情報Yとして仮定される値に基づいて、対象者の視線を含む第2生体情報X’を推定する。そして、一実施形態に係る電子機器1は、対象者の内部状態を示す情報Yとして複数の値を仮定して、その複数の値のうち第2生体情報X’による第1生体情報Xの再現度が最も高くなる値を、対象者の内部状態を示す情報Yと推定する。また、一実施形態に係る電子機器1において、当該再現度に加えて、エンコーダENNが推定した未知の値Zの従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度も考慮して、対象者の内部状態を示す情報Yと推定するとしてもよい。当該所定の確率分布は正規分布であってもよい。当該分野逸脱度はカルバック・ライブラダイバージェンスを用いてもよい。
 
 一実施形態に係る電子機器1は、対象者の内部状態を示す情報Yとして仮定される複数の値のうち第2生体情報X’による第1生体情報Xの再現度が最も高くなる値が所定の条件を満たす場合、所定の警報を出力してもよい。また、当該再現度に加えて、エンコーダENNが推定した未知の値Zの従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度も考慮して所定の警報を出力するかを決定してもよい。当該所定の確率分布は正規分布であってもよい。当該分野逸脱度はカルバック・ライブラダイバージェンスを用いてもよい。
 以上のように、一実施形態に係る電子機器1は、対象者の内部状態を原因として、対象者の視線を含む生体情報が生成されるというモデルに基づいて、対象者の内部状態を推定することができる。したがって、一実施形態に係る電子機器1は、自然な因果関係によって、対象者の集中度のような内部状態を合理的に推定することができる。また、一実施形態に係る電子機器1は、例えば移動体を運転中の対象者の集中度が低下したら、所定の警報を出力することができる。したがって、一実施形態に係る電子機器1によれば、例えば移動体を運転中の対象者の安全性を高めることができる。
 一般的に、人間の視線及び/又は注意行動などは、本来個体差が大きいものである。例えば、高齢者は若年者より視線の可動域が狭いなどの例を挙げることができる。したがって、対象者の内部状態を推定する際には、例えば上述のような個体差を適切に考慮しないと、良好な精度の結果が得られないことが懸念される。また、対象者の内部状態を推定する際には、推定結果がどのようなモデルに基づくものなのか、ユーザに客観的に説明可能であることが望ましい。
 例えば、対象者を撮像した画像から、対象者の集中度のような内部状態を推定する場合、従来の機械学習のように、両者の因果関係とは逆に、すなわち対象者の視線などの生体反応データから内部状態を推定するように学習を行うことも想定される。しかしながら、このような場合、因果関係が逆のモデル構造であるがゆえにそのモデル内部のデータ構造がブラックボックス化されてしまうため、要因を特定できずに誤った構造を学習してしまうおそれがある。また、因果関係がブラックボックス化されるため、因果関係のモデルをユーザに客観的に説明することは困難になる。
 一実施形態に係る電子機器1において対象者の内部状態を推定するアルゴリズムは、一般の認識モデル又は回帰モデルとは異なる生成モデルに基づくものである。電子機器1における生成モデルは、対象者の内部状態及び対象者の属性(年齢・性別など)を原因として、対象者の視線が生成されるという過程を、データから学習する。このため、一実施形態に係る電子機器1によれば、対象者の個体の属性を考慮して推定精度を向上させることが期待できる。また、一実施形態に係る電子機器1によれば、データ生成過程を踏まえたメカニズムをユーザに客観的に説明することができる。一実施形態によれば、対象者の集中度のような内部状態を、データ生成過程に基づいて合理的に推定することができる。
 以下、他の実施形態について説明する。
 図7は、他の実施形態に係る電子機器の機能的な概略構成を示すブロック図である。
 図7に示すように、他の実施形態に係る電子機器2は、図1に示した電子機器1と異なり、第1撮像部21及び第2撮像部22を備えている。
 図7に示す第1撮像部21は、図1に示した撮像部20と同様に機能するものとしてよい。すなわち、図7に示す第1撮像部21は、対象者の画像を撮像するものとしてよい。このため、図7に示す第1撮像部21は、図1に示した撮像部20と同様に、例えば乗用車のような移動体の内部前方において、運転者に向けて設置されてよい。
 一方、図7に示す第2撮像部22は、対象者が見得る風景の画像を撮像するものとしてよい。すなわち、第2撮像部22は、対象者の視線の先の風景を含む画像(例えば周辺画像)を撮像するものとしてよい。このため、図7に示す第2撮像部22は、第1撮像部21とは異なり、例えば乗用車のような移動体の前方を向くように、すなわち運転者の視線と同じ方向に向くように設置されてよい。
 図7に示すように、第2撮像部22によって撮像された画像のデータは、制御部10の視線予測部18に供給される。視線予測部18は、対象者が見得る風景の画像において、対象者の視線を予測する。一実施形態において、視線予測部18は、対象者の視線の先の風景を含む画像(例えば周辺画像)から、対象者の視線が向けられると予測されるマップ(視線予測マップ)を推定するものとしてよい。対象者が見得る風景の画像に基づいて視線予測マップを生成する技術は、既存の任意の技術を採用してよい。
 図7に示すように、視線予測部18によって推定された視線予測マップのデータは、推定部14に供給されてよい。推定部14は、対象者の内部状態を推定するに際し、学習フェーズ及び/又は推定フェーズにおいて、上述の動作に視線予測マップのデータを加味してよい。具体的には、例えば、上述した対使用者の属性情報Dの一部として、視線予測マップのデータを含ませてもよい。
 このように、一実施形態に係る電子機器2において、対象者の属性情報Dは、対象者の視線を予測する情報を含んでもよい。また、この場合、対象者の視線を予測する情報は、対象者の前方の風景画像から予測される情報としてもよい。
 図7に示す電子機器2は、図1に示した電子機器1において、さらに対象者の視線予測マップのデータにも基づいて対象者の内部状態を推定することができる。したがって、図7に示す電子機器2は、環境によっては図1に示した電子機器1よりも高い推定精度が期待できる。
 図7においては、第2撮像部22は、第1撮像部21とは別の部材として示した。しかしながら、例えば、360°撮像可能なドライブレコーダのように1つの撮像部によって撮像された画像から、第1撮像部21及び第2撮像部22がそれぞれ使用する画像のデータを抽出してもよい。
 次に、上述した実施形態の変形例について説明する。
 上述した実施形態において、対象者の内部状態を示す情報Yは、(乗用車のような移動体を運転している)対象者の集中度を示す情報を含むものとして説明した。一実施形態に係る電子機器において、推定部14は、対象者の内部状態を示す情報Yとして、対象者の感情又は気分を示す情報を含んで推定してもよい。ここで、対象者の感情又は気分を示す情報とは、例えば、対象者のストレスの度合いを示す情報、対象者の苛つき又は怒りの感情を示す情報、対象者の疲れ、不安又は心配事を抱えた感情を示す情報など、種々の情報としてよい。
 対象者の内部状態を示す情報Yとして、対象者の感情又は気分を示す情報を含んで推定することにより、一実施形態に係る電子機器は、例えば対象者の集中度が低下した場合に、対象者の感情又は気分に応じた警報を出力することができる。例えば、一実施形態に係る電子機器の推定部14は、図6のステップS23において、対象者の内部状態を推定する際に、対象者の感情又は気分を示す情報も含んで推定してよい。そして、一実施形態に係る電子機器の制御部10は、図6のステップS25において、対象者の感情又は気分に応じて、所定の警報を出力してよい。具体的には、対象者の集中度が低下した際に、対象者の苛つき又は怒りの感情が示される場合、一実施形態に係る電子機器の制御部10は、例えば対象者をなだめるような口調及び/又は言葉遣いの警報を出力してもよい。
 このように、一実施形態に係る電子機器において、対象者の内部状態を示す情報Yは、対象者の感情又は気分を示す情報を含んでもよい。また、一実施形態に係る電子機器は、例えば対象者の集中度が所定以下に低下した場合、所定の警報として、対象者の感情又は気分に応じた警報を出力してもよい。
 上述した実施形態の変形例に係る電子機器1は、対象者の感情又は気分に応じた警報を出力することができる。したがって、上述した実施形態の変形例に係る電子機器1は、例えば移動体を運転中の対象者の安全性を一層高めることが期待できる。
 本開示の内容は、当業者であれば本開示に基づき種々の変形及び修正を行うことができる。したがって、これらの変形及び修正は本開示の範囲に含まれる。例えば、各実施形態において、各機能部、各手段、各ステップなどは論理的に矛盾しないように他の実施形態に追加し、若しくは、他の実施形態の各機能部、各手段、各ステップなどと置き換えることが可能である。また、各実施形態において、複数の各機能部、各手段、各ステップなどを1つに組み合わせたり、或いは分割したりすることが可能である。また、上述した本開示の各実施形態は、それぞれ説明した各実施形態に忠実に実施することに限定されるものではなく、適宜、各特徴を組み合わせたり、一部を省略したりして実施することもできる。
 1,2 電子機器
 10 制御部
 12 抽出部
 14 推定部
 16 判定部
 18 視線予測部
 20 撮像部
 21 第1撮像部
 22 第2撮像部
 30 記憶部
 40 報知部
 ENN エンコーダ
 DNN デコーダ

Claims (22)

  1.  対象者の画像から抽出される前記対象者の視線を含む第1生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、未知の値を推定するエンコーダと、
     前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、前記対象者の視線を含む第2生体情報を推定するデコーダと、
     を備え、
     前記第2生体情報による前記第1生体情報の再現度に基づいて、前記エンコーダ及び前記デコーダのパラメータを調整する、電子機器。
  2.  対象者の画像から抽出される前記対象者の視線を含む第1生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、未知の値を推定するエンコーダと、
     前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、前記対象者の視線を含む第2生体情報を推定するデコーダと、
     前記対象者の内部状態を示す情報として複数の値を仮定して、当該複数の値のうち前記第2生体情報による前記第1生体情報の再現度が最も高くなる値を、前記対象者の内部状態を示す情報と推定する推定部と、を備える電子機器。
  3.  前記複数の値のうち前記第2生体情報による前記第1生体情報の再現度が最も高くなる値が所定の条件を満たす場合、所定の警報を出力する、請求項2に記載の電子機器。
  4.  前記対象者の内部状態を示す情報は、前記対象者の集中度を示す情報を含む、請求項1から3のいずれかに記載の電子機器。
  5.  前記対象者の内部状態を示す情報は、前記対象者が乗り物を運転している最中の集中度を示す情報を含む、請求項4に記載の電子機器。
  6.  前記エンコーダ及び前記デコーダのパラメータの調整は、
     前記再現度に加えて、前記エンコーダが推定した前記未知の値の従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度に基づいて行われる、請求項1に記載の電子機器。
  7.  前記推定部は、
     前記エンコーダが推定した前記未知の値の従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度に基づいて推定を行う、請求項2に記載の電子機器。
  8.  前記対象者の内部状態を示す情報は、前記対象者の感情又は気分を示す情報を含む、請求項1から7のいずれかに記載の電子機器。
  9.  前記所定の警報として、前記対象者の感情又は気分に応じた警報を出力する、請求項3を引用する請求項8に記載の電子機器。
  10.  前記対象者の属性情報は、前記対象者の性別を含む、請求項1から9のいずれかに記載の電子機器。
  11.  前記対象者の属性情報は、前記対象者の年齢又は年齢の区分を含む、請求項1から10のいずれかに記載の電子機器。
  12.  前記対象者の属性情報は、前記対象者の画像に基づいて推定される、請求項1から11のいずれかに記載の電子機器。
  13.  前記対象者の属性情報は、前記対象者の視線を予測する情報を含む、請求項1から12のいずれかに記載の電子機器。
  14.  前記対象者の視線を予測する情報は、前記対象者の前方の風景画像から予測される情報である、請求項13に記載の電子機器。
  15.  対象者の画像から抽出される前記対象者の視線を含む第1生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、未知の値を推定するエンコードステップと、
     前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、前記対象者の視線を含む第2生体情報を推定するデコードステップと、
     前記第2生体情報による前記第1生体情報の再現度に基づいて、前記エンコードステップ及び前記デコードステップにおけるパラメータを調整するステップと、
     を含む、電子機器の制御方法。
  16.  対象者の画像から抽出される前記対象者の視線を含む第1生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、未知の値を推定するエンコードステップと、
     前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、前記対象者の視線を含む第2生体情報を推定するデコードステップと、
     前記対象者の内部状態を示す情報として複数の値を仮定して、当該複数の値のうち前記第2生体情報による前記第1生体情報の再現度が最も高くなる値を、前記対象者の内部状態を示す情報と推定するステップと、
     を含む、電子機器の制御方法。
  17.  前記エンコードステップ及び前記デコードステップにおけるパラメータを調整するステップは、
    前記エンコーダが推定した前記未知の値の従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度に基づいて行われる、請求項15に記載の電子機器の制御方法。
  18.  前記対象者の内部状態を示す情報を推定するステップは、
     前記エンコードステップにて推定した前記未知の値の従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度に基づいて行われる、請求項16に記載の電子機器の制御方法。
  19.  電子機器に、
     対象者の画像から抽出される前記対象者の視線を含む第1生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、未知の値を推定するエンコードステップと、
     前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、前記対象者の視線を含む第2生体情報を推定するデコードステップと、
     前記第2生体情報による前記第1生体情報の再現度に基づいて、前記エンコードステップ及び前記デコードステップにおけるパラメータを調整するステップと、
     を実行させる、プログラム。
  20.  電子機器に、
     対象者の画像から抽出される前記対象者の視線を含む第1生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、未知の値を推定するエンコードステップと、
     前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、前記対象者の視線を含む第2生体情報を推定するデコードステップと、
     前記対象者の内部状態を示す情報として複数の値を仮定して、当該複数の値のうち前記第2生体情報による前記第1生体情報の再現度が最も高くなる値を、前記対象者の内部状態を示す情報と推定するステップと、
     を実行させる、プログラム。
  21.  前記エンコードステップ及び前記デコードステップにおけるパラメータを調整するステップは、
     前記エンコーダが推定した未知の値の従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度に基づいて行われる、請求項19に記載したプログラム。
  22.  前記対象者の内部状態を示す情報を推定するステップは、
     前記エンコードステップにて推定した前記未知の値の従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度に基づいて行われる、請求項20に記載のプログラム。
     
PCT/JP2022/017279 2021-04-27 2022-04-07 電子機器、電子機器の制御方法、及びプログラム WO2022230629A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP22795545.7A EP4332885A1 (en) 2021-04-27 2022-04-07 Electronic device, control method for electronic device, and program
CN202280030804.9A CN117242486A (zh) 2021-04-27 2022-04-07 电子设备、电子设备的控制方法以及程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021075343A JP2022169357A (ja) 2021-04-27 2021-04-27 電子機器、電子機器の制御方法、及びプログラム
JP2021-075343 2021-04-27

Publications (1)

Publication Number Publication Date
WO2022230629A1 true WO2022230629A1 (ja) 2022-11-03

Family

ID=83848092

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/017279 WO2022230629A1 (ja) 2021-04-27 2022-04-07 電子機器、電子機器の制御方法、及びプログラム

Country Status (4)

Country Link
EP (1) EP4332885A1 (ja)
JP (1) JP2022169357A (ja)
CN (1) CN117242486A (ja)
WO (1) WO2022230629A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008029802A1 (fr) 2006-09-04 2008-03-13 Panasonic Corporation Dispositif fournissant des informations de voyage
WO2016132468A1 (ja) * 2015-02-18 2016-08-25 株式会社日立製作所 データ評価方法および装置、故障診断方法および装置
JP2017201499A (ja) * 2015-10-08 2017-11-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報提示装置の制御方法、及び、情報提示装置
JP2019139277A (ja) * 2018-02-06 2019-08-22 オムロン株式会社 評価装置、動作制御装置、評価方法、及び評価プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008029802A1 (fr) 2006-09-04 2008-03-13 Panasonic Corporation Dispositif fournissant des informations de voyage
WO2016132468A1 (ja) * 2015-02-18 2016-08-25 株式会社日立製作所 データ評価方法および装置、故障診断方法および装置
JP2017201499A (ja) * 2015-10-08 2017-11-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報提示装置の制御方法、及び、情報提示装置
JP2019139277A (ja) * 2018-02-06 2019-08-22 オムロン株式会社 評価装置、動作制御装置、評価方法、及び評価プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAIKI INOUENISEI KIMURAKOTARO NAKAYAMAKENYA SAKKARAHMAN ABDULAI NAKAJIMAPATRICK RADKOHLSATOSHI IWAIYOSHIMASA KAWAZOEKAZUHIKO OHE: "The 33rd Annual Conference of the Japanese Society for Artificial Intelligence", 2019, THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, article "Diagnostic Classification of Chest X-Rays Pictures with Deep Learning Using Eye Gaze Data"
TATSUNORI MATSUITATSURO UNOYOSHIMASA TAWATSUJI: "The 32nd Annual Conference of the Japanese Society for Artificial Intelligence", 2018, THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, article "Study on Estimation of Learner's Mental States from Physiological Indexes Considering Time Dilation and Persistent Model of Mental States"

Also Published As

Publication number Publication date
JP2022169357A (ja) 2022-11-09
CN117242486A (zh) 2023-12-15
EP4332885A1 (en) 2024-03-06

Similar Documents

Publication Publication Date Title
US11067405B2 (en) Cognitive state vehicle navigation based on image processing
US10627817B2 (en) Vehicle manipulation using occupant image analysis
JP7020156B2 (ja) 評価装置、動作制御装置、評価方法、及び評価プログラム
US11017250B2 (en) Vehicle manipulation using convolutional image processing
US10922567B2 (en) Cognitive state based vehicle manipulation using near-infrared image processing
US11769056B2 (en) Synthetic data for neural network training using vectors
US11465640B2 (en) Directed control transfer for autonomous vehicles
US10867197B2 (en) Drowsiness mental state analysis using blink rate
US20190370580A1 (en) Driver monitoring apparatus, driver monitoring method, learning apparatus, and learning method
US11292477B2 (en) Vehicle manipulation using cognitive state engineering
CN112673378B (zh) 推断器生成装置、监视装置、推断器生成方法以及推断器生成程序
US20210339759A1 (en) Cognitive state vehicle navigation based on image processing and modes
JP7303901B2 (ja) 複数の候補からドライバーを選択する提案システム
Poon et al. YOLO-based deep learning design for in-cabin monitoring system with fisheye-lens camera
US20210279514A1 (en) Vehicle manipulation with convolutional image processing
US11511757B2 (en) Vehicle manipulation with crowdsourcing
US11697420B2 (en) Method and device for evaluating a degree of fatigue of a vehicle occupant in a vehicle
Sharara et al. A real-time automotive safety system based on advanced ai facial detection algorithms
Alsaid et al. The effect of vehicle automation styles on drivers’ emotional state
WO2022230629A1 (ja) 電子機器、電子機器の制御方法、及びプログラム
WO2018168038A1 (ja) 運転者の着座判定装置
WO2022230630A1 (ja) 電子機器、電子機器の制御方法、及びプログラム
JP2023066304A (ja) 電子機器、電子機器の制御方法、及びプログラム
WO2023243468A1 (ja) 電子機器、電子機器の制御方法及び制御プログラム
Shibli et al. Developing a vision-based driving assistance system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22795545

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18555978

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 202280030804.9

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2022795545

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022795545

Country of ref document: EP

Effective date: 20231127