WO2021048682A1 - 分類方法 - Google Patents

分類方法 Download PDF

Info

Publication number
WO2021048682A1
WO2021048682A1 PCT/IB2020/058111 IB2020058111W WO2021048682A1 WO 2021048682 A1 WO2021048682 A1 WO 2021048682A1 IB 2020058111 W IB2020058111 W IB 2020058111W WO 2021048682 A1 WO2021048682 A1 WO 2021048682A1
Authority
WO
WIPO (PCT)
Prior art keywords
eye
region
image
data
white
Prior art date
Application number
PCT/IB2020/058111
Other languages
English (en)
French (fr)
Inventor
小國哲平
福留貴浩
Original Assignee
株式会社半導体エネルギー研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社半導体エネルギー研究所 filed Critical 株式会社半導体エネルギー研究所
Priority to JP2021544974A priority Critical patent/JP7522746B2/ja
Priority to US17/637,563 priority patent/US20220277591A1/en
Priority to CN202080059927.6A priority patent/CN114341871A/zh
Publication of WO2021048682A1 publication Critical patent/WO2021048682A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B3/00Apparatus for testing the eyes; Instruments for examining the eyes
    • A61B3/10Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
    • A61B3/113Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for determining or recording eye movement
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30041Eye; Retina; Ophthalmic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • One aspect of the present invention is a classification device and a classification method for classifying the state of a person from eye information.
  • One aspect of the present invention relates to a method of generating a classifier capable of classifying the state of a person from eye information using a computer device.
  • one aspect of the present invention relates to a method of generating learning data for learning eye information.
  • one aspect of the present invention relates to a method of extracting an eye region from a group of images continuously photographed by an imaging device and extracting a feature amount from eye information obtained from the eye region.
  • one aspect of the present invention relates to a method of training a classifier by giving the feature amount to the classifier as learning data.
  • eye information information obtained by analyzing the changes that appear in the eye
  • Patent Document 1 discloses a method of determining the state of a pupil from an image of an eye taken by using infrared rays and determining the state of a person.
  • Patent Document 2 discloses a system for detecting a neurological disease by detecting microsaccade, which is one of eye movements.
  • One of the methods for acquiring eye information is an EOG (electrooculogram) detection method for detecting an electric signal generated by eye movement.
  • EOG detection method is accurate, it is difficult to carry out it on a daily basis because it is necessary to install a plurality of electrodes around the eye.
  • the eye information can be acquired so as not to be a burden in daily life. Therefore, in order to obtain eye information, it is required to have low invasiveness and low contact.
  • eye information can be acquired as an image. Furthermore, recent advances in machine learning have made it possible to recognize and extract eye regions from acquired images.
  • the eye has a black eye area and a white eye area. Further, in the area of the black eye, there are the iris and the pupil that make up the black eye. The color of the iris is known to be genetically affected.
  • the pupil is said to be related to a person's emotions or physical fatigue, and is attracting attention in eye information.
  • detecting the state of the pupil there is a problem that it is affected by the color of the iris.
  • an imaging device capable of imaging using infrared rays can acquire an image that makes it easy to distinguish between the iris and the pupil.
  • strong infrared rays there is a problem of affecting the cornea, iris, crystalline lens, retina, etc. of the eye.
  • the pupil also responds to the brightness of the environment. Therefore, although the pupil has a correlation with a person's emotional or physical fatigue, there is a problem that a lot of environment-dependent noise is included.
  • the eye blinks irregularly (hereinafter referred to as blinking).
  • blinking irregularly
  • the eye information includes the blink as a noise component.
  • the image of the target eye is affected by irregular blink intervals, brightness of the surrounding environment, and the like.
  • one aspect of the present invention is to provide a method of classifying the state of a person from eye information using a computer device.
  • One aspect of the present invention is to provide a method for generating learning data for learning eye information.
  • One aspect of the present invention is to provide a method of extracting an eye region from a group of images continuously photographed by an imaging device and extracting a feature amount from eye information.
  • One aspect of the present invention is to provide a method for learning a classifier by giving the feature amount to the classifier as learning data.
  • One aspect of the present invention is a classification method using an imaging device, a feature extraction unit, and a classifier.
  • the classifier has a classification model.
  • the image pickup apparatus has a function of generating an image group by continuously taking pictures.
  • the image group includes an image of the area of the eye.
  • the eye has a black eye area and a white eye area.
  • the region of the black eye has a region composed of an iris and a pupil
  • the region of the white eye is a region in which the eyeball is covered with a white film.
  • the feature extraction unit has a step of extracting the region of the eye from the image group, has a step of extracting the blink amplitude from the image group, and determines that the blink is started from the image group.
  • the second image has a step of detecting, a step of storing an image determined from the image group that the blinking has ended as the first data, and an image in which an arbitrary time has passed from the first data from the image group. It has a step to store it as data of.
  • the feature extraction unit has a step of extracting the area information of the white eye region from the first data and the second data.
  • the feature extraction unit has a step of giving the area information of the white eye area to the classifier as learning data.
  • the classifier has a step of generating a classification model using the training data.
  • the image of the eye region included in the first data and the second data includes a black eye region and a white eye region, respectively.
  • the classification method is a step in which the feature extraction unit outputs the ratio of the first region to the second region.
  • the classification method includes a step in which the feature extraction unit detects a circle region from the third region, and the circle region to the circle region. It has a step of finding the center of the circle, and has a step of dividing the third region into a first region and a second region using the x-coordinate of the center of the circle.
  • the classification method includes a step in which the feature extraction unit calculates the vibration width of the white of the eye from the ratio of the first region and the second region.
  • the classifier preferably uses the vibration width of the white of the eye as learning data.
  • the classification method has a step in which the feature extraction unit gives the vibration width of the white eye and the amplitude of the blink of an eye to the classifier as learning data.
  • the classifier has a step of generating a classification model using the vibration width of the white eye and the amplitude of the blink of an eye.
  • the classification method has a step in which the classifier learns using the learning data.
  • the classification method has a step in which the feature extraction unit is given new first data and second data.
  • the classification method preferably includes a step in which the classifier classifies a person's emotions, changes in physical condition, and other states using a classification model.
  • the classification method has a step of assigning a teacher's label to the learning data.
  • the classifier has a step of learning using the learning data to which the teacher label is attached.
  • One aspect of the present invention can provide a method of classifying the state of a person from eye information using a computer device.
  • One aspect of the present invention can provide a method of generating learning data for learning eye information.
  • One aspect of the present invention can provide a method of extracting an eye region from a group of images continuously photographed by an imaging device and extracting a feature amount from eye information.
  • One aspect of the present invention can provide a method of generating a classifier by giving the feature amount as learning data.
  • the effect of one aspect of the present invention is not limited to the effects listed above.
  • the effects listed above do not preclude the existence of other effects.
  • the other effects are the effects not mentioned in this item, which are described below. Effects not mentioned in this item can be derived from those described in the description, drawings, etc. by those skilled in the art, and can be appropriately extracted from these descriptions.
  • one aspect of the present invention has at least one of the above-listed effects and / or other effects. Therefore, one aspect of the present invention may not have the effects listed above in some cases.
  • FIG. 1 is a block diagram illustrating a method of classifying a person's state from eye information.
  • FIG. 2A is a diagram illustrating the configuration of the eye.
  • FIG. 2B is a diagram illustrating a method of generating learning data.
  • FIG. 3 is a flowchart illustrating a method of generating learning data.
  • FIG. 4 is a flowchart illustrating a method of generating learning data.
  • 5A to 5C are diagrams for explaining eye information.
  • FIG. 6A is a diagram illustrating eye information. 6B and 6C are diagrams illustrating the extracted white eye area.
  • FIG. 7 is a flowchart illustrating a method of detecting a white eye region.
  • 8A to 8C are diagrams illustrating a method of generating learning data.
  • FIG. 9 is a block diagram illustrating a classification device.
  • FIGS. 1 to 9 a method of classifying the state of a person from eye information will be described with reference to FIGS. 1 to 9.
  • one of the left and right eyes will be focused on for the description.
  • the configuration and method shown in this embodiment can be applied to the left and right eyes.
  • the method of classifying the state of a person from the eye information described in the present embodiment is controlled by a program running on a computer device. Therefore, the computer device can be rephrased as a classification device provided with a method for classifying the state of a person from eye information.
  • a classification device for classifying the state of a person from eye information will be described in detail with reference to FIG.
  • the program is stored in the memory or storage of the computer device. Alternatively, the program is stored in a computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), the Internet, etc.), or a server computer having a database.
  • LAN Local Area Network
  • WAN Wide Area Network
  • the Internet etc.
  • server computer having a database.
  • a classification device provided with a method for classifying a person's state from eye information includes an imaging device, a feature extraction unit, and a classifier.
  • the imaging device can generate a group of images and store them in a memory or storage of the computer device.
  • the image group refers to continuously shot images or moving images, and refers to a plurality of images. Therefore, as the classification device, an image group stored in the memory or storage of the computer device can be used.
  • the classification device when the classification device is incorporated in a mobile terminal such as a mobile device, the classification device preferably includes an image pickup device.
  • An image group may be given to the classification device from a camera connected to a network such as a web camera (including a surveillance camera).
  • the image group includes the face of the target person.
  • an image of the eye region can be extracted by using machine learning.
  • AI artificial intelligence
  • an artificial neural network ANN: Artificial Neural Network
  • the artificial neural network may be simply referred to as a neural network (NN: Neural Network).
  • the arithmetic processing of the neural network is realized by a circuit (hardware) or a program (software).
  • an image of a representative eye region can be given as a query image.
  • a region having a high degree of similarity to the query image is extracted from the image in which the face of the person included in the image group is stored.
  • CNN convolutional neural network
  • pattern matching or the like can be used as the image search method.
  • the extracted eye area is saved as an image.
  • the eye has a black eye area and a white eye area.
  • the region of the black eye has a region composed of the iris and the pupil, and the region of the white eye refers to the region where the eyeball is covered with a white capsule (sometimes called the sclera).
  • the maximum width of the region sandwiched between the upper and lower eyelids is defined as the instantaneous amplitude.
  • the minimum value of the area sandwiched between the eyelids is set as the minimum value of the blink amplitude.
  • various eye states are stored in the image group.
  • the blink amplitude can be obtained by selecting the top plurality from the detected blink amplitudes and calculating the average value.
  • the feature extraction unit has a function of extracting detailed eye information from the extracted image of the eye region.
  • the feature extraction unit performs the following processing on each image in which the face of the person included in the image group is stored.
  • the following process is a method of creating eye learning data in which the influence of noise due to blinking is reduced.
  • the feature extraction unit has a step of extracting an image of an eye region from an image in which a person's face is stored.
  • the feature extraction unit has a step of extracting the blink amplitude from the image of the eye region.
  • the feature extraction unit can set a determination threshold value for detecting the blink in the subsequent steps by extracting the blink amplitude.
  • the determination threshold value can be set to a width of half the blink amplitude.
  • it is preferable that the determination threshold value can be set to a different value for each target person.
  • the above method has a step of detecting an image in which the feature extraction unit determines that the blinking has started from the image of the eye region.
  • the start of the blink is when an image determined to be closed is detected.
  • the end of the blink is when an image determined to have the eyelids open is detected.
  • the determination threshold can be used to determine the opening and closing of the eyelids.
  • the blink is smaller than the blink amplitude extracted from the image at the start of the blink, the blink amplitude extracted from the image at the end of the blink, and the blink amplitude extracted from the start and end of the blink. Is determined by the extracted image.
  • the blink period is said to be about 300 ms, although it varies from person to person. It is preferable that the imaging device can acquire at least three or more images of an eye region in which the blink amplitude is smaller than the determination threshold value during the blink period.
  • the above method has a step in which the feature extraction unit stores an image in which an arbitrary time has passed from the image in which the blinking has ended from the image in the eye region as the first data.
  • the first data represents the state of the eye after the blink of an eye. Therefore, when the blink is generated by the blink reflection, the first data generally appropriately represents the state of the person. It is preferable that the arbitrary time can be freely set.
  • the feature extraction unit has a step of storing an image in which an arbitrary time has passed from the first data as the second data.
  • the second data generally represents a state such as a change in a person's emotions or physical condition. It is preferable that the arbitrary time can be freely set.
  • the eyes stored in the second data may be larger or smaller than the eyes stored in the first data.
  • the amplitude of the eyes stored in the second data may be smaller than that in the first data.
  • the blink rate can be added to the determination. The blink rate indicates how many blinks per minute.
  • the feature extraction unit has a step of extracting the area information of the white eye region from the first data and the second data.
  • the state of eye movement can be grasped by using the information obtained from the region of the white eye.
  • the area information of the white eye region is the area ratio when the white eye region is divided into the first region and the second region using the center coordinates of the black eye, or the first region that changes depending on the opening and closing of the eyelids. And the change in the area of the second area.
  • the vibration width of the black eye generated by the microsaccade can be detected from the area ratio of the white eye in order to detect the microsaccade.
  • the vibration width of the black eye generated by the microsaccade may be described by paraphrasing the vibration width of the white eye.
  • the vibration widths of the black and white eyes can be rephrased as the vibration widths of the eyeballs.
  • the eye has a high ability to produce vision. Therefore, when the movement of the microsaccade is large and fast, the person is in a state of high concentration on the object. Further, when the movement of the microsaccade is small and slow, it can be said that the person is in a state of losing concentration on the object. This can be determined to be drowsy. However, in order to classify the state of a person more correctly, it is preferable to make a judgment using a plurality of conditions such as the area ratio of white eyes, the amplitude of blinks, or the vibration width of white eyes.
  • the above method has a step in which the feature extraction unit gives the information of the white eye area to the classifier as learning data.
  • the training data is given information on the area of the white eye, such as the area ratio of the white eye, the amplitude of the blink of an eye, the vibration width of the white eye, or the change in the position of the eyelid.
  • the classifier has a step of generating a classification model using the training data.
  • the above-mentioned learning data can be used for classification by unsupervised machine learning.
  • an algorithm such as K-means or DBSCAN (density-based spatial clustering of applications with noise) can be used.
  • the classification model can be given more teacher data.
  • the teacher data can be given an emotion classification or a determination threshold value of the vibration width of the white of the eye.
  • Classification by supervised machine learning can be performed using the learning data to which the teacher data is added.
  • machine learning algorithms such as decision tree, naive bays, KNN (k-nearest neighbor), SVM (Support Vector Machines), perceptron, logistic regression, and neural network can be used.
  • the method of generating the classifier may be described by paraphrasing it as the classification device 10.
  • the classification device 10 includes an image pickup device 20, a feature extraction unit 30, and a feature estimation unit 40.
  • the feature extraction unit 30 includes a blink detection unit 31, a memory management unit 32, a storage unit 33, a detection unit 34, and an information detection unit 35.
  • the feature estimation unit 40 has a classifier 40a.
  • the storage unit 33 has a storage device 33a and a storage device 33b. The number of storage devices included in the storage unit 33 is not limited to two. It may be one or three or more.
  • the image pickup device 20 can acquire an image 21a to an image 21n of a person by using the image pickup element included in the image pickup device 20.
  • the image includes a region of the human eye.
  • the eye region includes a white eye region 101, a black eye region 102a, and an eyelid 104.
  • the black eye region has a pupil region and an iris region.
  • the images 21a to 21n are given to the blink detection unit 31. Note that a or n is a positive integer. Also, n is larger than a.
  • the blink detection unit 31 can extract an eye region from each of the images 21a to 21n.
  • the blink detection unit 31 stores the extracted eye region as images 22a to 22n. It is preferable that the images 22a to 22n are converted into images having the same number of pixels. In addition, it is preferable to convert so that the width of the eyes is the same.
  • the blink detection unit 31 uses CNN to extract the eye region.
  • the blink detection unit 31 can extract the blink amplitude from the image of the eye region.
  • the blink amplitude is preferably the maximum value of the distance between the upper eyelid and the lower eyelid in a state where the eyes are judged to be open, or the average value of the maximum values of the distance extracted from a plurality of images.
  • the blink detection unit 31 can determine a determination threshold value for determining whether the image of the eye region is in the blink state by using the blink amplitude.
  • the blink detection unit 31 can detect the image 22p that determines that the blink has started from the images 22a to 22n by using the determination threshold value. For example, the blink detection unit 31 can determine that the eye has started blinking when it detects that the blink amplitude detected from the image 22p is smaller than the determination threshold value. Next, the blink detection unit 31 detects an image that determines that the blink has ended from the images after the image 22p. For example, the blink detection unit 31 can determine that the eye has finished blinking when it detects that the blink amplitude detected from the images after the image 22p is larger than the determination threshold value. Note that p is a positive integer.
  • the image 22p + 3 can be given to the memory management unit 32 as the first data.
  • the memory management unit 32 stores the image 22p + 3 in the storage device 33a.
  • the image 22p + 3 following the image 22p + 2 determined to have finished the blinking is stored in the storage device 33a as the first data, but it is stored as the first data. It is not limited to the image following the image 22p + 2. It is also possible to save the image 22q after the lapse of an arbitrary time. Note that q is a positive integer. Also, q is greater than p.
  • the blink detection unit 31 can give the image 22r after an lapse of an arbitrary time from the image 22p + 3 to the memory management unit 32 as the second data.
  • the memory management unit 32 stores the image 22r in the storage device 33b. Note that r is a positive integer. Also, r is greater than q.
  • the number of storage devices is not limited to two.
  • the plurality of storage devices can store images of the area of the eye after different lapses of time for one blink.
  • the processing content of the blink detection unit 31 will be described in detail with reference to FIGS. 3 and 4.
  • the detection unit 34 can extract the area information of the white-eyed area from the first data stored in the storage device 33a and the second data stored in the storage device 33b. It is efficient to use CNN to extract the area information of the white eye area.
  • the information detection unit 35 can detect more detailed information on the white eye area from the area information of the white eye area extracted by the detection unit 34.
  • the white eye region can be divided into a first region and a second region by using the center coordinates of the black eye.
  • the area ratio of the first region and the second region can be extracted.
  • it can be extracted that the areas of the first region and the second region change depending on the opening and closing of the eyelids. The method of extracting the area information of the white eye region will be described in detail with reference to FIG.
  • the detection unit 34 and the information detection unit 35 can extract the size of the pupil from the region of the black eye.
  • Information of the white-eyed region extracted by the feature extraction unit 30 is given to the feature estimation unit 40 as learning data.
  • the classifier 40a is given learning data such as the area ratio of the white eye, the amplitude of the blink of an eye, the vibration width of the white eye, or the change in the position of the eyelid. Further, the size of the pupil and the like may be given.
  • the classifier 40a included in the feature estimation unit 40 can generate a classification model using the learning data.
  • Teacher data 41 can also be given to the classification model.
  • emotion classification for example, emotion classification, determination threshold value of vibration width of white eyes, and the like can be given.
  • the classification model performs learning. Therefore, the classifier 40a having a classification model can estimate changes in a person's emotions or physical condition from eye information.
  • new first data and second data are given to the feature extraction unit 30.
  • New learning data is given to the feature estimation unit 40.
  • the feature estimation unit 40 can classify a person's emotions or states such as changes in physical condition using a classifier 40a having a learned classification model, and can output a classification result Cout.
  • FIG. 2A is a diagram illustrating the configuration of the eye.
  • Eye components include the white eye area, the black eye area, and the eyelid 104.
  • the white eye region has a white eye region 101A and a white eye region 101B divided around the black eye.
  • the area of the black eye has a pupil 102 and an iris 103.
  • each dimension of the eye configuration is defined.
  • the eye can be defined as the lateral width x of the eye, the iris width k, the pupil width m, and the vertical width of the eye (blink amplitude y).
  • FIG. 2B is a diagram illustrating a method of generating learning data. Irregular blinks occur in the eyes. As an example, in FIG. 2B, the time BT1 to the time BT6 are shown as the time when the blink occurs.
  • a group of images including the image of the blink of an eye is used as training data, more images must be trained in order to train the classification model. Further, the classification device 10 consumes a large amount of power due to an increase in the amount of images to be learned, and requires a large amount of time for processing the images.
  • the blink is used as a trigger for event occurrence.
  • the blink of time BT2 will be described in detail.
  • Time T1 is the state before the blinking is started (the state in which the event has not occurred).
  • Time T2 is the time when it is detected that the blink amplitude y becomes smaller than the determination threshold value. More specifically, it is the time when the blink detection unit 31 detects the image 22p that determines that the blink has started.
  • the time T3 is the time when it is detected that the blink amplitude y is smaller than the determination threshold value and smaller than the blink amplitude y detected in the image 22p. More specifically, it is the time when the blink detection unit 31 detects the image 22p + 1 that determines that the blink amplitude y is the smallest.
  • the time T4 is the time when it is detected that the instantaneous amplitude y becomes larger than the determination threshold value. More specifically, it is the time when the blink detection unit 31 detects the image 22p + 2 that determines that the blink has ended.
  • the time T5 is the time when the image 22p + 3 after the end of the blink is detected.
  • the image 22p + 3 is stored in the storage device 33a as data Data1.
  • the image 22q after an arbitrary time has elapsed from the time T4 may be used as the data Data1.
  • the time T6 is the image 22r after an arbitrary time has elapsed from the time when the image 22p + 3 was detected.
  • the image 22r is stored in the storage device 33b as data Data2.
  • the learning data acquired by the procedure of time T1 to time T6 as described above reduces the amount of noise contained, reduces the power consumption, and generates the learning data in which the amount of the required storage device is reduced. Can be done.
  • Data Data1 and DataData2 can be treated as independent learning data.
  • the data Data1 and the data Data2 can be treated as one learning data.
  • the third data can be generated by extracting the difference of the data from the data Data2, and the third data can be used as the training data.
  • the data Data1, the data Data2, and the third data can be used as learning data for other machine learning.
  • the frequency of occurrence of blinks or the width of the pupil can be added to the data Data1, the data Data2, and the third data.
  • the frequency of blinks or the width of the pupil can also be used as one of the learning data representing changes in a person's emotions or physical condition.
  • FIG. 3 is a flowchart illustrating a method of generating learning data.
  • the blink amplitude is extracted using the image group of the images 22a to 22n.
  • a determination threshold value for determining the start and end of the blink is set using the blink amplitude.
  • Step ST01 is a step of extracting the blink amplitude y from an arbitrary number of images in the image group.
  • the maximum value y_max of the blink amplitude y and the minimum value y_min of the blink amplitude y are also extracted.
  • the minimum value y_min of the blink amplitude y indicates the minimum value detected from the image.
  • the maximum value y_max of the blink amplitude y and the minimum value y_min of the blink amplitude y are always added and averaged to extract features such as the degree of eye opening of the target person.
  • Step ST02 is a step of calculating the average value of the blink amplitude y.
  • the average value y_ave is calculated using the top three or more of the blink amplitude y extracted in step ST01. It is preferable that the number to be averaged can be set.
  • Step ST03 is a step of setting a determination threshold value for determining the start and end of the blink.
  • a determination threshold value for determining the start and end of the blink.
  • 50% of the average value y_ave is set as the judgment threshold value.
  • the conditions for determining the start and end of the blink are not limited to 50%, and it is preferable that each can be set arbitrarily.
  • Step ST04 is a step of detecting and storing data Data1 and dataData2. The detection and storage of the data Data1 and the data Data2 will be described in detail with reference to FIG.
  • Step ST05 is a step to finish the generation of learning data.
  • FIG. 4 is a flowchart illustrating a method of generating learning data.
  • FIG. 4 describes in detail a method of detecting and storing data Data1 and data Data2 which are learning data.
  • the pixel group of the image 22a to the image 22n in which the eye region is stored as an image is used.
  • Step ST11 is a step of selecting an arbitrary image 22p from the image group.
  • Step ST12 is a step of confirming whether or not there is a new image. If the image 22p + 1 exists, the process proceeds to step ST13. If the image 22p + 1 does not exist, the process proceeds to step ST1B (return), and then the process proceeds to step ST05 to end the generation of learning data.
  • Step ST13 is a step of extracting an eye region from an image.
  • Step ST14 is a step of extracting the blink amplitude y from the region of the eye.
  • Step ST15 is a step of determining whether the blink amplitude y is smaller than the determination threshold value. If the blink amplitude y is smaller than the determination threshold value, it is determined that the blink has started, so the process proceeds to step ST16. If the blink amplitude y is larger than the determination threshold value, it is determined that the blink has not started, so the process proceeds to step ST12.
  • Step ST16 is a step of confirming whether or not there is a new image. If the image 22p + 2 exists, the process proceeds to step ST17. If the image 22p + 2 does not exist, the process proceeds to step 1B, and then the process proceeds to step ST05 to end the generation of learning data.
  • the process of step ST13 and step ST14 is included in step ST16, but is represented by the symbol “* 1” due to the space in the drawing. Subsequent steps to which the symbol “* 1” is assigned include the processes of steps ST13 and ST14.
  • Step ST17 is a step of determining whether the blink amplitude y is larger than the determination threshold value. If the blink amplitude y is larger than the determination threshold value, it is determined that the blink has ended, so the process proceeds to step ST18. If the blink amplitude y is smaller than the determination threshold value, it is determined that the blink has not ended, so the process proceeds to step ST16.
  • Step ST18 is a step of storing the image 22p + 3 as data Data1 in the storage device 33a.
  • Step ST19 is a step to confirm whether there is a new image. If the image 22r is present, the process proceeds to step ST1A. If the image 22r does not exist, the process proceeds to step ST1B, and then the process proceeds to step ST05 to end the generation of learning data.
  • Step ST1A is a step of storing the image 22r as data Data2 in the storage device 33b. Next, the process proceeds to step ST12.
  • the blink can be detected as an event, and the image after an arbitrary time has elapsed since the blink ends can be collected as learning data. Since the learning data is the learning data collected under the condition of after the blink of an eye, the noise component can be reduced. Information on the number of blinks can be easily collected by providing a counter or the like in step ST16 or the like.
  • FIG. 5A to 5C are diagrams for explaining eye information.
  • FIG. 5A shows, as an example, the state of the eye after the blink of an eye. Therefore, FIG. 5A corresponds to the data Data1.
  • the eyes after the blink often represent a state that is not conscious of oneself, such as the emotion of the person in the image or a change in physical condition.
  • the instantaneous amplitude y1 in FIG. 5A is preferably larger than ⁇ 20% and smaller than +20 of the average value y_ave. It is more preferable that the blink amplitude y1 is larger than ⁇ 10% and smaller than + 10% of the average value y_ave. It is more preferable that the blink amplitude y1 is larger than ⁇ 5% and smaller than + 5% of the average value y_ave.
  • the detection unit 34 and the information detection unit 35 include the area of the white eye region 101A, the area of the white eye region 101B, the total area of the white eye region 101A and the white eye region 101B, and the white eye region 101A as eye information.
  • the area ratio of the area 101B and the like can be calculated.
  • the detection unit 34 and the information detection unit 35 preferably use CNN to extract their respective areas.
  • FIG. 5B shows, as an example, the state of the eye after an arbitrary time has passed since the blink of an eye. If any time has passed since the blink of an eye, the facial muscles of the eyes may be affected by conditions such as changes in the person's emotions or physical condition. When the facial muscles are affected, changes appear in the blink amplitude y2 or the pupil.
  • FIG. 5B shows, as an example, a change in the shape of the eyes that appears when a person is surprised or emotional. For example, the upper eyelid 104 is moving upward like the direction EL1. This change can be detected as a change in the total area of the white eye region 101A and the region 101B.
  • FIG. 5C shows an eye condition different from that of FIG. 5B, which shows the condition of the eye after an arbitrary time elapses after the blink of an eye.
  • the state of the eye after an arbitrary time has passed since the blink of an eye often represents a state such as a change in the emotion or physical condition of the person appearing in the period from the blink of an eye to the blink of an eye.
  • FIG. 5C shows, as an example, a change in the shape of the eyes that appears when a person is drowsy.
  • the facial muscles are affected, changes appear in the blink amplitude y3 or the pupil.
  • the upper eyelid 104 is moving downward like the direction EL1.
  • the blink amplitude y3 is preferably larger than the determination threshold value.
  • This change can be detected as a change in the area of the white eye area 101A and the area 101B.
  • the amount of change in the direction EL2 or the direction EL3 may be different. Such small changes may be influenced by the emotions of the person and are effective for self-counseling.
  • FIGS. 5B and 5C often correspond to data Data2.
  • FIG. 5B or FIG. 5C may be the state of the eyes after the blink, and if the condition is as shown in FIG. 5B or FIG. 5C after the blink, the state such as a change in the emotion or physical condition of the person appears remarkably. It may be.
  • these classifications are performed using the classification model trained using the training data.
  • the person's condition may have high concentration.
  • the vibration width of the white eye (eyeball) generated by the microsaccade can be detected from the area ratio of the white eye.
  • the method of detecting the vibration width of the white eye will be described in detail with reference to FIG.
  • FIG. 6A In order to explain the method of detecting the vibration width of the white of the eyes, FIG. 6A will be described with reference to FIG. 5B.
  • the vibration width of the white eye it is necessary to obtain the area of the white eye.
  • the white-eyed area is detected as one object as shown in FIG. 6A, it is necessary to set the dividing line SL for dividing the white-eyed area.
  • FIG. 6B is a diagram illustrating a white eye region of FIG. 5B extracted by the detection unit 34.
  • the white-eyed area 101 is extracted as an object.
  • the information detection unit 35 extracts a circular region substantially equal to the black eye region from the white eye region.
  • the center coordinates C (a, b) of the extracted circle are detected.
  • a division line SL that divides the white-eyed region 101 into the white-eyed region 101A and the white-eyed region 101B can be set using the x-coordinate of the center coordinate.
  • FIG. 6C is a diagram illustrating a white eye region of FIG. 5C extracted by the detection unit 34.
  • the white-eyed region 101 is extracted as two objects indicating the white-eyed region 101A and the white-eyed region 101B.
  • FIG. 6B and FIG. 6C are divided into a white-eyed region 101A and a white-eyed region 101B centering on the dividing line SL.
  • the vibration width of the black eye it is preferable to detect the fluctuation of the center of the black eye.
  • the detection accuracy of the vibration width of the black eye depends on the resolution of the number of pixels of the image.
  • the vibration width of the white eye has an inverse proportional relationship in which the fluctuation amount of the target is compared by the area, and the region 101B of the white eye always decreases as the region 101A of the white eye increases. Therefore, the detection accuracy is higher in the detection of the vibration width of the white eye than in the detection of the vibration width of the black eye.
  • FIG. 7 is a flowchart illustrating a method of detecting a white eye region.
  • Step ST20 is a step of extracting the white eye region from the image of the eye region using CNN.
  • Step ST21 is a step of determining whether the white-eyed area is one object. When the white-eyed area is detected by one object, the process proceeds to step ST22. If the white-eyed area is detected by a plurality of objects, the process proceeds to step ST25.
  • Step ST22 is a step of detecting the area of the circle (black eye (iris / pupil)) from the area of the white eye detected by one object.
  • Step ST23 is a step of detecting the center coordinates C (a, b) of the region of the circle.
  • Step ST24 is a step of dividing the white-eyed area around the x-coordinate of the center coordinates C (a, b).
  • the white-eyed region 101 is divided into a white-eyed region 101A and a white-eyed region 101B.
  • Step ST25 is a step of calculating the respective areas of the detected white-eyed area 101A and white-eyed area 101B.
  • FIGS. 8A to 8C are diagrams illustrating a method of generating learning data.
  • the time T11, the time T21, and the time T31 are the times before the blinking is started.
  • Time T12, time T22, and time T32 are times when the feature extraction unit 30 detects the start of the blink.
  • the time T13, the time T23, and the time T33 are the times when the blink detection unit 31 detects the image determined to have the smallest blink amplitude y.
  • Time T14, time T24, and time T34 are times when the feature extraction unit 30 detects the end of the blink.
  • the time T15, the time T25, and the time T35 are the times after the lapse of an arbitrary time after the end of the blink.
  • the time T16, the time T26, and the time T36 are times after an arbitrary time has elapsed since the end of the blink.
  • the time T17, the time T27, and the time T37 are different from the time T16, the time T26, and the time T36, respectively, and are the times after the end of the blink and after the lapse of an arbitrary time.
  • images at different times after the time T14, time T24, or time T34 when the feature extraction unit 30 detects the end of the blink are stored as data Data1, data Data2, and dataData3, respectively. ..
  • FIG. 8A is an example in which the white of the eye vibrates in the lateral direction.
  • the vibration width of the white eye can be easily detected.
  • FIG. 8B is an example in which the white of the eye vibrates in the diagonal direction.
  • the vibration in the oblique direction can be replaced with the fluctuation in the x-axis direction and detected as the vibration width of the white eye.
  • the white-eyed region is further divided around the y-coordinate of the center coordinates C (a, b), and the areas of the four regions of the white-eyed region 101A to the white-eyed region 101D are compared. can do. Since the process of detecting the amount of movement in the diagonal direction can be reduced, the power consumption can be reduced.
  • FIG. 8C shows the case where the eyelids fluctuate up and down. Since it is difficult to detect with the area ratio of white eyes, it is preferable to detect the blink amplitude y.
  • the white of the eye fluctuates in the x-axis direction or the oblique direction, the fluctuation range of the white of the eye can be easily detected.
  • the vibration widths of the white eyes By combining the vibration widths of the white eyes, the state of a person can be classified more accurately.
  • FIG. 9 is a block diagram illustrating a classification device 100 including a method for classifying the state of a person from eye information.
  • the classification device 100 includes a calculation unit 81, a memory 82, an input / output interface 83, a communication device 84, and a storage 85. That is, the method of classifying the state of a person from the eye information by the classification device 100 is provided by a program including the image pickup device 20, the feature extraction unit 30, and the feature estimation unit 40. The program is stored in the storage 85 or the memory 82, and the calculation unit 81 is used to search for parameters.
  • a display device 86a, a keyboard 86b, a camera 86c, etc. are electrically connected to the input / output interface 83. Although not shown in FIG. 9, a mouse or the like may be connected.
  • the communication device 84 is electrically connected to another network via the network interface 87.
  • the network interface 87 includes wired or wireless communication.
  • a surveillance camera 88, a Web camera 89, a database 8A, a remote computer 8B, a remote computer 8C, or the like is electrically connected to the network.
  • the surveillance camera 88, the Web camera 89, the database 8A, the remote computer 8B, or the remote computer 8C that are electrically connected via the network may be installed in different buildings, different areas, and different countries.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biophysics (AREA)
  • Geometry (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Developmental Disabilities (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Social Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Educational Technology (AREA)
  • Psychology (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Quality & Reliability (AREA)
  • Physiology (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)

Abstract

眼の情報から人物の状態を分類する。 撮像装置、特徴抽出部、および分類器を用いることで眼の情報から人物の状態を分類する。撮像装置は、連続撮影することで画像群を生成する機能を有し、画像群には、眼の領域の画像が含まれることが好ましい。眼は、黒目の領域および白目の領域を有する。特徴抽出部が、画像群から眼の領域を抽出するステップを有し、次に瞬目振幅を抽出するステップを有し、次に瞬目を開始したと判断する画像を検出するステップを有し、次に瞬目が終了したと判断する画像を第1のデータとして記憶するステップを有し、次に第1のデータから任意の時間が経過した画像を第2のデータとして記憶するステップを有する。特徴抽出部が、第1のデータおよび第2のデータから白目の領域を抽出するステップを有する。分類器は、白目の領域を学習データとして用いることができる。

Description

分類方法
 本発明の一態様は、眼の情報から人物の状態を分類する分類装置および分類方法である。
 なお、本発明の一態様は、コンピュータ装置を利用した眼の情報から人物の状態を分類することができる分類器の生成方法に関する。または、本発明の一態様は、眼の情報を学習するための学習データの生成方法に関する。または、本発明の一態様は、撮像装置によって連続撮影された画像群の中から眼の領域を抽出し、眼の領域から得られる眼の情報から特徴量を抽出する方法に関する。または、本発明の一態様は、当該特徴量を学習データとして分類器に与えることで分類器を学習させる方法に関する。
 近年では、社会的に生活の質の向上が求められてきている。例えば、自分自身では、過労な状態または精神的な病の症状などに気づきにくい。自分自身の状態把握を早期に発見することができれば、状態が悪化する前に対策(休息など)をとるなど適切な手段を講じることができる。例えば、自己カウンセリングでは、自分が気付かない変化をセルフチェックする方法の研究が進められている。
 例えば、感情、心理状態、または身体的な疲労は、眼の動き、表情、声、または心拍などの身体反応に現れることが知られている。これらの身体反応を測定することは、自分ではわからなかった自分の変化に気づけるようになると考えられている。そこで、感情、心理状態、または身体的な疲労を表す要素として、眼についての様々な研究が進められている。これは、眼が、人の心の部分を司る脳からの指令を直接受けるためである。したがって、眼に現れる変化を解析することで得られる情報(以降、眼の情報)は、脳の研究をするためにも重要な要素として考えられている。
 眼の情報は、撮像装置で取得した画像を用いることができるため人の動作または作業などを妨害することなく入手することができる。自己カウンセリングの方法の一例として、瞳孔の変化から身体的な疲労の一つである眠気を検出する研究がおこなわれている。例えば、特許文献1では、赤外線を用いて撮影した目の画像から瞳孔の状態を判定し、人物の状態を判定する検出する方法が開示されている。
 特許文献2では、眼球運動の一つであるマイクロサッカードを検出することで神経疾患を検出するためのシステムが開示されている。
特開平7−249197号公報 特表2016−523112号公報
 眼の情報を取得する方法の一つに、眼球運動によって発生する電気信号を検出するEOG(electrooculogram)検出方法がある。ただし、EOG検出方法は、正確ではあるが複数の電極を眼の周辺に設置する必要があるため日常的に実施するのは難しいのが課題である。例えば、目の情報を用いて自己カウンセリングを行う場合、目の情報は、日常生活の中で負担にならないように取得できることが好ましい。したがって、目の情報を得るためには、低侵襲性および低接触性であることが求められる。
 例えば、撮像装置を用いることで、眼の情報は、画像として取得することができる。さらに、近年の機械学習の進歩により、取得画像から眼の領域を認識して抽出することができるようになってきた。しかし、眼には、黒目の領域と白目の領域とがある。さらに黒目の領域には、黒目を構成する虹彩と瞳孔がある。虹彩の色は、遺伝的な影響を受けることが知られている。
 瞳孔は、人物の感情または身体的疲労などと関係があるとされ、眼の情報の中でも注目されている。しかし、瞳孔の状態を検出する場合、虹彩の色の影響を受ける課題がある。例えば、瞳孔と明度が近い色を有する虹彩では、瞳孔と虹彩を識別することが難しい課題がある。しかし、赤外線を用いて撮像できる撮像装置は、虹彩と瞳孔とを識別しやすい画像を取得することができる。ただし、強い赤外線を用いた場合には、眼の角膜、虹彩、水晶体、網膜などに影響を及ぼす問題がある。また、瞳孔は、環境の明るさなどにも反応する。したがって、瞳孔は、人物の感情または身体的疲労などの状態と相関関係を有するが、環境依存性のノイズが多く含まれる課題がある。
 また、眼の情報を取得する場合、眼は、不定期な瞬き(以下、瞬目)を行う。例えば、瞬目には、眼球の乾燥などから保護するために行う無意識に行われる瞬目反射がある。瞬目には、瞬目反射以外にも様々な種類がある。したがって、目の情報には、瞬目がノイズ成分として含まれる課題がある。また、目の情報を用いた分析をする場合、対象とする目の画像が、不定期な瞬目の間隔、または周囲の環境の明るさなどにより影響を受ける課題がある。
 上記問題に鑑み、本発明の一態様は、コンピュータ装置を利用した眼の情報から人物の状態を分類する方法を提供することを課題の一とする。本発明の一態様は、眼の情報を学習するための学習データの生成方法を提供することを課題の一とする。本発明の一態様は、撮像装置によって連続撮影された画像群の中から眼の領域を抽出し、眼の情報から特徴量を抽出する方法を提供することを課題の一とする。本発明の一態様は、当該特徴量を学習データとして分類器に与えることで分類器を学習させる方法を提供することを課題の一とする。
 なお、これらの課題の記載は、他の課題の存在を妨げるものではない。なお、本発明の一態様は、これらの課題の全てを解決する必要はないものとする。なお、これら以外の課題は、明細書、図面、請求項などの記載から、自ずと明らかとなるものであり、明細書、図面、請求項などの記載から、これら以外の課題を抽出することが可能である。
 本発明の一態様は、撮像装置と、特徴抽出部と、分類器と、を用いた分類方法である。なお、分類器は、分類モデルを有する。撮像装置は、連続撮影することで画像群を生成する機能を有する。画像群には、眼の領域の画像が含まれる。眼は、黒目の領域と、白目の領域と、を有する。黒目の領域は、虹彩と、瞳孔と、で構成される領域を有し、白目の領域は、眼球が白色の被膜に覆われた領域である。分類方法において、特徴抽出部が、画像群から眼の領域を抽出するステップを有し、画像群から瞬目振幅を抽出するステップを有し、画像群から瞬目を開始したと判断する画像を検出するステップを有し、画像群から瞬目が終了したと判断する画像を第1のデータとして記憶するステップを有し、画像群から第1のデータから任意の時間が経過した画像を第2のデータとして記憶するステップを有する。分類方法において、特徴抽出部が、第1のデータおよび第2のデータから白目の領域の面積情報を抽出するステップを有する。分類方法において、特徴抽出部が、白目の領域の面積情報を学習データとして分類器に与えるステップを有する。分類方法において、分類器が、学習データを用いて分類モデルを生成するステップを有する。
 上記構成において、第1のデータおよび第2のデータに含まれる眼の領域の画像には、それぞれ黒目の領域と、白目の領域と、が含まれる。検出された白目の領域の面積情報が独立した第1の領域および第2の領域を有する場合、分類方法は、特徴抽出部が、第1の領域と第2の領域との比を出力するステップを有する。検出された白目の領域の面積情報が第3の領域として検出される場合、分類方法は、特徴抽出部が、第3の領域から円の領域を検出するステップを有し、円の領域から円の中心を求めるステップを有し、円の中心のx座標を用いて第3の領域を第1の領域と第2の領域に分割するステップを有し、第1の領域と第2の領域との比を出力するステップを有する。分類方法は、特徴抽出部が、第1の領域と第2の領域との比から白目の振動幅を算出するステップを有する。分類器は、白目の振動幅を学習データとして用いることが好ましい。
 上記各構成において、分類方法は、特徴抽出部が、白目の振動幅と、瞬目振幅と、を学習データとして分類器に与えるステップを有する。分類方法は、分類器が、白目の振動幅と、瞬目振幅とを用いて分類モデルを生成するステップを有することが好ましい。
 上記各構成において、分類方法は、分類器が、学習データを用いて学習するステップを有する。分類方法は、特徴抽出部に、新たな第1のデータおよび第2のデータが与えられるステップを有する。分類方法は、分類器が、分類モデルを用いて人物の感情、体調の変化などの状態を分類するステップを有することが好ましい。
 上記各構成において、分類方法は、学習データに、教師用ラベルが付与されるステップを有する。分類方法は、分類器が、教師用ラベルが付与された学習データを用いて学習するステップを有することが好ましい。
 本発明の一態様は、コンピュータ装置を利用した眼の情報から人物の状態を分類する方法を提供することができる。本発明の一態様は、眼の情報を学習するための学習データの生成方法を提供することができる。本発明の一態様は、撮像装置によって連続撮影された画像群の中から眼の領域を抽出し、眼の情報から特徴量を抽出する方法を提供することができる。本発明の一態様は、学習データとして当該特徴量を与えることで分類器を生成する方法を提供することができる。
 なお本発明の一態様の効果は、上記列挙した効果に限定されない。上記列挙した効果は、他の効果の存在を妨げるものではない。なお他の効果は、以下の記載で述べる、本項目で言及していない効果である。本項目で言及していない効果は、当業者であれば明細書又は図面等の記載から導き出せるものであり、これらの記載から適宜抽出することができる。なお、本発明の一態様は、上記列挙した効果、及び/又は他の効果のうち、少なくとも一つの効果を有するものである。したがって本発明の一態様は、場合によっては、上記列挙した効果を有さない場合もある。
図1は、眼の情報から人物の状態を分類する方法を説明するブロック図である。
図2Aは、眼の構成を説明する図である。図2Bは、学習データの生成方法を説明する図である。
図3は、学習データの生成方法を説明するフローチャートである。
図4は、学習データの生成方法を説明するフローチャートである。
図5A乃至図5Cは、眼の情報を説明する図である。
図6Aは、眼の情報を説明する図である。図6Bおよび図6Cは、抽出された白目の領域を説明する図である。
図7は、白目の領域を検出する方法を説明するフローチャートである。
図8A乃至図8Cは、学習データの生成方法を説明する図である。
図9は、分類装置を説明するブロック図である。
 実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。したがって、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。
 なお、以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチパターンを同じくし、特に符号を付さない場合がある。
 また、図面において示す各構成の、位置、大きさ、範囲などは、理解の簡単のため、実際の位置、大きさ、範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、範囲などに限定されない。
(実施の形態)
 本実施の形態では、眼の情報から人物の状態を分類する方法について図1乃至図9を用いて説明する。なお、本実施の形態では、左右の眼のいずれか一方に着目して説明する。ただし、本実施の形態で示す構成、方法は、左右の眼に対して適用することができる。
 本実施の形態で説明する眼の情報から人物の状態を分類する方法は、コンピュータ装置上で動作するプログラムによって制御される。したがって、コンピュータ装置は、眼の情報から人物の状態を分類する方法を備える分類装置と言い換えることができる。なお、眼の情報から人物の状態を分類する分類装置については、図9で詳細に説明する。当該プログラムは、コンピュータ装置が有するメモリまたはストレージに保存される。もしくは、当該プログラムは、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなど)を介して接続されているコンピュータ、又はデータベースを有するサーバコンピュータに保存される。
 眼の情報から人物の状態を分類する方法を備える分類装置は、撮像装置、特徴抽出部、および分類器を有する。撮像装置は、画像群を生成し、コンピュータ装置が有するメモリまたはストレージに保存することができる。なお、画像群とは、連続撮影された画像または動画などを指し、複数の画像を指す。よって、分類装置は、コンピュータ装置が有するメモリまたはストレージに保存される画像群を用いることができる。例えば、分類装置がモバイル機器などの携帯端末に組み込まれる場合、分類装置は、撮像装置を含むことが好ましい。なお、分類装置には、webカメラ(監視カメラを含む)のようなネットワークに接続されたカメラから画像群が与えられてもよい。
 画像群には、対象となる人物の顔が含まれることが好ましい。人物の顔が記憶された画像からは、機械学習(Machine Learning)を用いて目の領域の画像を抽出することができる。機械学習の処理には、人工知能(AI:Artificial Intelligence)を用いることが好ましい。例えば、目の領域の画像を抽出するには、特に、人工ニューラルネットワーク(ANN:Artificial Neural Network)を用いることができる。なお、本発明の一態様において、人工ニューラルネットワークを、単にニューラルネットワーク(NN:Neural Network)と記す場合がある。ニューラルネットワークの演算処理は、回路(ハードウェア)又はプログラム(ソフトウェア)により実現される。
 例えば、人物の顔が記憶された画像から眼の領域の画像を検索する場合は、代表的な眼の領域の画像をクエリ画像として与えることができる。画像群に含まれる人物の顔が記憶された画像からクエリ画像と類似度の高い領域を抽出する。一例として、類似度の高い領域を検索する場合、画像検索方法には、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)、パターンマッチングなどを用いることができる。なお、本発明の一態様では、クエリ画像が登録されていればよく、検索をする度にクエリ画像を与えなくてもよい。なお、抽出された眼の領域は、画像として保存される。
 詳細な目の情報は、抽出された眼の領域の画像から抽出する。眼は、黒目の領域と、白目の領域と、を有する。黒目の領域は、虹彩および瞳孔で構成される領域を有し、白目の領域は、眼球が白色の被膜(強膜と呼ばれる場合がある)によって覆われた領域を指す。また上瞼および下瞼で挟まれた領域の最大幅を瞬目振幅とする。また瞼で挟まれた領域の最小値を、瞬目振幅の最小値とする。なお、画像群には、様々な眼の状態が記憶されている。瞬目振幅は、検出した瞬目振幅の大きいものから上位複数を選択し平均値を算出することで求めることができる。
 ここで、特徴抽出部の機能について説明する。特徴抽出部は、抽出された眼の領域の画像から詳細な目の情報を抽出する機能を有する。なお、特徴抽出部は、画像群に含まれる人物の顔が記憶されたそれぞれの画像に対し、次に示す処理を行う。なお、次に示す処理は、瞬目によるノイズの影響を低減した眼の学習データを作成する方法である。
 上記方法は、特徴抽出部が、人物の顔が記憶された画像から眼の領域の画像を抽出するステップを有する。
 また、上記方法は、特徴抽出部が、眼の領域の画像から瞬目振幅を抽出するステップを有する。特徴抽出部は、瞬目振幅を抽出することで以降のステップにおける瞬目を検出するための判定しきい値を設定することができる。一例として、当該判定しきい値は、瞬目振幅の半分の幅を設定することができる。ただし、判定しきい値は、対象とする人物に対してそれぞれ異なる値を設定できることが好ましい。また、画像群を眼の領域の画像群に変換することで、コンピュータが取り扱う画像のサイズを小さくすることができる。したがって、メモリの使用量を減らし、消費電力を小さくすることができる。
 また、上記方法は、特徴抽出部が、眼の領域の画像から瞬目を開始したと判断する画像を検出するステップを有する。なお、瞬目の開始とは、瞼が閉じていると判断される画像が検出された場合である。また、瞬目の終了とは、瞼が開いていると判断される画像が検出された場合である。なお、瞼の開閉を判断するには、当該判定しきい値を用いることができる。
 なお、瞬目は、瞬目の開始の画像から抽出する瞬目振幅、瞬目の終了の画像から抽出する瞬目振幅、ならびに瞬目の開始及び終了から抽出された瞬目振幅よりも小さな振幅が抽出される画像によって判断される。瞬目期間は、人によりばらつきがあるものの約300msといわれている。当該撮像装置は、瞬目期間に瞬目振幅が判定しきい値よりも小さな眼の領域の画像を少なくとも3つ以上取得できることが好ましい。
 また、上記方法は、特徴抽出部が、眼の領域の画像から瞬目が終了したと判断する画像から任意の時間経過した画像を第1のデータとして記憶するステップを有する。第1のデータは、瞬目後の眼の状態を表している。したがって、瞬目が瞬目反射によって発生している場合、第1のデータは、概ね人物の状態を適切に表している。なお、当該任意の時間は、自由に設定できることが好ましい。
 また、上記方法は、特徴抽出部が、第1のデータから任意の時間が経過した画像を第2のデータとして記憶するステップを有する。第2のデータは、概ね人物の感情または体調の変化などの状態を表している。なお、当該任意の時間は、自由に設定できることが好ましい。
 例えば、人物の感情が昂っている場合、第2のデータに記憶される眼は、第1のデータに記憶された眼よりも大きくなったり、小さくなったりする。また、人物が眠気などを有する場合、第1のデータよりも第2のデータに記憶される眼の振幅は小さくなることがある。ただし、眠気等を判断する場合は、瞬目率を判断に追加することができる。瞬目率とは、1分間に何回瞬目するかを表している。
 また、上記方法は、特徴抽出部が、第1のデータおよび第2のデータから白目の領域の面積情報を抽出するステップを有する。本発明の一態様では、白目の領域から得られる情報を用いることで眼球運動の状態を把握することができる。例えば、白目の領域の面積情報とは、黒目の中心座標を用いて白目の領域を第1の領域および第2の領域に分割した場合の面積比、または瞼の開閉によって変化する第1の領域および第2の領域の面積の変化などである。
 例えば、視線が同じ場所に留まっている場合でも黒目は常に動き続けていることが知られている。これは固視微動と呼ばれ、固視微動の中で1回の動きが最も大きいものは、マイクロサッカードと呼ばれる。マイクロサッカードは、瞳孔から入射した光が網膜の同じ箇所にあたり続けるのを回避する役目がある。例えば、マイクロサッカードが発生せず瞳孔から入射した光が網膜の同じ箇所にあたり続けた場合、網膜は、光の変化を認識できなくなる。よって、網膜は、瞳孔を介して入射する像を認識できなくなることが知られている。本発明の一態様では、マイクロサッカードを検出するために白目の面積比からマイクロサッカードによって発生する黒目の振動幅を検出することができる。なお、マイクロサッカードによって発生する黒目の振動幅のことを、白目の振動幅と言い換えて説明する場合がある。なお、黒目および白目の振動幅は、眼球の振動幅と言い換えることができる。
 マイクロサッカードの動きが大きく且つ早い場合、眼は視覚を生み出す能力が高い状態であるといわれている。したがって、マイクロサッカードの動きが大きく且つ早い場合、人物は対象物に対し集中力が高い状態にある。また、マイクロサッカードの動きが小さく且つゆっくりの場合、人物は対象物に対し集中力を失っている状態にあるといえる。これは、眠気を感じていると判断することができる。ただし、人物の状態をより正しく分類するためには、白目の面積比、瞬目振幅、または白目の振動幅など複数の条件を用いて判断することが好ましい。
 また、上記方法は、特徴抽出部が、白目の領域の情報を学習データとして分類器に与えるステップを有する。例えば、学習データには、白目の領域の情報として、白目の面積比、瞬目振幅、白目の振動幅、または瞼の位置の変化などが与えられることが好ましい。
 また、上記方法は、分類器が、学習データを用いて分類モデルを生成するステップを有する。
 なお、上述した学習データを用いて教師無しの機械学習による分類を行うことができる。例えば、分類モデルとして、K−means、またはDBSCAN(density−based spatial clustering of applications with noise)などのアルゴリズムを用いることができる。
 異なる例として、分類モデルには、さらに教師データを与えることができる。例えば、教師データには、感情分類または白目の振動幅の判定しきい値などを与えることができる。教師データが付与された学習データを用いて教師ありの機械学習による分類を行うことができる。例えば、分類モデルとして、決定木、ナイーブベイズ、KNN(k Nearest Neighbor)、SVM(Support Vector Machines)、パーセプトロン、ロジスティック回帰、ニューラルネットワークなどの機械学習のアルゴリズムを用いることができる。
 続いて、本実施の形態で説明する眼の情報から人物の状態を分類する方法について図1を用いて説明する。以降において、当該分類器の生成方法を分類装置10と言い換えて説明する場合がある。
 分類装置10は、撮像装置20、特徴抽出部30、および特徴推定部40を有する。特徴抽出部30は、瞬目検出部31、メモリ管理部32、記憶部33、検出部34、および情報検出部35を有する。特徴推定部40は、分類器40aを有する。記憶部33は、記憶装置33a、および記憶装置33bを有する。なお、記憶部33が有する記憶装置の数は2つに限定されない。1つまたは3つ以上でもよい。
 撮像装置20は、撮像装置20が有する撮像素子を用いて人物の画像21a乃至画像21nを取得することができる。当該画像には、人物の眼の領域が含まれる。なお、眼の領域には、白目の領域101、黒目の領域102a、および瞼104が含まれる。なお黒目の領域は、瞳孔の領域と、虹彩の領域とを有する。画像21a乃至画像21nは、瞬目検出部31に与えられる。なお、aまたはnは、正の整数である。また、nは、aよりも大きい。
 瞬目検出部31は、画像21a乃至画像21nからそれぞれ眼の領域を抽出することができる。瞬目検出部31は、当該抽出される眼の領域を画像22a乃至画像22nとして保存する。なお、画像22a乃至画像22nは、画素数が同じ画像に変換することが好ましい。また、眼の幅を同じにするように変換することが好ましい。以降において、画像22a乃至画像22nのいずれか一つの画像について説明する場合、説明を簡略化するために眼の領域の画像22と呼ぶ場合がある。なお、瞬目検出部31は、眼の領域を抽出するためにCNNを用いることが好ましい。
 瞬目検出部31は、眼の領域の画像から瞬目振幅を抽出することができる。瞬目振幅とは、眼が開いていると判断される状態の上瞼と下瞼間の距離の最大値、または複数の画像から抽出した当該距離の最大値の平均値であることが好ましい。瞬目検出部31は、当該瞬目振幅を用いて眼の領域の画像が瞬目状態かを判断するための判定しきい値を決定することができる。
 また、瞬目検出部31は、判定しきい値を用いて画像22a乃至画像22nから瞬目を開始したと判断する画像22pを検出することができる。例えば、瞬目検出部31は、画像22pから検出した瞬目振幅が判定しきい値より小さくなったことを検出した場合に眼が瞬目を開始したと判断することができる。次に、瞬目検出部31は、画像22p以降の画像から瞬目が終了したと判断する画像を検出する。例えば、瞬目検出部31は、画像22p以降の画像から検出した瞬目振幅が判定しきい値より大きくなったことを検出した場合に眼が瞬目を終了したと判断することができる。なお、pは、正の整数である。
 一例として、画像22p+2が、瞬目が終了したと判断された画像の場合、画像22p+3を第1のデータとしてメモリ管理部32に与えることができる。メモリ管理部32は、画像22p+3を記憶装置33aに保存する。なお、本発明の一態様では、瞬目が終了したと判断された画像22p+2の次の画像22p+3を第1のデータとして記憶装置33aに保存したが、第1のデータとして保存するのは画像22p+2の次の画像に限定されない。任意の時間経過後の画像22qを保存することもできる。なお、qは、正の整数である。また、qは、pよりも大きい。
 さらに、瞬目検出部31は、画像22p+3から任意の時間経過後の画像22rを第2のデータとしてメモリ管理部32に与えることができる。メモリ管理部32は、画像22rを記憶装置33bに保存する。なお、rは、正の整数である。また、rは、qよりも大きい。
 なお、記憶装置の数は、2つに限定されない。複数の記憶装置には、1回の瞬目に対して異なる時間経過後の眼の領域の画像を保存することができる。なお、瞬目検出部31の処理内容については、図3および図4を用いて詳細に説明する。
 検出部34は、記憶装置33aに保存されている第1のデータおよび記憶装置33bに保存されている第2のデータから白目の領域の面積情報を抽出することができる。白目の領域の面積情報を抽出するにはCNNを用いると効率的である。
 情報検出部35は、検出部34で抽出された白目の領域の面積情報からより詳細な白目の領域の情報を検出することができる。例えば、黒目の中心座標を用いることで白目の領域を第1の領域および第2の領域に分割することができる。また、第1の領域および第2の領域の面積比を抽出することができる。または、第1の領域および第2の領域の面積が、瞼の開閉によって変化することを抽出することができる。白目の領域の面積情報の抽出方法については、図6を用いて詳細に説明する。なお、検出部34および情報検出部35は、黒目の領域から、瞳孔の大きさを抽出することができる。
 特徴推定部40には、特徴抽出部30で抽出された白目の領域の情報が学習データとして与えられる。例えば、分類器40aには、学習データとして、白目の面積比、瞬目振幅、白目の振動幅、または瞼の位置の変化などが与えられる。さらに、瞳孔の大きさなどが与えられてもよい。
 特徴推定部40が有する分類器40aは、学習データを用いて分類モデルを生成することができる。分類モデルには、さらに、教師データ41を与えることができる。例えば、教師データ41として、感情分類、白目の振動幅の判定しきい値などを与えることができる。上述した学習データ、さらに教師データを与えることで、分類モデルは学習を行う。したがって、分類モデルを有する分類器40aは、眼の情報から人物の感情または体調の変化などを推定できるようになる。
 続いて、特徴抽出部30には、新たな第1のデータおよび第2のデータが与えられる。特徴推定部40には、新たな学習データが与えられる。特徴推定部40は、学習済の分類モデルを有する分類器40aを用いて人物の感情、または体調の変化などの状態を分類し、分類結果Coutを出力することができる。
 図2Aは、眼の構成を説明する図である。眼の構成要素には、白目の領域、黒目の領域、および瞼104などがある。白目の領域は、黒目を中心に分割される白目の領域101Aおよび白目の領域101Bを有する。黒目の領域は、瞳孔102および虹彩103を有する。続いて、眼の構成のそれぞれの寸法について定義する。例えば、眼は、眼の横方向の幅x、虹彩の幅k、瞳孔の幅m、および眼の縦方向の幅(瞬目振幅y)として定義することができる。
 続いて、図2Bは、学習データの生成方法を説明する図である。眼には、不定期な瞬目が発生する。一例として、図2Bでは、時刻BT1乃至時刻BT6を瞬目が発生した時刻として示している。眼の学習データを生成する場合、安定した眼の情報を把握することが重要である。例えば、画像22a乃至画像22nの中から瞬目している画像をノイズとして除去する必要がある。瞬目の画像を含む画像群を学習データとして用いる場合、分類モデルの学習にはより多くの画像を学習させなければならない。また、分類装置10は、学習すべき画像の量が多くなることで、消費電力が大きくなり、且つ画像を処理する時間を多く必要とする。
 本発明の一態様では、瞬目をイベント発生のトリガーとして使用する。一例として、時刻BT2の瞬目について詳細に説明する。
 時刻T1は、瞬目が開始される前の状態(イベントが発生していない状態)である。
 時刻T2は、瞬目振幅yが判定しきい値より小さくなったことを検出した時刻である。詳細に説明すると、瞬目検出部31が、瞬目が開始されたと判断する画像22pを検出した時刻である。
 時刻T3は、瞬目振幅yが判定しきい値より小さく、且つ画像22pで検出した瞬目振幅yよりも小さいことを検出した時刻である。詳細に説明すると、瞬目検出部31が、瞬目振幅yが最も小さくなっていると判断する画像22p+1を検出した時刻である。
 時刻T4は、瞬目振幅yが判定しきい値より大きくなったことを検出した時刻である。詳細に説明すると、瞬目検出部31が、瞬目が終了したと判断する画像22p+2を検出した時刻である。
 時刻T5は、瞬目が終了後の画像22p+3を検出した時刻である。なお、画像22p+3は、データData1として記憶装置33aに保存される。なお、時刻T4から任意の時間経過後の画像22qをデータData1としてもよい。
 時刻T6は、画像22p+3を検出した時刻からさらに任意の時間経過後の画像22rである。なお、画像22rは、データData2として記憶装置33bに保存される。
 上述したような時刻T1乃至時刻T6の手順によって取得された学習データは、ノイズが含まれる量を低減し、消費電力を低減し、必要とする記憶装置の量を低減した学習データを生成することができる。
 データData1およびデータData2は、それぞれを独立した学習データとして扱うことができる。または、データData1およびデータData2は、一つの学習データとして扱うことができる。または、データData2からデータの差分を抽出することで第3のデータを生成し、第3のデータを学習データとして用いることができる。なお、データData1、データData2、および第3のデータを他の機械学習の学習データとして用いることができる。なお、データData1、データData2、および第3のデータには、瞬目の発生頻度または瞳孔の幅を加えることができる。瞬目の発生頻度または瞳孔の幅は、人物の感情、または体調の変化を表す学習データの一つとしても使用することができる。
 図3は、学習データの生成方法を説明するフローチャートである。まず、画像22a乃至画像22nの画像群を用いて瞬目振幅を抽出する。次に、当該瞬目振幅を用いて瞬目の開始および終了の判定をするための判定しきい値を設定する。
 ステップST01は、当該画像群の中の任意の数の画像から瞬目振幅yの抽出を行うステップである。なお、ステップST01では、瞬目振幅yの最大値y_max、瞬目振幅yの最小値y_minについても抽出する。なお、瞬目振幅yの最小値y_minは、画像から検出された最小値を示している。なお、瞬目振幅yの最大値y_max、瞬目振幅yの最小値y_minは、常に加算平均を行うことで、対象の人物が有する眼の開き具合といった特徴を抽出することができる。
 ステップST02は、瞬目振幅yの平均値を算出するステップである。一例として、ステップST01で抽出された瞬目振幅yの上位3つ以上を用いて平均値y_aveを算出する。なお、平均化する数は設定できることが好ましい。
 ステップST03は、瞬目の開始および終了の判定をするための判定しきい値を設定するステップである。一例として、瞬目の開始および終了を判定条件とした場合、平均値y_aveの50%を判定しきい値として設定する。なお、瞬目の開始および終了の判定条件は、50%に限定されず、それぞれ任意に設定できることが好ましい。
 ステップST04は、データData1およびデータData2を検出および保存するステップである。なお、データData1およびデータData2の検出および保存については、図4を用いて詳細に説明する。
 ステップST05は、学習データの生成を終了するステップである。
 図4は、学習データの生成方法を説明するフローチャートである。図4では、学習データであるデータData1およびデータData2を検出および保存する方法を詳細に説明する。なお、図4では、眼の領域が画像として保存されている画像22a乃至画像22nの画素群を用いる。
 ステップST11は、画像群の中から任意の画像22pを選択するステップである。
 ステップST12は、新規画像があるかを確認するステップである。画像22p+1が存在するならばステップST13に移行する。画像22p+1が存在しないのであればステップST1B(return)に移行した後、ステップST05に移行し学習データの生成を終了する。
 ステップST13は、画像から眼の領域を抽出するステップである。
 ステップST14は、当該眼の領域から瞬目振幅yを抽出するステップである。
 ステップST15は、瞬目振幅yが、判定しきい値よりも小さいかを判定するステップである。瞬目振幅yが判定しきい値よりも小さい場合は、瞬目が開始されていると判断されるためステップST16に移行する。瞬目振幅yが判定しきい値よりも大きい場合は、瞬目が開始されていないと判断されるためステップST12に移行する。
 ステップST16は、新規画像があるかを確認するステップである。画像22p+2が存在するならばステップST17に移行する。画像22p+2が存在しないのであればステップ1Bに移行した後、ステップST05に移行し学習データの生成を終了する。なお、ステップST16には、ステップST13およびステップST14の処理が含まれるが図面のスペースの関係により記号“*1”で表している。以降において記号“*1”が付与されるステップは、ステップST13およびステップST14の処理を含む。
 ステップST17は、瞬目振幅yが、判定しきい値よりも大きいかを判定するステップである。瞬目振幅yが判定しきい値よりも大きい場合は、瞬目が終了したと判断されるためステップST18に移行する。瞬目振幅yが判定しきい値よりも小さい場合は、瞬目が終了していないと判断されるためステップST16に移行する。
 ステップST18は、画像22p+3をデータData1として記憶装置33aに保存するステップである。
 ステップST19は、新規画像があるかを確認するステップである。画像22rが存在するならばステップST1Aに移行する。画像22rが存在しないのであればステップST1Bに移行した後、ステップST05に移行し学習データの生成を終了する。
 ステップST1Aは、画像22rをデータData2として記憶装置33bに保存するステップである。次に、ステップST12に移行する。
 上述したように、瞬目をイベントとして検出し、瞬目が終了してから任意の時間経過後の画像を学習データとして収集することができる。当該学習データは、瞬目後という条件のもと集められた学習データであるためノイズ成分を低減することができる。なお、瞬目の回数などは、ステップST16などにカウンタなどを設けることで容易に情報を収集することができる。
 図5A乃至図5Cは、眼の情報を説明する図である。図5Aは、一例として、瞬目後の眼の状態を示している。よって、図5Aは、データData1に相当する。瞬目後の眼は、画像の人物の感情、または体調の変化などの自分では意識していない状態を表している場合が多い。なお、図5Aの瞬目振幅y1は、平均値y_aveの−20%より大きく且つ+20より小さいことが好ましい。瞬目振幅y1は、平均値y_aveの−10%より大きく且つ+10%より小さいことがより好ましい。瞬目振幅y1は、平均値y_aveの−5%より大きく且つ+5%より小さいことがさらに好ましい。
 なお、検出部34および情報検出部35は、眼の情報として、白目の領域101Aの面積、白目の領域101Bの面積、白目の領域101Aと白目の領域101Bの合計面積、および白目の領域101Aと領域101Bの面積比などを算出することができる。なお、検出部34および情報検出部35は、それぞれの面積を抽出するためにCNNを用いることが好ましい。
 図5Bは、一例として、瞬目後から任意の時間経過後の眼の状態を示している。瞬目後から任意の時間が経過した場合、眼は、人物の感情または体調の変化などの状態によって表情筋が影響を受けることがある。当該表情筋が影響を受ける場合、瞬目振幅y2または瞳孔などに変化が表れる。図5Bは、一例として、人物が驚いたとき、または感情が昂っているときなどに現れる眼の形状の変化を示している。例えば、上の瞼104が、方向EL1のように上に向かって動いている。この変化は、白目の領域101Aと領域101Bの合計面積の変化として検出することができる。
 異なる例として、図5Cは、瞬目後から任意の時間経過後の眼の状態を示している図5Bとは異なる眼の状態を示している。瞬目後から任意の時間経過後の眼の状態は、瞬目から瞬目までの期間に現れる人物の感情または体調の変化などの状態を表している場合が多い。図5Cは、一例として、人物が眠気を催している場合などに現れる眼の形状の変化を示している。当該表情筋が影響を受ける場合、瞬目振幅y3または瞳孔などに変化が表れる。例えば、上の瞼104が、方向EL1のように下に向かってに動いている。なお、瞬目振幅y3は、判定しきい値よりも大きいことが好ましい。
 この変化は、白目の領域101Aおよび領域101Bの面積の変化として検出することができる。なお、図5Cに示すように方向EL2、または方向EL3の変化量は異なる場合がある。このような細かな変化は、人物の感情に影響を受けている場合があり、自己カウンセリングには有効である。
 よって図5Bおよび図5Cは、データData2に相当する場合が多い。ただし、図5Bまたは図5Cが瞬目後の眼の状態の場合もあり、瞬目後に図5Bまたは図5Cのような状態であれば、人物の感情または体調の変化などの状態が顕著に表れている可能性がある。なお、これらの分類は、学習データを用いて学習した分類モデルを用いて行われる。
 異なる例として、図5Cのような眼の状態の場合、人物の状態は、集中力が高くなっている場合がある。このような場合を差別化する方法としてマイクロサッカードの振動幅を利用する方法がある。
 本発明の一態様では、白目の面積比からマイクロサッカードによって発生する白目(眼球)の振動幅を検出することができる。白目の振動幅の検出方法は、図6を用いて詳細に説明する。
 白目の振動幅を検出する方法を説明するために、図6Aは、図5Bを援用して説明をする。白目の振動幅を検出するためには、白目の面積を求める必要がある。しかし、図6Aに示すように白目の領域が一つのオブジェクトとして検出される場合、白目の領域を分割するための分割ラインSLを設定する必要がある。
 図6Bは、検出部34によって抽出された図5Bの白目の領域を説明する図である。なお、白目の領域101は、オブジェクトとして抽出される。当該オブジェクトが1つの場合、情報検出部35は、当該白目の領域から黒目の領域に概ね等しい円の領域を抽出する。次に、当該抽出した円の中心座標C(a,b)を検出する。次に、当該中心座標のx座標を用いて白目の領域101を、白目の領域101Aおよび白目の領域101Bに分割する分割ラインSLを設定することができる。
 図6Cは、検出部34によって抽出された図5Cの白目の領域を説明する図である。なお、白目の領域101は、白目の領域101Aおよび白目の領域101Bを示す2つのオブジェクトとして抽出される。
 図6Bおよび図6Cは、分割ラインSLを中心に白目の領域101Aおよび白目の領域101Bに分割される。例えば、黒目の振動幅を検出する場合、黒目の中心の変動を検出することが好ましい。ただし、黒目の振動幅の検出精度は、画像の画素数の分解能に依存する。しかし、白目の振動幅は、対象とする変動量が面積で比較され、さらに、白目の領域101Aが大きくなれば白目の領域101Bは必ず小さくなる反比例の関係を有する。よって検出精度は、白目の振動幅の検出の方が黒目の振動幅の検出よりも高くなる。
 図7は、白目の領域を検出する方法を説明するフローチャートである。
 ステップST20は、CNNを用いて眼の領域の画像から白目の領域を抽出するステップである。
 ステップST21は、白目の領域が一つのオブジェクトであるかを判定するステップである。白目の領域が一つのオブジェクトで検出された場合、ステップST22に移行する。白目の領域が複数のオブジェクトで検出された場合は、ステップST25に移行する。
 ステップST22は、一つのオブジェクトで検出された白目の領域から、円(黒目(虹彩・瞳孔))の領域を検出するステップである。
 ステップST23は、当該円の領域の中心座標C(a,b)を検出するステップである。
 ステップST24は、白目の領域を、中心座標C(a,b)のx座標を中心に分割するステップである。白目の領域101は、白目の領域101Aおよび白目の領域101Bに分割される。
 ステップST25は、検出された白目の領域101Aおよび白目の領域101Bのそれぞれの面積を算出するステップである。
 図8A乃至図8Cは、学習データの生成方法を説明する図である。図8A乃至図8Cにおいて、時刻T11、時刻T21、および時刻T31は、瞬目が開始される前の時刻である。時刻T12、時刻T22、および時刻T32は、特徴抽出部30が瞬目の開始を検出する時刻である。時刻T13、時刻T23、および時刻T33は、瞬目検出部31が、瞬目振幅yが最も小さくなっていると判断する画像を検出した時刻である。時刻T14、時刻T24、および時刻T34は、特徴抽出部30が瞬目の終了を検出する時刻である。時刻T15、時刻T25、および時刻T35は、瞬目が終了後の任意の時間経過後の時刻である。時刻T16、時刻T26、および時刻T36は、瞬目の終了後からさらに任意の時間経過後の時刻である。時刻T17、時刻T27、および時刻T37はそれぞれ、時刻T16、時刻T26、および時刻T36とは異なる、瞬目の終了後からさらに任意の時間経過後の時刻である。
 図8A乃至図8Cでは、特徴抽出部30が瞬目の終了を検出する時刻T14、時刻T24、または時刻T34の後の異なる時刻の画像をそれぞれ、データData1、データData2、およびデータData3として保存する。
 図8Aは、白目が横方向に振動する例である。白目の振動がx軸方向の場合は、白目の振動幅を容易に検出することができる。
 図8Bは、白目が斜め方向に振動する例である。白目の振動が斜め方向の場合は、斜め方向の振動をx軸方向の変動に置き換えて白目の振動幅として検出することができる。なお、斜め方向の振動を判断する場合、白目の領域をさらに中心座標C(a,b)のy座標を中心に分割し、白目の領域101A乃至白目の領域101Dの4つの領域の面積を比較することができる。斜め方向の移動量などを検出する処理を削減することができるので消費電力を低減することができる。
 図8Cは、瞼が上下に変動する場合である。白目の面積比では検出が難しいので瞬目振幅yを検出することが好ましい。なお、図8Cにおいて、x軸方向または斜め方向に白目が変動する場合は、容易に白目の変動幅を検出することができる。なお、白目の振動幅を組み合わせることで人物の状態をより正確に分類することができる。
 図9は、眼の情報から人物の状態を分類する方法を備える分類装置100を説明するブロック図である。
 分類装置100は、演算部81、メモリ82、入出力インターフェース83、通信デバイス84、およびストレージ85を有している。つまり、分類装置100による眼の情報から人物の状態を分類する方法は、撮像装置20、特徴抽出部30、および特徴推定部40を含むプログラムによって提供される。なお当該プログラムは、ストレージ85又は、メモリ82に保存され、演算部81を用いてパラメータの探索を行う。
 入出力インターフェース83には、表示装置86a、キーボード86b、カメラ86c等が電気的に接続される。なお、図9では図示していないが、マウスなどが接続されてもよい。
 通信デバイス84は、ネットワークインターフェース87を介して他のネットワークと電気的に接続される。なお、ネットワークインターフェース87は、有線、又は無線による通信を含む。当該ネットワークには、監視カメラ88、Webカメラ89、データベース8A、リモートコンピュータ8B、又はリモートコンピュータ8Cなどが電気的に接続される。なお、ネットワークを介して電気的に接続される監視カメラ88、Webカメラ89、データベース8A、リモートコンピュータ8B、又はリモートコンピュータ8Cは、異なる建物、異なる地域、異なる国に設置されていてもよい。
 以上、本発明の一態様で示す構成、方法は、その一部を適宜組み合わせて用いることができる。
:Data1:データ、Data2:データ、Data3:データ、T1:時刻、T2:時刻、T3:時刻、T4:時刻、T5:時刻、T6:時刻、T11:時刻、T12:時刻、T13:時刻、T14:時刻、T15:時刻、T16:時刻、T17:時刻、T21:時刻、T22:時刻、T23:時刻、T24:時刻、T25:時刻、T26:時刻、T27:時刻、T31:時刻、T32:時刻、T33:時刻、T34:時刻、T35:時刻、T36:時刻、T37:時刻、y1:瞬目振幅、y2:瞬目振幅、y3:瞬目振幅、8A:データベース、8B:リモートコンピュータ、8C:リモートコンピュータ、10:分類装置、20:撮像装置、21a:画像、21n:画像、22:画像、22a:画像、22n:画像、22p:画像、22q:画像、22r:画像、30:特徴抽出部、31:瞬目検出部、32:メモリ管理部、33:記憶部、33a:記憶装置、33b:記憶装置、34:検出部、35:情報検出部、40:特徴推定部、40a:分類器、41:教師データ、81:演算部、82:メモリ、83:入出力インターフェース、84:通信デバイス、85:ストレージ、86a:表示装置、86b:キーボード、86c:カメラ、87:ネットワークインターフェース、88:監視カメラ、89:Webカメラ、100:分類装置、101:白目の領域、101A:白目の領域、101B:白目の領域、102:瞳孔、102a:黒目の領域、103:虹彩、104:瞼

Claims (5)

  1.  撮像装置と、特徴抽出部と、分類器と、を用いた分類方法であって、
     前記分類器は、分類モデルを有し、
     前記撮像装置は、連続撮影することで画像群を生成する機能を有し、
     前記画像群には、眼の領域の画像が含まれ、
     前記眼は、白目の領域を有し、
     前記白目の領域は、眼球が白色の被膜に覆われた領域であり、
     前記特徴抽出部が、
     前記画像群から前記眼の領域を抽出するステップを有し、
     前記画像群から瞬目振幅を抽出するステップを有し、
     前記画像群から瞬目を開始したと判断する画像を検出するステップを有し、
     前記画像群から前記瞬目が終了したと判断する画像を第1のデータとして記憶するステップを有し、
     前記画像群から前記第1のデータから任意の時間が経過した画像を第2のデータとして記憶するステップを有し、
     前記特徴抽出部が、前記第1のデータおよび前記第2のデータから前記白目の領域の面積情報を抽出するステップを有し、
     前記特徴抽出部が、前記白目の領域の面積情報を学習データとして前記分類器に与えるステップを有し、
     前記分類器が、前記学習データを用いて前記分類モデルを生成するステップを有する分類方法。
  2.  請求項1において、
     前記第1のデータおよび前記第2のデータに含まれる前記眼の領域の画像には、それぞれ前記白目の領域が含まれ、
     検出された前記白目の領域の面積情報が独立した第1の領域および第2の領域を有する場合、
     前記特徴抽出部が、前記第1の領域と前記第2の領域との比を出力するステップを有し、
     検出された前記白目の領域の面積情報が第3の領域として検出される場合、
     前記特徴抽出部が、
     前記第3の領域から円の領域を検出するステップを有し、
     前記円の領域から前記円の中心を求めるステップを有し、
     前記円の中心のx座標を用いて前記第3の領域を前記第1の領域と前記第2の領域に分割するステップを有し、
     前記第1の領域と前記第2の領域との前記比を出力するステップを有し、
     前記特徴抽出部が、前記第1の領域と前記第2の領域との前記比から前記白目の振動幅を算出するステップを有し、
     前記分類器は、前記白目の振動幅を前記学習データとして用いる分類方法。
  3.  請求項1または請求項2において、
     前記特徴抽出部が、前記白目の振動幅と、前記瞬目振幅と、を前記学習データとして前記分類器に与えるステップを有し、
     前記分類器が、前記白目の振動幅と、前記瞬目振幅とを用いて前記分類モデルを生成するステップを有する分類方法。
  4.  請求項1乃至請求項3のいずれか一において
     前記分類器が、前記学習データを用いて学習するステップを有し、
     前記特徴抽出部に、新たな第1のデータおよび第2のデータが与えられるステップを有し、
     前記分類器が、前記分類モデルを用いて人物の感情、体調の変化などの状態を分類するステップを有する分類方法。
  5.  請求項1乃至請求項4のいずれか一において
     前記学習データに、教師用ラベルが付与されるステップを有し、
     前記分類器が、前記教師用ラベルが付与された前記学習データを用いて学習させるステップを有する分類方法。
PCT/IB2020/058111 2019-09-12 2020-09-01 分類方法 WO2021048682A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021544974A JP7522746B2 (ja) 2019-09-12 2020-09-01 分類方法
US17/637,563 US20220277591A1 (en) 2019-09-12 2020-09-01 Classification method
CN202080059927.6A CN114341871A (zh) 2019-09-12 2020-09-01 分类方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-166161 2019-09-12
JP2019166161 2019-09-12

Publications (1)

Publication Number Publication Date
WO2021048682A1 true WO2021048682A1 (ja) 2021-03-18

Family

ID=74866216

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2020/058111 WO2021048682A1 (ja) 2019-09-12 2020-09-01 分類方法

Country Status (4)

Country Link
US (1) US20220277591A1 (ja)
JP (1) JP7522746B2 (ja)
CN (1) CN114341871A (ja)
WO (1) WO2021048682A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024053728A1 (ja) * 2022-09-09 2024-03-14 住友ファーマ株式会社 対象の状態の予測およびその応用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009001558A1 (ja) * 2007-06-27 2008-12-31 Panasonic Corporation ヒト状態推定装置およびその方法
JP2015132783A (ja) * 2014-01-16 2015-07-23 日本電信電話株式会社 音の顕著度推定装置、その方法、及びプログラム
JP2017143889A (ja) * 2016-02-15 2017-08-24 ルネサスエレクトロニクス株式会社 開眼度検出システム、居眠り検知システム、自動シャッタシステム、開眼度検出方法及び開眼度検出プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3293308B2 (ja) * 1994-03-10 2002-06-17 三菱電機株式会社 人物状態検出装置
US8896725B2 (en) * 2007-06-21 2014-11-25 Fotonation Limited Image capture device with contemporaneous reference image capture mechanism
US7620218B2 (en) * 2006-08-11 2009-11-17 Fotonation Ireland Limited Real-time face tracking with reference images
US8320641B2 (en) * 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
US8503800B2 (en) * 2007-03-05 2013-08-06 DigitalOptics Corporation Europe Limited Illumination detection using classifier chains
KR101030613B1 (ko) * 2008-10-08 2011-04-20 아이리텍 잉크 아이이미지에서 관심영역정보 및 인식적 정보획득방법
US10568716B2 (en) * 2010-03-17 2020-02-25 ClearCorrect Holdings, Inc. Methods and systems for employing artificial intelligence in automated orthodontic diagnosis and treatment planning
KR101288447B1 (ko) * 2011-10-20 2013-07-26 경북대학교 산학협력단 시선 추적 장치와 이를 이용하는 디스플레이 장치 및 그 방법
CN104780834B (zh) * 2012-11-12 2016-12-28 阿尔卑斯电气株式会社 生物体信息计测装置及使用该装置的输入装置
US9962119B2 (en) * 2013-05-31 2018-05-08 Dignity Health System and method for detecting neurological disease
RU2016138608A (ru) * 2016-09-29 2018-03-30 Мэджик Лип, Инк. Нейронная сеть для сегментации изображения глаза и оценки качества изображения
CA3040419A1 (en) * 2016-10-13 2018-04-19 Translatum Medicus, Inc. Systems and methods for detection of ocular disease
KR20180053108A (ko) * 2016-11-11 2018-05-21 삼성전자주식회사 홍채 영역 추출 방법 및 장치
CN106960199B (zh) * 2017-03-30 2020-03-31 博奥生物集团有限公司 一种真彩色眼象图白睛区域的完整提取方法
EP3956813A4 (en) * 2019-04-18 2022-11-16 Tracery Ophthalmics Inc. DETECTION, PREDICTION AND CLASSIFICATION OF EYE DISEASE

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009001558A1 (ja) * 2007-06-27 2008-12-31 Panasonic Corporation ヒト状態推定装置およびその方法
JP2015132783A (ja) * 2014-01-16 2015-07-23 日本電信電話株式会社 音の顕著度推定装置、その方法、及びプログラム
JP2017143889A (ja) * 2016-02-15 2017-08-24 ルネサスエレクトロニクス株式会社 開眼度検出システム、居眠り検知システム、自動シャッタシステム、開眼度検出方法及び開眼度検出プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024053728A1 (ja) * 2022-09-09 2024-03-14 住友ファーマ株式会社 対象の状態の予測およびその応用

Also Published As

Publication number Publication date
JPWO2021048682A1 (ja) 2021-03-18
JP7522746B2 (ja) 2024-07-25
US20220277591A1 (en) 2022-09-01
CN114341871A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
Chirra et al. Deep CNN: A Machine Learning Approach for Driver Drowsiness Detection Based on Eye State.
Memon et al. Tracker for sleepy drivers at the wheel
Zhang et al. Driver drowsiness recognition based on computer vision technology
Bacivarov et al. Statistical models of appearance for eye tracking and eye-blink detection and measurement
Darshana et al. Efficient PERCLOS and gaze measurement methodologies to estimate driver attention in real time
Amarnag et al. Real time eye tracking for human computer interfaces
KR20160116311A (ko) 로봇의 표정 기반 연속적 정서 인식 방법, 이를 수행하기 위한 기록 매체 및 장치
US20220369923A1 (en) Method and a system for detection of eye gaze-pattern abnormalities and related neurological diseases
Gómez-Poveda et al. Evaluation of temporal stability of eye tracking algorithms using webcams
De Lope et al. Behavioral activity recognition based on gaze ethograms
Mohsin et al. Pupil detection algorithm based on feature extraction for eye gaze
WO2021048682A1 (ja) 分類方法
Phuong et al. An eye blink detection technique in video surveillance based on eye aspect ratio
Melesse et al. Appearance-based gaze tracking through supervised machine learning
Akshay et al. A cnn based model for identification of the level of participation in virtual classrooms using eye movement features
Bhowmick et al. A Framework for Eye-Based Human Machine Interface
Sulaiman et al. A systematic review on Evaluation of Driver Fatigue Monitoring Systems based on Existing Face/Eyes Detection Algorithms
Sharma et al. Deep convolutional network based real time fatigue detection and drowsiness alertness system
KR100338805B1 (ko) 졸음 레벨 검출 방법
Rafee et al. Eye-movement analysis and prediction using deep learning techniques and Kalman filter
Varol Easymatch-an eye localization method for frontal face images using facial landmarks
Jin et al. Pupil and blink detection algorithms for wearable eye tracking system
Arindam et al. An efficient approach for driver’s drowsiness detection system using deep learning and transfer learning
Das et al. Real-time iris center detection and tracking from video images
Romero et al. Verification of models of personal perception of faces by closed-eye classifier using histogram correlation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20863853

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021544974

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20863853

Country of ref document: EP

Kind code of ref document: A1