WO2013099367A1 - 画像認識装置、画像認識方法、補正器、プログラムおよび記録媒体 - Google Patents

画像認識装置、画像認識方法、補正器、プログラムおよび記録媒体 Download PDF

Info

Publication number
WO2013099367A1
WO2013099367A1 PCT/JP2012/073485 JP2012073485W WO2013099367A1 WO 2013099367 A1 WO2013099367 A1 WO 2013099367A1 JP 2012073485 W JP2012073485 W JP 2012073485W WO 2013099367 A1 WO2013099367 A1 WO 2013099367A1
Authority
WO
WIPO (PCT)
Prior art keywords
attribute
data
image recognition
estimated
data acquisition
Prior art date
Application number
PCT/JP2012/073485
Other languages
English (en)
French (fr)
Inventor
植木 一也
Original Assignee
Necソフト株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Necソフト株式会社 filed Critical Necソフト株式会社
Publication of WO2013099367A1 publication Critical patent/WO2013099367A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Definitions

  • the present invention relates to an image recognition device, an image recognition method, a corrector, a program, and a recording medium.
  • Image data subject to attribute estimation may have an error in the attribute estimation result depending on the environment at the time of data acquisition. For example, when performing age estimation, when face image data is acquired from above, it tends to be recognized as younger (or older) than the actual age. In that case, a method is conceivable in which a face image taken from above is learned as a training sample, and is identified as face image data from above and attributes such as age are estimated. However, there are a wide variety of variations in the environment at the time of data acquisition. Therefore, in order to obtain a highly accurate estimation result, it is necessary to learn a training sample for each variation.
  • an object of the present invention is to provide an image recognition apparatus, an image recognition method, a corrector, a program, and a recording medium that can obtain a highly accurate estimation result without requiring a large amount of training samples.
  • an image recognition apparatus includes: Data acquisition means for acquiring data to be estimated for attributes; Based on the data acquired by the data acquisition means, attribute estimation means for estimating the attribute according to a criterion learned in advance; A corrector that learns an error tendency in the data in advance and determines an error value for correcting the error of the attribute based on the data acquired by the data acquisition unit; And an integration unit that integrates the estimated attribute estimated by the attribute estimation unit and the error value determined by the corrector.
  • the image recognition method of the present invention includes: A data acquisition process for acquiring data to be estimated for attributes; Based on the data acquired in the data acquisition step, an attribute estimation step of estimating the attribute according to a criterion learned in advance, A correction step of learning an error tendency in the data in advance, and determining an error value for correcting the error of the attribute based on the data acquired in the data acquisition step; And an integration step of integrating the estimated attribute estimated by the attribute estimation step and the error value determined by the correction step.
  • the corrector of the present invention is Learn in advance the tendency of errors in the data to be attribute estimation target acquired by the data acquisition means, An error value for correcting an error of the attribute is determined based on the data acquired by the data acquisition means.
  • the program of the present invention causes a computer to execute the image recognition method of the present invention.
  • the recording medium of the present invention records the program of the present invention.
  • the image recognition system of the present invention is Data acquisition means for acquiring data to be estimated for attributes; Based on the data acquired by the data acquisition means, attribute estimation means for estimating the attribute according to a criterion learned in advance; A corrector that learns an error tendency in the data in advance and determines an error value for correcting the error of the attribute based on the data acquired by the data acquisition unit; Integration means for integrating the estimated attribute estimated by the attribute estimation means and the error value determined by the corrector; Output means for outputting the attribute integrated by the integration means, The data acquisition means and the output means are connected to the corrector via a communication network.
  • a highly accurate estimation result can be obtained without requiring a large amount of training samples.
  • FIG. 1 is a block diagram showing a configuration of an example (Embodiment 1) of an image recognition apparatus of the present invention.
  • FIG. 2 is a flowchart showing an example (Embodiment 1) of the image recognition method of the present invention.
  • FIG. 3 is a diagram for explaining an example of creating an attribute estimation model in the first embodiment.
  • 4A and 4B are diagrams illustrating an example of creating an error value estimation model in the first embodiment.
  • FIGS. 5A, 5 ⁇ / b> B, and 5 ⁇ / b> C are diagrams for explaining another example of creating the error value estimation model in the first embodiment.
  • FIGS. 6A and 6B are diagrams illustrating an example of face area detection in the first embodiment.
  • FIG. 7 is a block diagram showing a configuration of an example (embodiment 4) of an image recognition system using the image recognition apparatus of the present invention.
  • FIG. 8 is a block diagram showing a configuration of an example (Embodiment 5) of the image recognition apparatus of the present invention.
  • the attribute is age.
  • the attribute is preferably age.
  • the data is face image data, and the attribute is an attribute estimated from the face image data.
  • the data is face image data, and the attribute is an attribute estimated from the face image data.
  • FIG. 1 is a block diagram of an image recognition apparatus according to this embodiment.
  • FIG. 2 shows a flowchart of the image recognition method in the present embodiment.
  • the image recognition apparatus of this embodiment includes a data acquisition unit, an attribute estimation unit, a corrector, and an integration unit as main components.
  • the data acquisition unit 111 is connected to the attribute estimation unit 121.
  • the attribute estimation unit 121 is connected to the attribute estimation model 130 acquired in advance.
  • the data acquisition unit 111 is also connected to the corrector 140.
  • the corrector 140 stores an error value estimation model 141 acquired in advance.
  • the attribute estimation unit 121 and the corrector 140 are connected to the integration unit 151.
  • the image recognition apparatus according to the present embodiment preferably includes an output unit 161 as an arbitrary constituent member.
  • Examples of the data acquisition unit 111 include a CCD (Charge Coupled Device) camera, a CMOS (Complementary Metal Oxide Semiconductor) camera, and an image scanner.
  • Each unit of the attribute estimation unit 121, the corrector 140, and the integration unit 151 can be configured using, for example, dedicated hardware (for example, a central processing unit (CPU)), or on a computer by software processing. It can also be realized.
  • Examples of the output unit 161 include a monitor that outputs video (for example, various image display devices such as a liquid crystal display (LCD) and a cathode ray tube (CRT) display), a printer that outputs by printing, a speaker that outputs by sound, and the like. .
  • the output unit 161 is an arbitrary component and may not be included in the image recognition apparatus of the present invention, but is preferably included.
  • the attribute estimation model 130 and the error value estimation model 141 are stored in storage means such as a random access memory (RAM), a read-only memory (ROM), a hard disk (HD), an optical disk, a floppy (registered trademark) disk (FD), or the like. May be.
  • the storage means may be, for example, a device built-in type or an external type such as an external storage device.
  • the error value estimation model 141 is stored in the corrector 140 as described above.
  • the corrector 140 may include a program for recognizing an environment for selecting a criterion for determining an error tendency. Examples of the environment include a data acquisition angle and illuminance at a location where the data is acquired. Furthermore, the corrector 140 may include a program that orders to integrate the estimation result obtained from the attribute estimation unit 121 and the correction result obtained from the corrector 140.
  • the attribute may be an attribute relating to a person, such as age, sex, height, face orientation, smile level, and the like.
  • the image recognition method of the present embodiment performs the following steps using the image recognition apparatus of FIG. 1 as shown in the flowchart of FIG. First, recognition target data is acquired by the data acquisition unit 111 (step S11).
  • the attribute estimation unit 121 estimates an attribute from the recognition target data by referring to the attribute estimation model 130 created in advance by learning using many face regions to which attribute estimation teacher data is assigned (Ste S21).
  • the attribute estimation model 130 is created by learning using a machine learning (pattern recognition) technique prior to the execution of the image recognition method.
  • the attribute is an attribute recognized from a face
  • the attribute estimation model 130 includes a face area detection model 131 and a face area attribute estimation model 132.
  • the attribute is not limited to an attribute recognized from a face. For example, if a person is a target, the attribute may be recognized from the whole body or a part of the body.
  • the face area detection model 131 learns a learning face area (an area including face parts such as eyes, eyebrows, nostrils, and mouth, which are characteristic parts in a human face) by machine learning (pattern recognition). To make it. As shown in FIG. 3, first, the face region is given by applying a labeling 11 to the face of the learning image 10 (a male facing the front).
  • the face area teacher data is given by a human input using a conventionally known input means such as a keyboard and a mouse.
  • the number of learning images is preferably as large as possible, and a face area detection model is preferably created from a large number of learning images.
  • the face area detection model may include information such as a relative position or a size of the face part, for example.
  • the face area is detected by designating the size of the face area to be detected and referring to the face area detection model 131 created in advance from the upper left end of the recognition target data 40.
  • the face area can be searched by a so-called raster scan in which the image patch is sequentially moved in the direction toward the lower row and searched.
  • the face area data is detected by changing the acquisition size of the recognition target data 40 and searching for the face area. If the face area data is detected in this way, it is preferable that the face area can be aligned at the same time. Note that the detection of the face area is not limited to this example.
  • attribute estimation teacher data is assigned to the face area, and a face area attribute estimation model 132 is created by machine learning (pattern recognition) using a large number of face areas to which the attribute estimation teacher data is assigned.
  • the attribute estimation teacher data includes, for example, age.
  • teacher data for attribute estimation such as “age: 30 years old” is assigned to the face region of the learning image shown in FIG.
  • the attribute estimation teacher data such as age is given by a person using a conventionally known input means such as a keyboard and a mouse.
  • attribute estimation can be performed without learning, for example, by a method in which a human determines a rule and estimates an attribute (attribute estimation rule).
  • the corrector 140 refers to the error value estimation model 141 and determines an error value for correcting the attribute error based on the recognition target data (step S22).
  • the error value estimation model 141 is obtained by previously learning an error of an estimation result by the attribute estimation model 130 (face area attribute estimation model 132).
  • the error value estimation model 141 is created by learning using a machine learning (pattern recognition) technique prior to the execution of the image recognition method.
  • the corrector 140 stores an error value estimation model 141.
  • the error value estimation model 141 is created by learning a plurality of sets of “image data” and “error values”. Considering the detection accuracy, the larger the number of sets of “image data” and “error value”, the better.
  • these elements can be added as learning data. Specifically, for example, image data acquired from diagonally upward as shown in FIG. 4A and image data acquired from diagonally downward as shown in FIG. Or the error values corresponding to those image data, as shown in FIGS. 5A, 5B, and 5C, and the like. Thereby, the accuracy of image recognition can be further improved.
  • the corrector 140 may include an environment recognition program for estimating an error value.
  • the corrector 140 refers to the error value estimation model 141 and automatically creates a rule for determining an error value.
  • the corrector 140 can determine the error value based on the learning data of the error value estimation model 141 not only when the cause element of the error is clear but also when the cause element of the error is unknown.
  • the face angle to be input may be an angle at which the camera is installed, or may be an angle based on an output from the face angle estimator provided with a face angle estimator for estimating the face angle.
  • a black race specifically, in the image data such as 30A in FIG. 5A, a white race (FIGS. 5C and 30C) and a yellow race (FIG. 5B ) And 30B), when there is a tendency that it is often estimated to be older, information of “race” is also input at the time of learning.
  • 31A, 31B, and 31C each indicate labeling.
  • a race estimator for estimating the race can be provided as the race to be input, and the race based on the output from the race estimator can be input.
  • the illuminance at the data acquisition place is bright and there is a tendency that it is often estimated at a younger age
  • information on “illuminance” is also input during learning.
  • a sensor for sensing illuminance is provided, and the illuminance based on the output from the sensor can be input.
  • error value estimation model including the above information
  • more accurate attribute estimation can be performed in consideration of the effects of face angle, race, illuminance, and the like.
  • error value determination elements include facial expressions, things worn, body shape, image quality (camera performance), and the like.
  • a plurality of elements affect the error value they may be input in combination.
  • the integration unit 151 integrates the estimated attribute estimated by the attribute estimation unit 121 and the error value determined by the corrector 140 (step S31).
  • the integration can be performed, for example, by adding an error value to the estimated attribute.
  • the integration can be performed by, for example, the following formula (1).
  • Age (Age estimated by attribute estimation process) ⁇ (Error value) (1)
  • the integration is not limited to this method.
  • the error value may be defined by a ratio instead of the difference as described above and corrected in the integration step.
  • the image recognition result is output by the output means 161 (step S41).
  • Attributes that are recognition items include, for example, age, sex, height, face orientation, smile level, and the like.
  • the output step S41 is an optional step and may not be included in the image recognition method of the present invention, but is preferably included.
  • the image recognition method has a correction process for correcting the error of the estimated attribute of the data based on the recognition target data. Therefore, high accuracy without requiring a large amount of training samples. Can be obtained.
  • the range of selection of the installation location of the data acquisition means for example, a monitoring camera
  • an existing monitoring camera can be used.
  • the corrector of the present embodiment has previously learned the error tendency in the data to be estimated for the attribute acquired by the data acquisition unit, and based on the data acquired by the data acquisition unit, It is a corrector used in the above-described image recognition method for determining an error value for correcting an attribute error.
  • the corrector of the present embodiment can be used, for example, by being attached as a separate member to existing data acquisition means (for example, a surveillance camera) or newly incorporated in a program.
  • the program of this embodiment is a program that can execute the above-described image recognition method on a computer.
  • the program of this embodiment may be recorded on a recording medium, for example.
  • the recording medium is not particularly limited, and examples thereof include a random access memory (RAM), a read-only memory (ROM), a hard disk (HD), an optical disk, and a floppy (registered trademark) disk (FD).
  • FIG. 7 shows a configuration of an example of an image recognition system using the image recognition apparatus of the present invention.
  • the image recognition system includes data acquisition units 111A, 111B, and 111C, output units 161A, 161B, and 161C, communication interfaces 170A, 170B, and 170C, and a server 190.
  • the data acquisition unit 111A and the output unit 161A are connected to the communication interface 170A.
  • the data acquisition unit 111A, the output unit 161A, and the communication interface 170A are installed in the place X.
  • the data acquisition unit 111B and the output unit 161B are connected to the communication interface 170B.
  • the data acquisition unit 111B, the output unit 161B, and the communication interface 170B are installed at the place Y.
  • the data acquisition unit 111C and the output unit 161C are connected to the communication interface 170C.
  • the data acquisition unit 111C, the output unit 161C, and the communication interface 170C are installed at the place Z.
  • the communication interfaces 170A, 170B, and 170C and the server 190 are connected via the line network 180.
  • the server 190 side has an attribute estimation unit, a corrector, and an integration unit, and the server 190 stores the attribute estimation model and the error value estimation model.
  • the recognition target data acquired using the data acquisition unit 111A is transmitted to the server 190, and the server 190 side estimates the attribute, determines the error tendency, and integrates these to determine the attribute. it can. Further, the determined attribute can be output by the output means 161A.
  • the data acquisition means and the output means are installed at the site, and the server or the like is installed at another location so that the image can be recognized online. Therefore, for example, the installation of the apparatus does not take a place, and maintenance is easy. Further, for example, even when the installation locations are separated, centralized management or remote operation at one location is possible. Furthermore, even if the environment differs for each installation location, centralized management is possible without setting the environment for each installation location or setting an error tendency. Further, even when the environment at each installation location changes, appropriate correction can be performed according to the acquired attribute estimation target data. If the server 190 side has a corrector and the server 190 stores the error value estimation model, the server 190 side can add or update data of the error value estimation model.
  • the image recognition system of this embodiment may be compatible with cloud computing, for example.
  • this invention is not limited to the aspect of the said embodiment, It is possible to select suitably the means to have in the server 190 side.
  • FIG. 8 shows a block diagram of the image recognition apparatus in the present embodiment.
  • the image recognition apparatus according to the present embodiment includes a data acquisition unit 111, an attribute estimation unit 121, a corrector 140, and an integration unit 151 as constituent elements.
  • the description of the first embodiment can be used for the description of each of the constituent elements, it may have a configuration other than that described in the first embodiment. As described above, by providing the most basic configuration as in the present embodiment, it is possible to obtain the effects of the present invention even if the configuration has a configuration other than that in the first embodiment.
  • an image recognition apparatus an image recognition method, a corrector, a program, and a recording medium that can obtain a highly accurate estimation result without requiring a large amount of training samples.
  • an image can be recognized using an existing surveillance camera or the like, and the present invention can be applied to a wide range of applications.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

 大量の訓練サンプルを必要とすることなく、高精度な推定結果が得られる画像認識装置、画像認識方法、補正器、プログラムおよび記録媒体を提供する。 属性の推定対象となるデータを取得するデータ取得手段(111)と、データ取得手段(111)で取得されたデータを基に、予め学習した判断基準によって前記属性を推定する属性推定手段(121)と、前記データにおけるエラーの傾向を予め学習させておき、データ取得手段(111)で取得されたデータを基に、前記属性のエラーを補正するためのエラー値を決定する補正器(140)と、属性推定手段(121)が推定した推定属性と、補正器(140)が決定したエラー値とを統合する統合手段(151)とを含むことを特徴とする。

Description

画像認識装置、画像認識方法、補正器、プログラムおよび記録媒体
 本発明は、画像認識装置、画像認識方法、補正器、プログラムおよび記録媒体に関する。
 入力された画像データから、そのデータの属性を推定する画像認識装置として、入力データの特徴を抽出し、抽出した特徴を予め学習済みの訓練サンプルと比較することによって、属性を推定する装置がある(例えば、特許文献1および2参照)。
特開2007-58828号公報 特開2005-148880号公報
 属性推定の対象となる画像データは、データ取得時の環境等により、属性推定結果に誤差が生じる場合がある。例えば、年齢推定を行う場合、上方向から顔画像データを取得した場合には、実際の年齢よりも若く(または年上に)認識される傾向にある。その場合、上方から撮影した顔画像を訓練サンプルとして学習させておき、上方からの顔画像データであると識別して年齢等の属性を推定する方法が考えられる。しかし、データ取得時の環境等のバリエーションは多岐に亘る。そのため、高精度な推定結果を得るためには、前記バリエーション毎の訓練サンプルの学習が必要となる。
 そこで、本発明は、大量の訓練サンプルを必要とすることなく、高精度な推定結果が得られる画像認識装置、画像認識方法、補正器、プログラムおよび記録媒体を提供することを目的とする。
 前記目的を達成するために、本発明の画像認識装置は、
属性の推定対象となるデータを取得するデータ取得手段と、
前記データ取得手段で取得されたデータを基に、予め学習した判断基準によって前記属性を推定する属性推定手段と、
前記データにおけるエラーの傾向を予め学習させておき、前記データ取得手段で取得されたデータを基に、前記属性のエラーを補正するためのエラー値を決定する補正器と、
前記属性推定手段が推定した推定属性と、前記補正器が決定したエラー値とを統合する統合手段とを含むことを特徴とする。
 本発明の画像認識方法は、
属性の推定対象となるデータを取得するデータ取得工程と、
前記データ取得工程で取得したデータを基に、予め学習した判断基準によって前記属性を推定する属性推定工程と、
前記データにおけるエラーの傾向を予め学習させておき、前記データ取得工程で取得したデータを基に、前記属性のエラーを補正するためのエラー値を決定する補正工程と、
前記属性推定工程が推定した推定属性と、前記補正工程が決定したエラー値とを統合する統合工程とを含むことを特徴とする。
 本発明の補正器は、
データ取得手段で取得された、属性の推定対象となるデータにおけるエラーの傾向を予め学習させておき、
前記データ取得手段で取得された前記データを基に、前記属性のエラーを補正するためのエラー値を決定することを特徴とする、前記本発明の画像認識方法に使用する補正器である。
 本発明のプログラムは、前記本発明の画像認識方法をコンピュータに実行させることを特徴とする。
 本発明の記録媒体は、前記本発明のプログラムを記録していることを特徴とする。
 本発明の画像認識システムは、
属性の推定対象となるデータを取得するデータ取得手段と、
前記データ取得手段で取得されたデータを基に、予め学習した判断基準によって前記属性を推定する属性推定手段と、
前記データにおけるエラーの傾向を予め学習させておき、前記データ取得手段で取得されたデータを基に、前記属性のエラーを補正するためのエラー値を決定する補正器と、
前記属性推定手段が推定した推定属性と、前記補正器が決定したエラー値とを統合する統合手段と、
前記統合手段で統合された属性を出力する出力手段とを含み、
前記データ取得手段および前記出力手段が、通信回線網を介して、前記補正器と接続されていることを特徴とする。
 本発明によれば、大量の訓練サンプルを必要とすることなく、高精度な推定結果が得られる。
図1は、本発明の画像認識装置の一例(実施形態1)の構成を示すブロック図である。 図2は、本発明の画像認識方法の一例(実施形態1)を示すフローチャートである。 図3は、前記実施形態1における属性推定モデルの作成の一例を説明する図である。 図4(a)、(b)は、前記実施形態1におけるエラー値推定モデルの作成の一例を説明する図である。 図5(a)、(b)、(c)は、前記実施形態1におけるエラー値推定モデルの作成のその他の例を説明する図である。 図6(a)、(b)は、前記実施形態1における顔領域検出の一例を説明する図である。 図7は、本発明の画像認識装置を用いた画像認識システムの一例(実施形態4)の構成を示すブロック図である。 図8は、本発明の画像認識装置の一例(実施形態5)の構成を示すブロック図である。
 本発明の画像認識装置において、前記属性が、年齢であることが好ましい。同様に、本発明の画像認識方法において、前記属性が、年齢であることが好ましい。
 本発明の画像認識装置において、前記データが、顔画像データであり、前記属性が、前記顔画像データから推定した属性であることが好ましい。同様に、本発明の画像認識方法において、前記データが、顔画像データであり、前記属性が、前記顔画像データから推定した属性であることが好ましい。
 つぎに、本発明の画像認識装置、画像認識方法、補正器、プログラム、記録媒体および画像認識システムについて、例をあげて説明する。ただし、本発明は、下記の例に限定されない。なお、図1から図8において、同一部分には同一符号を付している。
[実施形態1]
 図1に、本実施形態における画像認識装置のブロック図を示す。また、図2に、本実施形態における画像認識方法のフローチャートを示す。図1に示すように、本実施形態の画像認識装置は、データ取得手段、属性推定手段、補正器、統合手段を主要な構成要素として含む。データ取得手段111は、属性推定手段121に接続されている。属性推定手段121は、予め取得した属性推定モデル130に接続されている。また、データ取得手段111は、補正器140にも接続されている。補正器140には、予め取得したエラー値推定モデル141が格納されている。属性推定手段121および補正器140は、統合手段151に接続されている。本実施形態の画像認識装置は、任意の構成部材として出力手段161を備えていることも好ましい。
 データ取得手段111としては、例えば、CCD(Charge Coupled Device)カメラ、CMOS(Complementary Metal Oxide Semiconductor)カメラ、イメージスキャナ等があげられる。属性推定手段121、補正器140、統合手段151の各部は、例えば、専用のハードウェア(例えば、中央処理装置(CPU)等)を用いて構成することも可能であるし、ソフトウェア処理によってコンピュータ上に実現することも可能である。出力手段161は、例えば、映像により出力するモニター(例えば、液晶ディスプレイ(LCD)、ブラウン管(CRT)ディスプレイ等の各種画像表示装置等)、印刷により出力するプリンター、音声により出力するスピーカー等があげられる。出力手段161は、任意の構成要素であり、本発明の画像認識装置に含まれなくてもよいが、含まれていることが好ましい。属性推定モデル130およびエラー値推定モデル141は、例えば、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードディスク(HD)、光ディスク、フロッピー(登録商標)ディスク(FD)等の記憶手段に記憶されてもよい。前記記憶手段は、例えば、装置内蔵型であってもよいし、外部記憶装置のような外付け型であってもよい。
 本実施形態において、補正器140には、前述のとおり、エラー値推定モデル141が格納されている。また、補正器140は、エラー傾向の判断基準を選択するための、環境を認識するプログラムを含んでもよい。前記環境としては、例えば、データ取得角度、データを取得した場所の照度などがあげられる。さらに、補正器140は、属性推定手段121から得られた推定結果と、補正器140から得られた補正結果とを統合することを命ずるプログラムを含んでもよい。
 本発明において、属性は、人物に関する属性とすることができ、例えば、年齢、性別、身長、顔向き、笑顔度等があげられる。
 本実施形態の画像認識方法は、図1の画像認識装置を用いて、図2のフローチャートに示すように、以下のステップを実施する。まず、データ取得手段111により、認識対象データを取得する(ステップS11)。
 つぎに、属性推定手段121により、属性推定用教師データが付与された顔領域を多数用いて学習することで予め作成した属性推定モデル130を参照して、前記認識対象データから属性を推定する(ステップS21)。属性推定モデル130は、画像認識方法の実施に先立ち、機械学習(パターン認識)の技術を用いて学習することで、作成される。本実施形態において、前記属性は、顔から認識される属性であり、属性推定モデル130は、顔領域検出モデル131および顔領域属性推定モデル132を含む。なお、本発明においては、前記属性は、顔から認識される属性に限定されず、人物が対象である場合であれば、例えば、全身または体の一部から属性を認識してもよい。
<属性推定モデル(顔領域検出モデルおよび顔領域属性推定モデル)>
 顔領域検出モデル131は、学習用の顔領域(人物の顔面中で特徴的な部分である、目、眉、鼻孔、口等の顔部分を含む領域)を、機械学習(パターン認識)で学習することにより作成する。図3に示すように、まず、学習用画像10(正面向きの男性)の顔に、ラベリング11を付すことで、前記顔領域を付与する。前記顔領域の教師データは、例えば、キーボード、マウス等の従来公知の入力手段を用いて、人が入力することで付与される。検出精度を考慮すると、前記学習用画像の数は多いほど好ましく、多数用意した学習用画像から、顔領域検出モデルを作成することが好ましい。前記顔領域検出モデルは、例えば、前記顔部分の相対位置または大きさ等の情報を含んでもよい。
 顔領域の検出は、例えば、図6(a)に示すように、検出したい顔領域のサイズを指定し、予め作成した顔領域検出モデル131を参照して、認識対象データ40の左上端から水平方向に、画像パッチを順に下の行に向かって移動させて探索する、いわゆるラスタスキャンで顔領域を探索することができる。これと共に、例えば、図6(b)に示すように、認識対象データ40の取得サイズも変更して顔領域を探索することで、前記顔領域のデータを検出する。このようにして、前記顔領域のデータを検出すれば、顔領域の位置あわせ(アライメント)も同時に行うことができて好ましい。なお、顔領域の検出は、この例には限定されない。
 つぎに、前記顔領域に属性推定用教師データを付与し、前記属性推定用教師データが付与された顔領域を多数用いて、機械学習(パターン認識)により、顔領域属性推定モデル132を作成する。本実施形態の画像認識方法において、前記属性推定用教師データは、例えば、年齢があげられる。具体的には、図3に示す学習用画像の前記顔領域には、例えば、「年齢:30歳」等の属性推定用教師データを付与する。前記年齢等の属性推定用教師データは、例えば、キーボード、マウス等の従来公知の入力手段を用いて、人が入力することで付与される。また、属性の推定は、学習を用いずに、例えば、人間がルールを決めて属性を推定するという方法(属性推定ルール)でも行える。
 また、補正器140により、エラー値推定モデル141を参照して、前記認識対象データを基に、前記属性のエラーを補正するためのエラー値を決定する(ステップS22)。エラー値推定モデル141とは、属性推定モデル130(顔領域属性推定モデル132)による推定結果のエラーを予め学習したものである。エラー値推定モデル141は、画像認識方法の実施に先立ち、機械学習(パターン認識)の技術を用いて学習することで、作成される。本実施形態において、補正器140には、エラー値推定モデル141が格納されている。
<エラー値推定モデル>
 エラー値推定モデル141は、「画像データ」および「エラー値」のセットを複数学習することにより作成する。検出精度を考慮すると、「画像データ」および「エラー値」のセットの数は、多いほど好ましい。この学習の際、データの取得位置によって、データ取得角度、人種、照度等、正確な属性の推定を妨げる要素が判明している場合は、それらの要素を学習データとして加えることができる。具体的には、例えば、図4(a)に示すような、斜め上から取得した画像データ、および、図4(b)に示すような、斜め下から取得した画像データを、それらの画像データに対応するエラー値とともに学習させたり、図5(a)、(b)および(c)に示すような、人種の異なる画像データ等と、それらの画像データに対応するエラー値を学習させる。これにより、画像認識の精度を、より向上させることができる。さらに、補正器140は、エラー値を推定するための、環境を認識するプログラムを含んでもよい。
 本実施形態において、補正器140は、エラー値推定モデル141を参照し、エラー値を決定するためのルールを自動作成する。補正器140では、エラー値推定モデル141の学習データに基づき、エラーの原因要素が明確である場合のみではなく、エラーの原因要素が不明な場合でも、エラー値を決定することができる。
 例えば、顔角度が下向きの場合、具体的には、図4(a)の20Aのような画像データにおいて、21Aで示すようなラベリングがされた場合、正解年齢よりも年下に推定されることが多いという傾向がある場合には、学習時に、その他の学習データに加え、「顔角度」という情報も入力する。また、例えば、顔角度が上向きの場合、具体的には、図4(b)の20Bのような画像データにおいて、21Bで示すようなラベリングがされた場合、正解年齢よりも年上に推定されることが多いという傾向がある場合も、同様である。この際、入力する顔角度は、カメラを設置した角度でも良いし、例えば、顔角度を推定するための顔角度推定器を設け、前記顔角度推定器からの出力に基づく角度でもよい。
 また、例えば、黒色人種の場合、具体的には、図5(a)の30Aのような画像データにおいて、白色人種(図5(c)、30C)および黄色人種(図5(b)、30B)よりも年上に推定されることが多いという傾向がある場合、学習時に、「人種」の情報も入力する。各図において、31A、31Bおよび31Cは、それぞれラベリングを示す。この際、入力する人種は、例えば、人種を推定するための人種推定器を設け、前記人種推定器からの出力に基づく人種を入力することができる。
 また、例えば、データ取得場所の照度が明るい場合、年下に推定されることが多いという傾向がある場合、学習時に、「照度」の情報も入力する。この際、入力する照度は、例えば、照度を感知するセンサーを設けて、前記センサーからの出力に基づく照度を入力することができる。
 以上のような情報を含むエラー値推定モデルを学習した場合、顔角度、人種、照度等の影響を考慮した、より正確な属性推定を行うことができる。その他のエラー値の判断要素としては、例えば、表情、身につけているもの、体型、画質(カメラ性能)等があげられる。本発明において、複数の要素がエラー値に影響している場合、それらを組み合わせて入力してもよい。
 つぎに、統合手段151により、属性推定手段121が推定した推定属性と、補正器140が決定したエラー値とを統合する(ステップS31)。統合工程S31において、前記統合は、例えば、推定属性に、エラー値を加味することによって行うことができる。前記属性が、年齢である場合には、統合は、例えば、下記式(1)により行うことができる。
 
 年齢=(属性推定工程により推定された年齢)-(エラー値)  (1)
 
 具体的には、上方向からの取得データについて、属性推定モデル130を参照した結果では、26歳と推定されたのに対し、補正器140において、-4歳とのエラー値が決定された場合には、26歳-(-4歳)=26歳+4歳で、正解年齢は30歳と認識できる。なお、統合はこの方法に限られない。前記エラー値を、前述のような差分ではなく、比率で規定しておき、統合工程において補正することもできる。
 つぎに、出力手段161により、画像の認識結果を出力する(ステップS41)。認識項目である属性は、例えば、年齢、性別、身長、顔向き、笑顔度等があげられる。なお、出力工程S41は、任意の工程であり、本発明の画像認識方法に含まれていなくてもよいが、含まれていることが好ましい。
 前述のように、本実施形態の画像認識方法では、認識対象データを基に、前記データの推定属性のエラーを補正する補正工程を有するため、大量の訓練サンプルを必要とすることなく、高精度な推定結果を得ることができる。この結果、例えば、データ取得手段(例えば、監視カメラ等)の設置場所の選択の幅を広げることができ、例えば、既存の監視カメラ等の利用も可能である。
[実施形態2]
 本実施形態の補正器は、前記データ取得手段で取得された、属性の推定対象となるデータにおけるエラーの傾向を予め学習させておき、前記データ取得手段で取得された前記データを基に、前記属性のエラーを補正するためのエラー値を決定する、前述の画像認識方法に使用する補正器である。本実施形態の補正器は、例えば、既存のデータ取得手段(例えば、監視カメラ等)に別部材として取付けたり、プログラムに新たに組み込むことによって、利用可能である。
[実施形態3]
 本実施形態のプログラムは、前述の画像認識方法を、コンピュータ上で実行可能なプログラムである。本実施形態のプログラムは、例えば、記録媒体に記録されてもよい。前記記録媒体としては、特に限定されず、例えば、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードディスク(HD)、光ディスク、フロッピー(登録商標)ディスク(FD)等があげられる。
[実施形態4]
 図7に、本発明の画像認識装置を用いた画像認識システムの一例の構成を示す。図7に示すとおり、この画像認識システムは、データ取得手段111A、111B、111Cと、出力手段161A、161B、161Cと、通信インターフェイス170A、170B、170Cと、サーバ190とを備える。データ取得手段111Aおよび出力手段161Aは、通信インターフェイス170Aに接続されている。データ取得手段111A、出力手段161Aおよび通信インターフェイス170Aは、場所Xに設置されている。データ取得手段111Bおよび出力手段161Bは、通信インターフェイス170Bに接続されている。データ取得手段111B、出力手段161Bおよび通信インターフェイス170Bは、場所Yに設置されている。データ取得手段111Cおよび出力手段161Cは、通信インターフェイス170Cに接続されている。データ取得手段111C、出力手段161Cおよび通信インターフェイス170Cは、場所Zに設置されている。そして、通信インターフェイス170A、170B、170Cと、サーバ190とが、回線網180を介して接続されている。
 この画像認識システムでは、例えば、サーバ190側に、属性推定手段、補正器および統合手段を有し、サーバ190に属性推定モデルおよびエラー値推定モデルが格納される。例えば、データ取得手段111Aを用いて取得された認識対象データを、サーバ190に送信し、サーバ190側で、属性を推定し、エラー傾向を決定し、これらを統合して属性を判定することができる。また、前記判定された属性を、出力手段161Aにより出力することができる。
 本実施形態の画像認識システムによれば、データ取得手段および出力手段を現場に設置し、サーバ等は他の場所に設置して、オンラインによる画像の認識が可能である。そのため、例えば、装置の設置に場所を取ることがなく、メンテナンスも容易である。また、例えば、各設置場所が離れている場合であっても、一箇所での集中管理または遠隔操作が可能となる。さらに、設置場所ごとに環境が異なる場合であっても、設置場所ごとに環境設定を行ったり、エラー傾向を設定することなく、集中管理が可能である。また、各設置場所での環境が変化した場合であっても、取得される属性推定対象のデータに応じて、適切な補正を行うことができる。また、サーバ190側に補正器を有し、サーバ190にエラー値推定モデルを格納しておくと、サーバ190側で前記エラー値推定モデルのデータを追加したり更新したりすることができる。したがって、各設置場所におけるデータ傾向の調整を個別に行うことなく、常に最新のデータに基づいた画像認識をすることが可能となる。本実施形態の画像認識システムは、例えば、クラウドコンピューティングに対応したものであってもよい。なお、本発明は、前記の実施形態の態様に限定されず、サーバ190側に有する手段を適宜選択することが可能である。
[実施形態5]
 図8に、本実施形態における画像認識装置のブロック図を示す。図8に示すように、本実施形態の画像認識装置は、データ取得手段111、属性推定手段121、補正器140、統合手段151を構成要素とする。前記各構成要素の説明は、前述の実施形態1の説明を援用できるが、実施形態1で述べた以外の構成を有してもよい。このように、本実施形態のような最も基本的な構成を備えることによって、実施形態1以外の構成を有する場合であっても、本発明の効果を得ることが可能である。
 以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は、上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
 この出願は、2011年12月27日に出願された日本出願特願2011-285813を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明によれば、大量の訓練サンプルを必要とすることなく、高精度な推定結果が得られる画像認識装置、画像認識方法、補正器、プログラムおよび記録媒体を提供できる。その結果、例えば、既存の監視カメラ等を利用して画像の認識ができ、本発明は、幅広い用途に適用できる。
10  学習用画像
20A、20B、30A、30B、30C 画像データ
11、21A、21B、31A、31B、31C  ラベリング
40  認識対象データ
111、111A、111B、111C  データ取得手段
121  属性推定手段
130  属性推定モデル
131  顔領域検出モデル
132  顔領域属性推定モデル
140  補正器
141  エラー値推定モデル
151  統合手段
161、161A、161B、161C  出力手段
170A、170B、170C  通信インターフェイス
180  回線網
190  サーバ

Claims (10)

  1. 属性の推定対象となるデータを取得するデータ取得手段と、
    前記データ取得手段で取得されたデータを基に、予め学習した判断基準によって前記属性を推定する属性推定手段と、
    前記データにおけるエラーの傾向を予め学習させておき、前記データ取得手段で取得されたデータを基に、前記属性のエラーを補正するためのエラー値を決定する補正器と、
    前記属性推定手段が推定した推定属性と、前記補正器が決定したエラー値とを統合する統合手段とを含むことを特徴とする画像認識装置。
  2. 前記属性が、年齢であることを特徴とする、請求項1記載の画像認識装置。
  3. 前記データが、顔画像データであり、
    前記属性が、前記顔画像データから推定した属性であることを特徴とする、請求項1または2記載の画像認識装置。
  4. 属性の推定対象となるデータを取得するデータ取得工程と、
    前記データ取得工程において取得したデータを基に、予め学習した判断基準によって前記属性を推定する属性推定工程と、
    前記データにおけるエラーの傾向を予め学習させておき、前記データ取得工程において取得したデータを基に、前記属性のエラーを補正するためのエラー値を決定する補正工程と、
    前記属性推定工程において推定した推定属性と、前記補正工程において決定したエラー値とを統合する統合工程とを含むことを特徴とする画像認識方法。
  5. 前記属性が、年齢であることを特徴とする、請求項4記載の画像認識方法。
  6. 前記データが、顔画像データであり、
    前記属性が、前記顔画像データから推定した属性であることを特徴とする、請求項4または5記載の画像認識方法。
  7. データ取得手段で取得された、属性の推定対象となるデータにおけるエラーの傾向を予め学習させておき、
    前記データ取得手段で取得された前記データを基に、前記属性のエラーを補正するためのエラー値を決定することを特徴とする、請求項4から6のいずれか一項に記載の画像認識方法に使用する補正器。
  8. 請求項4から6のいずれか一項に記載の画像認識方法をコンピュータに実行させることを特徴とするプログラム。
  9. 請求項8記載のプログラムを記録していることを特徴とする記録媒体。
  10. 属性の推定対象となるデータを取得するデータ取得手段と、
    前記データ取得手段で取得されたデータを基に、予め学習した判断基準によって前記属性を推定する属性推定手段と、
    前記データにおけるエラーの傾向を予め学習させておき、前記データ取得手段で取得されたデータを基に、前記属性のエラーを補正するためのエラー値を決定する補正器と、
    前記属性推定手段が推定した推定属性と、前記補正器が決定したエラー値とを統合する統合手段と、
    前記統合手段で統合された属性を出力する出力手段とを含み、
    前記データ取得手段および前記出力手段が、通信回線網を介して、前記補正器と接続されていることを特徴とする画像認識システム。
     
PCT/JP2012/073485 2011-12-27 2012-09-13 画像認識装置、画像認識方法、補正器、プログラムおよび記録媒体 WO2013099367A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011285813 2011-12-27
JP2011-285813 2011-12-27

Publications (1)

Publication Number Publication Date
WO2013099367A1 true WO2013099367A1 (ja) 2013-07-04

Family

ID=48696874

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/073485 WO2013099367A1 (ja) 2011-12-27 2012-09-13 画像認識装置、画像認識方法、補正器、プログラムおよび記録媒体

Country Status (1)

Country Link
WO (1) WO2013099367A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6404527B1 (ja) * 2016-11-30 2018-10-10 株式会社オプティム カメラ制御システム、カメラ制御方法、およびプログラム
CN110352431A (zh) * 2017-03-27 2019-10-18 株式会社日立高新技术 图像处理系统和用于进行图像处理的计算机程序
JP2020125919A (ja) * 2019-02-01 2020-08-20 株式会社キーエンス 画像検査装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008282089A (ja) * 2007-05-08 2008-11-20 Omron Corp 人物属性推定装置
JP2009089083A (ja) * 2007-09-28 2009-04-23 Fujifilm Corp 年齢推定撮影装置及び年齢推定撮影方法
JP2009211284A (ja) * 2008-03-03 2009-09-17 Mitsubishi Electric Corp 広告情報提供システム
JP2011113464A (ja) * 2009-11-30 2011-06-09 Nippon Telegr & Teleph Corp <Ntt> 属性識別装置、属性識別方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008282089A (ja) * 2007-05-08 2008-11-20 Omron Corp 人物属性推定装置
JP2009089083A (ja) * 2007-09-28 2009-04-23 Fujifilm Corp 年齢推定撮影装置及び年齢推定撮影方法
JP2009211284A (ja) * 2008-03-03 2009-09-17 Mitsubishi Electric Corp 広告情報提供システム
JP2011113464A (ja) * 2009-11-30 2011-06-09 Nippon Telegr & Teleph Corp <Ntt> 属性識別装置、属性識別方法およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6404527B1 (ja) * 2016-11-30 2018-10-10 株式会社オプティム カメラ制御システム、カメラ制御方法、およびプログラム
US10846326B2 (en) 2016-11-30 2020-11-24 Optim Corporation System and method for controlling camera and program
CN110352431A (zh) * 2017-03-27 2019-10-18 株式会社日立高新技术 图像处理系统和用于进行图像处理的计算机程序
CN110352431B (zh) * 2017-03-27 2023-07-18 株式会社日立高新技术 图像处理系统、计算机可读存储介质以及系统
JP2020125919A (ja) * 2019-02-01 2020-08-20 株式会社キーエンス 画像検査装置
JP7176965B2 (ja) 2019-02-01 2022-11-22 株式会社キーエンス 画像検査装置

Similar Documents

Publication Publication Date Title
US20210327088A1 (en) Eye tracking method and system
US8819015B2 (en) Object identification apparatus and method for identifying object
US9152845B2 (en) Human attribute estimation system, human attribute estimation apparatus and human attribute estimation method
US7715619B2 (en) Image collation system and image collation method
WO2020048271A1 (zh) 基于gan网络的车损图像增强方法和装置
JP5569990B2 (ja) 属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム
US10176616B2 (en) Automatic capture and refinement of a digital image of a group of people without user intervention
US11232585B2 (en) Line-of-sight estimation device, line-of-sight estimation method, and program recording medium
CN110569703B (zh) 计算机执行的从图片中识别损伤的方法及装置
US20200042782A1 (en) Distance image processing device, distance image processing system, distance image processing method, and non-transitory computer readable recording medium
CN110570435B (zh) 用于对车辆损伤图像进行损伤分割的方法及装置
JP7067023B2 (ja) 情報処理装置、背景更新方法および背景更新プログラム
JP6045523B2 (ja) 画像処理装置およびその制御方法
US20220198609A1 (en) Modifying sensor data using generative adversarial models
EP3920531A1 (en) Livestock house monitoring method and livestock house monitoring system
JP2018026115A (ja) 火炎検出方法、火炎検出装置及び電子機器
CN113396580A (zh) 图像处理装置、图像处理方法和图像处理程序
WO2013099367A1 (ja) 画像認識装置、画像認識方法、補正器、プログラムおよび記録媒体
US8542905B2 (en) Determining the uniqueness of a model for machine vision
JP2021039625A (ja) 物体数推定装置、物体数推定方法、および物体数推定プログラム
CN111860196A (zh) 手部作业动作评分装置、方法及计算机可读存储介质
JP2019096222A (ja) 画像処理装置、画像処理方法、コンピュータプログラム
US20220036082A1 (en) Methods and systems for improving dvs features for computer vision applications
JP6595880B2 (ja) 画像処理装置、画像処理方法
JP5652694B2 (ja) 目的変数算出装置、目的変数算出方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12862651

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12862651

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 12862651

Country of ref document: EP

Kind code of ref document: A1