WO2005093656A1 - 特定部分姿勢推定装置、特定部分姿勢推定方法及び特定部分姿勢推定プログラム - Google Patents

特定部分姿勢推定装置、特定部分姿勢推定方法及び特定部分姿勢推定プログラム Download PDF

Info

Publication number
WO2005093656A1
WO2005093656A1 PCT/JP2004/004040 JP2004004040W WO2005093656A1 WO 2005093656 A1 WO2005093656 A1 WO 2005093656A1 JP 2004004040 W JP2004004040 W JP 2004004040W WO 2005093656 A1 WO2005093656 A1 WO 2005093656A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
specific
matching
value
luminance
Prior art date
Application number
PCT/JP2004/004040
Other languages
English (en)
French (fr)
Inventor
Shoji Tanaka
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to CNA2004800281870A priority Critical patent/CN1860501A/zh
Priority to PCT/JP2004/004040 priority patent/WO2005093656A1/ja
Publication of WO2005093656A1 publication Critical patent/WO2005093656A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships

Definitions

  • the present invention is capable of easily and easily estimating a posture in a short time by using an image obtained by a software having a low recognition ability such as a mobile phone or an electronic organizer, or by a simple image processing circuit provided in such a device. It concerns a possible posture estimation device. Background art
  • the face of a person including its posture is extracted, image-processed, and used for monitoring or authentication. ing. In such monitoring or authentication, it is necessary to detect the posture first, or it is important to detect the posture before the subsequent image processing.
  • an image processing apparatus 21 includes a skin color extracting means 22 for extracting a skin color from an input image, a binarizing means 23 for extracting a candidate region of an eye or a mouth from the result, and a binarizing method. It consists of an eye / mouth area detection / tracking means 24 for detecting eye and mouth areas from the results of the means and tracking them from a moving image.
  • the flesh color extraction means 22 detects flesh color pixels
  • the binarization means 23 binarizes the flesh color pixels and other pixels.
  • the eye / mouth area detection / tracking means 24 extracts a hole area in the skin color area and sets it as a candidate area for eyes and mouth. From the extracted candidate regions, for example, the positions of the eyes and the mouth are detected based on heuristics of the position of the eyes and the position of the mouth with respect to the face region. Finally, head posture information is extracted from the detected eye and mouth positions.
  • the conventional posture extraction device is configured as described above, and extracts the skin color of the image of the object, detects and tracks the area, and finally detects the posture.
  • the shooting location is changed, it is not constant including the lighting, and it is not always possible to obtain a good image quality, and it is difficult to detect a good skin color.
  • the processing amount is large, including the area detection, and a large-scale circuit is required, there is a problem that it takes time to process small-scale hardware installed in a mobile phone.
  • the present invention has been made to solve the above-described problems, and an attitude can be extracted in a short time without being affected by the image quality of an input image obtained by a video camera or the like, and by using small-scale hardware having low computational power. I do.
  • the specific portion posture estimating apparatus binarizes each pixel of the input image for which the specific portion is estimated based on a set threshold value based on an image value within a predetermined coordinate range, and further, the size is within the set range.
  • a pattern 'matching unit which detects a posture by comparing the binary image obtained by the identification with a predetermined template. Further, the matching image generation unit converts the input image into a grayscale image, and calculates the luminance of the grayscale image as an average value or a median value of the luminance of a certain pixel within a predetermined range with the target pixel as a coordinate center. The threshold value is used as a threshold value for binarization. Further, the pattern matching unit generates a matching image from a plurality of specific input images in advance, and uses the generated binary image as a template element. Also, the pattern matching unit is characterized in that the matching with each element of the template is obtained by a logical product of pixels.
  • the pattern matching unit obtains pixels having specific values from the binary image obtained by the matching image generation unit, and calculates the inclination of the specific portion to be detected from the state of distribution of those pixels in the image. It is characterized by being estimated.
  • the specific portion posture estimating method includes: binarizing each pixel of an input image from which a specific portion is extracted with a set threshold based on an image value within a predetermined coordinate range;
  • the input image is converted to a grayscale image, and the luminance of the converted grayscale image is calculated by calculating the average luminance value of pixels within a predetermined range with the target pixel as the coordinate center, and the image median value.
  • One of the two is selected as a binarization threshold, and is binarized.
  • the collation is characterized in that a collation value is obtained by a luminance logical AND of each pixel corresponding to a coordinate value between the binary image and the template image.
  • the specific-part posture estimation program according to the present invention is executable by a computer, and is capable of executing each of the pixels of the input image from which the specific part is extracted by using a set threshold based on an image value within a predetermined coordinate range.
  • the program is characterized by comprising a binarized image composed of a group of parts labeled after the above-mentioned deletion, and collating the luminance of the image in a predetermined template.
  • FIG. 1 is a diagram showing a configuration of a specific portion posture estimating apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is a flowchart showing an operation of the specific-part-orientation estimation device according to the first embodiment.
  • FIG. 3 is a flowchart showing a binarizing operation performed by the matching image generating unit according to the first embodiment.
  • FIG. 4 is a diagram illustrating a hardware internal configuration of the binary image generation unit according to the first embodiment.
  • FIG. 5 is a diagram illustrating a range in which a set threshold value is obtained in the first embodiment.
  • FIG. 6 is a diagram illustrating how to obtain a set threshold value according to the first embodiment.
  • FIG. 7 is a diagram for explaining a binarizing operation performed by the matching image generating unit according to the first embodiment.
  • FIG. 8 is a flowchart of a matching operation performed by the matching unit according to the first embodiment.
  • FIG. 9 is a diagram for explaining a matching operation performed by the pattern matching unit according to the first embodiment.
  • FIG. 10 is a diagram showing a configuration of another specific portion posture estimation device according to the first embodiment.
  • FIG. 11 is a diagram for explaining a template creation operation performed by another pattern / matching unit according to the first embodiment.
  • FIG. 12 is a diagram illustrating a configuration of a specific-part-orientation estimation device according to the second embodiment.
  • FIG. 13 is a diagram for describing posture extraction by a pixel distribution performed by a pattern ′ matching unit according to the second embodiment.
  • FIG. 14 is a diagram showing a configuration for posture extraction by a conventional image processing apparatus.
  • FIG. 1 is a diagram showing a configuration of a specific portion posture estimating apparatus according to the present embodiment of the present invention.
  • a specific portion posture estimating apparatus 1 is a video capture unit 2 for capturing a video signal captured by a video camera or the like, performs filtering processing on the captured video, and an image for collating with a posture pattern described later.
  • a color space conversion unit 5 for converting the color image captured by the video capture unit 2 to a grayscale image
  • a binary image generation unit 6 for converting the converted grayscale image to a binary image
  • a region is obtained by integrating adjacent pixels from the image binarized by the binary image generation unit 6, and the part candidate extraction unit 7 that extracts only candidate regions that can be eyes and mouths and the matching image generation unit 3 generate the regions.
  • a matching unit 8 for matching a matching image with a previously stored posture pattern image, and a matching pattern DB 9 for storing a pattern used by the matching unit 8.
  • FIG. 2 is a flowchart for explaining the operation.
  • FIG. 3 is a flowchart for explaining the operation of the binary image generation unit 6.
  • FIG. 4 is a diagram showing the internal configuration of the hardware of the binary image generation unit 6, although other elements are the same.
  • FIGS. 5 and 6 show the flow of processing performed by the matching image generation unit 3.
  • FIG. 7 is a diagram for explaining the matching process performed by the pattern matching unit 4.
  • FIG. 8 is a flowchart showing the operation of the matching process performed by the pattern matching unit 4.
  • FIG. 9 is a diagram for explaining the operation of the pattern matching unit 4.
  • the binary image generator 6 includes a processor 61 and a memory 6
  • the processor 61 first reads the grayscale image of the capture image obtained via the input / output interface 64 into the memory 62. Then, the read grayscale image is binarized in accordance with the luminance in S1-3 in FIG. 2 as described later by the steps written in the binarization program 63.
  • the video signal is captured by the video capture unit 2 (step S1-1), and the captured color image is converted into a grayscale image by the color space conversion unit 5 (step S1-2).
  • G (x, y) is the luminance value at the coordinate value (x, y)
  • R, G, B (x, y) is the pixel value of the color image at the coordinate value (x, y).
  • a coefficient value when converting a color image to a grayscale image a value other than the above values may be used.
  • the color / grayscale conversion in the color space conversion unit 5 may be normalized using the following (Equation 2) and then converted using the above (Equation 1).
  • r (x, y) R (x, y) / (R (x, y) IG (x, y) + B (x, y))
  • the binary image generating means 6 binarizes the gray scale image in accordance with the luminance (step S1-3).
  • a binary image is generated according to the input image.
  • the threshold value used as the threshold for the binarization is set to the window coordinates 31 in a predetermined range shown in Fig. 5, and the average luminance value of all pixels within the coordinate range, 25 pixels in Fig. 5, or Find the median and use this value as the threshold.
  • the processing shown in FIG. 6 is performed, and the luminance of the target pixel 32 is compared with a threshold value.
  • the input image is scanned, and the image is binarized by repeatedly performing the processing from step S2_1 to step S2-8 for all pixels.
  • C is a prescribed value set in advance.
  • step S2-6 If the condition of (Equation 3) is satisfied, the pixel value is set to 0 (step S2-6); otherwise, the pixel value is set to 1 (step S2-7).
  • binarization processing is performed according to the state of the surrounding pixels, for example, a predetermined coordinate range is narrowed even for an image having a low contrast due to deterioration of the image quality of the video camera, so that the range is adaptively adjusted.
  • binarization processing can be performed from the average value.
  • the average value was obtained in step S2-4.
  • the median when the elementary values are rearranged may be obtained, and the following condition (Equation 4) may be used.
  • binarization may be performed using a fixed threshold.
  • the component candidate extraction unit 7 determines whether the same binary pixel is connected to the binary image 11 in four or eight directions vertically, horizontally, and diagonally, and determines the related and significant adjacent pixels.
  • the regions are integrated to obtain the regions, which are labeled as individual regions, such as 1 l_a, 11-b in FIG. 7 (S 1-4). Further, only the area where the size of the circumscribed rectangle of the area falls within the preset range in each area 111a is extracted (step S1-5). That is, the region l l — a in FIG. 7 is excluded because it is a region having a size outside the estimation target.
  • the user when considering the use of the videophone function in a mobile phone or an electronic organizer, the user needs to know in advance how large the eyes or mouth should be in order to capture his / her own face within the angle of view and take a large image. Can be predicted. Therefore, the above-described threshold processing is effective.
  • the result extracted at step S 1-5 is as shown at 12 in FIG. 7.
  • the pattern matching unit 4 estimates the head posture (step S 1-6 ).
  • this pattern matching unit 4 is also the configuration shown in FIG. Same as the above, but there is a matching program that performs the operation in FIG. 8 instead of the binarization program 63.
  • the template shown in 14 in FIG. 9 is stored in the matching pattern DB9.
  • the angle of view can be assumed in advance, so the state of the eyes and mouth area according to the direction of the face Can be predicted in advance.
  • the matching pattern DB9 a binary mask image of the eye and mouth regions in the assumed head posture is stored.
  • step S3-1 the binarized matching image 13 P in FIG. 9 is read into the memory via the input / output interface.
  • the logical product of the matching image 13 and each mask image of the template is calculated, the number of pixels 1 (matched images) of the resulting image is calculated and added, and the image with the largest number is selected.
  • the matching result 15 can be obtained.
  • the binarization makes the detection of pattern matching not an analog comparison but can be performed very easily.
  • a predetermined pattern is stored in the matching pattern DB.
  • a template image of the user may be generated by using an image acquired first from the video camera.
  • FIG. 10 is a configuration diagram for extracting a specific partial posture when a matching pattern is created from the output of the video capture unit 2.
  • a matching pattern generator 16 for generating a template image of a posture pattern from a captured image is provided.
  • FIG. 11 is a diagram showing a result of generating a template image based on the image obtained by binarizing an image captured in the normal posture by the video capture unit 2.
  • the image captured first in the video capture unit 2 is regarded as a normal posture (a posture facing the camera front), or the user is requested to take a photograph in a normal posture, and an image in the normal posture is acquired. I do.
  • the image 17 obtained as described above is binarized by the matching image generation unit 3 using the affine transformation in the matching template generation unit 16 using, for example, an image in which the head is swung right and left, and the head is swung right and left. Generate an image that has been shaken up and down.
  • the affine transformation can be represented by the matrix shown in the following equation.
  • the user may take various postures as shown in 18 of FIG. 11 and binarize the postures. Then you can generate templates without affine transformation.
  • the head pose is estimated by comparing the matching pattern with the matching image.
  • the matching means is designed to estimate the head pose from the distribution of pixels having a pixel value of 1 in the matching image. An example in which is changed will be described.
  • FIG. 12 is a diagram showing a configuration of the specific portion posture estimation device according to the present embodiment.
  • a pixel distribution measuring unit 19 is provided to obtain the pixel distribution of the matching image and estimate the head posture based on the state of the distribution.
  • FIG. 13 shows a map for estimating the head posture according to the pixel distribution.
  • the processing can be further simplified, and therefore, the processing can be further shortened even with hardware having low computational power.
  • the specific partial posture estimating apparatus has been described as being constituted by hardware, but as shown in FIG. 4, a program may be actually prepared and the processor may execute the program. Alternatively, a method including steps representing the flows of FIGS. 2, 3, and 8 may be employed. Industrial applicability
  • a matching image generation unit that specifies a component by binarizing an input image based on an average image within a predetermined range, a matching image generation unit that obtains the obtained binary image and a predetermined template Since a pattern matching unit is provided to detect the posture by comparing the postures, it is possible to easily estimate the partial posture while suppressing the scale.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

 入力画像の明るさに影響されず、かつ計算能力の低い小規模ハードウェアによっても、短時間に姿勢を検出する。特定部分を抽出した入力画像の各画素を所定座標範囲内の画像値に基づいた設定しきい値で2値化し、更に大きさが設定範囲内である部品を特定して2値画像を得るマッチング画像生成部3と、この特定して得られた2値画像と、所定のテンプレートとを照合して姿勢を検出するパターン・マッチング部4、とを備えた。

Description

明 細 書 特定部分姿勢推定装置、 特定部分姿勢推定方法及び特定部分姿勢推定プ ログラム 技術分野
この発明は、 携帯電話や電子手帳などの認識能力の低い八一ドウエア により得られる画像によっても、 またそのような装置に装備される簡易 な画像処理回路によっても'容易に短時間に姿勢が推定可能な姿勢推定装 置に関するものである。 背景技術
例えば自動車等の運転監視をする場合、 または部屋の入室や人物の特 定等の認証において、 人の顔をその姿勢も含めて抽出し、 画像処理して 監視、 または認証に用いることが行なわれている。 こうした監視または 認証においては、 後の画像処理に先立って、 まず姿勢の検出が必要にな る、 あるいは姿勢検出が大切な事となる。
このような場合に従来は、 例えば特許文献 (特開平 7— 2 0 0 7 7 4 号公報) に示された図 1 4にその構成を示す姿勢抽出用の画像処理装置 がある。 図において画像処理装置 2 1は、 入力画像から肌色を抽出する 肌色抽出手段 2 2、 その結果から目や口の候補となる領域を抽出するた めの 2値化手段 2 3と、 2値化手段の結果から目および口の領域を検出 し、 動画像からそれらを追跡する目 · 口領域検出 ·追跡手段 2 4で構成 されている。
次に動作について説明する。
まず、 動画像中から顔領域を特定するために、 3次元カラーヒストグ ラムなど用いて肌色抽出手段 2 2で肌色画素を検出し、 2値化手段 2 3 では肌色画素とそれ以外の画素で 2値化する。 次に目 · 口領域検出 ·追 跡手段 2 4で肌色領域内の穴領域を抽出し、 目および口の候補領域とす る。 抽出した候補領域から、 例えば顔領域に対する目の位置、 口の位置 のヒューリスティックスに基づき目および口位置を検出する。 最後に検 出した目および口位置から頭部の姿勢情報を抽出する。 従来の姿勢抽出装置は上記のように構成されており、 対象を撮影した 画像を、 肌色抽出し、 更に領域検出,追跡して、 最終的に姿勢検出する ので、 先ずビデオカメラで撮影される画像が撮影場所が変わると照明も 含めて一定でなく、 また良質な画質が得られるとは限らず、 肌色の良好 な検出が困難であるという課題がある。 更に領域検出も含めて処理量が 多く、 大規模な回路を必要とするので、 携帯電話に搭載する小規模の八 一ドウエアでは、 処理に時間がかかるという課題がある。
この発明は上記のような課題を解決するためになされたもので、 ビデ ォカメラ等による入力画像の画質に影響されず、 かつ計算能力の低い小 規模のハードウェアによっても、 短時間に姿勢を抽出する。
発明の開示
この発明に係る特定部分姿勢推定装置は、 特定部分を推定した入力画 像の各画素を所定座標範囲内の画像値に基づいた設定しきい値で 2値化 し、 更に大きさが設定範囲内である部品を特定して 2値画像を得るマツ チング画像生成部と、
この特定して得られた 2値画像と、 所定のテンプレートとを照合して 姿勢を検出するパターン 'マッチング部、 とを備えた。 また、 マッチング画像生成部は、 入力の画像をグレースケール画像に 変換し、 該グレ一スケール画像の輝度を、 対象画素を座標中心として所 定範囲内のある画素の輝度の平均値、 または中央値をしきい値として 2 値化するようにしたことを特徴とする。 また、 パターン ·マッチング部は、 予め複数の特定入力画像によりマ ツチング画像生成して、 該生成した 2値化画像をテンプレー卜の要素と したことを特徴とする。 また、 パターン ·マッチング部は、 テンプレートの各要素との照合を 画素の論理積で得るようにしたことを特徴とする。 また、 パターン ·マッチング部は、 マッチング画像生成部で得られる 2値画像から特定の値を持つ画素を求め、 それらの画素の画像中におけ る分布の状態から検出対象である特定部分の傾きを推定するようにした ことを特徴とする。 この発明に係る特定部分姿勢推定方法は、 特定部分を抽出した入力画 像の各画素を所定座標範囲内の画像値に基づいた設定しきい値で 2値化 すること、
上記 2値化して得られた 2値化画像から設定範囲外部分を削除して、 設定範囲内の画像部品としてラベル付けすること、
上記削除後にラベル付けられた部品群からなる 2値化画像と、 所定の テンプレートにある画像の輝度を照合すること、 とを備えたことを特徴 とする。 また、 2値化は、 先ず入力画像をグレースケール画像に変換し、 該変 換したグレースケール画像の輝度を、 対象画素を座標中心として所定範 囲内にある画素の輝度平均値と、 画像中央値との内の 1つを 2値化しき い値として選んで、 2値化すること、 としたことを特徴とする。 また、 照合は、 2値化画像とテンプレートの画像の、 座標値で対応す る各画素の輝度論理積で照合値を得ること、 としたことを特徴とする。 この発明に係る特定部分姿勢推定プログラムは、 計算機が読取って実 行可能であって、 特定部分を抽出した入力画像の各画素を所定座標範囲 内の画像値に基づいた設定しきい値で 2値化すること、
上記 2値化して得られた 2値化画像から設定範囲外部分を削除して、 設定範囲内の画像部品としてラベル付けすることと、
上記削除後にラベル付けられた部品群からなる 2値化画像と、 所定の テンプレートにある画像の輝度を照合すること、 とを備えたプログラム であることを特徴とする。 図面の簡単な説明
図 1は、 この発明の実施の形態 1における特定部分姿勢推定装置の構 成を示す図である。
図 2は、 実施の形態 1における特定部分姿勢推定装置の動作を示すフ ロー図である。
図 3は、 実施の形態 1におけるマッチング画像生成部が行なう 2値化 動作を示すフロ一図である。
図 4は、 実施の形態 1における 2値画像生成部のハードウェア内部構 成を示す図である。 図 5は、 実施の形態 1における設定しきい値を得る範囲を説明する図 である。
図 6は、 実施の形態 1における設定しきい値の得方を説明する図であ る。
図 7は、 実施の形態 1におけるマッチング画像生成部が行う 2値化動 作を説明するための図である。
図 8は、 実施の形態 1におけるマッチング部が行うマッチング動作の フロー図である。
図 9は、 実施の形態 1におけるパターンマツチング部が行うマツチン グ動作を説明するための図である。
図 1 0は、 実施の形態 1における他の特定部分姿勢推定装置の構成を 示す図である。
図 1 1は、 実施の形態 1における他のパターン ·マッチング部が行な うテンプレート作成動作を説明するための図である。
図 1 2は、 実施の形態 2における特定部分姿勢推定装置の構成を示す 図である。
図 1 3は、 実施の形態 2におけるパターン 'マッチング部が行なう画 素分布による姿勢抽出を説明するための図である。
図 1 4は、 従来の画像処理装置による姿勢抽出のための構成を示す図 である。 発明を実施するための最良の形態 実施の形態 1 .
図 1はこの発明の本実施の形態における特定部分姿勢推定装置の構成 を示す図である。 図において、 特定部分姿勢推定装置 1は、 ビデオカメラ等で撮影した 映像信号をキヤプチヤするための映像キヤプチャ部 2、 キヤプチャした 映像に対してフィルタリング処理を施し、 後述する姿勢パターンと照合 するための画像を生成するためのマツチング画像生成部 3、 マッチング 画像生成部 3で生成した画像と、 予め記憶した姿勢パターンと照合し、 頭部等の部分姿勢を求めるパターン ·マッチング部 4で構成される。 ま た内部は、 映像キヤプチャ部 2でキヤプチヤしたカラー画像をグレース ケール画像に変換するための色空間変換部 5、 変換したグレースケール 画像を 2値画像に変換するための 2値画像生成部 6、 2値画像生成部 6 で 2値化した画像から隣接画素を統合することにより領域を求め、 目や 口となり得る候補領域のみを抽出する部品候補抽出部 7、 マッチング画 像生成部 3で生成したマッチング画像と予め記憶した姿勢パターン画像 と照合するためのマッチング部 8、 マッチング部 8で用いるパターンを 記憶するためのマッチング ·パターン D B 9で構成される。
次に図 2から図 9を用いて本発明の特定部分姿勢推定装置の動作を説 明する。
図 2はその動作を説明するためのフローチヤ一トである。 また図 3は 、 2値画像生成部 6の動作を説明するためのフローチャートである。 ま た図 4は、 他の要素も同様であるが、 2値画像生成部 6のハードウェア 内部構成を示す図であり、 更に図 5と図 6は、 マッチング画像生成部 3 で行う処理の流れを説明するための図である。 図 7は、 パターンマッチ ング部 4で行う照合処理を説明するための図である。 図 8は、 パターン マッチング部 4で行う照合処理の動作を示すフローチャートである。 図 9は、 パターンマッチング部 4の動作を説明するための図である。
2値画像生成部 6は、 図 4に示すように、 プロセッサ 6 1とメモリ 6
2と入出力ィン夕フェース 6 4と、 図 3に示される動作を行わせる 2値 化プログラム 63とで構成される。 プロセッサ 6 1は、 先ず入出力イン タフエース 64を経由して得られるキヤプチャ画像をグレースケール化 したダレ一スケール画像をメモリ 62に読み込む。 そして読み込んだグ レースケール画像に対して、 2値化プログラム 63に書かれたステップ により、 後で説明するように図 2の S 1— 3で、 輝度に応じて 2値化す る。
まず、 映像キヤプチャ部 2でビデオ信号をキヤプチヤし (ステップ S 1— 1) 、 キヤプチヤしたカラー画像を色空間変換部 5によりグレース ケ一ル画像に変換する (ステップ S 1— 2) 。
カラー画像からグレースケール画像への変換は、 例えば次の (式 1 ) を用いて行う。
G (x,y) = 0.213 * R(x,y) + 0.7151 *G (x, y) + 0.0721 *B(x, y) (式 1)
ここで、 G (x, y) は座標値 (x, y) における輝度値、 R、 G、 B (x, y) は座標値 (x, y) におけるカラー画像の画素値である。 カラー画像からグレースケール画像に変換する際の係数値は、 上記以外 の値を用いてもよい。
または、 色空間変換部 5におけるカラー ·グレースケール変換を、 次 の (式 2) を用いて RGB値を正規化した後に、 上記の (式 1) を用い て変換しても良い。
r(x,y) = R(x,y)/(R(x,y)IG(x,y)+B(x,y))
g(x,y) = G(x,y)/(R(x,y)+G(x,y)+B(x,y)) (式 2)
b(x,y) = B(x,y)/(R(x,y)+G(x,y)+B(x,y))
次に、 2値画像生成手段 6においてグレースケール画像を輝度に応じ て 2値化する (ステップ S 1— 3) 。 このとき、 図 3に示す処理を行う ことにより、 入力された画像に適応して 2値画像を生成する。 このとき の 2値化基準となるしきい値は、 図 5に示す所定範囲のウインドウ座標 3 1を設定し、 その座標範囲内にある全画素、 図 5の場合は 2 5画素の 輝度平均値、 あるいは中央値を求め、 この値をしきい値とする。 図 6に 示す処理を行って、 そして対象となる画素 3 2の輝度をしきい値と比較 する。
こうして、 入力画像を走査して、 全ての画素に対して、 ステップ S 2 _ 1からステップ S 2— 8の処理を繰り返し行うことにより画像を 2値 化する。
即ち、 これから判定を行おうとする画素の画素の明るさレベル値が、 予め設定した閾値よりも低い画素はその画素値を 1に設定する (ステツ プ S 2— 2、 ステップ S 2— 7 ) 。 もし、 対象の画素の画素の明るさレ ベルが閾値よりも大きい場合、 注目画素を中心とした K x K (上記のよ うに図 5の場合は Κ = 5としている) の大きさのブロックを設定する ( ステップ S 2 - 3 ) 。 次に、 設定したブロック内の輝度の平均値を求め る (ステップ S 2— 4 ) 。 そして、 注目画素の画素値が次の (式 3 ) の 条件を満たすかどうかを判定する (ステップ S 2— 5 ) 。
画素の明るさレベル >平均値一 C (式 3 )
ここで、 Cは予め設定する規定値である。
もし、 (式 3 ) の条件を満たすのであれば画素値を 0に設定し (ステ ップ S 2— 6 ) 、 そうでなければ画素値を 1に設定する (ステップ S 2 - 7 ) 。
以上のように、 周囲の画素の状態に応じて 2値化処理を行うため、 例 えばビデオ力メラの画質劣化によりコントラストが低い画像に対しても 所定座標範囲を絞り込むので、 適応的にその範囲内の、 例えば平均値よ り 2値化処理を行うことが可能となる。
ステップ S 2— 4において平均値を求めたが、 例えばブロック内の画 素値を並べ替えた時の中央値を求め、 以下 (式 4 ) の条件を用いてもよ い。
画素値 >中央値一 C (式 4 )
また、 ヒストグラム平均化法などのコントラスト強調処理を施した後 に固定閾値を用いて 2値化するようにしてもよい。
以上の処理により、 映像キヤプチャ部 2によりキヤプチヤしたカラー 画像をグレースケールに変換すると、 図 7の 1 0になり、 その画像を 2 値化すると図 7の 1 1のようになる。
次に、 部品候補抽出部 7において、 2値画像 1 1に対して同一 2値画 素が上下左右斜に 4連結あるいは 8連結しているかをみて、 関連し、 か つ意味のある隣接画素を統合して領域を求めてこれを個々の領域として 図 7の 1 l _ a、 1 1—b等のようにラベリングする (S 1— 4 ) 。 更 に個々の領域 1 1一 a等に領域の外接矩形の大きさが予め設定した範囲 内に収まる領域のみを抽出する (ステップ S 1 - 5 ) 。 即ち図 7の領域 l l _ aに対しては、 推定対象外の大きさの領域であるとしてこれを除 外する。
ここで、 携帯電話や電子手帳における T V電話機能を利用することを 考えた場合、 ユーザは自分の顔を画角に収まりかつ大きく撮影するため 、 予め目の大きさあるいは口の大きさがどの程度になるかを予測するこ とが可能である。 よって前述の閾値処理は有効である。
こうしてステップ S 1 - 5で抽出した結果は図 7の 1 2のようになる 以上で求めたマッチング画像 1 3を用いてパターンマッチング部 4で は、 頭部姿勢を推定する (ステップ S 1— 6 ) 。
図 8のパターンマッチング部 4が行うフローチャートに従って動作を 説明する。 このパターンマッチング部 4のハードウエア構成も図 4の構 成と同様であるが、 2値化プログラム 6 3の代わりに図 8の動作を行わ せるマッチング ·プログラムがある。
ここで、 マッチングパターン D B 9には図 9の 1 4に示すテンプレー トが格納されているとする。 前述の通り、 携帯電話や電子手帳で T V電 話機能などを利用する際に人物の顔を撮影する場合、 予め画角が想定で きることから、 顔の向きに応じた目及び口領域の状態が予め予測できる 。 マッチングパターン D B 9では、 想定した頭部姿勢における目及び口 領域の 2値のマスク画像を格納している。
S 3— 1で、 入出力インタフェース経由でメモリに 2値化した図 9の マッチング画像 1 3の Pを読み込む。 また S 3— 2でマッチングパター ン D B 9のテンプレート 1 4から基準となる 1番目のマスク画像 T 1を 読み込む。 そして S 3— 3で、 キヤプチャ画像 Pとマスク画像 T 1の読 み込んだ y = 0ないし B, x = 0ないし Aの領域において、 P ( x , y ) の 2値化値と、 T l ( X , y ) の 2値化値とを、 各座標値 (x, y ) で論理演算する。 そして座標 (0, 0 ) から (A, B ) までその論理積 を加算する。 S— 4でテンプレート 1 4に未だ試していないマスク画像 が無くなるまでステップ S 3— 2と S 3— 3を繰返す。 S 3— 4で、 全 てのマスク画像における論理積加算が済むと、 S 3— 5においてステツ プ 3— 4で最大加算値を示すマスク画像、 この例では画像 1 5を選択す る。
即ち、 マッチング画像 1 3とテンプレートの各マスク画像との論理積 を計算し、 その結果得られる画像の画素 1 (マッチングした画像) の数 を計算して加算し、 最も数が多いものを選択することで、 照合結果 1 5 を得ることができる。 このように、 2値化によりパターン ·マッチング の検出がアナログ比較ではなくともよく、 非常に簡単に行える。
以上のように、 マッチングパターン D Bに格納したパターンの数だけ の姿勢情報しか推定できないが、 非常に処理が単純であることから、 計 算能力の低いハードウエアにおいても十分実時間で処理が可能である。 図 1の構成においては、 マッチングパターン D Bに規定のパターンを 格納するようにしたが、 最初にビデオ力メラから取得した画像を用いて 、 ユーザ個人のテンプレート画像を生成してもよい。
図 1 0は、 マッチング ·パターンを映像キヤプチャ部 2の出力から作 成する場合の特定部分姿勢抽出構成図である。 図において、 撮影した画 像から、 姿勢パターンのテンプレート画像を生成するためのマッチング パターン生成部 1 6を設けている。
次に動作を図 1 1を用いて説明する。 図 1 1は、 映像キヤプチャ部 2 により通常姿勢で撮影した画像を 2値化後、 その画像を基にテンプレー 卜画像を生成した結果を示した図である。
ここでは、 映像キヤプチャ部 2で最初にキヤプチヤする画像を通常の 姿勢 (カメラに対して正面を向いた姿勢) と見なす、 あるいは、 ユーザ に通常の姿勢で撮影を依頼し、 通常姿勢の画像を取得する。
以上のようにして取得した画像をマッチング画像生成部 3により 2値 化した画像 1 7をマッチングテンプレート生成部 1 6においてァフィン 変換を用いて例えば、 首を左右にかしげた画像、 首を左右に振った画像 、 上下に振った画像を生成する。
ァフィン変換は、 次式で示す行列で表現できる。
Figure imgf000013_0001
(式 5 )
(式 5 ) で示したァフィン変換行列を、 それぞれの姿勢に対応して用 意し、 2値画像 1 7の画素値が 1の座標を次の (式 6 ) で変換し、 変換 後の座標に画素値 1をそれ以外を画素値 0とすることで図 1 1の 1 8に 示す各姿勢に応じた画像を生成することができる。
Figure imgf000014_0001
なお、 (式 6 ) では、 元の座標を X , Yとし、 変換後の座標を x, y としている。 また、 2値画像 1 7は平面としている。
以上のようにマッチングパターン 1 8を生成後は、 図 1の構成と同様 の処理を行って姿勢を推定することが可能である。
なお、 手間はかかるが、 ユーザに例えば図 1 1の 1 8に示される各種 の姿勢をとつてもらって、 それを 2値化するようにしてもよい。 そうす れば、 ァフィン変換なしでテンプレートを生成できる。
以上のように短時間もしくは実時間頭部姿勢推定装置を構成すること により、 ユーザの顔の特徴に適合したテンプレートを生成するため、 マ ッチング精度が向上できる効果がある。
なお、 以降の実施の形態においても、 特定部分として頭部または顔の 姿勢の推定について説明したが、 特定部分としてはこれに限定されず、 手、 腕、 足あるいは上半身等、 他の部分であってもよい。 実施の形態 2 .
以上の実施の形態 1では、 マッチングパターンとマツチング画像とを 照合することにより頭部姿勢を推定していたが、 マッチング画像の画素 値 1の画素の分布から頭部姿勢を推定するようにマッチング手段を変更 した場合の形態を説明する。
図 1 2は本実施の形態における特定部分姿勢推定装置の構成を示した 図である。 図において、 マッチング画像の画素分布を求め、 その分布の 状態により頭部姿勢を推定するための画素分布計測部 1 9を設けている 次に動作を図 1 3を用いて説明する。 図 1 3は、 画素分布に応じて頭 部姿勢を推定するためのマップを示したものである。
マッチング画像の画素値 1の画素が、 マップ 2 0のどの領域に多く分 布するか、 各領域に入る画素数をカウントし、 そのカウント数が多い領 域に対応する頭部姿勢を推定結果とする。
このように、 画素分布を用いれば、 さらに処理を簡略化することが可 能となり、 従って、 計算能力の低いハードウェアによっても、 処理がさ らに短縮できる効果がある。
上記実施の形態では、 特定部分姿勢推定装置は八一ドウエアで構成さ れるとして説明したが、 図 4で示すように実際にはプログラムを用意し てプロセッサでこのプログラムを実行させる構成にできる。 または図 2 、 図 3、 図 8のフローを表すステップで構成する方法としてもよい。 産業上の利用可能性
以上のようにこの発明によれば、 入力画像を所定範囲内の平均画像に 基づいて 2値化して部品を特定するマッチング画像生成部と、 この得ら れた 2値画像と所定のテンプレー卜とを照合して姿勢を検出するパター ン ·マッチング部とを備えたので、 規模を抑えて容易に部分姿勢を推定 できる効果がある。

Claims

請求の範囲
1 . 特定部分を抽出した入力画像の各画素を所定座標範囲内 の画像値に基づいた設定しきい値で 2値化し、 更に大きさが設定範囲内 である部品を特定して 2値画像を得るマッチング画像生成部と、 上記特定して得られた 2値画像と、 所定のテンプレートと照合して姿 勢を検出するパターン ·マッチング部、 とを備えたことを特徴とする特 定部分姿勢推定装置。
2 . マッチング画像生成部は、 入力の画像をグレースケール 画像に変換し、 該グレースケール画像の輝度を、 対象画素を座標中心と して所定範囲内のある画素の輝度の平均値、 または中央値をしきい値と して 2値化するようにしたことを特徴とする請求項 1記載の特定部分姿 勢推定装置。
3 . パターン ·マッチング部は、 予め複数の特定入力画像に よりマッチング画像生成して、 該生成した 2値化画像をテンプレー卜の 要素としたことを特徴とする請求項 1記載の特定部分姿勢推定装置。
4 . パターン 'マッチング部は、 テンプレートの各要素との 照合を画素の論理積で得るようにしたことを特徴とする請求項 1記載の 特定部分姿勢推定装置。
5 . パターン 'マッチング部は、 マッチング画像生成部で得 られる 2値画像から特定の値を持つ画素を求め、 それらの画素の画像中 における分布の状態から検出対象である特定部分の傾きを推定するよう にしたことを特徴とする請求項 1記載の特定部分姿勢推定装置。
6 . 特定部分を抽出した入力画像の各画素を所定座標範囲内 の画像値に基づいた設定しきい値で 2値化し、
上記 2値化して得られた 2値化画像から設定範囲外部分を削除して、 設定範囲内の画像部品としてラベル付けし、
上記削除後にラベル付けられた部品群からなる 2値化画像と、 所定の テンプレートにある画像の輝度を照合することを特徴とする特定部分姿 勢推定方法。
7 . 2値化は、 先ず入力画像をダレ一スケール画像に変換し
、 該変換したグレースケール画像の輝度を、 対象画素を座標中心として 所定範囲内にある画素の輝度平均値と、 画像中央値との内の 1つを 2値 化しきい値として選んで、 2値化すること、 としたことを特徴とする請 求項 6記載の特定部分姿勢推定方法。
8 . 照合は、 2値化画像とテンプレートの画像の、 座標値で 対応する各画素の輝度論理積で照合値を得ること、 としたことを特徴と する請求項 6記載の特定部分姿勢推定方法。
9 . 計算機が読取って実行可能であって、 特定部分を抽出し た入力画像の各画素を所定座標範囲内の画像値に基づいた設定しきい値 で 2値化し、
上記 2値化して得られた 2値化画像から設定範囲外部分を削除して、 設定範囲内の画像部品としてラベル付けし、
上記削除後にラベル付けられた部品群からなる 2値化画像と、 所定の テンプレートにある画像の輝度を照合するプログラムであることを特徴 とする特定部分姿勢推定プログラム。
PCT/JP2004/004040 2004-03-24 2004-03-24 特定部分姿勢推定装置、特定部分姿勢推定方法及び特定部分姿勢推定プログラム WO2005093656A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNA2004800281870A CN1860501A (zh) 2004-03-24 2004-03-24 特定部分姿势推测装置、特定部分姿势推测方法及特定部分姿势推测程序
PCT/JP2004/004040 WO2005093656A1 (ja) 2004-03-24 2004-03-24 特定部分姿勢推定装置、特定部分姿勢推定方法及び特定部分姿勢推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2004/004040 WO2005093656A1 (ja) 2004-03-24 2004-03-24 特定部分姿勢推定装置、特定部分姿勢推定方法及び特定部分姿勢推定プログラム

Publications (1)

Publication Number Publication Date
WO2005093656A1 true WO2005093656A1 (ja) 2005-10-06

Family

ID=35056398

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/004040 WO2005093656A1 (ja) 2004-03-24 2004-03-24 特定部分姿勢推定装置、特定部分姿勢推定方法及び特定部分姿勢推定プログラム

Country Status (2)

Country Link
CN (1) CN1860501A (ja)
WO (1) WO2005093656A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011128990A (ja) * 2009-12-18 2011-06-30 Canon Inc 画像処理装置とその方法
KR101298024B1 (ko) * 2010-09-17 2013-08-26 엘지디스플레이 주식회사 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치
KR101298023B1 (ko) * 2010-09-17 2013-08-26 엘지디스플레이 주식회사 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치
CN106033544B (zh) * 2015-03-18 2020-03-24 成都理想境界科技有限公司 基于模板匹配的试卷内容区域提取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55146573A (en) * 1979-05-03 1980-11-14 Sumitomo Electric Ind Ltd Binary circuit
JPH07181012A (ja) * 1993-12-22 1995-07-18 Nissan Motor Co Ltd 画像データの特徴量検出装置
JPH0981756A (ja) * 1995-09-14 1997-03-28 Mitsubishi Electric Corp 顔画像処理装置
JPH10143661A (ja) * 1996-11-11 1998-05-29 Matsushita Electric Ind Co Ltd データ処理装置
JPH11265452A (ja) * 1998-03-17 1999-09-28 Toshiba Corp 物体認識装置および物体認識方法
JP2001216518A (ja) * 2000-02-07 2001-08-10 Fuji Photo Film Co Ltd マッチング方法および装置並びに記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55146573A (en) * 1979-05-03 1980-11-14 Sumitomo Electric Ind Ltd Binary circuit
JPH07181012A (ja) * 1993-12-22 1995-07-18 Nissan Motor Co Ltd 画像データの特徴量検出装置
JPH0981756A (ja) * 1995-09-14 1997-03-28 Mitsubishi Electric Corp 顔画像処理装置
JPH10143661A (ja) * 1996-11-11 1998-05-29 Matsushita Electric Ind Co Ltd データ処理装置
JPH11265452A (ja) * 1998-03-17 1999-09-28 Toshiba Corp 物体認識装置および物体認識方法
JP2001216518A (ja) * 2000-02-07 2001-08-10 Fuji Photo Film Co Ltd マッチング方法および装置並びに記録媒体

Also Published As

Publication number Publication date
CN1860501A (zh) 2006-11-08

Similar Documents

Publication Publication Date Title
CN105740780B (zh) 人脸活体检测的方法和装置
JP5629803B2 (ja) 画像処理装置、撮像装置、画像処理方法
JP6125188B2 (ja) 映像処理方法及び装置
JP5445460B2 (ja) なりすまし検知システム、なりすまし検知方法及びなりすまし検知プログラム
JP4860749B2 (ja) 画像中の人物における位置決め指示との適合性を判定する機器、システム、及び方法
JP5366756B2 (ja) 情報処理装置及び情報処理方法
US20160162673A1 (en) Technologies for learning body part geometry for use in biometric authentication
JP5725012B2 (ja) 異物判定装置、異物判定方法および異物判定プログラム
JP2005056387A (ja) 画像処理装置、撮像装置、画像処理方法
JP4682820B2 (ja) オブジェクト追跡装置及びオブジェクト追跡方法、並びにプログラム
JP5170094B2 (ja) なりすまし検知システム、なりすまし検知方法およびなりすまし検知用プログラム
JP2003244521A (ja) 情報処理方法、装置および記録媒体
JP2004094491A (ja) 顔向き推定装置および顔向き推定方法ならびに顔向き推定プログラム
US7460705B2 (en) Head-top detecting method, head-top detecting system and a head-top detecting program for a human face
CN107944395B (zh) 一种基于神经网络验证人证合一的方法及系统
JP2007052609A (ja) 手領域検出装置及び手領域検出方法、並びにプログラム
CN110909561A (zh) 眼睛状态检测系统及眼睛状态检测系统的操作方法
JP4729188B2 (ja) 視線検出装置
CN111639582B (zh) 活体检测方法及设备
JP2017027492A (ja) 顔照合装置およびこれを備えた顔照合システムならびに顔照合方法
JP4691570B2 (ja) 画像処理装置およびオブジェクト推定プログラム
JP2008035301A (ja) 移動体追跡装置
Panetta et al. Unrolling post-mortem 3D fingerprints using mosaicking pressure simulation technique
JP4390487B2 (ja) 頭部領域抽出装置
JP4141090B2 (ja) 画像認識装置、陰影除去装置、陰影除去方法及び記録媒体

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200480028187.0

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1020067017711

Country of ref document: KR

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

122 Ep: pct application non-entry in european phase