WO2023105611A1 - 焦点距離算出装置、焦点距離算出方法、及び焦点距離算出プログラム - Google Patents

焦点距離算出装置、焦点距離算出方法、及び焦点距離算出プログラム Download PDF

Info

Publication number
WO2023105611A1
WO2023105611A1 PCT/JP2021/044859 JP2021044859W WO2023105611A1 WO 2023105611 A1 WO2023105611 A1 WO 2023105611A1 JP 2021044859 W JP2021044859 W JP 2021044859W WO 2023105611 A1 WO2023105611 A1 WO 2023105611A1
Authority
WO
WIPO (PCT)
Prior art keywords
distance
captured image
focal length
feature points
person
Prior art date
Application number
PCT/JP2021/044859
Other languages
English (en)
French (fr)
Inventor
隆浩 青木
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2021/044859 priority Critical patent/WO2023105611A1/ja
Publication of WO2023105611A1 publication Critical patent/WO2023105611A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes

Definitions

  • the present invention relates to image analysis technology.
  • head pose estimation includes normalization processing (correction of face posture), guidance (processing for instructing the user to face in an appropriate direction), This technology is used for posture determination and the like.
  • HPE is a very important factor in face authentication in terms of authentication accuracy and convenience.
  • the distance from the camera to the head which is specified by the ratio of the distance between the eyes in the captured image of the head to the average interpupillary distance of the head model and the focal length of the camera, is used in the HPE. .
  • the feature amount extracted from the feature point positions is updated according to the distance between the photographing unit and the face, which is estimated from the interval between the feature point positions of the face in the photographed image of the person. Face recognition is performed based on the search result by comparison with a database of feature values.
  • the value of the focal length of the lens used in the camera that captures the face is required. becomes.
  • the focal length can be found by looking at the specifications of the lens used in the camera, but cameras generally do not have a mechanism for automatically obtaining the focal length.
  • the focal length of the camera used is not always the assumed value. If this focal length can be estimated automatically and with high accuracy, the convenience will be improved and the use of highly accurate HPE will be possible.
  • an object of the present invention is to improve the accuracy of focal length calculation.
  • the focal length calculation device includes an acquisition unit, a storage unit, and a calculation unit.
  • the acquisition unit acquires a captured image captured by the camera.
  • the storage unit stores a shooting distance from the camera to the shooting target, and a first distance that is a standard distance for the shooting target between two feature points among the plurality of feature points in the captured image.
  • the calculation unit calculates a second distance, which is the distance in the captured image between the two feature points, from the captured image, and calculates the focal length of the camera based on the first distance, the second distance, and the shooting distance.
  • FIG. 10 is a diagram (part 1) explaining association of landmarks between a captured image and a face landmark model
  • FIG. 11 is a diagram (part 2) for explaining association of landmarks between a captured image and a face landmark model
  • It is a figure explaining the estimation method of a focal length.
  • It is a figure which shows the 1st example of a structure of a focal distance calculation apparatus. It is an example of the memory information memorize
  • FIG. 11 is a flowchart showing processing contents of a first example of posture estimation processing
  • FIG. FIG. 10 is a flow chart showing the details of a first example of focal length calculation processing
  • FIG. 11 is a flowchart showing part of the processing content of a second example of focal length calculation processing;
  • FIG. 11 is a flowchart showing part of the processing content of a third example of focal length calculation processing;
  • FIG. It is a figure explaining the length of the 1st, 2nd, 3rd, and 4th line segments. It is the flowchart which showed the processing content of a motion amount calculation process.
  • FIG. 11 is a flow chart showing processing contents of a second example of posture estimation processing;
  • FIG. 5 is a diagram showing a second example of the configuration of the focal length calculation device
  • 16A and 16B are diagrams illustrating an example of a usage mode of the focal length calculation device of FIG. 15
  • FIG. 11 is a flow chart showing processing contents of a third example of posture estimation processing
  • This model is a three-dimensional shape model of a standard human face, and has three-dimensional position information of landmarks on the face as model data.
  • a plurality of feature points on the face are identified as landmarks from an image obtained by photographing a person's face with a camera. Then, the specified landmark is associated with the position on the face landmark model corresponding to the position of the landmark. This association will be described with reference to FIG.
  • the illustration on the left side in FIG. 1 represents an example of the image of the face area in the captured image.
  • the X marks attached to this image represent the positions of the landmarks identified from the image of the face region, and indicate how the five landmarks of the left and right eyes, the nose, and the left and right corners of the mouth are identified as landmarks. represent. Coordinates representing the position of each of these landmarks in two-dimensional coordinates defined in the image plane as the vertical and horizontal directions of a rectangular captured image are obtained.
  • the illustration on the right side in FIG. 1 represents a facial landmark model.
  • the points attached to this illustration represent the positions on the model corresponding to each of the landmarks identified in the illustration on the left.
  • Three-dimensional position information representing each of these positions is obtained from the model data of the facial landmark model.
  • a captured image is obtained by capturing an image of the face represented by the facial landmark model with a camera.
  • the relationship between the position of the landmark on the captured image and the position on the facial landmark model corresponding to this landmark can be expressed as shown in FIG.
  • point O represents the position of the camera in the three-dimensional world coordinate system represented by each axis of UVW.
  • a three-dimensional coordinate system represented by XYZ axes with this point O as the origin is called a camera coordinate system.
  • the point p represents the position of the landmark on the captured image
  • the point P represents the position on the facial landmark model corresponding to the point p.
  • the coordinates of the world coordinate system for the position of point P are expressed as (U, V, W).
  • the coordinates of the position of the point p in the two-dimensional image coordinate system represented by the xy axes which is a two-dimensional coordinate system defined on the image plane of the captured image, are represented by (x, y).
  • the point C shown on the captured image in FIG. 2 is the image center of the captured image captured by the camera at the position of the point O
  • the coordinates of the position of the point C in the image coordinate system are (Cx, Cy).
  • first (left) matrix and the second (middle) matrix of the three matrices on the right side of the formula [Equation 1] are called the intrinsic parameters and the extrinsic parameters of the camera, respectively. be.
  • f represents the focal length of the camera. Although the unit of focal length is generally millimeters, the value of f in Equation 1 is the number of pixels, and the unit is "picture element" (pixel).
  • the length corresponding to one pixel in the imaging device used in a camera (the value obtained by dividing the length of one side of a rectangular imaging device by the number of pixels lined up on that side) is known, the conversion from millimeters to pixels Conversion of units is possible.
  • the length corresponding to one pixel in the imaging element is assumed to be the same in the vertical direction and the horizontal direction.
  • External parameters represent the relationship between the world coordinate system and the camera coordinate system.
  • the following formula R and t represented by represent the motion amount of the camera in the real space (world).
  • R represents the amount of rotation
  • t represents the amount of translation. If the world coordinate system is moved according to this movement amount, it will match the camera coordinate system. From a different point of view, this amount of motion represents the difference in the pose of the person's face in the captured image from the pose of the face landmark model. becomes.
  • the [Equation 1] formula holds between one landmark specified from the captured image and a landmark corresponding to the one landmark in the face landmark model. Therefore, by substituting the position information of each of the plurality of landmarks into the [Equation 1] equation, a simultaneous equation can be obtained. Attitude information is obtained by solving this system of equations for the extrinsic parameters. In the actual calculation for solving this simultaneous equation, the external parameters are estimated by adopting the least squares method using a widely known method called the DLT method (Direct Linear Transformation Method). .
  • the HPE performed using facial landmarks is performed as described above. Therefore, when adopting this method, it is necessary to know the focal length, which is an internal parameter of the camera.
  • the focal length which is an internal parameter of the camera.
  • the task of knowing the focal length of the camera to be used is complicated, and there are cases where a camera with unknown specifications is used.
  • the model data of the face landmark model originally prepared for HPE is used to estimate the focal length of the camera from the captured image taken by the camera. This estimation method will be described with reference to FIG.
  • the right side represents the world inside the camera, and the left side represents the world outside the camera (the world in which the subject actually exists).
  • the focal length f in FIG. 3 can be calculated by the following formula using proportionality.
  • the image size H is the number of pixels in a pixel row arranged along one side (vertical direction) of a rectangular captured image, and this number of pixels can be easily obtained from the captured image.
  • the focal length f can be obtained in units of "picture elements" (pixels).
  • the two values of the photographing range L or the distance d' and the photographing distance Z are It is necessary for calculating the focal length f. Next, a method for obtaining these values will be described.
  • two of the specified landmarks are selected in the captured image, and the distance (number of pixels) between the positions of these two landmarks is obtained. For example, if the left and right eyes or the left and right corners of the mouth of the subject are selected as the two landmarks, since these landmarks are aligned in the horizontal direction of the captured image, the number of pixels Easy to obtain.
  • the distance obtained in this way is the distance d in the above-mentioned [Equation 4].
  • the distance between the two points is calculated, for example, in millimeters.
  • the distance obtained in this way is the distance d' in the above-mentioned [Equation 4].
  • the length corresponding to one pixel of the captured image at the position of the subject is calculated by dividing the distance d' by the distance d, and the calculated value is added to the image size.
  • H the shooting range L corresponding to the image size H can be obtained.
  • the first method is to preset the value of the shooting distance. For example, when a face authentication function using HPE is installed in a laptop personal computer, a constant value can be estimated as the distance between the computer's camera and the computer's user. In this way, when the value of the photographing distance is roughly determined depending on the usage scene of the face authentication function, this value is prepared in advance and used when calculating the focal length.
  • the second method estimates the focal length by assuming the value of the shooting distance, executes HPE using the obtained estimated value, and uses the execution result of HPE to check the validity of the assumption. It is to verify.
  • the amount of rotation and the amount of translation are obtained as the amount of movement, which is posture information.
  • the value of the amount of translation is considered to match the value of the photographing distance used for estimating the focal length. Therefore, by comparing the amount of translation obtained as a result of executing the HPE with the assumed value of the shooting distance, the validity of the assumption of the shooting distance can be verified. For example, if the difference between the translation amount and the assumed value of the shooting distance is greater than the determination threshold, the assumed value of the shooting distance is changed, and the focal length is estimated again and the HPE using the estimated value is performed again. You can do it.
  • a camera equipped with a distance sensor may be used to photograph the subject and measure the photographing distance.
  • the shooting distance may be measured by a distance sensor connected to the camera so as to interlock with the shooting of the camera.
  • the value of the focal length is estimated using the value of the photographing distance obtained using such a method, and the aforementioned HPE is performed using this estimation result.
  • Another method for estimating the value of the focal length is to set an initial value for the focal length once, start face authentication processing using HPE, and sequentially update the focal length based on the results of the face authentication processing.
  • face authentication processing a face authentication score is obtained as a processing result, which indicates the likelihood that the person whose face is reflected in the captured image is the person to be authenticated. It is estimated that the closer the focal length value used in HPE is to the true value, the higher the score, and the farther from the true value, the lower the score. Therefore, by using this score as a weight in updating the focal length value, it is possible to obtain a more accurate focal length estimation value.
  • FIG. 4 shows a first example of the configuration of the focal length calculation device.
  • the focal length calculation device 1 also functions as a posture estimation device for estimating the posture of a person's face.
  • a camera 2 is connected to the focal length calculation device 1 .
  • the camera 2 captures the face of a person, who is a subject, and outputs a captured image including the face area of the person.
  • the focal length calculation device 1 includes an acquisition unit 11, a storage unit 12, a calculation unit 13, and an output unit 14 as components.
  • the acquisition unit 11 acquires the captured image output from the camera 2 .
  • the storage unit 12 stores the model data of the face landmark model and the value of the shooting distance from the camera 2 to the subject.
  • FIG. 5 shows an example of the stored information 20 stored in the storage unit 12.
  • FIG. 5 the three-dimensional coordinates in the image coordinate system representing the position of each landmark on the model and the value of the shooting distance are indicated as model data 21 and shooting distance data 22, respectively.
  • the left eye, right eye, nose, left corner of the mouth, and right corner of the mouth are illustrated as landmarks.
  • the distance between two positions of each landmark on the model can be easily calculated based on the three-dimensional coordinates of each landmark. 12 and used as needed.
  • the calculation unit 13 acquires the distance between two positions of each landmark on the model, for example, the distance between the positions of the left eye and the right eye on the model, as the first distance. Further, the calculation unit 13 calculates the distance (the number of pixels) on the captured image between the two positions respectively corresponding to the two landmarks in the face area included in the captured image, for example, the distance between the positions of the left eye and the right eye. The distance on the captured image between is calculated from the captured image as the second distance. The calculation unit 13 calculates the focal length of the camera 2 based on the first distance and the second distance thus obtained and the shooting distance data 22 obtained by reading from the storage unit 12 . The focal length calculated by the calculation unit 13 is the estimation result of the focal length of the camera 2 .
  • this focal length is calculated by substituting the first distance and the second distance for d' and d in the above [Formula 4] formula, respectively, and substituting the photographing distance for Z. That is, the focal length is calculated by dividing the product of the shooting distance and the first distance by the second distance.
  • the calculation unit 13 also uses the focal length calculated as described above and the model data 21 stored in the storage unit 12 to calculate the face of the person who is the subject in the captured image acquired by the acquisition unit 11. Calculate posture.
  • the calculation unit 13 calculates two-dimensional coordinates representing the positions of the landmarks and three-dimensional coordinates representing the positions on the model for each corresponding position between each landmark in the captured image and the face landmark model.
  • a relational expression is created by substituting the estimated value of the focal length into the formula [Equation 1].
  • the coordinates (Cx, Cy) representing the image center of the captured image are obtained from the captured image and substituted.
  • the calculation unit 13 solves the simultaneous equations of the relational expressions created as described above using the DLT method, and calculates the amount of motion represented by the above-mentioned [Equation 2] as the estimation result of the face posture.
  • Equation 2 the amount of motion represented by the above-mentioned [Equation 2] as the estimation result of the face posture.
  • the output unit 14 outputs the focal length estimation result and the face posture estimation result calculated by the calculation unit 13 as described above.
  • the focal length calculation device 1 may further include the changing unit 15 as a component.
  • the changing unit 15 compares the difference between the amount of movement as the face posture estimation result calculated by the calculating unit 13 and the value of the shooting distance used to estimate the focal length of the camera 2 with a predetermined threshold. Here, if the difference exceeds the predetermined threshold, it is determined that the shooting distance data 22 stored in the storage unit 12 is not appropriate, and this value is changed. When this value is changed, the calculation unit 13 recalculates the focal length of the camera 2 based on the above-described first distance and second distance, and the value of the photographing distance after the change. Using the obtained focal length, the pose of the face is re-estimated.
  • focal length calculation device 1 of FIG. 4 may be configured by a combination of a computer and software.
  • FIG. 6 shows an example of the hardware configuration of the computer 30.
  • the computer 30 includes hardware components such as a processor 31, a memory 32, a storage device 33, a reader 34, a communication interface 36, and an input/output interface 37, for example. These components are connected via a bus 38, and data can be exchanged between the components.
  • hardware components such as a processor 31, a memory 32, a storage device 33, a reader 34, a communication interface 36, and an input/output interface 37, for example. These components are connected via a bus 38, and data can be exchanged between the components.
  • the processor 31 may be, for example, a single processor or a multiprocessor and multicore.
  • the processor 31 uses the memory 32 to execute, for example, a posture estimation processing program that describes a posture estimation processing procedure described later.
  • the memory 32 is, for example, a semiconductor memory, and may include a RAM area and a ROM area.
  • the storage device 33 is, for example, a hard disk, a semiconductor memory such as a flash memory, or an external storage device. Note that RAM is an abbreviation for Random Access Memory. Also, ROM is an abbreviation for Read Only Memory.
  • the reading device 34 accesses the removable storage medium 35 according to instructions from the processor 31 .
  • the removable storage medium 35 is, for example, a semiconductor device (USB memory, etc.), a medium for inputting/outputting information by magnetic action (magnetic disk, etc.), a medium for inputting/outputting information by optical action (CD-ROM, DVD, etc.).
  • USB is an abbreviation for Universal Serial Bus.
  • CD is an abbreviation for Compact Disc.
  • DVD is an abbreviation for Digital Versatile Disk.
  • the communication interface 36 transmits and receives data via a communication network (not shown) according to instructions from the processor 31, for example.
  • the input/output interface 37 acquires various data such as image data of captured images sent from the camera 2 . Also, the input/output interface 37 outputs the result of posture estimation processing, which will be described later, output from the processor 31 .
  • the program executed by the processor 31 of this computer 30 is provided, for example, in the form below.
  • the hardware configuration of the computer 30 is an example, and the embodiment is not limited to this.
  • some or all of the functions of the functional units described above may be implemented as hardware such as FPGA and SoC.
  • FPGA is an abbreviation for Field Programmable Gate Array.
  • SoC is an abbreviation for System-on-a-chip.
  • the processor 31 is caused to execute a posture estimation program describing a first example of the posture estimation processing described below. make it
  • FIG. 7 is a flowchart showing the processing contents of the first example of posture estimation processing.
  • S100 a process of acquiring a captured image including a face area of a person, who is a subject, captured by the camera 2 is performed.
  • the outer periphery of the captured image is assumed to be a horizontally long rectangle.
  • the direction of the long side of this rectangle is the horizontal direction of the captured image.
  • the direction of the short side of the rectangle (the direction perpendicular to the horizontal direction of the captured image) is the vertical direction of the captured image, and the direction of the head of the person represented in the captured image is the upward direction of the captured image.
  • the processor 31 provides the function of the acquisition unit 11 of FIG. 4 by executing the process of S100.
  • S200 processing is performed to detect each landmark from the captured image acquired by the processing of S100.
  • Software for detecting landmarks from a face image is prepared in the above-mentioned OpenCV and Dlib, and in the process of S200, detection is performed using this software, for example.
  • Each landmark detected by this processing is an example of a plurality of feature points in the captured image.
  • focal length calculation processing is performed. This processing is processing for calculating the estimated value of the focal length of the camera 2 as described above, and the details of the processing will be described later.
  • This process is a process of calculating the amount of movement of the camera coordinate system from the world coordinate system using the captured image and the model data 21 of the landmark model as described above. Details of this process will be described later. do.
  • the processor 31 provides the function of the calculator 13 in FIG. 4 by executing the processes of S200, S300, and S400.
  • S500 a process of outputting the motion amount calculated by the process of S400 as an estimation result of the face posture of the person who is the subject is performed.
  • processing for outputting the focal length calculated by the processing of S300 as the result of estimating the focal length of the camera 2 is also performed as necessary.
  • the processor 31 provides the function of the output unit 14 in FIG. 4 by executing the process of S500.
  • FIG. 8 is a flowchart showing the details of the first example of the focal length calculation process.
  • a process of extracting two landmarks from among the landmarks detected by the process of S200 in FIG. 7 is performed.
  • any method may be used to select the two landmarks to be extracted.
  • the distance between the two positions represented by the model data 21 respectively corresponding to the two landmarks extracted by the process of S311 is set as the first distance, which is the standard distance between the two positions. Acquisition processing is performed. Acquisition of this first distance is performed, for example, by calculating using the coordinates of the positions respectively represented by the two model data 21 . Instead, the data of the distance between the positions represented by each model data 21 is stored in advance in the storage unit 12, and the first distance is acquired by reading the corresponding data from the storage unit 12 in the process of S202. You may make it
  • the distance (the number of pixels) on the captured image between the positions of the two landmarks extracted by the process of S311 is set as the second distance from the captured image obtained by the process of S100 in FIG. Acquisition processing is performed.
  • processing for calculating the focal length is performed using the first distance, the second distance, and the shooting distance obtained by the processing from S312 to S314 described above.
  • This focal length is calculated by substituting the values of the first distance, the second distance, and the photographing distance into d', d, and Z in Equation 4, respectively.
  • the above processing is the first example of the focal length calculation processing.
  • the face of the person in the captured image obtained by the camera 2 may not face the front.
  • the distance between the positions of the two landmarks arranged horizontally in the captured image is It will be packed more than the interval of .
  • the distance between the positions of the two landmarks arranged vertically on the captured image is such that the face in the captured image is facing forward. There is little change from the interval when there is.
  • the distance between the positions of the two landmarks arranged vertically in the captured image is set so that the face in the captured image faces the front. It will be closer than the interval when it is facing.
  • the distance between the positions of the two landmarks arranged horizontally on the captured image is such that the face in the captured image faces the front. There is almost no change from the distance when facing.
  • the interval between the positions of two landmarks arranged horizontally on the captured image and the interval between the positions of two landmarks arranged vertically on the captured image are compared.
  • the two horizontally aligned landmarks are selected as landmarks to be extracted for calculating the focal length.
  • the two vertically aligned landmarks are selected as landmarks to be extracted for calculating the focal length. do.
  • an attempt is made to reduce the influence of the direction of the face shown in the captured image on the estimation of the focal length.
  • two lengths, the horizontal length and the vertical length are obtained based on the information representing the position of the landmark detected from the captured image.
  • the horizontal length is the distance between the positions of two landmarks that are horizontally aligned in the captured image.
  • the horizontal length is the distance between the positions of the left eye and the right eye, or the distance between the corners of the mouth on the left and right sides.
  • the vertical length is the distance between the respective positions of two landmarks arranged in the vertical direction in the captured image.
  • the vertical length is the distance between the positions of the left eye and the left corner of the mouth, or the distance between the positions of the right eye and the right corner of the mouth.
  • the horizontal length and vertical length are compared.
  • the horizontal length appears to be shorter than when the face is facing the front, while the vertical length is significantly different from when the face is facing the front. looks like nothing.
  • the horizontal length is not much different from when the face is facing the front, but the vertical length is more than when the face is facing the front. also appears to be shorter.
  • the pair of landmarks used to define the landscape i.e., the left and right eye pair or the left and right corners of the mouth, respectively are to be extracted from the landmarks detected from the captured image.
  • a pair of landmarks used to define the vertical length that is, for example, a pair of the left eye and the left corner of the mouth or a pair of the right eye and the right corner of the mouth is imaged.
  • Targets are extracted from landmarks detected from images. By doing so, the influence of the direction of the face shown in the captured image on the estimation of the focal length is reduced.
  • FIG. 10 is a flowchart showing part of the processing content of the second example of the focal length calculation processing.
  • processing is performed to obtain the coordinates representing the respective positions of the left and right eyes in the face image on the captured image obtained by the processing of S100.
  • the respective positions of the left and right eyes are examples of the first and second feature points among the plurality of feature points in the captured image.
  • processing is performed to obtain the coordinates representing the position of the left or right corner of the mouth in the image of the face on the captured image.
  • the position represented by the coordinates acquired by this process is an example of the third feature point among the plurality of feature points in the captured image.
  • the horizontal length calculated in the processing of S323 and the vertical length calculated in the processing of S324 are compared to determine whether the horizontal length is longer than the vertical length. In this determination process, if it is determined that the horizontal length is longer than the vertical length (the determination result is YES), the process proceeds to S326, and if it is determined that the horizontal length is not longer than the vertical length (determination result is NO), the process proceeds to S327.
  • the left and right eyes for which the distance was calculated as the horizontal length in the processing of S323 are extracted as two landmarks to be extracted from the landmarks detected in the processing of S200 of FIG. done.
  • one eye and the corner of the mouth on the same side of the left and right sides, for which the distance was calculated as the vertical length in the process of S324, are detected as two landmarks to be extracted by the process of S200 in FIG. A process of extracting the landmarks is performed.
  • the pair having the longer distance between the feature points in the captured image is It is an example of processing for selecting two feature points to be extracted from a plurality of feature points of a captured image.
  • the above processing is the second example of the focal length calculation processing.
  • the coordinates representing the positions of the corners of the mouth on the left side and the right side of the image of the face on the captured image may be obtained.
  • the process of S322 the process of acquiring the coordinates representing the position of the left eye or the right eye in the image of the face on the captured image is performed.
  • the distance between the positions of the corners of the mouth on the left side and the right side of the image of the face on the captured image is calculated as the horizontal length.
  • the position of the one eye whose coordinates have been obtained in the process of S322 and the position of the corner of the mouth on the same side as the one eye among the corners of the mouth whose coordinates have been obtained in the process of S321 are displayed on the captured image. to calculate the vertical length.
  • the left and right corners of the mouth for which the distance was calculated as the horizontal length in the process of S323 are used as two landmarks to be extracted, and the landmarks detected by the process of S200 in FIG. Try to extract from
  • the processing of S311 in the processing of the first example shown in the flowchart of FIG. 8 is changed.
  • the third example shows the influence of the direction of the face in the captured image on the estimation of the focal length, including the case where the four standard distances assumed in the second example are not nearly equal. can be reduced.
  • FIG. 11 is a flowchart showing a part of the processing contents of the third example of the focal length calculation processing.
  • the length of the first line segment is the length of the line segment connecting the positions of the left and right eyes of the person represented by the model data 21
  • the length of the second line segment is the length of a line segment connecting the left and right corners of the mouth of the person represented by the model data 21
  • the length of the third line segment is the length of the line segment that connects the position of the left eye of the person represented by the model data 21 and the position of the left corner of the mouth. is the length of the line segment connecting the position of the right eye of the person represented by the model data 21 and the position of the corner of the mouth on the right side.
  • the lengths of these four line segments can be calculated from the coordinates of the positions of the left and right eyes of the person and the positions of the left and right corners of the mouth, which are represented by the model data 21 . In the process of S331, these coordinates are used to calculate the lengths of the four line segments.
  • the lengths of the four line segments obtained by the process of S331 and the numbers of pixels in the four pixel columns obtained by the process of S332 are used to determine the first length and the second length.
  • a process of calculating is performed.
  • the first length is the length of the photographed object corresponding to one pixel of the photographed image in the direction of the photographed object corresponding to the first direction (for example, the horizontal direction) in the photographed image.
  • the second length is the length of the object corresponding to one pixel of the captured image in the direction of the object corresponding to the second direction (for example, vertical direction) different from the first direction in the captured image. length.
  • the first length and the second length calculated in the processing of S333 are compared to determine whether or not the first length is longer than the second length.
  • the process proceeds to S335, and the first length is greater than the second length. If it is determined that the time is not long (if the determination result is NO), the process proceeds to S336.
  • the left eye and the left corner of the mouth, or the right eye and the right corner of the mouth are selected from among the landmarks detected by the processing of S200 in FIG. 7 as two landmarks to be extracted. , extraction processing is performed.
  • the length of the object corresponding to one pixel of the captured image is longer in the first direction (horizontal direction) than in the second direction (vertical direction). direction).
  • the face in the captured image faces the second direction, and it is estimated that the actual length of the face in the second direction is shorter than when the face faces the front.
  • the two landmarks aligned in the first direction which are not easily affected by the fact that the face in the captured image is oriented in the second direction, are the two landmarks detected by the process of S200 in FIG. Try to extract from the mark. That is, in the process of S335, the two landmarks to be extracted are the left and right eyes or the left and right corners of the mouth, which are arranged in the horizontal direction in the captured image.
  • the length of the imaging target corresponding to one pixel of the captured image is greater in the second direction (vertical direction) than in the first direction. (horizontal direction).
  • the face in the captured image is oriented in the first direction, and it is estimated that the actual length in the first direction is shorter than when the face is oriented frontally.
  • the two landmarks aligned in the second direction which are not easily affected by the fact that the face in the captured image is oriented in the first direction, are the two landmarks detected by the process of S200 in FIG. Try to extract from the mark. That is, in the process of S336, the left eye and the left corner of the mouth, or the right eye and the right corner of the mouth, which are arranged vertically in the captured image, are two landmarks to be extracted.
  • the above processing is the third example of the focal length calculation processing.
  • FIG. 13 is a flowchart showing the details of the motion amount calculation process.
  • processing is performed to acquire the coordinates representing the position on the captured image of the image center of the captured image from the captured image.
  • the processing up to the above is the motion amount calculation processing.
  • the focal length calculation device 1 of FIG. 4 operates as the focal length calculation device 1 of FIG. 4, and the focal length of the camera 2 can be calculated and , allows a good estimation of the pose of the human subject.
  • This second example employs the above-described second method of acquiring the shooting distance to calculate the focal length of the camera 2 and estimate the posture of the person who is the subject.
  • FIG. 14 is a flowchart showing the processing contents of the second example of posture estimation processing.
  • the process of the second example shown in FIG. 14 is the process of the first example shown in FIG. 7 with the addition of each process from S601 to S603.
  • the value of the difference calculated by the processing in S601 is greater than a predetermined threshold value (for example, 10% of the value of the shooting distance data 22 stored in advance in the storage unit 12).
  • a predetermined threshold value for example, 10% of the value of the shooting distance data 22 stored in advance in the storage unit 12.
  • a process for determining whether or not is performed. In this determination processing, if it is determined that the calculated difference value is greater than the threshold value (when the determination result is YES), the processing proceeds to S603. On the other hand, if it is determined in this determination process that the calculated difference value is not greater than the threshold value (when the determination result is NO), the process proceeds to S500.
  • processing is performed to change the value of the shooting distance stored as the shooting distance data 22 in the storage unit 12 according to the difference value calculated in the processing of S601.
  • the amount of change in the shooting distance value by this process may be increased as the difference value increases, and may be decreased as the difference value decreases.
  • the processor 31 provides the function of the changing unit 15 of FIG. 4 by executing these processes of S601, S602, and S603.
  • the above processing is the second example of posture estimation processing.
  • whether to increase or decrease the value of the photographing distance is determined, for example, by the magnitude of the translational amount obtained by the motion amount calculation processing of S400, which is subsequently executed, and the value of the photographing distance.
  • the decision is made according to the trend of change in the difference value. For example, if the value of the difference increases when the value of the photographing distance is increased, the value of the photographing distance is decreased in the subsequent processing of S603. Also, for example, if the value of the difference increases when the value of the shooting distance is decreased, the value of the shooting distance is increased in the subsequent processing of S603.
  • the focal length calculation device 1 of FIG. 4 operates as the focal length calculation device 1 of FIG. 4, and the focal length of the camera 2 can be calculated with good accuracy by the processor 31 executing the second example of the posture estimation processing described above. and good estimation of the pose of the subject.
  • FIG. 15 shows a second example of the configuration of the focal length calculation device.
  • This focal length calculation device 4 also has a function as a posture estimation device for estimating the posture of a person's face, like the focal length calculation device 1 whose configuration is shown in FIG.
  • the camera 2 and the face authentication device 3 are connected to this focal length calculation device 4 .
  • the camera 2 like the one connected to the focal length calculation device 1 shown in FIG. 4, captures the face of the person who is the subject, and outputs a captured image including the face area of the person. In this second example, it is assumed that the camera 2 takes pictures at regular time intervals.
  • the focal length calculation device 4 includes an acquisition unit 41, a storage unit 42, a calculation unit 43, an output unit 44, and an update unit 45 as components.
  • the acquisition unit 41 acquires a captured image including a face area of a person who is a subject, which is output from the camera 2 every time the camera 2 takes an image.
  • the storage unit 42 stores model data 21 of the face landmark model and shooting distance data 22 from the camera 2 to the subject in the same manner as the storage unit 12 shown in FIG.
  • the calculation unit 43 acquires the first distance and the second distance in the same manner as the calculation unit 13 shown in FIG. , the focal length of the camera 2 is calculated as an estimation result. 4, the calculation unit 43 obtains the amount of motion represented by the above-mentioned [Equation 2] as the result of estimating the posture of the face.
  • the output unit 44 outputs the focal length estimation result and the face posture estimation result calculated by the calculation unit 43, similarly to the output unit 14 shown in FIG.
  • the face authentication device 3 corrects the posture of the face image appearing in the captured image output from the camera 2 based on the face posture estimation result output from the focal length calculation device 4 .
  • the face authentication device 3 performs face authentication processing on the corrected face image, and outputs the above-described face authentication score as an execution result.
  • the acquisition unit 41 of the focal length calculation device 4 also acquires the face authentication score output from the face authentication device 3.
  • the update unit 45 of the focal length calculation device 4 updates the value of the shooting distance from the camera 2 to the subject based on the face authentication score acquired by the acquisition unit 41.
  • the calculation unit 43 of the focal length calculation device 4 uses the updated value when calculating the amount of motion after the update unit 45 updates the value of the shooting distance.
  • This mode is a mode of use in gate entry/exit management.
  • the authentication system 6 repeatedly performs face authentication processing using a photographed image obtained by photographing a person to be authenticated walking toward a gate by the camera 2. Narrow down the stored personal information. Subsequently, the authentication system 6 performs palm vein authentication processing for the person to be authenticated who has arrived at the gate using the vein sensor 5, and determines whether the person to be authenticated corresponds to any of the narrowed personal information. is determined, and the authentication system 6 opens the gate when it is determined to be applicable.
  • the face authentication device 3 and the focal length calculation device 4 in FIG. 15 are provided in the authentication system 6. Face authentication processing executed by the authentication system 6 is performed by these devices. In this usage mode, the focal length calculation device 4 performs face authentication processing for a person to be authenticated who is walking. It is difficult to assume
  • the focal length calculation device 4 calculates the focal length using, as an initial value, the value of the photographing distance previously stored as the photographing distance data 22 in the storage unit 42, and calculates the facial posture using the calculated focal length. and perform the estimation of
  • the face authentication device 3 performs face authentication processing after correcting the posture of the face image appearing in the captured image based on the face posture estimation result obtained by the focal length calculation device 4 .
  • the face authentication device 3 outputs a face authentication score that is used as a basis for determining whether or not the person to be authenticated is the person himself/herself.
  • the focal length calculation device 4 uses the face authentication score output from the face authentication device 3 as a weight for the focal length value to update the focal length value, and then performs facial pose estimation processing. Now, let's use the updated focal length value. Thereafter, by alternately repeating the process of updating the focal length value and the process of estimating the face posture, a highly accurate estimated value of the focal length can be obtained.
  • FIG. 17 is a flowchart showing the processing contents of the third example of posture estimation processing.
  • the focal length calculation device of FIG. 4 can also be configured.
  • the process of FIG. 17 is started, for example, when it is detected that the person to be authenticated who is walking toward the gate has reached a predetermined point.
  • the distance from the camera 2 to the face of the person standing at this point is measured in advance, and the value representing the measured distance is stored in the storage unit 42 as the shooting distance data 22. It may be stored in advance.
  • processing is performed to acquire a captured image including a face area of a person, who is a subject, sent from the camera 2.
  • processing proceeds to S702. advances.
  • the focal length calculation process of S300 is performed.
  • This focal length calculation process is the same as the process of S300 in the flowchart of FIG. Note that in the process of S314 in FIG. 8 performed as the process of S300, the value of the shooting distance from the camera 2 to the subject is obtained from the shooting distance data 22 stored in the storage unit 42.
  • the motion amount calculation processing is performed in S400.
  • This motion amount calculation process is the same as the process of S400 in the flowchart of FIG.
  • the focal length value acquired in the process of S704 is converted to the focal length estimation by the process of S401 in FIG. 13 performed as the process of S400. obtained as a result.
  • the process of S400 is executed following the process of S300, the value calculated by the process of S300 is acquired as the focal length estimation result by the process of S401 in FIG. 13 performed as the process of S400. be done.
  • the processor 31 provides the function of the calculation unit 43 of FIG. 15 by executing the processes of S702 to S704 and the processes of S300 and S400.
  • S705 following the process of S400, a process of outputting the amount of motion calculated by the process of S400 to the face authentication device 3 as an estimation result of the facial posture of the person who is the subject is performed.
  • the processor 31 provides the function of the output unit 44 of FIG. 15 by executing the process of S705.
  • the face authentication device 3 Upon receiving the result of estimating the pose of the person's face, the face authentication device 3 corrects the pose of the image of the face appearing in the captured image received from the camera 2 based on the result of estimation, as described above. is performed, face authentication processing is executed, and the face authentication score is output as the execution result.
  • the face authentication score output by the face authentication device 3 is an index representing the probability that the person whose face is shown in the captured image is the person to be authenticated. do.
  • a process of acquiring the face authentication score output by the face authentication device 3 in accordance with the input of the estimation result of the person's face posture output in the process of S705 is performed.
  • the processor 31 provides the function of the acquisition unit 41 of FIG. 15 by executing the processing of S701 and the processing of S706 described above.
  • f0 is the value of the focal length before updating, that is, the value of the focal length used to calculate the motion amount in the motion amount calculation processing of S400 executed immediately before this processing (the processing of S704 or the value obtained in the process of S300).
  • t is the amount of translation among the amounts of motion calculated by the motion amount calculation process of S400 executed immediately before this process.
  • is a value obtained by normalizing the face authentication score, and has a value of 0.0 or more and 1.0 or less. For example, when the value of ⁇ is 1.0, the face authentication score indicates that the person to be authenticated is a complete person, and when the value of ⁇ is 0.0, the person to be authenticated is completely true. This is the case where the face authentication score indicates that the person is a different person.
  • the processor 31 provides the function of the update unit 45 of FIG. 15 by executing the processes of S707 and S708 described above.
  • the above processing is the third example of posture estimation processing. 6 operates as the focal length calculation device 4 of FIG. 15 by executing the processing of the third example by the processor 31, the focal length of the camera 2 is calculated with good accuracy, and the subject is It allows a good estimation of a person's pose.
  • Reference Signs List 1 4 focal length calculation device 2 camera 3 face authentication device 5 vein sensor 6 authentication system 11, 41 acquisition unit 12, 42 storage unit 13, 43 calculation unit 14, 44 output unit 15 change unit 20 storage information 21 model data 22 photographing Distance data 30 computer 31 processor 32 memory 33 storage device 34 reader 35 removable storage medium 36 communication interface 37 input/output interface 38 bus 45 update unit

Abstract

取得部は、カメラにより撮影された撮像画像を取得する。記憶部は、カメラから撮影対象までの撮影距離と、撮像画像における複数の特徴点のうちの2つの特徴点間の撮影対象についての標準の距離である第1距離とを記憶する。算出部は、当該2つの特徴点間の撮像画像における距離である第2距離を撮像画像から算出し、第1距離と第2距離と撮影距離とに基づいて、カメラの焦点距離を算出する。

Description

焦点距離算出装置、焦点距離算出方法、及び焦点距離算出プログラム
 本発明は、画像の分析の技術に関する。
 例えば顔認証において、頭部姿勢推定(HPE:Head Pose Estimation)は、正規化処理(顔姿勢の補正)、誘導(利用者に顔の向きを指示して、適切な向きにしてもらう処理)、姿勢判定等に利用される技術である。HPEは、認証精度や利便性の面で、顔認証において非常に重要な要素である。
 このHPEに関し、幾つかの技術が提案されている(例えば、非特許文献1及び特許文献1~特許文献3参照)。
 例えば、HPEを実現する手法として、顔のランドマークを用いて行う手法が提案されている。この提案では、顔の撮影画像から検出した顔のランドマーク(2次元)と、予め設定されている3次元の顔ランドマークモデルとの対応付けが行われ、この対応付けを利用して顔の姿勢(回転、平行移動)の算出が行われる。なお、顔の姿勢の算出にはOpenCV(Open Source Computer Vision Library)とDlibとが用いられている。OpenCV及びDlibは、どちらも、公開されているソフトウェアライブラリであり、画像処理や機械学習等の処理を行うためのものとして広く知られている。
 また、表示装置を目視する被験者の画像から、被験者が眼鏡レンズを通して表示装置を目視した場合の仮想的な視野の画像を作成する技術が知られている。この技術では、被験者の顔画像から抽出した特徴点を用いたHPEにより顔の向きを算出し、撮像素子の焦点面の縦横のサイズと焦点距離とから、撮像部から被験者までの距離を求めるという手法が用いられている。
 また、単眼カメラにより撮影された時系列の撮影画像を用いてHPEを行うという技術が知られている。この技術では、頭部の撮影画像における眼の間の距離と頭部モデルの平均眼幅との比率とカメラの焦点距離とにより特定した、カメラから頭部までの距離がHPEに用いられている。
 また、人物の画像から顔等の所定領域を認識する技術が知られている。この技術では、人物の撮影画像における顔の特徴点位置の間隔から推定した撮影部と顔との間の距離に応じて、当該特徴点位置より抽出した特徴量を更新し、更新後の特徴量と特徴量のデータベースとの比較による検索の結果に基づいた顔の認識が行われている。
国際公開第2019/138515号 米国特許出願公開第2021/0165999号明細書 特開2011-210030号公報
Satya Malick、"Head Pose Estimation using OpenCV and Dlib"、[online]、2016年9月26日、インターネット、<URL:https://learnopencv.com/head-pose-estimation-using-opencv-and-dlib>
 前述した顔のランドマークを用いて行うHPEにおいて、顔のランドマークと顔ランドマークモデルとの対応付けを行うためには、顔を撮影するカメラに用いられているレンズの焦点距離の値が必要となる。焦点距離は、カメラに用いられているレンズの仕様を調べれば分かる値ではあるが、一般的には、焦点距離を自動的に取得するような機構をカメラは備えていない。
 ここで、例えば、焦点距離として固定値を用いるようにするという手法が考えられるが、使用するカメラの焦点距離が常に想定していた値であるとは限らない。この焦点距離を自動的に、且つ、高精度に推定することができれば、利便性が向上し、高精度なHPEの利用が可能になる。
 1つの側面において、本発明は、焦点距離の算出精度を向上させることを目的とする。
 1つの案では、焦点距離算出装置は、取得部と記憶部と算出部とを備える。取得部は、カメラにより撮影された撮像画像を取得する。記憶部は、カメラから撮影対象までの撮影距離と、撮像画像における複数の特徴点のうちの2つの特徴点間の撮影対象についての標準の距離である第1距離とを記憶する。算出部は、当該2つの特徴点間の撮像画像における距離である第2距離を撮像画像から算出し、第1距離と第2距離と撮影距離とに基づいて、前記カメラの焦点距離を算出する。
 1つの側面によれば、焦点距離の算出精度を向上させることができる。
撮像画像と顔ランドマークモデルとの間でのランドマークの対応付けを説明する図(その1)である。 撮像画像と顔ランドマークモデルとの間でのランドマークの対応付けを説明する図(その2)である。 焦点距離の推定手法を説明する図である。 焦点距離算出装置の構成の第1の例を示す図である。 記憶部に記憶されている記憶情報の例である。 コンピュータのハードウェア構成例を示す図である。 姿勢推定処理の第1の例の処理内容を示したフローチャートである。 焦点距離算出処理の第1の例の処理内容を示したフローチャートである。 顔の撮像画像における横長さと縦長さとを説明する図である。 焦点距離算出処理の第2の例の処理内容の一部を示したフローチャートである。 焦点距離算出処理の第3の例の処理内容の一部を示したフローチャートである。 第1、第2、第3、及び第4の線分の長さを説明する図である。 動き量算出処理の処理内容を示したフローチャートである。 姿勢推定処理の第2の例の処理内容を示したフローチャートである。 焦点距離算出装置の構成の第2の例を示す図である。 図15の焦点距離算出装置の使用態様の一例を説明する図である。 姿勢推定処理の第3の例の処理内容を示したフローチャートである。
 以下、図面を参照しながら、実施形態を詳細に説明する。
 まず、本実施形態において用いる、顔ランドマークを用いて行うHPEについて説明する。この手法は、例えば、前掲した非特許文献1においても詳細に説明されている。
 この手法では、顔ランドマークモデルが予め用意される。このモデルは、人間の標準的な顔についての三次元形状モデルであって、顔におけるランドマークの三次元の位置情報をモデルデータとして有している。
 顔ランドマークを用いて行うHPEでは、まず、人物の顔をカメラで撮影して得られる撮像画像から、顔における特徴点がランドマークとして複数特定される。そして、特定したランドマークと、当該ランドマークの位置に対応する顔ランドマークモデル上の位置との対応付けが行われる。この対応付けについて、図1を用いて説明する。
 図1における左側のイラストは、撮像画像における顔領域の像の例を表している。この像に付されているX印は、顔領域の像から特定したランドマークの位置を表しており、左右の眼と、鼻と、左右の口角との5つをランドマークとして特定した様子を表している。矩形である撮像画像の縦方向と横方向として画像面に定義される二次元座標における、これらのランドマークのそれぞれの位置を表す座標が取得される。
 また、図1における右側のイラストは顔ランドマークモデルを表している。このイラストに付されている点は、左側のイラストにおいて特定されたランドマークのそれぞれに対応するモデル上の位置を表している。これらの各位置を表している三次元の位置情報が、顔ランドマークモデルのモデルデータから取得される。
 ここで、顔ランドマークモデルで表される顔の像をカメラで撮影することによって撮像画像が得られたとする。この場合、撮像画像上のランドマークの位置と、このランドマークに対応する顔ランドマークモデル上の位置との関係は、図2のように表すことができる。
 図2において、点Oは、UVWの各軸で表される三次元の世界座標系におけるカメラの位置を表している。この点Oを原点とするXYZの各軸で表される三次元の座標系はカメラ座標系などと称されている。
 また、点pは撮像画像上のランドマークの位置を表しており、点Pは、点pに対応する顔ランドマークモデル上の位置を表している。
 ここで、点Pの位置についての世界座標系の座標を(U,V,W)と表す。また、撮像画像の画像面に定義される二次元の座標系である、xyの各軸で表される二次元の画像座標系における、点pの位置についての座標を(x,y)と表す。なお、図2において撮像画像上に表されている点Cは、点Oの位置のカメラによって撮影される撮像画像の画像中心であり、画像座標系での点Cの位置の座標を(Cx,Cy)と表す。
 このとき、点pと点Pとの関係は下記の式で表されることが知られている。
Figure JPOXMLDOC01-appb-M000001
 この[数1]式における左辺の係数sは、全体のスケールを表す係数であって、スケールファクタなどと称されているものである。
 また、[数1]式における右辺の3つの行列のうちの1番目(左側)の行列及び2番目(中央)の行列は、それぞれ、カメラの内部パラメータ及び外部パラメータなどと称されているものである。
 内部パラメータはカメラ座標系と画像座標系との関係を表すものである。内部パラメータを表す行列の成分において、fはカメラの焦点距離を表している。なお、焦点距離の単位は一般的にはミリメートルであるが、[数1]式においては、fの値は画素数であり、その単位は「画素」(ピクセル)である。
 例えば、カメラに用いられている撮影素子における1画素に対応する長さ(矩形の撮影素子の1辺の長さを当該1辺に並ぶ画素数で除算した値)が分かればミリメートルからピクセルへの単位の変換は可能である。なお、ここでは、簡単のため、撮影素子における1画素に対応する長さは縦方向と横方向とで同一としている。
 外部パラメータは世界座標系とカメラ座標系との関係を表すものである。外部パラメータを表す行列の成分に関し、下記の式
Figure JPOXMLDOC01-appb-M000002
によって表されるR及びtは、実空間(世界)におけるカメラの動き量を表している。この動き量のうち、Rは回転量を表しており、tは並進量を表している。この動き量に従って世界座標系を移動させるとカメラ座標系に一致する。見方を変えると、この動き量は、撮像画像の人物の顔の姿勢についての顔ランドマークモデルの姿勢からの違いを表しており、これはすなわち、撮像画像の人物の顔の姿勢を表す姿勢情報となる。
 [数1]式は、撮像画像から特定した1つのランドマークと、顔ランドマークモデルにおける当該1つのランドマークに対応するランドマークとの間で成立する。従って、複数のランドマークのそれぞれについての位置情報を[数1]式に代入することによって、連立式が得られる。この連立式を外部パラメータについて解くことによって、姿勢情報が得られる。この連立式を解くための実際の演算では、DLT法(Direct Linear Transformation Method)と称されている広く知られている手法を利用した最小二乗法を採用することで、外部パラメータの推定が行われる。
 顔ランドマークを用いて行うHPEは以上のようにして行われる。従って、この手法を採用する場合には、カメラの内部パラメータである焦点距離を知る必要がある。しかしながら、例えば、HPEを利用して顔認証を行う顔認証装置において、使用するカメラの焦点距離を知るための作業は煩雑であり、諸元の不明なカメラを使用する場合もある。
 そこで、本実施形態では、本来はHPEのために用意されている顔ランドマークモデルのモデルデータを活用して、カメラにより撮影された撮像画像から当該カメラの焦点距離の推定を行う。この推定の手法について、図3を用いて説明する。
 図3において、右側はカメラ内部の世界を表しており、左側はカメラ外部の世界(被写体が実在する世界)を表している。図3における焦点距離fは、比例関係を利用した下記の式で算出可能である。
Figure JPOXMLDOC01-appb-M000003
 この[数3]式において、画像サイズHは、矩形である撮像画像の1辺(縦方向)に並ぶ画素列の画素数であり、この画素数を撮像画像から得ることは容易である。当該画素数を画像サイズの値として用いると、焦点距離fは「画素」(ピクセル)の単位で値が得られる。
 なお、撮像画像上の2つの特徴点の間の距離dと、被写体の位置において当該2つの特徴点にそれぞれ対応する2点間の距離d’との値を用いる下記の式を用いるようにしても、焦点距離fを算出することができる。
Figure JPOXMLDOC01-appb-M000004
 これらのどちらの式を用いる場合であっても、画像サイズH及び距離dは撮像画像から容易に得られるものの、撮影範囲L若しくは距離d’の値と撮影距離Zの値との2つの値が焦点距離fの算出には必要である。次に、これらの値の取得の手法について説明する。
 まず、撮像画像において、特定した複数のランドマークのうちから2つを選択し、この2つのランドマークの位置の間の距離(画素数)を取得する。例えば、当該2つのランドマークとして、被写体である人物の顔における左右の眼、あるいは左右の口角を選択すると、これらのランドマークはほぼ撮像画像の横方向に沿って並んでいるので、画素数の取得が容易である。このようにして取得される距離は、前掲した[数4]式における距離dである。
 次に、顔ランドマークモデルにおいて、上述の2つのランドマークの位置にそれぞれが対応する2つの点についてのモデルデータを用いて、当該2つの点の間の距離を、例えばミリメートル単位で算出する。このようにして取得される距離は、前掲した[数4]式における距離d’である。
 なお、[数3]式を用いる場合には、距離d’を距離dで除算することによって被写体の位置での撮像画像の1画素に相当する長さを算出し、算出された値に画像サイズHを乗算することによって、画像サイズHに対応する撮影範囲Lを取得することができる。
 次に、撮影距離Zの取得の手法について、ここでは2つの手法を説明する。
 まず、第1の手法は、撮影距離の値を予め設定しておくというものである。例えば、HPEを利用する顔認証機能をラップトップ型のパーソナルコンピュータに搭載する場合であれば、コンピュータが備えているカメラと当該コンピュータのユーザとの間の距離として一定の値が推定可能である。このように、顔認証機能の利用シーンにより撮影距離の値が凡そ定まるような場合には、この値を予め用意しておいて、焦点距離を算出する場合に用いるようにする。
 次に、第2の手法は、撮影距離の値を仮定して焦点距離の推定を行い、得られた推定値を用いてHPEを実行し、HPEの実行結果を利用して仮定の妥当性を検証するというものである。
 前述したように、顔ランドマークを用いて行うHPEでは、姿勢情報である動き量として、回転量と並進量とが得られる。このうちの並進量の値は、焦点距離の推定に用いる撮影距離の値と一致すると考えられる。そこで、HPEの実行結果として得られる並進量と撮影距離の仮定値とを比較することで、撮影距離の仮定の妥当性を検証することができる。例えば、ここで並進量と撮影距離の仮定値との差が判断閾値よりも大きい場合には、撮影距離の仮定値を変更して、再度、焦点距離の推定と当該推定値を用いるHPEとを行うようにしてもよい。
 なお、上述した2つの手法の他にも、例えば、距離センサを備えるカメラにより、被写体の撮影と共に、撮影距離を計測するようにしてもよい。また、カメラの撮影に連動するようにカメラと接続された距離センサにより、撮影距離を計測するようにしてもよい。
 本実施形態では、このような手法を用いて取得した撮影距離の値を用いて焦点距離の値の推定を行い、この推定結果を用いて前述したHPEを行う。
 また、焦点距離の値を推定する別の手法として、焦点距離に初期値を一旦設定した上でHPEを利用する顔認証処理を開始し、顔認証処理の結果に基づいて焦点距離を逐次更新するという手法がある。顔認証処理では、撮像画像に顔が映っている人物が認証対象者の本人であることの確からしさを表す顔認証スコアが処理結果として得られる。このスコアは、HPEで用いた焦点距離の値が真の値に近くなるほど高い値となり、真の値から遠くなるほど低い値となると推定される。そこで、このスコアを焦点距離の値の更新処理における重みとして利用することで、より精度の高い焦点距離の推定値を得ることを可能にする。
 次に、顔ランドマークを用いてHPEを行う焦点距離算出装置の構成について説明する。
 図4は、焦点距離算出装置の構成の第1の例を示している。この焦点距離算出装置1は、人物の顔の姿勢を推定する姿勢推定装置としての機能も有している。
 焦点距離算出装置1にはカメラ2が接続される。カメラ2は、被写体である人物の顔を撮影して、当該人物の顔領域を含む撮像画像を出力する。
 焦点距離算出装置1は、構成要素として、取得部11、記憶部12、算出部13、及び出力部14を備えている。
 取得部11は、カメラ2から出力される撮像画像を取得する。
 記憶部12は、顔ランドマークモデルのモデルデータと、カメラ2から被写体までの撮影距離の値とを記憶している。
 図5は、記憶部12に記憶されている記憶情報20の例を示している。この例では、各ランドマークについてのモデル上での位置を表す画像座標系における三次元座標と、撮影距離の値とが、モデルデータ21及び撮影距離データ22として、それぞれ示されている。なお、図5では、左眼、右眼、鼻、左側口角、及び右側口角が、ランドマークとして例示されている。
 なお、モデル上の各ランドマークのうちの2つの位置の間の距離は、それぞれのランドマークについての三次元座標に基づいて容易に算出可能であるが、この距離を予め求めておいて記憶部12に記憶させておき、必要に応じて使用するようにしてもよい。
 算出部13は、モデル上の各ランドマークのうちの2つの位置の間の距離、例えば、モデル上の左眼と右眼との位置の間の距離を、第1距離として取得する。また、算出部13は、撮像画像に含まれる顔領域における当該2つのランドマークにそれぞれ対応する2つの位置の間の撮像画像上の距離(画素数)、例えば左眼と右眼との位置の間の撮像画像上の距離を、第2距離として、撮像画像から算出する。算出部13は、このようにして得られた第1距離及び第2距離と、記憶部12から読み出すことによって得られる撮影距離データ22とに基づいて、カメラ2の焦点距離を算出する。算出部13により算出される焦点距離が、カメラ2の焦点距離の推定結果となる。
 なお、この焦点距離の算出は、前掲した[数4]式におけるd’及びdに第1距離及び第2距離をそれぞれ代入し、Zに撮影距離を代入して計算することによって行われる。すなわち、焦点距離は、撮影距離と第1距離とを乗算した値を第2距離で除算することによって算出される。
 算出部13は、また、上述したようにして算出した焦点距離と、記憶部12に記憶されているモデルデータ21とを用いて、取得部11が取得した撮像画像における被写体である人物の顔の姿勢を算出する。
 算出部13は、撮像画像の各ランドマークと顔ランドマークモデルとで対応しているそれぞれの位置について、ランドマークの位置を表す二次元座標と、モデル上の位置を表す三次元座標とを、焦点距離の推定値と共に[数1]式に代入して関係式を作成する。なお、この関係式において、撮像画像の画像中心を表す座標(Cx,Cy)は撮像画像から求めて代入する。
 算出部13は、上述したようにして作成される関係式の連立式を、DLT法を用いて解くことによって、前掲した[数2]式により表される動き量を、顔の姿勢の推定結果として求める。
 出力部14は、以上のようにして算出部13によって算出される、焦点距離の推定結果と顔の姿勢の推定結果とを出力する。
 なお、詳細は後述するが、焦点距離算出装置1が変更部15を構成要素として更に備えるようにしてもよい。
 変更部15は、算出部13により算出される、顔の姿勢の推定結果としての動き量と、カメラ2の焦点距離の推定に用いた撮影距離の値との差を所定の閾値と比較する。ここで、当該差が当該所定の閾値を超える場合には、記憶部12に記憶されている撮影距離データ22が適切ではないと判断して、この値を変更する。この値が変更された場合には、算出部13は、前述した第1距離及び第2距離と、変更後の撮影距離の値とに基づいて、カメラ2の焦点距離の算出を改めて行い、算出された焦点距離を用いて顔の姿勢の推定を改めて行う。
 なお、図4の焦点距離算出装置1を、コンピュータとソフトウェアとの組合せにより構成するようにしてもよい。
 図6はコンピュータ30のハードウェア構成例を示している。
 コンピュータ30は、構成要素として、例えば、プロセッサ31、メモリ32、記憶装置33、読取装置34、通信インタフェース36、及び入出力インタフェース37の各ハードウェアを備えている。これらの構成要素はバス38を介して接続されており、構成要素間で相互にデータの授受を行える。
 プロセッサ31は、例えば、シングルプロセッサであっても、マルチプロセッサ及びマルチコアであってもよい。プロセッサ31は、メモリ32を利用して、例えば、後述する姿勢推定処理の手順を記述した姿勢推定処理プログラムを実行する。
 メモリ32は、例えば半導体メモリであり、RAM領域及びROM領域を含んでよい。記憶装置33は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、または外部記憶装置である。なお、RAMは、Random Access Memoryの略称である。また、ROMは、Read Only Memoryの略称である。
 読取装置34は、プロセッサ31の指示に従って着脱可能記憶媒体35にアクセスする。着脱可能記憶媒体35は、例えば、半導体デバイス(USBメモリ等)、磁気的作用により情報が入出力される媒体(磁気ディスク等)、光学的作用により情報が入出力される媒体(CD-ROM、DVD等)などにより実現される。なお、USBは、Universal Serial Busの略称である。CDは、Compact Discの略称である。DVDは、Digital Versatile Diskの略称である。
 通信インタフェース36は、例えば、プロセッサ31の指示に従って通信ネットワーク(不図示)を介してデータを送受信する。
 入出力インタフェース37は、カメラ2から送られてくる撮像画像の画像データ等の各種のデータを取得する。また、入出力インタフェース37は、プロセッサ31から出力される、後述の姿勢推定処理の結果を出力する。
 このコンピュータ30のプロセッサ31により実行されるプログラムは、例えば、下記の形態で提供される。
(1)記憶装置33に予めインストールされている。
(2)着脱可能記憶媒体35により提供される。
(3)プログラムサーバなどのサーバから通信ネットワークを介して通信インタフェース36へ提供される。
 なお、コンピュータ30のハードウェア構成は、例示であり、実施形態はこれに限定されるものではない。例えば、上述の機能部の一部または全部の機能がFPGA及びSoCなどによるハードウェアとして実装されてもよい。なお、FPGAは、Field Programmable Gate Arrayの略称である。SoCは、System-on-a-chipの略称である。
 次に、図4の焦点距離算出装置1により行われる姿勢推定処理について説明する。
 図6のコンピュータ30とソフトウェアとの組合せにより図4の焦点距離算出装置1を構成する場合には、これより説明する姿勢推定処理の第1の例を記述した姿勢推定プログラムをプロセッサ31に実行させるようにする。
 図7は、姿勢推定処理の第1の例の処理内容を示したフローチャートである。
 図7において、まず、S100では、カメラ2により撮影された、被写体である人物の顔領域を含む撮像画像を取得する処理が行われる。なお、本実施形態では、撮像画像の外周は横長の矩形であるとする。以降の説明では、この矩形の長辺の方向を撮像画像の横方向とする。また、この矩形の短辺の方向(撮像画像の横方向に直交する方向)を撮像画像の縦方向として、撮像画像に表されている人物の頭部の方向を撮像画像の上方向とし、当該人物の胴体の方向を撮像画像の下方向とする。プロセッサ31は、このS100の処理を実行することで、図4の取得部11の機能を提供する。
 次に、S200において、S100の処理により取得された撮像画像から各ランドマークを検出する処理が行われる。前述したOpenCVやDlibには顔の画像から各ランドマークを検出するソフトウェアが用意されており、S200の処理では、例えばこのソフトウェアを利用して検出を行う。この処理により検出される各ランドマークは、撮像画像における複数の特徴点の一例である。
 次に、S300において、焦点距離算出処理が行われる。この処理はカメラ2の焦点距離の推定値を前述したようにして算出する処理であり、処理の詳細については後述する。
 次に、S400において、動き量算出処理が行われる。この処理は、撮像画像とランドマークモデルのモデルデータ21とを用いて、カメラ座標系についての世界座標系からの動き量を前述したようにして算出する処理であり、この処理の詳細についても後述する。
 プロセッサ31は、これらのS200、S300、及びS400の処理を実行することで、図4の算出部13の機能を提供する。
 次に、S500において、S400の処理により算出された動き量を、被写体である人物の顔の姿勢の推定結果として出力する処理が行われる。また、この処理では、必要に応じて、カメラ2の焦点距離の推定結果として、S300の処理により算出された焦点距離を出力する処理も行われる。プロセッサ31は、このS500の処理を実行することで、図4の出力部14の機能を提供する。
 S500の処理を終えると、姿勢推定処理が終了する。
 次に、図7においてS300として表されている焦点距離算出処理の詳細について説明する。
 図8は、焦点距離算出処理の第1の例の処理内容を示したフローチャートである。
 図8において、まず、S311では、図7のS200の処理により検出されたランドマークのうちからランドマークを2つ抽出する処理が行われる。この第1の例では、抽出対象とする2つのランドマークを選択する手法は任意のものでよい。
 次に、S312において、S311の処理により抽出した2つのランドマークにそれぞれ対応するモデルデータ21が表す2つの位置の間の距離を、当該2つの位置の間の標準の距離である第1距離として取得する処理が行われる。この第1距離の取得は、例えば、2つのモデルデータ21がそれぞれ表す位置の座標を用いて算出することによって行われる。この代わりに、各モデルデータ21が表す位置の間の距離のデータを予め記憶部12に記憶させておき、このS202の処理において、該当するデータを記憶部12から読み出すことで第1距離を取得するようにしてもよい。
 次に、S313において、S311の処理により抽出した2つのランドマークの位置の間の撮像画像上での距離(画素数)を、第2距離として、図7のS100の処理により取得した撮像画像から取得する処理が行われる。
 次に、S314において、記憶部12に撮影距離データ22として値が記憶されている、図7のS100の処理により取得した撮像画像の撮影時におけるカメラ2から被写体までの撮影距離を取得する処理が行われる。
 次に、S315において、上述したS312からS314までの処理により得られた、第1距離、第2距離、及び撮影距離を用いて、焦点距離を算出する処理が行われる。この焦点距離の算出は、前掲した第1距離、第2距離、及び撮影距離の各値を、[数4]式のd’、d、及びZにそれぞれ代入して計算することによって行われる。
 次に、S316において、S315の処理により算出された焦点距離を、焦点距離の推定結果として出力部14に出力する処理が行われる。
 S316の処理を終えると、焦点距離算出処理が終了し、プロセッサ31は、図7の姿勢推定処理へと処理を戻す。
 以上までの処理が焦点距離算出処理の第1の例である。
 次に、焦点距離算出処理の第2の例について説明する。
 この第2の例は、図8にフローチャートで示した第1の例の処理におけるS311の処理を変更するものである。
 顔ランドマークモデルのモデルデータ21として用意される、左眼及び右眼の位置、及び、左側と右側とのそれぞれの口角の位置から、左眼と右眼とのそれぞれの位置の間の標準の距離、及び、左側と右側とのそれぞれの口角の位置の間の標準の距離が得られる。また、当該モデルデータ21として用意される、左眼及び右眼の位置、及び、左側と右側とのそれぞれの口角の位置から、左眼と左側の口角とのそれぞれの位置の間の標準の距離、及び、右眼と右側の口角とのそれぞれの位置の間の距離が得られる。この第2の例は、これらの4つの標準の距離が等しい場合、若しくは、ほぼ等しい場合に特に有効である。
 カメラ2により得られた撮像画像に映っている人物の顔が正面を向いていない場合がある。例えば、撮像画像に映っている顔が横を向いている場合には、撮像画像上に横に並ぶ2つのランドマークの位置の間隔は、撮像画像に映っている顔が正面を向いている場合の当該間隔よりも詰まってしまう。一方、撮像画像に映っている顔が横を向いている場合であっても、撮像画像上に縦に並ぶ2つのランドマークの位置の間隔は、撮像画像に映っている顔が正面を向いている場合の当該間隔から殆ど変化しない。また、例えば、撮像画像に映っている顔が上若しくは下を向いている場合には、撮像画像上に縦に並ぶ2つのランドマークの位置の間隔は、撮像画像に映っている顔が正面を向いている場合の間隔よりも詰まってしまう。一方、撮像画像に映っている顔が上若しくは下を向いている場合であっても、撮像画像上に横に並ぶ2つのランドマークの位置の間隔は、撮像画像に映っている顔が正面を向いている場合の間隔から殆ど変化しない。
 そこで、撮像画像上に横に並ぶ2つのランドマークの位置の間隔と、撮像画像上に縦に並ぶ2つのランドマークの位置の間隔との比較が行われる。ここで、横に並ぶ当該位置の間隔が縦に並ぶ当該位置の間隔よりも広い場合には、当該横に並ぶ2つのランドマークを、焦点距離の算出のために抽出するランドマークとして選択するようにする。また、縦に並ぶ当該位置の間隔が横に並ぶ当該位置の間隔よりも広い場合には、当該縦に並ぶ2つのランドマークを、焦点距離の算出のために抽出するランドマークとして選択するようにする。第2の例では、このようにして、撮像画像に映っている顔の向きが焦点距離の推定に及ぼす影響の軽減を試みる。
 第2の例では、まず、撮像画像から検出したランドマークの位置を表す情報に基づいて、横長さと縦長さという2つの長さを求める。
 この横長さと縦長さとについて、図9を用いて説明する。
 横長さとは、撮像画像において横方向に並ぶ2つのランドマークのそれぞれの位置の間の距離である。図9の撮像画像例では、例えば、左眼と右眼とのそれぞれの位置の間の距離、若しくは、左側と右側とのそれぞれの口角の位置の間の距離が横長さである。
 また、縦長さとは、撮像画像において縦方向に並ぶ2つのランドマークのそれぞれの位置の間の距離である。図9の撮像画像例では、例えば、左眼と左側の口角とのそれぞれの位置の間の距離、若しくは、右眼と右側の口角とのそれぞれの位置の間の距離が縦長さである。
 第2の例では、この横長さと縦長さとの比較を行う。
 例えば、撮像画像に映っている顔が横を向いている場合、横長さは顔が正面を向いている場合よりも短くなるように見える一方、縦長さは顔が正面を向いている場合と大差なく見える。また、例えば、撮像画像に映っている顔が上若しくは下を向いている場合、横長さは顔が正面を向いている場合と大差なく見える一方、縦長さは顔が正面を向いている場合よりも短くなるように見える。
 第2の例では、横長さが縦長さよりも長い場合には、横長さの定義に用いられるランドマークのペア、すなわち、例えば、左眼と右眼とのペア若しくは左側と右側とのそれぞれの口角のペアを、撮像画像から検出されたランドマークからの抽出対象とする。一方、縦長さが横長さよりも長い場合には、縦長さの定義に用いられるランドマークのペア、すなわち、例えば、左眼と左側の口角とのペア若しくは右眼と右側の口角とペアを、撮像画像から検出されたランドマークから抽出する対象とする。このようにすることで、撮像画像に映っている顔の向きが焦点距離の推定に及ぼす影響が軽減される。
 ここで図10について説明する。図10は、焦点距離算出処理の第2の例の処理内容の一部を示したフローチャートである。
 焦点距離算出処理の第2の例の処理の全体は、図8に示した第1の例のフローチャートにおけるS311の処理を、図10のフローチャートで示される処理に置き換えたものである。
 図10において、まず、S321では、S100の処理により取得された撮像画像上での、顔の像における左右の両眼それぞれの位置を表す座標を取得する処理が行われる。この左右の両眼それぞれの位置は、撮像画像における複数の特徴点のうちの第1及び第2の特徴点の一例である。
 次に、S322において、撮像画像上での、顔の像における左側若しくは右側の口角の位置を表す座標を取得する処理が行われる。この処理により取得される座標が表す位置は、撮像画像における複数の特徴点のうちの第3の特徴点の一例である。
 次に、S323において、S321の処理により取得した座標間の距離、すなわち、撮像画像上での、顔の像における左右の両眼それぞれの位置の間の距離を、横長さとして算出する処理が行われる。
 次に、S324において、S322の処理により座標を取得した口角の位置と、S321の処理により座標を取得した左右の両眼のうちで当該口角と同じ側の眼の位置とについての、撮像画像上での距離を、縦長さとして算出する処理が行われる。
 次に、S325において、S323の処理で算出した横長さとS324の処理で算出した縦長さとの大小を比較し、横長さが縦長さよりも長いか否かを判定する処理が行われる。この判定処理において、横長さが縦長さよりも長いと判定された場合(判定結果がYESの場合)にはS326に処理が進み、横長さが縦長さよりも長くはないと判定された場合(判定結果がNOの場合)にはS327に処理が進む。
 S326では、S323の処理において横長さとして距離を算出した左右の両眼を、抽出対象である2つのランドマークとして、図7のS200の処理により検出されたランドマークのうちから、抽出する処理が行われる。
 一方、S327では、S324の処理において縦長さとして距離を算出した、左右のうちの同じ側の片眼と口角とを、抽出対象である2つのランドマークとして、図7のS200の処理により検出されたランドマークのうちから、抽出する処理が行われる。
 上述したS326及びS327のどちらかの処理を終えると、その後は図8のS312に処理が進む。その後、図8のS316までの処理を終えると、焦点距離算出処理が終了し、プロセッサ31は、図7の姿勢推定処理へと処理を戻す。
 上述したS325からS327までの処理は、第1及び第2の特徴点のペアと第1及び第3の特徴点のペアとのうち、撮像画像における特徴点間の距離が長い方のペアを、撮像画像の複数の特徴点から抽出する2つの特徴点として選択する処理の一例である。
 以上までの処理が焦点距離算出処理の第2の例である。
 なお、図10のS321の処理において、撮像画像上での、顔の像における左側と右側とのそれぞれの口角の位置を表す座標を取得するようにしてもよい。但し、このようにする場合には、S322の処理では、撮像画像上での、顔の像における左眼若しくは右眼の位置を表す座標を取得する処理を行うようにする。そして、S323の処理では、撮像画像上での、顔の像における左側と右側とのそれぞれの口角の位置の間の距離を、横長さとして算出するようにする。また、S324の処理では、S322の処理により座標を取得した片眼の位置と、S321の処理により座標を取得した口角のうちで当該片眼と同じ側の口角の位置とについての、撮像画像上での距離を、縦長さとして算出するようにする。そして、S326の処理では、S323の処理において横長さとして距離を算出した左側と右側とのそれぞれの口角を、抽出対象である2つのランドマークとして、図7のS200の処理により検出されたランドマークのうちから、抽出するようにする。
 次に、焦点距離算出処理の第3の例について説明する。
 この第3の例も、第2の例と同様に、図8にフローチャートで示した第1の例の処理におけるS311の処理を変更するものである。第3の例は、前述した第2の例で前提としていた4つの標準の距離がほぼ等しいとはいえない場合も含めて、撮像画像に映っている顔の向きが焦点距離の推定に及ぼす影響を軽減可能とするものである。
 図11について説明する。図11は、焦点距離算出処理の第3の例の処理内容の一部を示したフローチャートである。
 焦点距離算出処理の第3の例のフローチャートの全体は、図8に示した第1の例のフローチャートにおけるS311の処理を、図11のフローチャートに置き換えたものである。
 図11において、まず、S331では、第1、第2、第3、及び第4の線分の長さをそれぞれ算出する処理が行われる。この4つの線分の長さについて、図12を参照しながら説明する。
 図12に表されているように、第1の線分の長さとは、モデルデータ21により表される人物の左右の両眼の位置を結ぶ線分の長さであり、第2の線分の長さとは、モデルデータ21により表される人物の左側及び右側の口角の位置を結ぶ線分の長さである。また、第3の線分の長さとは、モデルデータ21により表される人物の左眼の位置と左側の口角の位置とを結ぶ線分の長さであり、第4の線分の長さとは、モデルデータ21により表される人物の右眼の位置と右側の口角の位置とを結ぶ線分の長さである。
 これらの4つの線分の長さは、モデルデータ21で表される、人物の左右の両眼の位置と左側及び右側の口角の位置とのそれぞれについての座標から算出可能である。S331の処理では、これらの座標を用いて、4つの線分の長さの算出が行われる。
 なお、これら4つの線分の長さを予め算出して記憶部12に記憶させておくようにし、S331の処理では、これら4つの線分の長さを記憶部12から読み出して取得するようにしてもよい。
 図11において、S331に続くS332では、S100の処理により取得された撮像画像上での、上述した第1、第2、第3、及び第4の線分にそれぞれ対応する画素列の画素数を取得する処理が行われる。
 次に、S333において、S331の処理により得られた4つの線分の長さと、S332の処理により得られた4つの画素列の画素数とを用いて、第1の長さと第2の長さとを算出する処理が行われる。
 ここで、第1の長さとは、撮像画像における第1の方向(例えば横方向)に対応する撮影対象での方向においての撮像画像の1画素に相当する撮影対象での長さである。また、第2の長さとは、撮像画像における第1の方向とは異なる第2の方向(例えば縦方向)に対応する撮影対象での方向においての撮像画像の1画素に相当する撮影対象での長さである。
 S333の処理では、まず、第1の線分の長さを、撮像画像における第1の線分の長さに対応する画素列の画素数で除算した値と、第2の線分の長さを、撮像画像における第2の線分の長さに対応する画素列の画素数で除算した値との平均値が算出される。この平均値が第1の長さとされる。
 また、S333の処理では、第3の線分の長さを、撮像画像における第3の線分の長さに対応する画素列の画素数で除算した値と、第4の線分の長さを、撮像画像における第4の線分の長さに対応する画素列の画素数で除算した値との平均値が算出される。この平均値が第2の長さとされる。
 次に、S334において、S333の処理により算出した第1の長さと第2の長さとの大小を比較し、第1の長さが第2の長さよりも長いか否かを判定する処理が行われる。この判定処理において、第1の長さが第2の長さよりも長いと判定された場合(判定結果がYESの場合)にはS335に処理が進み、第1の長さが第2の長さよりも長くはないと判定された場合(判定結果がNOの場合)にはS336に処理が進む。
 S335では、左右の両眼を、若しくは、左右両側の口角を、抽出対象である2つのランドマークとして、図7のS200の処理により検出されたランドマークのうちから、抽出する処理が行われる。
 一方、S336では、左眼と左側の口角とを、若しくは、右眼と右側の口角とを、抽出対象である2つのランドマークとして、図7のS200の処理により検出されたランドマークのうちから、抽出する処理が行われる。
 第1の長さが第2の長さよりも長い場合とは、撮像画像の1画素に相当する撮影対象での長さが、第1の方向(横方向)の方が第2の方向(縦方向)よりも長い場合である。この場合、撮像画像の顔は、第2の方向を向いており、正面を向いている場合よりも第2の方向の実際の長さが詰まっていると推定される。この場合には、撮像画像の顔が第2の方向を向いていることによる影響を受け難い、第1の方向に並んでいる2つのランドマークを、図7のS200の処理により検出されたランドマークのうちから抽出するようにする。すなわち、S335の処理では、撮像画像において横方向に並んでいる、左右の両眼、若しくは、左右両側の口角を、抽出対象の2つのランドマークとする。
 一方、第2の長さが第1の長さよりも長い場合とは、撮像画像の1画素に相当する撮影対象での長さが、第2の方向(縦方向)の方が第1の方向(横方向)よりも長い場合である。この場合、撮像画像の顔は、第1の方向を向いており、正面を向いている場合よりも第1の方向の実際の長さが詰まっていると推定される。この場合には、撮像画像の顔が第1の方向を向いていることによる影響を受け難い、第2の方向に並んでいる2つのランドマークを、図7のS200の処理により検出されたランドマークのうちから抽出するようにする。すなわち、S336の処理では、撮像画像において縦方向に並んでいる、左眼と左側の口角とを、若しくは、右眼と右側の口角とを、抽出対象の2つのランドマークとする。
 上述したS335とS336とのどちらかの処理を終えると、その後は図8のS312に処理が進む。その後、図8のS316までの処理を終えると、焦点距離算出処理が終了し、プロセッサ31は、図7の姿勢推定処理へと処理を戻す。
 以上までの処理が焦点距離算出処理の第3の例である。
 次に、図7においてS400として表されている動き量算出処理の詳細について説明する。
 図13は、動き量算出処理の処理内容を示すフローチャートである。
 図13において、まず、S401では、図7のS300の処理により算出された焦点距離、すなわち、カメラ2の焦点距離の推定結果を取得する処理が行われる。
 次に、S402において、撮像画像の画像中心についての撮像画像上での位置を表す座標を撮像画像から取得する処理が行われる。
 次に、S403において、図7のS200の処理により検出した各ランドマークについての、撮像画像上での位置を表す座標を、撮像画像から取得する処理が行われる。
 次に、S404において、図7のS200の処理により検出した各ランドマークにそれぞれ対応している顔ランドマークモデルの位置を表す座標を、記憶部12に記憶されているモデルデータ21から取得する処理が行われる。
 次に、S405において、図7のS200の処理により検出した各ランドマークについて、撮像画像上の位置を表す座標とモデル上の位置を表す座標との関係式を作成する処理が行われる。
 このS405の処理では、まず、前掲した[数1]式において、S401の処理で取得した焦点距離の値をfに代入し、S402の処理で取得した画像中心の座標をCx及びCyにそれぞれ代入する。次に、これらの値を代入した[数1]式について、ランドマーク毎のS403の処理で取得した座標とS404の処理で取得した座標とを、それぞれ、x及びyと、U、V、及びWとに代入することによって、ランドマーク毎の関係式を作成する。
 次に、S406において、S405の処理により作成した関係式の連立式を、前述したDLT法を用いて解くことによって、動き量([数2]式に示した回転量R及び並進量t)を、撮像画像における人物の顔の姿勢の結果として算出する処理が行われる。
 S406の処理を終えると、動き量算出処理が終了し、プロセッサ31は、図7の姿勢推定処理へと処理を戻す。
 以上までの処理が動き量算出処理である。
 以上の姿勢推定処理の第1の例をプロセッサ31が実行することによって、図6のコンピュータ30が図4の焦点距離算出装置1として動作し、カメラ2の焦点距離の良好な精度での算出と、被写体である人の姿勢についての良好な推定とを可能にする。
 次に、姿勢推定処理の第2の例について説明する。
 この第2の例は、前述した撮影距離の取得の第2の手法を採用して、カメラ2の焦点距離の算出と、被写体である人の姿勢についての推定とを行うものである。
 図14は、姿勢推定処理の第2の例の処理内容を示したフローチャートである。
 このフローチャートで示されている処理のうち、図7に示した第1の例についてのフローチャートで示されているものと同一の処理については、図7と同一の符号を付している。これらの同一の符号を付した処理については説明を省略する。
 図14に示した第2の例の処理は、図7に示した第1の例の処理に、S601からS603までの各処理が追加されたものとなっている。
 図14において、S601の処理は、S100からS400までの各処理を終えると開始される。
 S601において、S400の処理により算出された動き量のうちの並進量の大きさ(ベクトルの大きさ)と、S300の処理として実行される、図8のS314の処理により記憶部12から取得した撮影距離データ22の値との差の値を算出する処理が行われる。
 次に、S602において、S601の処理により算出した差の値が、予め定められている閾値(例えば、記憶部12に予め記憶されている撮影距離データ22の値の10パーセントの値)よりも大きいか否かを判定する処理が行われる。この判定処理において、算出した差の値が閾値よりも大きいと判定した場合(判定結果がYESのとき)には、S603に処理を進める。一方、この判定処理において、算出した差の値が閾値よりも大きくはないと判定した場合(判定結果がNOのとき)には、S500に処理を進める。
 S603では、記憶部12に撮影距離データ22として記憶されている撮影距離の値を、S601の処理により算出した差の値に応じて変更する処理が行われる。この処理による撮影距離の値の変更量は、差の値が大きいほど大きくし、差の値が小さいほど小さくしてもよい。
 S603の処理を終えた後にはS300に処理を戻して、変更後の撮影距離の値を用いて焦点距離推定処理が行われる。
 プロセッサ31は、これらのS601、S602、及びS603の処理を実行することで、図4の変更部15の機能を提供する。
 S500では、図7に示した第1の例におけるものと同様に、S400の処理により算出された動き量を、被写体である人物の顔の姿勢の推定結果として出力する処理が行われる。
 以上までの処理が姿勢推定処理の第2の例である。
 なお、図14のS603の処理において、撮影距離の値を増加させるか減少させるかは、例えば、その後に実行されるS400の動き量算出処理によって得られる並進量の大きさと撮影距離の値との差の値の変化の傾向に応じて決定するようにする。例えば、撮影距離の値を増加させた場合に当該差の値が増加した場合には、その後のS603の処理では撮影距離の値を減少させるようにする。また、例えば、撮影距離の値を減少させた場合に当該差の値が増加した場合には、その後のS603の処理では撮影距離の値を増加させるようにする。
 以上の姿勢推定処理の第2の例をプロセッサ31が実行することによっても、図6のコンピュータ30が図4の焦点距離算出装置1として動作し、カメラ2の焦点距離の良好な精度での算出と、被写体である人の姿勢についての良好な推定とを可能にする。
 次に、顔ランドマークを用いてHPEを行う焦点距離算出装置の別の構成について説明する。
 図15は、焦点距離算出装置の構成の第2の例を示している。この焦点距離算出装置4も、図4に構成を示した焦点距離算出装置1と同様に、人物の顔の姿勢を推定する姿勢推定装置としての機能も有している。
 この焦点距離算出装置4にはカメラ2と顔認証装置3とが接続される。
 カメラ2は、図4に示した焦点距離算出装置1に接続されるものと同様に、被写体である人物の顔を撮影して、当該人物の顔領域を含む撮像画像を出力する。なお、この第2の例では、カメラ2は、一定の時間間隔毎に撮影を行うものとする。
 焦点距離算出装置4は、構成要素として、取得部41、記憶部42、算出部43、出力部44、及び更新部45を備えている。
 取得部41は、カメラ2が撮影を行う度にカメラ2から出力される、カメラ2により撮影された、被写体である人物の顔領域を含む撮像画像を取得する。
 記憶部42は、顔ランドマークモデルのモデルデータ21と、カメラ2から被写体までの撮影距離データ22とを、図4に示した記憶部12と同様に記憶している。
 算出部43は、図4に示した算出部13と同様にして、第1距離及び第2距離を取得し、取得した第1距離及び第2距離と、記憶部42から得られる撮影距離データ22の値とに基づいて、カメラ2の焦点距離を、推定結果として算出する。また、算出部43は、図4に示した算出部13と同様にして、前掲した[数2]式により表される動き量を、顔の姿勢の推定結果として求める。
 出力部44は、図4に示した出力部14と同様に、算出部43により算出される、焦点距離の推定結果と顔の姿勢の推定結果とを出力する。
 顔認証装置3は、焦点距離算出装置4から出力される顔の姿勢の推定結果に基づき、カメラ2から出力される撮像画像に映っている顔の像に対して姿勢の補正を行う。顔認証装置3は、この補正後の顔の像に対して顔認証処理を実行して、前述した顔認証スコアを実行結果として出力する。
 焦点距離算出装置4の取得部41は、更に、顔認証装置3から出力される顔認証スコアの取得も行う。
 焦点距離算出装置4の更新部45は、取得部41が取得した顔認証スコアに基づいて、カメラ2から被写体までの撮影距離の値を更新する。
 焦点距離算出装置4の算出部43は、更新部45が撮影距離の値を更新した後に動き量を求める場合には、当該更新後の値を用いて行う。
 ここで、図15に示した焦点距離算出装置4の使用態様の一例について、図16を参照しながら説明する。この態様はゲート入退出の管理における使用態様である。
 この使用態様では、まず、ゲートに向かって歩行している認証対象者をカメラ2が撮影して得られた撮像画像を用いて顔認証処理を認証システム6が繰り返し実行することによって、データベースに多数蓄積されている本人情報の絞り込みを行う。続いて、ゲートに到達した認証対象者に対する掌静脈認証処理を、静脈センサ5を用いて認証システム6が実施して、絞り込みがされた本人情報のいずれかに認証対象者が該当するか否かを判定し、該当すると判定した場合に認証システム6がゲートを開放する。
 図15の顔認証装置3と焦点距離算出装置4とは認証システム6に備えられている。認証システム6により実行される顔認証処理は、これらの装置によって行われる。この使用態様では、焦点距離算出装置4は歩行中の認証対象者に対する顔認証処理を行うことから、カメラ2から認証対象者(被写体)までの撮影距離は刻々と変化するため、撮影距離を事前に想定することは困難である。
 そこで、焦点距離算出装置4は、記憶部42に撮影距離データ22として事前に記憶されている撮影距離の値を初期値として用いて焦点距離の算出と、算出した焦点距離を用いた顔の姿勢の推定とを行う。顔認証装置3は、焦点距離算出装置4による顔の姿勢の推定結果に基づいて撮像画像に映っている顔の像に対して姿勢の補正を行った上で顔認証処理を実行する。顔認証装置3は、この顔認証処理において、認証対象者が本人か否かの判定の基礎とする顔認証スコアを出力する。焦点距離算出装置4は、顔認証装置3から出力される顔認証スコアを、焦点距離の値に対する重みとして利用して焦点距離の値の更新処理を行い、その後に行う顔の姿勢の推定の処理では、更新後の焦点距離の値を用いて行うようにする。以降、焦点距離の値の更新処理と顔の姿勢の推定の処理とを交互に繰り返し行うことで、精度の高い焦点距離の推定値が得られるようになる。
 次に、図15の焦点距離算出装置4により行われる姿勢推定処理について説明する。
 図17は、姿勢推定処理の第3の例の処理内容を示したフローチャートである。
 なお、これより説明する姿勢推定処理の第3の例を記述した姿勢推定プログラムをプロセッサ31に実行させるようにすることで、図6のコンピュータ30とソフトウェアとの組合せにより図15の焦点距離算出装置4を構成することも可能である。
 図16を用いて説明した使用態様では、図17の処理は、例えば、ゲートに向かって歩行している認証対象者が予め定めておいた地点に到達したことが検知されると開始される。このようにする場合には、例えば、この地点に立つ人物の顔についてのカメラ2からの距離を予め測定しておき、この測定した距離を表す値を、撮影距離データ22として、記憶部42に予め記憶させておくようにしてもよい。
 図17において、まず、S701では、カメラ2により送られてくる、被写体である人物の顔領域を含む撮像画像を取得する処理が行われ、1枚の撮像画像の取得が完了すると、S702に処理が進む。
 次に、S702において、S701の処理により取得された撮像画像から各ランドマークを検出する処理が行われる。この処理は、図7のフローチャートにおけるS200の処理と同様の処理である。
 次に、S703において、この姿勢推定処理の実行が開始されて以降に、後述するS707の処理による焦点距離の更新が既に行われたか否かを判定する処理が行われる。
 このS703の判定処理において、焦点距離の更新が既に行われたと判定されたとき(判定結果がYESのとき)には、S704において、更新後の最新の焦点距離の値を取得する処理が行われる。
 一方、S703の判定処理において、焦点距離の更新は未だ行われていないと判定されたとき(判定結果がNOのとき)には、S300の焦点距離算出処理が行われる。この焦点距離算出処理は図7のフローチャートにおけるS300の処理と同様の処理である。なお、このS300の処理として行われる図8のS314の処理では、カメラ2から被写体までの撮影距離の値が、記憶部42に記憶されている撮影距離データ22から取得される。
 上述したS704若しくはS300の処理に続いて、S400において動き量算出処理が行われる。この動き量算出処理は図7のフローチャートにおけるS400の処理と同様の処理である。但し、S704の処理に続いてS400の処理が実行される場合には、S400の処理として行われる図13のS401の処理により、S704の処理で取得された焦点距離の値が、焦点距離の推定結果として取得される。一方、S300の処理に続いてS400の処理が実行される場合には、S400の処理として行われる図13のS401の処理により、S300の処理により算出された値が、焦点距離の推定結果として取得される。
 プロセッサ31は、これらのS702からS704の各処理と、S300及びS400の各処理とを実行することで、図15の算出部43の機能を提供する。
 S400の処理に続くS705において、S400の処理により算出された動き量を、被写体である人物の顔の姿勢の推定結果として、顔認証装置3へ出力する処理が行われる。プロセッサ31は、このS705の処理を実行することで、図15の出力部44の機能を提供する。
 顔認証装置3は、人物の顔の姿勢の推定結果を受け取ると、前述したように、この推定結果に基づいて、カメラ2から受け取った撮像画像に映っている顔の像に対して姿勢の補正を行った上で顔認証処理を実行し、顔認証スコアを実行結果として出力する。顔認証装置3が出力する顔認証スコアは、撮像画像に顔が映っている人物が認証対象者の本人であることの確からしさを表す指標であり、確からしいほどスコアの値が大きくなるものとする。
 S706では、S705の処理により出力された人物の顔の姿勢の推定結果の入力に応じて顔認証装置3が出力した顔認証スコアを取得する処理が行われる。プロセッサ31は、前述したS701の処理と、このS706の処理とを実行することで、図15の取得部41の機能を提供する。
 S707では、S706の処理により取得した認証スコアを用いて、焦点距離の値を更新する処理が行われる。この更新処理では、下記の[数5]式の計算を行うことによって、更新後の焦点距離の値fが算出される。
Figure JPOXMLDOC01-appb-M000005
 [数5]式において、f0は、焦点距離の更新前の値、すなわち、この処理の直前に実行されたS400の動き量算出処理において動き量の算出に用いた焦点距離の値(S704の処理若しくはS300の処理で得られた値)である。また、tは、この処理の直前に実行されたS400の動き量算出処理により算出された動き量のうちの並進量である。
 [数5]式において、αは顔認証スコアを正規化した値であり、0.0以上であって且つ1.0以下の値となる。例えば、αの値が1.0の場合は認証対象者が完全なる本人であることを顔認証スコアが表している場合であり、αの値が0.0の場合は認証対象者が完全なる別人であることを顔認証スコアが表している場合である。
 次に、S708において、S707の処理によらり得られた更新後の焦点距離の値を記憶部42に記憶させる処理が行われる。この処理により記憶された更新後の焦点距離の値は、この処理の後に実行されるS704の処理やS707の処理において使用される。
 プロセッサ31は、上述したS707及びS708の処理を実行することで、図15の更新部45の機能を提供する。
 S708の処理を終えた後には、S701に処理を戻し、以降は上述した処理が繰り返される。なお、図16を用いて説明した使用態様では、例えば、歩行中の認証対象者がゲートに到達し、静脈センサ5による掌静脈の検出が行われることによって、この処理の繰り返しを終了するようにしてもよい。
 以上までの処理が姿勢推定処理の第3の例である。この第3の例の処理をプロセッサ31が実行することによって、図6のコンピュータ30が図15の焦点距離算出装置4として動作し、カメラ2の焦点距離の良好な精度での算出と、被写体である人の姿勢についての良好な推定とを可能にする。
 以上、開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
    1、4 焦点距離算出装置
    2 カメラ
    3 顔認証装置
    5 静脈センサ
    6 認証システム
   11、41 取得部
   12、42 記憶部
   13、43 算出部
   14、44 出力部
   15 変更部
   20 記憶情報
   21 モデルデータ
   22 撮影距離データ
   30 コンピュータ
   31 プロセッサ
   32 メモリ
   33 記憶装置
   34 読取装置
   35 着脱可能記憶媒体
   36 通信インタフェース
   37 入出力インタフェース
   38 バス
   45 更新部

Claims (11)

  1.  カメラにより撮影された撮像画像を取得する取得部と、
     前記カメラから撮影対象までの撮影距離と、前記撮像画像における複数の特徴点のうちの2つの特徴点間の前記撮影対象についての標準の距離である第1距離とを記憶する記憶部と、
     前記2つの特徴点間の前記撮像画像における距離である第2距離を前記撮像画像から算出し、前記第1距離と前記第2距離と前記撮影離とに基づいて、前記カメラの焦点距離を算出する算出部と
    を備えることを特徴とする焦点距離算出装置。
  2.  前記複数の特徴点は、第1、第2、及び第3の特徴点を含み、
     前記第1の特徴点と前記第2の特徴点と間の前記撮影対象についての標準の距離と、前記第1の特徴点と前記第3の特徴点との間の前記撮影対象についての標準の距離とは等しく、
     前記2つの特徴点は、前記第1及び前記第2の特徴点のペアと前記第1及び前記第3の特徴点のペアとのうち、前記撮像画像における特徴点間の距離が長い方のペアを構成する特徴点である、
    ことを特徴とする請求項1に記載の焦点距離算出装置。
  3.  前記取得部は、人物の顔領域を含む前記撮像画像を取得し、
     前記第1の特徴点は、前記人物における一方の眼を表す点であり、
     前記第2の特徴点は、前記人物における他方の眼を表す点であり、
     前記第3の特徴点は、前記人物における、前記一方の眼と同じ側の口角を表す点である、
    ことを特徴とする請求項2に記載の焦点距離算出装置。
  4.  前記取得部は、人物の顔領域を含む前記撮像画像を取得し、
     前記記憶部は、人物の顔のモデルデータを記憶し、
     前記算出部は、更に、算出した前記焦点距離と、前記モデルデータとを用いて、前記撮像画像における人物の顔の姿勢を算出する
    ことを特徴とする請求項1に記載の焦点距離算出装置。
  5.  前記算出部は、前記モデルデータに対する回転量と並進量とを前記姿勢として算出し、
     前記撮影距離と前記並進量との差が所定の閾値を超える場合に、前記記憶部に記憶されている前記撮影距離を変更する変更部を更に備え、
     前記算出部は、前記撮影距離が変更された場合には、前記第1距離と前記第2距離と変更後の前記撮影距離とに基づいた前記焦点距離の算出を行う
    ことを特徴とする請求項4に記載の焦点距離算出装置。
  6.  前記撮像画像における第1の方向に対応する前記撮影対象での方向においての前記撮像画像の1画素に相当する前記撮影対象での長さである第1の長さと、前記撮像画像における前記第1の方向とは異なる第2の方向に対応する前記撮影対象での方向においての前記撮像画像の1画素に相当する前記撮影対象での長さである第2の長さとにおいて、
      前記第1の長さが前記第2の長さよりも長い場合には、前記複数の特徴点のうちで前記第1の方向に並ぶ特徴点のペアを前記2つの特徴点とし、
      前記第2の長さが前記第1の長さよりも長い場合には、前記複数の特徴点のうちで前記第2の方向に並ぶ特徴点のペアを前記2つの特徴点とする、
    ことを特徴とする請求項1に記載の焦点距離算出装置。
  7.  前記取得部は、人物の顔領域を含む前記撮像画像を取得し、
     前記記憶部は、人物の顔のモデルデータを記憶し、
     前記第1の長さは、前記モデルデータにより表される人物の左右の眼の位置を結ぶ第1の線分の長さを前記撮像画像における前記第1の線分に対応する画素列の画素数で除算した値と、前記モデルデータにより表される人物の左右の口角の位置を結ぶ第2の線分の長さを前記撮像画像における前記第2の線分に対応する画素列の画素数で除算した値との平均値であり、
     前記第2の長さは、前記モデルデータにより表される人物の左眼の位置と左側の口角の位置とを結ぶ第3の線分の長さを前記撮像画像における前記第3の線分に対応する画素列の画素数で除算した値と、前記モデルデータにより表される人物の右眼の位置と右側の口角の位置とを結ぶ第4の線分の長さを前記撮像画像における前記第4の線分に対応する画素列の画素数で除算した値との平均値である、
    ことを特徴とする請求項6に記載の焦点距離算出装置。
  8.  前記焦点距離は、前記撮影距離と前記第1距離とを乗算した値を前記第2距離で除算することによって算出されることを特徴とする請求項1に記載の焦点距離算出装置。
  9.  前記撮像画像は、人物の顔領域を含む画像であり、
     前記取得部は、前記カメラにより撮影された前記撮像画像を用いて前記人物に対する顔認証処理を行う顔認証装置から出力される、前記人物が認証対象者の本人であることの確からしさを表す顔認証スコアを更に取得し、
     前記顔認証スコアに基づいて、前記記憶部に記憶されている前記撮影距離を更新する更新部を更に備える、
    ことを特徴とする請求項1に記載の焦点距離算出装置。
  10.  カメラにより撮影された撮像画像を取得し、
     前記カメラから撮影対象までの撮影距離であって記憶部に記憶されている前記撮影距離と、前記撮像画像における複数の特徴点のうちの2つの特徴点間の前記撮影対象についての標準の距離であって前記記憶部に記憶されている第1距離と、前記2つの特徴点間の前記撮像画像における距離であって前記撮像画像から算出した第2距離とに基づいて、前記カメラの焦点距離を算出する、
    処理をコンピュータが行うことを特徴とする焦点距離算出方法。
  11.  カメラにより撮影された撮像画像を取得し、
     前記カメラから撮影対象までの撮影距離であって記憶部に記憶されている前記撮影距離と、前記撮像画像における複数の特徴点のうちの2つの特徴点間の前記撮影対象についての標準の距離であって前記記憶部に記憶されている第1距離と、前記2つの特徴点間の前記撮像画像における距離であって前記撮像画像から算出した第2距離とに基づいて、前記カメラの焦点距離を算出する、
    処理をコンピュータに実行させることを特徴とする焦点距離算出プログラム。
PCT/JP2021/044859 2021-12-07 2021-12-07 焦点距離算出装置、焦点距離算出方法、及び焦点距離算出プログラム WO2023105611A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/044859 WO2023105611A1 (ja) 2021-12-07 2021-12-07 焦点距離算出装置、焦点距離算出方法、及び焦点距離算出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/044859 WO2023105611A1 (ja) 2021-12-07 2021-12-07 焦点距離算出装置、焦点距離算出方法、及び焦点距離算出プログラム

Publications (1)

Publication Number Publication Date
WO2023105611A1 true WO2023105611A1 (ja) 2023-06-15

Family

ID=86729841

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/044859 WO2023105611A1 (ja) 2021-12-07 2021-12-07 焦点距離算出装置、焦点距離算出方法、及び焦点距離算出プログラム

Country Status (1)

Country Link
WO (1) WO2023105611A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008067003A (ja) * 2006-09-06 2008-03-21 Fujifilm Corp 撮影装置及び撮影システム
JP2008199522A (ja) * 2007-02-15 2008-08-28 Fujifilm Corp 撮像装置及び撮像方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008067003A (ja) * 2006-09-06 2008-03-21 Fujifilm Corp 撮影装置及び撮影システム
JP2008199522A (ja) * 2007-02-15 2008-08-28 Fujifilm Corp 撮像装置及び撮像方法

Similar Documents

Publication Publication Date Title
JP5018980B2 (ja) 撮像装置、長さ測定方法、及びプログラム
JP6507046B2 (ja) 立体物検知装置及び立体物認証装置
CN107273846B (zh) 一种人体体型参数确定方法及装置
US7894636B2 (en) Apparatus and method for performing facial recognition from arbitrary viewing angles by texturing a 3D model
CN110942032B (zh) 活体检测方法及装置、存储介质
JP4829141B2 (ja) 視線検出装置及びその方法
JP5715735B2 (ja) 3次元測定方法、装置、及びシステム、並びに画像処理装置
CN111862299A (zh) 人体三维模型构建方法、装置、机器人和存储介质
CN110378182B (zh) 图像解析装置、图像解析方法及记录介质
US9183634B2 (en) Image processing apparatus and image processing method
KR101510312B1 (ko) 복수의 카메라들을 이용한 3d 얼굴 모델링 장치, 시스템 및 방법
CN107808398B (zh) 摄像头参数算出装置以及算出方法、程序、记录介质
CN106462738B (zh) 用于构建个人的面部的模型的方法、用于使用这样的模型分析姿态的方法和设备
JP2013252301A (ja) 眼球中心推定装置及びプログラム
JP4952267B2 (ja) 3次元形状処理装置、3次元形状処理装置の制御方法、および3次元形状処理装置の制御プログラム
WO2022218161A1 (zh) 用于目标匹配的方法、装置、设备及存储介质
CN110717593B (zh) 神经网络训练、移动信息测量、关键帧检测的方法及装置
JP2017194301A (ja) 顔形状測定装置及び方法
JP5987584B2 (ja) 画像処理装置、映像投影システムおよびプログラム
JP4814666B2 (ja) 顔解析システム
JP6411188B2 (ja) ステレオマッチング装置とステレオマッチングプログラムとステレオマッチング方法
WO2023105611A1 (ja) 焦点距離算出装置、焦点距離算出方法、及び焦点距離算出プログラム
CN111462337B (zh) 一种图像处理方法、设备及计算机可读存储介质
KR101818992B1 (ko) 영상의 깊이 정보를 이용한 성형결과 이미지 도출방법
JP6810442B2 (ja) カメラアセンブリ、そのカメラアセンブリを用いる手指形状検出システム、そのカメラアセンブリを用いる手指形状検出方法、その検出方法を実施するプログラム、及び、そのプログラムの記憶媒体