WO2023007632A1 - 画像処理システム、画像処理方法、及びプログラム - Google Patents

画像処理システム、画像処理方法、及びプログラム Download PDF

Info

Publication number
WO2023007632A1
WO2023007632A1 PCT/JP2021/027962 JP2021027962W WO2023007632A1 WO 2023007632 A1 WO2023007632 A1 WO 2023007632A1 JP 2021027962 W JP2021027962 W JP 2021027962W WO 2023007632 A1 WO2023007632 A1 WO 2023007632A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
line segment
license
driver
region
Prior art date
Application number
PCT/JP2021/027962
Other languages
English (en)
French (fr)
Inventor
永男 蔡
Original Assignee
楽天グループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 楽天グループ株式会社 filed Critical 楽天グループ株式会社
Priority to JP2022529389A priority Critical patent/JP7137171B1/ja
Priority to PCT/JP2021/027962 priority patent/WO2023007632A1/ja
Priority to EP21925105.5A priority patent/EP4148672A4/en
Publication of WO2023007632A1 publication Critical patent/WO2023007632A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Definitions

  • the present disclosure relates to an image processing system, an image processing method, and a program.
  • Patent Document 1 a feature point group extracted from an object image in which the object is photographed is matched with a feature point group extracted from a sample image in which the object is photographed, and the feature in the object image is matched.
  • a technique is described for processing an object image so that the positional relationship of the point group becomes or approaches the positional relationship of the feature point group in the sample image.
  • Patent Document 1 it is necessary to extract a large number of feature points included in the target object image, which may increase the processing load on the computer that performs the image processing. For example, if an object is continuously photographed with a smartphone camera and image processing is performed on the continuously generated object images, the technology of Patent Document 1 increases the processing load of the smartphone. This point is the same for computers other than smartphones.
  • One of the purposes of this disclosure is to reduce the processing load on the computer.
  • An image processing system includes image acquisition means for acquiring an object image including an object, and a plurality of line segments relatively outside the object image based on predetermined line segment detection processing.
  • information acquisition means for acquiring information about the contour of the object in the object image based on the plurality of line segments; and based on the information, the contour is a predetermined contour and processing means for processing at least a portion of the object image so as to become or approach.
  • the processing load on the computer can be reduced.
  • FIG. 1 is a diagram showing an example of the overall configuration of an image processing system
  • FIG. FIG. 3 is a functional block diagram showing an example of functions implemented by the image processing system
  • FIG. 10 is a diagram showing an example when the lower right corner is outside the region of interest; It is a figure which shows an example of the process performed by the processing part.
  • FIG. 4 is a flow chart showing an example of processing executed in the image processing system
  • FIG. 11 is a functional block diagram in a modification of the first configuration
  • FIG. 1 is a diagram showing an example of the overall configuration of an image processing system.
  • the image processing system S includes a user terminal 10 and a server 20 .
  • the user terminal 10 and server 20 can be connected to a network N such as the Internet or LAN.
  • the image processing system S only needs to include at least one computer, and is not limited to the example in FIG.
  • the user terminal 10 is the user's computer.
  • the user terminal 10 is a smartphone, tablet terminal, personal computer, or wearable terminal.
  • Control unit 11 includes at least one processor.
  • the storage unit 12 includes a volatile memory such as RAM and a nonvolatile memory such as a hard disk.
  • the communication unit 13 includes at least one of a communication interface for wired communication and a communication interface for wireless communication.
  • the operation unit 14 is an input device such as a touch panel.
  • the display unit 15 is a liquid crystal display or an organic EL display.
  • the imaging unit 16 includes at least one camera.
  • the server 20 is a server computer.
  • the physical configurations of the control unit 21, the storage unit 22, and the communication unit 23 may be the same as those of the control unit 11, the storage unit 12, and the communication unit 13, respectively.
  • the programs or data stored in the storage units 12 and 22 may be supplied via the network N.
  • a reading unit for example, an optical disk drive or a memory card slot
  • an input/output unit for inputting/outputting data with an external device (for example, , USB port).
  • a program or data stored in an information storage medium may be supplied via a reading section or an input/output section.
  • eKYC Electronic Know Your Customer
  • eKYC is identity verification performed online.
  • eKYC can be used with any service.
  • eKYC can be used in communication services, financial services, electronic payment services, electronic payment services, insurance services, or government services.
  • the timing at which the eKYC is performed may also be any timing, for example, the eKYC is performed at the time of application for the service or at the timing after the application.
  • the user's identification document (identification card) is confirmed.
  • the identification document may be of any type, for example, a document such as a driver's license, insurance card, resident's card, personal number card, or passport.
  • a driver's license will be described as an example of a user identification document. Therefore, the part described as a driver's license can be read as a personal identification document.
  • the user operates the user terminal 10 to photograph the driver's license with the photographing unit 16 and uploads the photographed image to the server 20 .
  • eKYC is performed.
  • the eKYC may be automatically performed using image processing such as optical character recognition, or may be performed by visually recognizing the captured image by the service administrator. Further, both image processing and viewing by an administrator may be performed.
  • driver's license is required to be photographed from the front
  • eKYC itself can use various known methods. For example, it may be required to tilt the driver's license so that it assumes a predetermined posture, or to move the driver's license. Alternatively, for example, it may be required to photograph both the user's face and driver's license, or the user may be required to perform an action such as winking.
  • the user terminal 10 executes image processing for processing the captured image so that the driver's license faces the front.
  • image processing image processing using a feature point group is also known, but image processing using a feature point group requires a large amount of calculation, so the processing load on the user terminal 10 increases.
  • the user terminal 10 of the present embodiment reduces the processing load by the first configuration that executes image processing using line segments instead of feature point groups.
  • the user terminal 10 executes image processing for determining whether or not the driver's license is blurred.
  • Image processing using a feature point group is also known as such image processing, but image processing using a feature point group requires a large amount of calculation, so the processing load on the user terminal 10 increases.
  • the user terminal 10 of the present embodiment reduces the processing load by the second configuration that executes image processing using matching instead of feature point groups.
  • FIG. 2 is a functional block diagram showing an example of functions realized by the image processing system S. As shown in FIG.
  • the data storage unit 100 is realized mainly by the storage unit 12 .
  • Other functions of the user terminal 10 are realized mainly by the control unit 11 .
  • the data storage unit 100 and the transmission unit 111 are functions related to both the first configuration and the second configuration.
  • the image acquisition unit 101, the line segment detection unit 102, the information acquisition unit 103, the angle determination unit 104, and the processing unit 105 are functions mainly related to the first configuration.
  • the image acquisition unit 101, the matching execution unit 106, the maximum score determination unit 107, the distance determination unit 108, the analysis unit 109, and the blur determination unit 110 are functions mainly related to the second configuration.
  • the data storage unit 100 stores data necessary for image processing.
  • the data storage unit 100 stores applications for using the services described above.
  • image processing may be executed as processing of any program.
  • image processing may be performed as processing of a script or other program executed from a browser.
  • the data storage unit 100 may store a template image and a photographed image, which will be described later.
  • the image acquisition unit 101 acquires a captured image including a driver's license.
  • a driver's license is an example of an object. Since a driver's license is an example of a user's identification document, the user's identification document can also be said to be an example of an object. Therefore, the part described as a driver's license or an identification document can be read as an object.
  • a captured image is an example of an object image. Therefore, the part described as a photographed image can be read as an object image.
  • a target object is an object that is the target of image processing. In the case of image processing aimed at finally detecting a specific type of object, this object corresponds to the target object.
  • the captured image corresponds to the target object image
  • the subject corresponds to the target object.
  • the scanned image which will be described later
  • the object read by the scanner corresponds to the object.
  • the sensor image which will be described later
  • the object detected by the sensor corresponds to the object.
  • the target object may be any object, and is not limited to personal identification documents. For example, a human, a specific part of a human, a non-human animal, a building, a landscape, a sign, or any other object may correspond to the object.
  • a target object image is an image that includes a target object.
  • An object is shown in at least a portion of the object image. Including at least one pixel representing a part of the object corresponds to including the object.
  • An object image may include only a portion of the object.
  • the object image can also be said to be an image in which the object is captured.
  • the object image is a photographed image generated by continuously photographing the personal identification document by the photographing unit 16 .
  • the captured images are individual images (frames) forming a moving image. When the camera function is used instead of the video function of the imaging unit 16, one still image corresponds to the captured image.
  • the means for generating the object image itself can use various known means and is not limited to the imaging unit 16 .
  • the object image may be generated by a camera external to the user terminal 10 .
  • the object image may be generated by a scanner.
  • the scanned image representing the reading result of the scanner corresponds to the object image.
  • the object image may be generated by a sensor capable of detecting the object (eg infrared sensor or ultrasonic sensor).
  • the sensor image representing the detection result of the sensor corresponds to the object image.
  • the image acquisition unit 101 acquires an object image from any means for generating an object image.
  • the object image may be stored in the data storage unit 100 in advance.
  • the image acquisition section 101 may acquire the target object image from the data storage section 100 .
  • the object image may be stored in an external information storage medium or computer.
  • the image acquisition unit 101 may acquire the target object image from an external information storage medium or computer.
  • FIG. 3 is a diagram showing an example of how a user takes a picture of a driver's license.
  • a photographed image I1 including a fictitious driver's license is taken as an example.
  • the driver's license can be taken from any direction.
  • a user may take a picture while holding a driver's license.
  • the user holds the driver's license close to the face so that both the user's face and the driver's license are included in the imaging range of the imaging unit 16. You can also aim and shoot.
  • the photographed image I1 in FIG. 3 omits the background, the photographed image I1 actually includes the background.
  • the image acquisition unit 101 acquires the captured images I1 continuously generated by the imaging unit 16 .
  • the image acquisition unit 101 temporarily records the continuously acquired photographed images I1 in the data storage unit 100 .
  • the user terminal 10 causes the display unit 15 to display the captured images I1 that are continuously generated.
  • the display unit 15 displays the region of interest RoI that is the target of image processing.
  • the user takes an image of the driver's license D1 so that the outline of the driver's license D1 matches the region of interest RoI and the driver's license D1 fits within the region of interest RoI.
  • the region of interest RoI of this embodiment has a shape that is the same as or similar to the contour of the driver's license D1.
  • the driver's license D1 is a so-called rounded rectangle, and the region of interest RoI is a rectangle, so they have similar shapes (same shape in terms of rectangles).
  • the region of interest RoI may have a shape obtained by multiplying the vertical width and horizontal width of the driver's license D1 by a predetermined amount.
  • the region of interest RoI may have a shape different from the outline of the driver's license D1.
  • the region of interest RoI may be circular or elliptical.
  • the region of interest RoI may be the entire captured image I1. In this case, the entire captured image I1 is subject to image processing.
  • the driver's license D1 of this embodiment includes a fixed part.
  • a fixed part is a part whose content is fixed, and is a part common to other users' driver's licenses D1.
  • a fixed part is a format part in a document, and is a part in which specific characters, symbols, graphics, frame lines, illustrations, or images are drawn.
  • the standard part can also be said to be a part containing document-specific information.
  • Driver's license D1 may include a plurality of fixed form parts.
  • the fixed part can be placed at any position, for example, near the corner of the object. Near the corner is a position within a predetermined distance (eg, 1 mm to 2 cm) from the corner. In the case of a rounded rectangle like the driver's license D1 in FIG. corresponds to an angle.
  • the title “DRIVER LICENSE” is an example of the fixed part.
  • Item names such as “NAME”, “BIRTH DAY”, “ADDRESS”, “DATE”, “EXPIRES”, and “NUMBER” are also examples of fixed form parts.
  • the country name “JAPAN” is also an example of a fixed part.
  • the name of the organization “Tokyo Metropolitan Public Safety Commission” is also an example of a fixed part.
  • the fixed part is not limited to the characters as described above, and the image showing the national flag of Japan on the driver's license D1 is also an example of the fixed part.
  • the frame lines surrounding the item names and the like are also examples of fixed form parts.
  • the driver's license D1 of this embodiment also includes an atypical portion.
  • the atypical portion is a portion whose content is not fixed, and is a portion whose content is not common to other documents.
  • Atypical parts are parts other than format parts in a document, such as personal information such as the user's name, birthday, or address.
  • the atypical part can also be said to be a part containing user-specific information.
  • the name "YAMADA TARO" is an example of an atypical part.
  • the date of birth “June 23, 1980” is also an example of an atypical part.
  • the address "1-2-3 ABC city Tokyo” is also an example of an atypical part.
  • the issue date of "July 25, 2018” is also an example of an atypical part.
  • An expiration date of "July 25, 2023” is also an example of an atypical portion.
  • a driver's license number of "1234 5678 9012" is also an example of an atypical portion.
  • the photograph of the user's face in FIG. 3 is also an example of an atypical portion. However, although the content of the face photo differs from user to user, if the frame line of the face photo is common among users, this frame line becomes a standard part.
  • the line segment detection unit 102 detects a plurality of line segments from the captured image I1 based on predetermined line segment detection processing.
  • Line segment detection processing is processing for detecting line segments in an image.
  • the line segment indicates the outline of the driver's license D1 itself, the outline of each element (the fixed part and the non-fixed part) included in the driver's license D1, or a part of these.
  • Line segment detection processing is sometimes called straight line detection processing or edge detection processing.
  • the line segment detection process itself can use various known algorithms, such as Hough transform or LSD (Line Segment Detector).
  • the captured images I1 are continuously acquired, so the line segment detection unit 102 detects a plurality of line segments for each captured image I1. That is, the line segment detection unit 102 detects a plurality of line segments by executing the processing described below on each captured image I1.
  • FIG. 4 to 6 are diagrams showing an example of processing executed by the line segment detection unit 102.
  • the line segment detection unit 102 detects a plurality of line segments L1 to L25 from the captured image I1.
  • the line segments L1 to L25 are not distinguished, they will be referred to as a line segment L.
  • the driver's license D1 may be divided into a plurality of line segments L9 and L10.
  • one line segment may not be detected completely from end to end, and often only a part is detected as shown in FIG.
  • the outline of the driver's license D1 may be divided into a plurality of line segments L because the outline of the driver's license D1 is hidden by the finger.
  • the line segments L1 to L4 show part of the outline of the driver's license D1.
  • Line segment detection unit 102 detects a plurality of line segments L1 to L4 that indicate part of the outline of driver's license D1.
  • the outline of the driver's license D1 can also be called the outer frame or edge of the driver's license D1. Since the driver's license D1 of the present embodiment is a rectangle with rounded corners, the outline of the driver's license D1 includes four line segments on the top, bottom, left, and right, and arcs at the four corners. In the example of FIG. 4, the line segments L1 to L4 corresponding to all of the top, bottom, left, and right are detected, but only some of the line segments L may be detected.
  • the line segment detection unit 102 performs line segment detection processing on the region of interest RoI in the captured image I1, and detects line segments L1 to L25 from the region of interest RoI.
  • the line segment detection unit 102 may perform line segment detection processing only on a part of the region of interest RoI.
  • the line segment detection unit 102 may perform line segment detection processing in order from the outside of the region of interest RoI. In this case, for each end of the region of interest RoI, the line segment detection unit 102 may terminate the line segment detection process corresponding to the end when the line segment L closest to the end is detected. .
  • the line segment detection unit 102 may perform line segment detection processing on the entire captured image I1 to detect the line segment L from the entire captured image I1.
  • the line segment detection unit 102 may perform line segment detection processing in order from the outside of the captured image I1. In this case, when the line segment detection unit 102 detects the line segment L closest to each end of the captured image I1, the line segment detection processing corresponding to the end may be terminated. .
  • the line segment detection unit 102 detects a plurality of relatively outer line segments L1 to L4 from the photographed image I1 based on predetermined line segment detection processing.
  • the line segment detection unit 102 since the region of interest RoI is set, the line segment detection unit 102 detects a plurality of line segments L1 to L4 relatively outside the region of interest RoI of the captured image I1.
  • the line segment detection unit 102 detects a plurality of line segments L1 to L4 whose ends are included in the region of interest RoI and which are relatively outside the region of interest RoI.
  • the line segment detection unit 102 detects a plurality of line segments whose both ends are included within a predetermined distance from at least one end of the region of interest RoI and which are relatively outside the region of interest. do.
  • shaded areas indicate locations within a predetermined distance from either the top, bottom, left, or right end of the region of interest RoI.
  • the predetermined distance may be any length as long as it is possible to define a position relatively close to the end. For example, it may be a region with a width of about 10% to 30% of the vertical or horizontal width of the region of interest RoI.
  • the line segment detection unit 102 detects line segments L1 to L8, L11, L24, and L25 included in the shaded area as line segments L relatively close to the ends. After that, as shown in FIG. 6, the line segment detection unit 102 detects a plurality of line segments L1 to L4 by detecting the line segment closest to each end of the region of interest RoI. For example, the line segment detection unit 102 detects the line segment L1 closest to the upper end of the region of interest RoI. The line segment detection unit 102 detects the line segment L2 closest to the left end of the region of interest RoI. The line segment detection unit 102 detects the line segment L3 closest to the lower end of the region of interest RoI. The line segment detection unit 102 detects the line segment L4 closest to the right end of the region of interest RoI.
  • the line segment detection unit 102 may detect a plurality of relatively long and relatively outer line segments. For example, if the line segments L3 and L25 are approximately the same distance from the lower end of the region of interest RoI, the line segment detection unit 102 may detect the longer line segment L3.
  • a threshold for the length of the line segment L may be set in the line segment detection process that is executed first. That is, the line segment detection unit 102 may detect the line segments L1 to L25 as the line segment L having a length equal to or greater than the threshold.
  • the setting of the threshold itself can also use a setting method in a known line segment detection process.
  • the line segment detection unit 102 may detect the second, third, or later outer line segment L instead of the outermost line segment L in the region of interest RoI.
  • the line segment detection unit 102 may detect the line segment L relatively outside the other line segments L.
  • the information acquisition unit 103 acquires information about the outline of the driver's license D1 in the captured image I1 based on the plurality of line segments L1 to L4.
  • the information on the outline is information on the position of at least part of the outline of the driver's license D1.
  • information indicating at least one position on the contour of the driver's license D1 or a position in the vicinity thereof (a position within a predetermined distance from the contour) corresponds to information regarding the contour.
  • the position on the captured image I1 can be expressed by any method, and is expressed, for example, by the coordinates of the screen coordinate system with the upper left as the origin.
  • the information acquisition unit 103 acquires corner information relating to a plurality of corners of the driver's license D1 in the captured image I1 as the information relating to the outline. For this reason, the portion described as corner information can be read as information relating to the contour.
  • the corner information is information indicating the position of each of a plurality of corners of the driver's license D1 or a position in the vicinity thereof (a position within a predetermined distance from the corner).
  • the corner information indicates the position of all or part of the corners of the driver's license D1.
  • the captured images I1 are continuously acquired, so the information acquisition unit 103 acquires corner information for each captured image I1. That is, the line segment detection unit 102 detects a plurality of line segments by executing the processing described below on each captured image I1.
  • FIG. 7 is a diagram showing an example of processing executed by the information acquisition unit 103.
  • the information acquisition unit 103 acquires corner information by estimating the positions of the multiple corners C1 to C4 by extending at least one of the multiple line segments L1 to L4.
  • the information acquisition unit 103 extends both ends of the line segments L1 to L4 until they cross each other.
  • the information acquisition unit 103 detects intersections of the extended line segments as angles C1 to C4.
  • the driver's license D1 is a quadrilateral with rounded corners, this intersection is not strictly a corner, but it is close enough to be regarded as a corner, so it is regarded as a corner in this embodiment.
  • the information acquisition unit 103 detects the intersection of the line segment L1 representing the upper contour and the line segment L2 representing the left contour as the upper left corner C1.
  • the information acquisition unit 103 detects the intersection of the line segment L2 representing the left contour and the line segment L3 representing the lower contour as the lower left corner C2.
  • the information acquisition unit 103 detects the intersection of the line segment L3 indicating the lower contour and the line segment L4 indicating the right contour as the lower right corner C3.
  • the information acquisition unit 103 detects the intersection of the line segment L1 representing the upper contour and the line segment L4 representing the right contour as the upper right corner C4.
  • the information acquisition unit 103 may correct the positions of the corners C1 to C4 so as to approach the positions on the arc of the four corners, which are the true corners of the driver's license D1. In this case, the information acquiring unit 103 corrects the positions of the corners C1 to C4 so that the intersections of the corners C1 to C4 are slightly closer to their center point. Further, since the aspect ratio of the driver's license D1 is known in advance, the information acquisition unit 103 may estimate the remaining one position from the positional relationship of three of the four corners C1 to C4. For example, the information acquisition unit 103 detects angles C1 to C3 by extending three line segments L1 to L3. The information acquisition unit 103 may detect, as the corner C4, a position separated from the corners C1 and C3 by a direction and a distance according to the positional relationship of the corners C1 to C3.
  • the corner determination unit 104 determines whether or not at least one corner C of the driver's license D1 estimated based on the corner information is outside the region of interest RoI. It is assumed that data with which the position of the region of interest RoI in the captured image I1 can be identified is stored in the data storage unit 100. FIG. For example, this data is the coordinates of the four corners of the region of interest RoI. For each corner C, the corner determination unit 104 determines whether the position of the corner C in the captured image I1 is outside the region of interest RoI. In the example of FIG. 7, the corner determination unit 104 determines that all four corners C1 to C4 are within the region of interest RoI.
  • FIG. 8 is a diagram showing an example when the lower right corner C3 is outside the region of interest RoI. Corners C1 to C4 are also detected from the photographed image I1 of FIG. In the example of FIG. 8, the corner determination unit 104 determines that the corners C1 to C3 are within the region of interest RoI, but determines that the corner C4 is outside the region of interest RoI. For example, if the driver's license D1 is photographed outside the region of interest RoI, at least one corner C is outside the region of interest RoI. In addition, for example, even if the driver's license D1 is within the region of interest RoI, if it is greatly distorted, it will not easily intersect even if the line segment L is extended. sometimes appear in
  • Processing unit 105 processes at least part of photographed image I1 based on the corner information acquired by information acquisition unit 103 so that the contour of driver's license D1 in photographed image I1 approaches a predetermined contour. In the present embodiment, since the captured images I1 are continuously acquired, the processing unit 105 processes each captured image I1.
  • a predetermined contour is a target contour.
  • the contour when the driver's license D1 is photographed from the front at a predetermined distance is an example of the predetermined contour.
  • the outline obtained when the driver's license D1 and the photographing unit 16 are photographed with a predetermined positional relationship corresponds to the predetermined outline.
  • the predetermined contour may be a contour having a predetermined shape.
  • a predetermined contour means that the contour after image processing matches the predetermined contour.
  • Approaching a predetermined contour means that the contour after image processing does not match the predetermined contour, but the deviation between the contour after image processing and the predetermined contour is the deviation between the contour before image processing and the predetermined contour. is to be smaller than
  • Processing means executing at least one of linear transformation (e.g. scaling, cutting, rotation) and translation. Processing may also be referred to as transforming, shaping, or editing. In the present embodiment, a case will be described in which the area within the captured image I1 surrounded by the corners C1 to C4 is subject to processing, but the entire captured image I1 may be subject to processing. Alternatively, for example, the entire region of interest RoI in the captured image I1 may be processed. All or part of the photographed image I1 may be processed.
  • FIG. 9 and 10 are diagrams showing an example of processing executed by the processing unit 105.
  • the processing unit 105 performs processing using the sample image I2 in FIG.
  • the sample image I2 is an image containing the predetermined contour described above. Therefore, if the contour of the driver's license D1 included in the photographed image I1 can be processed to match or approximate the contour of the driver's license D2 included in the sample image I2, it can be made suitable for eKYC.
  • a sample image I2 in FIG. 9 is an image of a sample driver's license D2 photographed from the front at a predetermined distance.
  • the driver's license D2 belongs to a different person from the driver's license D1, which is the object, but the standard parts are basically the same.
  • the standard part of the driver's license D1 and the standard part of the driver's license D2 may be different, but the outline of the driver's license D1 and the outline of the driver's license D2 are the same or similar to each other. do. Similar here means that the contour difference is less than a predetermined value. For example, a difference in vertical width, a difference in horizontal width, a difference in corner position, or a plurality of these differences being less than a predetermined value means that the contours are similar.
  • the sample image I2 is processed by the line segment detection unit 102 and the information acquisition unit 103 to detect sample corners C5 to C8. Corners C5-C8 may be manually specified by the service administrator or detected by other image processing. It is assumed that the data storage unit 100 stores in advance information that enables the positions of the corners C5 to C8 to be identified. For example, this information is the coordinates of corners C5-C8.
  • the processing unit 105 processes at least a part of the captured image I1 so that the plurality of corners C1 to C4 have a predetermined positional relationship or come close to each other.
  • the predetermined positional relationship is an ideal positional relationship.
  • the positional relationship between the corners C5 to C8 is an example of the predetermined positional relationship.
  • the positional relationship between the corners of the driver's license D1 and the photographing unit 16 when the photographing is performed with the predetermined positional relationship is assumed to be the predetermined position. Corresponds to a relationship.
  • Having a predetermined positional relationship means that the positional relationship after image processing matches the predetermined positional relationship.
  • Approaching a predetermined positional relationship means that the positional relationship after image processing does not match the predetermined positional relationship, but the difference between the positional relationship after image processing and the predetermined positional relationship is the positional relationship before image processing and the predetermined positional relationship. is smaller than the deviation from the positional relationship of
  • the processing unit 105 performs affine transformation on the captured image I1 so that the positional relationship between the angles C1 to C4 approaches the positional relationship between the angles C5 to C8.
  • Arbitrary transformation processing such as projective transformation can be used in addition to the affine transformation.
  • the code I3 is given to the photographed image after processing.
  • the processing unit 105 processes at least part of the captured image I1 when it is not determined that at least one corner C is outside the region of interest RoI. That is, the processing unit 105 processes at least part of the captured image I1 when it is not determined that all the corners C are within the region of interest RoI. Therefore, when it is determined that at least one corner C is outside the region of interest RoI, the processing unit 105 does not process at least part of the captured image I1.
  • the processing unit 105 may perform processing based on other information acquired by the information acquisition unit 103 instead of the corner information. For example, as the information about the outline of the driver's license D1, instead of the corner information, the outline of a quadrangle formed by the intersections of the extended line segments L1 to L4 may be used. In this case, the processing unit 105 may process at least part of the captured image I1 so that the quadrangle corresponding to the driver's license D1 becomes or approaches the quadrangle corresponding to the driver's license D2. In addition, for example, when line segments L1 to L4 having a sufficient length are detected, information indicating the line segments L1 to L4 is acquired as information on the contour without specifying the angle C, and the processed portion Processing according to 105 may be performed.
  • the functions described above are the main functions of the first configuration.
  • the functions described below are mainly those of the second configuration.
  • the matching executing unit 106 executes matching with respect to the photographed image I3 based on the template image including features related to the driver's license D1.
  • the features related to the driver's license D1 are the visual features of all or part of the driver's license D1.
  • the features related to the driver's license D1 are the features of images (for example, backgrounds, characters, numbers, symbols, graphics, tables, photographs, patterns, holograms, etc.) formed on the driver's license D1.
  • Image features are contours, colors, brightness, or a combination thereof.
  • a template image is an image that contains sample features.
  • the fixed part of the driver's license D1 is used as a feature, so the feature included in the template image is this fixed part.
  • a template image is prepared for each fixed form part. It is assumed that the template image is pre-stored in the data storage unit 100 .
  • part of the sample image I2 in FIG. 9 is used as a template image.
  • Matching is sometimes called template matching or pattern matching.
  • FIGS. 11 and 12 are diagrams showing an example of processing executed by the matching execution unit 106.
  • FIG. FIG. 11 shows a case where the driver's license D1 in the captured image I3 is clear
  • FIG. 12 shows a case where the driver's license D1 in the captured image I3 is blurred.
  • the matching executing unit 106 executes matching on the areas R1 to R4 near the corners C1 to C4 of the driver's license D1 in the photographed image I3.
  • regions R1 to R4 are not distinguished, they are simply referred to as region R.
  • the region R near the corner C is a region that includes the corner C, or a region that does not include the corner C but is within a predetermined distance from the corner C.
  • the area R is 100 pixels ⁇ 100 pixels, but the size and shape of the area R may be arbitrary.
  • the matching for the area R1 near the corner C1 is taken as an example, but the matching for the areas R2 to R4 near the corners C2 to C4 is also executed in the same manner.
  • the matching execution unit 106 acquires the template image i1 corresponding to the region R1 from the data storage unit 100.
  • the template image i1 of this embodiment is assumed to be smaller than the region R1, but the size of the template image i1 and the size of the region R1 may be the same.
  • the matching execution unit 106 calculates the score corresponding to the current position in the region R1 while moving the template image i1 within the region R1.
  • the score indicates the degree of similarity with the fixed part included in the template image i1.
  • the fixed part is the character string "DR".
  • Scores can be expressed in any format, such as vector format.
  • a calculation formula used in known matching can be used.
  • the matching execution unit 106 calculates the score based on SSD (Sum of Squared Difference) will be described, but the matching execution unit 106 can calculate other arbitrary calculations such as SAD (Sum of Absolute Difference)
  • SAD Sud of Absolute Difference
  • a score may be calculated based on the method.
  • a large numerical value indicated by the score means that it is similar to the template image i1.
  • the region R1 is 100 pixels ⁇ 100 pixels and the template image i1 is 10 pixels ⁇ 10 pixels (the rectangle in FIG. 11 is a square here for simplicity of explanation).
  • the matching execution unit 106 obtains 90 ⁇ 90 scores.
  • the slide width (the amount of movement of the template image i1 per time) in matching is not limited to 1 pixel, and may be any number of pixels.
  • the matching execution unit 106 similarly executes matching for regions R2 to R4 near corners C2 to C4.
  • the matching execution unit 106 acquires the template images i2 to i4 corresponding to the regions R2 to R4 from the data storage unit 100.
  • FIG. The matching execution unit 106 calculates scores corresponding to individual positions while moving each of the template images i2 to i4 within each of the regions R2 to R4.
  • the template images i1 to i4 are not distinguished, they are simply referred to as template image i.
  • the matching execution unit 106 may execute matching for each template image i.
  • matching is performed after processing by the processing unit 105 is performed, so the matching execution unit 106 performs matching on the photographed image I3 that has been at least partially processed.
  • the continuously generated photographed images I1 are processed and the photographed images I3 are continuously acquired, so the matching execution unit 106 executes matching for each photographed image I3.
  • the photographed image I1 in which the corner C is outside the region of interest RoI cannot be matched because the photographed image I3 after processing is not obtained.
  • the maximum score determination unit 107 determines whether or not the maximum score among multiple scores is less than a threshold.
  • the maximum score is the score that indicates the most similarity among the scores calculated by the matching execution unit 106 . If the driver's license D1 is clear as shown in FIG. 11, the maximum score is high, and if the driver's license D1 is blurred as shown in FIG. 12, the maximum score is low.
  • the outline is similar to driver's license D1, but the maximum score is also lower if something other than driver's license D1 is photographed. In addition, for example, if the back side of the driver's license D1 is photographed, the maximum score will also be low.
  • the threshold may be common to all regions R, or may be determined for each region R. However, if this threshold is set too high, it will be difficult for eKYC to succeed and the user's convenience will be reduced. 70% to 90%). Therefore, even if the driver's license D1 is blurred as shown in FIG. 12, the maximum score may be equal to or higher than the threshold if the driver's license is slightly blurred. Furthermore, if an image similar to the driver's license D1 in terms of color, pattern, etc. is captured, the maximum score may exceed the threshold.
  • the maximum score determination unit 107 determines for each region R whether the maximum score of the region R is less than the threshold. For example, let the maximum score of a region R be S max and the threshold be Th tm . The maximum score determination unit 107 acquires the maximum score Smax for each region R. The maximum score determination unit 107 determines for each region R whether or not the maximum score S max is less than the threshold Th tm . As shown in Equation 1 below, the captured image I3 with the maximum score S max less than the threshold Th tm is filtered and the processing of the blurring determination unit, which will be described later, is not executed.
  • the distance determination unit 108 determines whether the distance between the position where the maximum score among the multiple scores is acquired and the position where the feature shown in the template image i should be is less than a threshold. It is assumed that the data storage unit 100 stores in advance information that enables identification of the position where the feature shown in the template image i should be. In this embodiment, the position where the feature shown in the template image i should be is the center point of each region R (in the example of FIG. 13, the center point within 100 pixels ⁇ 100 pixels). As will be explained, this position may be any position within the region R to be matched.
  • the threshold may be common to all regions R, or may be determined for each region R.
  • FIG. 13 is a diagram showing an example of processing executed by the distance determination unit 108.
  • the distance determination unit 108 determines the position where the maximum score is obtained and the feature shown in the template image i for each region R. It is determined whether or not the distance between the position and is less than a threshold. For example, let Pos max be the position where the maximum score of a certain region R is obtained, and Pos center be the position where the feature shown in the template image i should be.
  • the distance determination unit 108 determines for each region R whether or not the distance between the position Pos max and the position Pos center is less than the threshold Th dist . If the distance between the position Pos max and the position Pos center is greater than the threshold value Th dist as shown in Equation 2 below, filtering is performed and the process of the blurring determination unit, which will be described later, is not executed.
  • the analysis unit 109 analyzes multiple scores obtained by matching.
  • the continuously generated photographed images I1 are processed and the photographed images I3 are continuously acquired, so the analysis unit 109 analyzes a plurality of scores for each photographed image I3.
  • the score analysis itself may be performed by any method, but in this embodiment, a case where analysis of variance is used will be described.
  • the distribution (bias) of multiple scores is analyzed. That is, the magnitude of the difference between individual scores is analyzed.
  • a known algorithm can be used for the analysis of variance algorithm itself, and for example, an algorithm called js-STAR or AIST-ANOVA may be used.
  • FIG. 14 is a diagram showing an example of processing executed by the analysis unit 109.
  • the analysis unit 109 exemplifies the analysis of the score obtained by matching the area R1 near the corner C1.
  • the analysis unit 109 analyzes the multiple scores based on the maximum score among the multiple scores and the average score calculated based on the multiple scores.
  • the average score be S mean .
  • the analysis unit 109 analyzes a plurality of scores by calculating a value obtained by dividing the maximum score S max by the average score S mean based on Equation 3 below.
  • the analysis unit 109 analyzes a plurality of scores obtained for each template image i.
  • the details of the analysis processing corresponding to each template image i are as described above. That is, the analysis unit 109 also calculates the values obtained by dividing the maximum score S max by the average score S mean for the regions R2 to R4 corresponding to the corners C2 to C4 in the same manner as for the region R1.
  • the analysis unit 109 performs analysis by calculating the value of the left side of Equation 3 above.
  • N in Expression 3 is a natural number indicating the number of regions R, and N is 4 in this embodiment.
  • the comparison with the threshold Th ratio of Equation 3 is performed by the blur determination unit 110 .
  • the analysis unit 109 of the present embodiment analyzes multiple scores by calculating one index based on multiple scores obtained for each template image i.
  • This index is the left side of Equation 3.
  • This index is not limited to the example of Equation 3, and may be any index that summarizes the analysis results of a plurality of scores obtained from a plurality of template images i. For example, it may be an average value of four maximum scores or an average value of four average scores. Also, instead of the ratio of the maximum score to the average score as in Expression 3, the difference between them may be used. In this case, the average value of the four differences corresponding to the four corners C may be used as the index of one.
  • the blur determination unit 110 determines whether or not the driver's license D1 in the photographed image I3 is blurred based on the result of the analysis performed by the analysis unit 109 .
  • the continuously generated photographed images I1 are processed, and the photographed images I3 are continuously acquired. is blurred.
  • the blur determination unit 110 determines whether or not the index (the left side of Equation 3) calculated by the analysis unit 109 is less than the threshold Th ratio based on Equation 3. If this index is less than the threshold Th ratio , it means that the driver's license D1 is blurred. If this index is equal to or greater than the threshold Th ratio , it means that the driver's license D1 is not blurred.
  • the photographed image I3 that satisfies Equation 3 is filtered and not sent to the server 20 .
  • a photographed image I3 that does not satisfy Expression 3 is transmitted to the server 20 .
  • the transmission unit 111 transmits the photographed image I ⁇ b>3 at least partially processed to the server 20 .
  • the transmission unit 111 transmits to the server 20 the captured image I3 determined not to be blurred.
  • determinations by the maximum score determination unit 107 and the distance determination unit 108 are also executed, so the transmission unit 111 receives the determination result of the maximum score determination unit 107, the determination result of the distance determination unit 108, and the blur determination unit 110.
  • the photographed image I3 is transmitted based on the determination result of .
  • the transmission unit 111 since filtering is performed according to Equations 1-3, transmits the captured image I3 that does not satisfy any of Equations 1-3.
  • the data storage unit 200 is implemented mainly by the storage unit 22 .
  • Other functions of the server 20 are realized mainly by the control unit 21 .
  • the data storage unit 200 stores data necessary for image processing.
  • the data storage unit 200 stores a user database and a template image database.
  • a user database is a database in which information about users is stored.
  • the user database stores the user ID, name, photographed image I3, and identity verification result.
  • the template image database is a database in which information about template image i is stored.
  • the template image database stores the sample image I2, the type of identity verification document, and the template image i.
  • any personal identification document can be used, so a template image i corresponding to the personal identification document selected by the user is sent to the user terminal 10 .
  • the receiving unit 201 receives, from the user terminal 10, the photographed image I3 at least partially processed. For example, the captured image I3 determined not to be blurred is received from the user terminal 10 . In this embodiment, since filtering is performed according to Equations 1-3, the receiving unit 201 receives the captured image I3 that does not satisfy any of Equations 1-3. The receiving unit 201 stores the received photographed image I3 in the user database.
  • the driver's license determining unit 202 determines whether or not the object shown in the captured image I3 is a predetermined driver's license D1, based on the captured image I3 at least partially processed.
  • the driver's license determination unit 202 determines whether or not the object shown in the captured image I3 is the predetermined driver's license D1, based on the captured image I3 determined not to be blurred.
  • the driver's license determining unit 202 may use more template images than the template image i used by the user terminal 10 to perform matching on the photographed image I3.
  • the driver's license determining unit 202 uses a learning model obtained by learning patterns of various driver's licenses using a machine learning method to determine whether or not the driver's license D1 is included in the photographed image I3. good too.
  • the driver's license determining unit 202 may perform optical character recognition on the captured image I3 and extract character strings such as the user's name from the captured image I3.
  • the request unit 203 requests the user terminal 10 to acquire the captured image I3 again when it is determined that the driver's license is not the predetermined driver's license D1.
  • This request may be any message that can be displayed, such as an app notification, push notification, e-mail, SMS, or SNS. This request may not be visible to the user.
  • the user terminal 10 acquires the captured image I1 again.
  • FIG. 15 is a flowchart showing an example of processing executed by the image processing system S.
  • the user terminal 10 acquires a photographed image I1 including the driver's license D1 based on the result of photographing by the photographing unit 16 (S1).
  • the user terminal 10 detects the line segment L relatively outside from the captured image I1 (S2).
  • the user terminal 10 acquires corner information indicating the position of the corner C based on the relatively outer line segment L (S3).
  • the user terminal 10 determines whether or not at least one corner C is outside the region of interest RoI based on the corner information (S4).
  • the user terminal 10 performs matching on the captured image I3 processed in S5 based on the template image i (S6).
  • the user terminal 10 determines whether the maximum score is less than the threshold for each region R (S7). If it is determined that the maximum score is less than the threshold (S7: Y), the process after S8 is not executed, and the process returns to S1. If it is determined that the maximum score is equal to or greater than the threshold (S7: N), the user terminal 10 obtains the position where the maximum score is obtained from the captured image I3, the position where the feature shown in the template image i should be, is calculated (S8).
  • the user terminal 10 determines whether the distance calculated in S8 is less than the threshold for each region R (S9). If it is determined that the distance is not less than the threshold value (S9: Y), the processing after S10 is not executed, and the processing returns to S1. If it is determined that the distance is less than the threshold (S9: N), the user terminal 10 performs analysis (S10).
  • the user terminal 10 determines whether or not the captured image I3 is blurred based on the analysis result in S10 (S11). If it is determined that the captured image I3 is blurred (S11: Y), the process after S12 is not executed, and the process returns to S1. If it is not determined that the captured image I3 is blurred (S11: N), the user terminal 10 transmits the processed captured image I3 to the server 20 (S12).
  • the server 20 receives the processed captured image I3 from the user terminal 10 (S13). Based on the photographed image I3, the server 20 uses more detailed matching and machine learning techniques to determine whether or not a driver's license is shown (S14). If it is not determined that the driver's license is shown (S14: N), the server 20 requests the user terminal 10 to reacquire the captured image I3 (S15). In this case, the user terminal 10 executes the process from S1 again. If it is determined that the driver's license is shown (S14: Y), this process ends. In this case, eKYC is performed based on the photographed image I3 transmitted to the server 20 .
  • the processing load on the user terminal 10 can be reduced because it is sufficient to execute image processing with a relatively small amount of calculation, such as detecting the line segment L instead of the feature point group.
  • the speed of image processing for the captured image I1 can be increased. Therefore, the processed photographed image I3 can be obtained in a short time. For example, even if the user terminal 10, such as a smartphone, has lower processing power than a personal computer, the processed captured image I3 can be obtained in a short time.
  • the processing load on the user terminal 10 can be reduced. For example, it is only necessary to pay attention to the corners C of the four corners, and there is no need to pay attention to a large number of feature point groups, so the amount of calculation is greatly reduced. Furthermore, in the case of an object such as a driver's license D1, in which the corner C is important as the shape of the contour, the processing accuracy is enhanced by paying attention to the corner C.
  • angle information can be obtained with simpler processing. Since the amount of calculation required to acquire angle information is reduced, the processing load on the user terminal 10 can be reduced more effectively.
  • the target area for line segment detection processing is reduced.
  • unnecessary line segments L are not detected, so the processing load on the user terminal 10 can be reduced more effectively.
  • the driver's license D1 it becomes easier for the user to grasp how to photograph the driver's license D1.
  • another object is actually photographed as the background of the driver's license D1.
  • the driver's license D1 placed on the desk is photographed, so the pattern of the desk is actually shown as the background of the photographed image I1.
  • the line segment L indicating the pattern of the desk may be detected, the line segment L indicating the background is less likely to be detected by processing the region of interest RoI.
  • the first configuration by detecting a plurality of line segments L whose both ends are included in the region of interest RoI and which are relatively outside the region of interest RoI, useful in processing the captured image I1.
  • the line segment L is detected, and the accuracy of processing is improved.
  • the line segment L indicating the contour of the driver's license D1 is relatively long and relatively outside the region of interest RoI. Based on the high line segment L, the photographed image I1 is processed, and the accuracy of processing is increased.
  • both ends are included within a predetermined distance from at least one end of the region of interest RoI, and by detecting a plurality of line segments relatively outside in the region of interest RoI , the line segment L useful in processing the photographed image I1 is detected, and the accuracy of processing is increased.
  • the line segment L indicating the contour of the driver's license D1 has both ends within a predetermined distance from the ends of the region of interest RoI, and is relatively outside the region of interest RoI.
  • the driver's license D1 when at least one corner of the driver's license D1 is not determined to be outside the region of interest RoI, highly accurate processing is possible by processing at least a portion of the captured image I1.
  • a photographed image I1 can be processed. Therefore, the machining accuracy is enhanced. If the driver's license D1 in the photographed image I1 is greatly distorted and highly accurate processing is difficult, processing is not performed, and unnecessary processing is not performed. Therefore, the processing load on the user terminal 10 can be reduced.
  • the line segment L useful in processing the captured image I1 is detected, and the processing accuracy is improved. increases.
  • the line segment L closest to the edge of the region of interest RoI has a high probability of showing the contour of the driver's license D1.
  • the photographed image I1 is processed based on the above, and the precision of the processing is increased.
  • the line segment L indicating the contour of the driver's license D1 is relatively long and has a relatively high probability of being on the outside. Based on the high line segment L, the photographed image I1 is processed, and the accuracy of processing is increased.
  • the processing load on the user terminal 10 and the processing load on the server 20 can be reduced.
  • the user terminal 10 processes the photographed image I1, and the server 20 determines whether or not the object shown in the photographed image I3 is the predetermined driver's license D1.
  • the server 20 determines whether or not the object shown in the photographed image I3 is the predetermined driver's license D1.
  • the driver's license D1 in the photographed image I3 is blurred.
  • the user terminal 10 such as a smartphone
  • the second configuration it is possible to determine whether or not the driver's license D1 is blurred by simpler processing by using the score indicating the degree of similarity with the features included in the template image i. Since the amount of calculation required to determine whether or not the driver's license D1 is blurred is reduced, the processing load on the user terminal 10 can be reduced more effectively.
  • the scores obtained from the plurality of regions R are used to determine whether the driver's license D1 is blurred by performing an analysis on the plurality of scores obtained for each template image i. can determine whether As a result, the accuracy of determining whether or not the driver's license D1 is blurred increases.
  • a driver's license can be obtained with a simpler process. It can be determined whether D1 is blurred. Since the amount of calculation required to determine whether or not the driver's license D1 is blurred is reduced, the processing load on the user terminal 10 can be reduced more effectively.
  • the driver's license can be obtained with simpler processing. Since it is possible to determine whether or not the signature D1 is blurred, the processing load on the user terminal 10 can be reduced more effectively.
  • the second configuration by performing analysis based on the value obtained by dividing the maximum score by the average score, it is possible to determine whether or not the driver's license D1 is blurred with simpler processing.
  • the processing load on the user terminal 10 can be effectively reduced.
  • the server 20 Since the photographed image I3 is transmitted to , it is possible to prevent the photographed image I3 not suitable for eKYC from being transmitted. For example, when a card or the like whose outline resembles the driver's license D1 but is completely different is photographed, the maximum score becomes small, so it can be detected that such a card or the like is photographed.
  • the result of determining whether or not the distance between the position of the captured image I3 for which the maximum score was acquired and the position of the feature in the template image is less than the threshold, and the blurring of the driver's license D1. Since the photographed image I3 is transmitted to the server 20 based on the determination result of whether or not the eKYC is suitable, it is possible to prevent the photographed image I3 not suitable for eKYC from being transmitted. For example, if the overall color of the card resembles that of the driver's license D1 but is completely different, the maximum score may increase to some extent, but the distance tends to increase. , it can be detected that such a card or the like is photographed.
  • the accuracy of matching is increased by performing matching on the photographed image I3 processed so that the contour of the driver's license D1 in the photographed image I1 approaches a predetermined contour. That is, if the driver's license D1 is distorted, there is a possibility that matching cannot be performed normally.
  • the determination accuracy of whether or not is also improved.
  • the second configuration based on the processed photographed image I3, it is determined whether or not the object shown in the photographed image I3 is the predetermined driver's license D1. Determination processing can be executed after processing into a state in which it is easy to determine whether or not there is. Therefore, the accuracy of determining whether or not it is the driver's license D1 is enhanced. Furthermore, it is possible to prevent the occurrence of the trouble of starting again from the acquisition of the photographed image I1 because it cannot be determined whether or not it is the driver's license D1. As a result, both the processing load on the user terminal 10 and the processing load on the server 20 can be reduced.
  • the user terminal 10 executes up to the determination of whether or not the driver's license D1 is blurred, and the server 20 determines that the object shown in the captured image I3 is the predetermined driver's license D1.
  • image processing can be distributed, and both the processing load on the user terminal 10 and the processing load on the server 20 can be reduced.
  • FIG. 16 is a functional block diagram of a modification of the first configuration.
  • the image processing system S of the modification of the first configuration when it is determined that at least one corner C is outside the region of interest RoI, based on the positional relationship between the at least one corner C and the region of interest RoI , a notification unit 112 for notifying at least one of the position, posture, and orientation of at least one of the driver's license D1 and the photographing unit 16 .
  • the above positional relationship is the direction in which the corner C outside the region of interest RoI is when viewed from the region of interest RoI.
  • the corner C protrudes to the lower right of the region of interest RoI, it is specified as the above positional relationship that the corner C protrudes to the lower right of the region of interest RoI.
  • the changing method described above can also be said to be a method of changing the positional relationship between the driver's license D1 and the photographing unit 16 . That is, the notification unit 112 notifies the method of changing at least one of the photographing position and the photographing direction for the driver's license D1.
  • the notification may be made visually on the captured image I1, or may be made by sound.
  • the data storage unit 100 stores the relationship between the positional relationship between the corner C outside the region of interest RoI and the region of interest RoI and the change method by the notification unit 112 .
  • the notification unit 112 Based on the position of the corner C and the position of the region of interest RoI, the notification unit 112 identifies the positional relationship between the corner C outside the region of interest RoI and the region of interest RoI.
  • the notification unit 112 performs notification based on the change method associated with the specified positional relationship.
  • the notification unit 112 may notify to rotate the driver's license D1 to the left, or to rotate the photographing unit 16 to the right. You may be notified to rotate. This makes it easier for the driver's license D1 to fit within the region of interest RoI.
  • the notification unit 112 sends the driver's license D1 and the image so that the corner C protruding outside the region of interest RoI returns to the region of interest RoI. At least one method of changing the position, posture, and orientation of at least one of the unit 16 may be notified.
  • the image processing system S may have the first configuration without the second configuration. That is, the image processing system S does not have to have both the first configuration and the second configuration, and may have only one of them. In this case, matching for the processed photographed image I3 may not be executed.
  • the user terminal 10 may transmit the captured image I3 as it is to the server 20 without performing matching on the processed captured image I3. Even in this way, it is not determined whether or not the driver's license D1 is blurred, but eKYC is performed based on the captured image I3 with the outline of the driver's license D1 in order, so efficient eKYC is possible. become.
  • the process of transmitting the captured image I3 to the server 20 has been described as the predetermined process executed based on the determination result of the blur determination unit 110.
  • the predetermined process may be any process, The process is not limited to the process of transmitting the captured image I3 to the server 20 .
  • the predetermined process may be a process of recording the captured image I3 in the user terminal 10.
  • the predetermined process may be a process of transmitting the captured image I3 to a computer other than the server 20.
  • FIG. The predetermined process may be a process of executing optical character recognition on the captured image I3 and extracting the user's name and the like.
  • a predetermined process may be executed based on the determination result of the maximum score determination unit 107 and the determination result of the blur determination unit 110.
  • a predetermined process may be executed based on the determination result of the distance determination unit 108 and the determination result of the blur determination unit 110 . That is, the predetermined process may be executed when none of the formulas 1 to 3 is satisfied.
  • the image processing system S may have the second configuration without having the first configuration. That is, the image processing system S does not have to have both the first configuration and the second configuration, and may have only one of them.
  • matching may be performed without processing the captured image I1.
  • the user terminal 10 may perform matching as it is without processing the captured image I1. By doing so, it is also possible to determine whether or not the driver's license D1 is blurred, so efficient eKYC is possible.
  • the filtering conditions in Equation 1 or Equation 2 may be omitted.
  • the condition for determining whether the driver's license D1 is blurred is not limited to the example of Equation 3.
  • the blur determination unit 110 may create a score probability distribution and determine whether or not the driver's license D1 is blurred based on the height and slope of the peaks in the probability distribution. If the probability distribution has a high peak and a steep slope, it means that a certain high score is locally present, which means that the driver's license D1 is clear. On the other hand, if the probability distribution has a low peak and a gentle slope, it means that scores of a certain degree are evenly distributed over a wide range, which means that the driver's license D1 is blurred.
  • the color of the border of the region of interest RoI may change when it is determined that the driver's license D1 is not blurred.
  • the user terminal 10 does not need to perform image processing on all of the captured images I1 that are continuously generated, and may perform image processing on only some of the captured images I1.
  • the image processing system S can be applied to any scene other than eKYC.
  • the image processing system S can be applied to situations where obstacles are recognized during automatic driving of a vehicle or aircraft.
  • the image processing system S can also be applied to a situation in which test questions in the form of mark sheets are graded.
  • the image processing system S can be applied to any scene where image processing is performed on an object image including an object to be recognized.
  • the user terminal 10 has described the case where the main processing is executed, but the processing described as being executed by the user terminal 10 may be executed by the server 20 .
  • the server 20 has the first configuration and the second configuration
  • the processing load on the server 20 can be reduced.
  • the processing may be divided between the user terminal 10 and the server 20 such that the user terminal 10 has the first configuration and the server 20 has the second configuration.
  • processing may be shared between the user terminal 10 and the server 20 such that the user terminal 10 has the second configuration and the server 20 has the first configuration.
  • data such as the captured image I3 may be appropriately transmitted between the user terminal 10 and the server 20 .

Abstract

画像処理システム(S)の画像取得手段(101)は、対象物を含む対象物画像を取得する。線分検出手段(102)は、所定の線分検出処理に基づいて、対象物画像から、相対的に外側にある複数の線分を検出する。情報取得手段(103)は、複数の線分に基づいて、対象物画像における対象物の輪郭に関する情報を取得する。加工手段(105)は、情報に基づいて、輪郭が所定の輪郭になる又は近づくように、対象物画像の少なくとも一部を加工する。

Description

画像処理システム、画像処理方法、及びプログラム
 本開示は、画像処理システム、画像処理方法、及びプログラムに関する。
 従来、対象物画像に含まれる対象物の輪郭が所定の輪郭になる又は近づくように、画像処理を実行する技術が知られている。特許文献1には、対象物が撮影された対象物画像から抽出された特徴点群と、対象物が撮影された見本画像から抽出された特徴点群と、をマッチングし、対象物画像における特徴点群の位置関係が見本画像における特徴点群の位置関係になる又は近づくように、対象物画像を加工する技術が記載されている。
国際公開第2020/008628号公報
 しかしながら、特許文献1の技術では、対象物画像に含まれる多数の特徴点を抽出する必要があるので、画像処理を実行するコンピュータの処理負荷が増大する可能性がある。例えば、スマートフォンのカメラで対象物を連続的に撮影し、連続的に生成された対象物画像に対して画像処理を実行しようとすると、特許文献1の技術では、スマートフォンの処理負荷が増大する。この点は、スマートフォン以外のコンピュータについても同様である。
 本開示の目的の1つは、コンピュータの処理負荷を軽減することである。
 本開示に係る画像処理システムは、対象物を含む対象物画像を取得する画像取得手段と、所定の線分検出処理に基づいて、前記対象物画像から、相対的に外側にある複数の線分を検出する線分検出手段と、前記複数の線分に基づいて、前記対象物画像における前記対象物の輪郭に関する情報を取得する情報取得手段と、前記情報に基づいて、前記輪郭が所定の輪郭になる又は近づくように、前記対象物画像の少なくとも一部を加工する加工手段と、を含む。
 本発明によれば、コンピュータの処理負荷を軽減できる。
画像処理システムの全体構成の一例を示す図である。 画像処理システムで実現される機能の一例を示す機能ブロック図である。 ユーザが運転免許証を撮影する様子の一例を示す図である。 線分検出部により実行される処理の一例を示す図である。 線分検出部により実行される処理の一例を示す図である。 線分検出部により実行される処理の一例を示す図である。 情報取得部により実行される処理の一例を示す図である。 右下の角が関心領域の外にある場合の一例を示す図である。 加工部により実行される処理の一例を示す図である。 加工部により実行される処理の一例を示す図である。 マッチング実行部により実行される処理の一例を示す図である。 マッチング実行部により実行される処理の一例を示す図である。 距離判定部により実行される処理の一例を示す図である。 分析部により実行される処理の一例を示す図である。 画像処理システムで実行される処理の一例を示すフロー図である。 第1の構成に関する変形例における機能ブロック図である。
[1.画像処理システムの全体構成]
 以下、本開示に係る画像処理システムの実施形態の例を説明する。図1は、画像処理システムの全体構成の一例を示す図である。画像処理システムSは、ユーザ端末10及びサーバ20を含む。ユーザ端末10及びサーバ20は、インターネット又はLAN等のネットワークNに接続可能である。画像処理システムSは、少なくとも1つのコンピュータを含めばよく、図1の例に限られない。
 ユーザ端末10は、ユーザのコンピュータである。例えば、ユーザ端末10は、スマートフォン、タブレット端末、パーソナルコンピュータ、又はウェアラブル端末である。制御部11は、少なくとも1つのプロセッサを含む。記憶部12は、RAM等の揮発性メモリと、ハードディスク等の不揮発性メモリと、を含む。通信部13は、有線通信用の通信インタフェースと、無線通信用の通信インタフェースと、の少なくとも一方を含む。操作部14は、タッチパネル等の入力デバイスである。表示部15は、液晶ディスプレイ又は有機ELディスプレイである。撮影部16は、少なくとも1つのカメラを含む。
 サーバ20は、サーバコンピュータである。制御部21、記憶部22、及び通信部23の物理的構成は、それぞれ制御部11、記憶部12、及び通信部13と同様であってよい。
 なお、記憶部12,22に記憶されるプログラム又はデータは、ネットワークNを介して供給されてもよい。また、サーバ20又はユーザ端末10に、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部(例えば、光ディスクドライブやメモリカードスロット)、又は、外部機器とデータの入出力をするための入出力部(例えば、USBポート)が含まれてもよい。例えば、情報記憶媒体に記憶されたプログラム又はデータが、読取部又は入出力部を介して供給されてもよい。
[2.画像処理システムの概要]
 本実施形態では、eKYC(electronic Know Your Customer)に画像処理システムSを適用する場合を例に挙げる。eKYCは、オンラインで行われる本人確認である。eKYCは、任意のサービスで利用可能である。例えば、通信サービス、金融サービス、電子決済サービス、電子決済サービス、保険サービス、又は行政サービスで、eKYCを利用可能である。eKYCが行われるタイミングも、任意のタイミングであってよく、例えば、サービスの申込時又は申込後のタイミングで、eKYCが行われる。
 eKYCでは、ユーザの本人確認書類(身分証明書)が確認される。本人確認書類は、任意の種類であってよく、例えば、運転免許証、保険証、住民票、個人番号カード、又はパスポートといった書類である。本実施形態では、ユーザの本人確認書類の一例として運転免許証を説明する。このため、運転免許証と記載した箇所は、本人確認書類と読み替えることができる。
 ユーザは、ユーザ端末10を操作して撮影部16で運転免許証を撮影し、サーバ20に撮影画像をアップロードする。サーバ20に撮影画像がアップロードされると、eKYCが行われる。eKYCは、光学文字認識等の画像処理を利用して自動的に実行されてもよいし、サービスの管理者による撮影画像の視認により行われてもよい。更に、画像処理と管理者による視認の両方が行われてもよい。
 本実施形態では、正面方向から運転免許証を撮影することが要求される場合を説明するが、eKYC自体は、公知の種々の方法を利用可能である。例えば、所定に姿勢になるように運転免許証を傾けて撮影したり、運転免許証を動かしたりすることが要求されてもよい。他にも例えば、ユーザの顔及び運転免許証の両方を撮影することが要求されてもよいし、ユーザにウインク等の動作をすることが要求されてもよい。
 例えば、ユーザがアップロードした撮影画像における運転免許証が歪んでいると、運転免許証の正当性を確認できない。そこで、ユーザ端末10は、運転免許証が正面を向くように撮影画像を加工するための画像処理を実行する。このような画像処理として、特徴点群を利用した画像処理も知られているが、特徴点群を利用する画像処理は、計算量が多いので、ユーザ端末10の処理負荷が増大する。本実施形態のユーザ端末10は、特徴点群ではなく線分を利用した画像処理を実行する第1の構成によって、処理負荷を軽減する。
 他にも例えば、ユーザがアップロードした撮影画像における運転免許証がぼやけていても、運転免許証の正当性を確認できない。そこで、ユーザ端末10は、運転免許証がぼやけているか否かを判定するための画像処理を実行する。このような画像処理も、特徴点群を利用した画像処理が知られているが、特徴点群を利用する画像処理は、計算量が多いので、ユーザ端末10の処理負荷が増大する。本実施形態のユーザ端末10は、特徴点群ではなくマッチングを利用した画像処理を実行する第2の構成によって、処理負荷を軽減する。以降、第1の構成及び第2の構成の詳細を説明する。
[3.画像処理システムで実現される機能]
 図2は、画像処理システムSで実現される機能の一例を示す機能ブロック図である。
[3-1.ユーザ端末で実現される機能]
 データ記憶部100は、記憶部12を主として実現される。ユーザ端末10の他の機能は、制御部11を主として実現される。データ記憶部100及び送信部111は、第1の構成及び第2の構成の両方に係る機能である。画像取得部101、線分検出部102、情報取得部103、角判定部104、及び加工部105は、主に第1の構成に係る機能である。画像取得部101、マッチング実行部106、最大スコア判定部107、距離判定部108、分析部109、及びぼやけ判定部110は、主に第2の構成に係る機能である。
[データ記憶部]
 データ記憶部100は、画像処理に必要なデータを記憶する。例えば、データ記憶部100は、先述したサービスを利用するためのアプリを記憶する。本実施形態では、このアプリの処理として、画像処理が実行される場合を説明するが、画像処理は、任意のプログラムの処理として実行されてよい。例えば、ブラウザから実行されるスクリプト又は他のプログラムの処理として、画像処理が実行されてもよい。データ記憶部100は、後述のテンプレート画像及び撮影画像を記憶してもよい。
[画像取得部]
 画像取得部101は、運転免許証を含む撮影画像を取得する。運転免許証は、対象物の一例である。運転免許証は、ユーザの本人確認書類の一例なので、ユーザの本人確認書類は、対象物の一例ということもできる。このため、運転免許証又は本人確認書類と記載した箇所は、対象物と読み替えることができる。撮影画像は、対象物画像の一例である。このため、撮影画像と記載した箇所は、対象物画像と読み替えることができる。
 対象物は、画像処理の対象となる物体である。最終的に特定の種類の物体を検出することを目的とした画像処理であれば、この物体が対象物に相当する。本実施形態のように、撮影画像が対象物画像に相当する場合には、被写体が対象物に相当する。後述のスキャン画像が対象物画像に相当する場合には、スキャナで読み取られた物体が対象物に相当する。後述のセンサ画像が対象物画像に相当する場合には、センサで検出された物体が対象物に相当する。対象物は、任意の物体であってよく、本人確認書類に限られない。例えば、人間、人間の特定の部位、人間以外の動物、建物、風景、標識、又はその他の任意の物体が対象物に相当してもよい。
 対象物画像は、対象物を含む画像である。対象物は、対象物画像の少なくとも一部に示される。対象物の一部を示す画素を少なくとも1つ含むことは、対象物を含むことに相当する。対象物画像には、対象物の一部だけが含まれてもよい。対象物画像は、対象物が取り込まれた画像ということもできる。本実施形態では、対象物画像は、本人確認書類が撮影部16により連続的に撮影されることによって生成された撮影画像である。この撮影画像は、動画を構成する個々の画像(フレーム)である。撮影部16のビデオ機能ではなくカメラ機能が利用される場合には、1枚の静止画が撮影画像に相当する。
 なお、対象物画像を生成する手段自体は、公知の種々の手段を利用可能であり、撮影部16に限られない。例えば、ユーザ端末10の外部にあるカメラにより、対象物画像が生成されてもよい。例えば、スキャナにより対象物画像が生成されてもよい。スキャナにより対象物画像が生成される場合には、スキャナの読取結果を示すスキャン画像が対象物画像に相当する。例えば、物体を検出可能なセンサ(例えば、赤外線センサ又は超音波センサ)により対象物画像が生成されてもよい。センサにより対象物画像が生成される場合には、センサの検出結果を示すセンサ画像が対象物画像に相当する。
 画像取得部101は、対象物画像を生成する任意の手段から対象物画像を取得する。対象物画像は、データ記憶部100に予め記憶されていてもよい。この場合、画像取得部101は、データ記憶部100から対象物画像を取得してもよい。対象物画像は、外部の情報記憶媒体又はコンピュータに記憶されていてもよい。この場合、画像取得部101は、外部の情報記憶媒体又はコンピュータから対象物画像を取得してもよい。
 図3は、ユーザが運転免許証を撮影する様子の一例を示す図である。図3では、架空の運転免許証を含む撮影画像I1を例に挙げる。図3のように、本実施形態では、ユーザが机の上に置いた運転免許証を撮影する場合を説明するが、運転免許証は、任意の方向から撮影可能である。例えば、ユーザは、運転免許証を手で持ったまま撮影してもよい。他にも例えば、ユーザは、自分の顔と運転免許証の両方が撮影部16の撮影範囲に含まれるように、顔の近くに運転免許証を持ったまま、撮影部16を自分の方に向けて撮影してもよい。図3の撮影画像I1は、背景を省略しているが、実際には、撮影画像I1には背景が含まれる。
 本実施形態では、画像取得部101は、撮影部16により連続的に生成された撮影画像I1を取得する。画像取得部101は、連続的に取得した撮影画像I1をデータ記憶部100に一時的に記録する。ユーザ端末10は、連続的に生成された撮影画像I1を表示部15に表示させる。本実施形態では、画像処理の対象となる関心領域RoIが表示部15に表示される。ユーザは、運転免許証D1の輪郭が関心領域RoIに合うように、かつ、運転免許証D1が関心領域RoIに収まるように、運転免許証を撮影する。
 本実施形態の関心領域RoIは、運転免許証D1の輪郭と同じ又は似た形状を有する。図3の例では、運転免許証D1は、いわゆる角丸四角形であり、関心領域RoIは、長方形なので、互いに似た形状(四角形という意味では同じ形状)である。関心領域RoIは、運転免許証D1の縦幅と横幅を所定倍した形状であってもよい。関心領域RoIは、運転免許証D1の輪郭とは異なる形状であってもよい。例えば、関心領域RoIは、円形又は楕円形であってもよい。本実施形態では、関心領域RoIが撮影画像I1の一部である場合を説明するが、関心領域RoIは、撮影画像I1の全部であってもよい。この場合、撮影画像I1の全体が画像処理の対象になる。
 本実施形態の運転免許証D1は、定型部分を含む。定型部分とは、内容が固定された部分であり、他のユーザの運転免許証D1と共通する部分である。例えば、定型部分は、文書における書式部分であり、特定の文字、記号、図形、枠線、イラスト、又は画像が描かれた部分である。定型部分は、文書固有の情報を含む部分ということもできる。運転免許証D1は、複数の定型部分を含んでもよい。定型部分は、任意の位置に配置可能であり、例えば、対象物の角付近に配置される。角付近とは、角から所定距離(例えば、1ミリメートル~2センチメートル)以内の位置である。図3の運転免許証D1のように、角丸四角形の場合には、運転免許証D1の輪郭のうち、運転免許証D1の中心点から最も離れた位置(例えば、四隅の円弧上の位置)が角に相当する。
 図3の運転免許証D1であれば、「DRIVER LICENSE」というタイトルは、定型部分の一例である。「NAME」、「BIRTH DAY」、「ADDRESS」、「DATE」、「EXPIRES」、及び「NUMBER」といった項目名も、定型部分の一例である。「JAPAN」という国名も、定型部分の一例である。「Tokyo Metropolitan Public Safety Commission」という機関の名称も、定型部分の一例である。なお、定型部分は、上記のような文字に限られず、運転免許証D1における日本の国旗を示す画像も、定型部分の一例である。また、上記の項目名等を囲む枠線も、定型部分の一例である。
 本実施形態の運転免許証D1は、非定型部分も含む。非定型部分とは、内容が固定されていない部分であり、他の文書とは内容が共通しない部分である。非定型部分は、文書における書式部分以外の部分であり、例えば、ユーザの氏名、誕生日、又は住所といった個人情報である。非定型部分は、ユーザ固有の情報を含む部分ということもできる。
 図3の運転免許証であれば、「YAMADA TARO」という氏名は、非定型部分の一例である。「June 23,1980」という生年月日も、非定型部分の一例である。「1-2-3 ABCcity Tokyo」という住所も、非定型部分の一例である。「July 25,2018」という発行日も、非定型部分の一例である。「July 25,2023」という有効期限日も、非定型部分の一例である。「1234 5678 9012」という免許証番号も、非定型部分の一例である。図3のユーザの顔写真も、非定型部分の一例である。ただし、顔写真の中身は、ユーザごとに異なるが、顔写真の枠線がユーザ間で共通であれば、この枠線は、定型部分になる。
[線分検出部]
 線分検出部102は、所定の線分検出処理に基づいて、撮影画像I1から複数の線分を検出する。線分検出処理は、画像内の線分を検出する処理である。線分は、運転免許証D1自体の輪郭、運転免許証D1に含まれる個々の要素(定型部分及び被定型部分)の輪郭、又はこれらの一部分を示す。線分検出処理は、直線検出処理又はエッジ検出処理と呼ばれることもある。線分検出処理自体は、公知の種々のアルゴリズムを利用可能であり、例えば、Hough変換又はLSD(Line Segment Detector)を利用可能である。本実施形態では、連続的に撮影画像I1が取得されるので、線分検出部102は、撮影画像I1ごとに、複数の線分を検出する。即ち、線分検出部102は、個々の撮影画像I1に対し、下記に説明する処理を実行して、複数の線分を検出する。
 図4~図6は、線分検出部102により実行される処理の一例を示す図である。図4の例では、線分検出部102は、撮影画像I1から複数の線分L1~L25を検出する。以降、線分L1~L25を区別しない時は、線分Lと記載する。運転免許証D1の写り具合によっては、本当は1本の線分だったとしても、線分L9,L10のように、複数に分断されることがある。また、1本の線分が端から端まで完全に検出されないことがあり、図4のように、一部のみが検出されることが多い。他にも例えば、ユーザが運転免許証D1を手で持ったまま撮影した場合には、運転免許証D1の輪郭が指で隠れるので、輪郭が複数の線分Lに分断されることがある。
 線分L1~L25のうち、線分L1~L4は、運転免許証D1の輪郭の一部を示す。線分検出部102は、運転免許証D1の輪郭の一部を示す複数の線分L1~L4を検出する。運転免許証D1の輪郭は、運転免許証D1の外枠又は縁ということもできる。本実施形態の運転免許証D1は、角丸四角形なので、運転免許証D1の輪郭は、上下左右の4本の線分と、四隅の円弧と、を含む。図4の例では、上下左右の全てに対応する線分L1~L4が検出された場合を示しているが、上下左右のうちの一部の線分Lだけが検出されることもある。
 線分検出部102は、撮影画像I1のうちの関心領域RoIに線分検出処理を実行し、関心領域RoIから線分L1~L25を検出する。線分検出部102は、関心領域RoIの一部に対してのみ、線分検出処理を実行してもよい。例えば、線分検出部102は、関心領域RoIの外側から順番に線分検出処理を実行してもよい。この場合、線分検出部102は、関心領域RoIの端部ごとに、当該端部から最も近い線分Lを検出した場合に、当該端部に対応する線分検出処理を終了してもよい。
 なお、撮影画像I1には、特に関心領域RoIが設定されなくてもよい。この場合、線分検出部102は、撮影画像I1の全体に線分検出処理を実行し、撮影画像I1の全体から線分Lを検出してもよい。他にも例えば、線分検出部102は、撮影画像I1の外側から順番に線分検出処理を実行してもよい。この場合、線分検出部102は、撮影画像I1の端部ごとに、当該端部から最も近い線分Lを検出した場合に、当該端部に対応する線分検出処理を終了してもよい。
 線分検出部102は、所定の線分検出処理に基づいて、撮影画像I1から、相対的に外側にある複数の線分L1~L4を検出する。本実施形態では、関心領域RoIが設定されるので、線分検出部102は、撮影画像I1の関心領域RoIにおいて相対的に外側にある複数の線分L1~L4を検出する。例えば、線分検出部102は、関心領域RoIに両端が含まれており、かつ、関心領域RoIにおいて相対的に外側にある複数の線分L1~L4を検出する。
 本実施形態では、線分検出部102は、関心領域RoIの少なくとも1つの端部から所定距離以内に両端が含まれており、かつ、関心領域において相対的に外側にある複数の線分を検出する。図5では、関心領域RoIの上下左右の何れかの端部から所定距離以内にある場所を、網掛けで示している。所定距離は、相対的に端部に近い位置を定義可能であればよく、任意の長さであって良い。例えば、関心領域RoIの縦幅又は横幅の10%~30%程度の幅の領域であってもよい。
 図5の例では、線分検出部102は、相対的に端部に近い線分Lとして、網掛けの領域に含まれる線分L1~L8,L11,L24,L25を検出する。その後、図6のように、線分検出部102は、関心領域RoIの端部ごとに、当該端部に最も近い線分を検出することによって、複数の線分L1~L4を検出する。例えば、線分検出部102は、関心領域RoIの上端に最も近い線分L1を検出する。線分検出部102は、関心領域RoIの左端に最も近い線分L2を検出する。線分検出部102は、関心領域RoIの下端に最も近い線分L3を検出する。線分検出部102は、関心領域RoIの右端に最も近い線分L4を検出する。
 なお、線分検出部102は、相対的に長く、かつ、相対的に外側にある複数の線分を検出してもよい。例えば、線分検出部102は、線分L3,L25が関心領域RoIの下端から同程度の距離にあったとすると、より長い線分L3を検出してもよい。最初に実行される線分検出処理で、線分Lの長さの閾値が設定されてもよい。即ち、線分検出部102は、閾値以上の長さの線分Lとして、線分L1~L25を検出してもよい。閾値の設定自体も、公知の線分検出処理における設定方法を利用可能である。また、線分検出部102は、関心領域RoIにおける最も外側の線分Lではなく、2番目又は3番目以降に外側の線分Lを検出してもよい。線分検出部102は、他の線分Lよりも相対的に外側の線分Lを検出すればよい。
[情報取得部]
 情報取得部103は、複数の線分L1~L4に基づいて、撮影画像I1における運転免許証D1の輪郭に関する情報を取得する。輪郭に関する情報は、運転免許証D1の輪郭の少なくとも一部の位置に関する情報である。例えば、運転免許証D1の輪郭上の少なくとも1つの位置、又は、その付近の位置(輪郭から所定距離以内の位置)を示す情報は、輪郭に関する情報に相当する。撮影画像I1上の位置は、任意の方法で表現可能であり、例えば、左上を原点とするスクリーン座標系の座標で表現される。
 本実施形態では、情報取得部103は、輪郭に関する情報として、撮影画像I1における運転免許証D1の複数の角に関する角情報を取得する場合を説明する。このため、角情報と記載した箇所は、輪郭に関する情報と読み替えることができる。角情報は、運転免許証D1の複数の角の各々の位置、又は、その付近の位置(角から所定距離以内の位置)を示す情報である。角情報には、運転免許証D1の全部又は一部の角の位置を示す。本実施形態では、連続的に撮影画像I1が取得されるので、情報取得部103は、撮影画像I1ごとに、角情報を取得する。即ち、線分検出部102は、個々の撮影画像I1に対し、下記に説明する処理を実行して、複数の線分を検出する。
 図7は、情報取得部103により実行される処理の一例を示す図である。図7のように、情報取得部103は、複数の線分L1~L4の少なくとも1つを延長することによって複数の角C1~C4の位置を推定することによって、角情報を取得する。以降、角C1~C4を区別しない時は、単に角Cと記載する。例えば、情報取得部103は、線分L1~L4の両端を互いに交差するまで延長する。情報取得部103は、延長した線分同士の交点を、角C1~C4として検出する。本実施形態では、運転免許証D1が角丸四角形なので、この交点は、厳密には角の位置ではないが、角とみなせるほど近い位置にあるので、本実施形態では角とみなすものとする。
 例えば、情報取得部103は、上側の輪郭を示す線分L1と、左側の輪郭を示す線分L2と、の交点を、左上の角C1として検出する。情報取得部103は、左側の輪郭を示す線分L2と、下側の輪郭を示す線分L3と、の交点を、左下の角C2として検出する。情報取得部103は、下側の輪郭を示す線分L3と、右側の輪郭を示す線分L4と、の交点を、右下の角C3として検出する。情報取得部103は、上側の輪郭を示す線分L1と、右側の輪郭を示す線分L4と、の交点を、右上の角C4として検出する。
 なお、情報取得部103は、運転免許証D1の本当の角である四隅の円弧上の位置に近づくように、角C1~C4の位置を補正してもよい。この場合、情報取得部103は、交点である角C1~C4がこれらの中心点に若干近づくように、角C1~C4の位置を補正する。また、運転免許証D1の縦横比は予め分かっているので、情報取得部103は、4つの角C1~C4のうちの3つの位置関係から残り1つ位置を推定してもよい。例えば、情報取得部103は、3本の線分L1~L3を延長して角C1~C3を検出する。情報取得部103は、角C1,C3から、角C1~C3の位置関係に応じた方向及び距離だけ離れた位置を、角C4として検出してもよい。
[角判定部]
 角判定部104は、角情報に基づいて推定された運転免許証D1の少なくとも1つの角Cが関心領域RoIの外にあるか否かを判定する。撮影画像I1における関心領域RoIの位置を識別可能なデータは、データ記憶部100に記憶されているものとする。例えば、このデータは、関心領域RoIの四隅の座標である。角判定部104は、角Cごとに、撮影画像I1における当該角Cの位置が関心領域RoIの外であるか否かを判定する。図7の例であれば、角判定部104は、4つの角C1~C4の全てが関心領域RoIの中にあると判定する。
 図8は、右下の角C3が関心領域RoIの外にある場合の一例を示す図である。図8の撮影画像I1も、線分検出部102及び情報取得部103の処理によって、角C1~C4が検出される。図8の例では、角判定部104は、角C1~C3は関心領域RoIの中にあると判定するが、角C4は関心領域RoIの外にあると判定する。例えば、運転免許証D1が関心領域RoIに収まらないように撮影されると、少なくとも1つの角Cが関心領域RoIの外に出る。他にも例えば、運転免許証D1が関心領域RoIに収まっていたとしても、大きく歪んでいれば、線分Lを延長してもなかなか交わらないため、少なくとも1つの角Cが関心領域RoIの外に出ることがある。
[加工部]
 加工部105は、情報取得部103により取得された角情報に基づいて、撮影画像I1における運転免許証D1の輪郭が所定の輪郭に近づくように、撮影画像I1の少なくとも一部を加工する。本実施形態では、連続的に撮影画像I1が取得されるので、加工部105は、撮影画像I1ごとに、加工を行う。
 所定の輪郭とは、目標となる輪郭である。運転免許証D1を正面方向から所定の距離で撮影した場合の輪郭は、所定の輪郭の一例である。あえて運転免許証D1を傾けて撮影することが要求される場合には、運転免許証D1と撮影部16との位置関係が所定の位置関係で撮影した場合の輪郭が、所定の輪郭に相当する。所定の輪郭は、所定の形状を有する輪郭であればよい。
 所定の輪郭になるとは、画像処理後の輪郭が所定の輪郭と一致することである。所定の輪郭に近づくとは、画像処理後の輪郭と所定の輪郭とが一致はしないが、画像処理後の輪郭と所定の輪郭とのずれが、画像処理前の輪郭と所定の輪郭とのずれよりも小さくなることである。
 加工とは、線型変換(例えば、拡大縮小、切り取り、回転)及び平行移動の少なくとも一方を実行することである。加工は、変換、整形、又は編集と呼ばれることもある。本実施形態では、撮影画像I1のうち、角C1~C4で囲われた領域内が加工の対象になる場合を説明するが、撮影画像I1の全体が加工の対象になってもよい。他にも例えば、撮影画像I1のうちの関心領域RoIの全体が加工の対象になってもよい。撮影画像I1のうちの全部又は一部に対して加工が行われるようにすればよい。
 図9及び図10は、加工部105により実行される処理の一例を示す図である。本実施形態では、加工部105は、図9の見本画像I2を利用して加工を行う。見本画像I2は、先述した所定の輪郭を含む画像である。このため、撮影画像I1に含まれる運転免許証D1の輪郭を、見本画像I2に含まれる運転免許証D2の輪郭になる又は近づくように加工できれば、eKYCに適したものとすることができる。
 図9の見本画像I2は、見本となる運転免許証D2を正面方向から所定の距離で撮影した画像である。運転免許証D2は、対象物である運転免許証D1とは異なる人物のものであるが、定型部分は原則として同じである。運転免許証D1の定型部分と、運転免許証D2の定型部分と、が異なっていてもよいが、運転免許証D1の輪郭と、運転免許証D2の輪郭と、は互いに同じ又は類似するものとする。ここでの類似とは、輪郭の違いが所定値未満であることを意味する。例えば、縦幅の長さの違い、横幅の長さの違い、角の位置の違い、又はこれらの複数の違いが所定値未満であることは、輪郭が類似することを意味する。
 例えば、見本画像I2に対し、線分検出部102及び情報取得部103による処理が実行されて、見本となる角C5~C8が検出される。角C5~C8は、サービスの管理者が手動で指定してもよいし、他の画像処理によって検出されてもよい。データ記憶部100には、角C5~C8の位置を識別可能な情報が予め記憶されているものとする。例えば、この情報は、角C5~C8の座標である。
 加工部105は、情報取得部103により取得された角情報に基づいて、複数の角C1~C4の位置関係が所定の位置関係になる又は近づくように、撮影画像I1の少なくとも一部を加工する。所定の位置関係とは、理想的な位置関係である。角C5~C8の位置関係は、所定の位置関係の一例である。あえて運転免許証D1を傾けて撮影することが要求される場合には、運転免許証D1と撮影部16との位置関係が所定の位置関係で撮影した場合の角の位置関係が、所定の位置関係に相当する。
 所定の位置関係になるとは、画像処理後の位置関係が所定の位置関係と一致することである。所定の位置関係に近づくとは、画像処理後の位置関係と所定の位置関係とが一致しないが、画像処理後の位置関係と所定の位置関係とのずれが、画像処理前の位置関係と所定の位置関係とのずれよりも小さくなることである。図10のように、例えば、加工部105は、角C1~C4の位置関係が角C5~C8の位置関係に近づくように、撮影画像I1に対してアフィン変換を行う。アフィン変換以外にも射影変換等の任意の変換処理を利用可能である。本実施形態では、加工後の撮影画像にI3の符号を付与する。
 本実施形態では、加工部105は、少なくとも1つの角Cが関心領域RoIの外にあると判定されない場合に、撮影画像I1の少なくとも一部を加工する。即ち、加工部105は、全ての角Cが関心領域RoIの中にあると判定されない場合に、撮影画像I1の少なくとも一部を加工する。このため、加工部105は、少なくとも1つの角Cが関心領域RoIの外にあると判定された場合には、撮影画像I1の少なくとも一部を加工する処理は実行しない。
 なお、加工部105は、角情報ではなく、情報取得部103により取得された他の情報に基づいて、加工を実行してもよい。例えば、運転免許証D1の輪郭に関する情報として、角情報ではなく、線分L1~L4を延長して交点により形成される四角形の輪郭を利用してもよい。この場合、加工部105は、運転免許証D1に対応する四角形が、運転免許証D2に対応する四角形になる又は近づくように、撮影画像I1の少なくとも一部を加工してもよい。他にも例えば、十分な長さの線分L1~L4が検出された場合には、角Cが特定されることなく、線分L1~L4を示す情報が輪郭に関する情報として取得され、加工部105による処理が実行されてもよい。
[マッチング実行部]
 以上説明した機能が第1の構成の主な機能である。以降説明する機能は、主に第2の構成の機能である。マッチング実行部106は、運転免許証D1に関する特徴を含むテンプレート画像に基づいて、撮影画像I3に対するマッチングを実行する。運転免許証D1に関する特徴とは、運転免許証D1の全部又は一部の視覚的な特徴である。例えば、運転免許証D1に関する特徴は、運転免許証D1に形成された画像(例えば、背景、文字、数字、記号、図形、表、写真、模様、ホログラム等)の特徴である。画像の特徴とは、輪郭、色、輝度、又はこれらの組み合わせである。
 テンプレート画像は、見本となる特徴を含む画像である。本実施形態では、運転免許証D1の定型部分が特徴として利用されるので、テンプレート画像に含まれる特徴は、この定型部分である。複数の定型部分がマッチングで利用される場合、テンプレート画像は、定型部分ごとに用意されている。テンプレート画像は、データ記憶部100に予め記憶されているものとする。本実施形態では、図9の見本画像I2の一部がテンプレート画像として利用される。マッチング自体は、公知のマッチング手法を利用可能である。マッチングは、テンプレートマッチング又はパターンマッチングと呼ばれることもある。
 図11及び図12は、マッチング実行部106により実行される処理の一例を示す図である。図11は、撮影画像I3における運転免許証D1が鮮明である場合を示し、図12は、撮影画像I3における運転免許証D1がぼやけている場合を示す。図11及び図12のように、マッチング実行部106は、撮影画像I3における運転免許証D1の角C1~C4付近の領域R1~R4に対し、マッチングを実行する。以降、領域R1~R4を区別しない時は、単に領域Rと記載する。
 角C付近の領域Rとは、角Cを含む領域、又は、角Cを含まないが角Cから所定距離以内にある領域である。図11及び図12の例では、領域Rは、100ピクセル×100ピクセルとするが、領域Rのサイズ及び形状は、任意であってよい。図11及び図12では、角C1付近の領域R1に対するマッチングを例に挙げるが、角C2~C4付近の領域R2~R4に対するマッチングも同様にして実行される。
 例えば、マッチング実行部106は、領域R1に対応するテンプレート画像i1を、データ記憶部100から取得する。本実施形態のテンプレート画像i1は、領域R1よりも小さいものとするが、テンプレート画像i1のサイズと、領域R1のサイズと、は同じであってもよい。マッチング実行部106は、領域R1内でテンプレート画像i1を移動させながら、領域R1における現在の位置に対応するスコアを計算する。
 スコアは、テンプレート画像i1に含まれる定型部分との類似度を示す。図11及び図12の例では、定型部分は「DR」の文字列である。スコアは、ベクトル形式等の任意の形式で表現可能である。スコアの計算方法自体は、公知のマッチングで利用される計算式を利用可能である。本実施形態では、マッチング実行部106がSSD(Sum of Squared Difference)に基づいてスコアを計算する場合を説明するが、マッチング実行部106は、SAD(Sum of Absolute Difference)等の他の任意の計算方法に基づいて、スコアを計算してもよい。
 本実施形態では、スコアが示す数値が大きいことは、テンプレート画像i1と類似することを意味する場合を説明するが、SAD等の計算方法が利用される場合には、スコアが示す数値が小さいことが、テンプレート画像i1と類似することを意味してもよい。例えば、領域R1が100ピクセル×100ピクセルであり、テンプレート画像i1が10ピクセル×10ピクセルだったとする(図11では長方形であるが、説明の簡略化のために、ここでは正方形とする)。この場合、マッチング実行部106は、テンプレート画像i1を1ピクセルずつ移動させたとすると、90×90個のスコアを取得する。マッチングにおけるスライド幅(1回当たりのテンプレート画像i1の移動量)は、1ピクセルに限られず、任意のピクセル数であってよい。
 マッチング実行部106は、角C2~C4付近の領域R2~R4に対するマッチングも同様にして実行する。例えば、マッチング実行部106は、領域R2~R4に対応するテンプレート画像i2~i4を、データ記憶部100から取得する。マッチング実行部106は、領域R2~R4の各々の中で、テンプレート画像i2~i4の各々を移動させながら、個々の位置に対応するスコアを計算する。以降、テンプレート画像i1~i4を区別しない時は、単にテンプレート画像iと記載する。マッチング実行部106は、テンプレート画像iごとに、マッチングを実行すればよい。
 本実施形態では、加工部105による加工が実行された後にマッチングが実行されるので、マッチング実行部106は、少なくとも一部が加工された撮影画像I3に対するマッチングを実行する。本実施形態では、連続的に生成された撮影画像I1が加工され、連続的に撮影画像I3が取得されるので、マッチング実行部106は、撮影画像I3ごとに、マッチングを実行する。ただし、角Cが関心領域RoIの外に出た撮影画像I1については、加工後の撮影画像I3が取得されないので、マッチングの対象とはならない。
[最大スコア判定部]
 最大スコア判定部107は、複数のスコアのうちの最大スコアが閾値未満であるか否かを判定する。最大スコアは、マッチング実行部106により計算されたスコアの中で、最も類似することを示すスコアである。図11のように運転免許証D1が鮮明であれば最大スコアは高くなり、図12のように運転免許証D1がぼやけていれば最大スコアは低くなる。輪郭は運転免許証D1と似ているが、運転免許証D1以外のものが撮影されている場合にも、最大スコアは低くなる。他にも例えば、運転免許証D1ではあるが、裏面が撮影されている場合にも最大スコアは低くなる。
 閾値は、全ての領域Rで共通であってもよいし、領域Rごとに定められていてもよい。ただし、この閾値を高く設定しすぎると、eKYCが成功しにくくなりユーザの利便性が低下するので、あまり高すぎない値(例えば、テンプレート画像iと完全に一致する場合の理論上の最大スコアの70%~90%程度)になるように設定される。このため、図12のように運転免許証D1がぼやけていたとしても、多少のぼやけであれば、最大スコアは閾値以上になることがある。更に、運転免許証D1ではないが、色や模様等が運転免許証D1と似たものが撮影されていれば、最大スコアが閾値以上になることがある。
 本実施形態では、複数の領域Rに対してマッチングが実行されるので、最大スコア判定部107は、領域Rごとに、当該領域Rの最大スコアが閾値未満であるか否かを判定する。例えば、ある領域Rの最大スコアをSmaxとし、閾値をThtmとする。最大スコア判定部107は、領域Rごとに、最大スコアSmaxを取得する。最大スコア判定部107は、領域Rごとに、最大スコアSmaxが閾値Thtm未満であるか否かを判定する。下記数式1のように、最大スコアSmaxが閾値Thtm未満である撮影画像I3は、フィルタリングされて後述のぼかし判定部の処理が実行されない。
Figure JPOXMLDOC01-appb-M000001
[距離判定部]
 距離判定部108は、複数のスコアのうちの最大スコアが取得された位置と、テンプレート画像iに示された特徴があるべき位置と、の距離が閾値未満であるか否かを判定する。テンプレート画像iに示された特徴があるべき位置を識別可能な情報は、データ記憶部100に予め記憶されているものとする。本実施形態では、テンプレート画像iに示された特徴があるべき位置は、個々の領域Rの中心点(図13の例であれば、100ピクセル×100ピクセルの中の中心点)である場合を説明するが、この位置は、マッチングの対象となる領域R内の任意の位置であってよい。閾値は、全ての領域Rで共通であってもよいし、領域Rごとに定められていてもよい。
 図13は、距離判定部108により実行される処理の一例を示す図である。本実施形態では、複数の領域Rに対してマッチングが実行されるので、距離判定部108は、領域Rごとに、最大スコアが取得された位置と、テンプレート画像iに示された特徴があるべき位置と、の距離が閾値未満であるか否かを判定する。例えば、ある領域Rの最大スコアが取得された位置をPosmaxとし、テンプレート画像iに示された特徴があるべき位置をPoscenterとする。距離判定部108は、領域Rごとに、位置Posmax及び位置Poscenterの距離が閾値Thdist未満であるか否かを判定する。下記数式2のように、位置Posmax及び位置Poscenterの距離が閾値Thdistよりも大きければ、フィルタリングされて後述のぼかし判定部の処理が実行されない。
Figure JPOXMLDOC01-appb-M000002
[分析部]
 分析部109は、マッチングで取得された複数のスコアを分析する。本実施形態では、連続的に生成された撮影画像I1が加工され、連続的に撮影画像I3が取得されるので、分析部109は、撮影画像I3ごとに、複数のスコアを分析する。スコアの分析自体は、任意の方法により行われてよいが、本実施形態では、分散分析が利用される場合を説明する。分散分析では、複数のスコアの分散具合(偏り具合)が分析される。即ち、個々のスコア間の差の大きさが分析される。分散分析のアルゴリズム自体は、公知のアルゴリズムを利用可能であり、例えば、js-STAR又はAIST-ANOVAと呼ばれるアルゴリズムが利用されてもよい。
 図14は、分析部109により実行される処理の一例を示す図である。図14では、角C1付近の領域R1に対するマッチングで取得されたスコアの分析を例に挙げる。例えば、分析部109は、複数のスコアのうちの最大スコアと、複数のスコアに基づいて計算された平均スコアと、に基づいて、複数のスコアを分析する。例えば、平均スコアをSmeanとする。分析部109は、下記数式3に基づいて、最大スコアSmaxを平均スコアSmeanで割った値を計算することによって、複数のスコアを分析する。
Figure JPOXMLDOC01-appb-M000003
 本実施形態では、複数のテンプレート画像iが用いられるので、分析部109は、テンプレート画像iごとに取得された複数のスコアを分析する。個々のテンプレート画像iに応じた分析の処理内容は、上記説明した通りである。即ち、分析部109は、角C2~C4に対応する領域R2~R4についても、領域R1と同様にして、最大スコアSmaxを平均スコアSmeanで割った値を計算する。分析部109は、上記数式3の左辺の値を計算することによって、分析を実行する。数式3のNは、領域Rの数を示す自然数であり、本実施形態では、Nは4である。数式3の閾値Thratioとの比較は、ぼやけ判定部110によって実行される。
 以上のように、本実施形態の分析部109は、テンプレート画像iごとに取得された複数のスコアに基づいて、1の指標を計算することによって、複数のスコアを分析する。この指標は、数式3の左辺である。この指標は、数式3の例に限られず、複数のテンプレート画像iから取得された複数のスコアの分析結果を1つにまとめるものであればよい。例えば、4つの最大スコアの平均値であってもよいし、4つの平均スコアの平均値であってもよい。また、数式3のような最大スコアと平均スコアの比率ではなく、これらの差分が利用されてもよい。この場合、4つの角Cに対応する4つの差分の平均値が1の指標として利用されてもよい。
[ぼやけ判定部]
 ぼやけ判定部110は、分析部109による分析の実行結果に基づいて、撮影画像I3における運転免許証D1がぼやけているか否かを判定する。本実施形態では、連続的に生成された撮影画像I1が加工され、連続的に撮影画像I3が取得されるので、ぼやけ判定部110は、撮影画像I3ごとに、撮影画像I3における運転免許証D1がぼやけているか否かを判定する。ぼやけ判定部110は、数式3に基づいて、分析部109により計算された指標(数式3の左辺)が閾値Thratio未満であるか否かを判定する。この指標が閾値Thratio未満であることは、運転免許証D1がぼやけていることを意味する。この指標が閾値Thratio以上であることは、運転免許証D1がぼやけていないことを意味する。数式3を満たす撮影画像I3はフィルタリングされ、サーバ20に送信されない。数式3を満たさない撮影画像I3がサーバ20に送信される。
[送信部]
 送信部111は、サーバ20に、少なくとも一部が加工された撮影画像I3を送信する。例えば、送信部111は、サーバ20に、ぼやけていないと判定された撮影画像I3を送信する。本実施形態では、最大スコア判定部107及び距離判定部108の判定も実行されるので、送信部111は、最大スコア判定部107の判定結果、距離判定部108の判定結果、及びぼやけ判定部110の判定結果に基づいて、撮影画像I3を送信する。本実施形態では、数式1~3によってフィルタリングが実行されるので、送信部111は、数式1~3の何れにも該当しない撮影画像I3を送信する。
[3-2.サーバで実現される機能]
 データ記憶部200は、記憶部22を主として実現される。サーバ20の他の機能は、制御部21を主として実現される。
[データ記憶部]
 データ記憶部200は、画像処理に必要なデータを記憶する。例えば、データ記憶部200は、ユーザデータベースと、テンプレート画像データベースと、を記憶する。ユーザデータベースは、ユーザに関する情報が格納されたデータベースである。例えば、ユーザデータベースには、ユーザID、名前、撮影画像I3、及び本人確認結果が格納される。テンプレート画像データベースは、テンプレート画像iに関する情報が格納されたデータベースである。例えば、テンプレート画像データベースには、見本画像I2、本人確認書類の種類、及びテンプレート画像iが格納される。eKYCでは、任意の本人確認書類を利用可能なので、ユーザが選択した本人確認書類に応じたテンプレート画像iがユーザ端末10に送信される。
[受信部]
 受信部201は、ユーザ端末10から、少なくとも一部が加工された撮影画像I3を受信する。例えば、ユーザ端末10から、ぼやけていないと判定された撮影画像I3を受信する。本実施形態では、数式1~3によってフィルタリングが実行されるので、受信部201は、数式1~3の何れにも該当しない撮影画像I3を受信する。受信部201は、受信した撮影画像I3をユーザデータベースに格納する。
[運転免許証判定部]
 運転免許証判定部202は、少なくとも一部が加工された撮影画像I3に基づいて、撮影画像I3に示された対象物が所定の運転免許証D1であるか否かを判定する。運転免許証判定部202は、ぼやけていないと判定された撮影画像I3に基づいて、撮影画像I3に示された対象物が所定の運転免許証D1であるか否かを判定する。例えば、運転免許証判定部202は、ユーザ端末10が利用したテンプレート画像iよりも多いテンプレート画像を利用して、撮影画像I3に対するマッチングを実行してもよい。例えば運転免許証判定部202は、機械学習手法によって種々の運転免許証のパターンを学習させた学習モデルを利用して、撮影画像I3に運転免許証D1が含まれているか否かを判定してもよい。例えば、運転免許証判定部202は、撮影画像I3に対して光学文字認識を実行し、撮影画像I3からユーザの氏名等の文字列を抽出してもよい。
[要求部]
 要求部203は、所定の運転免許証D1ではないと判定された場合に、ユーザ端末10に、撮影画像I3を再び取得するように要求する。この要求は、何らかのメッセージを表示可能なものであればよく、例えば、アプリ上の通知、プッシュ通知、電子メール、SMS、又はSNSであってもよい。この要求は、ユーザに視認可能なものでなくてもよい。ユーザ端末10は、この要求を受信した場合に、再び撮影画像I1の取得を行う。
[4.画像処理システムSで実行される処理]
 図15は、画像処理システムSで実行される処理の一例を示すフロー図である。図15のように、ユーザ端末10は、撮影部16による撮影結果に基づいて、運転免許証D1を含む撮影画像I1を取得する(S1)。ユーザ端末10は、線分検出処理に基づいて、撮影画像I1から、相対的に外側にある線分Lを検出する(S2)。ユーザ端末10は、相対的に外側にある線分Lに基づいて、角Cの位置を示す角情報を取得する(S3)。ユーザ端末10は、角情報に基づいて、少なくとも1つの角Cが関心領域RoIの外にあるか否かを判定する(S4)。
 角C1~C4の何れかが関心領域RoIの外にあると判定された場合(S4:N)、S5以降の処理は実行されず、S1の処理に戻る。角C1~C4の何れかが関心領域RoIの外にあると判定されない場合(S4:N)、ユーザ端末10は、撮影画像I1における角C1~C4の位置関係が見本画像I2における角C5~C8の位置関係に近づくように、撮影画像I1を加工する(S5)。
 ユーザ端末10は、テンプレート画像iに基づいて、S5で加工された撮影画像I3にマッチングを実行する(S6)。ユーザ端末10は、領域Rごとに、最大スコアが閾値未満であるか否かを判定する(S7)。最大スコアが閾値未満であると判定された場合(S7:Y)、S8以降の処理は実行されず、S1の処理に戻る。最大スコアが閾値以上であると判定された場合(S7:N)、ユーザ端末10は、撮影画像I3から最大スコアが取得された位置と、テンプレート画像iに示された特徴があるべき位置と、の距離を計算する(S8)。
 ユーザ端末10は、領域Rごとに、S8で計算された距離が閾値未満であるか否かを判定する(S9)。距離が閾値未満であると判定されない場合(S9:Y)、S10以降の処理は実行されず、S1の処理に戻る。距離が閾値未満であると判定された場合(S9:N)、ユーザ端末10は、分析を実行する(S10)。
 ユーザ端末10は、S10における分析結果に基づいて、撮影画像I3がぼやけているか否かを判定する(S11)。撮影画像I3がぼやけていると判定された場合(S11:Y)、S12以降の処理は実行されず、S1の処理に戻る。撮影画像I3がぼやけていると判定されない場合(S11:N)、ユーザ端末10は、サーバ20に、加工された撮影画像I3を送信する(S12)。
 サーバ20は、ユーザ端末10から、加工された撮影画像I3を受信する(S13)。サーバ20は、撮影画像I3に基づいて、より詳細なマッチングや機械学習手法を利用して、運転免許証が写っているか否かを判定する(S14)。運転免許証が写っていると判定されない場合(S14:N)、サーバ20は、ユーザ端末10に、撮影画像I3を取得し直すように要求する(S15)。この場合、ユーザ端末10では、S1の処理から再び実行される。運転免許証が写っていると判定された場合(S14:Y)、本処理は終了する。この場合、サーバ20に送信された撮影画像I3に基づいて、eKYCが行われる。
[第1の構成のまとめ]
 画像処理システムSの第1の構成によれば、相対的に外側にある複数の線分L1~L4(即ち、運転免許証D1の確率が高い線分L)に基づいて、撮影画像I1における運転免許証D1の輪郭に関する情報を取得する。第1の構成では、この情報に基づいて、この輪郭が所定の輪郭になる又は近づくように、撮影画像I1の少なくとも一部を加工する。これにより、特徴点群を抽出するといった計算量の多い画像処理を実行する必要がなくなるので、ユーザ端末10の処理負荷を軽減できる。即ち、特徴点群ではなく線分Lを検出するといった比較的計算量の少ない画像処理を実行すれば済むので、ユーザ端末10の処理負荷を軽減できる。ユーザ端末10の処理負荷を軽減することによって、撮影画像I1に対する画像処理を高速化できる。このため、加工された撮影画像I3を短い時間で取得できる。例えば、スマートフォンのように、パーソナルコンピュータに比べて処理能力が低いユーザ端末10だったとしても、加工された撮影画像I3を短い時間で取得できる。
 また、第1の構成では、角情報に基づいて、複数の角Cの位置関係が所定の位置関係になる又は近づくように、撮影画像I1の少なくとも一部を加工することによって、より効果的にユーザ端末10の処理負荷を軽減できる。例えば、四隅の角Cに着目すればよく、多数の特徴点群に着目する必要がないので、計算量が大幅に少なくなる。更に、運転免許証D1のように、輪郭の形状として角Cが重要な対象物の場合、角Cに着目することによって、加工の精度が高まる。
 また、第1の構成では、複数の線分Lの少なくとも1つを延長することによって複数の角Cの位置を推定することによって、より簡易な処理で角情報を取得できる。角情報を取得するために必要な計算量が減るので、より効果的にユーザ端末10の処理負荷を軽減できる。
 また、第1の構成では、撮影画像I1の関心領域RoIにおいて相対的に外側にある複数の線分Lを検出することによって、線分検出処理の対象となる領域が小さくなる。これにより、余計な線分Lを検出することがなくなるので、より効果的にユーザ端末10の処理負荷を軽減できる。例えば、ユーザ端末10で関心領域RoIをガイドすることによって、ユーザがどのように運転免許証D1を撮影すればよいかを把握しやすくなる。また、実際には、運転免許証D1の背景として、他の物体が撮影されている。図4の例では、机に載せられた運転免許証D1が撮影されるので、実際には、撮影画像I1の背景として、机の模様が示されている。机の模様を示す線分Lを検出される可能性があるが、関心領域RoI内を処理対象にすることによって、背景を示す線分Lが検出されにくくなる。
 また、第1の構成では、関心領域RoIに両端が含まれており、かつ、関心領域RoIにおいて相対的に外側にある複数の線分Lを検出することによって、撮影画像I1の加工で有用な線分Lを検出し、加工の精度が高まる。例えば、運転免許証D1の輪郭を示す線分Lは、比較的長く、かつ、関心領域RoIにおいて相対的に外側にあるので、このような線分Lを検出することによって、輪郭である確率の高い線分Lに基づいて、撮影画像I1の加工を実行し、加工の精度が高まる。
 また、第1の構成では、関心領域RoIの少なくとも1つの端部から所定距離以内に両端が含まれており、かつ、関心領域RoIにおいて相対的に外側にある複数の線分を検出することによって、撮影画像I1の加工で有用な線分Lを検出し、加工の精度が高まる。例えば、運転免許証D1の輪郭を示す線分Lは、関心領域RoIの端部から所定距離以内に両端が含まれており、かつ、関心領域RoIにおいて相対的に外側にあるので、このような線分Lを検出することによって、輪郭である確率の高い線分Lに基づいて、撮影画像I1の加工を実行し、加工の精度が高まる。
 また、第1の構成では、運転免許証D1の少なくとも1つの角が関心領域RoIの外にあると判定されない場合に、撮影画像I1の少なくとも一部を加工することによって、精度の高い加工が可能な撮影画像I1を加工できる。このため、加工の精度が高まる。撮影画像I1における運転免許証D1が大きく歪んでおり、精度の高い加工が難しい場合には加工が実行されないため、余計な加工が実行されなくなる。このため、ユーザ端末10の処理負荷を軽減できる。
 また、第1の構成では、関心領域RoIの端部ごとに、当該端部に最も近い線分Lを検出することによって、撮影画像I1の加工で有用な線分Lを検出し、加工の精度が高まる。例えば、関心領域RoIの端部に最も近い線分Lは、運転免許証D1の輪郭を示す確率が高いので、このような線分Lを検出することによって、輪郭である確率の高い線分Lに基づいて、撮影画像I1の加工を実行し、加工の精度が高まる。
 また、第1の構成では、相対的に長く、かつ、相対的に外側にある複数の線分Lを検出することによって、撮影画像I1の加工で有用な線分Lを検出し、加工の精度が高まる。例えば、運転免許証D1の輪郭を示す線分Lは、相対的に長く、かつ、相対的に外側にある確率が高いので、このような線分Lを検出することによって、輪郭である確率の高い線分Lに基づいて、撮影画像I1の加工を実行し、加工の精度が高まる。
 また、第1の構成では、少なくとも一部が加工された撮影画像I3に基づいて、撮影画像I3に示された対象物が所定の運転免許証D1であるか否かを判定することによって、運転免許証D1であるか否かを判定しやすい状態に加工したうえで、判定処理を実行できる。このため、運転免許証D1であるか否かの判定精度が高まる。更に、運転免許証D1であるか否かを判定できずに、撮影画像I1の取得から再度やりなおすといった手間が発生することも防止できる。その結果、ユーザ端末10の処理負荷と、サーバ20の処理負荷と、の両方を軽減できる。
 また、第1の構成では、ユーザ端末10が撮影画像I1の加工までを実行し、サーバ20が撮影画像I3に示された対象物が所定の運転免許証D1であるか否かを判定することによって、画像処理を分散し、ユーザ端末10の処理負荷と、サーバ20の処理負荷と、の両方を軽減できる。
 また、第1の構成では、連続的に生成された撮影画像I1に対して画像処理を実行することによって、最適な加工が実行できるまで、連続的な画像処理を実行できる。その結果、1枚1枚静止画を生成するといった手間を省き、ユーザの利便性が高まる。更に、ビデオ機能における解像度は、カメラ機能における解像度よりも低いことが多いが、低解像度の撮影画像I1であったとしても、撮影画像I1に対する加工を正確に実行できる。
[第2の構成のまとめ]
 画像処理システムSの第2の構成によれば、撮影画像I3に対するマッチングで取得された複数のスコアに関する分析の実行結果に基づいて、撮影画像I3における運転免許証D1がぼやけているか否かを判定する。これにより、特徴点群を抽出するといった計算量の多い画像処理を実行する必要がなくなるので、ユーザ端末10の処理負荷を軽減できる。即ち、特徴点群ではなくマッチングといった比較的計算量の少ない画像処理を実行すれば済むので、ユーザ端末10の処理負荷を軽減できる。ユーザ端末10の処理負荷を軽減することによって、撮影画像I3に対する画像処理を高速化できる。このため、撮影画像I3における運転免許証D1がぼやけているか否かを短い時間で判定できる。例えば、スマートフォンのように、パーソナルコンピュータに比べて処理能力が低いユーザ端末10だったとしても、撮影画像I3における運転免許証D1がぼやけているか否かを短い時間で判定できる。
 また、第2の構成では、テンプレート画像iに含まれる特徴との類似度を示すスコアを利用することによって、より簡易な処理で、運転免許証D1がぼやけているか否かを判定できる。運転免許証D1がぼやけているか否かを判定するために必要な計算量が減るので、より効果的にユーザ端末10の処理負荷を軽減できる。
 また、第2の構成では、テンプレート画像iごとに取得された複数のスコアに関する分析を実行することによって、複数の領域Rから得られたスコアを利用して、運転免許証D1がぼやけているか否かを判定できる。その結果、運転免許証D1がぼやけているか否かの判定精度が高まる。
 また、第2の構成では、テンプレート画像iごとに取得された複数のスコアに基づいて計算した1の指標が閾値未満であるか否かを判定することによって、より簡易な処理で、運転免許証D1がぼやけているか否かを判定できる。運転免許証D1がぼやけているか否かを判定するために必要な計算量が減るので、より効果的にユーザ端末10の処理負荷を軽減できる。
 また、第2の構成では、運転免許証D1の角付近に配置された定型部分を利用してマッチングを実行することによって、マッチングを実行しやすい角付近の領域Rに対してマッチングを実行できる。マッチングの精度が高まるので、運転免許証D1がぼやけているか否かの判定精度も高まる。
 また、第2の構成では、複数のスコアのうちの最大スコアと、複数のスコアに基づいて計算された平均スコアと、に基づいて、分析を実行することによって、より簡易な処理で、運転免許証D1がぼやけているか否かを判定できるので、より効果的にユーザ端末10の処理負荷を軽減できる。
 また、第2の構成では、最大スコアを平均スコアで割った値に基づいて、分析を実行することによって、より簡易な処理で、運転免許証D1がぼやけているか否かを判定できるので、より効果的にユーザ端末10の処理負荷を軽減できる。
 また、第2の構成では、複数のスコアのうちの最大スコアが閾値未満であるか否かの判定結果と、運転免許証D1がぼやけているか否かの判定結果と、に基づいて、サーバ20に撮影画像I3が送信されるので、eKYCに適さない撮影画像I3が送信されることを防止できる。例えば、輪郭が運転免許証D1と似ているが、全く以て異なるカード等が撮影された場合には、最大スコアが小さくなるので、そのようなカード等が撮影されていることを検知できる。
 また、第2の構成では、最大スコアが取得された撮影画像I3の位置と、テンプレート画像における特徴の位置と、の距離が閾値未満であるか否かの判定結果と、運転免許証D1がぼやけているか否かの判定結果と、に基づいて、サーバ20に撮影画像I3が送信されるので、eKYCに適さない撮影画像I3が送信されることを防止できる。例えば、全体的な色が運転免許証D1と似ているが、全く以て異なるカード等が撮影された場合には、最大スコアがある程度大きくなる可能性があるが、上記距離が長くなりがちなので、そのようなカード等が撮影されていることを検知できる。
 また、第2の構成では、撮影画像I1における運転免許証D1の輪郭が所定の輪郭に近づくように加工された撮影画像I3に対するマッチングを実行することによって、マッチングの精度が高まる。即ち、運転免許証D1が歪んでいると、マッチングを正常に実行できない可能性があるが、運転免許証D1の歪みを正したうえでマッチングを実行することによって、運転免許証D1がぼやけているか否かの判定精度も高まる。
 また、第2の構成では、加工された撮影画像I3に基づいて、撮影画像I3に示された対象物が所定の運転免許証D1であるか否かを判定することによって、運転免許証D1であるか否かを判定しやすい状態に加工したうえで、判定処理を実行できる。このため、運転免許証D1であるか否かの判定精度が高まる。更に、運転免許証D1であるか否かを判定できずに、撮影画像I1の取得から再度やりなおすといった手間が発生することも防止できる。その結果、ユーザ端末10の処理負荷と、サーバ20の処理負荷と、の両方を軽減できる。
 また、第2の構成では、運転免許証D1がぼやけているか否かの判定までをユーザ端末10が実行し、サーバ20が撮影画像I3に示された対象物が所定の運転免許証D1であるか否かを判定することによって、画像処理を分散し、ユーザ端末10の処理負荷と、サーバ20の処理負荷と、の両方を軽減できる。
 また、第2の構成では、連続的に生成された撮影画像I3に対して画像処理を実行することによって、最適な加工が実行できるまで、連続的な画像処理を実行できる。その結果、1枚1枚静止画を生成するといった手間を省き、ユーザの利便性が高まる。更に、ビデオ機能における解像度は、カメラ機能における解像度よりも低いことが多いが、低解像度の撮影画像I3であったとしても、撮影画像I3に対する判定を正確に実行できる。
[5.変形例]
 なお、本開示は、以上に説明した実施形態に限定されるものではない。本開示の趣旨を逸脱しない範囲で、適宜変更可能である。
[5-1.第1の構成に関する変形例]
 図16は、第1の構成に関する変形例における機能ブロック図である。第1の構成に関する変形例の画像処理システムSは、少なくとも1つの角Cが関心領域RoIの外にあると判定された場合に、当該少なくとも1つの角C及び関心領域RoIの位置関係に基づいて、運転免許証D1及び撮影部16の少なくとも一方の位置、姿勢、及び向きの少なくとも1つの変更方法を通知する通知部112を更に含む。
 上記の位置関係とは、関心領域RoIの外にある角Cが関心領域RoIから見てどの方向にあるかである。図8の例であれば、角Cが関心領域RoIの右下にはみ出ているので、上記の位置関係として、角Cが関心領域RoIの右下にはみ出ていることが特定される。上記の変更方法は、運転免許証D1及び撮影部16の位置関係の変更方法ということもできる。即ち、通知部112は、運転免許証D1に対する撮影位置及び撮影方向の少なくとも一方の変更方法を通知する。通知は、撮影画像I1上で視覚的に行われてもよいし、音声によって行われてもよい。
 本変形例では、データ記憶部100に、関心領域RoIの外にある角C及び関心領域RoIの位置関係と、通知部112による変更方法と、の関係が記憶されているものとする。通知部112は、角Cの位置と関心領域RoIの位置とに基づいて、関心領域RoIの外にある角C及び関心領域RoIの位置関係を特定する。通知部112は、当該特定された位置関係に関連付けられた変更方法に基づいて、通知を行う。
 例えば、図8のように、角Cが関心領域RoIの右下にはみ出ている場合、通知部112は、運転免許証D1を左回転させるように通知してもよいし、撮影部16を右回転するように通知してもよい。このようにすれば、運転免許証D1が関心領域RoI内に収まりやすくなる。角Cが関心領域RoIの他の方向にはみ出ている場合も同様に、通知部112は、関心領域RoIの外にはみ出ている角Cが関心領域RoIに戻るように、運転免許証D1及び撮影部16の少なくとも一方の位置、姿勢、及び向きの少なくとも1つの変更方法を通知すればよい。
 本変形例によれば、少なくとも1つの角Cが関心領域RoIの外にあると判定された場合に、運転免許証D1及び撮影部16の少なくとも一方の位置、姿勢、及び向きの少なくとも1つの変更方法を通知する。これにより、運転免許証D1が関心領域RoI内に収まりやすくなり、ユーザの利便性が向上する。
 なお、画像処理システムSは、第2の構成を有さずに第1の構成を有してもよい。即ち、画像処理システムSは、第1の構成及び第2の構成の両方を有さなければならないわけではなく、何れか一方のみを有してもよい。この場合、加工された撮影画像I3に対するマッチングが実行されなくてもよい。例えば、ユーザ端末10は、加工された撮影画像I3に対するマッチングを実行せずに、当該撮影画像I3をそのままサーバ20に送信してもよい。このようにすることでも、運転免許証D1がぼやけているか否かは判定されないが、運転免許証D1の輪郭が整った撮影画像I3に基づいて、eKYCが行われるので、効率的なeKYCが可能になる。
[5-2.第2の構成に関する変形例]
 実施形態では、ぼやけ判定部110の判定結果に基づいて実行される所定の処理として、サーバ20に撮影画像I3を送信する処理を説明したが、所定の処理は、任意の処理であってよく、サーバ20に撮影画像I3を送信する処理に限られない。例えば、所定の処理は、ユーザ端末10に撮影画像I3を記録する処理であってもよい。他にも例えば、所定の処理は、サーバ20以外のコンピュータに対し、撮影画像I3を送信する処理であってもよい。所定の処理は、撮影画像I3に対して光学文字認識を実行し、ユーザの名前等を抽出する処理であってもよい。
 同様に、最大スコア判定部107の判定結果と、ぼやけ判定部110の判定結果と、に基づいて所定の処理が実行されてもよい。距離判定部108の判定結果と、ぼやけ判定部110の判定結果と、に基づいて所定の処理が実行されてもよい。即ち、数式1~数式3の何れにも該当されない場合に、所定の処理が実行されてもよい。
 また、画像処理システムSは、第1の構成を有さずに第2の構成を有してもよい。即ち、画像処理システムSは、第1の構成及び第2の構成の両方を有さなければならないわけではなく、何れか一方のみを有してもよい。この場合、撮影画像I1が加工されずに、マッチングが実行されてもよい。例えば、ユーザ端末10は、撮影画像I1を加工することなくそのままマッチングを実行してもよい。このようにすることでも、運転免許証D1がぼやけているか否かを判定できるので、効率的なeKYCが可能になる。
 例えば、数式1又は数式2のフィルタリングの条件は省略してもよい。例えば、運転免許証D1がぼやけているか否かを判定するための条件は、数式3の例に限られない。例えば、ぼやけ判定部110は、スコアの確率分布を作成し、確率分布の山の高さと傾斜に基づいて、運転免許証D1がぼやけているか否かを判定してもよい。確率分布の山が高く傾斜が急であれば、ある特定の高いスコアが局所的に存在することを意味するので、運転免許証D1が鮮明であることを意味する。一方、確率分布の山が低く傾斜がなだらかであれば、一定程度のスコアが広範囲にまんべんなく存在することを意味するので、運転免許証D1がぼやけていることを意味する。
[5-3.その他変形例]
 例えば、運転免許証D1がぼやけていないと判定された場合に、関心領域RoIの枠線の色が変化してもよい。ユーザ端末10は、連続的に生成された全ての撮影画像I1に対して画像処理をする必要はなく、一部の撮影画像I1に対してのみ画像処理を実行してもよい。例えば、画像処理システムSは、eKYC以外の任意の場面に適用可能である。例えば、車両又は航空機の自動運転において障害物を認識する場面にも画像処理システムSを適用可能である。例えば、マークシート形式の試験問題の採点が行われる場面にも画像処理システムSを適用可能である。画像処理システムSは、認識したい対象物を含む対象物画像に対する画像処理が実行される任意の場面に適用可能である。
 例えば、実施形態では、ユーザ端末10で主な処理が実行される場合を説明したが、ユーザ端末10で実行されるものとして説明した処理は、サーバ20で実行されてもよい。サーバ20が第1の構成及び第2の構成を有する場合には、サーバ20の処理負荷を軽減できる。例えば、ユーザ端末10が第1の構成を有し、サーバ20が第2の構成を有するといったように、ユーザ端末10とサーバ20とで処理が分担されてもよい。逆に、ユーザ端末10が第2の構成を有し、サーバ20が第1の構成を有するといったように、ユーザ端末10とサーバ20とで処理が分担されてもよい。処理が分担される場合には、ユーザ端末10とサーバ20との間で、撮影画像I3等のデータが適宜送信されるようにすればよい。

Claims (15)

  1.  対象物を含む対象物画像を取得する画像取得手段と、
     所定の線分検出処理に基づいて、前記対象物画像から、相対的に外側にある複数の線分を検出する線分検出手段と、
     前記複数の線分に基づいて、前記対象物画像における前記対象物の輪郭に関する情報を取得する情報取得手段と、
     前記情報に基づいて、前記輪郭が所定の輪郭になる又は近づくように、前記対象物画像の少なくとも一部を加工する加工手段と、
     を含む画像処理システム。
  2.  前記情報取得手段は、前記情報として、前記対象物画像における前記対象物の複数の角に関する角情報を取得し、
     前記加工手段は、前記角情報に基づいて、前記複数の角の位置関係が所定の位置関係になる又は近づくように、前記対象物画像の少なくとも一部を加工する、
     請求項1に記載の画像処理システム。
  3.  前記線分検出手段は、前記輪郭の一部を示す前記複数の線分を検出し、
     前記情報取得手段は、前記複数の線分の少なくとも1つを延長することによって前記複数の角の位置を推定することによって、前記角情報を取得する、
     請求項2に記載の画像処理システム。
  4.  前記線分検出手段は、前記対象物画像の関心領域において相対的に外側にある前記複数の線分を検出する、
     請求項1~3の何れかに記載の画像処理システム。
  5.  前記線分検出手段は、前記関心領域に両端が含まれており、かつ、前記関心領域において相対的に外側にある前記複数の線分を検出する、
     請求項4に記載の画像処理システム。
  6.  前記線分検出手段は、前記関心領域の少なくとも1つの端部から所定距離以内に両端が含まれており、かつ、前記関心領域において相対的に外側にある前記複数の線分を検出する、
     請求項4又は5に記載の画像処理システム。
  7.  前記画像処理システムは、前記情報に基づいて推定された前記対象物の少なくとも1つの角が前記関心領域の外にあるか否かを判定する角判定手段を更に含み、
     前記加工手段は、前記少なくとも1つの角が前記関心領域の外にあると判定されない場合に、前記対象物画像の少なくとも一部を加工する、
     を含む請求項4~6の何れかに記載の画像処理システム。
  8.  前記対象物画像は、前記対象物が撮影手段で撮影されることによって生成され、
     前記画像処理システムは、前記少なくとも1つの角が前記関心領域の外にあると判定された場合に、当該少なくとも1つの角及び前記関心領域の位置関係に基づいて、前記対象物及び前記撮影手段の少なくとも一方の位置、姿勢、及び向きの少なくとも1つの変更方法を通知する通知手段を更に含む、
     請求項7に記載の画像処理システム。
  9.  前記線分検出手段は、前記関心領域の端部ごとに、当該端部に最も近い線分を検出することによって、前記複数の線分を検出する、
     請求項4~8の何れかに記載の画像処理システム。
  10.  前記線分検出手段は、相対的に長く、かつ、相対的に外側にある前記複数の線分を検出する、
     請求項1~9の何れかに記載の画像処理システム。
  11.  前記画像処理システムは、少なくとも一部が加工された前記対象物画像に基づいて、前記対象物が所定の対象物であるか否かを判定する対象物判定手段を更に含む、
     請求項1~10の何れかに記載の画像処理システム。
  12.  前記画像処理システムは、ユーザ端末及びサーバを含み、
     前記ユーザ端末は、
     前記画像取得手段、前記線分検出手段、前記情報取得手段、及び前記加工手段と、
     前記サーバに、少なくとも一部が加工された前記対象物画像を送信する送信手段と、
     を含み、
     前記サーバは、
     前記ユーザ端末から、少なくとも一部が加工された前記対象物画像を受信する受信手段と、
     前記対象物判定手段と、
     前記所定の対象物ではないと判定された場合に、前記ユーザ端末に、前記対象物画像を再び取得するように要求する要求手段と、
     を含む請求項11に記載の画像処理システム。
  13.  前記対象物は、ユーザの本人確認書類であり、
     前記対象物画像は、前記本人確認書類が撮影手段により連続的に撮影されることによって生成された画像であり、
     前記画像取得手段は、連続的に生成された前記対象物画像を取得し、
     前記線分検出手段は、前記対象物画像ごとに、前記複数の線分を検出し、
     前記情報取得手段は、前記対象物画像ごとに、前記情報を取得し、
     前記加工手段は、前記対象物画像ごとに、加工を行う、
     請求項1~12の何れかに記載の画像処理システム。
  14.  対象物を含む対象物画像を取得する画像取得ステップと、
     所定の線分検出処理に基づいて、前記対象物画像から、相対的に外側にある複数の線分を検出する線分検出ステップと、
     前記複数の線分に基づいて、前記対象物画像における前記対象物の輪郭に関する情報を取得する情報取得ステップと、
     前記情報に基づいて、前記輪郭が所定の輪郭になる又は近づくように、前記対象物画像の少なくとも一部を加工する加工ステップと、
     を含む画像処理方法。
  15.  対象物を含む対象物画像を取得する画像取得手段、
     所定の線分検出処理に基づいて、前記対象物画像から、相対的に外側にある複数の線分を検出する線分検出手段、
     前記複数の線分に基づいて、前記対象物画像における前記対象物の輪郭に関する情報を取得する情報取得手段、
     前記情報に基づいて、前記輪郭が所定の輪郭になる又は近づくように、前記対象物画像の少なくとも一部を加工する加工手段、
     としてコンピュータを機能させるためのプログラム。
PCT/JP2021/027962 2021-07-28 2021-07-28 画像処理システム、画像処理方法、及びプログラム WO2023007632A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022529389A JP7137171B1 (ja) 2021-07-28 2021-07-28 画像処理システム、画像処理方法、及びプログラム
PCT/JP2021/027962 WO2023007632A1 (ja) 2021-07-28 2021-07-28 画像処理システム、画像処理方法、及びプログラム
EP21925105.5A EP4148672A4 (en) 2021-07-28 2021-07-28 IMAGE PROCESSING SYSTEM, IMAGE PROCESSING METHOD AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/027962 WO2023007632A1 (ja) 2021-07-28 2021-07-28 画像処理システム、画像処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023007632A1 true WO2023007632A1 (ja) 2023-02-02

Family

ID=83279949

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/027962 WO2023007632A1 (ja) 2021-07-28 2021-07-28 画像処理システム、画像処理方法、及びプログラム

Country Status (3)

Country Link
EP (1) EP4148672A4 (ja)
JP (1) JP7137171B1 (ja)
WO (1) WO2023007632A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017156920A (ja) * 2016-03-01 2017-09-07 株式会社日立情報通信エンジニアリング 画像処理装置及び画像処理プログラム
JP2019109624A (ja) * 2017-12-15 2019-07-04 キヤノン株式会社 情報処理装置、プログラム及び情報処理方法
WO2020008628A1 (ja) 2018-07-06 2020-01-09 楽天株式会社 画像処理システム、画像処理方法、及びプログラム
WO2020208742A1 (ja) * 2019-04-10 2020-10-15 楽天株式会社 多角形検出装置、多角形検出方法、及び多角形検出プログラム
WO2021049234A1 (ja) * 2019-09-12 2021-03-18 日本電気株式会社 画像解析装置、制御方法、プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130085935A1 (en) * 2008-01-18 2013-04-04 Mitek Systems Systems and methods for mobile image capture and remittance processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017156920A (ja) * 2016-03-01 2017-09-07 株式会社日立情報通信エンジニアリング 画像処理装置及び画像処理プログラム
JP2019109624A (ja) * 2017-12-15 2019-07-04 キヤノン株式会社 情報処理装置、プログラム及び情報処理方法
WO2020008628A1 (ja) 2018-07-06 2020-01-09 楽天株式会社 画像処理システム、画像処理方法、及びプログラム
WO2020208742A1 (ja) * 2019-04-10 2020-10-15 楽天株式会社 多角形検出装置、多角形検出方法、及び多角形検出プログラム
WO2021049234A1 (ja) * 2019-09-12 2021-03-18 日本電気株式会社 画像解析装置、制御方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4148672A4

Also Published As

Publication number Publication date
EP4148672A4 (en) 2023-03-29
JP7137171B1 (ja) 2022-09-14
JPWO2023007632A1 (ja) 2023-02-02
EP4148672A1 (en) 2023-03-15

Similar Documents

Publication Publication Date Title
US10657600B2 (en) Systems and methods for mobile image capture and processing
US7773782B2 (en) Image output apparatus, image output method and image output program
JP5049798B2 (ja) グラウンドトルース・データからの合成画像及びビデオの生成
JP6089722B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2010262648A5 (ja) 文書オブジェクトを自動位置合わせするための方法
US11881043B2 (en) Image processing system, image processing method, and program
US10692230B2 (en) Document imaging using depth sensing camera
US20210209393A1 (en) Image processing system, image processing method, and program
TWI820433B (zh) 對照系統、對照方法及資訊記錄媒體
US20150112853A1 (en) Online loan application using image capture at a client device
JP7137171B1 (ja) 画像処理システム、画像処理方法、及びプログラム
JP7212207B1 (ja) 画像処理システム、画像処理方法、及びプログラム
US20210281742A1 (en) Document detections from video images
US20060010582A1 (en) Chin detecting method, chin detecting system and chin detecting program for a chin of a human face
US11557108B2 (en) Polygon detection device, polygon detection method, and polygon detection program
TWI395469B (zh) 影像擷取方法與應用該方法之影像擷取裝置
JP2016091193A (ja) 画像処理装置、画像処理方法およびプログラム
JP7231529B2 (ja) 情報端末装置、サーバ及びプログラム
JP6815712B1 (ja) 画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデル
CN113703161B (zh) 扩增实境系统与其锚定显示方法
US20240153126A1 (en) Automatic image cropping using a reference feature
TWI662946B (zh) 瞳距運算裝置及方法
JP2024062651A (ja) 判定システム、判定方法およびプログラム
TW202001598A (zh) 圖像搜尋方法

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2022529389

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2021925105

Country of ref document: EP

Effective date: 20220818

WWE Wipo information: entry into national phase

Ref document number: 17800526

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE