WO2023188160A1 - 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体 - Google Patents

入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体 Download PDF

Info

Publication number
WO2023188160A1
WO2023188160A1 PCT/JP2022/016149 JP2022016149W WO2023188160A1 WO 2023188160 A1 WO2023188160 A1 WO 2023188160A1 JP 2022016149 W JP2022016149 W JP 2022016149W WO 2023188160 A1 WO2023188160 A1 WO 2023188160A1
Authority
WO
WIPO (PCT)
Prior art keywords
input
user
feature point
support device
feature points
Prior art date
Application number
PCT/JP2022/016149
Other languages
English (en)
French (fr)
Inventor
彬 土屋
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/016149 priority Critical patent/WO2023188160A1/ja
Publication of WO2023188160A1 publication Critical patent/WO2023188160A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements

Definitions

  • This disclosure relates to an input support device, an input support method, and a program.
  • the user may check the image and specify the positions of feature points in the image.
  • a user who is a database creator may specify the positions of feature points for each of the facial images of multiple known people.
  • a user who is in charge of searching may input the positions of feature points of the face of the person to be identified into the matching system.
  • a user who is a creator of training data may specify the positions of feature points in an image. In this way, a user may specify the position of a feature point in an image for any purpose.
  • a contour detection device described in Patent Document 1 is known. According to this contour detection device, feature points with low reliability as contours are identified from the results of automatic detection of feature points of the contour of a nail from an image.
  • the estimation results obtained by the device may be incorrect.
  • the user human being
  • the user's judgment instead of focusing only on the error in the estimation result of the apparatus, it is possible to determine the position of the feature point more appropriately.
  • it is possible to easily identify errors in the automatic detection results of feature points, but it focuses on the difference between the position estimated by the device and the position specified by the user for the feature point. No further processing has been carried out.
  • one of the objectives of the embodiments disclosed in this specification is to provide an input support device, an input support method, and a program that can more appropriately determine the positions of feature points. be.
  • the input support device includes: Estimating means for estimating the position of the feature point of the input image;
  • the apparatus further includes an input support means for supporting an input by a user for specifying the position of a feature point of the input image based on the position estimated by the estimation means and the position specified by the input.
  • the program according to the third aspect of this disclosure is: an estimation step of estimating the position of the feature point of the input image;
  • the computer is caused to perform an input support step of supporting an input by a user for specifying a position of a feature point of the input image based on the position estimated in the estimation step and the position specified by the input.
  • FIG. 1 is a block diagram illustrating an example of the configuration of an input support device according to an overview of an embodiment.
  • FIG. 2 is a schematic diagram showing an example of an eye image.
  • 1 is a block diagram showing an example of a functional configuration of an input support device according to a first embodiment
  • FIG. FIG. 6 is a schematic diagram illustrating an example in which the user interface unit displays feature points at estimated positions on an input image.
  • 1 is a block diagram showing an example of a hardware configuration of an input support device according to a first embodiment
  • FIG. 3 is a flowchart illustrating an example of the operation of the input support device according to the first embodiment.
  • FIG. 3 is a schematic diagram illustrating input in an incorrect order.
  • FIG. 2 is a block diagram illustrating an example of a functional configuration of an input support device according to a second embodiment.
  • 7 is a flowchart illustrating an example of the operation of the input support device according to the second embodiment.
  • FIG. 1 is a block diagram showing an example of the configuration of an input support device 1 according to an overview of the embodiment.
  • the input support device 1 includes an estimation section 2 and an input support section 3.
  • the input support device 1 is a device used by a user to specify positions of feature points in an input image that is an image input to the input support device 1.
  • the input image is, for example, a facial image of a person's face
  • the feature points are, for example, feature points of a face, but the input image and feature points are not limited to these.
  • the input image may include any object such as an animal, a car, or a structure.
  • the feature points may be defined in advance for each object, and the types thereof are not limited.
  • Each component of the input support device 1 will be explained below.
  • the estimation unit 2 estimates the positions of feature points of the input image.
  • the estimation unit 2 may perform estimation using a machine learning model learned in advance.
  • the machine learning model is trained in advance using a set of an image and the position of a feature point of an object shown in the image as training data.
  • the positions of the feature points are specified in advance by, for example, an expert who specifies the positions of the feature points.
  • the positions of the feature points are specified at correct positions that match the definition of the feature points.
  • the input support unit 3 supports the user's input for specifying the position of the feature point of the input image based on the position estimated by the estimation unit 2.
  • supporting the input for specifying the position of the feature point means that the user can input the position of the feature point by, for example, displaying the estimated position, outputting a warning, displaying the order of specifying the position, etc. This refers to the process of presenting predetermined information to the user at the time of designation.
  • the input support unit 3 supports input by the user based on the position estimated by the estimation means and the position specified by the input.
  • the input support unit 3 may support the user's input by outputting a warning based on the difference between the position estimated by the estimation unit 2 and the position specified by the user's input.
  • the user's input is supported using the estimation result and input result of the estimator 2. Therefore, according to the input support device 1, the position of the feature point can be determined by mutually complementing the estimation by the device and the judgment by the user. Therefore, according to the input support device 1, the positions of feature points can be determined more appropriately than when this device is not used.
  • a feature point is defined in advance, so the user specifies a position that matches this definition as the position of the feature point in the input image.
  • the position of the feature point specified by the user may vary depending on the user's experience or may vary depending on the unclearness of the definition of the feature point.
  • the feature points of objects with individual differences, such as human faces are not strictly defined for each individual, but are given a general definition that ignores individual differences. It can be unclear for Therefore, it is not easy for the user to plot feature points at appropriate positions.
  • the user can receive input support based on the positions of the feature points estimated by the estimation unit 2. For example, if estimation is performed using a model learned using training data that specifies the appropriate position of the feature point of the outer corner of the eye, the appropriate position of the feature point of the outer corner of the eye can be estimated for most input images. .
  • This estimation result makes it possible to prevent errors in specifying user features.
  • such estimation results allow the user to understand appropriate positions, which is difficult to understand from a general-purpose definition of feature points.
  • the user who understands the appropriate position can specify the appropriate position even if an inappropriate position is estimated when a unique facial image etc. is input to the estimation unit 2 (for example, a machine learning model). I can do it. In other words, even a beginner in the input work of specifying the position of a feature point can specify the position of a feature point in the same way as an expert who is familiar with the standards for the position of a feature point.
  • the mode for obtaining the above effects is not limited to the device.
  • similar effects can be obtained with an input support method that includes the above-described processing of the input support device, a program that performs the above-described processing of the input support device, or a non-transitory computer-readable medium in which the program is stored. be able to.
  • FIG. 3 is a block diagram showing an example of the functional configuration of the input support device 100 according to the first embodiment.
  • the input support device 100 is a device corresponding to the input support device 1 in FIG. Note that in this embodiment, the input support device 100 supports input for specifying the positions of feature points of a face image, as an example, but the input support device 100 supports input for specifying the positions of feature points of objects other than faces. may also support input.
  • the user uses the input support device 100, the user performs an input specifying the position of a feature point of a target object (face).
  • face the user is, for example, a beginner who knows the definition of feature points in advance, but is not accustomed to input work.
  • the user of the input support device 100 is not limited to such a user.
  • the user of the input support device 100 may be an expert in inputting the positions of feature points, or may be a person who does not know the definition of feature points in advance.
  • the input support device 100 includes a model storage section 101, an input image acquisition section 102, an estimation section 103, a user interface section 104, a feature point data generation section 105, and a feature point data storage section 106. These will be explained below.
  • the model storage unit 101 stores a machine learning model that estimates the position of a predetermined feature point of a predetermined object shown in an image.
  • the predetermined object is a human face.
  • the predetermined feature points are 19 predefined points corresponding to predetermined parts of the face. Specifically, these 19 feature points are 3 points for each eyebrow, 3 points for each eye, 4 points for the nose, and 3 points for the mouth. Note that the number of feature points is just an example, and more or fewer feature points may be defined. Of course, which parts are to be used as feature points are merely examples, and are not limited to the above.
  • This machine learning model is trained in advance by machine learning such as deep learning using a set of an image and the position of a feature point of an object shown in the image as training data.
  • the machine learning model stored in the model storage unit 101 is trained in advance using, as training data, the positions of feature points specified by a person skilled in the task of specifying the positions of feature points.
  • this machine learning model is trained using training data that indicates the correct position of the feature point that matches the definition of the feature point.
  • model storage unit 101 is included in the input support device 100, but the model storage unit 101 is communicably connected to the input support device 100 via a network or the like. It may be realized in the apparatus of.
  • the input image acquisition unit 102 acquires an image that is input to the input support device 100 and in which the position of a feature point should be specified. That is, the input image acquisition unit 102 acquires an image showing a predetermined object (a person's face). Typically, the input image is an image taken by an imaging device such as a camera, but it does not necessarily have to be such an image, and may be an image of an object represented by computer graphics.
  • the input image acquisition unit 102 may acquire the input image by receiving the input image from another device, or read the input image from a storage device built into the input support device 100 or a storage device connected to the input support device 100. The input image may be obtained by doing so.
  • the estimating unit 103 corresponds to the estimating unit 2 in FIG.
  • the estimation unit 103 uses the machine learning model stored in the model storage unit 101 to estimate the position of the feature point of the input image acquired by the input image acquisition unit 102.
  • the estimation unit 103 estimates the positions of 19 feature points with respect to the face image.
  • the user interface unit 104 provides a user interface that accepts from the user an input specifying the position of a feature point with respect to the input image acquired by the input image acquisition unit 102, and accepts the input from the user.
  • the user interface unit 104 displays an input image and also displays a UI screen on which a UI (user interface) component for receiving input from a user is arranged on an output device 150 described later. That is, the user interface unit 104 provides a GUI (Graphical User Interface) for receiving input from the user to designate the position of the feature point.
  • the user interface unit 104 then accepts designation of the position of the feature point input via the input device 151, which will be described later.
  • the user interface section 104 may be referred to as an input support section.
  • the user interface unit 104 supports the user's input for specifying the position of the feature point of the input image based on the position estimated by the estimation unit 103. Specifically, in this embodiment, the user interface unit 104 supports the user's input by displaying the position estimated by the estimation unit 103 before the user inputs the position of the feature point. More specifically, the user interface unit 104 displays feature points on the input image at the positions estimated by the estimation unit 103.
  • FIG. 4 is a schematic diagram showing an example in which the user interface unit 104 displays feature points at estimated positions on the input image 91. As shown in FIG. 4, the user interface unit 104 displays 19 feature points 92 at the positions estimated by the estimation unit 103. Note that in FIG. 4, only some of the 19 feature points are labeled with symbols to prevent the diagram from becoming complicated.
  • the user performs an input specifying the position of each feature point while referring to the position of the feature point displayed based on the estimation result.
  • the input for specifying the position of each feature point may be an input for correcting the position of the feature point displayed based on the estimation result, or an input for approving the position of the feature point displayed based on the estimation result. It may be an input.
  • the user interface unit 104 supports the user's input by outputting a warning based on the magnitude of the deviation between the position specified by the user's input and the position estimated by the estimation unit 103. Good too.
  • the user interface unit 104 outputs a warning, for example, if the magnitude of the deviation between the two exceeds a predetermined threshold.
  • the user interface unit 104 outputs a warning notifying that the position specified by the user may be incorrect.
  • this warning may be displayed on the UI screen or may be outputted as a voice.
  • the user who received the warning can specify an appropriate position as the position of the feature point by correcting the position of the feature point if necessary.
  • the user who has received the warning determines that the estimation result of the estimation unit 103 is incorrect, the user may confirm the specified position contrary to the warning.
  • the feature point data generation unit 105 sets the position specified by the input received from the user, that is, the position determined according to the user's input, as the position of the feature point of the input image, and generates feature point data representing the feature point of the input image. Generate for each input image.
  • the feature point data generation unit 105 stores the generated feature point data in the feature point data storage unit 106. Note that the feature point data generation unit 105 may associate the input image with the feature point data of the input image and store the associated data in the feature point data storage unit 106.
  • the feature point data storage unit 106 stores feature point data generated by the feature point data generation unit 105 based on input from the user. Note that in the configuration shown in FIG. 3, the feature point data storage unit 106 is included in the input support device 100, but the feature point data storage unit 106 can communicate with the input support device 100 via a network or the like. It may also be implemented in other connected devices. Further, the feature point data storage unit 106 may be configured as a database.
  • the data stored in the feature point data storage unit 106 can be used for any purpose. That is, the purpose of the user's designation of the position of the feature point with respect to the input image is arbitrary and is not limited to a specific purpose.
  • feature point data may be used to match people using facial images. Specifically, to determine which of the known persons the person to be identified corresponds to, the feature points of the face image of the person to be identified are compared with the feature points of the facial images of each of a plurality of known people.
  • the input support device 100 may be used to make it possible to specify the information. In this case, the input support device 100 may be used to register feature points of a known person's facial image in a database in advance, or The input support device 100 may be used to identify feature points.
  • feature point data may be collected to generate new data from the feature point data.
  • feature point data may be collected to generate bounding box data surrounding a predetermined portion (eg, an eye).
  • feature point data may be collected to generate statistical data of feature point locations.
  • feature point data may be collected for use as training data for creating a machine learning model. In this way, the purpose of the user's designation of the position of the feature point with respect to the input image is arbitrary.
  • FIG. 5 is a block diagram showing an example of the hardware configuration of the input support device 100.
  • the input support device 100 includes an output device 150, an input device 151, a storage device 152, a memory 153, and a processor 154.
  • the output device 150 is an output device such as a display that outputs information to the outside.
  • the display may be, for example, a flat panel display such as a liquid crystal display, a plasma display, or an organic EL (Electro-Luminescence) display. Further, the output device 150 may include a speaker.
  • the output device 150 displays the user interface provided by the user interface unit 104.
  • the input device 151 is a device for a user to input via a user interface, and is, for example, an input device such as a pointing device or a keyboard. Examples of pointing devices include a mouse, trackball, touch panel, pen tablet, and the like. Input device 151 and output device 150 may be integrally configured as a touch panel.
  • the storage device 152 is a nonvolatile storage device such as a hard disk or flash memory.
  • the model storage unit 101 and feature point data storage unit 106 described above are realized by, for example, the storage device 152, but may be realized by other storage devices.
  • the memory 153 is configured, for example, by a combination of volatile memory and nonvolatile memory.
  • the memory 153 is used to store software (computer program) including one or more instructions executed by the processor 154, data used for various processes of the input support device 100, and the like.
  • the processor 154 reads software (computer program) from the memory 153 and executes it to perform the processing of the input image acquisition unit 102, estimation unit 103, user interface unit 104, and feature point data generation unit 105 described above.
  • the processor 154 may be, for example, a microprocessor, an MPU (Micro Processor Unit), or a CPU (Central Processing Unit).
  • Processor 154 may include multiple processors. In this way, the input support device 100 has the function of a computer.
  • a program includes a set of instructions (or software code) that, when loaded into a computer, causes the computer to perform one or more functions described in the embodiments.
  • the program may be stored on a non-transitory computer readable medium or a tangible storage medium.
  • a computer readable medium or tangible storage medium may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drive (SSD) or other memory technology, CD - including ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
  • the program may be transmitted on a transitory computer-readable medium or a communication medium.
  • transitory computer-readable or communication media includes electrical, optical, acoustic, or other forms of propagating signals.
  • FIG. 6 is a flowchart showing an example of the operation of the input support device 100. The flow of the operation of the input support device 100 will be described below with reference to FIG. 6.
  • step S100 the input image acquisition unit 102 acquires an image showing a predetermined object (a person's face).
  • step S101 the estimation unit 103 uses the machine learning model stored in the model storage unit 101 to estimate the position of the feature point of the input image acquired in step S100.
  • the user interface unit 104 provides a user interface that accepts an input from the user specifying the position of a feature point with respect to the input image acquired in step S100, and accepts the input from the user.
  • the user interface unit 104 supports the user's input using the estimation result obtained in step S101, and accepts the user's specification of the position.
  • the user interface unit 104 displays feature points at the estimated positions on the input image. Further, the user interface unit 104 may output a warning when the deviation between the position specified by the user's input and the estimated position exceeds a threshold value.
  • step S103 the feature point data generation unit 105 generates feature point data representing the feature points of the input image, with the position determined according to the user's input as the position of the feature point of the input image. Then, the feature point data generation unit 105 stores the generated feature point data in the feature point data storage unit 106.
  • step S104 the input image acquisition unit 102 determines whether there is a next input image. That is, the input image acquisition unit 102 determines whether there is another input image for which the position of the feature point should be specified. If there are other input images, the process returns to step S100 and the above-described process is repeated. On the other hand, if there are no other input images, the process ends.
  • Embodiment 1 has been described above.
  • the user's input is supported using the estimation results of the machine learning model.
  • this input support device 100 a user can easily specify an appropriate position as a position of a feature point of an image.
  • the user interface unit 104 supports the user's input by displaying the position estimated by the estimation unit 103 before the user inputs the position of the feature point. With such a configuration, it is possible to perform work while viewing the estimation results of a machine learning model learned using teacher data created by an expert who is familiar with the standards for the positions of feature points.
  • the user interface unit 104 may output a warning based on the magnitude of the deviation between the position specified by the user's input and the position estimated by the estimation unit 103.
  • a warning based on the magnitude of the deviation between the position specified by the user's input and the position estimated by the estimation unit 103.
  • the input image may be a face image
  • the feature points may be feature points of the face.
  • the user interface section 104 displayed the position estimated by the estimating section 103 prior to input by the user.
  • the user interface unit 104 does not need to display the position estimated by the estimation unit 103 prior to input by the user.
  • the user interface unit 104 may support the user's input by evaluating the user's input based on the position specified by the user's input and the position estimated by the estimation unit 103. .
  • the user interface unit 104 may evaluate the magnitude of the deviation between the position specified by the user's input and the position estimated by the estimation unit 103, and output the evaluation result.
  • the user interface unit 104 if the magnitude of the deviation is less than or equal to a predetermined threshold, the user interface unit 104 notifies that a position close to the position indicated by the model estimation result is specified as the evaluation result. It may also be output.
  • this predetermined threshold value may be the same as the threshold value described in Embodiment 1, that is, the threshold value for outputting a warning based on the magnitude of the deviation.
  • the user interface unit 104 may output a warning as the evaluation result.
  • the user who received the warning can specify an appropriate position as the position of the feature point by correcting the position of the feature point if necessary.
  • the evaluation results may be displayed on the UI screen or may be output as audio.
  • the user can obtain information for determining whether or not the position specified by the user is appropriate, so that the user can easily specify an appropriate position as the position of the feature point.
  • the number of displays for support can be reduced compared to the first embodiment. Therefore, it is possible to prevent the user from being bothered by such a display during input.
  • the estimation unit 103 estimated only the positions of feature points.
  • the estimation unit 103 may further estimate the order of the plurality of feature points of the input image. For example, if it is necessary to generate feature point data representing position information for each feature point in a predetermined order, the order is defined in advance for these feature points. In this case, the user needs to specify the positions of multiple feature points of the object in a predetermined order. To explain using a specific example, for example, an order is defined in advance for 19 feature points of an input image of a face, and the user may have to specify the position of each feature point according to this order. In this case, it is required to prevent the positions of feature points from being specified in the wrong order.
  • the estimation unit 103 may estimate the positions of the plurality of feature points of the input image together with the order of the feature points using a machine learning model.
  • the user interface unit 104 may also support the user in specifying the positions of the feature points in accordance with the order. This makes it possible to prevent the positions of feature points from being specified in an incorrect order.
  • a machine learning model uses, for example, a set of an image, the order of each feature point of the object shown in the image, and the position of each feature point as training data, and performs machine learning such as deep learning. It has been learned in advance by That is, the estimation unit 103 performs estimation processing using a machine learning model that has learned the position of each feature point along with the order information of each feature point.
  • the user interface unit 104 may support the user's input by, for example, displaying the estimated position of each feature point and the order of each feature point on the input image. More specifically, before the user inputs the position of the feature point, the user interface unit 104 displays the feature point at the position estimated by the estimation unit 103 on the input image, and also indicates the order of each feature point. Information may be displayed.
  • the information indicating the order of each feature point is, for example, a number indicating the order, but may also be a mark such as an arrow indicating the order. According to such a configuration, the user can work while viewing the estimation results of the machine learning model. Therefore, even a user with little experience in input work for specifying the positions of feature points can specify the positions of feature points in an appropriate order.
  • the user interface unit 104 may also support the user's input by outputting a warning based on the difference between the order estimated by the machine learning model and the order in which the user specifies the positions of the feature points. .
  • the user interface unit 104 outputs a warning when the user specifies the positions of the feature points in an order different from the estimated order.
  • the user interface unit 104 outputs a warning that the user may be specifying the positions of the feature points in an order different from the predetermined order. Note that this warning may be displayed on the UI screen or may be outputted as a voice.
  • FIG. 7 is a schematic diagram illustrating input in an incorrect order. Here, as shown by the arrow 93 illustrated in FIG.
  • the correct input order is to input the position of the minutiae point 92a indicating the left end of the nose, then input the position of the minutiae point 92b indicating the apex of the nose. , and then the position of the feature point 92c indicating the right end of the nose.
  • the user interface unit 104 outputs a warning.
  • the user interface unit 104 may, for example, select a feature point (feature point 92c) whose position is specified by the user as a feature point (feature point 92c) that is different from the next feature point (feature point 92b) specified from the defined order. If it is close to the estimated position of , it is determined that the input order is incorrect.
  • the position of the feature point designated by the user is close to the estimated position means that the difference between the two positions is less than or equal to a predetermined threshold.
  • this predetermined threshold value may be the same as the threshold value described in Embodiment 1, that is, the threshold value for outputting a warning based on the magnitude of the deviation. In this way, by outputting a warning about an error in the order, it is possible to suppress generation of feature point data in which the position information of each feature point is arranged in an order different from a predetermined order.
  • FIG. 8 is a block diagram showing an example of the functional configuration of the input support device 100a according to the second embodiment.
  • the input support device 100a according to the second embodiment differs from the input support device 100 according to the first embodiment in that it further includes a relearning section 107.
  • the processing of the relearning unit 107 is also performed, for example, by the processor 154 reading software (computer program) from the memory 153 and executing it.
  • Embodiment 2 it is also possible to apply the above-mentioned 1st modification, and it is also possible to apply the above-mentioned 2nd modification.
  • the relearning unit 107 uses, as training data, a combination of the input image acquired by the input image acquisition unit 102 and the position of the feature point specified by the user's input with respect to the input image. Perform machine learning again. That is, the relearning unit 107 performs machine learning of the machine learning model again by using the feature point data generated by the feature point data generating unit 105 as teacher data.
  • the relearning unit 107 may use only the feature point data for some images generated in response to the user's instructions for feature point positions, or may use the feature point data for all images for relearning. It can be used for re-learning. In particular, the relearning unit 107 allows the user to confirm the specified position as the position of the feature point, despite the warning that the size of the deviation between the specified position of the user and the estimated position of the estimation unit 103 exceeds a threshold value.
  • the feature point data generated by the instruction may be used for relearning. This kind of feature data is for unique images that can cause incorrect model estimation results, so by performing relearning using this kind of feature data, it can be made appropriate for such images. Machine learning models can be updated to models that make predictions.
  • the machine learning model will be trained with more training data, which will improve the stability of the machine learning model.
  • the relearning unit 107 may also perform relearning using teacher data initially used to generate the machine learning model.
  • FIG. 9 is a flowchart showing an example of the operation of the input support device 100a according to the second embodiment. As shown in FIG. 9, the flowchart shown here differs from the flowchart shown in FIG. 6 in that step S105 is added after step S104. Hereinafter, points different from the flowchart shown in FIG. 6 will be explained.
  • step S104 the process moves to step S105.
  • step S105 the relearning unit 107 reads out the feature point data generated based on the series of processes from step S100 to step S104 from the feature point data storage unit 106, and reads out the machine learning data stored in the model storage unit 101. Retrain the model. Then, the relearning unit 107 stores the retrained machine learning model in the model storage unit 101. As a result, in the next work, estimation will be performed using the updated machine learning model.
  • Embodiment 2 has been described above. According to the input support device 100a, relearning of the machine learning model is performed. Therefore, the machine learning model is updated as needed, and the accuracy of the model can be improved. Therefore, the estimation by the estimation unit 103 can be performed with higher accuracy.
  • Additional note 1 Estimating means for estimating the position of the feature point of the input image;
  • An input support device comprising: input support means for supporting an input by a user to designate a position of a feature point of the input image based on the position estimated by the estimation means and the position specified by the input.
  • Additional note 2 The input support device according to supplementary note 1, wherein the input support means further supports the input by displaying the estimated position prior to the input by the user.
  • the input support means does not display the estimated position prior to the input by the user, and evaluates the input based on the position specified by the input by the user and the estimated position,
  • the input support device according to supplementary note 1, which supports the input.
  • the input support means provides support by outputting a warning based on the magnitude of the deviation between the position specified by the input by the user and the estimated position.
  • the input support device described. Appendix 5)
  • the estimation means estimates the positions of the plurality of feature points of the input image together with the order of the feature points, The input support device according to any one of Supplementary Notes 1 to 4, wherein the input support means supports the user in specifying the positions of feature points according to the order.
  • Input support device as described in section.
  • the input support device according to any one of Supplementary Notes 1 to 8, wherein the input image is a face image, and the feature points are feature points of a face.
  • Appendix 10 Estimate the position of the feature points in the input image, An input support method that supports an input by a user to specify a position of a feature point of the input image based on an estimated position and a position specified by the input.
  • Input support device 2 Estimation section 3 Input support section 100 Input support device 100a Input support device 101 Model storage section 102 Input image acquisition section 103 Estimation section 104 User interface section 105 Feature point data generation section 106 Feature point data storage section 107 Relearning Unit 150 Output device 151 Input device 152 Storage device 153 Memory 154 Processor

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

特徴点の位置をより適切に決定することができる入力支援装置、入力支援方法、及びプログラムを提供する。入力支援装置(1)は、入力画像の特徴点の位置を推定する推定部(2)と、ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定手段により推定された位置と前記入力により指定された位置に基づいて支援する入力支援部(3)とを有する。

Description

入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体
 この開示は、入力支援装置、入力支援方法、及びプログラムに関する。
 画像を用いた情報処理を行うための準備として、ユーザが画像を確認し、画像における特徴点の位置をユーザが指定する作業が行われることがある。例えば、顔画像を用いて人物を特定する照合システムのデータベースを作成するために、データベース作成者であるユーザが既知の複数の人物の顔画像のそれぞれに対し特徴点の位置を指定することがある。また、例えば、照合システムにより顔画像を用いて人物を特定するために、検索担当者であるユーザが、特定すべき人物の顔の特徴点の位置を照合システムに入力することがある。また、例えば、機械学習モデルの教師データを準備するために、教師データ作成者であるユーザが、画像の特徴点の位置を指定することもある。このように、任意の目的のために、画像における特徴点の位置をユーザが指定する作業が行われることがある。
 ところで、関連する技術として、特許文献1に記載された輪郭検出装置が知られている。この輪郭検出装置によれば、画像からの爪の輪郭の特徴点の自動検出結果に対し、輪郭としての信頼度の低い特徴点が特定される。
特開2019-057111号公報
 特許文献1に示されるように、装置による推定結果は、誤っている可能性がある。一方で、ユーザ(人間)による判断が誤る可能性もある。したがって、装置の推定結果の誤りにだけ着目するのではなく、装置の推定結果とユーザの判断との相違に着目することで、より適切な特徴点の位置の決定を可能にすることができる。しかしながら特許文献1に記載された技術では、特徴点の自動検出結果の誤りを容易に特定することは可能であるが、特徴点について装置が推定した位置とユーザが指定した位置との相違に着目した処理は行なわれていない。
 そこで、この明細書に開示される実施形態が達成しようとする目的の1つは、特徴点の位置をより適切に決定することができる入力支援装置、入力支援方法、及びプログラムを提供することである。
 この開示の第1の態様にかかる入力支援装置は、
 入力画像の特徴点の位置を推定する推定手段と、
 ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定手段により推定された位置と前記入力により指定された位置に基づいて支援する入力支援手段と
 を有する。
 この開示の第2の態様にかかる入力支援方法では、
 入力画像の特徴点の位置を推定し、
 ユーザによる前記入力画像の特徴点の位置を指定するための入力を、推定された位置と前記入力により指定された位置に基づいて支援する。
 この開示の第3の態様にかかるプログラムは、
 入力画像の特徴点の位置を推定する推定ステップと、
 ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定ステップで推定された位置と前記入力により指定された位置に基づいて支援する入力支援ステップと
 をコンピュータに実行させる。
実施の形態の概要にかかる入力支援装置の構成の一例を示すブロック図である。 目の画像の一例を示す模式図である。 実施の形態1にかかる入力支援装置の機能構成の一例を示すブロック図である。 ユーザインタフェース部が入力画像上の推定された位置に特徴点を表示する例を示す模式図である。 実施の形態1にかかる入力支援装置のハードウェア構成の一例を示すブロック図である。 実施の形態1にかかる入力支援装置の動作の一例を示すフローチャートである。 誤った順序による入力について説明する模式図である。 実施の形態2にかかる入力支援装置の機能構成の一例を示すブロック図である。 実施の形態2にかかる入力支援装置の動作の一例を示すフローチャートである。
<実施の形態の概要>
 まず、実施の形態の概要について説明する。
 図1は、実施の形態の概要にかかる入力支援装置1の構成の一例を示すブロック図である。図1に示すように、入力支援装置1は、推定部2と、入力支援部3とを有する。入力支援装置1は、入力支援装置1に入力された画像である入力画像に対し、ユーザが特徴点の位置を指定する作業に用いられる装置である。なお、入力画像は例えば、人の顔が映された顔画像であり、特徴点は例えば顔の特徴点であるが、入力画像及び特徴点はこれらに限られない。例えば、入力画像には、動物、自動車、構造物などの任意の対象物が映されていてもよい。また、特徴点は、対象物毎に予め定義されていればよく、その種類については限定されない。以下、入力支援装置1の各構成要素について説明する。
 推定部2は、入力画像の特徴点の位置を推定する。例えば、推定部2は、予め学習された機械学習モデルを用いて推定を行なってもよい。ここで、機械学習モデルは、画像と当該画像に映された対象物の特徴点の位置との組を教師データとして用いて、予め学習されている。この教師データにおいて、特徴点の位置は、例えば、特徴点の位置を指定する作業の熟練者により予め指定されている。換言すると、この教師データにおいて、特徴点の位置は、特徴点の定義に合致する正しい位置に指定されている。
 入力支援部3は、ユーザによる入力画像の特徴点の位置を指定するための入力を、推定部2により推定された位置に基づいて支援する。ここで、特徴点の位置を指定するための入力を支援するとは、例えば、推定された位置の表示、警告の出力、位置の指定の順序の表示などといったように、ユーザが特徴点の位置を指定する際に当該ユーザに所定の情報を提示する処理を行なうことをいう。特に、入力支援部3は、前記推定手段により推定された位置と前記入力により指定された位置に基づいて、ユーザによる入力を支援する。例えば、入力支援部3は、推定部2により推定された位置とユーザの入力により指定された位置との差異により警告を出力することで、ユーザの入力を支援してもよい。
 入力支援装置1によれば、推定部2の推定結果及び入力結果を用いてユーザの入力が支援される。このため、入力支援装置1によれば、装置による推定とユーザによる判断とを相互に補完した上で特徴点の位置を決定することができる。したがって、入力支援装置1によれば、本装置を用いない場合と比較して、特徴点の位置をより適切に決定することができる。
 一般的に、対象物のどのような部分を特徴点とするかについては予め定義されているため、ユーザは、入力画像に対して、この定義に合致する位置を特徴点の位置として指定する。しかしながら、特徴点の定義、すなわち特徴点としての満たすべき基準を知っている全てのユーザが同じ位置に特徴点をプロットできるとは限らない。ユーザにより指定される特徴点の位置は、ユーザの経験によっても変動しうるし、特徴点の定義の不明確さによっても変動しうる。特に、人間の顔のように個体差のある対象についての特徴点については、個体毎の厳密な定義ではなく、個体差を無視した汎用的な定義がなされるため、特徴点の定義は各個体にとって不明確となり得る。このため、ユーザが適切な位置に特徴点をプロットすることは容易ではない。例えば、目の特徴点として、目尻90(図2参照)に点を指定することが予め定義されているとする。しかしながら、人それぞれ、目の形や大きさなどが異なるため、全ての人物に共通する目尻の特徴点の位置を正確に事前に定義しておくことは難しい。このため、特に、経験が少ないユーザにとっては、特徴点の定義だけからは適切な位置に特徴点の位置を指定することは難しい。このため、経験が少ないユーザが作業を行った場合、目尻の特徴点の位置にばらつきが生じうる。
 これに対し、ユーザが入力支援装置1を用いた場合、ユーザは、推定部2が推定した特徴点の位置に基づいて、入力の支援を受けることができる。例えば、目尻の特徴点の適切な位置が指定された教師データを用いて学習されたモデルを利用して推定すれば、たいていの入力画像については、目尻の特徴点の適切な位置が推定される。この推定結果により、ユーザの特徴の指定の誤りを防ぐことが可能になる。また、そのような推定結果により、ユーザは汎用的な特徴点の定義からは理解しがたい適切な位置を理解することができる。そして、適切な位置を理解したユーザは、特異な顔画像などが推定部2(例えば機械学習モデル)に入力された際に不適切な位置が推定されたとしても、適切な位置を指定することができる。つまり、特徴点の位置を指定する入力作業の初心者であっても、特徴点の位置の基準をよく知った熟練者と同等に特徴点の位置の指定を行うことができる。
 なお、上記説明では、図1に示す構成を備える入力支援装置1について説明したが、上記効果を得るための態様は装置に限られない。例えば、入力支援装置1の上述した処理を含む入力支援方法や、入力支援装置1の上述した処理を行うプログラムもしくは当該プログラムが格納された非一時的なコンピュータ可読媒体においても、同様の効果を得ることができる。
 以下、図面を参照しつつ、この開示の実施の形態を詳細に説明する。なお、以下の記載及び図面は、説明の明確化のため、適宜、省略及び簡略化がなされている。また、各図面において、同様な構成要素には同一の符号が付されており、必要に応じて重複説明は省略されている。
<実施の形態1>
 図3は、実施の形態1にかかる入力支援装置100の機能構成の一例を示すブロック図である。入力支援装置100は、図1の入力支援装置1に対応する装置である。なお、この実施の形態では、入力支援装置100は、一例として、顔画像の特徴点の位置を指定する入力を支援するが、入力支援装置100は顔以外の対象物の特徴点の位置を指定する入力を支援してもよい。ユーザは、入力支援装置100を用いて、対象物(顔)の特徴点の位置を指定する入力を行う。なお、ユーザは、例えば、特徴点の定義について予め把握しているが、入力作業に慣れていない初心者である。ただし、入力支援装置100のユーザは、そのようなユーザには限られない。入力支援装置100のユーザは、特徴点の位置の入力の熟練者であってもよいし、特徴点の定義について予め把握していない人であってもよい。
 図3に示すように、入力支援装置100は、モデル記憶部101、入力画像取得部102、推定部103、ユーザインタフェース部104、特徴点データ生成部105、及び特徴点データ記憶部106を有する。以下、これらについて説明する。
 モデル記憶部101は、画像に映された所定の対象物の所定の特徴点の位置を推定する機械学習モデルを記憶している。この実施の形態では、所定の対象物は、人の顔である。また、所定の特徴点は、顔の所定の部位に対応する予め定義された19点である。具体的には、これら19の特徴点は、各眉に3点ずつ、各目に3点ずつ、鼻に4点、口に3点である。なお、特徴点の数は一例に過ぎず、より多くの特徴点又はより少ない特徴点が定義されていてもよい。もちろん、どの部位を特徴点とするかについても例を示しただけであり、上記に限定されない。この機械学習モデルは、画像と当該画像に映された対象物の特徴点の位置との組を教師データとして用いて、ディープラーニングなどの機械学習により予め学習されている。具体的には、モデル記憶部101が記憶する機械学習モデルは、特徴点の位置を指定する作業の熟練者により指定された特徴点の位置を教師データとして用いて予め学習されている。つまり、この機械学習モデルは、特徴点の位置として特徴点の定義に合致する正しい位置が示された教師データを用いて学習されている。
 なお、図3に示した構成では、モデル記憶部101は、入力支援装置100に含まれているが、モデル記憶部101は、入力支援装置100とネットワークなどを介して通信可能に接続された他の装置において実現されてもよい。
 入力画像取得部102は、入力支援装置100に入力される画像であり、特徴点の位置を指定すべき画像を取得する。すなわち、入力画像取得部102は、所定の対象物(人の顔)が映された画像を取得する。典型的には、入力画像は、カメラなどの撮像装置により撮影された画像であるが、必ずしもそのような画像でなくてもよく、コンピュータグラフィックで表された対象物の画像であってもよい。入力画像取得部102は、他の装置から入力画像を受信することにより入力画像を取得してもよいし、入力支援装置100が内蔵する記憶装置もしくは入力支援装置100に接続された記憶装置から読み出すことにより、入力画像を取得してもよい。
 推定部103は、図1の推定部2に対応している。推定部103は、モデル記憶部101に記憶された機械学習モデルを用いて、入力画像取得部102が取得した入力画像の特徴点の位置を推定する。ここでは、推定部103は、顔画像に対して、19の特徴点の位置を推定する。
 ユーザインタフェース部104は、入力画像取得部102が取得した入力画像に対して特徴点の位置を指定する入力をユーザから受付けるユーザインタフェースを提供し、ユーザからの当該入力を受付ける。例えば、ユーザインタフェース部104は、入力画像を表示するとともに、ユーザからの入力を受付けるためのUI(ユーザインタフェース)コンポーネントが配置したUI画面を後述する出力装置150において表示する。すなわち、ユーザインタフェース部104は、特徴点の位置の指定の入力をユーザから受付けるためのGUI(Graphical User Interface)を提供する。そして、ユーザインタフェース部104は、後述する入力装置151を介して入力された特徴点の位置の指定を受付ける。
 ユーザインタフェース部104は、入力支援部と称されてもよい。ユーザインタフェース部104は、ユーザによる入力画像の特徴点の位置を指定するための入力を、推定部103により推定された位置に基づいて支援する。この実施の形態では、具体的には、ユーザインタフェース部104は、ユーザによる特徴点の位置の入力に先だって、推定部103により推定された位置を表示することにより、ユーザの入力を支援する。より詳細には、ユーザインタフェース部104は、入力画像上において、推定部103により推定された位置に特徴点を表示する。
 図4は、ユーザインタフェース部104が入力画像91上の推定された位置に特徴点を表示する例を示す模式図である。図4に示すように、ユーザインタフェース部104は、推定部103により推定された位置に、19点の特徴点92を表示する。なお、図4では、図が複雑になることを防ぐべく、19点の特徴点の一部にのみ符号を付している。
 この場合、ユーザは、推定結果に基づいて表示された特徴点の位置を参照しつつ、各特徴点の位置を指定する入力を行う。なお、各特徴点の位置を指定する入力は、推定結果に基づいて表示された特徴点の位置を修正する入力であってもよいし、推定結果に基づいて表示された特徴点の位置を承認する入力であってもよい。
 また、ユーザインタフェース部104は、ユーザによる入力により指定された位置と、推定部103により推定された位置とのずれの大きさに基づいて、警告を出力することにより、ユーザの入力を支援してもよい。この場合、ユーザインタフェース部104は、例えば、両者のずれの大きさが所定の閾値を超えた場合は、警告を出力する。具体的には、例えば、ユーザインタフェース部104は、ユーザの指定した位置が誤っている恐れがあることを通知する警告を出力する。なお、この警告は、UI画面に表示されてもよいし、音声出力されてもよい。警告を受けたユーザは、必要により特徴点の位置を修正することにより、特徴点の位置として適切な位置を指定することができる。また、警告を受けたユーザは、推定部103の推定結果が誤っていると判断した場合、指定した位置を警告に反して確定させてもよい。
 特徴点データ生成部105は、ユーザから受付けた入力により指定された位置、すなわちユーザの入力にしたがって確定した位置を入力画像の特徴点の位置として、当該入力画像の特徴点を表す特徴点データを入力画像毎に生成する。特徴点データ生成部105は、生成した特徴点データを特徴点データ記憶部106に記憶する。なお、特徴点データ生成部105は、入力画像とこの入力画像の特徴点データとを関連付けて、特徴点データ記憶部106に記憶してもよい。
 特徴点データ記憶部106は、ユーザからの入力に基づいて特徴点データ生成部105によって生成された特徴点データを記憶する。なお、図3に示した構成では、特徴点データ記憶部106は、入力支援装置100に含まれているが、特徴点データ記憶部106は、入力支援装置100とネットワークなどを介して通信可能に接続された他の装置において実現されてもよい。また、特徴点データ記憶部106は、データベースとして構成されていてもよい。
 特徴点データ記憶部106に記憶されたデータは、任意の用途に用いられうる。すなわち、ユーザが入力画像に対して特徴点の位置を指定する作業の目的は、任意であり、特定の目的に限定されない。例えば、特徴点データは、顔画像を用いた人物の照合に用いられてもよい。具体的には、特定すべき人物が既知の人物のいずれに該当するかを、この特定すべき人物の顔画像の特徴点と既知の複数の人物のそれぞれの顔画像の特徴点とを照合することで特定することを可能にするために、入力支援装置100が用いられてもよい。この場合、既知の人物の顔画像の特徴点を予めデータベースに登録しておくために入力支援装置100が用いられてもよいし、データベースに記憶された特徴点と比較される人物の顔画像の特徴点を特定するために入力支援装置100が用いられてもよい。また、特徴点データの利用は、画像照合に限られない。例えば、特徴点データから新たなデータを生成するために特徴点データが収集されてもよい。具体的には、所定の部分(例えば目)を囲むバウンディングボックスのデータ生成するために、特徴点データが収集されてもよい。また、特徴点の位置の統計データを生成するために、特徴点データが収集されてもよい。また、機械学習モデルの作成するための教師データとして利用するために、特徴点データが収集されてもよい。このように、ユーザが入力画像に対して特徴点の位置を指定する作業の目的は、任意である。
 図5は、入力支援装置100のハードウェア構成の一例を示すブロック図である。図5に示すように、入力支援装置100は、出力装置150、入力装置151、記憶装置152、メモリ153、及びプロセッサ154を含む。
 出力装置150は、外部へ情報の出力を行うディスプレイなどの出力装置である。ディスプレイは、例えば、液晶ディスプレイ、プラズマディスプレイ、有機EL(Electro-Luminescence)ディスプレイなどのフラットパネルディスプレイであってもよい。また、出力装置150は、スピーカを含んでもよい。出力装置150は、ユーザインタフェース部104が提供するユーザインタフェースを表示する。
 入力装置151は、ユーザインタフェースを介して、ユーザが入力を行うための装置であり、例えば、ポインティングデバイス又はキーボードなどの入力装置である。ポインティングデバイスの例としては、マウス、トラックボール、タッチパネル、ペンタブレットなどが挙げられる。入力装置151及び出力装置150は、タッチパネルとして一体的に構成されていてもよい。
 記憶装置152は、ハードディスク、フラッシュメモリ等の不揮発性記憶装置である。上述したモデル記憶部101及び特徴点データ記憶部106は、例えば記憶装置152により実現されるが、他の記憶装置により実現されてもよい。
 メモリ153は、例えば、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ153は、プロセッサ154により実行される、1以上の命令を含むソフトウェア(コンピュータプログラム)、及び入力支援装置100の各種処理に用いるデータなどを格納するために使用される。
 プロセッサ154は、メモリ153からソフトウェア(コンピュータプログラム)を読み出して実行することで、上述した入力画像取得部102、推定部103、ユーザインタフェース部104、及び特徴点データ生成部105の処理を行う。プロセッサ154は、例えば、マイクロプロセッサ、MPU(Micro Processor Unit)、又はCPU(Central Processing Unit)などであってもよい。プロセッサ154は、複数のプロセッサを含んでもよい。
 このように、入力支援装置100は、コンピュータとしての機能を備える。
 プログラムは、コンピュータに読み込まれた場合に、実施形態で説明される1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
 次に、入力支援装置100の動作についてフローチャートを参照して説明する。図6は、入力支援装置100の動作の一例を示すフローチャートである。以下、図6を参照しつつ、入力支援装置100の動作の流れを説明する。
 ステップS100において、入力画像取得部102が、所定の対象物(人の顔)が映された画像を取得する。
 次に、ステップS101において、推定部103が、モデル記憶部101に記憶された機械学習モデルを用いて、ステップS100で取得した入力画像の特徴点の位置を推定する。
 次に、ステップS102において、ユーザインタフェース部104は、ステップS100で取得された入力画像に対して特徴点の位置を指定する入力をユーザから受付けるユーザインタフェースを提供し、ユーザからの当該入力を受付ける。その際、ユーザインタフェース部104は、ステップS101で得られた推定結果を用いてユーザの入力を支援しつつ、ユーザによる位置の指定を受付ける。具体的には、上述したように、ユーザインタフェース部104は、入力画像上において、推定された位置に特徴点を表示する。また、ユーザインタフェース部104は、ユーザによる入力により指定された位置と、推定された位置とのずれが閾値を超える場合には、警告を出力してもよい。
 次に、ステップS103において、特徴点データ生成部105が、ユーザの入力にしたがって確定した位置を入力画像の特徴点の位置として、当該入力画像の特徴点を表す特徴点データを生成する。そして、特徴点データ生成部105は、生成した特徴点データを特徴点データ記憶部106に記憶する。
 次に、ステップS104において、入力画像取得部102は、次の入力画像があるか否かを判定する。すなわち、入力画像取得部102は、特徴点の位置を指定すべき他の入力画像があるか否かを判定する。他の入力画像がある場合、処理はステップS100に戻り、上述した処理が繰り返される。これに対し、他の入力画像がない場合、処理は終了する。
 以上、実施の形態1について説明した。入力支援装置100によれば、機械学習モデルの推定結果を用いてユーザの入力が支援される。この入力支援装置100によれば、ユーザが画像の特徴点の位置として適切な位置を容易に指定することができる。特に、この実施の形態では、ユーザインタフェース部104が、ユーザによる特徴点の位置の入力に先だって、推定部103により推定された位置を表示することにより、ユーザの入力を支援する。このような構成によれば、特徴点の位置の基準をよく知った熟練者により作成された教師データを使って学習した機械学習モデルの推定結果を見ながら作業を行うことができる。このため、特徴点の位置を指定する入力作業の経験が少ないユーザであっても、画像の特徴点の位置として適切な位置を容易に指定することができる。つまり、特徴点の位置を指定する入力作業の初心者であっても、特徴点の位置の基準をよく知った熟練者と同等に特徴点の位置の指定を行うことができる。また、ユーザの作業を、推定された位置の修正作業だけとすることも可能になるため、作業負荷の軽減と効率的な作業の実現が期待できる。
 また、上述した通り、ユーザインタフェース部104は、ユーザによる入力により指定された位置と、推定部103により推定された位置とのずれの大きさに基づいて、警告を出力してもよい。このような構成によれば、ユーザが不適切な位置を、誤って特徴点の位置として指定することを抑制することができる。すなわち、ヒューマンエラーの発生を抑制することができる。特に、このような構成によれば、推定部103の推定結果及び入力結果を用いて特徴点の位置が評価されることとなるため、装置による推定とユーザによる判断とを加味した適切な位置を特徴点の位置とすることができる。
 また、上述した通り、入力画像は、顔画像であり、特徴点は顔の特徴点であってもよい。このような入力画像及び特徴点に対して、入力支援装置100を用いることにより、個体差のある対象物である顔についても、ユーザは適切に特徴点の位置を指定することができる。
<実施の形態1の第1の変形例>
 次に、上述した実施の形態1の第1の変形例について説明する。上述した実施の形態では、ユーザインタフェース部104は、推定部103により推定された位置をユーザによる入力に先だって表示した。しかしながら、ユーザインタフェース部104は、推定部103により推定された位置をユーザによる入力に先だって表示しなくてもよい。この場合、ユーザインタフェース部104は、ユーザによる入力により指定された位置と、推定部103により推定された位置とに基づいてユーザの当該入力を評価することにより、ユーザの入力を支援してもよい。例えば、ユーザインタフェース部104は、ユーザによる入力により指定された位置と推定部103により推定された位置とのずれの大きさを評価し、評価結果を出力してもよい。具体的には、例えば、ずれの大きさが所定の閾値以下である場合、ユーザインタフェース部104は、評価結果として、モデルの推定結果が示す位置と近接した位置が指定されていることを通知する出力を行なってもよい。なお、この所定の閾値は、実施の形態1で述べた閾値、すなわち、ずれの大きさに基づいて警告を出力するための閾値と同じであってもよい。また、ずれの大きさが所定の閾値を超える場合、ユーザインタフェース部104は、評価結果として、警告を出力してもよい。警告を受けたユーザは、必要により特徴点の位置を修正することにより、特徴点の位置として適切な位置を指定することができる。評価結果は、UI画面に表示されてもよいし、音声出力されてもよい。このような構成によれば、ユーザは自らが指定した位置が適切であるか否かの判断材料を得ることができるため、特徴点の位置として適切な位置を容易に指定することができる。また、特に、この変形例によれば、支援のための表示を実施の形態1に比べて少なくすることができる。このため、入力の際に、そのような表示によりユーザが煩わされることを抑制することができる。
<実施の形態1の第2の変形例>
 次に、上述した実施の形態1の第2の変形例について説明する。上述した実施の形態では、推定部103は、特徴点の位置だけを推定した。しかしながら、推定部103は、さらに、入力画像の複数の特徴点の順序を推定してもよい。例えば、各特徴点について、所定の順序で位置情報を表す特徴点データを生成する必要がある場合には、これら特徴点について予め順序が定義されている。この場合、ユーザは、対象物の複数の特徴点の位置を、所定の順序にしたがって指定する必要がある。具体例を用いて説明すると、例えば、顔の入力画像の19個の特徴点について予め順序が定義されおり、ユーザはこの順序にしたがって各特徴点の位置を指定しなければならない場合がある。この場合、誤った順序で特徴点の位置の指定が行われることを防ぐことが求められる。
 このため、推定部103は、機械学習モデルを用いて、入力画像の複数の特徴点の位置を特徴点の順序とともに推定してもよい。そして、ユーザインタフェース部104は、ユーザによる特徴点の位置の当該順序にしたがった指定を支援してもよい。これにより、誤った順序で特徴点の位置の指定が行われることを抑制することができる。なお、そのような機械学習モデルは、例えば、画像と当該画像に映された対象物の各特徴点の順序と各特徴点の位置との組を教師データとして用いて、ディープラーニングなどの機械学習により予め学習されている。すなわち、推定部103は、各特徴点の位置を各特徴点の順序情報とともに学習した機械学習モデルを用いて、推定処理を行う。
 ユーザインタフェース部104は、例えば、各特徴点の推定された位置と、各特徴点の順序とを入力画像上に表示することにより、ユーザの入力を支援してもよい。より詳細には、ユーザインタフェース部104は、ユーザによる特徴点の位置の入力に先だって、入力画像上において、推定部103により推定された位置に特徴点を表示するとともに、各特徴点の順序を示す情報を表示してもよい。ここで、各特徴点の順序を示す情報は、例えば、順序を表す数字であるが、順序を示す矢印などのマークであってもよい。このような構成によれば、ユーザは、機械学習モデルの推定結果を見ながら作業を行うことができる。このため、特徴点の位置を指定する入力作業の経験が少ないユーザであっても、適切な順序で特徴点の位置を指定することができる。
 また、ユーザインタフェース部104は、機械学習モデルにより推定された順序と、ユーザによる特徴点の位置の指定の順序の差異に基づいて、警告を出力することにより、ユーザの入力を支援してもよい。この場合、ユーザインタフェース部104は、推定された順序と異なる順序でユーザが特徴点の位置の指定を行った場合に、警告を出力する。具体的には、例えば、ユーザインタフェース部104は、ユーザが所定の順序とは異なる順序で特徴点の位置の指定を行っている恐れがあることを通知する警告を出力する。なお、この警告は、UI画面に表示されてもよいし、音声出力されてもよい。図7は、誤った順序による入力について説明する模式図である。ここでは、図7に図示された矢印93により示されるように、正しい入力順序は、鼻の左側端部を示す特徴点92aの位置の入力、次に、鼻の頂点を示す特徴点92bの位置の入力、次に、鼻の右側端部を示す特徴点92cの位置の入力であるとする。しかし、ユーザが、特徴点92aをプロットする入力を行った後、鼻の下端を示す特徴点92dをプロットする入力を行ったとする。この場合、ユーザインタフェース部104は、警告を出力する。なお、ユーザインタフェース部104は、例えば、ユーザが指定した特徴点の位置が、定義された順序から特定される次に入力すべき特徴点(特徴点92b)とは異なる特徴点(特徴点92c)の推定位置に近接している場合、入力順序が誤っていると判定する。ここで、ユーザが指定した特徴点の位置が、推定位置に近接しているとは、両者の位置の差が所定の閾値以下であることを言う。なお、この所定の閾値は、実施の形態1で述べた閾値、すなわち、ずれの大きさに基づいて警告を出力するための閾値と同じであってもよい。このように、順序の誤りについて警告を出力することにより、所定の順序とは異なる順序で各特徴点の位置情報が並ぶ特徴点データが生成されることを抑制することができる。
 以上、実施の形態1の第2の変形例について説明したが、上述した第2の変形例は、上述した第1の変形例と組み合わされてもよい。
<実施の形態2>
 次に、実施の形態2について説明する。実施の形態2は、機械学習モデルが更新される点で、実施の形態1と異なっている。図8は、実施の形態2にかかる入力支援装置100aの機能構成の一例を示すブロック図である。実施の形態2にかかる入力支援装置100aは、再学習部107をさらに有する点で、実施の形態1にかかる入力支援装置100と異なっている。再学習部107の処理も、例えば、プロセッサ154が、メモリ153からソフトウェア(コンピュータプログラム)を読み出して実行することで行なわれる。
 以下、実施の形態1と異なる点ついて具体的に説明し、適宜重複する説明については省略する。なお、実施の形態2について、上述した第1の変形例を適用することも可能であるし、上述した第2の変形例を適用することも可能である。
 再学習部107は、入力画像取得部102が取得した入力画像と、この入力画像に対して、ユーザによる入力により指定された特徴点の位置との組み合わせを教師データとして用いることにより、機械学習モデルの機械学習を再度行う。すなわち、再学習部107は、特徴点データ生成部105により生成された特徴点データを教師データとして用いることにより、機械学習モデルの機械学習を再度行う。
 再学習部107は、ユーザによる特徴点の位置の指示により生成された一部の画像についての特徴点データだけを再学習のために利用してもよいし、全ての画像についての特徴点データを再学習のために利用してもよい。特に、再学習部107は、ユーザの指定位置と、推定部103の推定位置とのずれの大きさが閾値を超えたことによる警告に反して、当該指定位置を特徴点の位置として確定するユーザの指示がされることにより生成された特徴点データを再学習に用いてもよい。このような特徴データは、モデルの推定結果が誤るような特異な画像に対する特徴データであるため、このような特徴データを用いて再学習を行うことで、そのような画像に対しても適切な予測を行うモデルへと機械学習モデルを更新することができる。また、全ての画像についての特徴点データを再学習のために利用することで、より多くの教師データにより機械学習モデルが学習されることとなるため、機械学習モデルの安定性を向上することができる。なお、再学習部107は、機械学習モデルを生成するために最初に用いた教師データも用いて再学習を行なってもよい。
 次に、実施の形態2にかかる入力支援装置100aの動作についてフローチャートを参照して説明する。図9は、実施の形態2にかかる入力支援装置100aの動作の一例を示すフローチャートである。図9に示すように、ここで示されるフローチャートは、ステップS104の後にステップS105が追加されている点で、図6に示したフローチャートと異なっている。以下、図6に示したフローチャートと異なる点について説明する。
 ステップS104において、他の入力画像がないと判定された場合、処理はステップS105へ移行する。ステップS105において、再学習部107は、ステップS100からステップS104の一連の処理に基づいて生成された特徴点データを特徴点データ記憶部106から読み出して、モデル記憶部101に記憶されている機械学習モデルの再学習を行なう。そして、再学習部107は、再学習された機械学習モデルをモデル記憶部101に記憶する。これにより、次回の作業では、更新された機械学習モデルを用いて推定が行なわれることとなる。
 以上、実施の形態2について説明した。入力支援装置100aによれば、機械学習モデルの再学習が行なわれる。このため、機械学習モデルが随時更新され、モデルの精度を向上させることができる。したがって、推定部103の推定をより精度よく実施することができる。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。例えば、様々な実施の形態及び様々な変形例は、適宜組み合わせることが可能である。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)
 入力画像の特徴点の位置を推定する推定手段と、
 ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定手段により推定された位置と前記入力により指定された位置に基づいて支援する入力支援手段と
 を有する入力支援装置。
(付記2)
 前記入力支援手段は、さらに、推定された位置を前記ユーザによる前記入力に先だって表示することにより、前記入力を支援する
 付記1に記載の入力支援装置。
(付記3)
 前記入力支援手段は、推定された位置を前記ユーザによる前記入力に先だって表示せず、前記ユーザによる前記入力により指定された位置と、推定された位置とに基づいて前記入力を評価することにより、前記入力を支援する
 付記1に記載の入力支援装置。
(付記4)
 前記入力支援手段は、前記ユーザによる前記入力により指定された位置と、推定された位置とのずれの大きさに基づいて、警告を出力することにより支援する
 付記1から3のいずれか一項に記載の入力支援装置。
(付記5)
 前記推定手段は、前記入力画像の複数の特徴点の位置を特徴点の順序とともに推定し、
 前記入力支援手段は、前記ユーザによる特徴点の位置の前記順序にしたがった指定を支援する
 付記1から4のいずれか一項に記載の入力支援装置。
(付記6)
 前記入力支援手段は、各特徴点の推定された位置と、各特徴点の順序とを前記入力画像上に表示することにより支援する
 付記5に記載の入力支援装置。
(付記7)
 前記入力支援手段は、推定された順序と、前記ユーザによる特徴点の位置の指定の順序の差異に基づいて、警告を出力することにより支援する
 付記5又は6に記載の入力支援装置。
(付記8)
 前記推定手段は、予め学習された機械学習モデルを用いて、前記入力画像の特徴点の位置を推定し、
 前記入力画像と、前記ユーザによる前記入力により指定された位置との組み合わせを教師データとして用いることにより、前記機械学習モデルの機械学習を再度行う再学習手段をさらに有する
 付記1から7のいずれか一項に記載の入力支援装置。
(付記9)
 前記入力画像は顔画像であり、前記特徴点は顔の特徴点である
 付記1から8のいずれか一項に記載の入力支援装置。
(付記10)
 入力画像の特徴点の位置を推定し、
 ユーザによる前記入力画像の特徴点の位置を指定するための入力を、推定された位置と前記入力により指定された位置に基づいて支援する
 入力支援方法。
(付記11)
 入力画像の特徴点の位置を推定する推定ステップと、
 ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定ステップで推定された位置と前記入力により指定された位置に基づいて支援する入力支援ステップと
 をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
1  入力支援装置
2  推定部
3  入力支援部
100  入力支援装置
100a  入力支援装置
101  モデル記憶部
102  入力画像取得部
103  推定部
104  ユーザインタフェース部
105  特徴点データ生成部
106  特徴点データ記憶部
107  再学習部
150  出力装置
151  入力装置
152  記憶装置
153  メモリ
154  プロセッサ

Claims (11)

  1.  入力画像の特徴点の位置を推定する推定手段と、
     ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定手段により推定された位置と前記入力により指定された位置に基づいて支援する入力支援手段と
     を有する入力支援装置。
  2.  前記入力支援手段は、さらに、推定された位置を前記ユーザによる前記入力に先だって表示することにより、前記入力を支援する
     請求項1に記載の入力支援装置。
  3.  前記入力支援手段は、推定された位置を前記ユーザによる前記入力に先だって表示せず、前記ユーザによる前記入力により指定された位置と、推定された位置とに基づいて前記入力を評価することにより、前記入力を支援する
     請求項1に記載の入力支援装置。
  4.  前記入力支援手段は、前記ユーザによる前記入力により指定された位置と、推定された位置とのずれの大きさに基づいて、警告を出力することにより支援する
     請求項1から3のいずれか一項に記載の入力支援装置。
  5.  前記推定手段は、前記入力画像の複数の特徴点の位置を特徴点の順序とともに推定し、
     前記入力支援手段は、前記ユーザによる特徴点の位置の前記順序にしたがった指定を支援する
     請求項1から4のいずれか一項に記載の入力支援装置。
  6.  前記入力支援手段は、各特徴点の推定された位置と、各特徴点の順序とを前記入力画像上に表示することにより支援する
     請求項5に記載の入力支援装置。
  7.  前記入力支援手段は、推定された順序と、前記ユーザによる特徴点の位置の指定の順序の差異に基づいて、警告を出力することにより支援する
     請求項5又は6に記載の入力支援装置。
  8.  前記推定手段は、予め学習された機械学習モデルを用いて、前記入力画像の特徴点の位置を推定し、
     前記入力画像と、前記ユーザによる前記入力により指定された位置との組み合わせを教師データとして用いることにより、前記機械学習モデルの機械学習を再度行う再学習手段をさらに有する
     請求項1から7のいずれか一項に記載の入力支援装置。
  9.  前記入力画像は顔画像であり、前記特徴点は顔の特徴点である
     請求項1から8のいずれか一項に記載の入力支援装置。
  10.  入力画像の特徴点の位置を推定し、
     ユーザによる前記入力画像の特徴点の位置を指定するための入力を、推定された位置と前記入力により指定された位置に基づいて支援する
     入力支援方法。
  11.  入力画像の特徴点の位置を推定する推定ステップと、
     ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定ステップで推定された位置と前記入力により指定された位置に基づいて支援する入力支援ステップと
     をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
PCT/JP2022/016149 2022-03-30 2022-03-30 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体 WO2023188160A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/016149 WO2023188160A1 (ja) 2022-03-30 2022-03-30 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/016149 WO2023188160A1 (ja) 2022-03-30 2022-03-30 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
WO2023188160A1 true WO2023188160A1 (ja) 2023-10-05

Family

ID=88199741

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/016149 WO2023188160A1 (ja) 2022-03-30 2022-03-30 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体

Country Status (1)

Country Link
WO (1) WO2023188160A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218051A (ja) * 2009-03-13 2010-09-30 Nec Corp 特徴点選択システム、特徴点選択方法および特徴点選択プログラム
JP2014115821A (ja) * 2012-12-10 2014-06-26 Secom Co Ltd 顔特徴抽出装置および顔認証システム
WO2017179134A1 (ja) * 2016-04-12 2017-10-19 株式会社オプティム 化粧シミュレーションシステム、化粧シミュレーション方法、および化粧シミュレーションプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218051A (ja) * 2009-03-13 2010-09-30 Nec Corp 特徴点選択システム、特徴点選択方法および特徴点選択プログラム
JP2014115821A (ja) * 2012-12-10 2014-06-26 Secom Co Ltd 顔特徴抽出装置および顔認証システム
WO2017179134A1 (ja) * 2016-04-12 2017-10-19 株式会社オプティム 化粧シミュレーションシステム、化粧シミュレーション方法、および化粧シミュレーションプログラム

Similar Documents

Publication Publication Date Title
US11551134B2 (en) Information processing apparatus, information processing method, and storage medium
US10964057B2 (en) Information processing apparatus, method for controlling information processing apparatus, and storage medium
JP5946073B2 (ja) 推定方法、推定システム、コンピュータ・システムおよびプログラム
WO2021135827A1 (zh) 视线方向确定方法、装置、电子设备及存储介质
US20200202226A1 (en) System and method for context based deep knowledge tracing
US20180247183A1 (en) Method and system for generative model learning, and recording medium
JP6833620B2 (ja) 画像解析装置、ニューラルネットワーク装置、学習装置、画像解析方法およびプログラム
JP6392478B1 (ja) 情報処理装置、情報処理プログラム、及び、情報処理方法
JP2009110064A (ja) 分類モデル学習装置および分類モデル学習方法
US20230237777A1 (en) Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium
CN111767883A (zh) 一种题目批改方法及装置
US20230024586A1 (en) Learning device, learning method, and recording medium
US20210279637A1 (en) Label collection apparatus, label collection method, and label collection program
JP2007052575A (ja) メタデータ付与装置およびメタデータ付与方法
US11676030B2 (en) Learning method, learning apparatus, and computer-readable recording medium
JP7422548B2 (ja) ラベルノイズ検出プログラム、ラベルノイズ検出方法及びラベルノイズ検出装置
WO2023188160A1 (ja) 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体
CN117315758A (zh) 面部表情的检测方法、装置、电子设备及存储介质
CN109063561B (zh) 公式的识别计算方法和装置
JP2020035290A (ja) 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
WO2020183656A1 (ja) データ生成方法、データ生成装置及びプログラム
JP2021177312A (ja) 情報処理装置、情報処理方法
US20240087299A1 (en) Image processing apparatus, image processing method, and image processing computer program product
EP2287805A1 (en) Image processing device, image processing method, and information storage medium
US20240119711A1 (en) Learning apparatus, estimation apparatus, learning method, estimation method, and program and non-transitory storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22935305

Country of ref document: EP

Kind code of ref document: A1