WO2023007956A1 - データ作成装置、記憶装置、データ処理システム、データ作成方法、プログラム、及び撮像装置 - Google Patents

データ作成装置、記憶装置、データ処理システム、データ作成方法、プログラム、及び撮像装置 Download PDF

Info

Publication number
WO2023007956A1
WO2023007956A1 PCT/JP2022/023213 JP2022023213W WO2023007956A1 WO 2023007956 A1 WO2023007956 A1 WO 2023007956A1 JP 2022023213 W JP2022023213 W JP 2022023213W WO 2023007956 A1 WO2023007956 A1 WO 2023007956A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
data
image data
image
setting
Prior art date
Application number
PCT/JP2022/023213
Other languages
English (en)
French (fr)
Inventor
俊輝 小林
祐也 西尾
奨騎 笠原
健吉 林
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2023538313A priority Critical patent/JPWO2023007956A1/ja
Priority to CN202280050231.6A priority patent/CN117651945A/zh
Publication of WO2023007956A1 publication Critical patent/WO2023007956A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Definitions

  • One embodiment of the present invention relates to a data creation device, data creation method, and program for creating teacher data for machine learning.
  • An embodiment of the present invention also relates to a storage device that stores image data for creating teacher data, a data processing system that executes learning processing using teacher data, and an imaging device that generates image data.
  • a method of selecting image data to be used for creating training data for example, there is a method of obtaining the feature amount of the image recorded in the image data and determining whether or not it can be used as training data based on the feature amount. Conceivable.
  • An object of one embodiment of the present invention is to appropriately select image data to be used for creating teacher data from a plurality of image data in which images of a plurality of subjects are respectively recorded.
  • one embodiment of the present invention is a data creation apparatus for creating teacher data used for machine learning from image data in which incidental information is recorded in an image of a plurality of subjects.
  • image data in which incidental information including a plurality of identification information assigned in association with a plurality of subjects and a plurality of image quality information assigned in association with a plurality of subjects is recorded.
  • a setting process for setting arbitrary setting conditions related to identification information and image quality information, and a creation process for creating training data based on selected image data in which identification information and image quality information satisfying the setting conditions are recorded are executed. It is a configured data creation device.
  • the image quality information may be information relating to any one of the sense of resolution of the subject in the image indicated by the image data, the brightness of the subject, and the noise appearing at the position of the subject.
  • the image quality information may be resolution perception information related to the resolution perception, and the resolution perception information may be information determined according to the degree of blurring and blurring of the subject in the image indicated by the image data.
  • the image quality information may be resolution information related to the sense of resolution, and the sense of resolution information may be resolution information related to the resolution of the subject in the image indicated by the image data.
  • the setting conditions may be conditions including the upper and lower limits of the resolution of the subject.
  • the image quality information may be information about the brightness of the subject or information about noise appearing at the position of the subject.
  • the information about brightness may be a luminance value corresponding to the subject.
  • the information about noise may be the S/N value corresponding to the subject.
  • the setting condition may be a condition including the upper limit and lower limit of the luminance value or the upper limit and lower limit of the S/N value corresponding to the subject.
  • the incidental information may further include a plurality of pieces of position information assigned in association with a plurality of subjects.
  • the position information may be information indicating the position of the subject in the image indicated by the image data.
  • it may be configured to further execute a display process for displaying an image indicated by the selected image data or a sample image having an image quality that satisfies a setting condition before execution of the creation process.
  • a display process for displaying an image indicated by the selected image data or a sample image having an image quality that satisfies a setting condition before execution of the creation process.
  • it may be configured to further execute determination processing for determining the use of machine learning according to a user's designation, and setting conditions corresponding to the use may be set in the setting processing.
  • a determination process for determining the use of machine learning is further executed in accordance with a user's designation. You can suggest.
  • the additional condition is a condition set for the incidental information, and even if the additional image data is selected from the unselected image data whose identification information and image quality information do not satisfy the set conditions, good. Then, when the additional image data is selected, in the creation process, teacher data may be created based on the selected image data and the additional image data.
  • a storage device is a storage device that stores a plurality of image data used when the data creation device creates teacher data.
  • a data processing system includes a data creation device for creating teacher data from image data in which incidental information is recorded in an image of a plurality of subjects, and a machine using the teacher data.
  • a learning device that performs learning, the data processing system comprising: a plurality of pieces of identification information assigned in association with the plurality of subjects; and a plurality of pieces of image quality information assigned in association with the plurality of subjects. Based on a setting process for setting arbitrary setting conditions regarding identification information and image quality information for a plurality of image data recorded with incidental information including and a learning process of performing machine learning using the teacher data.
  • a data creation method is a data creation method for creating teacher data used for machine learning from image data in which incidental information is recorded in an image of a plurality of subjects, Identification information and image quality for a plurality of image data in which incidental information including a plurality of identification information assigned in association with a plurality of subjects and a plurality of image quality information assigned in association with a plurality of subjects are recorded
  • the data creation method includes a setting step of setting arbitrary setting conditions regarding information, and a creation step of creating teacher data based on selected image data in which identification information and image quality information satisfying the setting conditions are recorded.
  • a program according to one embodiment of the present invention is a program for causing a computer to function as the data creation device of the present invention and for causing the computer to execute setting processing and creation processing.
  • an image capturing apparatus performs an image capturing process of capturing an image including a plurality of subjects, and a generating process of recording incidental information in the image to generate image data.
  • the information is an imaging device including a plurality of pieces of identification information assigned in association with a plurality of subjects, and a plurality of pieces of image quality information assigned in association with a plurality of subjects.
  • the incidental information may be information for selecting selected image data used to create teacher data for machine learning.
  • FIG. 1 is a configuration diagram of a data processing system including a data creation device according to one embodiment of the present invention
  • FIG. 1 is a flow diagram showing basic operations of a data processing system according to one embodiment of the present invention
  • FIG. FIG. 4 is an explanatory diagram of incidental information stored in image data, and a diagram showing a storage area of the image data
  • FIG. FIG. 10 is a diagram showing a case where a data file of incidental information is stored in association with image data
  • FIG. 4 is an explanatory diagram of each information included in supplementary information
  • FIG. 4 is an explanatory diagram of image quality information
  • FIG. 4 is an explanatory diagram of characteristic information
  • It is a figure which shows the data creation flow which concerns on 1st embodiment of this invention.
  • FIG. 4 is a flow diagram showing basic operations of a data processing system according to one embodiment of the present invention
  • FIG. 4 is an explanatory diagram of incidental information stored in image data, and a diagram showing a storage area of the image data
  • FIG. 10 is a diagram showing an example of an input screen for searching image data; It is a figure which shows an example of additional conditions. It is a figure which shows an example of the display screen of additional conditions. It is a figure which shows the data creation flow which concerns on 2nd embodiment of this invention.
  • FIG. 10 is a diagram showing another example of an input screen for image data search;
  • FIG. 10 is a diagram showing an example of a display screen of images recorded in selected image data;
  • the concept of "device” includes not only a single device that performs a specific function, A plurality of devices cooperating for the purpose is also included.
  • Patent means a subject who performs a specific act, and the concept includes individuals, groups, corporations such as companies, and organizations. Intelligence) may also be included. Artificial intelligence is the realization of intellectual functions such as reasoning, prediction and judgment using hardware and software resources. Artificial intelligence algorithms are arbitrary, such as expert systems, case-based reasoning (CBR), Bayesian networks, or subsumption architectures.
  • CBR case-based reasoning
  • Bayesian networks or subsumption architectures.
  • a data creation device (hereinafter referred to as data creation device 10) according to the present embodiment is a device that creates teacher data used for machine learning from image data. More specifically, the data creation device 10 is an annotation support device having a function of selecting image data for creating teacher data from a large number of image data.
  • the data creation device 10 constitutes a data processing system S together with the imaging device 12, the user-side device 14, and the learning device 16, as shown in FIG.
  • the data processing system S performs machine learning according to a user's request, and provides the user with an inference model obtained as a learning result. By using the inference model, the user can identify or predict the type and state of the subject in the image acquired by the user.
  • the imaging device 12 is configured by a known digital camera, a communication terminal with a built-in camera, or the like.
  • the imaging device 12 is operated by its owner, and captures an image of a subject under shooting conditions set by the owner's operation or by the function of the imaging device 12 . That is, the processor (imaging device-side processor) of the imaging device 12 receives the imaging operation of the owner, executes imaging processing, and captures an image.
  • the imaging device-side processor executes generation processing for generating image data by recording incidental information in the captured image.
  • the incidental information is tag information related to images and their use, and includes tag information in a so-called Exif (Exchangeable Image File Format) format. Additional information will be described in detail in a later section.
  • the data creation device 10 creates teacher data used for machine learning using image data in which incidental information is recorded. That is, the data creation device 10 is configured to execute a series of data processing for creating teacher data for machine learning.
  • the teacher data may be the image data itself, or the image data subjected to predetermined processing such as cutting out (trimming) a specific subject in the image indicated by the image data. good too.
  • image data is transmitted from the imaging device 12 to the data creation device 10 via the network N when the imaging device 12 has a communication function.
  • the present invention is not limited to this, and the image data may be captured from the imaging device 12 into a device such as a PC (Personal Computer), and the image data may be transmitted from the device to the data creation device 10 .
  • PC Personal Computer
  • the user-side device 14 is composed of, for example, a PC or a communication terminal owned by the user.
  • the user-side device 14 receives a user's operation and transmits data according to the operation to the data creation device 10, the learning device 16, or the like.
  • the imaging device 12 owned by the user has a communication function and a function capable of displaying information based on the received data, the imaging device 12 may be used as the user-side device 14 .
  • the user-side device 14 also has a display (not shown), and displays information according to the data received from the data creation device 10 or the learning device 16 on the display. For example, when a user uses an inference model obtained by machine learning performed by the learning device 16, the user-side device 14 displays an inference result or the like obtained from the inference model on the display.
  • the learning device 16 Upon receiving a machine learning implementation request from the user, the learning device 16 implements machine learning using the teacher data created by the data creation device 10 .
  • Machine learning is a technology that learns regularity and judgment criteria from data, predicts and judges unknown events based on them, and an analytical technique related to artificial intelligence.
  • An inference model built by machine learning is any mathematical model, such as neural network, convolutional neural network, recurrent neural network, attention, transformer, generative adversarial network, deep learning neural network, Boltzmann machine, matrix factor. Tollization, Factoryization Machine, Mway Factoryization Machine, Field-Aware Factoryization Machine, Field-Aware Neural Factoryization Machine, Support Vector Machine, Bayesian Network, Decision Tree, or Random Forest etc. are available.
  • the data creation device 10 and the learning device 16 are communicably connected to each other, and exchange data between them.
  • the data creation device 10 and the learning device 16 may be independent of each other as separate devices, or may be integrated as a single device.
  • the data creation device 10 and the learning device 16 are implemented by a processor and a program executable by the processor, and are configured by, for example, a general-purpose computer, specifically a server computer. As shown in FIG. 1, the computer that constitutes the data generation device 10 and the computer that constitutes the learning device 16 respectively include processors 10A and 16A, memories 10B and 16B, communication interfaces 10C and 16C, and the like.
  • the processors 10A and 16A are configured by, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a DSP (Digital Signal Processor), or a TPU (Tensor Processing Unit).
  • the memories 10B and 16B are composed of semiconductor memories such as ROM (Read Only Memory) and RAM (Random Access Memory).
  • a program for creating teacher data (hereinafter referred to as teacher data creation program) is installed in the computer that constitutes the data creation device 10 .
  • a computer including the processor 10A functions as the data creation device 10 by the processor 10A reading and executing the teacher data creation program.
  • the teaching data creation program is a program for causing a computer to execute each processing for creating teaching data (more specifically, each processing in the data creation flow, which will be described later).
  • a computer that constitutes the learning device 16 is installed with a program for implementing learning (hereinafter referred to as a learning implementation program).
  • a computer including the processor 16A functions as the learning device 16 by the processor 16A reading and executing the learning implementation program.
  • the learning execution program is a program for causing a computer to execute processing related to machine learning (more specifically, learning processing described later).
  • each of the teacher data creation program and the learning execution program may be acquired by reading from a computer-readable recording medium.
  • each of the above two programs may be acquired by receiving (downloading) via the Internet, an intranet, or the like.
  • the data processing system S is provided with a storage device 18 that stores a plurality of image data used for creating teacher data.
  • a plurality of image data including image data sent from the imaging device 12 and the like are accumulated as a database.
  • the image data stored in the storage device 18 may include image data acquired by reading and digitizing a printed (developed) analog photograph with a scanner or the like.
  • the storage device 18 may be a device installed in the data creation device 10 or the learning device 16, or may be provided in a third computer (for example, an external server) that can communicate with the data creation device 10 or the learning device 16. may be
  • Acquisition step S ⁇ b>001 is performed, for example, before teacher data is created.
  • the processor 10A acquires a plurality of image data in which supplementary information is recorded, specifically, acquires (receives) a plurality of image data from the imaging device 12, the user-side device 14, or the like.
  • the acquired image data is stored in the storage device 18 and accumulated as a database.
  • the image data acquisition source is not particularly limited, and may be a device other than the imaging device 12 and the user-side device 14, for example, an external server (not shown) connected to the network N.
  • the decision step S002 is started when the processor 10A of the data creation device 10 receives a machine learning implementation request from the user.
  • the determination process is executed by the processor 10A.
  • the user who requested the execution of machine learning specifies the purpose of learning, and more specifically, inputs character information representing the purpose of learning, or selects one from candidates for the purpose of learning prepared in advance. Select the desired candidate.
  • Processor 10A determines the learning purpose according to the designation of the purpose received from the user.
  • the "learning use” is a learning theme or subject, and for example, “identifying or estimating the type or state of a subject in an image” falls under this category.
  • the learning purpose determined by determination step S002 is called “determined purpose” for convenience.
  • the processor 10A selects image data for creating teacher data from a plurality of image data stored in the storage device 18, and creates teacher data using the selected image data.
  • the user who requested the execution of machine learning inputs information necessary for searching (extracting) image data for creating teacher data.
  • the input information at this time includes information corresponding to the intended use, and includes, for example, the type or state of a subject that can be identified by machine learning.
  • the processor 10A sets conditions (hereinafter referred to as setting conditions) based on user input information, and selects image data that satisfies the setting conditions from a plurality of image data stored in the storage device 18 as selected image data. Then, the processor 10A creates teacher data using the selected image data.
  • setting conditions hereinafter referred to as setting conditions
  • the correct answer data is training data indicating an image including a subject that matches the determined purpose (hereinafter referred to as a correct subject), and the incorrect answer data is teaching data indicating an image including a subject different from the correct subject.
  • the determination purpose is to "determine whether or not the subject in the image is an orange fruit”
  • the training data showing the image of the orange fruit is treated as the correct data. Used.
  • teacher data showing an image of an oyster of fruit or an orange ball is used as incorrect answer data.
  • the teacher data corresponding to the incorrect answer data is created based on the additional image data described later, for example, based on the image data of the image in which a subject similar to the correct subject appears.
  • the learning process is executed by the processor 16A of the learning device 16.
  • processor 16A uses the teacher data created in creation step S003 to perform machine learning according to the determined application.
  • teacher data of correct data is mainly used, but incorrect data may be used together with correct data for the purpose of improving the accuracy of machine learning.
  • the processor 16A performs a verification test on the inference model using part of the teacher data.
  • the decision step S002, the creation step S003, the learning step S004, and the verification step S005 are repeatedly performed each time a new machine learning request is received from the user.
  • FIG. 3 shows an area in which one piece of image data is stored among the storage areas of the storage device 18 .
  • recording of incidental information includes direct recording and indirect recording.
  • Direct recording means that supplementary information is directly recorded in image data.
  • Indirect recording means that supplementary information is stored in association with image data.
  • the incidental information may be recorded in a data file T separate from the image data.
  • the ID information of each image data group G selected under certain setting conditions is associated with the data file T, and the data file T is read using the ID information of each image data as a key. Is possible.
  • the incidental information is information for selecting selected image data from a plurality of image data stored in the storage device 18, and is referred to by the data creation device 10 when performing the selection process.
  • the incidental information includes characteristic information, image quality information, and learning information, as shown in FIG.
  • the incidental information stored in the image data does not necessarily include all of the characteristic information, the image quality information, and the learning information. good.
  • the learning information is information required when performing machine learning, and specifically includes identification information, position information, size information, and the like of the subject in the image, as shown in FIG. 5A.
  • the identification information is a label indicating the type, state and characteristics of the subject in the image.
  • the position information indicates the position of the subject in the image, and specifically indicates the predetermined position of the rectangular area when the subject is surrounded by a rectangular bounding box as shown in FIG. 5B.
  • the predetermined position of the rectangular area is, for example, the coordinate positions (more specifically, the XY coordinates) of two apex angles existing on the diagonal line of the rectangular area. B2) and (C1, C2).
  • the size information indicates the size of the area occupied by the subject in the image, for example, indicates the size of the rectangular area (specifically, the length in the XY directions).
  • the learning information may be automatically given by the imaging device 12 that has taken the image, may be given by the user inputting through the user-side device 14, or may be given by the function of artificial intelligence (AI). may be created. Also, when detecting a subject in an image in providing learning information, a known subject detection function may be used.
  • AI artificial intelligence
  • the image quality information is a tag relating to the image quality of the subject in the image recorded in the image data, and is given in association with the subject.
  • the subject in the image is given the identification information of the learning information as described above. That is, when image quality information is assigned to a subject in an image, identification information is also assigned.
  • the image quality information in this embodiment is information relating to any one of the resolution of the subject in the image indicated by the image data, the brightness of the subject, and the noise appearing at the position of the subject. Specifically, any one of the resolution information, luminance value information, and noise information shown in FIG. 5A is included in the image quality information. Such information is reflected in the feature values of images derived from teacher data in machine learning, and can affect the accuracy of learning.
  • the sense of resolution information is information about the sense of resolution of the subject, and is determined according to the degree of blurring and blurring of the subject in the image indicated by the image data.
  • the sense of resolution information may be the amount of blurring and blurring of the subject detected by a known method and represented by the number of pixels. An evaluation may be used, or an evaluation based on a score may be used. Further, the sense of resolution information may be obtained by graded evaluation of the degree of blurring and blurring of a subject on a scale based on human sensibility, that is, may indicate the result of sensory evaluation.
  • the sense of resolution information is not limited to information corresponding to the degree of blurring and blurring of the subject, and may be, for example, resolution information regarding the resolution of the subject in the image indicated by the image data.
  • the resolution information is, for example, information indicating the number of pixels (number of pixels) of an image including a subject.
  • the brightness information is information about the brightness of the subject, and specifically indicates the brightness value corresponding to the subject.
  • a luminance value is a value that indicates the luminance of each color of RGB (Red Green Blue) in a pixel in an image. value, or representative value (maximum, minimum or median). Note that the information about the brightness of the subject is not limited to the luminance value, and may be the brightness of the subject evaluated by a score, or the graded evaluation such as the grade or rank as shown in FIG. 5B. Alternatively, it may be the result of sensory evaluation.
  • the noise information is information about noise that appears at the position of the subject, and indicates the degree of noise caused by the imaging sensor of the imaging device 12, specifically, the S/N value (signal-to-noise ratio) corresponding to the subject.
  • the S/N value corresponding to the subject is the S/N value within the rectangular area surrounding the subject in the image.
  • information indicating whether or not white noise exists within the rectangular area surrounding the subject may be added to the information about noise.
  • the amount of noise appearing at the position of the subject may be evaluated by a score, graded evaluation such as a rank or grade, or the result of a sensory evaluation may be used.
  • the image capturing device side processor automatically assigns the image quality information to the subject in the image.
  • the information is not limited to this, and the image quality information may be given by the photographer inputting through the input unit of the imaging device 12, or may be given by an artificial intelligence (AI) function.
  • AI artificial intelligence
  • the property information is a tag indicating information other than the image quality related to the image recorded in the image data, and as shown in FIG. 5A, includes first information or second information, and may further include shooting condition information.
  • the first information is information related to machine learning, and specifically includes permission information, usage information, or history information, as shown in FIG. 5C.
  • the first information is recorded in the image data, at least one of the license information, usage information, and history information should be stored. It is desirable to ensure security by avoiding unauthorized falsification by encrypting or hashing such information.
  • Permission information is information about permission to use image data to create training data for machine learning.
  • the permission information may be information about a person associated with the permission of the image data, for example, a person who can use the image data. Examples of permission information in this case include information that restricts use to a specific person, such as "Can be used only by Mr. A” or “Can be used only by Company B", and "Anyone can use”. Information that there are no user restrictions, etc.
  • the permission information may be information regarding the purpose of use of the image data.
  • Examples of permission information in this case include information that restricts specific purposes of use, such as “restrict commercial use,” and information that states that there are no purpose restrictions, such as “can be used for any purpose.” is applicable.
  • the license information may include information on the usable period of the image data in addition to information on the user or purpose of use. More specifically, the license information may include information regarding restrictions on the time of use, such as the expiration date of the image data, or the period during which the image data can be used free of charge or for a fee.
  • the usage information is information about the usage of machine learning (learning usage), and in detail, indicates what kind of machine learning the training data created from the image data was used for. In addition, by referring to the usage information recorded in the image data, it is possible to identify under what kind of learning usage the teacher data created based on the image data was used in machine learning. can be done.
  • the history information is the history of use as teacher data in past machine learning, that is, the history of image data used to create teacher data. As shown in FIG. 5C, the history information includes, for example, number of times information, user information, correct tag information, incorrect tag information, employment information, and accuracy information.
  • the number of times information is information indicating the number of times machine learning was performed using teacher data created based on the image data.
  • the user information is information indicating the person (user) who requested the execution of past machine learning performed using teacher data created based on the image data.
  • the correct tag information and the incorrect tag information are information regarding whether or not the teacher data was used as correct data in past machine learning performed using the teacher data created based on the image data. Specifically, when teacher data in past machine learning is used as correct data, correct tag information is added to the image data used to create the teacher data. More specifically, if the subject in the image recorded in the image data matches the application of past machine learning, that is, if the subject is a correct subject, the correct tag information is attached to the image data. be.
  • incorrect answer tag information is added to the image data used to create the teacher data. More specifically, if the subject in the image recorded in the image data is different from the correct subject, incorrect tag information is added to the image data. Note that the correct tag information and the incorrect tag information are attached in association with usage information.
  • Employment information is information on whether or not training data corresponding to incorrect answer data has been adopted. In detail, it indicates whether or not machine learning was performed using training data created from image data with incorrect answer tags. This is the information shown.
  • Accuracy information is information about the prediction accuracy of an inference model obtained by performing machine learning using incorrect data. indicates
  • the history information is stored in association with the setting conditions and the additional conditions described later. In other words, it is given to the selected image data that satisfies the setting conditions and the additional image data that satisfies the additional conditions.
  • the correspondence relationship between the setting conditions and the additional conditions and the plurality of image data (image data group G) to which history information has been assigned may be stored in a data file T separate from each image data (Fig. 4).
  • the license information is automatically created by the processor on the imaging device side when the imaging device 12 takes an image.
  • the permission information is not limited to this, and may be created by the photographer inputting it through the input unit of the imaging device 12, or may be created by an artificial intelligence (AI) function.
  • usage information and history information are automatically created by the functions of the data creation device 10 or the learning device 16 when teacher data is created or machine learning is performed.
  • the usage information and history information may be created by the user inputting through the user-side device 14, or may be created by artificial intelligence (AI) functions.
  • the second information is the creator information and owner information shown in FIG. 5A, and strictly speaking, includes at least one of these pieces of information.
  • the creator information is information about the creator of the image data or the creator of the incidental information, such as the name or ID information of each creator.
  • the creator information may be the device ID of the device (specifically, the imaging device 12 or the user-side device 14) used to create the image data or the incidental information.
  • the creator of the image data is the photographer of the image indicated by the image data, that is, the owner of the imaging device 12 used to shoot the image.
  • the creator of the additional information is the creator of the additional information recorded in the image data, and usually matches the creator of the image data.
  • the creator of the incidental information may be different from the creator of the image data.
  • the creator of the incidental information may be the creator of the learning information described above.
  • the second information may include creator information about the creator of the learning information as creator information about the creator of the incidental information.
  • the owner information is information about the right holder of the image data, and more specifically, as shown in FIG. 5C, it is information about the copyright holder of the image data.
  • the copyright owner of image data is the creator of the image data, that is, the photographer.
  • the copyright holder may be different from the creator of the image data.
  • Examples of owner information include information indicating the owner of the copyright of the image data, such as "the owner of the copyright is Mr. A", and information indicating that there is no right holder, such as "copyright free”. This applies to information, etc.
  • the shooting condition information is information about the shooting conditions of an image, and as shown in FIG. Contains information about at least one of the environments.
  • the information about the imaging device 12 includes the manufacturer of the imaging device 12, the model name of the imaging device 12, the type of light source of the imaging device 12, and the like.
  • the information about image processing includes the name of image processing, characteristics of image processing, the model of equipment capable of executing image processing, and the area where processing is performed in an image.
  • Information about the shooting environment includes the date and time of shooting, the season, the weather at the time of shooting, the place name of the shooting location, the illuminance (amount of solar radiation) at the shooting location, and the like.
  • the shooting condition information may further include information other than the above information, such as exposure conditions (specifically, f value, ISO sensitivity, and shutter speed) at the time of shooting.
  • setting conditions are set that reflect the intention of the user requesting execution of machine learning, image data that satisfies the setting conditions are selected as selected image data, and training is performed based on the selected image data.
  • Create data A procedure for creating teacher data according to this embodiment, that is, a data creation flow, will be described below. The data creation flow described below is merely an example, and unnecessary steps may be deleted, new steps added, or the execution order of steps may be changed without departing from the scope of the present invention. .
  • the selected image data is selected by referring to the incidental information recorded in each of the plurality of image data.
  • the data creation flow of the present embodiment includes a flow (hereinafter referred to as the first flow) for selecting by referring to the characteristic information among the incidental information, and a flow for selecting by referring to the image quality information (hereinafter referred to as the second flow). ) and Each of the first flow and the second flow will be described below.
  • the first flow proceeds according to the flow shown in FIG. 6, and in each step in the first flow, the processor 10A of the data generation device 10 executes data processing corresponding to each step.
  • the processor 10A executes acquisition processing for acquiring a plurality of image data before or during the flow.
  • image data in which incidental information is recorded is acquired, and in the case of the first flow, image data in which incidental information including characteristic information is recorded is acquired.
  • the additional information of the image data acquired in the acquisition process includes at least the first information or the second information as characteristic information, and may further include imaging condition information.
  • supplementary information further includes learning information.
  • the processor 10A first executes reception processing (S011).
  • reception processing the user who requested the implementation of machine learning performs an input operation for searching (extracting) image data for creating teacher data through the user-side device 14 .
  • the processor 10A accepts the above input operations through communication with the user-side device 14.
  • the input operation by the user is performed, for example, through the input screen shown in FIG. 7 displayed on the display of the user-side device 14.
  • the information input by the user includes information according to the learning purpose (that is, the determined purpose) specified by the user, and includes, for example, information indicating the subject that matches the determined purpose, that is, the correct subject. For example, if the decision application is "determining whether a subject is an orange fruit", the user inputs "orange" as the correct subject.
  • the user inputs information for narrowing down the image data for creating the training data through the above input screen.
  • information for narrowing down image data is not limited to the above information, and may include learning information and characteristic information other than the above (for example, shooting condition information, etc.).
  • step S012 corresponds to a setting process, and in the setting process, the processor 10A sets arbitrary setting conditions for the plurality of image data accumulated in the storage device 18 based on the input operation accepted in the acceptance process. do.
  • setting the setting conditions means setting each of the items and contents of the setting conditions.
  • An item is a viewpoint (point of view) when narrowing down image data to be used for creating training data
  • a content is a specific concept to which image data corresponds to the item.
  • "correct subject”, "commercial use”, and “user restriction” correspond to the items of the setting conditions
  • the contents of the respective items are “orange” and "commercial use”. available” and “no user restrictions”.
  • the processor 10A sets the setting condition regarding the characteristic information for the image data in which the incidental information including the characteristic information is recorded.
  • the setting condition is set as "image data whose subject type is 'orange', 'commercially available', and 'no user restrictions'".
  • a setting condition related to the first information or the second information corresponds to the first setting condition.
  • the authorized user and the purpose of use indicated by the license information can be items of the setting condition.
  • a setting condition is set according to the contents input by the user for these items.
  • image data for creating teacher data can be narrowed down from the viewpoint of image data usage restrictions, that is, whether or not data can be used.
  • the image data can be narrowed down to the image data that can be used legally by the user.
  • the conditions for each of the authorized user and the purpose of use may be set individually, and the union of these conditions may be used as the set condition, or the intersection of the above conditions may be used as the set condition. good. Further, setting conditions may be set in such a manner that the usage period is added to either one of the permitted users or the purpose of use, or to both the permitted users and the purpose of use.
  • the learning use indicated by the use information that is, the use of past machine learning performed using teacher data created based on image data can be set as a setting condition item.
  • the setting conditions may be set according to the contents input by .
  • the image data can be narrowed down from the viewpoint of the learning purpose, and more specifically, the image data can be narrowed down to match the purpose specified by the user.
  • the past usage history indicated by the history information that is, the usage history as teacher data in the past machine learning performed for the same usage as the determined usage can be set as a setting condition item. More specifically, whether or not it was used to create correct answer data in past machine learning can be set as a setting condition item. Then, the setting condition may be set according to the contents input by the user for the item.
  • the image data for creating teacher data can be narrowed down from the viewpoint of the history of use as teacher data in past machine learning, more specifically, whether or not it was used to create correct data. can.
  • the creator of the image data indicated by the creator information or the creator of the incidental information can be set as an item of the setting condition, and the setting condition can be set according to the contents input by the user for the item. good too.
  • image data for creating teacher data can be narrowed down from the viewpoint of who is the creator of the image data or the creator of the incidental information.
  • the copyright owner of the image data indicated by the owner information can be set as an item for setting conditions, and the setting conditions may be set according to the content entered by the user for the item.
  • the image data for creating the training data can be narrowed down from the viewpoint of who is the copyright holder of the image data.
  • conditions may be set for each of the above five cases (cases 1A to 1E), and the union of the conditions for each viewpoint may be used as the set condition.
  • a product set of conditions set from two or more viewpoints may be set as the set condition.
  • a plurality of conditions may be set with different contents from the same point of view (item), and the union of the plurality of conditions may be used as the setting condition.
  • any setting condition (hereinafter referred to as the second setting condition) related to the shooting condition information may be set. good.
  • the second setting condition may be set according to the contents input by the user regarding the shooting condition.
  • an arbitrary setting condition (hereinafter referred to as a third setting condition) regarding the learning information, more specifically, the position information or size information of the subject may be further set.
  • the position or size of the subject in the image may be added to the items of setting conditions, and the third setting condition may be set according to the contents of these items input by the user.
  • image data for creating teacher data can be narrowed down based on the position or size of the subject in the image.
  • the processor 10A executes the sorting process (S013).
  • selection process selected image data is selected from the plurality of image data stored in the storage device 18 .
  • the selected image data is image data recorded with characteristic information including first information or second information that satisfies the setting conditions set in the setting process.
  • sorting process two or more pieces of sorted image data are usually sorted out. At this time, the amount of screened image data necessary for machine learning to be performed later is preferably screened.
  • the sorting process performs the first information or the second information that satisfies the first setting condition and the shooting condition information that satisfies the second setting condition. is recorded as selected image data. Further, when the first setting condition and the third setting condition are set in the setting process, the first information or the second information that satisfies the first setting condition and the learning information that satisfies the third setting condition are combined in the sorting process. The recorded image data is selected as selected image data.
  • the processor 10A executes the proposal process after executing the selection process (S014).
  • the proposing process is a process of proposing to the user additional conditions different from the setting conditions set in the setting process.
  • the additional condition is a condition set for selecting additional image data from image data that was not selected in the selection process (hereinafter referred to as unselected image data).
  • the unselected image data is image data stored in the storage device 18 whose first information or second information does not satisfy the setting conditions.
  • the additional condition is a condition related to at least one of supplementary information recorded in the image data, that is, characteristic information, image quality information, and learning information.
  • the additional condition proposed in the proposal process of the first flow is preferably a condition related to characteristic information, and more preferably a condition related to first information or second information.
  • Additional conditions include a first additional condition and a second additional condition, and each additional condition is set in association with a set condition.
  • the first additional condition is set as a condition in which the set condition is relaxed or changed for the reason of compensating the selected image data selected based on the set condition.
  • the second additional condition is set so that incorrect answer data, strictly speaking incorrect answer data showing an image of a subject similar to the correct subject, is selected as additional image data in order to improve the accuracy of machine learning. be done.
  • Each of the first additional condition and the second additional condition may be a condition with the same item as the setting condition but with different content, or may be a condition with different item and content from the setting condition.
  • the first additional condition which is the same as the setting condition but different in content, may be, for example, "the image data must be free from use restrictions” as shown in FIG. be image data”. Further, as a first additional condition whose items and contents are different from those of the setting conditions, for example, "image data must be copyright-free" as shown in FIG.
  • the second additional condition having the same item as the setting condition but different content corresponds to, for example, "image data in which the subject is an oyster of a fruit" as shown in FIG.
  • a second additional condition whose items and contents are different from those of the setting condition for example, as shown in FIG.
  • additional conditions are set so that the shooting conditions are different from the setting conditions (second setting conditions) set for the shooting conditions.
  • the additional conditions are set on the processor 10A side based on the set conditions. For example, table data defining correspondence relationships between setting conditions and additional conditions is prepared in advance, and the processor 10A determines the setting conditions set in the setting process and the corresponding additional conditions based on the above table data. May be set.
  • the additional conditions adopted by the existing learner may be additional conditions proposed in the proposal process.
  • additional conditions may be set based on the features of the image recorded in the image data that satisfies the setting conditions, more specifically, the features of the subject in the image (eg, contour shape, color, pattern, etc.). Further, additional conditions may be set by abstracting (generating higher-level concepts) the setting conditions.
  • the additional conditions set in the manner described above are displayed on the display of the user-side device 14 together with the reason for the proposal of the additional conditions, as shown in FIG. This allows the user to understand why the additional condition is proposed.
  • the reasons for the proposal include ⁇ Increase the number of training data'', ⁇ Improve the accuracy of learning'', ⁇ This is a condition adopted by previous learners'', and ⁇ It is better to add incorrect answer data''. is mentioned.
  • the user selects whether to adopt the proposed additional conditions (S015). Then, when the user selects to adopt the additional condition, the processor 10A executes the re-selection process (S016).
  • the re-selection process additional image data is selected from a plurality of non-selected image data according to the adopted additional condition.
  • the additional image data is image data whose incidental information satisfies the addition condition among the non-selected image data.
  • This step S017 corresponds to a creation process, and in the creation process, teacher data is created from the selected image data.
  • teacher data is created based on the selected image data selected in the selection process.
  • the creation process creates teacher data based on each of the selected image data and the additional image data.
  • the number of teacher data can be increased by the amount of additional image data.
  • the accuracy of machine learning performed using teacher data is improved.
  • the teacher data corresponding to the incorrect answer data increases, the learning accuracy can be effectively improved.
  • the first flow ends when the above processing is completed. After the first flow ends, machine learning based on decision usage is performed using the training data created in the first flow.
  • the incidental information is updated, and more specifically, the application information, the history information, and the like are updated.
  • image data for creating teacher data can be selected based on the supplementary information after updating. In other words, based on the track record used for creating training data, the number of times machine learning was performed using that training data, and the accuracy of machine learning, etc., appropriate image data is selected, and based on that image data Teacher data can be created.
  • the proposal process is executed after the selection process, but this is not the only option, and the proposal process may be executed between the setting process and the selection process. In that case, when the user adopts the additional conditions proposed in the proposal process, both the selected image data and the additional image data may be selected at the same timing in the subsequent selection process.
  • the proposed process does not necessarily have to be executed. For example, when a sufficient number of selected image data are selected in the selection process, that is, when a sufficient number of teacher data can be secured, the proposed process is executed. may be omitted.
  • the second flow proceeds according to the flow shown in FIG. 10, and in each step in the second flow, the processor 10A of the data creation device 10 executes data processing corresponding to each step.
  • the processor 10A executes acquisition processing for acquiring a plurality of image data before or during the flow.
  • image data in which incidental information is recorded in an image including a plurality of subjects is acquired.
  • image data in which additional information including identification information and image quality information assigned in association with a plurality of subjects in an image is recorded is acquired.
  • Accompanying information of the acquired image data includes learning information, and may further include characteristic information.
  • the learning information (that is, the identification information, the position information, and the size information) is assigned to each subject, and assigned in association with a plurality of subjects.
  • the second flow is generally the same as the first flow. That is, even in the second flow, the acceptance process, the setting process, and the selection process are executed in this order (S021 to S023), and then the proposal process is executed (S024). When the proposed additional conditions are adopted by the user (S025), re-selection processing based on the additional conditions is executed (S026).
  • the display process described later is executed (S027), and then the creation process is executed (S028).
  • teacher data is created based on the selected image data
  • the teacher data is created based on the selected image data and the additional image data. teacher data is created.
  • step S022 for executing the setting process corresponds to the setting process
  • step S028 for executing the creating process corresponds to the creating process.
  • the proposal process is executed after the selection process, but the present invention is not limited to this, and the proposal process may be executed between the setting process and the selection process. In that case, when the user adopts the additional conditions proposed in the proposal process, both the selected image data and the additional image data may be selected at the same timing in the subsequent selection process.
  • setting conditions are set for the plurality of image data stored in the storage device 18 based on the user's input operation accepted in the acceptance process.
  • setting conditions are set for a plurality of pieces of identification information and a plurality of pieces of image quality information assigned in association with a plurality of subjects in an image. For example, when the user performs an input operation as shown in FIG. Setting conditions are set.
  • setting conditions in the second flow can be items of setting conditions.
  • setting conditions may be set according to the contents input by the user for these items.
  • the setting condition may be a numerical range of scores or ranks (“bokeh degree 2 or less” and “blurring degree 2 or less” in the example shown in FIG. 11) according to the degree of blurring and blurring.
  • the image data for creating the teacher data can be appropriately narrowed down from the viewpoint of the sense of resolution of the subject, more specifically, the degree of blurring and blurring of the subject.
  • the resolution information includes the resolution information of the subject
  • the resolution (the number of pixels) indicated by the resolution information can be set as an item of the setting condition, and the content input by the user for the item can be set.
  • Setting conditions may be set accordingly. Specifically, setting conditions including upper and lower limits of resolution, that is, conditions related to numerical ranges of resolution may be set. In this case (hereinafter referred to as second B case), the image data for creating the teacher data can be appropriately narrowed down from the viewpoint of the resolution of the subject.
  • case 2A and case 2B it is possible to create teacher data from image data with good image quality by narrowing down the image data for creating teacher data from the viewpoint of the resolution of the subject. As a result, learning accuracy in machine learning is improved.
  • the image quality information regarding the brightness of the subject can be an item of the setting condition.
  • the setting condition may be set according to the contents input by the user for the item.
  • setting conditions including upper and lower limits of luminance values that is, conditions relating to numerical ranges of luminance values may be set.
  • the image data for creating the teacher data can be appropriately narrowed down from the viewpoint of the brightness value corresponding to the subject. be able to. As a result, learning accuracy in machine learning is improved.
  • image quality information related to noise appearing at the position of the subject can be set as an item of the setting condition.
  • the setting condition may be set according to the contents input by the user for the item.
  • setting conditions including upper and lower limits of the S/N value that is, conditions relating to the numerical range of the S/N value may be set.
  • the image data for creating teacher data can be appropriately narrowed down from the viewpoint of the S/N value corresponding to the subject. You can narrow down to image data. As a result, learning accuracy in machine learning is improved.
  • conditions may be set for each of the above-mentioned four cases (cases 2A to 2D), and the union of the conditions for each viewpoint may be used as the set condition.
  • a product set of conditions set from two or more viewpoints may be set as the set condition.
  • the position information or size information of the subject may be further set.
  • the position or size of the subject in the image may be added to the items of setting conditions, and the setting conditions may be set according to the contents of these items input by the user.
  • image data for creating teacher data can be narrowed down based on the position or size of the subject in the image.
  • the selection process is executed after the setting process is executed, and in the selection process, the processor 10A selects the selected image data in which the identification information and the image quality information that satisfy the setting conditions are recorded. More specifically, in the selection process of the second flow, among the plurality of subjects appearing in the images recorded in each image data, the identification information and image quality information associated with at least some of the subjects meet the set conditions. The data is screened as screened image data.
  • the additional condition proposed in the second flow proposal process is set for at least one of the incidental information of the image data, that is, the characteristic information, the image quality information, and the learning information, and the learning purpose specified by the user ( decision usage) and corresponding conditions. It should be noted that the additional condition proposed in the proposal process of the second flow is preferably a condition set for the image quality information.
  • Additional conditions in the second flow include, for example, conditions set for the purpose of creating teacher data in which the image quality of the correct subject is intentionally lowered.
  • the additional condition is a condition in which the sense of resolution is lower than the set condition, or a condition in which the tolerance for noise (the upper limit of the S/N value) is higher than the set condition.
  • the procedure for setting the additional condition in the second flow is the same as in the first flow, and the processor 10A sets the first additional condition or the second additional condition included in the additional condition in association with the setting condition.
  • Each of the first additional condition and the second additional condition may be a condition that has the same items as the setting condition but has different content, or may be a condition that has different items and content from the setting condition.
  • the additional condition is displayed on the display of the user-side device 14 together with the reason for the proposal of the additional condition, as in the first flow.
  • the re-selection process when the user selects to adopt the additional condition, the re-selection process is executed.
  • the additional image data is selected from the plurality of non-selected image data according to the adopted additional condition. sorted out.
  • the non-selected image data in the second flow is image data whose identification information and image quality information do not satisfy the set conditions among the plurality of image data accumulated in the storage device 18 . Specifically, image data whose identification information and image quality information do not satisfy the set conditions for all of the plurality of subjects appearing in the image of the image data corresponds to the unselected image data.
  • the display process is executed after the sorting process or the re-sorting process is executed.
  • the display process as shown in FIG. to display.
  • the user who requested the execution of machine learning can check the image quality of the selected image data, that is, the image data for creating the teacher data, by looking at the displayed image.
  • the processor 10A resets the setting conditions, and executes the sorting process again based on the reset setting conditions.
  • two or more sorted image data are usually sorted out, and depending on the setting conditions, a large number of sorted data may be sorted out. In that case, it is possible to display images of all selected image data in the display process, but the user's confirmation burden increases. In view of this point, in the display process, it is preferable to select part of the selected image data from the two or more selected image data, and display the image recorded in the selected selected image data.
  • some of the selected image data whose images are displayed in the display process are selected based on the priority determined for each of the two or more selected image data. For example, it is preferable to display the images recorded in the selected image data up to the m-th highest priority (m is a natural number) by display processing. Note that the number of images to be displayed (that is, the number of selections m of selected image data) can be arbitrarily determined, and may be at least one or more.
  • the order of priority for each piece of selected image data may be determined according to the size of the subject in the image that matches the determined use, that is, the size of the correct subject (more specifically, the size of the rectangular area surrounding the correct subject). Alternatively, the order of priority may be determined according to the actual number of times of use as teacher data in past machine learning.
  • a sample image corresponding to the image recorded in the selected image data may be displayed instead of the image recorded in the selected image data.
  • the sample images are recorded in advance in the data creation device 10, and a plurality of sample images are prepared with different image qualities.
  • the processor 10A may select a sample image that satisfies a setting condition set in the setting process from among the plurality of sample images, and perform display processing for displaying the selected sample image.
  • the processor 10A executes the creation process to create teacher data based on the selected image data or based on each of the selected image data and the additional image data.
  • the second flow ends when the processing up to the above ends.
  • machine learning based on decision usage is performed using the training data created in the second flow.
  • the incidental information is updated, and more specifically, the application information, the history information, and the like are updated.
  • image data for creating teacher data can be selected based on the supplementary information after updating.
  • the proposed process does not necessarily need to be executed. For example, when a sufficient number of selected image data are selected in the selection process, the execution of the proposed process may be omitted. .
  • supplementary information recorded in image data includes learning information and includes at least one of characteristic information and image quality information.
  • Information may be further included.
  • the processor 10A of the data creation device 10 sets the setting condition based on the user's input operation in the setting process.
  • the setting conditions are not limited to this, and the setting conditions may be set automatically by the processor 10A side regardless of the user's input operation.
  • the processor 10A may set setting conditions corresponding to the learning purpose (ie, decision purpose) specified by the user. More specifically, learning purposes and corresponding setting conditions are set in advance for each learning purpose and stored as table data. You may In addition, machine learning identifies the correspondence between the use of machine learning implemented in the past and the setting conditions for creating teacher data in that machine learning, and based on that correspondence, the determined use and corresponding Setting conditions may be set.
  • the setting condition can be set based on the setting condition that the user has adopted so far.
  • the processor 10A when there is a person (already learner) who has performed machine learning in the past for the same learning purpose as the determined purpose, the processor 10A, in the setting process, sets the setting conditions adopted by the already learner.
  • the same conditions may be set as setting conditions.
  • the processor 10A may propose the provisional setting conditions to the user by, for example, displaying the provisional setting conditions on the display of the user-side device 14 after provisionally setting the setting conditions corresponding to the determined application. good. In that case, when the user adopts the proposed provisional setting condition, the processor 10A may set the provisional setting condition as a formal setting condition.
  • the selected image data satisfying the setting condition is selected from the acquired plurality of image data.
  • the present invention is not limited to this, and the image data satisfying the setting conditions, that is, the selected image data may be collectively downloaded from an external image database at a stage after the setting conditions are set.
  • processors provided in each of the data creation device 10 and the learning device 16 may include various processors other than the CPU.
  • processors other than the CPU include, for example, a programmable logic device (PLD), which is a processor whose circuit configuration can be changed after manufacture, such as the above-described FPGA (Field Programmable Gate Array). It also includes a dedicated electric circuit, such as an ASIC (Application Specific Integrated Circuit), which is a processor having a circuit configuration specially designed to perform specific processing.
  • PLD programmable logic device
  • ASIC Application Specific Integrated Circuit
  • one function of the data creation device 10 may be configured by any one of the processors described above.
  • one function may be configured by a combination of two or more processors of the same type or different types, for example, a combination of a plurality of FPGAs, or a combination of FPGAs and CPUs.
  • each of the plurality of functions possessed by the data creation device 10 may be configured by one corresponding processor among the processors described above.
  • two or more of the functions may be configured by one processor.
  • a combination of one or more CPUs and software may be used as one processor, and a plurality of functions may be realized by this processor.
  • SoC system on chip
  • the hardware configuration of the various processors described above may be an electric circuit (circuitry) in which circuit elements such as semiconductor elements are combined.

Abstract

複数の被写体が写った画像がそれぞれに記録された複数の画像データから、教師データ作成に用いる画像データを適切に選別する。 本発明の一つの実施形態は、複数の被写体が写った画像に付帯情報が記録された画像データから、機械学習に用いる教師データを作成するデータ作成装置であって、複数の被写体に対応付けて付与された複数の識別情報と、複数の被写体に対応付けて付与された複数の画質情報と、を含む付帯情報が記録された複数の画像データに対して、識別情報及び画質情報に関する任意の設定条件を設定する設定処理と、設定条件を満たす識別情報及び画質情報が記録された選別画像データに基づいて教師データを作成する作成処理と、を実行するように構成されたデータ作成装置である。

Description

データ作成装置、記憶装置、データ処理システム、データ作成方法、プログラム、及び撮像装置
 本発明の一つの実施形態は、機械学習用の教師データを作成するデータ作成装置、データ作成方法及びプログラムに関する。また、本発明の一つの実施形態は、教師データ作成用の画像データを記憶する記憶装置、教師データを用いた学習処理を実行するデータ処理システム、及び、画像データを生成する撮像装置に関する。
 画像データを教師データとして用いた機械学習を行う場合、教師データとする画像データを適切に選別(アノテーション)することが重要となる。しかし、膨大な画像データの中から教師データとする画像データを選別する際には、相当の手間及び処理時間を要するため、教師データの作成コストが嵩む。そのため、近年、複数の画像データの中から、教師データを作成するために用いられる画像データを所定の選別基準に従って選別する技術が開発されている(例えば、特許文献1参照)。
 教師データの作成に用いられる画像データを選別する方法としては、例えば、画像データに記録された画像の特徴量を求め、その特徴量に基づき、教師データとして利用できるか否かを判定する方法が考えられる。
特開2014-137284号公報
 ところで、画像に複数の被写体が写っている場合があり、その場合には、それぞれの被写体が写っている箇所に基づいて、教師データとして利用可能な画像データであるか否かを適切に判定する必要がある。
 本発明の一つの実施形態は、複数の被写体が写った画像がそれぞれに記録された複数の画像データから、教師データ作成に用いる画像データを適切に選別することを目的とする。
 上記の目的を達成するために、本発明の一つの実施形態は、複数の被写体が写った画像に付帯情報が記録された画像データから、機械学習に用いる教師データを作成するデータ作成装置であって、複数の被写体に対応付けて付与された複数の識別情報と、複数の被写体に対応付けて付与された複数の画質情報と、を含む付帯情報が記録された複数の画像データに対して、識別情報及び画質情報に関する任意の設定条件を設定する設定処理と、設定条件を満たす識別情報及び画質情報が記録された選別画像データに基づいて教師データを作成する作成処理と、を実行するように構成されたデータ作成装置である。
 また、画質情報は、画像データが示す画像中の被写体の解像感、被写体の明るさ、及び被写体の位置に現れるノイズのいずれかに関する情報であってもよい。
 また、画質情報は、解像感に関する解像感情報であり、解像感情報は、画像データが示す画像中の被写体のボケ及びブレ度合いに応じて決まる情報であってもよい。
 また、画質情報は、解像感に関する解像感情報であり、解像感情報は、画像データが示す画像中の被写体の解像度に関する解像度情報であってもよい。この場合、設定条件は、被写体の解像度の上限及び下限を含む条件であってもよい。
 また、画質情報は、被写体の明るさに関する情報、又は被写体の位置に現れるノイズに関する情報であってもよい。ここで、明るさに関する情報は、被写体に対応する輝度値であってもよい。また、ノイズに関する情報は、被写体に対応するS/N値であってもよい。この場合、設定条件は、被写体に対応する輝度値の上限及び下限、又はS/N値の上限及び下限を含む条件であってもよい。
 また、付帯情報は、複数の被写体と対応付けて付与された複数の位置情報をさらに含んでもよい。位置情報は、画像データが示す画像における被写体の位置を示す情報であってもよい。
 また、作成処理の実行前に、選別画像データが示す画像、又は、設定条件を満たす画質を有するサンプル画像を表示する表示処理をさらに実行するように構成されてもよい。
 上記の構成において、複数の画像データから、2以上の選別画像データを選別し、表示処理では、2以上の選別画像データのうち、一部の選別画像データが示す画像を表示すると、好適である。
 また、表示処理では、それぞれの選別画像データに対して定められた優先度に基づいて選択された選別画像データの画像を表示すると、より好適である。
 また、ユーザからの指定に応じて機械学習の用途を決定する決定処理をさらに実行するように構成され、設定処理では、用途と対応した設定条件を設定してもよい。
 また、ユーザからの指定に応じて機械学習の用途を決定する決定処理をさらに実行するように構成され、設定処理では、設定条件の設定前において、用途と対応した設定条件を、ユーザに対して提案してもよい。
 また、設定条件とは異なる追加条件を、ユーザに対して提案する提案処理をさらに実行するように構成されてもよい。この場合、追加条件は、付帯情報に対して設定された条件であり、追加条件により、識別情報及び画質情報が設定条件を満たさない非選別画像データの中から、追加画像データが選別されてもよい。そして、追加画像データが選別された場合、作成処理では、選別画像データ及び追加画像データに基づいて教師データを作成するとよい。
 また、本発明の一つの実施形態に係る記憶装置は、上記のデータ作成装置が教師データを作成する際に用いられる複数の画像データを記憶する記憶装置である。
 また、本発明の一つの実施形態に係るデータ処理システムは、複数の被写体が写った画像に付帯情報が記録された画像データから、教師データを作成するデータ作成装置と、教師データを用いた機械学習を実施する学習装置と、を備えるデータ処理システムであって、複数の被写体と対応付けて付与された複数の識別情報と、複数の被写体と対応付けて付与された複数の画質情報と、を含む付帯情報が記録された複数の画像データに対して、識別情報及び画質情報に関する任意の設定条件を設定する設定処理と、設定条件を満たす識別情報及び画質情報が記録された選別画像データに基づいて教師データを作成する作成処理と、教師データを用いて機械学習を実施する学習処理と、を実行するように構成されたデータ処理システムである。
 また、本発明の一つの実施形態に係るデータ作成方法は、複数の被写体が写った画像に付帯情報が記録された画像データから、機械学習に用いる教師データを作成するデータ作成方法であって、複数の被写体と対応付けて付与された複数の識別情報と、複数の被写体と対応付けて付与された複数の画質情報と、を含む付帯情報が記録された複数の画像データについて、識別情報及び画質情報に関する任意の設定条件を設定する設定工程と、設定条件を満たす識別情報及び画質情報が記録された選別画像データに基づいて教師データを作成する作成工程と、を含むデータ作成方法である。
 また、本発明の一つの実施形態に係るプログラムは、コンピュータを本発明のデータ作成装置として機能させ、コンピュータに、設定処理及び作成処理のそれぞれを実行させるためのプログラムである。
 また、本発明の一つの実施形態に係る撮像装置は、複数の被写体が写る画像を撮像する撮像処理と、画像に付帯情報を記録して画像データを生成する生成処理と、を実行し、付帯情報は、複数の被写体に対応付けて付与された複数の識別情報と、複数の被写体に対応付けて付与された複数の画質情報と、を含む撮像装置である。
 また、上記の撮像装置において、付帯情報は、機械学習用の教師データの作成に用いられる選別画像データを選別するための情報であってもよい。
本発明の一つの実施形態に係るデータ作成装置を含むデータ処理システムの構成図である。 本発明の一つの実施形態に係るデータ処理システムの基本動作を示すフロー図である。 画像データに記憶された付帯情報についての説明図であり、画像データの記憶領域を示す図である。 付帯情報のデータファイルが画像データと関連づけて記憶されているケースを示す図である。 付帯情報に含まれる各情報についての説明図である。 画質情報についての説明図である。 特性情報についての説明図である。 本発明の第一の実施形態に係るデータ作成フローを示す図である。 画像データ検索用の入力画面の一例を示す図である。 追加条件の一例を示す図である。 追加条件の表示画面の一例を示す図である。 本発明の第二の実施形態に係るデータ作成フローを示す図である。 画像データ検索用の入力画面の別例を示す図である。 選別画像データに記録された画像の表示画面の一例を示す図である。
 本発明の一つの好適な実施形態(以下、本実施形態)について、添付の図面を参照しながら詳細に説明する。ただし、以下に説明する実施形態は、本発明の理解を容易にするために挙げた一例に過ぎず、本発明を限定するものではない。すなわち、本発明は、その趣旨を逸脱しない限りにおいて、以下に説明する実施形態から変更又は改良され得る。また、本発明には、その等価物が含まれる。
 また、本明細書において、「装置」という概念には、特定の機能を発揮する単一の装置が含まれることは勿論のこと、分散して互いに独立して存在するものの特定の機能を発揮するために協働する複数の装置も含まれることとする。
 また、本明細書において、「者」は、特定の行為を行う主体を意味し、その概念には、個人、グループ、企業等の法人、及び団体が含まれ、さらには人工知能(AI:Artificial Intelligence)を構成するコンピュータ及びデバイスも含まれ得る。人工知能は、推論、予測及び判断等の知的な機能をハードウェア資源及びソフトウェア資源を使って実現されるものである。人工知能のアルゴリズムは任意であり、例えば、エキスパートシステム、事例ベース推論(CBR:Case-Based Reasoning)、ベイジアンネットワーク又は包摂アーキテクチャ等である。
 <<本実施形態に係るデータ作成装置について>>
 本実施形態に係るデータ作成装置(以下、データ作成装置10)は、画像データから機械学習に用いられる教師データを作成する装置である。詳しく説明すると、データ作成装置10は、多数の画像データの中から教師データ作成用の画像データを選別する機能を有するアノテーション支援用の装置である。
 データ作成装置10は、図1に示すように、撮像装置12、ユーザ側機器14及び学習装置16とともにデータ処理システムSを構成する。データ処理システムSは、ユーザの要求に従って機械学習を実施し、学習結果として得られる推論モデルをユーザに提供する。ユーザは、推論モデルを利用することで、ユーザが取得した画像の被写体の種別及び状態等を識別し、又は予測することができる。
 撮像装置12は、公知のデジタルカメラ、又はカメラ内蔵の通信端末等によって構成される。撮像装置12は、その所有者によって操作され、所有者の操作又は撮像装置12の機能により設定された撮影条件の下で、被写体が写る画像を撮像する。つまり、撮像装置12のプロセッサ(撮像装置側プロセッサ)は、所有者の撮像操作を受け付けて撮像処理を実行し、画像を撮像する。
 また、撮像装置側プロセッサは、撮像された画像に付帯情報を記録して画像データを生成する生成処理を実行する。付帯情報は、画像及び画像の利用等に関するタグ情報であり、いわゆるExif(Exchangeable Image File Format)形式のタグ情報等を含む。付帯情報については後の項で詳しく説明する。
 データ作成装置10は、付帯情報が記録された画像データを用いて、機械学習に用いられる教師データを作成する。すなわち、データ作成装置10は、機械学習用の教師データを作成するための一連のデータ処理を実行するように構成されている。なお、教師データは、画像データそのものであってもよいし、画像データが示す画像中の特定の被写体を切り出す(トリミングする)等、画像データに対して所定の加工処理を施したものであってもよい。
 ちなみに、画像データは、撮像装置12が通信機能を備える場合には、撮像装置12からネットワークN経由でデータ作成装置10に向けて送信される。ただし、これに限定されず、画像データを撮像装置12からPC(Personal Computer)等の機器に取り込み、当該機器からデータ作成装置10に向けて画像データを送信してもよい。
 ユーザ側機器14は、例えば、ユーザが所有するPC又は通信端末等によって構成される。ユーザ側機器14は、ユーザの操作を受け付け、その操作に応じたデータをデータ作成装置10又は学習装置16等に向けて送信する。なお、ユーザが所有する撮像装置12が通信機能を備え、且つ、受信したデータに基づく情報を表示可能な機能を備える場合、その撮像装置12をユーザ側機器14として利用してもよい。
 また、ユーザ側機器14は、不図示のディスプレイを備え、データ作成装置10又は学習装置16から受信したデータに応じた情報をディスプレイに表示する。例えば、学習装置16が機械学習を実施して得られる推論モデルをユーザが利用した場合、ユーザ側機器14は、推論モデルから得られる推論結果等をディスプレイに表示する。
 学習装置16は、ユーザから機械学習の実施要求を受けると、データ作成装置10によって作成された教師データを用いて機械学習を実施する。機械学習は、データから規則性及び判断基準を学習し、それに基づき未知の事象を予測し判断する技術及び人工知能に関わる分析技術等である。機械学習によって構築される推論モデルは、任意の数理モデルであり、例えば、ニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、アテンション、トランスフォーマー、敵対的生成ネットワーク、ディープラーニングニューラルネットワーク、ボルツマンマシン、マトリクス・ファクトーリゼーション、ファクトーリゼーション・マシーン、エムウエイ・ファクトーリゼーション・マシーン、フィールド認識型ファクトーリゼーション・マシーン、フィールド認識型ニューラル・ファクトーリゼーション・マシーン、サポートベクタマシン、ベイジアンネットワーク、決定木、又はランダムフォレスト等が利用可能である。
 データ作成装置10及び学習装置16は、互いに通信可能に接続されており、装置間でデータの授受を行う。なお、データ作成装置10及び学習装置16は、別機器として互いに独立したものでもよいし、単一の装置として一体化されたものでもよい。
 データ作成装置10及び学習装置16は、プロセッサと、プロセッサが実行可能なプログラムによって実現され、例えば汎用的なコンピュータ、具体的にはサーバコンピュータによって構成される。データ作成装置10を構成するコンピュータ、及び、学習装置16を構成するコンピュータは、それぞれ、図1に示すように、プロセッサ10A,16A、メモリ10B,16B及び通信用インタフェース10C,16C等を備える。
 プロセッサ10A,16Aは、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、又はTPU(Tensor Processing Unit)等によって構成される。メモリ10B,16Bは、ROM(Read Only Memory)及びRAM(Random Access Memory)等の半導体メモリによって構成される。
 データ作成装置10を構成するコンピュータには、教師データ作成用のプログラム(以下、教師データ作成プログラム)がインストールされている。プロセッサ10Aが教師データ作成プログラムを読み出して実行することで、プロセッサ10Aを備えるコンピュータがデータ作成装置10として機能する。つまり、教師データ作成プログラムは、コンピュータに教師データ作成用の各処理(詳しくは、後述するデータ作成フロー中の各処理等)を実行させるためのプログラムである。
 他方、学習装置16を構成するコンピュータには、学習実施用のプログラム(以下、学習実施プログラム)がインストールされている。プロセッサ16Aが学習実施プログラムを読み出して実行することで、プロセッサ16Aを備えるコンピュータが学習装置16として機能する。つまり、学習実施プログラムは、コンピュータに機械学習に関する処理(詳しくは、後述の学習処理)を実行させるためのプログラムである。
 なお、教師データ作成プログラム及び学習実施プログラムの各々は、コンピュータが読み取り可能な記録媒体から読み込むことで取得してもよい。あるいは、上記2つのプログラムのそれぞれを、インターネット又はイントラネット等を通じて受信(ダウンロード)することで取得してもよい。
 データ処理システムSには、教師データ作成に用いられる複数の画像データを記憶する記憶装置18が設けられている。記憶装置18には、撮像装置12等から送られてきた画像データを含む複数の画像データが、データベースとして蓄積されている。記憶装置18に蓄積される画像データには、印刷(現像)されたアナログ写真をスキャナ等によって読み取ってデジタル化することで取得された画像データを含めてもよい。
 なお、記憶装置18は、データ作成装置10又は学習装置16に搭載された装置でもよく、あるいは、データ作成装置10又は学習装置16と通信可能な第三のコンピュータ(例えば、外部サーバ)側に設けられてもよい。
 [システムの基本動作について]
 次に、上述のデータ処理システムSの基本動作について、図2を参照しながら説明する。データ処理システムSによるデータ処理フロー(以下、基本フロー)では、取得ステップS001、決定ステップS002、作成ステップS003、学習ステップS004、及び検証ステップS005がこの順で実施される。
 取得ステップS001は、例えば、教師データ作成の前段階に実施され、本ステップでは、データ作成装置10のプロセッサ10Aによって取得処理が実行される。取得処理では、プロセッサ10Aが、付帯情報が記録された複数の画像データを取得し、具体的には、撮像装置12又はユーザ側機器14等から複数の画像データを入手(受信)する。取得された画像データは、記憶装置18に記憶されてデータベースとして蓄積される。
 なお、画像データの取得元は特に限定されず、撮像装置12及びユーザ側機器14以外の装置、例えば、ネットワークNに接続された外部サーバ(不図示)であってもよい。
 決定ステップS002は、データ作成装置10のプロセッサ10Aがユーザから機械学習の実施要求を受け付けることを契機として開始される。本ステップでは、プロセッサ10Aによって決定処理が実行される。決定処理の実行に際して、機械学習の実施を要求したユーザは、学習用途を指定し、具体的には、学習用途を表す文字情報を入力し、あるいは、予め用意された学習用途の候補の中から希望の候補を選択する。プロセッサ10Aは、ユーザから受け付けた用途の指定に応じて学習用途を決定する。
 ここで、「学習用途」とは、学習のテーマ又は主題であり、例えば、「画像中の被写体の種別又は状態を識別又は推定すること」等が該当する。なお、以下では、決定ステップS002にて決定された学習用途を、便宜的に「決定用途」と呼ぶこととする。
 作成ステップS003では、プロセッサ10Aが、記憶装置18に記憶された複数の画像データから、教師データ作成用の画像データを選別し、選別された画像データを用いて教師データを作成する。具体的に説明すると、機械学習の実施を要求したユーザが、教師データ作成用の画像データを検索(抽出)するために必要な情報を入力する。このときの入力情報には、決定用途に応じた情報が含まれ、例えば、機械学習により識別可能とする被写体の種別又は状態等が含まれる。
 プロセッサ10Aは、ユーザの入力情報に基づいて条件(以下、設定条件)を設定し、記憶装置18に記憶された複数の画像データから、設定条件を満たす画像データを選別画像データとして選別する。そして、プロセッサ10Aは、選別画像データを用いて教師データを作成する。
 教師データは、一般に、正解データと不正解データとに分かれる。正解データは、決定用途に合致した被写体(以下、正解の被写体)が写る画像を示す教師データであり、不正解データは、正解の被写体とは異なる被写体が写る画像を示す教師データである。具体例を挙げて説明すると、決定用途が「画像中の被写体が果物のオレンジであるか否かを判定すること」である場合、果物のオレンジが写った画像を示す教師データは、正解データとして用いられる。他方、果物のカキ、又はオレンジ色のボールが写った画像を示す教師データは、不正解データとして用いられる。
 なお、本実施形態において、不正解データに該当する教師データは、後述する追加画像データに基づいて作成され、例えば、正解の被写体と類似する被写体が写る画像の画像データに基づいて作成される。
 学習ステップS004では、学習装置16のプロセッサ16Aによって学習処理が実行される。学習処理では、プロセッサ16Aが、作成ステップS003で作成された教師データを用いて、決定用途に従って機械学習を実施する。機械学習には、主として、正解データの教師データを用いられるが、機械学習の精度を向上させる目的から、正解データとともに、不正解データが用いられる場合がある。
 検証ステップS005では、機械学習の結果として得られた推論モデルの妥当性(精度)を評価するために、プロセッサ16Aが、推論モデルに関する検証テストを、教師データの一部を用いて実施する。
 以上までに説明してきた基本フローのうち、決定ステップS002、作成ステップS003、学習ステップS004及び検証ステップS005は、ユーザから機械学習の実施要求を新たに受け付ける度に、繰り返し実施される。
 [付帯情報について]
 記憶装置18に蓄積された複数の画像データのそれぞれには、付帯情報、すなわちタグが記憶されている。付帯情報について、図3~図5Cを参照しながら説明する。なお、図3は、記憶装置18が有する記憶領域のうち、一つの画像データが記憶された領域を示している。
 本実施形態では、付帯情報の記録には、直接的な記録と、間接的な記録とが含まれる。直接的な記録とは、付帯情報が画像データに直接的に記録されることである。間接的な記録とは、付帯情報が画像データと関連付けて記憶されることである。具体的には、図4に示すように、付帯情報が画像データとは別のデータファイルTに記録されることがある。この場合、ある設定条件の下で選別された画像データ群Gの各々のID情報と、データファイルTとが紐付けられており、各画像データのID情報をキーとして上記のデータファイルTを読み出すことが可能である。
 付帯情報は、記憶装置18に蓄積された複数の画像データの中から選別画像データを選別するための情報であり、選別処理の実行時にデータ作成装置10によって参照される。付帯情報には、図3に示すように、特性情報、画質情報及び学習情報が含まれる。画像データに記憶される付帯情報は、必ずしも特性情報、画質情報及び学習情報のすべてを含んでいるとは限らず、少なくとも特性情報又は画質情報の一方を含み、且つ、学習情報を含んでいればよい。
 (学習情報)
 学習情報は、機械学習を実施する際に必要となる情報であり、具体的には、図5Aに示すように、画像中の被写体の識別情報、位置情報、及び、サイズ情報等を含む。識別情報は、画像中の被写体の種別、状態及び特徴を示すラベルである。位置情報は、画像における被写体の位置を示し、具体的には、図5Bに示すように、被写体を矩形型のバウンディングボックスにて囲んだ際の矩形領域の所定位置を示す。矩形領域の所定位置は、例えば、矩形領域の対角線上に存在する二つの頂角の座標位置(詳しくはXY座標)であり、図5Bに示す例では、座標(A1,A2)、(B1,B2)及び(C1,C2)である。サイズ情報は、画像において被写体が占める領域のサイズを示し、例えば、上記の矩形領域のサイズ(詳しくはXY方向の長さ)を示す。
 一つの画像データが示す画像内に複数の被写体が写っている場合があり得るが、その場合には、複数の被写体と対応付けて複数の学習情報が付与される。すなわち、複数の被写体が写った画像データに対しては、被写体毎に識別情報、位置情報及びサイズ情報等が作成される(図5B参照)。
 なお、学習情報は、画像を撮影した撮像装置12によって自動的に付与されてもよく、ユーザがユーザ側機器14を通じて入力することで付与されてもよく、あるいは、人工知能(AI)の機能によって作成されてもよい。また、学習情報の付与にあたり、画像中の被写体を検出する際には、公知の被写体検出機能を利用すればよい。
 (画質情報)
 画質情報は、画像データに記録された画像中の被写体の画質に関するタグであり、被写体に対応付けて付与される。他方、画像中の被写体には、前述したように、学習情報の識別情報が付与される。つまり、画像中の被写体に対して画質情報が付与される場合には、識別情報が併せて付与される。
 また、一つの画像データが示す画像内に複数の被写体が写っている場合があり、その場合には、複数の被写体に対応付けて複数の画質情報が付与される。つまり、複数の被写体が写った画像データには、複数の被写体に対応付けて付与された複数の識別情報及び複数の画質情報を含む付帯情報が記録される。
 本実施形態における画質情報は、画像データが示す画像中の被写体の解像感、被写体の明るさ、及び被写体の位置に現れるノイズのうち、いずれかの画質に関する情報である。具体的には、図5Aに示す解像感情報、輝度値情報及びノイズ情報のいずれか一つが画質情報に含まれる。これらの情報は、機械学習において教師データから導出される画像の特徴量に反映され、さらには、学習の精度に影響を及ぼし得る。
 解像感情報は、被写体の解像感に関する情報であり、画像データが示す画像中の被写体のボケ及びブレ度合いに応じて決まる。解像感情報は、公知の手法にて検出される被写体のボケ量及びブレ量を画素数で表したものでもよいし、図5Bに示すような1~5のランク又は等級等のように段階評価したものでもよいし、スコアにて評価したものでもよい。また、解像感情報は、被写体のボケ及びブレ度合いをヒトの感性に基づく尺度にて段階評価したもの、すなわち、官能評価の結果を示すものでもよい。
 なお、解像感情報は、被写体のボケ及びブレ度合いに応じた情報に限定されず、例えば、画像データが示す画像中の被写体の解像度に関する解像度情報であってもよい。解像度情報は、例えば、被写体を含む画像の画素数(ピクセル数)を示す情報である。
 明るさ情報は、被写体の明るさに関する情報であり、具体的には、被写体に対応する輝度値を示す。輝度値は、画像中の画素におけるRGB(Red Green Blue)各色の輝度を示す値であり、被写体に対応する輝度値は、画像中、被写体を囲う矩形領域内に存在する画素の輝度値の平均値、又は代表値(最大値、最小値若しくは中央値)である。なお、被写体の明るさに関する情報は、輝度値に限定されず、被写体の明るさをスコアにて評価したものでもよいし、図5Bに示すような等級又はランク等のように段階評価したものでもよいし、あるいは官能評価の結果であってもよい。
 ノイズ情報は、被写体の位置に現れるノイズに関する情報であり、撮像装置12が有する撮像センサに起因するノイズの度合い、具体的には、被写体に対応するS/N値(信号雑音比)を示す。被写体に対応するS/N値は、画像中、被写体を囲う矩形領域内でのS/N値である。なお、ノイズに関する情報には、S/N値の他に、被写体を囲う矩形領域内にホワイトノイズが存在するか否かを示す情報が追加されてもよい。また、被写体の位置に現れるノイズの多さをスコアにて評価したものでもよいし、ランク又は等級等のように段階評価したものでもよいし、あるいは官能評価の結果であってもよい。
 本実施形態において、画質情報は、撮像装置12が画像を撮影すると、撮像装置側プロセッサによって自動的に画像中の被写体に対して付与される。ただし、これに限定されず、画質情報は、撮影者が撮像装置12の入力部を通じて入力することで付与されてもよく、あるいは人工知能(AI)の機能によって付与されてもよい。
 (特性情報)
 特性情報は、画像データに記録された画像に関する画質以外の情報を示すタグであり、図5Aに示すように、第1情報又は第2情報を含み、撮影条件情報をさらに含み得る。
 第1情報は、機械学習に関する情報であり、具体的には、図5Cに示すように許諾情報、用途情報、又は履歴情報を含む。画像データに第1情報が記録される場合には、許諾情報、用途情報及び履歴情報のうちの少なくとも一つが記憶されればよい。これらの情報に関しては、暗号化又はハッシュ化する等して、無断の改竄を回避してセキュリティ性を担保することが望ましい。
 許諾情報は、機械学習における教師データの作成に画像データを使用することについての許諾に関する情報である。許諾情報は、図5Cに示すように、画像データの許諾に関連する者、例えば、画像データの使用可能者に関する情報であってもよい。この場合の許諾情報の例としては、「Aさんに限り使用可能」又は「B社に限り使用可能」等のように特定の者に使用を制限する情報、及び、「誰でも使用可能」のように使用者制限がない旨の情報等が該当する。
 また、許諾情報は、図5Cに示すように、画像データの使用目的に関する情報であってもよい。この場合の許諾情報の例としては、「商用利用を制限する」等のように特定の使用目的を制限する情報、及び、「あらゆる目的で使用可能」のように目的制限がない旨の情報等が該当する。
 さらに、許諾情報には、使用可能者又は使用目的に関する情報に加え、画像データの使用可能期間に関する情報が含まれてもよい。具体的には、使用時期の制限に関する情報、例えば、画像データの有効期限、あるいは無料又は有料で画像データが使用できる期間等が許諾情報に含まれてもよい。
 用途情報は、機械学習の用途(学習用途)に関する情報であり、詳しくは、画像データから作成される教師データがどのような用途の機械学習に利用されたかを示す。また、画像データに記録された用途情報を参照すれば、その画像データに基づいて作成された教師データが、どのような学習用途の下で実施された機械学習に用いられたのかを特定することができる。
 履歴情報は、過去の機械学習における教師データとしての使用履歴、すなわち、画像データが教師データの作成に使用された履歴に関する情報である。履歴情報としては、図5Cに示すように、例えば、回数情報、利用者情報、正解タグ情報、不正解タグ情報、採用情報、及び精度情報が該当する。
 回数情報は、その画像データに基づいて作成された教師データを用いて機械学習が実施された回数を示す情報である。
 利用者情報は、その画像データに基づいて作成された教師データを用いて実施された過去の機械学習について、当該機械学習の実施を要求した者(利用者)を示す情報である。
 正解タグ情報及び不正解タグ情報は、その画像データに基づいて作成された教師データを用いて実施された過去の機械学習について、当該教師データが正解データとして用いられたかどうかに関する情報である。
 具体的に説明すると、過去の機械学習における教師データが正解データとして用いられた場合、その教師データの作成に用いられた画像データに対しては、正解タグ情報が付与される。より詳しく説明すると、画像データに記録された画像中の被写体が、過去の機械学習の用途に合致した被写体、つまり正解の被写体である場合には、その画像データに対して正解タグ情報が付与される。
 他方、過去の機械学習における教師データが不正解データとして用いられた場合、その教師データの作成に用いられた画像データに対しては、不正解タグ情報が付与される。より詳しく説明すると、画像データに記録された画像中の被写体が、正解の被写体とは異なる被写体である場合には、その画像データに対して不正解タグ情報が付与される。
 なお、正解タグ情報及び不正解タグ情報は、用途情報と紐付けられて付与される。
 採用情報は、不正解データに該当する教師データの採用の有無に関する情報であり、詳しくは、不正解タグが付与された画像データから作成された教師データを用いて機械学習が実施されたかどうかを示す情報である。
 精度情報は、不正解データを用いて機械学習を実施して得られた推論モデルの予測精度に関する情報であり、詳しくは、不正解データを利用しなかった場合の精度との比較結果、すなわち差分を示す。
 履歴情報は、設定条件及び後述の追加条件と紐付けられて記憶され、換言すると、設定条件を満たす選別画像データ、及び、追加条件を満たす追加画像データに対して付与される。ここで、設定条件及び追加条件と、履歴情報が付与された複数の画像データ(画像データ群G)との対応関係は、各画像データとは別のデータファイルTに記憶されてもよい(図4参照)。
 なお、第1情報のうち、許諾情報は、撮像装置12が画像を撮影すると、それに伴って撮像装置側プロセッサにより自動的に作成される。ただし、これに限定されず、許諾情報は、撮影者が撮像装置12の入力部を通じて入力することで作成されてもよく、あるいは人工知能(AI)の機能によって作成されてもよい。
 また、第1情報のうち、用途情報及び履歴情報は、教師データが作成された時点又は機械学習が実施された時点で、データ作成装置10又は学習装置16の機能によって自動的に作成される。ただし、これに限定されず、用途情報及び履歴情報は、ユーザがユーザ側機器14を通じて入力することで作成されてもよく、あるいは人工知能(AI)の機能によって作成されてもよい。
 第2情報は、図5Aに示す作成者情報及び保有者情報であり、厳密には、これらの情報のうちの少なくとも一つを含む。
 作成者情報は、図5Cに示すように、画像データの作成者、又は付帯情報の作成者に関する情報であり、例えば、各作成者の名前又はID情報である。なお、作成者情報は、画像データ又は付帯情報を作成する際に用いた機器(具体的には、撮像装置12又はユーザ側機器14)のデバイスIDであってもよい。
 画像データの作成者は、画像データが示す画像の撮影者、すなわち、その画像の撮影に用いられた撮像装置12の所有者である。付帯情報の作成者は、画像データに記録された付帯情報の作成者であり、通常の場合には、画像データの作成者と一致する。ただし、付帯情報の作成者が画像データの作成者と異なってもよい。また、付帯情報の作成者は、前述した学習情報の作成者であってもよい。その場合、第2情報は、付帯情報の作成者に関する作成者情報として、学習情報の作成者に関する作成者情報を含んでもよい。
 保有者情報は、画像データの権利者に関する情報であり、詳しくは、図5Cに示すように、画像データの著作権の保有者に関する情報である。通常の場合には、画像データの著作権の保有者は、その画像データの作成者、すなわち撮影者と一致する。ただし、著作権の保有者が画像データの作成者と異なってもよい。保有者情報の例としては、「著作権者がAさん」等のように画像データの著作権の保有者を示す情報、及び、「著作権フリー」のように権利者が存在しない旨を示す情報等が該当する。
 撮影条件情報は、画像の撮影条件に関する情報であり、図5Cに示すように、画像を撮影した機器(つまり、撮像装置12)、当該機器が画像に対して実施する画像処理、及び画像の撮影環境の少なくとも一つに関する情報を含む。
 撮像装置12に関する情報としては、撮像装置12の製造メーカ、撮像装置12の機種名、及び、撮像装置12が有する光源の種類等が該当する。
 画像処理に関する情報としては、画像処理の名称、画像処理の特徴、画像処理を実施可能な機器の機種、及び、画像において処理が実施された領域等が該当する。
 撮影環境に関する情報としては、撮影の日時、季節、撮影時の天候、撮影場所の地名、及び、撮影場所での照度(日射量)等が該当する。
 また、撮影条件情報には、上記の情報以外の情報、例えば、撮影時の露光条件(具体的にはf値、ISO感度、及びシャッタスピード)等がさらに含まれてもよい。
 <<本実施形態に係る教師データの作成手順について>>
 本実施形態に係るデータ処理方法では、機械学習の実施を要求するユーザの意向を反映した設定条件を設定し、設定条件を満たす画像データを選別画像データとして選別し、選別画像データに基づいて教師データを作成する。以下、本実施形態に係る教師データの作成手順、すなわちデータ作成フローについて説明する。
 なお、以下に説明するデータ作成フローは、あくまでも一例であり、本発明の趣旨を逸脱しない範囲において不要なステップを削除したり、新たなステップを追加したり、ステップの実施順序を入れ替えてもよい。
 本実施形態では、複数の画像データの各々に記録された付帯情報を参照して選別画像データを選別する。ここで、本実施形態のデータ作成フローは、付帯情報のうち、特性情報を参照して選別するフロー(以下、第1フロー)と、画質情報を参照して選別するフロー(以下、第2フロー)とに大別される。以下、第1フロー及び第2フローのそれぞれについて説明する。
 (第1フロー)
 第1フローは、図6に示す流れに従って進行し、第1フロー中の各工程では、データ作成装置10のプロセッサ10Aが、各工程と対応するデータ処理を実行する。
 また、図6には図示していないが、プロセッサ10Aは、フローの開始前又は途中で、複数の画像データを取得する取得処理を実行する。取得処理では、付帯情報が記録された画像データを取得し、第1フローの場合には、特性情報を含む付帯情報が記録された画像データを取得する。取得処理にて取得される画像データの付帯情報には、特性情報として第1情報又は第2情報が少なくとも含まれ、撮影条件情報がさらに含まれてもよい。また、付帯情報には学習情報がさらに含まれる。
 第1フローでは、先ず、プロセッサ10Aが受付処理を実行する(S011)。受付処理では、機械学習の実施を要求したユーザが、ユーザ側機器14を通じて、教師データ作成用の画像データを検索(抽出)するための入力操作を行う。プロセッサ10Aは、ユーザ側機器14との通信により上記の入力操作を受け付ける。
 ユーザによる入力操作は、例えば、ユーザ側機器14のディスプレイに表示される図7の入力画面を通じて行われる。ユーザによって入力される情報には、ユーザが指定した学習用途(すなわち、決定用途)に応じた情報が含まれ、例えば、決定用途に合致した被写体、つまり、正解の被写体を示す情報が含まれる。例えば、決定用途が「被写体が果物のオレンジであるか否かを判定すること」である場合には、ユーザは、正解の被写体として「オレンジ」を入力する。
 また、ユーザは、上記の入力画面を通じて、教師データ作成用の画像データを絞り込むための情報を入力する。図7に示す例では、「商用利用の有無」及び「使用者制限の有無」が、画像データを絞り込むための情報として入力される。なお、画像データを絞り込むための情報は、上記の情報に限定されず、学習情報及び上記以外の特性情報(例えば、撮影条件情報等)を含んでもよい。
 次に、プロセッサ10Aは、設定処理を実行する(S012)。このステップS012は、設定工程に相当し、設定処理では、プロセッサ10Aが、受付処理にて受け付けた入力操作に基づき、記憶装置18に蓄積された複数の画像データに対して任意の設定条件を設定する。
 ここで、設定条件の設定とは、設定条件の項目及び内容のそれぞれを設定することである。項目とは、教師データ作成に用いる画像データを絞り込む際の観点(視点)であり、内容とは、項目に関して画像データが該当する具体的概念である。図7に示す例の場合、「正解の被写体」、「商用利用の有無」及び「使用者制限の有無」が設定条件の項目に該当し、それぞれの項目の内容は、「オレンジ」、「商用利用あり」、「使用者制限なし」である。
 第1フローの設定処理では、プロセッサ10Aが、特性情報を含む付帯情報が記録された画像データに対して、特性情報に関する設定条件を設定し、詳しくは、第1情報又は第2情報に関する任意の設定条件を設定する。図7に示す例の場合、『被写体の種別が「オレンジ」であり、「商用利用可能」で、「使用者制限なし」の画像データ』という設定条件が設定される。
 なお、第1情報又は第2情報に関する設定条件は、第1設定条件に該当する。
 設定条件(第1設定条件)について詳しく説明すると、図7に示す例のように、許諾情報が示す使用可能者及び使用目的を設定条件の項目とすることができる。これらの項目に対してユーザが入力した内容に応じて設定条件が設定される。このケース(以下、第1Aケース)では、画像データの使用制限、つまり、データ使用の可否の観点から、教師データ作成用の画像データを絞り込むことができる。特に、使用可能者の観点から絞り込めば、ユーザが正当に使用することが可能な画像データに絞り込むことができる。
 なお、第1Aケースにおいて、使用可能者及び使用目的の各々に関する条件を個々に設定し、これらの条件の和集合を設定条件としてもよいし、あるいは、上記の条件の積集合を設定条件としてもよい。また、使用可能者又は使用目的のいずれか一方、又は、使用可能者及び使用目的の両方に対して、使用可能期間をさらに追加した形で設定条件を設定してもよい。
 また、用途情報が示す学習用途、つまり、画像データに基づいて作成された教師データを用いて実施された過去の機械学習の用途を設定条件の項目とすることができ、その項目に対してユーザが入力した内容に応じて設定条件を設定してもよい。このケース(以下、第1Bケース)では、学習用途という観点から画像データを絞り込むことができ、詳しくは、ユーザによって指定された用途に合致した画像データに絞り込むことができる。
 また、履歴情報が示す過去の使用履歴、すなわち、決定用途と同一の用途にて実施された過去の機械学習における教師データとしての使用履歴を、設定条件の項目とすることができる。詳しくは、過去の機械学習で正解データの作成に用いられたかどうかを、設定条件の項目とすることができる。そして、その項目に対してユーザが入力した内容に応じて設定条件を設定してもよい。このケース(以下、第1Cケース)では、過去の機械学習における教師データとしての使用履歴、詳しくは、正解データの作成に用いられたかどうかという観点で、教師データ作成用の画像データを絞り込むことができる。
 また、作成者情報が示す画像データの作成者、又は付帯情報の作成者を、設定条件の項目とすることができ、その項目に対してユーザが入力した内容に応じて設定条件を設定してもよい。このケース(以下、第1Dケース)では、画像データの作成者又は付帯情報の作成者が誰であるかという観点で、教師データ作成用の画像データを絞り込むことができる。
 また、保有者情報が示す画像データの著作権保有者を、設定条件の項目とすることができ、その項目に対してユーザが入力した内容に応じて設定条件を設定してもよい。このケース(以下、第1Eケース)では、画像データの著作権保有者が誰であるかという観点から、教師データ作成用の画像データを絞り込むことができる。
 第1フローの設定処理では、上述した5つのケース(第1A~第1Eケース)での観点のそれぞれで条件を設定し、各観点の条件の和集合を設定条件としてもよい。あるいは、2以上の観点のそれぞれで設定された条件の積集合を設定条件としてもよい。また、同一の観点(項目)で内容を変えて複数の条件を設定し、当該複数の条件についての和集合を設定条件としてもよい。
 また、第1フローの設定処理では、上述の観点で設定条件(第1設定条件)を設定することに加え、撮影条件情報に関する任意の設定条件(以下、第2設定条件)を設定してもよい。つまり、撮影条件を設定条件の項目に加え、撮影条件に関してユーザが入力した内容に応じて第2設定条件を設定してもよい。これにより、撮影条件を加味して、教師データ作成用の画像データを絞り込むことができ、例えば、機械学習に適した撮影条件の下で撮影された画像データに絞り込むことができる。
 さらに、第1フローの設定処理では、学習情報、より詳しくは被写体の位置情報又はサイズ情報に関する任意の設定条件(以下、第3設定条件)をさらに設定してもよい。つまり、画像における被写体の位置又はサイズ等を設定条件の項目に加え、これらの項目についてユーザが入力した内容に応じて第3設定条件を設定してもよい。これにより、画像における被写体の位置又はサイズに基づいて、教師データ作成用の画像データを絞り込むことができる。
 上記の要領にて設定条件が設定された後、プロセッサ10Aは、選別処理を実行する(S013)。選別処理では、記憶装置18に記憶された複数の画像データの中から、選別画像データが選別される。第1フローにおいて、選別画像データは、設定処理にて設定された設定条件を満たす第1情報又は第2情報を含む特性情報が記録された画像データである。選別処理では、通常、2以上の選別画像データが選別される。この際、後に実施される機械学習に必要な量の選別画像データが選別されるとよい。
 また、設定処理にて第1設定条件及び第2設定条件が設定された場合、選別処理では、第1設定条件を満たす第1情報又は第2情報と、第2設定条件を満たす撮影条件情報とが記録された画像データが選別画像データとして選別される。また、設定処理にて第1設定条件及び第3設定条件が設定された場合、選別処理では、第1設定条件を満たす第1情報又は第2情報と、第3設定条件を満たす学習情報とが記録された画像データが選別画像データとして選別される。
 第1フローにおいて、プロセッサ10Aは、選別処理の実行後に提案処理を実行する(S014)。提案処理は、設定処理にて設定された設定条件とは異なる追加条件を、ユーザに対して提案する処理である。
 追加条件は、選別処理において選別されなかった画像データ(以下、非選別画像データ)の中から追加画像データを選別するために設定される条件である。非選別画像データは、記憶装置18に記憶された画像データのうち、第1情報又は第2情報が設定条件を満たさない画像データである。
 また、追加条件は、画像データに記録された付帯情報、すなわち特性情報、画質情報及び学習情報の少なくとも一つに関する条件である。第1フローの提案処理にて提案される追加条件は、特性情報に関する条件であることが好ましく、特に、第1情報又は第2情報に関する条件であることがより好ましい。
 追加条件は、第1追加条件及び第2追加条件を含み、それぞれの追加条件は、設定条件と対応付けて設定される。第1追加条件は、設定条件に基づいて選別された選別画像データを補填する理由から、設定条件を緩和又は変更した条件として設定される。第2追加条件は、機械学習の精度を向上させるために、不正解データ、厳密には正解の被写体と類似する被写体が写った画像を示す不正解データが追加画像データとして選別されるように設定される。
 第1追加条件及び第2追加条件のそれぞれは、設定条件と項目が同一で且つ内容が異なる条件であってもよく、設定条件とは項目及び内容が異なる条件であってもよい。
 具体例として、「被写体が果物のオレンジであるか否かを判定すること」を決定用途とし、『被写体の種別が「オレンジ」であり、「商用利用可能」で、「使用者がAさんに制限された」画像データ』という設定条件が設定された場面を想定する。この場合、設定条件と項目が同一で且つ内容が異なる第1追加条件としては、例えば、図8に示すように「使用制限がない画像データであること」、又は、「許諾情報が未記録の画像データであること」が該当する。また、設定条件とは項目及び内容が異なる第1追加条件としては、例えば、図8に示すように「著作権フリーである画像データであること」が該当する。
 他方、設定条件と項目が同一で且つ内容が異なる第2追加条件としては、例えば、図8に示すように「被写体が果物のカキである画像データであること」が該当する。また、設定条件とは項目及び内容が異なる第2追加条件としては、例えば、図8に示すように、「オレンジ色の楕円形状の物体の画像データであること」が挙げられる。
 また、様々な撮影条件の下で撮影された被写体を正しく識別できるようにする理由から、撮影条件に関して設定された設定条件(第2設定条件)とは異なる撮影条件となるように追加条件を設定してもよい。
 追加条件は、設定条件に基づいてプロセッサ10A側で設定される。例えば、設定条件と追加条件との対応関係を規定したテーブルデータが予め用意されており、プロセッサ10Aが、設定処理にて設定された設定条件と対応する追加条件を、上記のテーブルデータに基づいて設定してもよい。また、設定処理にて設定された設定条件と同じ設定条件で過去に機械学習を実施させたことがある者(以下、既学習者)が存在する場合に、既学習者が採用した追加条件を、提案処理にて提案する追加条件としてもよい。
 また、設定条件を満たす画像データに記録された画像の特徴、詳しくは画像中の被写体の特徴(例えば、輪郭の形状、色及び模様等)に基づいて追加条件を設定してもよい。また、設定条件をより抽象化(上位概念化)することで追加条件を設定してもよい。
 提案処理では、上記の要領で設定された追加条件が、図9に示すように、追加条件の提案理由ともに、ユーザ側機器14のディスプレイに表示される。これにより、ユーザは、追加条件が提案される理由を把握することができる。なお、提案理由としては、「教師データの数を増やす」、「学習の精度を向上させる」、「既学習者が採用した条件である」、及び「不正解データを加えた方がよい」等が挙げられる。
 提案処理において、ユーザは、提案された追加条件の採否を選択する(S015)。そして、ユーザが追加条件の採用を選択した場合、プロセッサ10Aは、再選別処理を実行する(S016)。再選別処理では、採用された追加条件により、複数の非選別画像データの中から追加画像データが選別される。追加画像データは、非選別画像データのうち、付帯情報が追加条件を満たす画像データである。
 選別処理及び再選別処理の実行後、プロセッサ10Aは、作成処理を実行する(S017)。このステップS017は、作成工程に相当し、作成処理では、選別された画像データから教師データが作成される。ここで、提案処理にて提案された追加条件をユーザが採用しなかった場合、作成処理では、選別処理で選別された選別画像データに基づいて教師データが作成される。他方、提案された追加条件が採用されて再選別処理で追加画像データが追加的に選別された場合、作成処理では、選別画像データ及び追加画像データのそれぞれに基づいて教師データが作成される。
 以上のように再選別処理を実行する場合には、追加画像データが増える分、教師データの数を増やすことができる。この結果、教師データを用いて実施される機械学習の精度が向上する。特に、不正解データに該当する教師データが増えた場合には、学習精度を効果的に向上させることができる。
 また、既学習者が採用した追加条件によって選別された追加学習データを用いれば、既学習者が実施させた機械学習における教師データを得ることができる。これにより、例えば同業者が過去に実施させた機械学習を再現し、又は、それよりも高度な機械学習を実施することができる。
 以上までの処理が終了した時点で、第1フローが終了する。第1フローの終了後には、決定用途に基づく機械学習が、第1フローにおいて作成された教師データを用いて実施される。また、教師データ作成に用いられた画像データについては、付帯情報が更新され、具体的には用途情報及び履歴情報等が更新される。これにより、以後のデータ作成フローでは、更新後の付帯情報に基づいて、教師データ作成用の画像データを選別することができる。つまり、教師データ作成に用いられた実績、その教師データを用いて実施された機械学習の実施回数、及び機械学習の精度等を踏まえて、適当な画像データを選別し、その画像データに基づいて教師データを作成することができる。
 なお、図6に示すフローでは、提案処理が選別処理の後で実行されることとしたが、これに限定されず、設定処理と選別処理との間に提案処理が実行されてもよい。その場合、提案処理にて提案された追加条件をユーザが採用した際には、その後の選別処理において、選別画像データ及び追加画像データの双方を同じタイミングで選別してもよい。
 また、提案処理は、必ずしも実行される必要はなく、例えば、選別処理において十分な数の選別画像データが選別された場合、すなわち教師データの数が十分に確保できる場合には、提案処理の実行を省略してもよい。
 (第2フロー)
 第2フローは、図10に示す流れに従って進行し、第2フロー中の各工程では、データ作成装置10のプロセッサ10Aが、各工程と対応するデータ処理を実行する。
 また、図10には図示していないが、プロセッサ10Aは、フローの開始前又は途中で、複数の画像データを取得する取得処理を実行する。取得処理では、複数の被写体が写った画像に付帯情報が記録された画像データを取得する。具体的には、画像中の複数の被写体に対応づけて付与された識別情報及び画質情報を含む付帯情報が記録された画像データを取得する。取得される画像データの付帯情報には学習情報が含まれ、また、特性情報がさらに含まれてもよい。この場合、学習情報(すなわち識別情報、位置情報及びサイズ情報)は、被写体毎に付与され、複数の被写体に対応付けて付与される。
 第2フローは、図10に示すように、第1フローとおおむね共通する。すなわち、第2フローにおいても、受付処理、設定処理及び選別処理がこの順に実行され(S021~S023)、その後に提案処理が実行される(S024)。提案された追加条件がユーザによって採用された場合には(S025)、追加条件に基づく再選別処理が実行される(S026)。
 第2フローでは、選別処理又は再選別処理の実行後に、後述する表示処理が実行され(S027)、その後に作成処理が実行される(S028)。再選別処理が実行されなかった場合の作成処理では、選別画像データに基づいて教師データが作成され、再選別処理が実行された場合の作成処理では、選別画像データ及び追加画像データのそれぞれに基づいて教師データが作成される。
 なお、第2フローにおいて、設定処理を実行するステップS022が設定工程に該当し、作成処理を実行するステップS028が作成工程に該当する。また、図10に示すフローでは、提案処理が選別処理の後で実行されるが、これに限定されず、設定処理と選別処理との間に提案処理が実行されてもよい。その場合、提案処理にて提案された追加条件をユーザが採用した際には、その後の選別処理において、選別画像データ及び追加画像データの双方を同じタイミングで選別してもよい。
 設定処理では、第1フローと同様、受付処理にて受け付けたユーザの入力操作に基づき、記憶装置18に蓄積された複数の画像データに対して任意の設定条件を設定する。第2フローの設定処理では、画像中の複数の被写体に対応付けて付与された複数の識別情報及び複数の画質情報に関する設定条件を設定する。例えば、図11に示すようにユーザが入力操作を行った場合、『被写体の種別が「オレンジ」であり、「ボケ度合いが2以下」で、「ブレ度合いが2以下」である画像データ』という設定条件が設定される。
 第2フローにおける設定条件について詳しく説明すると、図11に示す例のように、画質情報に含まれる解像感情報が示す被写体の解像感、具体的にはボケ及びブレ度合いに応じた情報を、設定条件の項目とすることができる。そして、これらの項目に対してユーザが入力した内容に応じて設定条件を設定してもよい。具体的には、ボケ及びブレ度合いに応じたスコア又はランクの数値範囲(図11に示す例では、「ボケ度合い2以下」、及び「ブレ度合い2以下」)を設定条件としてもよい。このケース(以下、第2Aケース)では、被写体の解像感、詳しくは被写体のボケ及びブレ度合いの観点から、教師データ作成用の画像データを適切に絞り込むことができる。
 また、解像感情報に被写体の解像度情報が含まれる場合には、解像度情報が示す解像度(画素数)を、設定条件の項目とすることができ、その項目に対してユーザが入力した内容に応じて設定条件を設定してもよい。具体的には、解像度の上限及び下限、すなわち解像度の数値範囲に関する条件を含む設定条件を設定してもよい。このケース(以下、第2Bケース)では、被写体の解像度の観点から、教師データ作成用の画像データを適切に絞り込むことができる。
 第2Aケース及び第2Bケースでは、被写体の解像度の観点から、教師データ作成用の画像データを絞り込むことで、画質が良好な画像データから教師データを作成することができる。この結果、機械学習での学習精度が向上する。
 また、第2Bケースにおいて、被写体の解像度が高くなるほど、その被写体が写る画像の画像データを用いて作成される教師データの容量が大きくなり、その教師データを用いた機械学習での学習量が増える。その点を踏まえると、第2Bケースのように、被写体の解像度に関する上限及び下限を含む条件を設定条件として設定するのが好ましい。
 被写体の明るさに関する画質情報、具体的には明るさ情報が示す被写体に対応する輝度値を、設定条件の項目とすることができる。そして、その項目に対してユーザが入力した内容に応じて設定条件を設定してもよい。具体的には、輝度値の上限及び下限、すなわち輝度値の数値範囲に関する条件を含む設定条件を設定してもよい。このケース(以下、第2Cケース)では、被写体に対応する輝度値の観点から、教師データ作成用の画像データを適切に絞り込むことができ、例えば、輝度値が好適な範囲にある画像データに絞り込むことができる。この結果、機械学習での学習精度が向上する。
 また、被写体の位置に現れるノイズに関する画質情報、具体的にはノイズ情報が示す被写体に対応するS/N値を、設定条件の項目とすることができる。そして、その項目に対してユーザが入力した内容に応じて設定条件を設定してもよい。具体的には、S/N値の上限及び下限、すなわちS/N値の数値範囲に関する条件を含む設定条件を設定してもよい。このケース(以下、第2Dケース)では、被写体に対応するS/N値の観点から、教師データ作成用の画像データを適切に絞り込むことができ、例えば、S/N値が好適な範囲にある画像データに絞り込むことができる。この結果、機械学習での学習精度が向上する。
 第2フローの設定処理では、上述した4つのケース(第2A~第2Dケース)での観点それぞれで条件を設定し、各観点の条件の和集合を設定条件としてもよい。あるいは、2以上の観点のそれぞれで設定された条件の積集合を設定条件としてもよい。
 また、第2フローの設定処理では、学習情報、より詳しくは被写体の位置情報又はサイズ情報に関する任意の設定条件をさらに設定してもよい。つまり、画像における被写体の位置又はサイズ等を設定条件の項目に加え、これらの項目についてユーザが入力した内容に応じて設定条件を設定してもよい。これにより、画像における被写体の位置又はサイズに基づいて、教師データ作成用の画像データを絞り込むことができる。
 第2フローにおいて、設定処理の実行後には選別処理が実行され、選別処理では、プロセッサ10Aが、設定条件を満たす識別情報及び画質情報が記録された選別画像データを選別する。より詳しく説明すると、第2フローの選別処理では、各画像データに記録された画像に写る複数の被写体のうち、少なくとも一部の被写体に対応付けられた識別情報及び画質情報が設定条件を満たす画像データを、選別画像データとして選別する。
 第2フローの提案処理にて提案される追加条件は、画像データの付帯情報、つまり特性情報、画質情報及び学習情報の少なくとも一つに対して設定され、且つ、ユーザによって指定された学習用途(決定用途)と対応する条件である。なお、第2フローの提案処理にて提案される追加条件は、画質情報に対して設定される条件であることが好ましい。
 第2フローにおける追加条件としては、例えば、正解の被写体の画質を意図的に低下させた教師データを作成する目的から設定された条件が挙げられる。この場合の追加条件は、解像感を設定条件よりも下げた条件、あるいはノイズに対する許容度(S/N値の上限)を設定条件よりも上げた条件となる。
 第2フローにおける追加条件の設定要領は、第1フローの場合と同様であり、プロセッサ10Aは、追加条件に含まれる第1追加条件又は第2追加条件を、設定条件と対応付けて設定する。第1追加条件及び第2追加条件の各々は、設定条件と項目が同同一で且つ内容が異なる条件であってもよいし、設定条件とは項目及び内容が異なる条件であってもよい。
 また、第2フローの提案処理においても、第1フローの場合と同様、追加条件が、追加条件の提案理由とともに、ユーザ側機器14のディスプレイに表示される。
 第2フローにおいて、ユーザが追加条件の採用を選択した場合には、再選別処理が実行され、再選別処理では、採用された追加条件により、複数の非選別画像データの中から追加画像データが選別される。第2フローにおける非選別画像データは、記憶装置18に蓄積された複数の画像データのうち、識別情報及び画質情報が設定条件を満たさない画像データである。詳しくは、画像データの画像に写る複数の被写体のすべてについて、識別情報及び画質情報が設定条件を満たさない画像データが非選別画像データに該当する。
 第2フローでは、選別処理又は再選別処理の実行後に表示処理を実行し、表示処理では、図12に示すように、プロセッサ10Aが、選別画像データに記録された画像をユーザ側機器14のディスプレイに表示させる。機械学習の実施を要求したユーザは、表示された画像を見て、選別画像データ、すなわち教師データ作成用の画像データの画質を確認することができる。
 なお、ユーザは、表示された画像を見て、選別画像データの画質が好ましくないと判断した場合には、選別処理のやり直しを要求することができる。その場合、プロセッサ10Aは、設定条件を設定し直し、再設定された設定条件に基づいて選別処理を改めて実行する。
 第2フローにおける選別処理では、通常、2以上の選別画像データが選別され、設定条件次第では、多数の選別データが選別される場合があり得る。その場合、表示処理において、選別されたすべての選別画像データの画像を表示することも可能であるが、ユーザの確認負担が大きくなる。この点を踏まえて、表示処理では、2以上の選別画像データのうち、一部の選別画像データを選択し、選択された選別画像データに記録された画像を表示するのがよい。
 上記の場合、表示処理にて画像が表示される一部の選別画像データは、2以上の選別画像データのそれぞれに対して定められた優先順位に基づいて選択されるとよい。例えば、優先順位が上位m番目(mは自然数)までの選別画像データについて、そのデータに記録された画像を表示処理にて表示するとよい。なお、画像の表示数(すなわち、選別画像データの選択数m)は、任意に決めることができ、少なくとも1以上であればよい。
 各選別画像データに対する優先順位は、画像中、決定用途に合致した被写体、すなわち正解の被写体のサイズ(詳しくは、正解の被写体を囲む矩形領域のサイズ)に応じて決めてもよい。あるいは、過去の機械学習における教師データとして利用された実績回数等に応じて優先順位を決めてもよい。
 また、表示処理では、選別画像データに記録された画像の代わりに、選別画像データに記録された画像に相当するサンプル画像を表示してもよい。サンプル画像は、データ作成装置10に予め記録され、画質を変えて複数用意されている。プロセッサ10Aは、複数のサンプル画像のうち、設定処理にて設定された設定条件を満たすサンプル画像を選定し、選定されたサンプル画像を表示する表示処理を実行してもよい。
 表示処理の終了後、プロセッサ10Aは、作成処理を実行し、選別画像データに基づいて、あるいは選別画像データ及び追加画像データのそれぞれに基づいて教師データを作成する。
 以上までの処理が終了した時点で、第2フローが終了する。第2フローの終了後には、決定用途に基づく機械学習が、第2フローにおいて作成された教師データを用いて実施される。また、教師データ作成に用いられた画像データについては、付帯情報が更新され、具体的には用途情報及び履歴情報等が更新される。これにより、以後のデータ作成フローでは、更新後の付帯情報に基づいて、教師データ作成用の画像データを選別することができる。
 なお、第2フローにおいても、提案処理は、必ずしも実行される必要はなく、例えば、選別処理において十分な数の選別画像データが選別された場合には、提案処理の実行を省略してもよい。
 <<その他の実施形態>>
 以上までに説明してきた実施形態は、本発明のデータ作成装置、データ作成方法、プログラム、データ処理システム、記憶装置及び撮像装置について分かり易く説明するために挙げた具体例であり、あくまでも一例に過ぎず、その他の実施形態も考えられる。
 また、上述の実施形態では、画像データに記録される付帯情報には学習情報が含まれ、特性情報及び画質情報の少なくとも一方が含まれることとしたが、付帯情報には、上述した情報以外の情報(タグ情報)がさらに含まれてもよい。
 また、上述の実施形態では、データ作成装置10のプロセッサ10Aが設定処理においてユーザの入力操作に基づいて設定条件を設定することとした。ただし、これに限定されるものではなく、ユーザの入力操作に因らずにプロセッサ10A側で自動的に設定条件を設定してもよい。例えば、プロセッサ10Aは、ユーザによって指定された学習用途(すなわち、決定用途)と対応する設定条件を設定してもよい。具体的に説明すると、学習用途と対応する設定条件が学習用途毎に予め設定されてテーブルデータとして記憶されており、プロセッサ10Aは、そのテーブルデータを読み出して、決定用途と対応する設定条件を設定してもよい。
 また、過去に実施された機械学習の用途と、その機械学習における教師データを作成するための設定条件との対応関係を、機械学習によって特定し、その対応関係に基づいて、決定用途と対応する設定条件を設定してもよい。その場合、機械学習を実施させた者、すなわちユーザの情報を対応関係の中に組み込んでもよい。これにより、設定条件を新たに設定する際には、ユーザがこれまでに採用してきた設定条件を踏まえて設定することができる。
 また、決定用途と同じ学習用途にて過去に機械学習を実施させたことがある者(既学習者)が存在する場合に、プロセッサ10Aは、設定処理において、既学習者が採用した設定条件と同じ条件を、設定条件として設定してもよい。
 さらに、プロセッサ10Aは、設定処理において、決定用途と対応する設定条件を仮設定した後に、仮の設定条件を、ユーザ側機器14のディスプレイに表示する等して、ユーザに対して提案してもよい。その場合、提案された仮の設定条件をユーザが採用した際に、プロセッサ10Aは、仮の設定条件を正式な設定条件として設定するとよい。
 また、上述の実施形態において、複数の画像データを取得した後に、取得した複数の画像データの中から、設定条件を満たす選別画像データを選別することとした。ただし、これに限定されず、設定条件が設定された後の段階で、設定条件を満たす画像データ、すなわち選別画像データを外部の画像データベースから一括してダウンロードして取得してもよい。
 また、データ作成装置10及び学習装置16の各々が備えるプロセッサには、CPU以外の各種のプロセッサが含まれてもよい。CPU以外の各種のプロセッサには、上述した例えば、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)が含まれる。また、ASIC(Application Specific Integrated Circuit)等の特定の処理をさせるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
 また、データ作成装置10が有する一つの機能を、上述したプロセッサ中、いずれか一つのプロセッサによって構成してもよい。あるいは、同種又は異種の二つ以上のプロセッサの組み合わせ、例えば、複数のFPGAの組み合わせ、若しくはFPGA及びCPUの組み合わせ等によって一つの機能を構成してもよい。また、データ作成装置10が有する複数の機能の各々を、上述したプロセッサ中、対応する一つのプロセッサによって構成してもよい。あるいは、複数の機能のうち、二つ以上の機能を一つのプロセッサによって構成してもよい。また、一つ以上のCPUとソフトウェアの組み合わせを一つのプロセッサとし、このプロセッサにより、複数の機能を実現させる形態でもよい。
 また、例えば、システムオンチップ(System on Chip:SoC)等に代表されるように、データ作成装置10が備える複数の機能すべてを一つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態でもよい。また、上述した各種のプロセッサのハードウェア的な構成は、半導体素子等の回路素子を組み合わせた電気回路(Circuitry)でもよい。
 10 データ作成装置
 10A プロセッサ
 10B メモリ
 10C 通信用インタフェース
 12 撮像装置
 14 ユーザ側機器
 16 学習装置
 16A プロセッサ
 16B メモリ
 16C 通信用インタフェース
 18 記憶装置
 G 画像データ群
 N ネットワーク
 S データ処理システム
 T データファイル

Claims (20)

  1.  複数の被写体が写った画像に付帯情報が記録された画像データから、機械学習に用いる教師データを作成するデータ作成装置であって、
     前記複数の被写体に対応付けて付与された複数の識別情報と、前記複数の被写体に対応付けて付与された複数の画質情報と、を含む前記付帯情報が記録された複数の画像データに対して、前記識別情報及び前記画質情報に関する任意の設定条件を設定する設定処理と、
     前記設定条件を満たす前記識別情報及び前記画質情報が記録された選別画像データに基づいて前記教師データを作成する作成処理と、
     を実行するように構成されたデータ作成装置。
  2.  前記画質情報は、画像データが示す画像中の前記被写体の解像感、前記被写体の明るさ、及び前記被写体の位置に現れるノイズのいずれかに関する情報である、請求項1に記載のデータ作成装置。
  3.  前記画質情報は、前記解像感に関する解像感情報であり、
     前記解像感情報は、画像データが示す画像中の前記被写体のボケ及びブレ度合いに応じて決まる情報である、請求項2に記載のデータ作成装置。
  4.  前記画質情報は、前記解像感に関する解像感情報であり、
     前記解像感情報は、画像データが示す画像中の前記被写体の解像度に関する解像度情報である、請求項2に記載のデータ作成装置。
  5.  前記設定条件は、前記被写体の解像度の上限及び下限を含む条件である、請求項4に記載のデータ作成装置。
  6.  前記画質情報は、前記被写体の明るさに関する情報、又は前記被写体の位置に現れるノイズに関する情報であり、
     前記明るさに関する情報は、前記被写体に対応する輝度値であり、
     前記ノイズに関する情報は、前記被写体に対応するS/N値である、請求項2に記載のデータ作成装置。
  7.  前記設定条件は、前記被写体に対応する前記輝度値の上限及び下限、又は前記S/N値の上限及び下限を含む条件である、請求項6に記載のデータ作成装置。
  8.  前記付帯情報は、前記複数の被写体と対応付けて付与された複数の位置情報をさらに含み、
     前記位置情報は、画像データが示す画像における前記被写体の位置を示す情報である、請求項1に記載のデータ作成装置。
  9.  前記作成処理の実行前に、前記選別画像データが示す画像、又は、前記設定条件を満たす画質を有するサンプル画像を表示する表示処理をさらに実行するように構成された、請求項1に記載のデータ作成装置。
  10.  前記複数の画像データから、2以上の前記選別画像データを選別し、
     前記表示処理では、2以上の前記選別画像データのうち、一部の前記選別画像データが示す画像を表示する、請求項9に記載のデータ作成装置。
  11.  前記表示処理では、それぞれの前記選別画像データに対して定められた優先度に基づいて選択された前記選別画像データの画像を表示する、請求項10に記載のデータ作成装置。
  12.  ユーザからの指定に応じて前記機械学習の用途を決定する決定処理をさらに実行するように構成され、
     前記設定処理では、前記用途と対応した前記設定条件を設定する、請求項1に記載のデータ作成装置。
  13.  ユーザからの指定に応じて前記機械学習の用途を決定する決定処理をさらに実行するように構成され、
     前記設定処理では、前記設定条件の設定前において、前記用途と対応した前記設定条件を、ユーザに対して提案する、請求項1に記載のデータ作成装置。
  14.  前記設定条件とは異なる追加条件を、ユーザに対して提案する提案処理をさらに実行するように構成され、
     前記追加条件は、前記付帯情報に対して設定された条件であり、
     前記追加条件により、前記識別情報及び前記画質情報が前記設定条件を満たさない非選別画像データの中から、追加画像データが選別され、
     前記追加画像データが選別された場合、前記作成処理では、前記選別画像データ及び前記追加画像データに基づいて前記教師データを作成する、請求項1に記載のデータ作成装置。
  15.  請求項1に記載のデータ作成装置が前記教師データを作成する際に用いられる前記複数の画像データを記憶する、記憶装置。
  16.  複数の被写体が写った画像に付帯情報が記録された画像データから、教師データを作成するデータ作成装置と、前記教師データを用いた機械学習を実施する学習装置と、を備えるデータ処理システムであって、
     前記複数の被写体と対応付けて付与された複数の識別情報と、前記複数の被写体と対応付けて付与された複数の画質情報と、を含む前記付帯情報が記録された複数の画像データに対して、前記識別情報及び前記画質情報に関する任意の設定条件を設定する設定処理と、
     前記設定条件を満たす前記識別情報及び前記画質情報が記録された選別画像データに基づいて前記教師データを作成する作成処理と、
     前記教師データを用いて前記機械学習を実施する学習処理と、
     を実行するように構成されたデータ処理システム。
  17.  複数の被写体が写った画像に付帯情報が記録された画像データから、機械学習に用いる教師データを作成するデータ作成方法であって、
     前記複数の被写体と対応付けて付与された複数の識別情報と、前記複数の被写体と対応付けて付与された複数の画質情報と、を含む前記付帯情報が記録された複数の画像データについて、前記識別情報及び前記画質情報に関する任意の設定条件を設定する設定工程と、
     前記設定条件を満たす前記識別情報及び前記画質情報が記録された選別画像データに基づいて前記教師データを作成する作成工程と、
     を含むデータ作成方法。
  18.  コンピュータを請求項1に記載のデータ作成装置として機能させ、コンピュータに、前記設定処理及び前記作成処理のそれぞれを実行させるためのプログラム。
  19.  複数の被写体が写る画像を撮像する撮像処理と、
     前記画像に付帯情報を記録して画像データを生成する生成処理と、を実行し、
     前記付帯情報は、前記複数の被写体に対応付けて付与された複数の識別情報と、前記複数の被写体に対応付けて付与された複数の画質情報と、を含む撮像装置。
  20.  前記付帯情報は、機械学習用の教師データの作成に用いられる選別画像データを選別するための情報である、請求項19に記載の撮像装置。
PCT/JP2022/023213 2021-07-30 2022-06-09 データ作成装置、記憶装置、データ処理システム、データ作成方法、プログラム、及び撮像装置 WO2023007956A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023538313A JPWO2023007956A1 (ja) 2021-07-30 2022-06-09
CN202280050231.6A CN117651945A (zh) 2021-07-30 2022-06-09 数据创建装置、存储装置、数据处理系统、数据创建方法、程序及摄像装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-125785 2021-07-30
JP2021125785 2021-07-30

Publications (1)

Publication Number Publication Date
WO2023007956A1 true WO2023007956A1 (ja) 2023-02-02

Family

ID=85086586

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/023213 WO2023007956A1 (ja) 2021-07-30 2022-06-09 データ作成装置、記憶装置、データ処理システム、データ作成方法、プログラム、及び撮像装置

Country Status (3)

Country Link
JP (1) JPWO2023007956A1 (ja)
CN (1) CN117651945A (ja)
WO (1) WO2023007956A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004304765A (ja) * 2003-03-20 2004-10-28 Fuji Photo Film Co Ltd 画像記録装置および方法並びにプログラム
JP2019114243A (ja) * 2017-12-24 2019-07-11 オリンパス株式会社 撮像装置および学習方法
WO2020059706A1 (ja) * 2018-09-20 2020-03-26 富士フイルム株式会社 学習用データ収集装置、学習用データ収集方法、及びプログラム
JP2020135494A (ja) * 2019-02-20 2020-08-31 株式会社 日立産業制御ソリューションズ 画像検索装置および教師データ抽出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004304765A (ja) * 2003-03-20 2004-10-28 Fuji Photo Film Co Ltd 画像記録装置および方法並びにプログラム
JP2019114243A (ja) * 2017-12-24 2019-07-11 オリンパス株式会社 撮像装置および学習方法
WO2020059706A1 (ja) * 2018-09-20 2020-03-26 富士フイルム株式会社 学習用データ収集装置、学習用データ収集方法、及びプログラム
JP2020135494A (ja) * 2019-02-20 2020-08-31 株式会社 日立産業制御ソリューションズ 画像検索装置および教師データ抽出方法

Also Published As

Publication number Publication date
JPWO2023007956A1 (ja) 2023-02-02
CN117651945A (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
Porzi et al. Predicting and understanding urban perception with convolutional neural networks
Ghadiyaram et al. Massive online crowdsourced study of subjective and objective picture quality
CN110210542B (zh) 图片文字识别模型训练方法、装置及文字识别系统
CN109376603A (zh) 一种视频识别方法、装置、计算机设备及存储介质
CN109978812A (zh) 摄像系统、学习装置、摄像装置和学习方法
WO2015096677A1 (zh) 对货物进行自动分类识别的透视检查系统和方法
JP2020522077A (ja) 画像特徴の取得
Vazquez-Corral et al. Color constancy by category correlation
CN110446063A (zh) 视频封面的生成方法、装置及电子设备
CN111242948B (zh) 图像处理、模型训练方法、装置、设备和存储介质
KR20200087310A (ko) 인공지능 영상판독 딥러닝 학습을 위한 애노테이션 학습데이터 생성과 증강 시스템 및 방법
CN113723288B (zh) 基于多模态混合模型的业务数据处理方法及装置
US10943157B2 (en) Pattern recognition method of autoantibody immunofluorescence image
CN109522970B (zh) 图像分类方法、装置及系统
CN109886153A (zh) 一种基于深度卷积神经网络的实时人脸检测方法
Huang et al. Smart agriculture: real‐time classification of green coffee beans by using a convolutional neural network
CN113111806A (zh) 用于目标识别的方法和系统
Yates et al. Evaluation of synthetic aerial imagery using unconditional generative adversarial networks
CN110956157A (zh) 基于候选框选择的深度学习遥感影像目标检测方法及装置
Kowalczuk et al. Training of deep learning models using synthetic datasets
WO2023007956A1 (ja) データ作成装置、記憶装置、データ処理システム、データ作成方法、プログラム、及び撮像装置
WO2023007958A1 (ja) データ作成装置、記憶装置、データ処理システム、データ作成方法、及びプログラム
CN111651626B (zh) 图像分类方法、装置及可读存储介质
CN113762324A (zh) 虚拟对象检测方法、装置、设备及计算机可读存储介质
KR101916596B1 (ko) 이미지의 혐오감을 예측하는 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22849035

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023538313

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE