WO2023223904A1 - データ収集装置、学習装置、およびデータ収集方法 - Google Patents

データ収集装置、学習装置、およびデータ収集方法 Download PDF

Info

Publication number
WO2023223904A1
WO2023223904A1 PCT/JP2023/017530 JP2023017530W WO2023223904A1 WO 2023223904 A1 WO2023223904 A1 WO 2023223904A1 JP 2023017530 W JP2023017530 W JP 2023017530W WO 2023223904 A1 WO2023223904 A1 WO 2023223904A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
teacher data
source information
user
data source
Prior art date
Application number
PCT/JP2023/017530
Other languages
English (en)
French (fr)
Inventor
公朗 百瀬
Original Assignee
株式会社アナリティックウェア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2022111223A external-priority patent/JP2023169844A/ja
Application filed by 株式会社アナリティックウェア filed Critical 株式会社アナリティックウェア
Publication of WO2023223904A1 publication Critical patent/WO2023223904A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • Non-Patent Document 1 there have been machine learning techniques for predicting objects included in images and classifying information (for example, see Non-Patent Document 1).
  • the first teacher data source information includes a program for supporting the user to input input information
  • the source information receiving unit includes: The data collection device receives second teacher data source information including input information input by a user after a program is executed on a user terminal.
  • the conversion program is a machine translation program
  • the element information is a term or sentence in the first language
  • the conversion information is a machine translation program.
  • a bilingual term or sentence is a data collection device.
  • the program is a program that supports acquiring positive examples and negative examples forming teacher data
  • the second teacher The data source information is a data collection device that is a positive example and a negative example acquired by a user terminal using a program.
  • the teacher data configuration section is configured to provide input information included in two or more pieces of second teacher data source information received by the source information receiving section.
  • This data collection device is equipped with a synthesis means for synthesizing and obtaining synthetic input information, and a teacher data configuring means for configuring teacher data having the element information included in the first teacher data source information and the synthetic input information.
  • the data collection device of the sixteenth invention provides a user evaluation, which is an evaluation of the user corresponding to the second teacher data source information corresponding to the evaluation result, using the evaluation result for the fifteenth invention.
  • This data collection device further includes a user evaluation unit that acquires the user evaluation, and a user evaluation output unit that outputs the user evaluation.
  • the data collection device of the seventeenth invention provides remuneration information specifying remuneration according to the transmission of the second teacher data source information from the user terminal for any one of the first to sixteenth inventions.
  • the data collection device further includes a remuneration acquisition unit that acquires remuneration information, and a remuneration accumulation unit that stores remuneration information in association with a user who uses a user terminal.
  • the data collection device when the source information receiving unit receives second teacher data source information from the user terminal, the data collection device further includes an other terminal transmitting unit that transmits input information received from another user terminal to the user terminal.
  • the data collection device of the nineteenth invention in contrast to the eighteenth invention, further comprises: an evaluation result receiving unit that receives from the user terminal an evaluation result for the input information transmitted by the other terminal transmitting unit;
  • the data collection device further includes a processing unit that stores the evaluation results in association with input information and performs different processing on the input information depending on the evaluation results.
  • the learning device of the present 20th invention uses a data collection device and two or more pieces of training data accumulated by the data collection device to perform machine learning.
  • This learning device includes a learning section that performs learning processing, acquires a learning model, and stores the learning model.
  • the prediction device of the nineteenth invention differs from the eighteenth invention in that it includes a reception unit that receives element information, a learning device, a reception unit that receives element information, and a learning model acquired by the learning device.
  • the prediction device includes a prediction unit that performs machine learning prediction processing using the element information received by the reception unit and acquires input information, and a prediction result output unit that outputs the input information.
  • a large amount of training data can be collected by providing a platform for collecting training data for constructing a learning model for machine learning.
  • first teacher data source information for configuring teacher data is transmitted to two or more user terminals, and second teacher data source information including input information is received from each of the two or more user terminals.
  • a data collection device that configures and accumulates teacher data using the first teacher data source information and second teacher data source information will be described.
  • composite input information is obtained by combining input information included in second teacher data source information received from two or more user terminals 2, and teacher data having the combined input information is configured and stored.
  • the data collection device will be explained below.
  • user attribute values for example, English is a specialty
  • the user terminal transmits the first teacher data source information using the user attribute value.
  • the data collection device that determines this will be explained.
  • the second teacher data source information received from the user terminal is transmitted to another user terminal, the evaluation result from the other user terminal is received, and the evaluation result meets the employment conditions.
  • a data collection device that configures teacher data by employing the second teacher data source information only when the conditions are satisfied will be described.
  • information X is associated with information Y means that information Y can be acquired from information X, or that information X can be acquired from information Y, and the method of association does not matter.
  • Information X and information Y may be linked, exist in the same buffer, information X may be included in information Y, or information Y may be included in information X. etc. is also fine.
  • FIG. 1 is a conceptual diagram of a data collection device system A in this embodiment.
  • the data collection device system A includes a data collection device 1 and one or more user terminals 2.
  • the data collection device 1 is a server for collecting teacher data.
  • the data collection device 1 is, for example, a so-called server, such as a cloud server, an ASP server, or the like.
  • the user terminal 2 is a terminal used by a user.
  • the user is a person who performs work to create teacher data.
  • the user is a person who provides input information, which will be described later.
  • the user terminal 2 is a terminal that receives first teacher data source information and transmits second teacher data source information.
  • the user terminal 2 is, for example, a so-called personal computer, a tablet terminal, a smartphone, etc., and its type does not matter.
  • the data collection device 1 and one or more user terminals 2 can communicate via a network such as the Internet or LAN.
  • FIG. 2 is a block diagram of the data collection device system A in this embodiment.
  • FIG. 3 is a block diagram of the data collection device 1.
  • the data collection device 1 includes a storage section 11, a reception section 12, a processing section 13, and a transmission section 14.
  • the storage unit 11 includes a user information storage unit 111, an original information storage unit 112, and a teacher data storage unit 113.
  • the receiving unit 12 includes an original information receiving unit 121 and an evaluation result receiving unit 122.
  • the processing unit 13 includes a user determination unit 131 , a determination unit 132 , a teacher data configuration unit 133 , a storage unit 134 , a reward acquisition unit 135 , a reward storage unit 136 , a user evaluation unit 137 , and a user evaluation output unit 138 .
  • the teacher data composition section 133 includes a composition means 1331 and a teacher data composition means 1332.
  • the transmitter 14 includes an original information transmitter 141 and an other terminal transmitter 142.
  • the user terminal 2 includes a terminal storage section 21, a terminal reception section 22, a terminal processing section 23, a terminal transmission section 24, a terminal reception section 25, and a terminal output section 26.
  • the various types of information are stored in the storage unit 11 that constitutes the data collection device 1.
  • the various types of information include, for example, user information to be described later, first teacher data source information to be described later, teacher data to be described later, and various programs.
  • the various programs are programs executed on the user terminal 2.
  • Various programs are, for example, programs that use element information.
  • the various programs are, for example, programs that perform predetermined processing on element information.
  • the various programs include, for example, a machine learning prediction program, a machine translation program, a speech synthesis program, and a speech recognition program.
  • the user information storage unit 111 stores one or more pieces of user information.
  • User information is information related to users.
  • the user information includes, for example, a user identifier and one or more user attribute values.
  • a user identifier is information that identifies a user.
  • the user identifier is, for example, a user ID, telephone number, email address, or user terminal identifier.
  • the user terminal identifier is information that identifies the user terminal 2.
  • the user terminal identifier is, for example, destination information that is information for communicating with the user terminal 2.
  • the user terminal identifier is, for example, the IP address, MAC address, and telephone number of the user terminal 2.
  • a user attribute value may be said to be a user characteristic.
  • User attribute values are, for example, a specialized identifier and a language used.
  • the specialty identifier is information that identifies the user's specialty.
  • the specialized identifier is, for example, Japanese-English translation (for example, "1"), Chinese-Japanese translation (for example, "2"), and English-Japanese translation (for example, "3").
  • the language used is the language used by the user.
  • the languages used are, for example, Japanese, English, and Chinese.
  • the user attribute value is, for example, remuneration information, which will be described later, or user evaluation, which will be described later.
  • the source information storage unit 112 stores one or more first teacher data source information.
  • the first teacher data source information is information that becomes the source of forming the teacher data.
  • Teacher data is information for constructing a learning model through machine learning learning processing.
  • the first teacher data source information may be associated with, for example, an inspection flag, a multiple person flag, and a composition flag.
  • the inspection flag is information indicating that the received second teacher data source information is to be inspected by another user.
  • the multiple person flag is information indicating that the first teacher data source information is to be transmitted to multiple people.
  • the combination flag is information indicating that input information included in the second teacher data source information received from a plurality of user terminals 2 is to be combined to form combined input information.
  • the learning model is information configured through machine learning learning processing, and is information used in machine learning prediction processing.
  • the learning model may be referred to as a learning device, classifier, classification model, or the like.
  • the machine learning algorithm for constructing a learning model and performing predictive processing using a learning model does not matter, such as deep learning, random forest, decision tree, SVM, SVR, etc.
  • various machine learning functions such as the TensorFlow library, the R language random forest module, fastText, and TinySVM, and various existing libraries can be used.
  • the first teacher data source information usually includes element information.
  • Element information is information that constitutes teacher data.
  • the element information is usually information that serves as explanatory variables that make up the teacher data, but may also be information that serves as objective variables that make up the teacher data.
  • the element information is, for example, an image, a video (video), sound information, or a character string.
  • the element information is, for example, information (eg, image, video) to which a label indicating classification should be attached.
  • the label is information that identifies element information.
  • a label is typically one or more terms.
  • the element information is, for example, a term to be translated, and one or more sentences to be translated.
  • a term is a collection of one or more words.
  • the element information is, for example, information about the object to be explained (eg, an image, a video).
  • the element information is, for example, sound information (speech data) of a target to be speech-recognized.
  • the element information is, for example, a character string to be subjected to speech synthesis.
  • the first teacher data source information includes a program that supports the user in inputting input information.
  • Programs that support the input of input information include, for example, machine learning prediction programs that predict input information using element information, machine translation of element information in the first language, and drafting of input information in the second language.
  • a machine translation program that outputs text a speech synthesis program that synthesizes element information that is a character string into speech and outputs a draft of the audio data, or performs speech recognition processing on the element information that is audio data and generates a draft of the character string. This is a speech recognition program that outputs .
  • the first teacher data source information is associated with a data attribute value.
  • the data attribute value is an attribute value of the first teacher data source information or an attribute value of element information included in the first teacher data source information.
  • Data attribute values include, for example, information indicating the first language of element information to be translated (for example, "English” and “Japanese"), information indicating the first language and second language (for example, "Japanese ⁇ English”) , "Chinese ⁇ Japanese”).
  • the first teacher data source information is associated with reward source information that is the basis for calculating the reward given to the user who transmitted the second teacher data source information.
  • Reward source information is information from which remuneration information is obtained.
  • the reward source information is, for example, the unit price for transmitting input information, the amount of reward for one piece of second teacher data source information, and the number of points given for one piece of second teacher data source information.
  • the teacher data storage unit 113 stores one or more pieces of teacher data.
  • the teacher data here is data configured by the teacher data configuration unit 133.
  • the teacher data here be a data structure that is given to the learning module as is, it does not have to be a data structure that is given to the learning module as is.
  • the teacher data here includes all the information contained in the teacher data of a data structure that is given to the learning module as is.
  • the teacher data includes, for example, element information and input information.
  • the teacher data includes, for example, element information and a label that is input information.
  • a label is information (for example, "dog", “cat”, "Akita dog") that identifies element information (for example, an image of an animal).
  • the teacher data includes, for example, element information (for example, a sentence in a first language) and conversion information (for example, a sentence obtained by translating a sentence in a first language into a second language).
  • the teacher data includes, for example, element information (eg, image, video) and explanatory information (eg, a sentence explaining the image, a sentence explaining the video).
  • the receiving unit 12 receives various information.
  • the various types of information include, for example, second teacher data source information, which will be described later, and evaluation results, which will be described later.
  • the source information receiving unit 121 receives the second teacher data source information from one or more user terminals 2.
  • This user terminal 2 is a terminal to which a source information transmitter 141, which will be described later, has transmitted the first teacher data source information.
  • the second teacher data source information is the information that becomes the source of the teacher data.
  • the second teacher data source information includes input information.
  • the second teacher data source information may be input information.
  • the input information is information input by the user to the first teacher data source information processed by the user terminal 2.
  • the input information may be the information itself (for example, a machine translation result) that is processed and output by the program that the first teacher data source information has on the element information, or it may be the information that is processed and output by the program (for example, a machine translation result).
  • information modified by the user may be used.
  • the information input by the user is information obtained by the user's operation on the user terminal 2.
  • the information input by the user may be information manually input by the user, an image or video taken by the user, an image or video imported into the user terminal 2, or audio data uttered by the user, It may also be audio data taken into the user terminal 2.
  • the information input by the user may be information that has come to exist in the user terminal 2 due to some operation by the user.
  • Processing for the first teacher data source information includes, for example, displaying all or part of the first teacher data source information (for example, input information), converting all or part of the first teacher data source information. This means performing a machine learning prediction process using the first teacher data source information and a learning model (not shown), and obtaining a prediction result. Note that it is preferable that the program that performs the conversion process and the program that performs the prediction process of machine learning be included in the first teacher data source information that is transmitted to the user terminal 2.
  • the source information receiving unit 121 normally receives the second teacher data source information from the user terminal 2 in a manner that corresponds to the first teacher data source information.
  • the aspect associated with the first teacher data source information is, for example, that the second teacher data source information has a first teacher data source information identifier.
  • the aspect associated with the first teacher data source information is, for example, that the second teacher data source information includes element information.
  • the first teacher data source information identifier is information that identifies the first teacher data source information.
  • the information that identifies the first teacher data source information may be information that identifies element information included in the first teacher data source information.
  • the source information receiving unit 121 receives second teacher data source information including input information input by the user.
  • the program here is, for example, a machine learning prediction program for classifying element information.
  • the program here is, for example, a machine learning prediction program for classifying element information and a learning model used for prediction processing.
  • the program is, for example, a machine translation program that machine-translates element information.
  • the program here is, for example, a machine learning prediction program that generates explanatory information of element information.
  • the program here is, for example, a machine learning prediction program that generates explanatory information of element information and a learning model used for prediction processing.
  • the program here is, for example, a program that performs speech synthesis processing on element information that is a character string.
  • the program here is, for example, a program that performs voice recognition processing on element information that is voice data. Note that the type of program does not matter.
  • the source information receiving unit 121 receives second teacher data source information corresponding to the same first teacher data source information from two or more user terminals.
  • the second teacher data source information is, for example, a label that identifies the element information, and includes a label input by the user for the element information.
  • the second teacher data source information is, for example, conversion information that is information obtained by converting element information, and includes conversion information input by the user for element information.
  • the second teacher data source information is, for example, explanatory information that is information that explains the element information, and includes explanatory information input by the user for the element information.
  • the second teacher data source information includes, for example, a label obtained by executing a prediction program on the element information and correcting the label by the user.
  • the second teacher data source information includes, for example, conversion information obtained by executing a prediction program on element information and modifying conversion information obtained by the user.
  • the second teacher data source information includes, for example, explanatory information obtained by executing a prediction program on element information and modifying explanatory information obtained by the user.
  • the second teacher data source information is, for example, a positive example and a negative example acquired by the user terminal 2 using a program.
  • this program is a program that can input positive examples and negative examples.
  • This program is a program that inputs a positive example and a negative example and transmits second teacher data source information including the positive example and negative example to the data collection device 1.
  • the positive example and negative example may be input by photographing an image or video, inputting a character string, or importing audio data.
  • the above-mentioned programs include, for example, a machine learning prediction program that predicts labels of element information, a conversion program that converts element information, a machine learning prediction program that predicts explanatory information of element information, and positive examples that constitute training data. This is a program that helps you obtain negative examples.
  • a positive example is information about a target to be identified, such as a photo of a cracked wall or a photo of a building with cracks.
  • a negative example is information that is not a positive example, and is, for example, a photo of a wall with no cracks or a photo of a building with no cracks.
  • the data type, content, etc. of the positive and negative examples do not matter. Note that the positive and negative examples may be reversed.
  • the evaluation result receiving unit 122 receives evaluation results for the second teacher data source information from another terminal.
  • the other terminal is a user terminal 2 that is not the user terminal 2 that transmitted the second teacher data source information.
  • the other terminal is the user terminal 2 used by the user who evaluates the second teacher data source information.
  • the evaluation result receiving unit 122 may receive the evaluation result for the input information transmitted to the user terminal 2 by the other terminal transmitting unit 142 from the user terminal 2. Note that this user terminal 2 is not the user terminal 2 that transmitted the input information.
  • the evaluation result is information indicating the result of evaluation of the second teacher data source information or the input information included in the second teacher data source information.
  • the evaluation result is, for example, information indicating that the second teacher data source information or the input information included in the second teacher data source information is correct (for example, true "1"), the second teacher data source information, or the second teacher data source information.
  • Information indicating that the input information contained in the information is incorrect (for example, false "0"), and correct input information input by the user.
  • the processing unit 13 performs various processes. Various processes include, for example, processes performed by the user determining unit 131, the determining unit 132, the teacher data configuring unit 133, the accumulating unit 134, the remuneration acquisition unit 135, the remuneration accumulating unit 136, the user evaluation unit 137, and the user evaluation output unit 138. It is.
  • the processing unit 13 stores the evaluation results received by the receiving unit 12 in association with the input information transmitted by the transmitting unit 14. The processing unit 13 then performs different processing on the input information corresponding to the accumulated one or more evaluation results.
  • the processing unit 13 employs input information corresponding to an evaluation result of "correct” as teacher data, and does not employ input information corresponding to an evaluation result of "incorrect” as teacher data.
  • the processing unit 13 If there are two or more evaluation results for one input information, and the result of statistical processing of the two or more evaluation results satisfies the condition (for example, it is "correct"), the processing unit 13 If the number or percentage of evaluation results is equal to or greater than the threshold value), the input information in question is adopted as training data, and if the condition is not met (for example, the number or percentage of evaluation results that are "incorrect” is greater than or equal to the threshold), the one input information is not adopted as training data.
  • employing the data as teacher data for example, storing it in the teacher data storage unit 113 or using it when configuring a learning model.
  • not adopting it as teacher data for example, not storing it in the teacher data storage unit 113 or not using it when constructing a learning model.
  • the processing unit 13 transmits the input information to another user terminal 2, and if the evaluation result is "incorrect", the processing unit 13 transmits the input information to another user terminal 2. Send input information to .
  • the processing unit 13 processes the evaluation result as "correct” if the result of statistical processing of the two or more evaluation results satisfies the condition (for example, the evaluation result is "correct”). If the number or percentage of results is equal to or greater than the threshold, the input information is sent to another user terminal 2, and if the condition is not met (for example, the number or percentage of "incorrect” evaluation results is equal to or greater than the threshold), the input information is sent to another user terminal 2. or more than the threshold value), the input information is further transmitted to another user terminal 2.
  • the user determining unit 131 determines the user terminal 2 to which the first teacher data source information is to be transmitted. Determining the user terminal 2 means, for example, acquiring a user identifier and acquiring destination information. Determining the user terminal 2 may be any process that can determine the user terminal 2 that transmits the first teacher data source information.
  • the user determining unit 131 determines one or more pieces of user information that match the work conditions.
  • the work conditions are conditions for performing the work of transmitting input information for the first teacher data source information.
  • the working condition is that one or more data attribute values satisfy one or more data attribute values paired with the first teacher data source information.
  • the user determining unit 131 acquires one or more data attribute values paired with the first teacher data source information from the original information storage unit 112, and determines the user attribute value corresponding to the one or more data attribute values. Determine one or more user information having the following information.
  • the user determination unit 131 determines that "specialty" in the user attribute value is "English-Japanese”.
  • the user identifier corresponding to the user attribute value "translation” is acquired from the user information storage unit 111.
  • the user determining unit 131 randomly determines one or more user terminals 2 from among the user terminals 2 that are candidates for transmitting the first teacher data source information.
  • the determining unit 132 determines whether the evaluation results received by the evaluation result receiving unit 122 satisfy the employment conditions.
  • the adoption condition is a condition for configuring teacher data by adopting the second teacher data source information received by the source information receiving unit 121.
  • the employment condition is a condition indicating that the input information included in the second teacher data source information is correct.
  • the employment conditions are, for example, that the evaluation result is "information indicating that it is correct" and that the corrected input information included in the evaluation result is "NULL".
  • the teacher data configuration unit 133 uses the first teacher data source information transmitted by the source information transmitter 141 and the second teacher data source information received by the source information receiver 121 for use in learning processing of machine learning. Configure the training data to be used. Configuring the teacher data using the first teacher data source information and the second teacher data source information means that the teacher data is constructed using a part of the first teacher data source information and a part of the second teacher data source information. It may be considered that it also includes configuring.
  • the teacher data configuration unit 133 configures the teacher data using, for example, the element information included in the first teacher data source information and the input information included in the second teacher data source information.
  • the teacher data configuration unit 133 configures teacher data in which the element information included in the first teacher data source information is used as an explanatory variable and the input information included in the teacher data source information is used as an objective variable.
  • the teacher data configuration unit 133 configures teacher data in which the element information included in the first teacher data source information is used as an objective variable, and the input information included in the teacher data source information is used as an explanatory variable.
  • the teacher data is, for example, a vector whose elements are element information and input information.
  • the teacher data configuration unit 133 configures the teacher data to be accumulated according to a predetermined algorithm using the input information included in each of the two or more pieces of second teacher data source information received by the source information receiving unit 121. Note that here, there is usually one piece of teacher data.
  • the predetermined algorithm is, for example, majority voting. In other words, if the input information included in the two or more pieces of second teacher data source information received by the source information receiving unit 121 are not all the same information, the teacher data configuration unit 133 uses the most frequently input information as the teacher data. Determine the input information to be used when configuring. Further, the predetermined algorithm is, for example, a synthesis described later.
  • the teacher data configuration unit 133 configures the teacher data using the second teacher data source information corresponding to the evaluation result only when the determination unit 132 determines that the employment conditions are satisfied.
  • the synthesizing means 1331 constituting the teacher data composition section 133 synthesizes the input information included in the two or more pieces of second teacher data source information received by the source information receiving section 121, and obtains synthesized input information.
  • compositing means acquiring composite input information that includes all or part of each of two or more pieces of second teacher data source information among the two or more pieces of second teacher data source information received by the source information receiving unit 121. It is.
  • the synthesizing means 1331 configures the teacher data from information including all the input information (for example, a label for identifying an image) included in the two or more pieces of second teacher data source information received by the source information receiver 121. Determine the input information to be used at the time. Note that the information including all of the above is composite input information.
  • the synthesizing means 1331 performs unique processing on the input information (for example, a label for identifying an image) included in each of the two or more pieces of second teacher data source information received by the source information receiving unit 121. Obtain all information as synthetic input information. In such a case, redundant information (eg, redundant labels) is removed from the composite input information.
  • the teacher data configuration means 1332 configures teacher data having, for example, the element information included in the first teacher data source information and the synthesis input information acquired by the synthesis means 1331.
  • the storage unit 134 stores the teacher data configured by the teacher data configuration unit 133.
  • the storage unit 134 stores the teacher data in the teacher data storage unit 113, for example.
  • the storage unit 134 may store the evaluation results received by the evaluation result receiving unit 122 in association with the input information. This evaluation result is an evaluation result for the associated input information.
  • the remuneration acquisition unit 135 acquires remuneration information that specifies the remuneration according to the transmission of the second teacher data source information from the user terminal 2.
  • the remuneration acquisition unit 135 usually acquires remuneration information in association with the user corresponding to the user terminal 2. For example, when the second teacher data source information is received, the reward acquisition unit 135 stores the reward source information paired with the first teacher data source information corresponding to the second teacher data source information in the source information storage unit 112. and uses the remuneration source information to obtain remuneration information (for example, remuneration amount, number of remuneration points).
  • the reward is different depending on the first teacher data source information. For example, a higher reward is obtained when input information that is explanatory information is transmitted for an image that is element information than when input information that is a label is transmitted for an image that is element information. It is preferable that the remuneration acquisition unit 135 acquires remuneration information that provides a larger remuneration as the number of pieces of second teacher data source information increases. It is preferable that the reward acquisition unit 135 acquires reward information that provides a larger reward as the evaluation result for the second teacher data source information is higher (better).
  • the reward storage unit 136 stores the reward information acquired by the reward acquisition unit 135 in association with the user who uses the user terminal 2 that transmitted the second teacher data source information.
  • the reward storage unit 136 stores the reward information acquired by the reward acquisition unit 135 in the user information storage unit 111 in pairs with the user identifier corresponding to the user terminal 2 that transmitted the second teacher data source information.
  • the accumulation of remuneration information is, for example, accumulating new remuneration information obtained by adding the remuneration information acquired by the remuneration acquisition unit 135 to the remuneration information stored in a pair with the user identifier.
  • the user evaluation unit 137 uses the one or more evaluation results received by the evaluation result receiving unit 122 to evaluate the user (the user who created the input information) corresponding to the second teacher data source information corresponding to the evaluation result. Obtain user evaluation, which is evaluation.
  • the user evaluation unit 137 obtains a user evaluation in which, for example, the greater the number of evaluation results that are "information indicating that the input information is incorrect," the lower the user evaluation corresponding to the input information.
  • the user evaluation output unit 138 outputs the user evaluation acquired by the user evaluation unit 137.
  • output refers to storage on a recording medium, transmission to an external device, delivery of processing results to other processing devices or other programs, etc., but it also includes display on a display, projection using a projector, etc.
  • the concept may include printing with a printer, sound output, etc.
  • the user evaluation output unit 138 stores the user evaluation acquired by the user evaluation unit 137 in the user information storage unit 111 in pairs with the user identifier corresponding to the input information corresponding to the user evaluation. For example, the user evaluation output unit 138 transmits the user evaluation acquired by the user evaluation unit 137 to the user terminal 2 of the user.
  • the transmitter 14 transmits various information.
  • the various types of information include, for example, first teacher data source information and second teacher data source information.
  • the source information transmitting unit 141 transmits first teacher data source information, which is the source of the teacher data, to the user terminal 2.
  • the source information transmitter 141 normally transmits first teacher data source information, which is the source of the teacher data, to each of two or more user terminals. It is preferable that the source information transmitting unit 141 transmits the same first teacher data source information to each of two or more user terminals. It is preferable that the source information transmitting section 141 transmits the first teacher data source information to the user terminal 2 corresponding to one or more pieces of user information determined by the user determining section 131.
  • the other terminal transmitting unit 142 transmits the second teacher data source information received by the source information receiving unit 121 to another terminal that is a user terminal 2 different from the user terminal 2 that transmitted the second teacher data source information.
  • the other terminal transmitter 142 transmits input information different from the input information included in the second teacher data source information. , it is preferable to transmit input information received from another user terminal 2 different from the user terminal 2 to the user terminal 2 that has transmitted the second teacher data source information. This allows the user who sent the second teacher data source information to immediately evaluate other input information. In other words, other input information can be evaluated at a time when the user's sense of judgment is not dulled, which has the effect of improving the accuracy of input information and reducing fluctuations in input information (labeling).
  • the other terminal transmitting unit 142 may transmit only the second teacher data source information that matches the inspection conditions to the other terminal.
  • the inspection conditions are conditions for inspecting the second teacher data source information.
  • the inspection condition is, for example, that the first teacher data source information transmitted by the source information transmitter 141 is associated with an inspection flag indicating that the second teacher data source information is to be inspected.
  • the inspection condition is, for example, that the second teacher data source information is received from the user terminal 2 of the user whose user evaluation is less than or equal to the threshold (low evaluation).
  • the test conditions do not matter.
  • the various types of information are stored in the terminal storage unit 21 that constitutes the user terminal 2.
  • the various types of information include, for example, a user identifier, first teacher data source information, second teacher data source information, and various programs.
  • the terminal reception unit 22 receives various information, instructions, etc.
  • the various information and instructions include, for example, input information, user operations, evaluation results for outputted input information (second teacher data source information), corrections for outputted input information, and second transmission instructions.
  • the outputted input information is information on input information candidates automatically acquired by the program, and is information that may be modified by the user. Further, corrections to the outputted input information are input information.
  • the second transmission instruction is an instruction to transmit the second teacher data source information having input information to the data collection device 1.
  • any means for inputting various information and instructions may be used, such as a touch panel, keyboard, mouse, or menu screen.
  • the terminal processing unit 23 performs various processes.
  • the various types of processing are, for example, processing for converting received information, instructions, etc. into information, instructions, etc. of a structure to be transmitted.
  • the various types of processing are, for example, processing for converting received information into information with a structure to be output.
  • the terminal processing unit 23 outputs, for example, element information included in the received first teacher data source information.
  • the terminal processing unit 23 executes, for example, a program included in the received first teacher data source information. Note that running a program includes running the program after it is installed.
  • the terminal processing unit 23 executes a machine learning prediction program on the element information included in the received first teacher data source information, and obtains the predicted label.
  • the terminal processing unit 23 executes a conversion program on the element information included in the received first teacher data source information, and obtains predicted conversion information.
  • the terminal processing unit 23 executes a machine translation program on the element information included in the received first teacher data source information, and obtains a predicted translation result.
  • the terminal processing unit 23 executes a speech recognition program on the element information (speech data) included in the received first teacher data source information, and obtains a character string of the predicted speech recognition result.
  • the terminal processing unit 23 executes a speech synthesis program on the element information (character string) included in the received first teacher data source information, and obtains predicted speech data.
  • the terminal processing unit 23 executes a machine learning prediction program on the element information included in the received first teacher data source information, and acquires the predicted explanation information.
  • the terminal processing unit 23 executes a program included in the received first teacher data source information and outputs an input screen for inputting positive examples and negative examples.
  • the terminal processing unit 23 takes a photo and obtains an image, for example, in response to the user's operation accepted by the terminal reception unit 22. Note that such an image is a positive example or a negative example.
  • the terminal transmitter 24 transmits various information, instructions, etc. to the data collection device 1.
  • Various information, instructions, etc. are, for example, second teacher data source information.
  • the terminal reception unit 25 receives various information from the data collection device 1.
  • the various types of information include, for example, first teacher data source information, second teacher data source information, and test information.
  • the storage unit 11, the user information storage unit 111, the original information storage unit 112, the teacher data storage unit 113, the learning model storage unit 31, and the terminal storage unit 21 are preferably nonvolatile recording media; It is also possible to achieve this using media.
  • the receiving unit 12, the original information receiving unit 121, the evaluation result receiving unit 122, and the terminal receiving unit 25 are usually realized by wireless or wired communication means, but may also be realized by means for receiving broadcasts.
  • the configuration means 1332 and the terminal processing unit 23 can usually be realized by a processor, memory, or the like.
  • the processing procedures of the processing unit 13 and the like are usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).
  • the processor may be a CPU, MPU, GPU, etc., and its type does not matter.
  • the teacher data configuration unit 133 acquires element information included in the first teacher data source information.
  • Step S615 The teacher data configuration unit 133 configures the positive example and negative example obtained in step S614 as teacher data. Return to upper level processing.
  • Step S703 The teacher data configuration unit 133 performs unique processing on all the input information acquired in step S701.
  • Step S805 The terminal processing unit 23 executes the program included in the second teacher data source information received in step S801 or the program stored in the terminal storage unit 21. Here, if the terminal processing unit 23 has acquired element information, it passes the element information to the program and executes the program. Return to step S801.
  • Step S808 The terminal reception unit 22 determines whether or not the second transmission instruction has been received. If the second transmission instruction is accepted, the process goes to step S809; if not, the process returns to step S808.
  • Step S809 The terminal processing unit 23 configures second teacher data source information having the input information received in step S806. Note that it is preferable that the second teacher data source information has input information and a first teacher data source information identifier, and does not have element information.
  • the employment conditions are, for example, the number of evaluation results that say “This is the desired information” is equal to or greater than the threshold, and the percentage of evaluation results that say "This is the desired information” is equal to or greater than the threshold. It's more than that.
  • the storage unit 11 of the data collection device 1 stores a program A (application A) for performing machine translation, inputting input information, and transmitting second teacher data source information. .
  • the source information transmitting unit 141 transmits the first teacher data source information to A-husband Tanaka's user terminal 2 corresponding to the destination information "destination 1."
  • Yamada B's user terminal 2 receives and outputs the test information.
  • An example of such an output is shown in FIG.
  • the teacher data configuration unit 133 extracts the teacher data ( To be in the same boat.
  • the storage unit 134 stores the teacher data in the teacher data storage unit 113.
  • the storage unit 11 of the data collection device 1 outputs a screen having an image as element information and a field for inputting input information, and a program B (application B) for transmitting the second teacher data source information. ) is stored.
  • file1 is an image file in which a dog is photographed.
  • the user determining unit 131 assigns, for example, destination information “destination 1,” “destination 2,” and “destination 3” to the user information management table (Fig. 9).
  • the source information transmitting unit 141 transmits the first teacher data source information to each user terminal 2 of A-hu Tanaka, B-ko Yamada, and XY Chen corresponding to the destination information "destination 1."
  • the terminal receiving unit 25 of the user terminal 2 of each of the three users receives the first teacher data source information from the data collection device 1.
  • the terminal processing unit 23 acquires the image file "file1" which is element information from the received first teacher data source information.
  • the terminal processing unit 23 of each user terminal 2 acquires the program B from the received first teacher data source information.
  • the terminal processing unit 23 passes the element information "file1" to program B and executes program B. As a result, it is assumed that the screen shown in FIG. 12 is output to each user's user terminal 2.
  • the source information receiving unit 121 of the data collection device 1 receives the second teacher data source information from the user terminals 2 of each of the three users.
  • the teacher data configuration unit 133 determines that the multiple person flag is stored in the source information storage unit 112, paired with the first teacher data source information identifier “W1260”. Then, the teacher data configuration unit 133 acquires all the input information "Akita dog, Akita dog, dog". Further, the teacher data configuration unit 133 determines that a synthesis flag is stored in the source information storage unit 112 in association with the first teacher data source information “W1260”. Next, the teacher data configuration unit 133 performs unique processing on all of the acquired input information, and acquires the input information "Akita dog, dog”. Next, the teacher data configuration unit 133 acquires element information (image file "file1") included in the first teacher data source information. Next, the teacher data configuration unit 133 configures teacher data having the input information "Akita Inu, dog” and element information (image file "file1"). Next, the storage unit 134 stores the teacher data in the teacher data storage unit 113.
  • the input information may be an objective variable or an explanatory variable. Furthermore, when the input information is an objective variable, the element information is an explanatory variable, and when the input information is an explanatory variable, the element information is an objective variable.
  • the program B may include a machine learning prediction module that identifies images.
  • the prediction module is executed on the image file "file1" on the user terminal 2 of each user, and the prediction result of the image (for example, "wolf") is displayed in the field 1201 of the user terminal 2. .
  • the user then checks and corrects the input information candidates displayed in the field 1201.
  • the storage unit 11 of the data collection device 1 is equipped with a program C (application) that prompts the user to take pictures of a cracked part of the exterior wall and a part of the exterior wall that does not have a crack, takes the pictures, and sends the two images.
  • C application
  • the user determining unit 131 has acquired the destination information of all users from the user information management table (FIG. 9). In other words, here we will ask a large number of users to perform the following tasks:
  • the processing unit 13 acquires the program C from the storage unit 11. Further, the processing unit 13 generates a unique first teacher data source information identifier (work ID) "W2522" that identifies the first teacher data source information to be transmitted, and stores it in association with the first teacher data source information. , and so on. Furthermore, the processing unit 13 configures first teacher data source information having the first teacher data source information identifier "W2522" and program C.
  • the source information transmitting section 141 transmits the first teacher data source information to a large number of user terminals 2 corresponding to the large number of destination information acquired by the user determining section 131.
  • the terminal receiving unit 25 of Tanaka A's user terminal 2 receives the first teacher data source information from the data collection device 1.
  • the terminal processing unit 23 obtains the program C from the received first teacher data source information.
  • the terminal processing unit 23 executes the program C.
  • the screen shown in FIG. 13 is output to Tanaka A's user terminal 2.
  • Ao Tanaka moves the screen of the user terminal 2 to the cracked exterior wall in order to take an image of the part of the cracked exterior wall that should fall into the area 1301 of FIG. 13. It is assumed that the user instructs the shooting button 1302 to point at the location. Then, it is assumed that the terminal receiving section 22 receives this instruction, and the terminal processing section 23 executes the photographing function of the program C, and obtains an image of the part of the exterior wall where the crack has appeared.
  • A-husband Tanaka's user terminal 2 was able to obtain an image of a portion of the exterior wall with no cracks (positive example) and an image of a portion of the exterior wall with no cracks (negative example). An example of such output is shown in FIG.
  • A-husband Tanaka instructs the send button 1401 on the screen of the user terminal 2.
  • the terminal reception unit 22 receives the second transmission instruction.
  • the terminal processing unit 23 configures second teacher data source information including the photographed positive example image 1402, negative example image 1403, and first teacher data source information identifier "W2522.”
  • the terminal transmitter 24 transmits the second teacher data source information to the data collection device 1.
  • the source information receiving unit 121 receives the second teacher data source information from each of the multiple user terminals 2.
  • the teacher data configuration unit 133 acquires the positive example image and the negative example image from the second teacher data source information transmitted from each user terminal 2. Next, the teacher data configuration unit 133 configures a large number of teacher data that are pairs of the acquired positive example images and negative example images.
  • the storage unit 134 stores the configured large number of teacher data in the teacher data storage unit 113.
  • the storage unit 134 associates the positive example image and the negative example image transmitted from each user terminal 2 and stores them in the teacher data storage unit 113; It is also possible to simply store the images in the teacher data storage unit 113 without associating the images with the negative example images so that it can be distinguished whether each image is a positive example image or a negative example image. Note that even when storing positive example images and negative example images in association with each other, the storage unit 134 can distinguish which image is a positive example image and which is a negative example image. accumulate.
  • the user terminal 2 of the user U receives the input information X from the data collection device 1 and outputs it.
  • the user U looks at the input information X output to the user terminal 2, determines that it does not appear to be cracked, and inputs the evaluation result "incorrect”.
  • the user terminal 2 receives the evaluation result "Incorrect”, pairs the evaluation result "Incorrect” with the identifier of the input information X (for example, "X"), and transmits the pair to the data collection device 1. .
  • the evaluation result receiving unit 122 of the data collection device 1 receives the evaluation result “incorrect” for the input information X from the user terminal 2. Then, the storage unit 134 stores the evaluation results received by the evaluation result receiving unit 122 in association with the input information X.
  • the processing unit 13 stores the input information X in the teacher data storage unit 113 in order to use it as teacher data. Note that such accumulation may be performed by the accumulation section 134.
  • a program that supports inputting information can also be provided to the user.
  • a reward is given to the user who provides the second teacher data source information.
  • processing in this embodiment may be realized by software. Then, this software may be distributed by software download or the like. Furthermore, this software may be recorded on a recording medium such as a CD-ROM and distributed. Note that this also applies to other embodiments in this specification. Note that the software that implements the data collection device 1 in this embodiment is the following program.
  • this program causes a computer that can access the source information storage section in which the first teacher data source information that is the source of the teacher data for constructing the learning model through the learning process of machine learning to be a source information transmitter that transmits one teacher data source information to each of two or more user terminals, and a user inputs information to the first teacher data source information that is transmitted by the source information transmitter and processed by the user terminal; a source information receiving unit that receives second teacher data source information including input information from the user terminal in a manner that corresponds to the first teacher data source information; and the first teacher data source information and the source information receiving unit.
  • a teacher data configuration unit that configures teacher data to be used for machine learning learning processing using the second teacher data source information received by the teacher data configuration unit; and a teacher data configuration unit that stores the teacher data configured by the teacher data configuration unit.
  • FIG. 15 is a conceptual diagram of information system B in this embodiment.
  • Information system B includes a data collection device 1, a learning device 3, and a prediction device 4.
  • the learning device 3 and the prediction device 4 are, for example, so-called servers, such as a cloud server, an ASP server, etc. However, the learning device 3 and the prediction device 4 may be stand-alone devices.
  • the data collection device 1, the learning device 3, and the prediction device 4 can communicate via a network such as the Internet or a LAN.
  • FIG. 16 is a block diagram of information system B in this embodiment.
  • the learning device 3 includes a teacher data storage section 113, a learning model storage section 31, and a learning section 32.
  • the prediction device 4 includes a learning model storage section 31, a reception section 41, a prediction section 42, and a prediction result output section 43.
  • the learning unit 32 configuring the learning device 3 performs a machine learning learning process using two or more pieces of teacher data accumulated by the data collection device 1, obtains a learning model, and accumulates the learning model.
  • the learning unit 32 stores the learning model in the learning model storage unit 31.
  • the machine learning algorithm for constructing the learning model does not matter, such as deep learning, random forest, decision tree, SVM, SVR, etc. Further, for machine learning, various machine learning functions such as the TensorFlow library, the R language random forest module, fastText, and TinySVM, and various existing libraries can be used.
  • various machine learning functions such as the TensorFlow library, the R language random forest module, fastText, and TinySVM, and various existing libraries can be used.
  • the receiving unit 41 that constitutes the prediction device 4 receives element information.
  • the element information is, for example, an image to be labeled, a term or sentence in the first language to be translated, an image to be explained, and a photographed image of the outer wall to be determined as to whether or not there is a crack.
  • reception refers to the reception of information input from input devices such as keyboards, mice, and touch panels, reception of information sent via wired or wireless communication lines, and recording of information such as optical disks, magnetic disks, semiconductor memory, etc.
  • This concept includes receiving information read from a medium, acquiring images by photographing, etc.
  • Any means of inputting element information may be used, such as a touch panel, keyboard, mouse, camera, or menu screen.
  • the machine learning algorithm that performs the prediction process does not matter, such as deep learning, random forest, decision tree, SVM, SVR, etc. Further, for machine learning, various machine learning functions such as the TensorFlow library, the R language random forest module, fastText, and TinySVM, and various existing libraries can be used.
  • various machine learning functions such as the TensorFlow library, the R language random forest module, fastText, and TinySVM, and various existing libraries can be used.
  • the learning model storage unit 31 is preferably a non-volatile recording medium, but can also be implemented using a volatile recording medium.
  • the process by which information is stored in the learning model storage unit 31 does not matter.
  • information may be stored in the learning model storage unit 31 via a recording medium, or information transmitted via a communication line or the like may be stored in the learning model storage unit 31.
  • information input via an input device may be stored in the storage unit 11 or the like.
  • the learning unit 32 and the prediction unit 42 can usually be realized by a processor, memory, or the like.
  • the processing procedures of the learning section 32 and the like are usually realized by software, and the software is recorded in a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).
  • the processor may be a CPU, MPU, GPU, etc., and its type does not matter.
  • the reception unit 41 may be realized by a device driver for input means such as a touch panel or a keyboard, control software for a menu screen, or the like.
  • the reception unit 41 is preferably realized by a wireless or wired communication means, but it may also be realized by a means for receiving broadcasts, a device driver for an input means such as a touch panel or a keyboard, or software for controlling a menu screen. Also good.
  • the data collection device 1 may include the learning model storage section 31 and the learning section 32 of the learning device 3. Further, the data collection device 1 may include the reception section 41, the prediction section 42, and the prediction result output section 43 of the prediction device 4.
  • a learning model can be constructed using the collected teacher data.
  • predicted input information can be output using the learning model.
  • the software that implements the learning device 3 in this embodiment is the following program.
  • this program uses a program that can access two or more pieces of teacher data accumulated by a data collection device to perform machine learning learning processing, obtain a learning model, and use the two or more pieces of teacher data to acquire a learning model.
  • This is a program that functions as a learning section that stores models.
  • the software that implements the prediction device 4 in this embodiment is the following program.
  • this program uses a computer that can access the learning model acquired by the learning device 3 to perform machine learning prediction processing using a reception unit that receives element information and the element information received by the reception unit.
  • this program is a program for functioning as a prediction unit that acquires input information and a prediction result output unit that outputs the input information.
  • FIG. 17 shows the external appearance of a computer that executes the programs described in this specification and realizes the data collection device 1, user terminal 2, learning device 3, and prediction device 4 of the various embodiments described above. .
  • the embodiments described above may be implemented in computer hardware and computer programs executed thereon.
  • FIG. 17 is an overview diagram of this computer system 300
  • FIG. 18 is a block diagram of the system 300.
  • a computer system 300 includes a computer 301 including a CD-ROM drive, a keyboard 302, a mouse 303, and a monitor 304.
  • the computer 301 includes, in addition to a CD-ROM drive 3012, an MPU 3013, a bus 3014 connected to the CD-ROM drive 3012, a ROM 3015 for storing programs such as a boot-up program, and an MPU 3013. It is connected and includes a RAM 3016 for temporarily storing application program instructions and providing temporary storage space, and a hard disk 3017 for storing application programs, system programs, and data.
  • the computer 301 may further include a network card that provides connection to a LAN.
  • a program that causes the computer system 300 to execute the functions of the data collection device 1, etc. of the embodiment described above may be stored in the CD-ROM 3101, inserted into the CD-ROM drive 3012, and further transferred to the hard disk 3017. .
  • the program may be transmitted to the computer 301 via a network (not shown) and stored on the hard disk 3017.
  • the program is loaded into RAM 3016 during execution.
  • the program may be loaded directly from CD-ROM 3101 or the network.
  • the program does not necessarily include an operating system (OS) or a third party program that causes the computer 301 to execute the functions of the data collection device 1 of the above-described embodiment.
  • the program need only contain those parts of the instructions that call the appropriate functions (modules) in a controlled manner to achieve the desired results. How computer system 300 operates is well known and will not be described in detail.
  • processing is performed by hardware. processing) is not included.
  • the number of computers that execute the above program may be a single computer or a plurality of computers. That is, centralized processing or distributed processing may be performed.
  • two or more communication means existing in one device may be physically realized by one medium.
  • each process may be realized by being centrally processed by a single device, or may be realized by being distributed by a plurality of devices.
  • the data collection device 1 has the advantage that a large amount of training data can be collected by providing a platform for collecting training data for constructing a learning model for machine learning. It is useful as a server etc. that implements the platform.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】従来、大量の教師データを作成することが容易ではなかった。 【解決手段】教師データを構成する元になる第一教師データ元情報が格納される元情報格納部112と、第一教師データ元情報を2以上の各ユーザ端末に送信する元情報送信部141と、第一教師データ元情報に対してユーザが入力した入力情報を含む第二教師データ元情報を、第一教師データ元情報に対応付く態様でユーザ端末2から受信する元情報受信部121と、第一教師データ元情報と第二教師データ元情報とを用いて、教師データを構成する教師データ構成部133と、教師データ構成部133が構成した教師データを蓄積する蓄積部134とを具備するデータ収集装置1により、機械学習の学習モデルを構築するための教師データを収集するためのプラットフォームを提供することにより、大量の教師データが収集可能となる。

Description

データ収集装置、学習装置、およびデータ収集方法
 本発明は、機械学習の学習モデルを作成するための教師データを収集するデータ収集装置等に関するものである。
 従来、画像に含まれるオブジェクトを予測したり、情報を分類したりする機械学習の技術があった(例えば、非特許文献1参照)。
"TensorFlow"、[online]、[令和4年4月30日検索]、インターネット[URL:https://www.tensorflow.org/?hl=ja]
 しかしながら、従来技術においては、機械学習の学習モデルを構築するための教師データは、通常、大量に必要であり、その大量の教師データを作成したり、収集したりすることが容易ではなかった。
 本第一の発明のデータ収集装置は、機械学習の学習処理により学習モデルを構築するための教師データを構成する元になる第一教師データ元情報が格納される元情報格納部と、第一教師データ元情報を2以上の各ユーザ端末に送信する元情報送信部と、元情報送信部が送信し、ユーザ端末で処理された第一教師データ元情報に対してユーザが入力した入力情報を含む第二教師データ元情報を、第一教師データ元情報に対応付く態様でユーザ端末から受信する元情報受信部と、第一教師データ元情報と元情報受信部が受信した第二教師データ元情報とを用いて、機械学習の学習処理のために使用する教師データを構成する教師データ構成部と、教師データ構成部が構成した教師データを蓄積する蓄積部とを具備するデータ収集装置である。
 かかる構成により、機械学習の学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本第二の発明のデータ収集装置は、第一の発明に対して、第一教師データ元情報は、教師データを構成する要素情報を含み、第二教師データ元情報は、要素情報を識別するラベルであり、ユーザが要素情報に対して入力したラベルであり、教師データは、要素情報とラベルとを含む、データ収集装置である。
 かかる構成により、要素情報から当該要素情報のラベルを予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本第三の発明のデータ収集装置は、第一の発明に対して、第一教師データ元情報は、教師データを構成する要素情報を含み、第二教師データ元情報は、要素情報を変換した情報である変換情報であり、ユーザが要素情報に対して入力した変換情報であり、教師データは、要素情報と変換情報とを含む、データ収集装置である。
 かかる構成により、要素情報から当該要素情報を変換した変換情報を予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本第四の発明のデータ収集装置は、第三の発明に対して、要素情報は、第一言語の用語または文であり、変換情報は、第二言語の用語または文である、データ収集装置である。
 かかる構成により、第一言語の要素情報から当該第二言語に翻訳した変換情報を予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本第五の発明のデータ収集装置は、第一の発明に対して、第一教師データ元情報は、教師データを構成する要素情報を含み、第二教師データ元情報は、要素情報を説明する情報である説明情報であり、ユーザが要素情報に対して入力した説明情報であり、教師データは、要素情報と説明情報とを含む、データ収集装置である。
 かかる構成により、要素情報から当該要素情報を説明する説明情報を予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本第六の発明のデータ収集装置は、第一の発明に対して、第一教師データ元情報は、ユーザが入力情報を入力することを支援するプログラムを含み、元情報受信部は、ユーザ端末でプログラムが実行された後に、ユーザが入力した入力情報を含む第二教師データ元情報を受信する、データ収集装置である。
 かかる構成により、入力情報を入力することを支援するプログラムもユーザに提供できる。
 また、本第七の発明のデータ収集装置は、第六の発明に対して、プログラムは、要素情報のラベルを予測する機械学習の予測プログラムであり、第一教師データ元情報は、教師データを構成する要素情報を含み、第二教師データ元情報は、要素情報に対して予測プログラムが実行され得られたラベルをユーザが修正したラベルを含み、教師データは、要素情報とラベルとを含む、データ収集装置である。
 かかる構成により、要素情報から当該要素情報のラベルを予測するための学習モデルを構築するための教師データを容易に収集するためのプラットフォームを提供できる。
 また、本第八の発明のデータ収集装置は、第六の発明に対して、プログラムは、要素情報を変換する変換プログラムであり、第一教師データ元情報は、教師データを構成する要素情報を含み、第二教師データ元情報は、要素情報に対して予測プログラムが実行され得られた変換情報をユーザが修正した変換情報を含み、教師データは、要素情報と変換情報とを含む、データ収集装置である。
 かかる構成により、要素情報から当該要素情報を変換した変換情報を予測するための学習モデルを構築するための教師データを容易に収集するためのプラットフォームを提供できる。
 また、本第九の発明のデータ収集装置は、第八の発明に対して、変換プログラムは、機械翻訳プログラムであり、要素情報は、第一言語の用語または文であり、変換情報は、第二言語の用語または文である、データ収集装置である。
 かかる構成により、第一言語の要素情報から当該第二言語に翻訳した変換情報を予測するための学習モデルを構築するための教師データを容易に収集するためのプラットフォームを提供できる。
 また、本第十の発明のデータ収集装置は、第六の発明に対して、プログラムは、要素情報の説明情報を予測する機械学習の予測プログラムであり、第一教師データ元情報は、教師データを構成する要素情報を含み、第二教師データ元情報は、要素情報に対して予測プログラムが実行され得られた説明情報をユーザが修正した説明情報を含み、教師データは、要素情報と説明情報とを含む、データ収集装置である。
 かかる構成により、要素情報から当該要素情報を説明する説明情報を予測するための学習モデルを構築するための教師データを容易に収集するためのプラットフォームを提供できる。
 また、本第十一の発明のデータ収集装置は、第六の発明に対して、プログラムは、教師データを構成する正例と負例とを取得することを支援するプログラムであり、第二教師データ元情報は、プログラムを用いて、ユーザ端末で取得された正例と負例である、データ収集装置である。
 かかる構成により、正例か負例かを判断するための機械学習の学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本第十二の発明のデータ収集装置は、第一から第十一いずれか1つの発明に対して、元情報送信部は、2以上の各ユーザ端末に、同一の第一教師データ元情報を送信し、元情報受信部は、2以上の各ユーザ端末から、同一の第一教師データ元情報に対応する第二教師データ元情報を受信し、教師データ構成部は、元情報受信部が受信した2以上の各第二教師データ元情報に含まれる入力情報を用いて、予め決められたアルゴリズムにより、蓄積する教師データを構成する、データ収集装置である。
 かかる構成により、精度の高い学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本第十三の発明のデータ収集装置は、第十二の発明に対して、教師データ構成部は、元情報受信部が受信した2以上の第二教師データ元情報に含まれる入力情報を合成し、合成入力情報を取得する合成手段と、第一教師データ元情報が有する要素情報と合成入力情報とを有する教師データ構成する教師データ構成手段とを具備するデータ収集装置である。
 かかる構成により、精度の高い学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本第十四の発明のデータ収集装置は、第一から第十三いずれか1つの発明に対して、第一教師データ元情報は、データ属性値に対応付いており、ユーザごとに、1以上のユーザ属性値を含む1以上のユーザ情報が格納されるユーザ情報格納部と、データ属性値に対応するユーザ属性値を有する1以上のユーザ情報を決定するユーザ決定部とをさらに具備し、元情報送信部は、ユーザ決定部が決定した1以上の各ユーザ情報に対応するユーザ端末に第一教師データ元情報を送信する、データ収集装置である。
 かかる構成により、適切なユーザが入力した第二教師データ元情報を取得できる。
 また、本第十五の発明のデータ収集装置は、第一から第十四いずれか1つの発明に対して、元情報受信部が受信した第二教師データ元情報を、第二教師データ元情報を送信したユーザ端末とは異なるユーザ端末である他端末に送信する他端末送信部と、他端末から第二教師データ元情報に対する評価結果を受信する評価結果受信部と、評価結果が採用条件を満たすか否かを判断する判断部とをさらに具備し、教師データ構成部は、判断部が採用条件を満たすと判断した場合のみ、評価結果に対応する第二教師データ元情報を用いて、教師データを構成する、データ収集装置である。
 かかる構成により、精度の高い学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本第十六の発明のデータ収集装置は、第十五の発明に対して、評価結果を用いて、評価結果に対応する第二教師データ元情報に対応するユーザに対する評価であるユーザ評価を取得するユーザ評価部と、ユーザ評価を出力するユーザ評価出力部とをさらに具備するデータ収集装置である。
 かかる構成により、第二教師データ元情報を提供するユーザを評価できる。
 また、本第十七の発明のデータ収集装置は、第一から第十六いずれか1つの発明に対して、ユーザ端末からの第二教師データ元情報の送信に応じた報酬を特定する報酬情報を取得する報酬取得部と、報酬情報をユーザ端末を使用するユーザに対応付けて蓄積する報酬蓄積部とをさらに具備するデータ収集装置である。
 かかる構成により、第二教師データ元情報を提供するユーザに報酬を与えられる。
 また、本第十八の発明のデータ収集装置は、第一から第十六いずれか1つの発明に対して、前記元情報受信部が前記ユーザ端末から第二教師データ元情報を受信した場合に、他のユーザ端末から受信されていた入力情報を前記ユーザ端末に送信する他端末送信部をさらに具備する、データ収集装置である。
 かかる構成により、入力情報を送信したユーザに、他の入力情報の正しさの確認のために他の入力情報を送信できる結果、他の入力情報に対するユーザの正当な評価が得られやすくなる。
 また、本第十九の発明のデータ収集装置は、第十八の発明に対して、前記他端末送信部が送信した入力情報に対する評価結果を前記ユーザ端末から受信する評価結果受信部と、前記入力情報に対応付けて、前記評価結果を蓄積し、当該評価結果に応じて、前記入力情報に対して異なる処理を行う処理部とをさらに具備する、データ収集装置である。
 かかる構成により、入力情報を送信したユーザに、他の入力情報の正しさの確認のために他の入力情報を送信できる結果、他の入力情報に対するユーザの正当な評価が得られやすくなる。
 また、本第二十の発明の学習装置は、第一から第十九いずれか1つの発明に対して、データ収集装置と、データ収集装置が蓄積した2以上の教師データを用いて、機械学習の学習処理を行い、学習モデルを取得し、学習モデルを蓄積する学習部を具備する学習装置である。
 かかる構成により、機械学習の学習モデルを容易に構築できる。
 また、本第十九の発明の予測装置は、第十八の発明に対して、要素情報を受け付ける受付部と、学習装置と、要素情報を受け付ける受付部と、学習装置が取得した学習モデルと受付部が受け付けた要素情報とを用いて、機械学習の予測処理を行い、入力情報を取得する予測部と、入力情報を出力する予測結果出力部とを具備する予測装置である。
 かかる構成により、容易に構築した学習モデルを用いて、機械学習の予測処理ができる。
 本発明によるデータ収集装置によれば、機械学習の学習モデルを構築するための教師データを収集するためのプラットフォームを提供することにより、大量の教師データが収集可能となる。
実施の形態1におけるデータ収集装置システムAの概念図 同データ収集装置システムAのブロック図 同データ収集装置1のブロック図 同データ収集装置1の動作例について説明するフローチャート 同ユーザ決定処理の例について説明するフローチャート 同教師データ構成処理の例について説明するフローチャート 同複数入力情報処理の例について説明するフローチャート 同ユーザ端末2の動作例について説明するフローチャート 同ユーザ情報管理表を示す図 同出力例を示す図 同出力例を示す図 同出力例を示す図 同出力例を示す図 同出力例を示す図 実施の形態2における情報システムBの概念図 同情報システムBのブロック図 上記実施の形態におけるコンピュータシステムの概観図 同コンピュータシステムのブロック図
 以下、データ収集装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
 (実施の形態1)
 本実施の形態において、2以上のユーザ端末に、教師データを構成するための第一教師データ元情報を送信し、当該2以上の各ユーザ端末から入力情報を含む第二教師データ元情報を受信し、当該第一教師データ元情報と第二教師データ元情報とを用いて、教師データを構成し、蓄積するデータ収集装置について説明する。
 また、本実施の形態において、2以上のユーザ端末2に同一の第一教師データ元情報を送信し、当該同一の第一教師データ元情報に対する第二教師データ元情報を2以上の各ユーザ端末から受信し、当該第一教師データ元情報と2以上の第二教師データ元情報とを用いて、教師データを構成し、蓄積するデータ収集装置について説明する。
 また、本実施の形態において、2以上のユーザ端末2から受信した第二教師データ元情報が有する入力情報を合成した合成入力情報を取得し、当該合成入力情報を有する教師データを構成し、蓄積するデータ収集装置について説明する。
 また、本実施の形態において、ユーザ端末ごとにユーザ属性値(例えば、英語が専門であること)を管理しており、当該ユーザ属性値を用いて、第一教師データ元情報を送信するユーザ端末を決定するデータ収集装置について説明する。
 また、本実施の形態において、ユーザ端末から受信された第二教師データ元情報を、他のユーザ端末に送信し、当該他のユーザ端末からの評価結果を受信し、当該評価結果が採用条件を満たす場合のみ、当該第二教師データ元情報を採用して、教師データを構成するデータ収集装置について説明する。
 また、本実施の形態において、上記の評価結果を用いて、第二教師データ元情報を送信したユーザを評価できるデータ収集装置について説明する。
 さらに、本実施の形態において、第二教師データ元情報の送信に対する報酬を、ユーザに与えることができるデータ収集装置について説明する。
 なお、本明細書において、情報Xが情報Yに対応付いていることは、情報Xから情報Yを取得できること、または情報Yから情報Xを取得できることであり、その対応付けの方法は問わない。情報Xと情報Yとがリンク付いていても良いし、同じバッファに存在していても良いし、情報Xが情報Yに含まれていても良いし、情報Yが情報Xに含まれている等でも良い。
 図1は、本実施の形態におけるデータ収集装置システムAの概念図である。データ収集装置システムAは、データ収集装置1、および1または2以上のユーザ端末2を備える。
 データ収集装置1は、教師データを収集するためのサーバである。データ収集装置1は、例えば、いわゆるサーバであり、例えば、クラウドサーバ、ASPサーバ等である。
 ユーザ端末2は、ユーザが使用する端末である。ユーザは、ここでは、教師データを作成するための作業を行う者である。ユーザは、後述する入力情報を提供する者である。ユーザ端末2は、第一教師データ元情報を受信し、第二教師データ元情報を送信する端末である。ユーザ端末2は、例えば、いわゆるパーソナルコンピュータ、タブレット端末、スマートフォン等であり、その種類は問わない。
 データ収集装置1と1または2以上の各ユーザ端末2とは、インターネットやLAN等のネットワークにより通信可能である。
 図2は、本実施の形態におけるデータ収集装置システムAのブロック図である。図3は、データ収集装置1のブロック図である
 データ収集装置1は、格納部11、受信部12、処理部13、および送信部14を備える。格納部11は、ユーザ情報格納部111、元情報格納部112、および教師データ格納部113を備える。受信部12は、元情報受信部121、および評価結果受信部122を備える。処理部13は、ユーザ決定部131、判断部132、教師データ構成部133、蓄積部134、報酬取得部135、報酬蓄積部136、ユーザ評価部137、およびユーザ評価出力部138を備える。教師データ構成部133は、合成手段1331、および教師データ構成手段1332を備える。送信部14は、元情報送信部141、および他端末送信部142を備える。
 ユーザ端末2は、端末格納部21、端末受付部22、端末処理部23、端末送信部24、端末受信部25、および端末出力部26を備える。
 データ収集装置1を構成する格納部11には、各種の情報が格納される。各種の情報とは、例えば、後述するユーザ情報、後述する第一教師データ元情報、後述する教師データ、各種のプログラムである。
 各種のプログラムは、ユーザ端末2で実行されるプログラムである。各種のプログラムは、例えば、要素情報を用いるプログラムである。各種のプログラムは、例えば、要素情報に対して、予め決められた処理を行うプログラムである。各種のプログラムは、例えば、機械学習の予測プログラム、機械翻訳プログラム、音声合成プログラム、音声認識プログラムである。
 ユーザ情報格納部111には、1または2以上のユーザ情報が格納される。ユーザ情報は、ユーザに関する情報である。ユーザ情報は、例えば、ユーザ識別子、1または2以上のユーザ属性値を有する。ユーザ識別子とは、ユーザを識別する情報である。ユーザ識別子は、例えば、ユーザID、電話番号、メールアドレス、ユーザ端末識別子である。ユーザ端末識別子とは、ユーザ端末2を識別する情報である。ユーザ端末識別子は、例えば、ユーザ端末2と通信するための情報である送信先情報である。ユーザ端末識別子は、例えば、ユーザ端末2のIPアドレス、MACアドレス、電話番号である。ユーザ属性値は、ユーザの特性と言っても良い。ユーザ属性値は、例えば、専門識別子、使用言語である。専門識別子とは、ユーザの専門を特定する情報である。専門識別子は、例えば、日英翻訳(例えば、「1」)、日中翻訳(例えば、「2」)、英日翻訳(例えば、「3」)である。使用言語とは、ユーザが使用している言語である。使用言語は、例えば、日本語、英語、中国語である。ユーザ属性値は、例えば、後述する報酬情報、後述するユーザ評価である。
 元情報格納部112には、1または2以上の第一教師データ元情報が格納される。第一教師データ元情報とは、教師データを構成する元になる情報である。教師データとは、機械学習の学習処理により学習モデルを構築するための情報である。
 第一教師データ元情報には、例えば、検査フラグ、複数人フラグ、合成フラグが対応づいていても良い。検査フラグとは、受信された第二教師データ元情報を他のユーザにより検査することを示す情報である。複数人フラグとは、複数人に第一教師データ元情報を送信することを示す情報である。合成フラグとは、複数のユーザ端末2から受信された第二教師データ元情報に含まれる入力情報を合成して、合成入力情報を構成することを示す情報である。
 なお、学習モデルとは、機械学習の学習処理により構成された情報であり、機械学習の予測処理に使用される情報である。学習モデルは、学習器、分類器、分類モデル等と言っても良い。学習モデルを構築したり、学習モデルを用いて予測処理したりする機械学習のアルゴリズムは、深層学習、ランダムフォレスト、決定木、SVM、SVR等、問わない。また、機械学習には、例えば、TensorFlowのライブラリ、R言語のrandom forestのモジュール、fastText、TinySVM等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。
 第一教師データ元情報は、通常、要素情報を含む。要素情報は、教師データを構成する情報である。要素情報は、通常、教師データを構成する説明変数となる情報であるが、教師データを構成する目的変数となる情報でも良い。要素情報は、例えば、画像、映像(動画)、音情報、文字列である。要素情報は、例えば、分類を示すラベルが付されるべき情報(例えば、画像、映像)である。なお、ラベルは、要素情報を識別する情報である。ラベルは、通常、1または2以上の用語である。要素情報は、例えば、翻訳対象の用語、翻訳対象の1または2以上の文である。用語は、1または2以上の単語の集合である。要素情報は、例えば、説明される対象の情報(例えば、画像、映像)である。要素情報は、例えば、音声認識される対象の音情報(音声データ)である。要素情報は、例えば、音声合成される対象の文字列である。
 第一教師データ元情報は、ユーザが入力情報を入力することを支援するプログラムを含むことは好適である。入力情報を入力することを支援するプログラムは、例えば、要素情報を用いて、入力情報を予測する機械学習の予測プログラム、第一言語の要素情報を機械翻訳し、第二言語の入力情報の案を出力する機械翻訳プログラム、文字列である要素情報を音声合成し、音声データの案を出力する音声合成プログラム、または音声データである要素情報に対して、音声認識処理を行い、文字列の案を出力する音声認識プログラムである。
 第一教師データ元情報は、データ属性値に対応付いていることは好適である。データ属性値とは、第一教師データ元情報の属性値、または第一教師データ元情報が含む要素情報の属性値である。データ属性値は、例えば、翻訳対象の要素情報の第一言語を示す情報(例えば、「英語」「日本語」)、第一言語と第二言語とを示す情報(例えば、「日→英」、「中→日」)である。
 第一教師データ元情報には、第二教師データ元情報を送信したユーザに与える報酬を算出する元になる報酬元情報が対応付いていることは好適である。報酬元情報とは、報酬情報を取得する元になる情報である。報酬元情報は、例えば、入力情報を送信する場合の単価、1つの第二教師データ元情報に対する報酬金額、1つの第二教師データ元情報に対して与えるポイント数である。
 教師データ格納部113には、1または2以上の教師データが格納される。ここでの教師データは、教師データ構成部133が構成したデータである。ここでの教師データは、そのまま学習モジュールに与えられるデータ構造であることは好適であるが、そのまま学習モジュールに与えられるデータ構造でなくても良い。ここでの教師データは、そのまま学習モジュールに与えられるデータ構造の教師データに含まれるすべての情報を有することは好適である。
 教師データは、例えば、要素情報と入力情報とを含む。教師データは、例えば、要素情報と入力情報であるラベルとを含む。ラベルとは、要素情報(例えば、動物を撮影した画像)を識別する情報(例えば、「犬」「猫」「秋田犬」)である。教師データは、例えば、要素情報(例えば、第一言語の文)と変換情報(例えば、第一言語の文を第二言語に翻訳した文)とを含む。教師データは、例えば、要素情報(例えば、画像、映像)と説明情報(例えば、画像について説明する文、映像について説明する文)とを含む。
 受信部12は、各種の情報を受信する。各種の情報とは、例えば、後述する第二教師データ元情報、後述する評価結果である。
 元情報受信部121は、1または2以上の各ユーザ端末2から第二教師データ元情報を受信する。かかるユーザ端末2は、後述する元情報送信部141が第一教師データ元情報を送信した端末である。
 第二教師データ元情報とは、教師データを構成する元になる情報である。第二教師データ元情報は入力情報を含む。第二教師データ元情報は入力情報でも良い。入力情報とは、ユーザ端末2で処理された第一教師データ元情報に対してユーザが入力した情報である。入力情報は、要素情報に対して、第一教師データ元情報が有するプログラムが処理し、出力された情報そのもの(例えば、機械翻訳結果)でも良いし、当該プログラムが処理し、出力された情報に対して、ユーザが修正した情報でも良い。ユーザが入力した情報とは、ユーザのユーザ端末2に対する操作により取得されて情報である。ユーザが入力した情報は、ユーザが手入力した情報でも良いし、ユーザが撮影した画像や映像であり、ユーザ端末2に取り込まれた画像や映像でも良いし、ユーザが発声した音声データであり、ユーザ端末2に取り込まれた音声データでも良い。ユーザが入力した情報は、ユーザの何らかの操作により、ユーザ端末2に存在するに至った情報であれば良い。
 第一教師データ元情報に対する処理とは、例えば、第一教師データ元情報の全部または一部(例えば、入力情報)を表示すること、第一教師データ元情報の全部または一部に対して変換処理を行うこと、第一教師データ元情報と図示しない学習モデルを用いて機械学習の予測処理を行い、予測結果を取得することである。なお、変換処理を行うプログラム、機械学習の予測処理を行うプログラムは、ユーザ端末2に送信される第一教師データ元情報に含まれていることは好適である。
 元情報受信部121は、通常、第二教師データ元情報を、第一教師データ元情報に対応付く態様でユーザ端末2から受信する。第一教師データ元情報に対応付く態様とは、例えば、第二教師データ元情報が第一教師データ元情報識別子を有することである。第一教師データ元情報に対応付く態様とは、例えば、第二教師データ元情報が要素情報を含むことである。なお、第一教師データ元情報識別子とは、第一教師データ元情報を識別する情報である。第一教師データ元情報を識別する情報は、第一教師データ元情報に含まれる要素情報を識別する情報でも良い。
 元情報受信部121は、例えば、ユーザ端末2でプログラムが実行された後に、ユーザが入力した入力情報を含む第二教師データ元情報を受信する。なお、ここでのプログラムは、例えば、要素情報を分類する機械学習の予測プログラムである。ここでのプログラムは、例えば、要素情報を分類する機械学習の予測プログラムと予測処理に用いる学習モデルである。ここでのプログラムは、例えば、要素情報を機械翻訳する機械翻訳のプログラムである。ここでのプログラムは、例えば、要素情報の説明情報を生成する機械学習の予測プログラムである。ここでのプログラムは、例えば、要素情報の説明情報を生成する機械学習の予測プログラムと予測処理に用いる学習モデルである。ここでのプログラムは、例えば、文字列である要素情報に対して音声合成処理を行うプログラムである。ここでのプログラムは、例えば、音声データである要素情報に対して音声認識処理を行うプログラムである。なお、プログラムの種類は問わない。
 元情報受信部121は、2以上の各ユーザ端末から、同一の第一教師データ元情報に対応する第二教師データ元情報を受信することは好適である。
 第二教師データ元情報は、例えば、要素情報を識別するラベルであり、ユーザが要素情報に対して入力したラベルを含む。第二教師データ元情報は、例えば、要素情報を変換した情報である変換情報であり、ユーザが要素情報に対して入力した変換情報を含む。第二教師データ元情報は、例えば、要素情報を説明する情報である説明情報であり、ユーザが要素情報に対して入力した説明情報を含む。
 第二教師データ元情報とは、例えば、要素情報に対して予測プログラムが実行され得られたラベルをユーザが修正したラベルを含む。第二教師データ元情報とは、例えば、要素情報に対して予測プログラムが実行され得られた変換情報をユーザが修正した変換情報を含む。第二教師データ元情報とは、例えば、要素情報に対して予測プログラムが実行され得られた説明情報をユーザが修正した説明情報を含む。
 第二教師データ元情報とは、例えば、プログラムを用いて、ユーザ端末2で取得された正例と負例である。なお、かかるプログラムは、正例と負例とを入力できるプログラムである。かかるプログラムは、正例と負例とを入力し、当該正例と負例とを含む第二教師データ元情報をデータ収集装置1に送信するプログラムである。なお、正例と負例との入力は、画像または映像の撮影でも良いし、文字列の入力でも良いし、音声データの取り込みでも良い。
 上述のプログラムは、例えば、要素情報のラベルを予測する機械学習の予測プログラム、要素情報を変換する変換プログラム、要素情報の説明情報を予測する機械学習の予測プログラム、教師データを構成する正例と負例とを取得することを支援するプログラムである。
 なお、正例は、識別したい対象の情報であり、例えば、ひび割れた壁の写真、クラックがある建造物の写真である。また、負例は、正例ではない情報であり、例えば、ひび割れていない壁の写真、クラックがない建造物の写真である。ただし、正例、負例のデータタイプ、内容等は問わない。なお、正例と負例とは逆でも良い。
 評価結果受信部122は、他端末から第二教師データ元情報に対する評価結果を受信する。なお、他端末とは、第二教師データ元情報を送信したユーザ端末2ではないユーザ端末2である。他端末とは、第二教師データ元情報を評価するユーザが使用するユーザ端末2である。
 評価結果受信部122は、他端末送信部142がユーザ端末2に送信した入力情報に対する評価結果を当該ユーザ端末2から受信しても良い。なお、かかるユーザ端末2は、当該入力情報を送信したユーザ端末2ではない。
 評価結果とは、第二教師データ元情報または第二教師データ元情報が有する入力情報に対する評価の結果を示す情報である。評価結果は、例えば、第二教師データ元情報または第二教師データ元情報が有する入力情報が正しいことを示す情報(例えば、真「1」)、第二教師データ元情報または第二教師データ元情報が有する入力情報が間違っていることを示す情報(例えば、偽「0」)、ユーザが入力した正しい入力情報である。
 処理部13は、各種の処理を行う。各種の処理とは、例えば、ユーザ決定部131、判断部132、教師データ構成部133、蓄積部134、報酬取得部135、報酬蓄積部136、ユーザ評価部137、ユーザ評価出力部138が行う処理である。
 処理部13は、送信部14が送信した入力情報に対応付けて、受信部12が受信した評価結果を蓄積する。そして、処理部13は、蓄積した1または2以上の評価結果に応じて、当該評価結果に対応する入力情報に対して異なる処理を行う。
 なお、処理部13が行う異なる処理の内容は問わない。処理部13は、例えば、「正しい」との評価結果に対応する入力情報を教師データとして採用し、「正しくない」との評価結果に対応する入力情報を、教師データとして採用しない。また、処理部13は、一の入力情報に対して、2以上の評価結果が存在する場合であり、当該2以上の評価結果の統計処理の結果が条件を満たす場合(例えば、「正しい」との評価結果の数または割合が閾値以上または閾値より多い場合)は、当該一の入力情報を教師データとして採用し、条件を満たさない場合(例えば、「正しくない」との評価結果の数または割合が閾値以上または閾値より多い場合)は、当該一の入力情報を教師データとして採用しない。
 また、教師データとして採用することは、例えば、教師データ格納部113に蓄積すること、学習モデルを構成する際に使用することである。教師データとして採用しないことは、例えば、教師データ格納部113に蓄積しないこと、学習モデルを構成する際に使用しないことである。
 また、処理部13は、例えば、「正しい」との評価結果であれば、他のユーザ端末2に入力情報を送信し、「正しくない」との評価結果であれば、さらに別のユーザ端末2に入力情報を送信する。また、一の入力情報に対して、2以上の評価結果が存在する場合、処理部13は、当該2以上の評価結果の統計処理の結果が条件を満たす場合(例えば、「正しい」との評価結果の数または割合が閾値以上または閾値より多い場合)は、他のユーザ端末2に入力情報を送信し、条件を満たさない場合(例えば、「正しくない」との評価結果の数または割合が閾値以上または閾値より多い場合)はさらに別のユーザ端末2に入力情報を送信する。
 ユーザ決定部131は、第一教師データ元情報を送信するユーザ端末2を決定する。ユーザ端末2を決定することは、例えば、ユーザ識別子を取得すること、送信先情報を取得することである。ユーザ端末2を決定することは、第一教師データ元情報を送信するユーザ端末2が決定できる処理であれば良い。
 ユーザ決定部131は、例えば、作業条件に合致する1以上のユーザ情報を決定する。なお、作業条件とは、第一教師データ元情報に対する入力情報を送信する作業を行えるための条件である。作業条件は、1以上のデータ属性値が、第一教師データ元情報と対になる1または2以上の各データ属性値を満足することである。ユーザ決定部131は、例えば、第一教師データ元情報と対になる1または2以上の各データ属性値を元情報格納部112から取得し、当該1以上のデータ属性値に対応するユーザ属性値を有する1以上のユーザ情報を決定する。例えば、データ属性値が「英語」である場合(例えば、翻訳する対象の第一言語が「英語」である場合)、ユーザ決定部131は、ユーザ属性値のうちの「専門」が「英日翻訳」であるユーザ属性値に対応するユーザ識別子をユーザ情報格納部111から取得する。
 ユーザ決定部131は、例えば、第一教師データ元情報を送信する候補のユーザ端末2から、ランダムに1または2以上のユーザ端末2を決定する。
 判断部132は、評価結果受信部122が受信した評価結果が採用条件を満たすか否かを判断する。採用条件とは、元情報受信部121が受信した第二教師データ元情報を採用して教師データを構成するための条件である。採用条件は、第二教師データ元情報が有する入力情報が正しいことを示す条件である。採用条件は、例えば、評価結果が「正しいことを示す情報」であること、評価結果に含まれる修正された入力情報が「NULL」であることである。
 教師データ構成部133は、元情報送信部141が送信した第一教師データ元情報と元情報受信部121が受信した第二教師データ元情報とを用いて、機械学習の学習処理のために使用する教師データを構成する。第一教師データ元情報と第二教師データ元情報とを用いて教師データを構成することは、第一教師データ元情報の一部と第二教師データ元情報の一部とを用いて教師データを構成することも含むと考えても良い。
 教師データ構成部133は、例えば、第一教師データ元情報に含まれる要素情報と第二教師データ元情報に含まれる入力情報とを用いて、教師データを構成する。教師データ構成部133は、例えば、第一教師データ元情報に含まれる要素情報を説明変数とし、教師データ元情報に含まれる入力情報を目的変数とする教師データを構成する。教師データ構成部133は、例えば、第一教師データ元情報に含まれる要素情報を目的変数とし、教師データ元情報に含まれる入力情報を説明変数とする教師データを構成する。なお、教師データのデータ構造は問わない。教師データは、例えば、要素情報と入力情報とを要素とするベクトルである。
 教師データ構成部133は、元情報受信部121が受信した2以上の各第二教師データ元情報に含まれる入力情報を用いて、予め決められたアルゴリズムにより、蓄積する教師データを構成する。なお、ここで、教師データは、通常、一つである。
 予め決められたアルゴリズムとは、例えば、多数決である。つまり、元情報受信部121が受信した2以上の各第二教師データ元情報に含まれる入力情報が全て同じ情報でない場合、教師データ構成部133は、最も頻度が高い入力情報を、教師データを構成する際に使用する入力情報として決定する。また、予め決められたアルゴリズムとは、例えば、後述する合成である。
 教師データ構成部133は、判断部132が採用条件を満たすと判断した場合のみ、評価結果に対応する第二教師データ元情報を用いて、教師データを構成することは好適である。
 教師データ構成部133を構成する合成手段1331は、元情報受信部121が受信した2以上の第二教師データ元情報に含まれる入力情報を合成し、合成入力情報を取得する。なお、合成とは、元情報受信部121が受信した2以上の第二教師データ元情報のうちの2以上の各第二教師データ元情報の全部または一部を有する合成入力情報を取得することである。
 合成手段1331は、例えば、元情報受信部121が受信した2以上の各第二教師データ元情報に含まれる入力情報(例えば、画像を識別するラベル)をすべて含む情報を、教師データを構成する際に使用する入力情報として決定する。なお、かかるすべて含む情報は、合成入力情報である。
 合成手段1331は、例えば、元情報受信部121が受信した2以上の各第二教師データ元情報に含まれる入力情報(例えば、画像を識別するラベル)に対して、ユニーク処理した結果の情報をすべて含む情報を、合成入力情報として取得する。かかる場合、合成入力情報から重複する情報(例えば、重複するラベル)は除かれる。
 教師データ構成手段1332は、例えば、第一教師データ元情報が有する要素情報と合成手段1331が取得した合成入力情報とを有する教師データ構成する。
 蓄積部134は、教師データ構成部133が構成した教師データを蓄積する。蓄積部134は、例えば、教師データを教師データ格納部113に蓄積する。
 蓄積部134は、入力情報に対応付けて、評価結果受信部122が受信した評価結果を蓄積しても良い。かかる評価結果は、対応付く入力情報に対する評価結果である。
 報酬取得部135は、ユーザ端末2からの第二教師データ元情報の送信に応じた報酬を特定する報酬情報を取得する。報酬取得部135は、通常、ユーザ端末2に対応するユーザに対応付けて、報酬情報を取得する。報酬取得部135は、例えば、第二教師データ元情報が受信された場合に、当該第二教師データ元情報に対応する第一教師データ元情報と対になる報酬元情報を元情報格納部112から取得し、当該報酬元情報を用いて、報酬情報(例えば、報酬金額、報酬のポイント数)を取得する。
 第一教師データ元情報に応じて、報酬が異なることは好適である。例えば、要素情報である画像に対して、ラベルである入力情報を送信した場合より、要素情報である画像に対して、説明情報である入力情報を送信した場合の方が高額の報酬となる。報酬取得部135は、第二教師データ元情報の数が多いほど、大きな報酬となる報酬情報を取得することは好適である。報酬取得部135は、第二教師データ元情報に対する評価結果が高い(良好である)ほど、大きな報酬となる報酬情報を取得することは好適である。
 報酬蓄積部136は、報酬取得部135が取得した報酬情報を、第二教師データ元情報を送信したユーザ端末2を使用するユーザに対応付けて蓄積する。報酬蓄積部136は、例えば、報酬取得部135が取得した報酬情報を、第二教師データ元情報を送信したユーザ端末2に対応するユーザ識別子と対にして、ユーザ情報格納部111に蓄積する。なお、報酬情報の蓄積は、例えば、当該ユーザ識別子と対にして格納されている報酬情報に、報酬取得部135が取得した報酬情報を加算した新たな報酬情報を蓄積することである。   
 ユーザ評価部137は、評価結果受信部122が受信した1または2以上の評価結果を用いて、当該評価結果に対応する第二教師データ元情報に対応するユーザ(入力情報を作成したユーザ)に対する評価であるユーザ評価を取得する。
 ユーザ評価部137は、例えば、「入力情報が間違っていることを示す情報」である評価結果の数が多いほど、当該入力情報に対応するユーザの評価が低くなるユーザ評価を取得する。
 ユーザ評価出力部138は、ユーザ評価部137が取得したユーザ評価を出力する。ここで、出力とは、記録媒体への蓄積、外部の装置への送信、他の処理装置や他のプログラムなどへの処理結果の引渡しであるが、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力などを含む概念であっても良い。
 ユーザ評価出力部138は、例えば、ユーザ評価部137が取得したユーザ評価を、当該ユーザ評価に対応する入力情報に対応するユーザ識別子と対にして、ユーザ情報格納部111に蓄積する。ユーザ評価出力部138は、例えば、ユーザ評価部137が取得したユーザ評価を当該ユーザのユーザ端末2に送信する。
 送信部14は、各種の情報を送信する。各種の情報は、例えば、第一教師データ元情報、第二教師データ元情報である。
 元情報送信部141は、教師データの元になる第一教師データ元情報をユーザ端末2に送信する。元情報送信部141は、通常、教師データの元になる第一教師データ元情報を2以上の各ユーザ端末に送信する。元情報送信部141は、2以上の各ユーザ端末に、同一の第一教師データ元情報を送信することは好適である。元情報送信部141は、ユーザ決定部131が決定した1以上の各ユーザ情報に対応するユーザ端末2に第一教師データ元情報を送信することは好適である。
 他端末送信部142は、元情報受信部121が受信した第二教師データ元情報を、当該第二教師データ元情報を送信したユーザ端末2とは異なるユーザ端末2である他端末に送信する。
 他端末送信部142は、元情報受信部121が第二教師データ元情報をユーザ端末2から受信したことに応じて、当該第二教師データ元情報に含まれる入力情報とは異なる入力情報であり、当該ユーザ端末2とは異なる他のユーザ端末2から受信された入力情報を、当該第二教師データ元情報を送信してきたユーザ端末2に送信することは好適である。かかることにより、第二教師データ元情報を送信したユーザに、すぐに他の入力情報を評価してもらえる。つまり、当該ユーザの判断の感覚が鈍らないタイミングで、他の入力情報を評価してもらえ、入力情報の精度の向上、入力情報(ラベリング)の揺らぎを少なくする等の効果がある。
 他端末送信部142は、検査条件に合致する第二教師データ元情報のみを、他端末に送信しても良い。
 なお、検査条件とは、第二教師データ元情報を検査する条件である。検査条件は、例えば、元情報送信部141が送信した第一教師データ元情報に、第二教師データ元情報を検査することを示す検査フラグが対応付いていることである。検査条件は、例えば、ユーザ評価が閾値以下または閾値より小さい(低い評価の)ユーザのユーザ端末2から受信された第二教師データ元情報であることである。ただし、検査条件は問わない。
 ユーザ端末2を構成する端末格納部21には、各種の情報が格納される。各種の情報とは、例えば、ユーザ識別子、第一教師データ元情報、第二教師データ元情報、各種のプログラムである。
 端末受付部22は、各種の情報や指示等を受け付ける。各種の情報や指示等とは、例えば、入力情報、ユーザの操作、出力された入力情報(第二教師データ元情報)に対する評価結果、出力された入力情報に対する修正、第二送信指示である。なお、出力された入力情報は、プログラムが自動取得した入力情報の候補の情報であり、ユーザにより修正される可能性のある情報である。また、出力された入力情報に対する修正は、入力情報である。
 第二送信指示とは、入力情報を有する第二教師データ元情報を、データ収集装置1に送信する指示である。
 なお、各種の情報や指示等の入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの等、何でも良い。
 端末処理部23は、各種の処理を行う。各種の処理は、例えば、受け付けられた情報や指示等を、送信する構造の情報や指示等にする処理である。各種の処理は、例えば、受信された情報を出力する構造の情報にする処理である。
 端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報を出力する。
 端末処理部23は、例えば、受信された第一教師データ元情報が有するプログラムを実行する。なお、プログラムを実行することは、プログラムをインストールした後に実行することも含む、とする。
 端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報に対して、機械学習の予測プログラムを実行し、予測されたラベルを取得する。
 端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報に対して、変換プログラムを実行し、予測された変換情報を取得する。
 端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報に対して、機械翻訳プログラムを実行し、予測された翻訳結果を取得する。
 端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報(音声データ)に対して、音声認識プログラムを実行し、予測された音声認識結果の文字列を取得する。
 端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報(文字列)に対して、音声合成プログラムを実行し、予測された音声データを取得する。
 端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報に対して、機械学習の予測プログラムを実行し、予測された説明情報を取得する。
 端末処理部23は、例えば、受信された第一教師データ元情報が有するプログラムを実行し、正例と負例とを入力するための入力画面を出力する。
 端末処理部23は、例えば、端末受付部22が受け付けたユーザの操作に応じて、写真を撮影し、画像を取得する。なお、かかる画像は、正例または負例である。
 端末送信部24は、各種の情報や指示等をデータ収集装置1に送信する。各種の情報や指示等は、例えば、第二教師データ元情報である。
 端末受信部25は、各種の情報をデータ収集装置1から受信する。各種の情報は、例えば、第一教師データ元情報、第二教師データ元情報、検査情報である。
 端末出力部26は、各種の情報を出力する。各種の情報は、例えば、第一教師データ元情報、第二教師データ元情報である。
 格納部11、ユーザ情報格納部111、元情報格納部112、教師データ格納部113、学習モデル格納部31、および端末格納部21は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
 格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。
 受信部12、元情報受信部121、評価結果受信部122、および端末受信部25は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。
 処理部13、ユーザ決定部131、判断部132、教師データ構成部133、蓄積部134、報酬取得部135、報酬蓄積部136、ユーザ評価部137、ユーザ評価出力部138、合成手段1331、教師データ構成手段1332、および端末処理部23は、通常、プロセッサやメモリ等から実現され得る。処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、CPU、MPU、GPU等であり、その種類は問わない。
 送信部14、元情報送信部141、他端末送信部142、および端末送信部24は、通常、無線または有線の通信手段で実現されるが、放送手段で実現されても良い。
 端末受付部22は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
 端末出力部26は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。端末出力部26は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
 次に、データ収集装置システムAの動作例について説明する。まず、データ収集装置1の動作例について、図4のフローチャートを用いて説明する。
 (ステップS401)データ収集装置1は、第一教師データ元情報を送信する指示である第一送信指示を受け付けたか否かを判断する。第一送信指示を受け付けた場合はステップS402に行き、第一送信指示を受け付けなかった場合はステップS408に行く。なお、第一送信指示の受け付けは、例えば、図示しない管理者の端末からの第一送信指示の受信、予め決まられた時刻になってことである。ただし、第一教師データ元情報を送信するためのトリガーは問わない。
 (ステップS402)処理部13は、教師データを作成する対象の第一教師データ元情報であり、第一送信指示に対応する第一教師データ元情報を、元情報格納部112から取得する。
 (ステップS403)ユーザ決定部131は、ユーザ決定処理を行う。ユーザ決定処理の例について、図5のフローチャートを用いて説明する。なお、ユーザ決定処理とは、第一教師データ元情報を送信する1または2以上のユーザ端末2を決定する処理である。
 (ステップS404)元情報送信部141は、カウンタiに1を代入する。
 (ステップS405)元情報送信部141は、ステップS403で決定されたユーザ端末2のうちで、i番目のユーザ端末2が存在するか否かを判断する。i番目のユーザ端末2が存在する場合はステップS406に行き、存在しない場合はステップS401に戻る。
 (ステップS406)元情報送信部141は、i番目のユーザ端末2に対応する送信先情報(例えば、IPアドレス、MACアドレス、メールアドレス、電話番号)をユーザ情報格納部111から取得する。次に、元情報送信部141は、当該送信先情報が示す送信先に、ステップS402で取得された第一教師データ元情報を送信する。なお、送信される第一教師データ元情報は、第一教師データ元情報識別子を有することは好適である。
 (ステップS407)元情報送信部141は、カウンタiを1、インクリメントする。ステップS405に戻る。
 (ステップS408)元情報受信部121は、ユーザ端末2から第二教師データ元情報を受信したか否かを判断する。第二教師データ元情報を受信した場合はステップS409に行き、受信しなかった場合はステップS418に行く。
 (ステップS409)判断部132は、ステップS408で受信された第二教師データ元情報が検査条件に合致するか否かを判断する。検査条件に合致する場合はステップS416に行き、検査条件に合致しない場合はステップS410に行く。
 (ステップS410)教師データ構成部133は、ステップS408で受信された第二教師データ元情報を用いて、教師データ構成処理を行う。教師データ構成処理の例について、図6のフローチャートを用いて説明する。
 (ステップS411)蓄積部134は、ステップS410で教師データが構成されたか否かを判断する。教師データが構成された場合はステップS412に行き、教師データが構成されなかった場合はステップS413に行く。
 (ステップS412)蓄積部134は、ステップS410で構成された教師データを教師データ格納部113に蓄積する。ステップS414に行く。ここで、蓄積部134は、教師データの元になった第一教師データ元情報に対応付けて、教師データを蓄積することは好適である。
 (ステップS413)蓄積部134は、ステップS408で受信された第二教師データ元情報が有する入力情報を、受信されたステップS408で受信された第二教師データ元情報に対応する第一教師データ元情報に対応付けて、図示しないバッファに蓄積する。
 (ステップS414)報酬取得部135は、ステップS408における第二教師データ元情報の受信に応じて、当該第二教師データ元情報を送信したユーザ端末2のユーザに対する報酬情報を取得する。
 (ステップS415)報酬蓄積部136は、ステップS414で取得された報酬情報を、当該第二教師データ元情報を送信したユーザ端末2のユーザのユーザ識別子に対応付けて、ユーザ情報格納部111に蓄積する。ステップS401に戻る。
 (ステップS416)処理部13は、ステップS408で受信された第二教師データ元情報を用いて、他端末に送信する検査情報を構成する。なお、検査情報は、例えば、第二教師データ元情報を有する。検査情報は、例えば、第一教師データ元情報が有する要素情報を有する。検査情報は、例えば、要素情報と入力情報とを有する。
 (ステップS417)他端末送信部142は、検査情報を送信する他端末の送信先情報をユーザ情報格納部111から取得する。次に、他端末送信部142は、検査情報を、当該送信先情報が示す送信先に送信する。ステップS401に戻る。
 なお、取得される送信先情報は、検査者として予め決まっているユーザ(例えば、管理者、評価が高い一部のユーザ)の送信先情報でも良いし、ランダムに決定したユーザの送信先情報等でも良い。
 (ステップS418)評価結果受信部122は、ユーザ端末2から評価結果を受信したか否かを判断する。評価結果を受信した場合はステップS419に行き、評価結果を受信しなかった場合はステップS401に戻る。なお、受信される評価結果は、第二教師データ元情報に対応付いている。
 (ステップS419)判断部132は、ステップS418で受信された評価結果が採用条件を満たすか否かを判断する。採用条件を満たす場合はステップS410に行き、採用条件を満たさない場合はステップS420に行く。
 (ステップS420)教師データ構成部133は、ステップS418で受信された評価結果が修正された入力情報を含むか否かを判断する。入力情報を含む場合はステップS421に行き、入力情報を含まない場合はステップS401に戻る。
 (ステップS421)教師データ構成部133は、ステップS418で受信された評価結果が有する入力情報を取得する。また、教師データ構成部133は、ステップS418で受信された評価結果に対応する第一教師データ元情報が有する要素情報を取得する。次に、教師データ構成部133は、要素情報と入力情報とを有する教師データを構成する。ステップS412に行く。
 なお、図4のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
 次に、ステップS403のユーザ決定処理の例について、図5のフローチャートを用いて説明する。
 (ステップS501)ユーザ決定部131は、第一教師データ元情報と対になる1以上のデータ識別子を元情報格納部112から取得する。
 (ステップS502)ユーザ決定部131は、カウンタiに1を代入する。
 (ステップS503)ユーザ決定部131は、ユーザ情報格納部111にi番目のユーザ情報が存在するか否かを判断する。i番目のユーザ情報が存在する場合はステップS504に行き、存在しない場合は上位処理にリターンする。
 (ステップS504)ユーザ決定部131は、i番目のユーザ情報に含まれる1以上のユーザ属性値をユーザ情報格納部111から取得する。
 (ステップS505)ユーザ決定部131は、ステップS501で取得した1以上のデータ識別子とステップS504で取得した1以上のユーザ属性値とが、作業条件に合致するか否かを判断する。作業条件に合致する場合はステップS506に行き、合致しない場合はステップS508に行く。
 (ステップS506)ユーザ決定部131は、ステップS504で取得した1以上のユーザ属性値と対になるユーザ識別子をユーザ情報格納部111から取得し、図示しないバッファに一時蓄積する。
 (ステップS507)ユーザ決定部131は、取得したユーザ識別子の数が上限に達したか否かを判断する。上限に達した場合は上位処理にリターンし、上限に達していない場合はステップS508に行く。
 (ステップS508)ユーザ決定部131は、カウンタiを1、インクリメントする。ステップS503に戻る。
 次に、ステップS410の教師データ構成処理の例について、図6のフローチャートを用いて説明する。
 (ステップS601)教師データ構成部133は、第一教師データ元情報識別子を取得する。
 (ステップS602)教師データ構成部133は、元情報格納部112に、第一教師データ元情報識別子と対に、複数人フラグが格納されているか否かを判断する。複数人フラグが格納されている場合はステップS603に行き、格納されていない場合はステップS610に行く。
 (ステップS603)教師データ構成部133は、すべてのユーザ端末2から、入力情報を有する第二教師データ元情報を受信しているか否かを判断する。すべての入力情報が揃っている場合はステップS604に行き、揃っていない場合はステップS607に行く。
 (ステップS604)教師データ構成部133は、複数入力情報処理を行う。複数入力情報処理の例について、図7のフローチャートを用いて説明する。なお、複数入力情報処理とは、一の第一教師データ元情報に対する複数の入力情報を処理し、使用する入力情報を取得する処理である。
 (ステップS605)教師データ構成部133は、第一教師データ元情報が有する要素情報を取得する。
 (ステップS606)教師データ構成部133は、ステップS604で取得した入力情報とステップS605で取得したる要素情報とを有する教師データを構成する。上位処理にリターンする。
 (ステップS607)教師データ構成部133は、第一教師データ元情報識別子を取得する。
 (ステップS608)教師データ構成部133は、ステップS607で取得した第一教師データ元情報識別子に対応付けて、ステップS408で受信された第二教師データ元情報を一時蓄積する。
 (ステップS609)教師データ構成部133は、教師データフラグに「未完成」を代入する。上位処理にリターンする。
 (ステップS610)教師データ構成部133は、ステップS408で受信された第二教師データ元情報に対応する第一教師データ元情報の中に要素情報が存在するか否かを判断する。要素情報が存在する場合はステップS611に行き、要素情報が存在しない場合はステップS614に行く。
 (ステップS611)教師データ構成部133は、ステップS408で受信された第二教師データ元情報に対応する第一教師データ元情報の中から要素情報を取得する。
 (ステップS612)教師データ構成部133は、ステップS408で受信された第二教師データ元情報の中から入力情報を取得する。
 (ステップS613)教師データ構成部133は、ステップS611で取得した要素情報とステップS612で取得した入力情報とを有する教師データを構成する。上位処理にリターンする。
 (ステップS614)教師データ構成部133は、ステップS408で受信された第二教師データ元情報から正例と負例とを取得する。
 (ステップS615)教師データ構成部133は、ステップS614で取得した正例と負例とを教師データを構成する。上位処理にリターンする。
 次に、ステップS604の複数入力情報処理の例について、図7のフローチャートを用いて説明する。
 (ステップS701)教師データ構成部133は、すべての入力情報を取得する。
 (ステップS702)教師データ構成部133は、元情報格納部112に、第一教師データ元情報に対応付いて、合成フラグが格納されているか否かを判断する。合成フラグが格納されている場合はステップS703に行き、合成フラグが格納されていない場合はステップS705に行く。
 (ステップS703)教師データ構成部133は、ステップS701で取得したすべての入力情報に対して、ユニーク処理を行う。
 (ステップS704)教師データ構成部133は、ステップS703におけるユニーク処理の結果である1以上の入力情報を取得する。上位処理にリターンする。
 (ステップS705)教師データ構成部133は、ステップS701で取得したすべての入力情報の中で、最も出現頻度の高い一の入力情報を取得する。上位処理にリターンする。
 なお、図7のフローチャートのステップS703において、すべての入力情報に対してユニーク処理を行ったが、要約処理を行う等しても良い。なお、すべての入力情報である複数の文を要約する処理は、公知の自然言語処理により可能である。
 次に、ユーザ端末2の動作例について、図8のフローチャートを用いて説明する。
 (ステップS801)端末受信部25は、データ収集装置1から第二教師データ元情報を受信したか否かを判断する。第二教師データ元情報を受信した場合はステップS802に行き、受信しなかった場合はステップS806に行く。なお、ここでの第二教師データ元情報の受信は、ユーザの操作による受信(プル型の通信)でも良い、プッシュ送信された第二教師データ元情報の受信でも良い。
 (ステップS802)端末処理部23は、ステップS801において受信された第二教師データ元情報がプログラムを含むか否かを判断する。プログラムを含む場合はステップS803に行き、プログラムを含まない場合はステップS804に行く。
 (ステップS803)端末処理部23は、ステップS801において受信された第二教師データ元情報が要素情報を含むか否かを判断する。要素情報を含む場合はステップS804に行き、要素情報を含まない場合はステップS805に行く。
 (ステップS804)端末処理部23は、ステップS801において受信された第二教師データ元情報に含まれる要素情報を取得する。
 (ステップS805)端末処理部23は、ステップS801において受信された第二教師データ元情報に含まれるプログラム、または端末格納部21に格納されているプログラムを実行する。なお、ここで、端末処理部23は、要素情報を取得している場合には、当該要素情報をプログラムに渡して、当該プログラムを実行する。ステップS801に戻る。
 (ステップS806)端末受付部22は、入力情報を受け付けたか否かを判断する。入力情報を受け付けた場合はステップS807に行き、受け付けなかった場合はステップS811に行く。
 (ステップS807)端末処理部23は、ステップS806で受け付けた入力情報を一時蓄積する。
 (ステップS808)端末受付部22は、第二送信指示を受け付けたか否かを判断する。第二送信指示を受け付けた場合はステップS809に行き、受け付けなかった場合はステップS808に戻る。
 (ステップS809)端末処理部23は、ステップS806で受け付けた入力情報を有する第二教師データ元情報を構成する。なお、第二教師データ元情報は、入力情報と第一教師データ元情報識別子とを有し、要素情報を有さないことは好適である。
 (ステップS810)端末送信部24は、ステップS809で構成された第二教師データ元情報をデータ収集装置1に送信する。ステップS801に戻る。
 (ステップS811)端末受信部25は、データ収集装置1から検査情報を受信したか否かを判断する。検査情報を受信した場合はステップS812に行き、検査情報を受信しなかった場合はステップS801に戻る。
 (ステップS812)端末処理部23は、ステップS811で受信された検査情報を用いて、出力する検査情報を構成する。端末出力部26は、当該検査情報を出力する。なお、検査情報は、通常、要素情報と入力情報とを有する。
 (ステップS813)端末受付部22は、出力された検査情報に対する入力を受け付けたか否かを判断する。入力を受け付けた場合はステップS814に行き、入力を受け付けなかった場合はステップS813に戻る。なお、ここでの入力は、評価結果を構成するための情報である。
 (ステップS814)端末処理部23は、ステップS813で受け付けられた入力を用いて、評価結果を構成する。なお、評価結果は、例えば、「正しい」「間違っている」「修正された入力情報」である。
 (ステップS815)端末送信部24は、ステップS814で構成された評価結果をデータ収集装置1に送信する。ステップS801に戻る。
 なお、図8のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
 以下、本実施の形態におけるデータ収集装置システムAの具体的な動作例について説明する。
 データ収集装置1のユーザ情報格納部111には、図9に示すユーザ情報管理表が格納されている、とする。ユーザ情報管理表は、「ID」「ユーザ識別子」「氏名」「送信先情報」「ユーザ属性値」を有する2以上のレコードを管理する。「ユーザ属性値」は、ここでは「専門識別子」「使用言語」「ユーザ評価」「報酬情報」を有する。「専門識別子」は、ユーザの専門を特定する情報であり、例えば、「日→英」は、日本語から英語への日英翻訳が専門であることを示す。「ユーザ評価」は、ここでは記号であるが、通常、数値である、とする。「報酬情報」は、ここでは記号であるが、通常、金額やポイントを示す数値である、とする。
 かかる場合、以下の4つの具体例について説明する。具体例1は、日本語の難解用語の英語訳をユーザに依頼し、ユーザ端末2から日本語の難解用語と英語訳とを有する第二教師データ元情報を受信する場合である。具体例2は、画像に対して、当該画像のラベルを付す作業を複数のユーザに依頼し、複数のユーザ端末2からラベルと第一教師データ元情報識別子(画像の識別子)とを有する第二教師データ元情報を受信し、複数のラベルを合成する場合である。具体例3は、ユーザ端末2に、クラックが入った外壁(正例)とクラックが入っていない外壁(負例)とのセットの画像の撮影および送信の作業をユーザに依頼する場合である。具体例4において、ユーザ端末2から目的とする情報(例えば、クラックが入った外壁の画像)を受信した後に、直ちに、他のユーザ端末2から受信した1以上の他の目的とする情報(例えば、クラックが入った外壁の画像)を送信し、目的とする情報であるか否か(クラックが入っているか否か)の評価結果を当該ユーザに入力してもらい、当該ユーザ端末2から評価結果を受信し、当該評価結果を送信した情報に対応付けて蓄積する。また、蓄積された1以上の評価結果のうち、「目的とする情報である」との評価結果が採用条件を満たす場合に、当該情報を採用する。なお、採用条件は、例えば、「目的とする情報である」との評価結果の数が閾値以上または閾値より多いこと、「目的とする情報である」との評価結果の割合が閾値以上または閾値より多いことである。
(具体例1)
 ここでは、データ収集装置1の格納部11には、機械翻訳を行い、入力情報を入力し、第二教師データ元情報を送信するためのプログラムA(アプリA)が格納されている、とする。
 データ収集装置1は、第一送信指示「<難解用語>一蓮托生 <データ属性値>日→英」を受け付けたとする。
 次に、ユーザ決定部131は、当該第一送信指示が有するデータ属性値「日→英」に合致する専門識別子「日→英」と対になる送信先情報「送信先1」を、ユーザ情報管理表(図9)から取得する。
 次に、処理部13は、格納部11からプログラムAを取得する。また、処理部13は、本作業を識別する仕事ID「W1258」を生成する。また、処理部13は、プログラムAと要素情報である難解用語「一蓮托生」と仕事ID「W1258」とを有する第一教師データ元情報を構成する。
 次に、元情報送信部141は、当該第一教師データ元情報を送信先情報「送信先1」に対応する田中A夫のユーザ端末2に送信する。
 次に、田中A夫のユーザ端末2の端末受信部25は、データ収集装置1から当該第一教師データ元情報を受信する。次に、端末処理部23は、受信された第一教師データ元情報から要素情報「一蓮托生」を取得する。また、端末処理部23は、受信された第一教師データ元情報からプログラムAを取得する。そして、端末処理部23は、プログラムAに要素情報「一蓮托生」を渡し、プログラムAを実行する。その結果、図10に示す画面が田中A夫のユーザ端末2に出力された、とする。つまり、プログラムAに含まれる機械翻訳モジュールでは、日本語「一蓮托生」を「Ichirentakushou」と訳した、とする。
 次に、田中A夫は、機械翻訳モジュールの自動翻訳結果は間違っているので、1001のフィールドに、「Ichirentakushou」に代えて、正しい英語翻訳「To be in the same boat.」を入力し、送信ボタン1002を指示した、とする。
 次に、端末処理部23は、第二教師データ元情報「<仕事ID>W1258 <ユーザ識別子>U001 <要素情報>一蓮托生 <入力情報>To be in the same boat.」を構成する。次に、端末送信部24は、当該第二教師データ元情報をデータ収集装置1に送信する。
 次に、データ収集装置1の元情報受信部121は、田中A夫のユーザ端末2から第二教師データ元情報「<仕事ID>W1258 <ユーザ識別子>U001 <要素情報>一蓮托生 <入力情報>To be in the same boat.」を受信する。
 次に、処理部13は、仕事ID「W1258」に対応付けて、第二教師データ元情報「<ユーザ識別子>U001 <要素情報>一蓮托生 <入力情報>To be in the same boat.」を、図示しないバッファに一時蓄積する。
 次に、判断部132は、受信された第二教師データ元情報が検査条件に合致する、と判断した、とする。ここで、検査条件は、ユーザ識別子に対応するユーザ評価が閾値以上であること、であったとする。そして、判断部132は、ユーザ識別子「U001」と対になるユーザ評価「E」をユーザ情報管理表(図9)から取得する。また、判断部132は、「E<閾値」であると判断した、とする。
 次に、処理部13は、受信された第二教師データ元情報を用いて、他端末に送信する検査情報「<仕事ID>W1258 <要素情報>一蓮托生 <入力情報>To be in the same boat.」を構成する。ここで、他端末送信部142は、データ属性値「日→英」に合致する専門識別子「日→英」と対になる送信先情報であり、「送信先1」ではない送信先情報「送信先2」を、ユーザ情報管理表(図9)から取得する。つまり、他端末送信部142は、他端末として、山田B子のユーザ端末2を決定する。次に、他端末送信部142は、送信先2が示す送信先に、当該検査情報を送信する。
 次に、山田B子のユーザ端末2は、当該検査情報を受信し、出力する。かかる出力例は、図11である。
 そして、山田B子は、翻訳結果を確認し、「正しい」のチェックボックス1101にチェックを入力し、送信ボタン1102を指示した、とする。
 次に、ユーザ端末2の端末受付部22は、山田B子のかかる入力を受け付ける。次に、端末処理部23は、評価結果「<仕事ID>W1258 <評価結果>正しい」を構成する。次に、端末送信部24は、当該評価結果をデータ収集装置1に送信する。
 次に、データ収集装置1の評価結果受信部122は、山田B子のユーザ端末2から評価結果「<仕事ID>W1258 <評価結果>正しい」を受信する。
 次に、判断部132は、受信された評価結果「正しい」が採用条件を満たす、と判断する。なお、ここでは、採用条件は「評価結果=正しい」である、とする。
 次に、教師データ構成部133は、第二教師データ元情報「<仕事ID>W1258 <ユーザ識別子>U001 <要素情報>一蓮托生 <入力情報>To be in the same boat.」から教師データ(一蓮托生,To be in the same boat.)を構成する。次に、蓄積部134は、当該教師データを教師データ格納部113に蓄積する。
 以上の処理を繰り返し、教師データ格納部113には、大量の教師データ(難解な日本語用語,難解な日本語用語の英語翻訳用語)が蓄積された、とする。
 以上、本具体例によれば、難解な日本語の用語を英語の用語に変換するための学習モデルを構築するための多数の教師データを収集できる。
(具体例2)
 ここでは、データ収集装置1の格納部11には、要素情報である画像と入力情報を入力するフィールドとを有する画面を出力し、第二教師データ元情報を送信するためのプログラムB(アプリB)が格納されている、とする。
 データ収集装置1は、第一送信指示「<画像>file1 <送信人数>3 <合成フラグ>ON」を受け付けたとする。file1は、犬が撮影された画像ファイルである、とする。
 次に、ユーザ決定部131は、第一送信指示が有する送信人数「3」に従って、例えば、送信先情報「送信先1」「送信先2」「送信先3」を、ユーザ情報管理表(図9)から取得する。
 次に、処理部13は、格納部11からプログラムBを取得する。また、処理部13は、第一教師データ元情報識別子(仕事ID)「W1260」を生成した、とする。また、処理部13は、仕事ID「W1260」とプログラムBと要素情報である画像ファイル「file1」とを有する第一教師データ元情報を構成する。また、処理部13は、仕事ID「W1260」と対に、複数人フラグと合成フラグとを蓄積する。
 次に、元情報送信部141は、当該第一教師データ元情報を送信先情報「送信先1」に対応する田中A夫、山田B子、および陳XYの各ユーザ端末2に送信する。
 次に、3人の各ユーザのユーザ端末2の端末受信部25は、データ収集装置1から当該第一教師データ元情報を受信する。次に、端末処理部23は、受信された第一教師データ元情報から要素情報である画像ファイル「file1」を取得する。また、各ユーザ端末2の端末処理部23は、受信された第一教師データ元情報からプログラムBを取得する。そして、端末処理部23は、プログラムBに要素情報「file1」を渡し、プログラムBを実行する。その結果、図12に示す画面が各ユーザのユーザ端末2に出力された、とする。
 ここで、田中A夫と山田B子とは入力情報を入力するフィールド12に「秋田犬」を入力し、陳XYはフィールド12に「犬」を入力し、送信ボタン1202を指示した、とする。そして、3人の各ユーザのユーザ端末2は、フィールド12に入力された要素情報と第一教師データ元情報識別子「W1260」とを有する第二教師データ元情報を構成し、データ収集装置1に送信する。
 次に、データ収集装置1の元情報受信部121は、3人の各ユーザのユーザ端末2から第二教師データ元情報を受信する。
 次に、教師データ構成部133は、元情報格納部112に、第一教師データ元情報識別子「W1260」と対に、複数人フラグが格納されている、と判断する。そして、教師データ構成部133は、すべての入力情報「秋田犬,秋田犬,犬」を取得する。また、教師データ構成部133は、元情報格納部112に、第一教師データ元情報「W1260」に対応付いて、合成フラグが格納されている、と判断する。次に、教師データ構成部133は、取得したすべての入力情報に対して、ユニーク処理を行い、入力情報「秋田犬,犬」を取得する。次に、教師データ構成部133は、第一教師データ元情報が有する要素情報(画像ファイル「file1」)を取得する。次に、教師データ構成部133は、入力情報「秋田犬,犬」と要素情報(画像ファイル「file1」)とを有する教師データを構成する。次に、蓄積部134は、当該教師データを教師データ格納部113に蓄積する。
 なお、ここで、入力情報は、目的変数でも良いし、説明変数でも良い。また、入力情報が目的変数である場合、要素情報は説明変数であり、入力情報が説明変数である場合、要素情報は目的変数である。
 以上の処理を繰り返し、教師データ格納部113には、大量の教師データ(画像,1または2以上のラベル)が蓄積された、とする。
 なお、具体例2において、入力情報を一つのラベルとする場合、教師データ構成部133は、すべての入力情報「秋田犬,秋田犬,犬」に対して、多数決のアルゴリズムを採用し、入力情報「秋田犬」と決定し、当該入力情報「秋田犬」と画像ファイル「file1」からなる教師データを構成しても良い。
 また、具体例2において、プログラムBは、画像を識別する機械学習の予測モジュールを含んでも良い。かかる場合、各ユーザのユーザ端末2で、画像ファイル「file1」に対して、当該予測モジュールが実行され、当該画像の予測結果(例えば、「オオカミ」)がユーザ端末2のフィールド1201に表示される。そして、ユーザは、フィールド1201に表示された入力情報の候補を確認し、修正することとなる。
 以上、本具体例によれば、画像ファイルをラベリングするための学習モデルを構築するための多数の教師データを収集できる。
 また、本具体例によれば、ラベリから画像を生成するための学習モデルを構築するための多数の教師データを収集できる。
(具体例3)
 ここでは、データ収集装置1の格納部11には、クラックの入った外壁の箇所とクラックが入っていない外壁の箇所との撮影を促し、撮影して、2つの画像を送信するプログラムC(アプリC)が格納されている、とする。
 データ収集装置1は、第一送信指示「<プログラム>プログラムC」を受け付けたとする。
 次に、ユーザ決定部131は、ユーザ情報管理表(図9)から、すべてのユーザの送信先情報を取得した、とする。つまり、ここでは、大量のユーザに以下の作業を依頼するものとする、
 次に、処理部13は、格納部11からプログラムCを取得する。また、処理部13は、送信する第一教師データ元情報を識別するユニークな第一教師データ元情報識別子(仕事ID)「W2522」を生成し、第一教師データ元情報に対応付けて蓄積した、とする。また、処理部13は、第一教師データ元情報識別子「W2522」とプログラムCを有する第一教師データ元情報を構成する。
 次に、元情報送信部141は、当該第一教師データ元情報をユーザ決定部131が取得した多数の送信先情報に対応する多数のユーザ端末2に送信する。
 次に、例えば、田中A夫のユーザ端末2の端末受信部25は、データ収集装置1から当該第一教師データ元情報を受信する。次に、端末処理部23は、受信された第一教師データ元情報からプログラムCを取得する。そして、端末処理部23は、プログラムCを実行する。その結果、図13に示す画面が田中A夫のユーザ端末2に出力された、とする。
 次に、田中A夫は、図13の画面に従って、図13の領域1301に入るべき、クラックの入った外壁の箇所の画像を撮影するために、当該ユーザ端末2の画面をクラックの入った外壁の箇所に向け、撮影ボタン1302を指示した、とする。すると、端末受付部22は、かかる指示を受け付け、端末処理部23は、プログラムCの撮影機能を実行し、クラックの入った外壁の箇所の画像を取得した、とする。
 また、田中A夫は、図13の画面に従って、図13の領域1303に入るべき、クラックが入っていない外壁の箇所の画像を撮影するために、当該ユーザ端末2の画面をクラックの入っていない外壁の箇所に向け、撮影ボタン1304を指示した、とする。すると、端末受付部22は、かかる指示を受け付け、端末処理部23は、プログラムCの撮影機能を実行し、クラックが入っていない外壁の箇所の画像を取得した、とする。
 以上により、田中A夫のユーザ端末2は、クラックが入っていない外壁の箇所の画像(正例)と、クラックが入っていない外壁の箇所の画像(負例)とを取得できた。かかる出力例は、図14である。
 次に、田中A夫は、ユーザ端末2の画面の送信ボタン1401を指示した、とする。次に、端末受付部22は、第二送信指示を受け付ける。次に、端末処理部23は、撮影された正例の画像1402と負例の画像1403と第一教師データ元情報識別子「W2522」とを有する第二教師データ元情報を構成する。次に、端末送信部24は、当該第二教師データ元情報をデータ収集装置1に送信する。
 また、他のユーザも、田中A夫と同様に、クラックが入っていない外壁の箇所の画像(正例)と、クラックが入っていない外壁の箇所の画像(負例)とを撮影し、第二教師データ元情報をデータ収集装置1に送信した、とする。
 次に、データ収集装置1は、元情報受信部121は、多数の各ユーザ端末2から第二教師データ元情報を受信する。
 次に、教師データ構成部133は、各ユーザ端末2から送信された第二教師データ元情報から正例の画像と負例の画像とを取得する。次に、教師データ構成部133は、取得した正例の画像と負例の画像との組である教師データを、多数、構成する。
 次に、蓄積部134は、構成された多数の教師データを教師データ格納部113に蓄積する。
 なお、ここで、蓄積部134は、各ユーザ端末2から送信された正例の画像と負例の画像とを対応付けて、教師データ格納部113に蓄積することは好適であるが、正例の画像と負例の画像とを対応付けず、各画像が正例の画像か負例の画像かを区別できるように、教師データ格納部113に蓄積するだけでも良い。なお、正例の画像と負例の画像とを対応付けて蓄積する場合でも、蓄積部134は、どちらが正例の画像で、どうちらが負例の画像であるかは、区別できるように、蓄積する。
 以上、本具体例によれば、外壁におけるクラックの有無を識別するための学習モデルを構築するための多数の教師データを収集できた。
(具体例4)
 具体例3で述べたクラックの外壁の画像(例えば、図14の1402)が多数のユーザ端末2から受信され、蓄積された、とする。
 そして、今、データ収集装置1の元情報受信部121が入力情報A(例えば、クラックの入った壁の画像)を含む第二教師データ元情報を、ユーザUのユーザ端末2から受信した、とする。そして、データ収集装置1の蓄積部134は、当該第二教師データ元情報を蓄積する。次に、他端末送信部142は、ユーザUのユーザ端末2に、他のユーザ端末2から受信された入力情報Xを送信する。
 そして、ユーザUのユーザ端末2は、第二教師データ元情報の送信後、すぐにデータ収集装置1から入力情報Xを受信し、出力する。
 次に、ユーザUは、ユーザ端末2に出力された入力情報Xを見て、クラックが入っているように見えないと判断し、評価結果「正しくない」を入力した、とする。次に、ユーザ端末2は、評価結果「正しくない」を受け付け、当該評価結果「正しくない」を、入力情報Xの識別子(例えば、「X」)と対にして、データ収集装置1に送信する。
 次に、データ収集装置1の評価結果受信部122は、入力情報Xに対する評価結果「正しくない」をユーザ端末2から受信する。そして、蓄積部134は、評価結果受信部122が受信した評価結果を、入力情報Xに対応付けて蓄積する。
 このような処理を、ユーザUだけではなく、他の多数のユーザにより行われた、とする。その結果、入力情報Xに対して、多数の評価結果が入力情報Xに対応付けて蓄積された、とする。
 次に、処理部13は、評価結果「正しい」の割合が閾値以上である場合、入力情報Xを教師データとして採用するために、教師データ格納部113に蓄積する、とする。なお、かかる蓄積は、蓄積部134が行っても良い。
 以上、本具体例によれば、ユーザが入力情報を送信した後、すぐに、他の入力情報を評価する環境を提供できる結果、入力情報を評価しやくなる。その結果、適正な教師データを収集できることとなる。
 以上、本実施の形態によれば、機械学習の学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本実施の形態によれば、要素情報から当該要素情報のラベルを予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本実施の形態によれば、要素情報から当該要素情報を変換した変換情報を予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本実施の形態によれば、第一言語の要素情報から当該第二言語に翻訳した変換情報を予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本実施の形態によれば、要素情報から当該要素情報を説明する説明情報を予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本実施の形態によれば、入力情報を入力することを支援するプログラムもユーザに提供できる。
 また、本実施の形態によれば、精度の高い学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
 また、本実施の形態によれば、適切なユーザが入力した第二教師データ元情報を取得できる。
 また、本実施の形態によれば、第二教師データ元情報を提供するユーザを評価できる。
 また、本実施の形態によれば、入力情報を評価しやくする環境を提供できる。
 さらに、本実施の形態によれば、第二教師データ元情報を提供するユーザに報酬を与えられる。
 なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態におけるデータ収集装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、機械学習の学習処理により学習モデルを構築するための教師データを構成する元になる第一教師データ元情報が格納される元情報格納部にアクセス可能なコンピュータを、前記第一教師データ元情報を2以上の各ユーザ端末に送信する元情報送信部と、前記元情報送信部が送信し、前記ユーザ端末で処理された前記第一教師データ元情報に対してユーザが入力した入力情報を含む第二教師データ元情報を、前記第一教師データ元情報に対応付く態様で前記ユーザ端末から受信する元情報受信部と、前記第一教師データ元情報と前記元情報受信部が受信した前記第二教師データ元情報とを用いて、機械学習の学習処理のために使用する教師データを構成する教師データ構成部と、前記教師データ構成部が構成した前記教師データを蓄積する蓄積部として機能させるためのプログラムである。
 (実施の形態2)
 本実施の形態において、データ収集装置1により収集した複数の教師データを用いて、学習モデルを構築する学習装置について説明する。
 また、本実施の形態において、学習装置が構築した学習モデルを用いて、予測処理を行う予測装置について説明する。
 図15は、本実施の形態における情報システムBの概念図である。情報システムBは、データ収集装置1、学習装置3、および予測装置4を備える。
 学習装置3、予測装置4は、例えば、いわゆるサーバであり、例えば、クラウドサーバ、ASPサーバ等である。ただし、学習装置3、予測装置4は、スタンドアロンの装置でも良い。
 ここでは、例えば、データ収集装置1と学習装置3と予測装置4とは、インターネットやLAN等のネットワークにより通信可能である。
 図16は、本実施の形態における情報システムBのブロック図である。学習装置3は、教師データ格納部113、学習モデル格納部31、および学習部32を備える。予測装置4は、学習モデル格納部31、受付部41、予測部42、および予測結果出力部43を備える。
 学習装置3を構成する学習部32は、データ収集装置1が蓄積した2以上の教師データを用いて、機械学習の学習処理を行い、学習モデルを取得し、学習モデルを蓄積する。学習部32は、学習モデル格納部31に学習モデルを蓄積することは好適である。
 ここで、学習モデルを構築する機械学習のアルゴリズムは、深層学習、ランダムフォレスト、決定木、SVM、SVR等、問わない。また、機械学習には、例えば、TensorFlowのライブラリ、R言語のrandom forestのモジュール、fastText、TinySVM等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。
 予測装置4を構成する受付部41は、要素情報を受け付ける。要素情報は、例えば、ラベリングの対象の画像、翻訳対象の第一言語の用語または文、説明対象の画像、クラックが入っているか否かを判断する対象の外壁の撮影画像である。
 ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付け、撮影による画像の取得などを含む概念である。
 要素情報の入力手段は、タッチパネルやキーボードやマウスやカメラやメニュー画面によるもの等、何でも良い。
 予測部42は、学習モデル格納部31の学習モデルと受付部41が受け付けた要素情報とを用いて、機械学習の予測処理を行い、入力情報を取得する。
 ここで、予測処理を行う機械学習のアルゴリズムは、深層学習、ランダムフォレスト、決定木、SVM、SVR等、問わない。また、機械学習には、例えば、TensorFlowのライブラリ、R言語のrandom forestのモジュール、fastText、TinySVM等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。
 予測結果出力部43は、予測部42が取得した入力情報を出力する。ここで、出力とは、記録媒体への蓄積、外部の装置への送信、他の処理装置や他のプログラムなどへの処理結果の引渡し、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力などを含む概念である。
 学習モデル格納部31は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
 学習モデル格納部31に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が学習モデル格納部31で記憶されるようになってもよく、通信回線等を介して送信された情報が学習モデル格納部31で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。
 学習部32、および予測部42は、通常、プロセッサやメモリ等から実現され得る。学習部32等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、CPU、MPU、GPU等であり、その種類は問わない。
受付部41は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
 受付部41は、無線または有線の通信手段で実現されることが好適であるが、放送を受信する手段、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現されても良い。
 予測結果出力部43は、無線または有線の通信手段で実現されても良いし、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現されても良い。かかる場合、予測結果出力部43は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。
 なお、データ収集装置1は、学習装置3の学習モデル格納部31と学習部32とを具備しても良い。また、データ収集装置1は、予測装置4の受付部41と予測部42と予測結果出力部43とを具備しても良い。
 以上、本実施の形態によれば、収集した教師データを用いて、学習モデルを構築できる。
 また、本実施の形態によれば、学習モデルを用いて、予測される入力情報を出力できる。
 なお、本実施の形態における学習装置3を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、データ収集装置が蓄積した2以上の教師データにアクセス可能なプログラムを、当該2以上の教師データを用いて、機械学習の学習処理を行い、学習モデルを取得し、当該学習モデルを蓄積する学習部として機能させるためのプログラムである。
 また、本実施の形態における予測装置4を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、学習装置3が取得した学習モデルにアクセス可能なコンピュータを、要素情報を受け付ける受付部と、前記受付部が受け付けた前記要素情報とを用いて、機械学習の予測処理を行い、入力情報を取得する予測部と、前記入力情報出力する予測結果出力部として機能させるためのプログラムである。
 また、図17は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態のデータ収集装置1、ユーザ端末2、学習装置3、予測装置4を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図17は、このコンピュータシステム300の概観図であり、図18は、システム300のブロック図である。
 図17において、コンピュータシステム300は、CD-ROMドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
 図18において、コンピュータ301は、CD-ROMドライブ3012に加えて、MPU3013と、CD-ROMドライブ3012等に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
 コンピュータシステム300に、上述した実施の形態のデータ収集装置1等の機能を実行させるプログラムは、CD-ROM3101に記憶されて、CD-ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD-ROM3101またはネットワークから直接、ロードされても良い。
 プログラムは、コンピュータ301に、上述した実施の形態のデータ収集装置1等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
 なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
 また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
 また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。
 また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
 本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
 以上のように、本発明にかかるデータ収集装置1は、機械学習の学習モデルを構築するための教師データを収集するためのプラットフォームを提供することにより、大量の教師データが収集可能となるという効果を有し、当該プラットフォームを実現するサーバ等として有用である。

Claims (21)

  1. 機械学習の学習処理により学習モデルを構築するための教師データを構成する元になる第一教師データ元情報が格納される元情報格納部と、
    前記第一教師データ元情報を2以上の各ユーザ端末に送信する元情報送信部と、
    前記元情報送信部が送信し、ユーザ端末で処理された前記第一教師データ元情報に対してユーザが入力した入力情報を含む第二教師データ元情報を、前記第一教師データ元情報に対応付く態様で前記ユーザ端末から受信する元情報受信部と、
    前記第一教師データ元情報と前記元情報受信部が受信した前記第二教師データ元情報とを用いて、機械学習の学習処理のために使用する教師データを構成する教師データ構成部と、
    前記教師データ構成部が構成した前記教師データを蓄積する蓄積部とを具備するデータ収集装置。
  2. 前記第一教師データ元情報は、前記教師データを構成する要素情報を含み、
    前記第二教師データ元情報は、前記要素情報を識別するラベルであり、ユーザが前記要素情報に対して入力したラベルであり、
    前記教師データは、前記要素情報と前記ラベルとを含む、請求項1記載のデータ収集装置。
  3. 前記第一教師データ元情報は、前記教師データを構成する要素情報を含み、
    前記第二教師データ元情報は、前記要素情報を変換した情報である変換情報であり、ユーザが前記要素情報に対して入力した変換情報であり、
    前記教師データは、前記要素情報と前記変換情報とを含む、請求項1記載のデータ収集装置。
  4. 前記要素情報は、第一言語の用語または文であり、
    前記変換情報は、第二言語の用語または文である、請求項3記載のデータ収集装置。
  5. 前記第一教師データ元情報は、前記教師データを構成する要素情報を含み、
    前記第二教師データ元情報は、前記要素情報を説明する情報である説明情報であり、ユーザが前記要素情報に対して入力した説明情報であり、
    前記教師データは、前記要素情報と前記説明情報とを含む、請求項1記載のデータ収集装置。
  6. 前記第一教師データ元情報は、前記ユーザが前記入力情報を入力することを支援するプログラムを含み、
    前記元情報受信部は、
    前記ユーザ端末で前記プログラムが実行された後に、前記ユーザが入力した前記入力情報を含む前記第二教師データ元情報を受信する、請求項1記載のデータ収集装置。
  7. 前記プログラムは、要素情報のラベルを予測する機械学習の予測プログラムであり、
    前記第一教師データ元情報は、前記教師データを構成する要素情報を含み、
    前記第二教師データ元情報は、前記要素情報に対して前記予測プログラムが実行され得られたラベルを前記ユーザが修正したラベルを含み、
    前記教師データは、前記要素情報と前記ラベルとを含む、請求項6記載のデータ収集装置。
  8. 前記プログラムは、要素情報を変換する変換プログラムであり、
    前記第一教師データ元情報は、前記教師データを構成する要素情報を含み、
    前記第二教師データ元情報は、前記要素情報に対して前記予測プログラムが実行され得られた変換情報を前記ユーザが修正した変換情報を含み、
    前記教師データは、前記要素情報と前記変換情報とを含む、請求項6記載のデータ収集装置。
  9. 前記変換プログラムは、機械翻訳プログラムであり、
    前記要素情報は、第一言語の用語または文であり、
    前記変換情報は、第二言語の用語または文である、請求項8記載のデータ収集装置。
  10. 前記プログラムは、要素情報の説明情報を予測する機械学習の予測プログラムであり、
    前記第一教師データ元情報は、前記教師データを構成する要素情報を含み、
    前記第二教師データ元情報は、前記要素情報に対して前記予測プログラムが実行され得られた説明情報を前記ユーザが修正した説明情報を含み、
    前記教師データは、前記要素情報と前記説明情報とを含む、請求項6記載のデータ収集装置。
  11. 前記プログラムは、前記教師データを構成する正例と負例とを取得することを支援するプログラムであり、
    前記第二教師データ元情報は、前記プログラムを用いて、前記ユーザ端末で取得された正例と負例である、請求項6記載のデータ収集装置。
  12. 前記元情報送信部は、
    2以上の各ユーザ端末に、同一の第一教師データ元情報を送信し、
    前記元情報受信部は、
    前記2以上の各ユーザ端末から、前記同一の第一教師データ元情報に対応する前記第二教師データ元情報を受信し、
    前記教師データ構成部は、
    前記元情報受信部が受信した前記2以上の各第二教師データ元情報に含まれる入力情報を用いて、予め決められたアルゴリズムにより、蓄積する前記教師データを構成する、請求項1記載のデータ収集装置。
  13. 前記教師データ構成部は、
    前記元情報受信部が受信した前記2以上の第二教師データ元情報に含まれる入力情報を合成し、合成入力情報を取得する合成手段と、
    前記第一教師データ元情報が有する要素情報と前記合成入力情報とを有する教師データ構成する教師データ構成手段とを具備する請求項12記載のデータ収集装置。
  14. 前記第一教師データ元情報は、データ属性値に対応付いており、
    ユーザごとに、1以上のユーザ属性値を含む1以上のユーザ情報が格納されるユーザ情報格納部と、
    前記データ属性値に対応するユーザ属性値を有する1以上のユーザ情報を決定するユーザ決定部とをさらに具備し、
    前記元情報送信部は、
    前記ユーザ決定部が決定した1以上の各ユーザ情報に対応するユーザ端末に前記第一教師データ元情報を送信する、請求項1記載のデータ収集装置。
  15. 前記元情報受信部が受信した前記第二教師データ元情報を、当該第二教師データ元情報を送信したユーザ端末とは異なるユーザ端末である他端末に送信する他端末送信部と、
    前記他端末から前記第二教師データ元情報に対する評価結果を受信する評価結果受信部と、
    前記評価結果が採用条件を満たすか否かを判断する判断部とをさらに具備し、
    前記教師データ構成部は、
    前記判断部が前記採用条件を満たすと判断した場合のみ、当該評価結果に対応する第二教師データ元情報を用いて、前記教師データを構成する、請求項1記載のデータ収集装置。
  16. 前記評価結果を用いて、当該評価結果に対応する前記第二教師データ元情報に対応するユーザに対する評価であるユーザ評価を取得するユーザ評価部と、
    前記ユーザ評価を出力するユーザ評価出力部とをさらに具備する請求項15記載のデータ収集装置。
  17. 前記ユーザ端末からの前記第二教師データ元情報の送信に応じた報酬を特定する報酬情報を取得する報酬取得部と、
    前記報酬情報を前記ユーザ端末を使用するユーザに対応付けて蓄積する報酬蓄積部とをさらに具備する請求項1記載のデータ収集装置。
  18. 前記元情報受信部が前記ユーザ端末から第二教師データ元情報を受信した場合に、他のユーザ端末から受信されていた入力情報を前記ユーザ端末に送信する他端末送信部をさらに具備する請求項1記載のデータ収集装置。
  19. 前記他端末送信部が送信した入力情報に対する評価結果を前記ユーザ端末から受信する評価結果受信部と、
    前記入力情報に対応付けて、前記評価結果を蓄積し、当該評価結果に応じて、前記入力情報に対して異なる処理を行う処理部とをさらに具備する請求項18記載のデータ収集装置。
  20. 請求項1から請求項19いずれか一項に記載のデータ収集装置と、当該データ収集装置が蓄積した2以上の教師データを用いて、機械学習の学習処理を行い、学習モデルを取得し、当該学習モデルを蓄積する学習部を具備する学習装置。
  21. 機械学習の学習処理により学習モデルを構築するための教師データを構成する元になる第一教師データ元情報が格納される元情報格納部と、元情報送信部と、元情報受信部と、教師データ構成部と、蓄積部とにより実現されるデータ収集方法であって、
    前記元情報送信部が、前記第一教師データ元情報を2以上の各ユーザ端末に送信する元情報送信ステップと、
    前記元情報受信部が、前記元情報送信ステップで送信された、ユーザ端末で処理された前記第一教師データ元情報に対してユーザが入力した入力情報を含む第二教師データ元情報を、前記第一教師データ元情報に対応付く態様で前記ユーザ端末から受信する元情報受信ステップと、
    前記教師データ構成部が、前記第一教師データ元情報と前記元情報受信部が受信した前記第二教師データ元情報とを用いて、機械学習の学習処理のために使用する教師データを構成する教師データ構成ステップと、
    前記蓄積部が、前記教師データ構成ステップで構成された前記教師データを蓄積する蓄積ステップとにより実現されるデータ収集方法。
PCT/JP2023/017530 2022-05-17 2023-05-10 データ収集装置、学習装置、およびデータ収集方法 WO2023223904A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2022080608 2022-05-17
JP2022-080608 2022-05-17
JP2022111223A JP2023169844A (ja) 2022-05-17 2022-07-11 モデル評価装置、ユーザ端末、モデル評価方法、およびプログラム
JP2022-111223 2022-07-11

Publications (1)

Publication Number Publication Date
WO2023223904A1 true WO2023223904A1 (ja) 2023-11-23

Family

ID=88835454

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/017530 WO2023223904A1 (ja) 2022-05-17 2023-05-10 データ収集装置、学習装置、およびデータ収集方法

Country Status (1)

Country Link
WO (1) WO2023223904A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019096319A (ja) * 2017-11-21 2019-06-20 クラウドワークス インコーポレイテッドCrowdWorks, Inc. データラベリング作業検査方法及びプログラム
JP2021131872A (ja) * 2018-02-14 2021-09-09 エレクタ、インク.Elekta, Inc. 深層学習を用いたアトラスベースセグメンテーション

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019096319A (ja) * 2017-11-21 2019-06-20 クラウドワークス インコーポレイテッドCrowdWorks, Inc. データラベリング作業検査方法及びプログラム
JP2021131872A (ja) * 2018-02-14 2021-09-09 エレクタ、インク.Elekta, Inc. 深層学習を用いたアトラスベースセグメンテーション

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NATSUKI TAKAYAMA, HIROKI TAKAHASHI: "Annotation Assistant using Words Recognition for Building Japanese Sign Language Corpus", ITE TECHNICAL REPORT, EIZO JOHO MEDIA GAKKAI, TOKYO, JP, vol. 42, no. 12 (AIT2018-65 ), 1 January 2018 (2018-01-01), JP , pages 83 - 86, XP009550744, ISSN: 1342-6893 *

Similar Documents

Publication Publication Date Title
JP6544131B2 (ja) 情報処理装置及び情報処理プログラム
US8886517B2 (en) Trust scoring for language translation systems
US8630852B2 (en) Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program
CA3032614C (en) Localization platform that leverages previously translated content
CN102567311A (zh) 激励描述集合
JP6424315B2 (ja) 学習支援装置、学習支援プログラム、及び学習支援方法
US11227116B2 (en) Translation device, translation method, and program
JP6753598B1 (ja) プログラムコード自動生成装置及びプログラム
US20230334072A1 (en) Automatic question answering system and question-answer pair data generation method
WO2021161629A1 (ja) プログラムコード自動生成システム及びプログラム
US20170178528A1 (en) Method and System for Providing Automated Localized Feedback for an Extracted Component of an Electronic Document File
WO2020080155A1 (ja) 技術名・サービス名生成装置とその方法
US20210263960A1 (en) Information processing device, information processing system, and non-transitory recording medium
WO2023223904A1 (ja) データ収集装置、学習装置、およびデータ収集方法
JP6772734B2 (ja) 言語処理システム、言語処理装置、言語処理プログラム及び言語処理方法
US20200395004A1 (en) Computer System, Model Generation Method, and Computer Readable Recording Medium
JP2023169843A (ja) データ収集装置、学習装置、予測装置、データ収集方法、およびプログラム
JP2023078406A (ja) 資料作成装置、資料作成方法及びプログラム
US20180307669A1 (en) Information processing apparatus
US11842165B2 (en) Context-based image tag translation
JP6585288B2 (ja) 知識構築活用システムおよびプログラム
US20200272393A1 (en) Information processing system and non-transitory computer readable medium
JP7510289B2 (ja) 契約書処理装置、契約書処理方法、およびプログラム
JP6626029B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2019144684A (ja) 情報処理システム及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23807508

Country of ref document: EP

Kind code of ref document: A1