WO2023026367A1 - 学習データ選別装置、学習データ選別方法、及びプログラム - Google Patents

学習データ選別装置、学習データ選別方法、及びプログラム Download PDF

Info

Publication number
WO2023026367A1
WO2023026367A1 PCT/JP2021/031018 JP2021031018W WO2023026367A1 WO 2023026367 A1 WO2023026367 A1 WO 2023026367A1 JP 2021031018 W JP2021031018 W JP 2021031018W WO 2023026367 A1 WO2023026367 A1 WO 2023026367A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
unit
file
learning
user
Prior art date
Application number
PCT/JP2021/031018
Other languages
English (en)
French (fr)
Inventor
功大 山根
Original Assignee
株式会社Pfu
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Pfu filed Critical 株式会社Pfu
Priority to JP2023543526A priority Critical patent/JPWO2023026367A1/ja
Priority to PCT/JP2021/031018 priority patent/WO2023026367A1/ja
Publication of WO2023026367A1 publication Critical patent/WO2023026367A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a learning data selection device, a learning data selection method, and a program.
  • the evaluation data set is used to evaluate the determination performance of the first discriminator before re-learning or additional learning and the second discriminator after re-learning or additional learning, and the evaluation Based on the result of (1), it is determined whether or not the determination performance of the second discriminator is worse than that of the first discriminator. Then, when the determination performance of the second discriminator deteriorates compared to the first discriminator, the inspection system uses the first discriminator without using the second discriminator to improve the quality of the product.
  • a pass/fail inspection system is disclosed.
  • classification model holding means 22 for arranging a plurality of trained classification models to be used in the user environment 2
  • model distribution means 26 for distributing the classification models to the user environment 2, and transmission from the user environment 2
  • a classification result holding means 23 that classifies the labeled data as input and holds the classification results including the classification accuracy and accuracy rate for each input data, and based on the classification results for each classification model
  • a machine learning data collection system 3 includes an optimal model recommendation means 21 that presents an appropriate classification model based on the input data, and a teacher data recording means 28 that records input data as teacher or test data for the classification model.
  • Patent Document 3 discloses a training data collection device for collecting data related to a specific field for use as training data for machine learning.
  • a feature calculation unit that calculates a certain first feature vector
  • a generation unit that generates search conditions used for collecting data related to the specific field from the first feature vector; and based on the generated search conditions: second, when the collecting unit for collecting data related to the specific field and the characteristic calculating unit calculates a second characteristic vector that is a characteristic vector of the collected data, the second characteristic vector and the first characteristic
  • a training data collection device comprising a similarity calculation unit that calculates a degree of similarity to a vector, and an extraction unit that extracts the collected data whose similarity is within a predetermined range as the training data.
  • the purpose is to provide a learning data selection device that suppresses the mixing of inappropriate learning data.
  • a learning data selection device includes a file acquisition unit that acquires a data file, an operation specification unit that specifies a user operation on the data file acquired by the file acquisition unit, and a user operation specified by the operation specification unit. a determination unit that determines whether or not to adopt the data file acquired by the file acquisition unit as learning data for machine learning based on a user's operation.
  • the system further includes a user evaluation unit that evaluates the reliability of each user based on the operation history of each user, and the determination unit evaluates the user's operation identified by the operation identification unit and the user evaluation. Based on the user's reliability evaluated by the department, it is determined whether or not to employ the data file as learning data.
  • a user evaluation unit that evaluates the reliability of each user based on the operation history of each user, and the determination unit evaluates the user's operation identified by the operation identification unit and the user evaluation. Based on the user's reliability evaluated by the department, it is determined whether or not to employ the data file as learning data.
  • the operation specifying unit determines whether or not an operation for instructing continuous scanning processing has been performed at the time of generating the data file acquired by the file acquiring unit, and performs the operation specifying unit.
  • a commonality evaluation unit that evaluates the commonality of a plurality of data files generated by the multiple scan processing when the unit determines that an operation instructing continuous multiple scan processing has been performed; Further, the determination unit determines whether or not to adopt the data file as learning data based on the commonality evaluation result by the commonality evaluation unit.
  • the operation specifying unit specifies a user's setting operation at the time of file generation of the data file acquired by the file acquiring unit, and the determination unit specifies the user's setting operation specified by the operation specifying unit. Based on, it is determined whether or not to adopt the data file as learning data.
  • the file acquisition unit acquires a data file containing image data as the data file
  • the determination unit stores learning data related to orientation determination processing for determining the orientation of an image included in the data file. decision to accept or reject
  • the determination unit determines whether or not to adopt the data file as learning data based on an operation to view or modify an image included in the data file, and the determination unit adopts the data as learning data.
  • the apparatus further includes a learning unit that performs machine learning on orientation determination processing using the feature amount of the obtained data file.
  • the commonality evaluation unit determines whether or not the orientations of the images included in the plurality of data files match, and the determination unit determines whether the orientations of the images match by the commonality evaluation unit.
  • the apparatus further includes a learning unit that adopts the data file determined to be correct as learning data, and performs machine learning on orientation determination processing using the feature amount of the data file adopted as learning data by the determination unit.
  • the operation identifying unit identifies a setting operation related to the automatic correction processing of the data file, and the determining unit determines, when the operation identifying unit identifies a setting operation for invalidating the automatic correction processing. , the data file is adopted as learning data.
  • the operation specifying unit specifies a setting operation related to the orientation correction processing of the data file
  • the determination unit determines, when the operation specifying unit specifies a setting operation for invalidating the orientation correction processing.
  • a learning unit that employs the data file as learning data and performs machine learning on orientation determination processing using the feature amount of the data file that is employed as learning data by the determination unit.
  • a learning data selection method includes a file acquisition step of acquiring a data file, an operation specifying step of specifying a user's operation on the data file acquired by the file acquiring step, and the operation specifying step. and a determination step of determining whether or not to employ the data file acquired in the file acquisition step as learning data for machine learning, based on the received user operation.
  • a program includes a file obtaining step of obtaining a data file, an operation identifying step of identifying a user's operation on the data file obtained by the file obtaining step, and a user identified by the operation identifying step. and a determination step of determining whether or not to employ the data file acquired by the file acquisition step as learning data for machine learning, based on the operation of .
  • FIG. 1 is a diagram illustrating the overall configuration of an image processing system 1;
  • FIG. FIG. 10 is a diagram illustrating learning data for orientation determination processing;
  • 2 is a diagram illustrating a hardware configuration of an image processing server 2;
  • FIG. 2 is a diagram illustrating a functional configuration of an image processing server 2;
  • FIG. 4 is a diagram exemplifying an image information table of a data file stored in the image processing server 2;
  • FIG. FIG. 11 is a diagram illustrating an example of a viewing and editing screen provided by a service providing unit 345;
  • FIG. 4 is a flowchart for explaining learning processing (S10) of the image processing server 2;
  • FIG. 8 is a flowchart for explaining in more detail the acceptance/rejection determination process (S20) of FIG. 7;
  • FIG. 1 is a diagram illustrating the overall configuration of an image processing system 1.
  • the image processing system 1 includes an image processing server 2, a scanner 4, and a user terminal 6, which are interconnected via the Internet 7.
  • the image processing server 2 is, for example, a computer terminal, and performs image processing on image files received from the scanner 4 .
  • the image processing server 2 is an example of a learning data selection device according to the present invention.
  • the scanner 4 is an image reading device that optically reads image data from a document (image display medium). Send.
  • scanner 4 is a network scanner and connects directly to a network such as Internet 7 .
  • the user terminal 6 is a computer terminal operated by a user, and performs browsing and editing of image data managed by the image processing server 2 .
  • the user terminal 6 is, for example, a mobile terminal such as a smart phone or a tablet terminal.
  • the Internet 7 is, for example, an Internet network.
  • An image file may be transmitted/received through a connection, or an image file may be transmitted/received via a restricted network such as a LAN (Local Area Network).
  • the image processing server 2 may be built in the scanner 4 .
  • learning data refers to information as illustrated in FIG.
  • the useful learning data corresponds to the following (data example 1) and (data example 2), and the other data corresponds to (data example 3).
  • the image processing system 1 of the present embodiment focusing on the user's operation on the data file, it is determined whether or not the data is useful learning data.
  • the user's operation on the data file is, for example, the operation performed by the user when generating the data file, the operation performed by the user when viewing or editing the data file, etc.
  • the operation performed by the user on the scanner 4 is and an image viewing or editing operation performed by the user on the user terminal 6 .
  • a specific example will be described in which a machine learning model is used to determine the orientation of an image.
  • FIG. 3 is a diagram illustrating the hardware configuration of the image processing server 2.
  • the image processing server 2 has a CPU 200, a memory 202, an HDD 204, a network interface 206 (network IF 206), a display device 208, and an input device 210. These components are connected via a bus 212. connected to each other.
  • CPU 200 is, for example, a central processing unit.
  • the memory 202 is, for example, a volatile memory and functions as a main memory.
  • the HDD 204 is, for example, a hard disk drive device, and stores computer programs (eg, the image processing program 3 in FIG. 4) and other data files as a non-volatile recording device.
  • the network IF 206 is an interface for wired or wireless communication, and realizes communication with the scanner 4 and the user terminal 6, for example.
  • the display device 208 is, for example, a liquid crystal display.
  • Input device 210 is, for example, a keyboard and mouse.
  • FIG. 4 is a diagram illustrating the functional configuration of the image processing server 2.
  • an image processing program 3 is installed and operates in the image processing server 2 of this example.
  • the image processing program 3 is stored in a recording medium such as a CD-ROM, for example, and installed in the image processing server 2 via this recording medium.
  • the image processing program 3 includes a file acquisition unit 300, an operation identification unit 305, a user evaluation unit 310, an orientation determination unit 315, an automatic correction unit 320, a commonality evaluation unit 325, an adoption determination unit 330, a feature amount extraction unit 335, and a learning unit. 340 and a service providing unit 345 .
  • image processing server 2 data files (image files) received from the scanner 4 and operation histories for the data files are accumulated and managed as an image information table (described later with reference to FIG. 5).
  • image processing program 3 may be realized by hardware such as ASIC, or may be realized by partially borrowing functions of an OS (Operating System).
  • the file acquisition unit 300 acquires data files as learning data candidates.
  • the file acquisition unit 300 of this example acquires a data file containing image data generated by the scanner 4 via the Internet 7 .
  • the acquired data file is stored in the image processing server 2 .
  • the operation specifying unit 305 specifies user operations on the data file acquired by the file acquiring unit 300 .
  • the operation identifying unit 305 identifies a user's operation when generating a data file or a user's operation when viewing/editing a data file with respect to the data file acquired by the file acquisition unit 300 .
  • the operation specifying unit 305 in this example performs setting operations and the number of originals to be set for the scanner 4 at the time of data file generation, or access to the user terminal 5 at the time of data file viewing/editing. Identify operations and image editing operations.
  • the user's operations specified by the operation specifying unit 305 are stored in the image processing server 2 as an operation history.
  • User evaluation unit 310 evaluates the reliability of each user based on the operation history of each user.
  • the operation history for evaluating user reliability includes, for example, the number of times images were viewed, the ratio of the number of images viewed to the number of scanned images, the number of times the orientation of images was manually corrected, and the orientation relative to the number of scanned images.
  • the user evaluation unit 310 of this example multiplies the number of images or the ratio by a predetermined weighting factor, and evaluates the reliability of the user based on the total value.
  • the orientation determination unit 315 determines the orientation of the image in the data file acquired by the file acquisition unit 300 .
  • the orientation determination unit 315 of this example uses the machine learning model improved by the learning unit 340 to determine the orientation of the image. Inputs to the machine learning model are the number of character strings in each region of the image (upper left, upper right, lower left and lower right) and blank positions, as illustrated in FIG.
  • the automatic correction unit 320 automatically performs correction processing on the data file acquired by the file acquisition unit 300.
  • the automatic correction unit 320 performs image orientation correction processing, image quality correction processing, blank page removal processing, and crop processing on the data file acquired by the file acquisition unit 300 according to the setting operation for the scanner 4. conduct. That is, the automatic correction unit 320 can switch between application/non-application of these automatic correction processes according to the user's setting operation.
  • the commonality evaluation unit 325 determines that an operation of instructing continuous multiple scan processing (an operation of setting a plurality of originals on the original platen of the scanner 4 and scanning these originals in one batch) has been performed. If so, the commonality of the multiple data files generated by this multiple scanning process is evaluated. In general, there are many cases where documents scanned in one batch are oriented in the same direction. Therefore, if the data is scanned in one batch and the data files have a high degree of commonality, it is determined that the data is useful learning data regardless of whether or not the user is viewing it.
  • the commonality evaluation unit 325 of this example determines whether or not the orientations of images included in a plurality of data files generated by one batch of scanning match based on the determination result of the orientation determination unit 315 .
  • the adoption determining unit 330 determines whether or not to adopt the data file acquired by the file acquiring unit 300 as learning data for machine learning.
  • the acceptance/rejection determination unit 330 is an example of a determination unit according to the present invention. For example, the acceptance/rejection determination unit 330 determines whether or not to adopt the data file as learning data based on the user's viewing operation or modification operation on the image specified by the operation specifying unit 305 and the evaluation result by the user evaluation unit 310. judge. In other words, it is assumed that the user has corrected images from the user terminal 6 (a highly reliable user), and that the user has confirmed the correct orientation of the image viewed by the user on the user terminal 6. Judged as useful learning data.
  • the acceptance/rejection determining unit 330 also selects data for which the operation specifying unit 305 has specified that a plurality of documents have been scanned in one batch, and for which the commonality evaluating unit 325 has determined that the orientations of the images match. Adopt files as training data. In this example, since the same document ID is assigned to the data files read in one batch, the acceptance/rejection determination unit 330 determines the determination result of the orientation determination unit 315 for the data files assigned the same document ID. By comparing the (orientation), it is possible to decide whether or not to adopt as learning data.
  • the adoption determination unit 330 adopts the data file as learning data.
  • the adoption determination unit 330 of this example adopts the data file generated by scanning this setting as the learning data.
  • a data file scanned by the user with the automatic orientation correction scan setting disabled is highly likely to be fed in the correct orientation by the user and scanned, and can be judged to be useful learning data regardless of whether the user views it. .
  • the feature amount extraction unit 335 extracts feature amounts to be used as learning data from the data files adopted as learning data by the adoption determination unit 330 .
  • the feature amount extraction unit 335 of this example extracts the number of character strings and blank positions in each region (upper left, upper right, lower left, lower right) of the image.
  • the learning unit 340 uses the feature amount of the data file adopted as the learning data by the acceptance/rejection determination unit 330 to perform machine learning on orientation determination processing.
  • the learning unit 340 of this example generates a machine learning model for orientation determination processing based on the feature amount extracted by the feature amount extraction unit 335 and the orientation of the image.
  • the service providing unit 345 displays or edits the data file in accordance with the user's viewing or editing operation on the data file acquired by the file acquisition unit 300 .
  • the service providing unit 345 of this example provides viewing or editing of image files as a web service in response to a request from the user terminal 6 .
  • Editing functions provided to the user by the service providing unit 345 include a "tilt correction” function and a “trimming” function in addition to the image orientation correction function.
  • the "Skew correction” function is used to correct the tilt (misalignment) of several degrees that occurs when scanning a document, and the "Trimming" function is used to cut out part of an image. be. When using these functions, it is assumed that the user confirms the orientation of the image at least, and is added to the feature candidates.
  • FIG. 5 is a diagram exemplifying an image information table of a data file saved in the image processing server 2.
  • the image information table contains a user ID that identifies a user, a document ID that identifies a bundle of originals (that is, a batch), an image ID that identifies an image file, information indicating details of manual correction, Information indicating the orientation of the image, information indicating the content of automatic orientation correction, information indicating the viewing history of the image, and setting information indicating settings at the time of scanning are registered.
  • the image processing server 2 registers the user ID, document ID, image ID, and setting information in the image information table, and When orientation determination processing is performed on the file, the result of orientation determination is added, and when the user browses, corrects the orientation, or manually corrects this data file, the image information table is updated according to those user operations. Update. Information indicating the content of manual correction is, for example, "-1: uncorrected, 0: direction, 1: deleted, 2: others".
  • the information indicating the orientation of the image is information indicating the determination result by the orientation determination unit 315, and is, for example, "-1: undeterminable, 0: 0 degrees, 1: 90 degrees, 2: 180 degrees, 3: 270 degrees, 99: Undetermined.
  • the information indicating the content of automatic orientation correction is information indicating the content of image orientation correction by the automatic correction unit 320. For example, "-1: uncorrected, 0: 0 degrees, 1: 90 degrees, 2: 180 degrees, 3: 270 degrees.
  • the information indicating the viewing history of images is, for example, "0: unviewed, 1: viewed”.
  • the setting information indicating the setting at the time of scanning is, for example, the difference from the default setting, and is information indicating the contents of the setting changed by the user.
  • FIG. 6 is a diagram illustrating an example of a browsing/editing screen provided by the service providing unit 345 and explaining a method of updating browsing histories and the like.
  • the service providing unit 345 causes the user terminal 6 to display a preview screen of an image (each page), and the operation specifying unit 305 displays the image when the image is read. It is determined that the image has been viewed, and the "browsing history" information in the image information table (Fig. 5) is updated. At this time, the image of the page that is not displayed on the screen of the user terminal 6 is not read by the service providing unit 345, thereby increasing the certainty that the user has confirmed.
  • the operation specifying unit 305 updates the “manual correction” information in the image information table of FIG.
  • the operation specifying unit 305 also updates the “orientation correction” information.
  • this "orientation correction” information is not used for judging the usefulness of the data, but is used for the correct label. That is, the image processing server 2 reads the image file when the viewer is activated by the user terminal 6, and updates the "browsing history” information for the read image file. Thereafter, when manual correction is performed by user operation, the image processing server 2 updates the "manual correction” information. Each time a new page is displayed on the application by scrolling, the image processing server 2 repeats the above process.
  • FIG. 7 is a flowchart for explaining the learning process (S10) of the image processing server 2.
  • the learning process (S10) is performed periodically (once every two weeks), and it is assumed that the stored image files are periodically deleted. By doing so, duplication of learning data to be passed to the learning unit 340 can be avoided.
  • the file acquisition unit 300 (FIG. 4) of the image processing server 2 reads image files (data files) read by the scanner 4 in order.
  • the operation specifying unit 305 refers to the image information table (FIG. 5) for the image file read by the file acquisition unit 300, and specifies the user's operation for this image file.
  • the user evaluation unit 310 refers to the image information table to identify the user associated with this image file, and evaluates the reliability of the user based on the identified user's operation history. do.
  • step 20 the acceptance/rejection determination unit 330 reads the file read by the file acquisition unit 300 based on the user's operation identified by the operation identification unit 305 and the user's reliability evaluated by the user evaluation unit 310 . It is determined whether or not to adopt the image file obtained as learning data.
  • step 115 the image processing program 3 proceeds to the process of S120 when the acceptance/rejection determination unit 330 adopts the data as learning data. The process proceeds to S130.
  • the feature amount extraction unit 335 extracts feature amounts from the image file read by the file acquisition unit 300 .
  • the feature amount extraction unit 335 outputs the extracted feature amount and the correct label (orientation of the image) to the learning unit 340 as learning data.
  • the file acquisition unit 300 deletes the read image file.
  • the image processing program 3 determines whether or not all the stored image files have been processed. , if an unprocessed image file exists, the process returns to S100 to read the next image file.
  • the learning unit 340 uses the learning data input from the feature amount extraction unit 335 to generate a machine learning model for orientation determination processing.
  • FIG. 8 is a flowchart for explaining in more detail the acceptance/rejection determination process (S20) of FIG.
  • the acceptance/rejection determination unit 330 refers to the image information table (FIG. 5), and selects one batch of scanned image files from the read image file. It is determined whether or not This determination is made based on whether or not there is another image ID assigned the same document ID in the image information table.
  • the image processing program 3 proceeds to the process of S205 if the acceptance/rejection determination unit 330 determines that the file is one of a plurality of scanned image files of one batch, otherwise proceeds to the process of S210. Transition.
  • the commonality evaluation unit 325 compares a plurality of image files scanned in one batch and determines whether or not the orientations of the images match. Whether or not the orientations of the images match can be determined by referring to "orientation" in the image information table (FIG. 5).
  • the image processing program 3 proceeds to the process of S225 when the commonality evaluation unit 325 determines that the orientations of the images match, and proceeds to S210 when it determines that the orientations of the images do not match. to process.
  • the acceptance/rejection determination unit 330 determines whether or not the reliability evaluation value by the user evaluation unit 310 is less than the reference value.
  • the image processing program 3 proceeds to the process of S230, and determines that the reliability evaluation value is equal to or greater than the reference value. If so, the process proceeds to S215.
  • the acceptance/rejection determination unit 330 determines whether or not the read image file has been viewed or edited by the user.
  • the image processing program 3 proceeds to the process of S225 when the acceptance/rejection determination unit 330 determines that there has been browsing or editing, and proceeds to the process of S220 when it is determined that there has been no browsing or editing.
  • the acceptance/rejection determination unit 330 refers to the image information table (FIG. 5) and determines whether or not automatic orientation correction has been disabled in the scanner 4 settings. Determination of disabling automatic orientation correction may refer to setting information or “orientation” information.
  • the image processing program 3 proceeds to the process of S225 when the acceptance/rejection determination unit 330 determines that the automatic orientation correction has been disabled, and proceeds to the process of S230 when it is determined that the automatic orientation correction has been enabled. transition to If the user intentionally disables the automatic orientation correction, it is judged to be highly useful. Useful learning data is determined by
  • the adoption determination unit 330 determines to adopt the read image file as learning data. That is, the acceptance/rejection determination unit 330 determines whether the image files are image files scanned in one batch and the orientation determination results all match, or when the image files have been viewed or edited by a highly reliable user, or , is adopted as training data when automatic orientation correction is disabled by a user with high reliability.
  • the acceptance/rejection determination unit 330 determines to reject the read image file as learning data.
  • image files that are useful as learning data for orientation determination processing can be selected based on user operations.
  • stable learning becomes possible, and orientation determination accuracy can be improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

不適切な学習データの混入を抑制する学習データ選別装置を提供する。 学習データ選別装置は、データファイルを取得するファイル取得部と、前記ファイル取得部により取得されたデータファイルに対するユーザの操作を特定する操作特定部と、前記操作特定部により特定されたユーザの操作に基づいて、前記ファイル取得部により取得されたデータファイルを機械学習の学習データとして採用するか否かを判定する判定部とを有する。

Description

学習データ選別装置、学習データ選別方法、及びプログラム
 本発明は、学習データ選別装置、学習データ選別方法、及びプログラムに関する。
 例えば、特許文献1には、評価用データセットを利用して、再学習又は追加学習前の第1識別器、及び再学習又は追加学習後の第2識別器の判定性能を評価し、その評価の結果に基づいて、第2識別器の判定性能が第1識別器と比べて悪化しているか否かを判定する。そして、検査システムは、第2識別器の判定性能が第1識別器と比べて悪化してしまった場合に、第2識別器を利用せずに、第1識別器を利用して、製品の良否を判定する検査システムが開示されている。
 また、特許文献2には、ユーザ環境2において使用する複数の学習済み分類モデルを配置する分類モデル保持手段22と、分類モデルをユーザ環境2に配信するモデル配信手段26と、ユーザ環境2から送信されたラベル付のデータを入力として分類を行い、入力データごとの分類正否、正解率を含む分類結果を保持する分類結果保持手段23と、分類モデルごとの分類結果に基づいて、入力データに対して適切な分類モデルを提示する最適モデル推奨手段21と、入力データを、分類モデルの教師またはテストデータとして記録する教師データ記録手段28とを備える機械学習用データ収集システム3が開示されている。
 また、特許文献3には、機械学習の教師データとして用いるための、特定の分野に関するデータを収集する教師データ収集装置であって、予め登録しておいた特定の分野に関する参照データの特徴ベクトルである第1の特徴ベクトルを算出する特徴算出部と、前記第1の特徴ベクトルから、前記特定の分野に関するデータの収集に用いる検索条件を生成する生成部と、生成された前記検索条件をもとに、前記特定の分野に関するデータを収集する収集部と、収集した前記データの特徴ベクトルである第2の特徴ベクトルを前記特徴算出部が算出すると、該第2の特徴ベクトルと前記第1の特徴ベクトルとの類似度を算出する類似度算出部と、前記類似度が所定の範囲内にある収集した前記データを前記教師データとして抽出する抽出部と、を備える教師データ収集装置が開示されている。
特開2019-158684 特開2020-194355 特開2018-124617
 不適切な学習データの混入を抑制する学習データ選別装置を提供することを目的とする。
 本発明に係る学習データ選別装置は、データファイルを取得するファイル取得部と、前記ファイル取得部により取得されたデータファイルに対するユーザの操作を特定する操作特定部と、前記操作特定部により特定されたユーザの操作に基づいて、前記ファイル取得部により取得されたデータファイルを機械学習の学習データとして採用するか否かを判定する判定部とを有する。
 好適には、各ユーザの操作履歴に基づいて、各ユーザの信頼性を評価するユーザ評価部をさらに有し、前記判定部は、前記操作特定部により特定されたユーザの操作と、前記ユーザ評価部により評価されたユーザの信頼性とに基づいて、前記データファイルを学習データとして採用するか否かを判定する。
 好適には、前記操作特定部は、前記ファイル取得部により取得されたデータファイルの生成時において、連続的な複数回のスキャン処理を指示する操作が行われたか否かを判定し、前記操作特定部により、連続的な複数回のスキャン処理を指示する操作が行われたと判定された場合に、この複数回のスキャン処理により生成された複数のデータファイルの共通性を評価する共通性評価部をさらに有し、前記判定部は、前記共通性評価部による共通性の評価結果に基づいて、前記データファイルを学習データとして採用するか否かを判定する。
 好適には、前記操作特定部は、前記ファイル取得部により取得されたデータファイルのファイル生成時におけるユーザの設定操作を特定し、前記判定部は、前記操作特定部により特定されたユーザの設定操作に基づいて、前記データファイルを学習データとして採用するか否かを判定する。
 好適には、前記ファイル取得部は、前記データファイルとして、画像データが含まれたデータファイルを取得し、前記判定部は、前記データファイルに含まれる画像の向きを判定する向き判定処理に関する学習データの採否を決定する。
 好適には、前記判定部は、前記データファイルに含まれる画像に対する閲覧操作又は修正操作に基づいて、このデータファイルを学習データとして採用するか否かを判定し、前記判定部により学習データとして採用されたデータファイルの特徴量を用いて、向き判定処理に関する機械学習を行う学習部をさらに有する。
 好適には、前記共通性評価部は、前記複数のデータファイルに含まれる画像の向きが一致しているか否かを判定し、前記判定部は、前記共通性評価部により画像の向きが一致していると判定されたデータファイルを学習データとして採用し、前記判定部により学習データとして採用されたデータファイルの特徴量を用いて、向き判定処理に関する機械学習を行う学習部をさらに有する。
 好適には、前記操作特定部は、前記データファイルの自動補正処理に関する設定操作を特定し、前記判定部は、前記操作特定部により前記自動補正処理を無効化する設定操作が特定された場合に、前記データファイルを学習データとして採用する。
 好適には、前記操作特定部は、前記データファイルの向き補正処理に関する設定操作を特定し、前記判定部は、前記操作特定部により前記向き補正処理を無効化する設定操作が特定された場合に、前記データファイルを学習データとして採用し、前記判定部により学習データとして採用されたデータファイルの特徴量を用いて、向き判定処理に関する機械学習を行う学習部をさらに有する。
 また、本発明に係る学習データ選別方法は、データファイルを取得するファイル取得ステップと、前記ファイル取得ステップにより取得されたデータファイルに対するユーザの操作を特定する操作特定ステップと、前記操作特定ステップにより特定されたユーザの操作に基づいて、前記ファイル取得ステップにより取得されたデータファイルを機械学習の学習データとして採用するか否かを判定する判定ステップとを有する。
 また、本発明に係るプログラムは、データファイルを取得するファイル取得ステップと、前記ファイル取得ステップにより取得されたデータファイルに対するユーザの操作を特定する操作特定ステップと、前記操作特定ステップにより特定されたユーザの操作に基づいて、前記ファイル取得ステップにより取得されたデータファイルを機械学習の学習データとして採用するか否かを判定する判定ステップとをコンピュータに実行させる。
 不適切な学習データの混入を抑制する学習データ選別装置を提供できる。
画像処理システム1の全体構成を例示する図である。 向き判定処理の学習データを例示する図である。 画像処理サーバ2のハードウェア構成を例示する図である。 画像処理サーバ2の機能構成を例示する図である。 画像処理サーバ2に保存されるデータファイルの画像情報テーブルを例示する図である。 サービス提供部345により提供される閲覧編集画面を例示する図である。 画像処理サーバ2の学習処理(S10)を説明するフローチャートである。 図7の採否判定処理(S20)をより詳細に説明するフローチャートである。
 以下、本発明の実施形態を、図面を参照して説明する。
 図1は、画像処理システム1の全体構成を例示する図である。
 図1に例示するように、画像処理システム1は、画像処理サーバ2と、スキャナ4と、ユーザ端末6とを含み、これらはインターネット7を介して互いに接続している。
 画像処理サーバ2は、例えば、コンピュータ端末であり、スキャナ4から受信した画像ファイルに対して画像処理を施す。画像処理サーバ2は、本発明に係る学習データ選別装置の一例である。
 スキャナ4は、原稿(画像表示媒体)から光学的に画像データを読み取る画像読取装置であり、例えば、読み取られた画像データのデータファイル(画像ファイル)を、インターネット7を介して画像処理サーバ2に送信する。例えば、スキャナ4は、ネットワークスキャナであり、インターネット7などのネットワークに直接接続する。
 ユーザ端末6は、ユーザが操作するコンピュータ端末であり、画像処理サーバ2で管理されている画像データの閲覧及び編集を行う。ユーザ端末6は、例えば、スマートフォンやタブレット端末などのモバイル端末である。
 インターネット7は、例えば、インターネット網である。なお、本例では、インターネット7を介して、スキャナ4から画像処理サーバ2に画像データを送信する形態を具体例として説明するが、これに限定されるものではなく、例えば、USBケーブルなどの有線接続により画像ファイルを送受信してもよいし、LAN(Local Area Network)などの制限されたネットワークを介して画像ファイルを送受信してもよい。
 また、画像処理サーバ2がスキャナ4に内蔵されていてもよい。
 次に、本発明がなされた背景を説明する。
 近年、機械学習(特に深層学習)の技術発展に伴い、大量のデータを学習することによって画像処理精度を向上する取り組みが一般的になってきている。一例として、CNN(Convolutional Neural Network)と呼ばれる手法で様々な形状パターンの文字画像を学習することで、文字の正しい向きを判別することで画像の向き補正を実現している。
 しかし、機械学習では、正しい正解ラベルの付いた学習データ(以降、有用な学習データ)が重要であり、間違った正解ラベルの付いた学習データが混在すると精度が上がらないが、大量のデータを収集して手作業/目視で正しい正解ラベルを付与するのは大きな労力を要する。またユーザのスキャンされた画像や向き判定結果を利用することでデータ収集を効率化することは可能であるが、プライバシー保護のためユーザのデータを目視で閲覧することはできない。
 このため、人手によらずかつ画像を閲覧することなく有用な学習データを選別する技術が必要とされている。
 例えば、学習データとは、図2に例示するような情報を指す。原稿特徴を示す説明変数が複数存在し、その説明変数に紐づく正解ラベル(今回は「向き」)がセットになったものである。
 このような学習データを収集する際に、以下の課題が存在する。
 クラウドやローカルから取得したデータファイルから有用な学習データを選別することが困難である。すなわち、取得したデータの中には、有用な学習データ以外も含まれる。
 ここで、有用な学習データとは、下記の(データ例1)及び(データ例2)が該当し、それ以外のデータは(データ例3)が該当する。
(データ例1)画像の向きが正しい向きに修正されたデータ(修正データ)
(データ例2)正しい向きであるため、画像の向きが修正されていないデータ(非修正データ)
(データ例3)画像の向きが間違ったまま向きが修正されていないデータ(非修正データ)
 非修正データが(データ例2)であるか(データ例3)であるかを判断する際に、以下の理由により目視で判断することができない。
・開発者は規約上、個人情報が含まれる画像を閲覧できないため
・画像の規模数が大きく、選別作業が困難であるため
 機械学習の際に、(データ例3)が含まれると、間違った正解ラベルのまま学習するため、向き判定処理の精度が低下する。つまり、非修正データの中から(データ例2)と(データ例3)を判別することが課題として挙げられる。
 そこで、本実施形態の画像処理システム1では、データファイルに対するユーザの操作に着目して、有用な学習データであるか否かを判定する。データファイルに対するユーザの操作とは、例えば、データファイル生成時にユーザが行った操作、データファイルの閲覧時又は編集時にユーザが行った操作などであり、本例では、スキャナ4に対してユーザが行った操作や、ユーザ端末6に対してユーザが行った画像の閲覧操作又は編集操作である。なお、本実施形態では、画像の向きを判定する処理を機械学習モデルにより実現する形態を具体例として説明する。
 図3は、画像処理サーバ2のハードウェア構成を例示する図である。
 図3に例示するように、画像処理サーバ2は、CPU200、メモリ202、HDD204、ネットワークインタフェース206(ネットワークIF206)、表示装置208、及び、入力装置210を有し、これらの構成はバス212を介して互いに接続している。
 CPU200は、例えば、中央演算装置である。
 メモリ202は、例えば、揮発性メモリであり、主記憶装置として機能する。
 HDD204は、例えば、ハードディスクドライブ装置であり、不揮発性の記録装置としてコンピュータプログラム(例えば、図4の画像処理プログラム3)やその他のデータファイルを格納する。
 ネットワークIF206は、有線又は無線で通信するためのインタフェースであり、例えば、スキャナ4及びユーザ端末6との通信を実現する。
 表示装置208は、例えば、液晶ディスプレイである。
 入力装置210は、例えば、キーボード及びマウスである。
 図4は、画像処理サーバ2の機能構成を例示する図である。
 図4に例示するように、本例の画像処理サーバ2には、画像処理プログラム3がインストールされ、動作する。画像処理プログラム3は、例えば、CD-ROM等の記録媒体に格納されており、この記録媒体を介して、画像処理サーバ2にインストールされる。
 画像処理プログラム3は、ファイル取得部300、操作特定部305、ユーザ評価部310、向き判定部315、自動補正部320、共通性評価部325、採否判定部330、特徴量抽出部335、学習部340、及びサービス提供部345を有する。
 また、画像処理サーバ2には、スキャナ4から受信したデータファイル(画像ファイル)と、データファイルに対する操作履歴が蓄積され、画像情報テーブル(図5を参照して後述)として管理される。
 なお、画像処理プログラム3の一部又は全部は、ASICなどのハードウェアにより実現されてもよく、また、OS(Operating System)の機能を一部借用して実現されてもよい。
 画像処理プログラム3において、ファイル取得部300は、データファイルを学習データの候補として取得する。本例のファイル取得部300は、スキャナ4により生成された画像データが含まれたデータファイルをインターネット7経由で取得する。取得されたデータファイルは、画像処理サーバ2に保存される。
 操作特定部305は、ファイル取得部300により取得されたデータファイルに対するユーザの操作を特定する。例えば、操作特定部305は、ファイル取得部300により取得されたデータファイルに関して、データファイル生成時のユーザの操作、又は、データファイル閲覧/編集時のユーザの操作を特定する。本例の操作特定部305は、ファイル取得部300により取得されたデータファイルに関して、データファイル生成時におけるスキャナ4に対する設定操作や原稿セット枚数、又は、データファイル閲覧/編集時におけるユーザ端末5に対する閲覧操作や画像編集操作を特定する。操作特定部305により特定されたユーザの操作は、操作履歴として画像処理サーバ2に保存される。
 ユーザ評価部310は、各ユーザの操作履歴に基づいて、各ユーザの信頼性を評価する。ユーザの信頼性を評価するための操作履歴とは、例えば、画像を閲覧した回数、スキャンした画像数に対する閲覧した画像数の割合、画像の向きを手動で修正した回数、スキャンした画像数に対する向き手動修正の割合、画像の向き以外の手動修正の回数、又は、スキャンした画像数に対する向き以外を手動修正した割合などである。閲覧した画像数や割合が大きいユーザほど、画像の向きを確認している可能性が高いからである。
同様に、画像を手動修正した回数や割合が大きいユーザほど、画像の向きを確認している可能性が高いと考えられる。本例のユーザ評価部310は、上記画像数又は割合に対して、既定の重み付け係数をかけて、これらの合算値に基づいて、ユーザの信頼性を評価する。
 向き判定部315は、ファイル取得部300により取得されたデータファイルにおける画像の向きを判定する。本例の向き判定部315は、学習部340により改善された機械学習モデルを用いて、画像の向きを判定する。機械学習モデルへの入力は、図2に例示するように、画像の各領域(左上、右上、左下及び右下)の文字列数と、空白の位置である。
 自動補正部320は、ファイル取得部300により取得されたデータファイルに対して、自動的に補正処理を行う。例えば、自動補正部320は、スキャナ4に対する設定操作に応じて、ファイル取得部300により取得されたデータファイルに対して、画像の向き補正処理、画質補正処理、白紙除去処理、及び、クロップ処理を行う。すなわち、自動補正部320は、ユーザの設定操作に応じて、これらの自動補正処理の適用/非適用を切り替えることができる。
 共通性評価部325は、連続的な複数回のスキャン処理を指示する操作(スキャナ4の原稿台に複数枚の原稿がセットされ、これらの原稿を1バッチでスキャンさせる操作)が行われたと判定された場合に、この複数回のスキャン処理により生成された複数のデータファイルの共通性を評価する。一般的に、1バッチでスキャンされる原稿は向きが揃っているケースが多い。そこで、1バッチでスキャンされ、かつデータファイルの共通性が高い場合には、ユーザの閲覧有無にかかわらず、有用な学習データであると判断する。本例の共通性評価部325は、向き判定部315による判定結果に基づいて、1バッチのスキャンで生成された複数のデータファイルに含まれる画像の向きが一致しているか否かを判定する。
 採否判定部330は、操作特定部305により特定されたユーザの操作に基づいて、ファイル取得部300により取得されたデータファイルを機械学習の学習データとして採用するか否かを判定する。採否判定部330は、本発明に係る判定部の一例である。例えば、採否判定部330は、操作特定部305により特定された画像に対するユーザの閲覧操作又は修正操作と、ユーザ評価部310による評価結果とに基づいて、データファイルを学習データとして採用するか否かを判定する。すなわち、ユーザ端末6から画像の修正を実施したことのあるユーザ(信頼性の高いユーザ)であり、かつ、そのユーザがユーザ端末6で閲覧した画像は、正しい向きをユーザが確認したと考え、有用な学習データと判断する。
 また、採否判定部330は、複数枚の原稿が1バッチでスキャンされたことが操作特定部305により特定され、かつ、共通性評価部325により画像の向きが一致していると判定されたデータファイルを学習データとして採用する。本例では、1バッチで読まれたデータファイルに対して同一のドキュメントIDが付与されるため、採否判定部330は、同一のドキュメントIDが付与されたデータファイルについて、向き判定部315の判定結果(向き)を比較することにより、学習データとしての採否を決定できる。
 また、採否判定部330は、自動補正部320による自動補正処理を無効化する設定操作が操作特定部305により特定された場合に、データファイルを学習データとして採用する。本例の採否判定部330は、操作特定部305により向き補正処理を無効化する設定操作が特定された場合に、この設定のスキャンで生成されたデータファイルを学習データとして採用する。ユーザが自動向き補正のスキャン設定を無効にしてスキャンしたデータファイルは、ユーザが正しい向きで給紙してスキャンする可能性が高く、ユーザの閲覧有無にかかわらず有用な学習データであると判断できる。
 特徴量抽出部335は、採否判定部330により学習データとして採用されたデータファイルから、学習データとして用いる特徴量を抽出する。本例の特徴量抽出部335は、画像の各領域(左上、右上、左下、右下)における文字列数と、空白の位置を抽出する。
 学習部340は、採否判定部330により学習データとして採用されたデータファイルの特徴量を用いて、向き判定処理に関する機械学習を行う。本例の学習部340は、特徴量抽出部335により抽出された特徴量と、画像の向きとに基づいて、向き判定処理の機械学習モデルを生成する。
 サービス提供部345は、ファイル取得部300により取得されたデータファイルに対するユーザの閲覧操作又は編集操作に応じて、データファイルの表示又は編集を行う。本例のサービス提供部345は、ユーザ端末6からの要求に応じて、Webサービスとして、画像ファイルの閲覧又は編集を提供する。サービス提供部345がユーザに提供する編集機能には、画像の向き修正機能に加えて、「傾き補正」機能や「トリミング」機能がある。「傾き補正」機能とは、原稿をスキャンする際に生じる数度の傾き(ズレ)を修正するために用いる機能であり、「トリミング」機能とは、画像内の一部分を切り取るために用いる機能である。これらの機能を用いる際、少なからずユーザは画像の向きを確認していると仮説を立て、特徴の候補に追加している。
 図5は、画像処理サーバ2に保存されるデータファイルの画像情報テーブルを例示する図である。
 図5に例示するように、画像情報テーブルには、ユーザを特定するユーザID、原稿束(すなわち、バッチ)を特定するドキュメントID、画像ファイルを特定する画像ID、手動修正の内容を示す情報、画像の向きを示す情報、自動向き修正の内容を示す情報、画像の閲覧履歴を示す情報、及び、スキャン時の設定を示す設定情報が登録される。すなわち、画像処理サーバ2は、ファイル取得部300によりデータファイル(画像ファイル)が取得されると、画像情報テーブルに、ユーザID、ドキュメントID、画像ID、及び設定情報を登録し、取得されたデータファイルに対して向き判定処理が行われると、向き判定の結果を追記し、このデータファイルに対してユーザが閲覧、向き修正又は手動修正を行うと、それらのユーザ操作に応じて画像情報テーブルを更新する。
 手動修正の内容を示す情報は、例えば、「-1:未修正、0:向き、1:削除、2:その他」である。画像の向きを示す情報は、向き判定部315による判定結果を示す情報であり、例えば、「-1:判定不能、0:0度、1:90度、2:180度、3:270度、99:未判別」である。自動向き修正の内容を示す情報は、自動補正部320による画像向き補正の内容を示す情報であり、例えば、「-1:未修正、0:0度、1:90度、2:180度、3:270度」である。画像の閲覧履歴を示す情報は、例えば、「0:未閲覧、1:閲覧済」である。スキャン時の設定を示す設定情報は、例えば、デフォルト設定との差分であり、ユーザが設定変更した内容を示す情報である。
 図6は、サービス提供部345により提供される閲覧編集画面を例示し、閲覧履歴等の更新方法を説明する図である。
 図6に例示するように、サービス提供部345は、ユーザ端末6に対して、画像(ページ毎)のプレビュー画面を表示させ、操作特定部305は、画像が読み込まれた時点で、その画像を閲覧済と判断し、画像情報テーブル(図5)の「閲覧履歴」情報を更新する。このときユーザ端末6の画面内に表示されないページの画像は、サービス提供部345が読み込まないことで、ユーザが確認したことの確からしさを高める。
 また、ユーザがユーザ端末6で画像(ページ毎)を手動修正(向き、削除等)して保存した時点で、ユーザは画像を正しい修正操作を行ったと判断し、画像が修正・保存されたタイミングで操作特定部305は、図5の画像情報テーブルの「手動修正」情報を更新する。向きが修正された場合は、操作特定部305は「向き修正」情報も更新する。ただし、この「向き修正」情報は、データの有用性の判断には用いず、正解ラベルに用いる。
 すなわち、画像処理サーバ2は、ユーザ端末6によるビューア起動時に、画像ファイルの読み込みを行い、読み込んだ画像ファイルに対し、「閲覧履歴」情報を更新する。その後、ユーザ操作で手動修正が行われた際は、画像処理サーバ2は「手動修正」情報を更新する。スクロール動作によりアプリに新規のページが表示される度、画像処理サーバ2は上記の処理を繰り返す。
 図7は、画像処理サーバ2の学習処理(S10)を説明するフローチャートである。なお、学習処理(S10)は、定期(二週間に一度の頻度)で動作し、蓄積されている画像ファイルが定期的に削除される前提であり、画像ファイルが削除されるタイミングでデータ選別を行うことで、学習部340に渡す学習データの重複を回避できる。
 図7に例示するように、ステップ100(S100)において、画像処理サーバ2のファイル取得部300(図4)は、スキャナ4により読み取られた画像ファイル(データファイル)を順に読み込む。
 ステップ105(S105)において、操作特定部305は、ファイル取得部300により読み込まれた画像ファイルについて、画像情報テーブル(図5)を参照して、この画像ファイルに対するユーザの操作を特定する。
 ステップ110(S110)において、ユーザ評価部310は、画像情報テーブルを参照して、この画像ファイルに関連付けられたユーザを特定し、特定されたユーザの操作履歴に基づいて、ユーザの信頼性を評価する。
 ステップ20(S20)において、採否判定部330は、操作特定部305により特定されたユーザの操作と、ユーザ評価部310により評価されたユーザの信頼性とに基づいて、ファイル取得部300により読み込まれた画像ファイルを、学習データとして採用するか否かを判定する。
 ステップ115(S115)において、画像処理プログラム3は、採否判定部330により学習データとして採用した場合に、S120の処理に移行し、採否判定部330におり学習データとして不採用となった場合に、S130の処理に移行する。
 ステップ120(S120)において、特徴量抽出部335は、ファイル取得部300により読み込まれた画像ファイルから、特徴量を抽出する。
 ステップ125(S125)において、特徴量抽出部335は、抽出された特徴量と、正解ラベル(画像の向き)を学習データとして学習部340に出力する。
 ステップ130(S130)において、ファイル取得部300は、読み込んだ画像ファイルを削除する。
 ステップ135(S135)において、画像処理プログラム3は、蓄積されている画像ファイル全てについて処理を完了したか否かを判定し、全ての画像ファイルについて処理が完了した場合に、S140の処理に移行し、未処理の画像ファイルが存在する場合に、S100の処理に戻り、次の画像ファイルを読み込む。
 ステップ140(S140)において、学習部340は、特徴量抽出部335から入力された学習データを用いて、向き判定処理の機械学習モデルを生成する。
 図8は、図7の採否判定処理(S20)をより詳細に説明するフローチャートである。
 図8に示すように、ステップ200(S200)において、採否判定部330は、画像情報テーブル(図5)を参照して、読み込まれた画像ファイルが1バッチでスキャンされた複数の画像ファイルの一つであるか否かを判定する。この判定は、画像情報テーブルにおいて、同一のドキュメントIDが付与された他の画像IDが存在するか否かによって行われる。画像処理プログラム3は、採否判定部330により1バッチのスキャンされた複数の画像ファイルの一つであると判定された場合に、S205の処理に移行し、これ以外の場合に、S210の処理に移行する。
 ステップ205(S205)において、共通性評価部325は、1バッチでスキャンされた複数の画像ファイルを比較して、画像の向きが一致しているか否かを判定する。画像の向きは、画像情報テーブル(図5)の「向き」を参照することにより、一致しているか否かを判定できる。画像処理プログラム3は、共通性評価部325により画像の向きが一致していると判定された場合に、S225の処理に移行し、画像の向きが一致していないと判定された場合に、S210の処理に移行する。
 ステップ210(S210)において、採否判定部330は、ユーザ評価部310による信頼性の評価値が基準値未満であるか否かを判定する。画像処理プログラム3は、採否判定部330により信頼性の評価値が基準値未満であると判定された場合に、S230の処理に移行し、信頼性の評価値が基準値以上であると判定された場合に、S215の処理に移行する。
 ステップ215(S215)において、採否判定部330は、読み込まれた画像ファイルについてユーザの閲覧又は編集の有無を判定する。画像処理プログラム3は、採否判定部330により閲覧又は編集があったと判定された場合に、S225の処理に移行し、閲覧及び編集が無かったと判定された場合に、S220の処理に移行する。
 ステップ220(S220)において、採否判定部330は、画像情報テーブル(図5)を参照して、スキャナ4の設定において自動向き補正が無効化されていたか否かを判定する。自動向き補正無効化の判定は、設定情報を参照してもよいし、「向き」情報を参照してもよい。画像処理プログラム3は、自動向き補正が無効化されていたと採否判定部330に判定された場合に、S225の処理に移行し、自動向き補正が有効であったと判定された場合に、S230の処理に移行する。自動向き補正をユーザが意図的に無効化した場合は有用性が高いと判断するが、スキャン設定が無効であっても原稿によっては正しい向きで給紙できない場合もあるため、ユーザ信頼性も加味して有用な学習データの判断を行う。
 ステップ225(S225)において、採否判定部330は、読み込まれた画像ファイルを学習データとして採用することを決定する。すなわち、採否判定部330は、1バッチでスキャンされた画像ファイルであり、かつ、向き判定結果が全て一致している場合、信頼性の高いユーザによって閲覧又は編集された画像ファイルである場合、又は、信頼性の高いユーザによって自動向き補正が無効化された場合に、学習データとして採用する。
 ステップ230(S230)において、採否判定部330は、読み込まれた画像ファイルを学習データとして不採用とすることを決定する。
 以上説明したように、本実施形態の画像処理システム1によれば、向き判定処理の学習データとして有用な画像ファイルを、ユーザの操作に基づいて選別することができる。
 すなわち、開発者が収集した大量の画像を閲覧せず、機械学習に有用な学習データのみを選別することができる。それにより安定した学習が可能になり、向き判定精度を向上できる。
 なお、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
 1   画像処理システム
 2   画像処理サーバ
 3   画像処理プログラム
 4   スキャナ装置
 6   ユーザ端末

Claims (11)

  1.  データファイルを取得するファイル取得部と、
     前記ファイル取得部により取得されたデータファイルに対するユーザの操作を特定する操作特定部と、
     前記操作特定部により特定されたユーザの操作に基づいて、前記ファイル取得部により取得されたデータファイルを機械学習の学習データとして採用するか否かを判定する判定部と
     を有する学習データ選別装置。
  2.  各ユーザの操作履歴に基づいて、各ユーザの信頼性を評価するユーザ評価部
     をさらに有し、
     前記判定部は、前記操作特定部により特定されたユーザの操作と、前記ユーザ評価部により評価されたユーザの信頼性とに基づいて、前記データファイルを学習データとして採用するか否かを判定する
     請求項1に記載の学習データ選別装置。
  3.  前記操作特定部は、前記ファイル取得部により取得されたデータファイルの生成時において、連続的な複数回のスキャン処理を指示する操作が行われたか否かを判定し、
     前記操作特定部により、連続的な複数回のスキャン処理を指示する操作が行われたと判定された場合に、この複数回のスキャン処理により生成された複数のデータファイルの共通性を評価する共通性評価部
     をさらに有し、
     前記判定部は、前記共通性評価部による共通性の評価結果に基づいて、前記データファイルを学習データとして採用するか否かを判定する
     請求項2に記載の学習データ選別装置。
  4.  前記操作特定部は、前記ファイル取得部により取得されたデータファイルのファイル生成時におけるユーザの設定操作を特定し、
     前記判定部は、前記操作特定部により特定されたユーザの設定操作に基づいて、前記データファイルを学習データとして採用するか否かを判定する
     請求項2に記載の学習データ選別装置。
  5.  前記ファイル取得部は、前記データファイルとして、画像データが含まれたデータファイルを取得し、
     前記判定部は、前記データファイルに含まれる画像の向きを判定する向き判定処理に関する学習データの採否を決定する
     請求項4に記載の学習データ選別装置。
  6.  前記判定部は、前記データファイルに含まれる画像に対する閲覧操作又は修正操作に基づいて、このデータファイルを学習データとして採用するか否かを判定し、
     前記判定部により学習データとして採用されたデータファイルの特徴量を用いて、向き判定処理に関する機械学習を行う学習部
     をさらに有する請求項5に記載の学習データ選別装置。
  7.  前記共通性評価部は、前記複数のデータファイルに含まれる画像の向きが一致しているか否かを判定し、
     前記判定部は、前記共通性評価部により画像の向きが一致していると判定されたデータファイルを学習データとして採用し、
     前記判定部により学習データとして採用されたデータファイルの特徴量を用いて、向き判定処理に関する機械学習を行う学習部
     をさらに有する請求項3に記載の学習データ選別装置。
  8.  前記操作特定部は、前記データファイルの自動補正処理に関する設定操作を特定し、
     前記判定部は、前記操作特定部により前記自動補正処理を無効化する設定操作が特定された場合に、前記データファイルを学習データとして採用する
     請求項4に記載の学習データ選別装置。
  9.  前記操作特定部は、前記データファイルの向き補正処理に関する設定操作を特定し、
     前記判定部は、前記操作特定部により前記向き補正処理を無効化する設定操作が特定された場合に、前記データファイルを学習データとして採用し、
     前記判定部により学習データとして採用されたデータファイルの特徴量を用いて、向き判定処理に関する機械学習を行う学習部
     をさらに有する請求項8に記載の学習データ選別装置。
  10.  データファイルを取得するファイル取得ステップと、
     前記ファイル取得ステップにより取得されたデータファイルに対するユーザの操作を特定する操作特定ステップと、
     前記操作特定ステップにより特定されたユーザの操作に基づいて、前記ファイル取得ステップにより取得されたデータファイルを機械学習の学習データとして採用するか否かを判定する判定ステップと
     を有する学習データ選別方法。
  11.  データファイルを取得するファイル取得ステップと、
     前記ファイル取得ステップにより取得されたデータファイルに対するユーザの操作を特定する操作特定ステップと、
     前記操作特定ステップにより特定されたユーザの操作に基づいて、前記ファイル取得ステップにより取得されたデータファイルを機械学習の学習データとして採用するか否かを判定する判定ステップと
     をコンピュータに実行させるプログラム。
PCT/JP2021/031018 2021-08-24 2021-08-24 学習データ選別装置、学習データ選別方法、及びプログラム WO2023026367A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023543526A JPWO2023026367A1 (ja) 2021-08-24 2021-08-24
PCT/JP2021/031018 WO2023026367A1 (ja) 2021-08-24 2021-08-24 学習データ選別装置、学習データ選別方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/031018 WO2023026367A1 (ja) 2021-08-24 2021-08-24 学習データ選別装置、学習データ選別方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023026367A1 true WO2023026367A1 (ja) 2023-03-02

Family

ID=85321865

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/031018 WO2023026367A1 (ja) 2021-08-24 2021-08-24 学習データ選別装置、学習データ選別方法、及びプログラム

Country Status (2)

Country Link
JP (1) JPWO2023026367A1 (ja)
WO (1) WO2023026367A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020071271A (ja) * 2018-10-29 2020-05-07 株式会社沖データ 機械学習装置、データ処理システム、機械学習方法及びデータ処理方法
JP2020096290A (ja) * 2018-12-13 2020-06-18 セイコーエプソン株式会社 機械学習モデルの生産方法、コピー装置
JP2020112905A (ja) * 2019-01-09 2020-07-27 株式会社マーサリー 物件画像分類装置、物件画像分類方法、学習方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020071271A (ja) * 2018-10-29 2020-05-07 株式会社沖データ 機械学習装置、データ処理システム、機械学習方法及びデータ処理方法
JP2020096290A (ja) * 2018-12-13 2020-06-18 セイコーエプソン株式会社 機械学習モデルの生産方法、コピー装置
JP2020112905A (ja) * 2019-01-09 2020-07-27 株式会社マーサリー 物件画像分類装置、物件画像分類方法、学習方法およびプログラム

Also Published As

Publication number Publication date
JPWO2023026367A1 (ja) 2023-03-02

Similar Documents

Publication Publication Date Title
US20210209359A1 (en) Image processing apparatus, control method for image processing apparatus, and non-transitory storage medium
CN101178725B (zh) 用于信息检索的设备和方法
JP7013182B2 (ja) 情報処理装置、情報処理方法およびプログラム
US7627176B2 (en) Apparatus, method, and computer program for analyzing document layout
US7640269B2 (en) Image processing system and image processing method
JP5063422B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
EP2854047A1 (en) Automatic keyword tracking and association
US11907651B2 (en) Information processing apparatus, information processing method, and storage medium
US11710329B2 (en) Image processing apparatus with automated registration of previously encountered business forms, image processing method and storage medium therefor
US11503170B2 (en) Image processing apparatus, image processing method, and storage medium
US10863039B2 (en) Information processing apparatus that outputs parameter on basis of learning result
WO2023026367A1 (ja) 学習データ選別装置、学習データ選別方法、及びプログラム
JP4811133B2 (ja) 画像形成装置及び画像処理装置
JP7102284B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
US20210208845A1 (en) Information processing apparatus and non-transitory computer readable medium
JP4952079B2 (ja) 画像処理装置、方法及びプログラム
US20200250578A1 (en) Computer, method of generating learning data, and computer system
JP2020047138A (ja) 情報処理装置
JP6012700B2 (ja) 情報処理装置、情報処理方法、情報処理システム、コンピュータプログラム
KR102555733B1 (ko) 머신러닝 성능 향상을 위한 객체 관리 서버 및 그 제어방법
JP2021157322A (ja) 情報処理装置および誤り検出方法
US11587348B2 (en) Document classification system and non-transitory computer readable recording medium storing document classification program
JP2008186256A (ja) 文書処理装置、文書処理方法、コンピュータプログラム
JP2023151983A (ja) 設定情報提供装置、設定情報提供方法、及びプログラム
JP2022187945A (ja) 画像処理システム、画像処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21954982

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023543526

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE