WO2023287064A1 - 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템 - Google Patents

이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템 Download PDF

Info

Publication number
WO2023287064A1
WO2023287064A1 PCT/KR2022/009156 KR2022009156W WO2023287064A1 WO 2023287064 A1 WO2023287064 A1 WO 2023287064A1 KR 2022009156 W KR2022009156 W KR 2022009156W WO 2023287064 A1 WO2023287064 A1 WO 2023287064A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
learning
population
recognition model
abnormal
Prior art date
Application number
PCT/KR2022/009156
Other languages
English (en)
French (fr)
Inventor
채정훈
Original Assignee
(주)에이아이매틱스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)에이아이매틱스 filed Critical (주)에이아이매틱스
Priority to US18/032,694 priority Critical patent/US20230385333A1/en
Publication of WO2023287064A1 publication Critical patent/WO2023287064A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Definitions

  • the present invention relates to a learning data generation technology for machine learning, and more particularly, to a learning database construction system and method for minimizing the time and human resources required in the process of generating correct answer data.
  • Supervised learning is a method in which correct answer data (input data and a pair of corresponding labels) already exist and informs the correct answer to the learning model so that the error between the predicted value and the correct value of the learning model is minimized.
  • Unsupervised learning is a learning method in which correct answer data does not exist (only input data exists), and similarities between data and hidden characteristics are analyzed and classified.
  • Reinforcement learning is a method of learning through the process of assigning rewards and punishments to model decisions in the environment without correct answer data.
  • Supervised learning has the advantage that it is easy to learn, stable, and easy to evaluate performance compared to unsupervised learning or reinforcement learning because clear answer data already exists. However, it takes a lot of time and human resources to the extent that the process of preparing learning data occupies most of supervised learning. In addition, since the quantity and quality of learning data has a great influence on the recognition performance of the trained machine learning model, the key to supervised learning is the generation of learning data.
  • An embodiment of the present invention relates to a system and method for constructing a learning database that minimizes time and human resources required in the process of generating correct answer data.
  • An embodiment of the present invention automatically classifies abnormal data in labeled learning data using a machine learning model, automatically applies labeling to raw data using a machine learning model, and repeats this to continuously generate learning data.
  • a method for constructing a learning database using automatic detection of abnormal data and automatic labeling technology comprises independently constructing first and second recognition models for data classification by learning a labeled first learning data population. step; generating a labeled second training data population by applying the first recognition model to an unlabeled raw data population; classifying abnormal data by applying the second recognition model to the first training data population; and updating the first learning data population by refining the abnormal data in the first learning data population and adding the second learning data population.
  • Building the recognition model may include building the first recognition model and the second recognition model as one recognition model.
  • the generating of the second learning data population may include sampling and updating imbalanced data in the second learning data population based on the data distribution of the first learning data population.
  • the generating of the second training data population may include classifying abnormal data by applying the second recognition model to the second training data population, and updating a label of the abnormal data.
  • Classifying the abnormal data may include determining the abnormal data based on a loss of the recognition model.
  • Updating the first training data population may include removing the abnormal data from the first training data population or updating a label of the abnormal data.
  • the learning database construction method may further include increasing learning data by repeatedly performing construction of the recognition model, generation of the second learning data population, and updating of the first learning data population.
  • a system for constructing a learning database using automatic detection of abnormal data and automatic labeling technology learns a labeled first learning data population and independently constructs first and second recognition models for data classification.
  • Recognition model building unit an auto-labeling unit generating a labeled second learning data population by applying the first recognition model to a raw data population that is not labeled; a data classification unit to classify abnormal data by applying the second recognition model to the first training data population; and a data updating unit configured to update the first learning data population by refining the abnormal data in the first learning data population and adding the second learning data population.
  • the disclosed technology may have the following effects. However, it does not mean that a specific embodiment must include all of the following effects or only the following effects, so it should not be understood that the scope of rights of the disclosed technology is limited thereby.
  • a method and system for constructing a learning database using automatic detection and automatic labeling of abnormal data automatically classifies abnormal data in labeled learning data using a machine learning model, Labeling is automatically applied to raw data, and by repeating this, the learning data can be continuously increased.
  • a method and system for constructing a learning database using automatic detection and automatic labeling of abnormal data can apply both automatic classification and automatic labeling of abnormal data to one machine learning model, and can be applied to the distribution of existing learning data. Based on this, it is possible to extract meaningful label data from auto label data.
  • FIG. 1 is a diagram illustrating a learning database construction system according to the present invention.
  • FIG. 2 is a diagram for explaining the system configuration of the learning database construction device of FIG. 1 .
  • FIG. 3 is a diagram explaining the functional configuration of the learning database construction device of FIG. 1 .
  • FIG. 4 is a flowchart illustrating a method for constructing a learning database using automatic detection and automatic labeling of abnormal data according to the present invention.
  • FIG. 5 is a conceptual diagram illustrating an embodiment of a learning database construction method according to the present invention.
  • 6 to 9 are diagrams illustrating embodiments of specific operations of FIG. 5 .
  • first and second are used to distinguish one component from another, and the scope of rights should not be limited by these terms.
  • a first element may be termed a second element, and similarly, a second element may be termed a first element.
  • the identification code (eg, a, b, c, etc.) is used for convenience of explanation, and the identification code does not describe the order of each step, and each step clearly follows a specific order in context. Unless otherwise specified, it may occur in a different order than specified. That is, each step may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order.
  • the present invention can be implemented as computer readable code on a computer readable recording medium
  • the computer readable recording medium includes all types of recording devices storing data that can be read by a computer system.
  • Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices.
  • the computer-readable recording medium may be distributed to computer systems connected through a network, so that computer-readable codes may be stored and executed in a distributed manner.
  • FIG. 1 is a diagram illustrating a learning database construction system according to the present invention.
  • a learning database construction system 100 may be implemented by including a user terminal 110 , a learning database construction device 130 and a database 150 .
  • the user terminal 110 may correspond to a terminal device operated by a user.
  • a user may be understood as one or more users, and a plurality of users may be divided into one or more user groups.
  • Each of one or more users may correspond to one or more user terminals 110 . That is, the first user may correspond to the first user terminal, the second user may correspond to the second user terminal, ..., the nth user (where n is a natural number) may correspond to the nth user terminal.
  • the user terminal 110 may correspond to a computing device capable of performing user actions including creating, modifying, and deleting learning data.
  • the user terminal 110 may be implemented as a smart phone, laptop, or computer that is connected to and operable with the learning database construction device 130, but is not necessarily limited thereto, and is implemented with various devices including a tablet PC and the like. It can be.
  • the user terminal 110 may install and execute a dedicated program or application for interworking with the learning database building device 130 .
  • the user terminal 110 may output an image provided by the learning database construction device 130 to generate learning data, and may output label information input by the user to the learning database construction device 130. can be forwarded to This process may be performed through an interface provided through a dedicated program or application.
  • the user terminal 110 may be connected to the learning database construction device 130 through a network, and a plurality of user terminals 110 may be simultaneously connected to the learning database construction device 130 .
  • the learning database construction device 130 may be implemented as a server corresponding to a computer or program that performs the learning database construction method according to the present invention.
  • the learning database building device 130 may be connected to the user terminal 110 through a wired network or a wireless network such as Bluetooth, WiFi, LTE, etc., and may transmit and receive data with the user terminal 110 through the network. .
  • the learning database building device 130 may be implemented to operate in connection with an independent external system (not shown in FIG. 1 ) to collect learning data or provide learning data.
  • the learning database construction device 130 may be implemented as a cloud server, and may satisfy various needs of users regarding construction and utilization of a learning database through a cloud service.
  • the database 150 may correspond to a storage device for storing various information necessary for the operation of the learning database building device 130 .
  • the database 150 may store learning data populations collected from various sources or store information about a learning algorithm and learning model for building a machine learning model, but is not necessarily limited thereto, and a device for building a learning database.
  • Information collected or processed in various forms may be stored in the process of performing the learning database construction method using automatic labeling and automatic detection of abnormal data according to the present invention (130).
  • the database 150 is shown as a device independent of the learning database building device 130, but is not necessarily limited thereto, and may be included in the learning database building device 130 as a logical storage device. Of course you can.
  • FIG. 2 is a diagram for explaining the system configuration of the learning database construction device of FIG. 1 .
  • the learning database construction apparatus 130 may include a processor 210, a memory 230, a user input/output unit 250, and a network input/output unit 270.
  • the processor 210 may execute a learning database construction procedure according to an embodiment of the present invention, manage the memory 230 read or written in this process, and volatile memory and non-volatile memory in the memory 230 Synchronization time between memories can be scheduled.
  • the processor 210 can control the overall operation of the learning database building device 130, and is electrically connected to the memory 230, the user input/output unit 250, and the network input/output unit 270 to control data flow between them. can do.
  • the processor 210 may be implemented as a central processing unit (CPU) of the learning database building device 130 .
  • the memory 230 is implemented as a non-volatile memory such as a solid state disk (SSD) or a hard disk drive (HDD) and may include an auxiliary storage device used to store all data necessary for the learning database building device 130, , may include a main memory implemented as a volatile memory such as RAM (Random Access Memory).
  • the memory 230 may store a set of instructions for executing the learning database construction method according to the present invention by being executed by the electrically connected processor 210 .
  • the user input/output unit 250 includes an environment for receiving a user input and an environment for outputting specific information to the user, and includes an adapter such as a touch pad, a touch screen, an on-screen keyboard, or a pointing device. It may include devices and output devices including adapters such as monitors or touch screens.
  • the user input/output unit 250 may correspond to a computing device connected through a remote connection, and in such a case, the learning database building device 130 may be implemented as an independent server.
  • the network input/output unit 270 provides a communication environment to be connected to the user terminal 110 through a network, and includes, for example, a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN) and An adapter for communication such as a Value Added Network (VAN) may be included.
  • the network input/output unit 270 may be implemented to provide a short-range communication function such as WiFi or Bluetooth or a 4G or higher wireless communication function for wireless transmission of learning data.
  • FIG. 3 is a diagram explaining the functional configuration of the learning database construction device of FIG. 1 .
  • the learning database building device 130 includes a recognition model building unit 310, an auto-labeling unit 330, a data classifying unit 350, a data updating unit 370, and a data augmenting unit 390. And it may include a control unit (not shown in FIG. 3).
  • the recognition model builder 310 may independently build first and second recognition models for data classification by learning the labeled first training data population.
  • the recognition model may correspond to a learning model built through a machine learning algorithm including deep learning or a deep neural network.
  • the first training data population is a set of previously collected training data, and each training data may be labeled data, that is, data to which label information is assigned.
  • the first recognition model and the second recognition model may be independently built by the recognition model building unit 310, and the recognition model building unit 310 performs different learning processes on the first and second recognition models. training data can be applied.
  • the recognition model building unit 310 may build a first recognition model by learning a part of the first training data population, and build a second recognition model by learning the rest of the first training data population. there is.
  • the recognition model builder 310 may build first and second recognition models by sequentially learning randomly selected data from the first training data population.
  • the recognition model building unit 310 may divide the first learning data population into learning data and test data at a predetermined ratio, and in the process of building a recognition model with the learning data, the accuracy measured with the test data is The learning process may be repeatedly performed until a predetermined criterion is met. Thereafter, the learned recognition models may be stored and managed in the database 150 linked with the learning database building device 130 .
  • the recognition model building unit 310 may build the first recognition model and the second recognition model as one recognition model.
  • the recognition model builder 310 may basically classify and build each of the first and second recognition models according to the conditions and purpose of use of the recognition model, but build only one recognition model as needed regardless of the purpose of use. can do. That is, when only one recognition model is generated by the recognition model builder 310, the same recognition model may be integrally applied whenever model inference is required.
  • the auto-labeling performer 330 may generate a labeled second training data population by applying the first recognition model to the unlabeled raw data population.
  • the raw data population may correspond to a data set collected independently of the first training data population, which is the existing training data, and may correspond to a set of learning data to which label information is not assigned because it is not labeled. Accordingly, an operation performed by the auto-labeling performer 330 may correspond to an auto-labeling operation of automatically assigning label information to unlabeled data.
  • the first recognition model implemented as a machine learning model may receive unlabeled material as an input and generate label information as an output as a result of a propagation operation that proceeds through a predetermined network step.
  • the second learning data population generated by the auto-labeling performer 330 may correspond to a set of auto-label learning data generated by applying automatic labeling to new day data.
  • misrecognized or unrecognized error data may exist in a predetermined ratio in the second training data population generated through the auto-labeling operation.
  • the auto-labeling performer 330 may sample and update imbalanced data in the second training data population based on the data distribution of the first training data population.
  • the imbalanced data may correspond to data when data in a specific data population are not evenly distributed within a predetermined ratio. That is, the imbalanced data may correspond to data distributed at a very high rate or data distributed at a very low rate compared to other data within the data population.
  • type C data has a much lower rate than type A and B data. Since it is distributed, it may correspond to imbalanced data. Conversely, if each type of data is distributed at a ratio of 65%:20%:15%, type A data is distributed at a much higher rate than type B and C data, so it may correspond to unbalanced data.
  • the auto-labeling performer 330 selects data A through sampling for the second training data population. Type data can be selected with a higher percentage. Conversely, if C-type data in the first training data population corresponds to imbalanced data with a high distribution ratio, the auto-labeling performer 330 may select C-type data at a lower ratio in the second training data population. . That is, the second learning data population can be updated by replacing the existing data with data selected through sampling, and after being updated, the data of type A are relatively higher than the data of other types in the second learning data population. It is distributed in a ratio, and data of type C can be distributed in a relatively lower ratio than data of other types.
  • the second training data population may be integrated with the first training data population through subsequent operation steps, and as a result of the data distribution being adjusted by the auto-labeling performer 330, the data distribution is balanced within the integrated training data population.
  • the auto-labeling performer 330 may apply the second recognition model to the second training data population to classify abnormal data and update labels of the abnormal data.
  • the auto-labeling unit 330 may classify misrecognized or unrecognized erroneous data included in the second training data population as abnormal data, and perform a re-labeling operation on the abnormal data to obtain abnormality within the second training data population. data can be removed. Meanwhile, operations of classifying abnormal data and updating labels performed by the auto-labeling unit 330 may be implemented in correspondence with operations of the data classifying unit 350 and the data updating unit 370, which will be described below.
  • the data classification unit 350 may classify abnormal data by applying the second recognition model to the first training data population.
  • the second recognition model may be used to classify normal data and abnormal data in the process of receiving labeled data as an input and performing an operation of inferring a label.
  • the data classification unit 350 may perform an operation of selecting abnormal data degrading the quality of the training data from the first training data population.
  • the data classification unit 350 may extract a loss function value of individual data by applying a second recognition model, which is a machine learning model, to existing training data.
  • the loss function may correspond to a function that quantifies the difference between the actual value and the predicted value. The larger the error between the actual value and the predicted value, the larger the loss function value, whereas the smaller the error, the smaller the loss function value.
  • learning may proceed in a direction of minimizing the value of such a loss function.
  • the loss function may include mean squared error (MSE), cross-entropy, and the like.
  • the data classification unit 350 may extract data having a loss function value greater than or equal to a predetermined reference value and determine the data as an ideal data candidate, and may determine the data as a normal data candidate when the loss function value is less than the reference value. If the data is classified as an abnormal data candidate by the data classification unit 350, it may be corrected to normal data through a data refinement step and then added to the first training data population.
  • the data classification unit 350 may determine abnormal data based on a loss of the recognition model.
  • the data classification unit 350 may select abnormal data from the learning data population through various methods using a recognition model. For example, the data classification unit 350 may determine ideal data based on the variability of loss in the learning process of the recognition model, and may determine ideal data according to the absolute value of the loss after learning is completed.
  • the data classification unit 350 may set a predetermined normal condition for the loss function value and classify the data as abnormal or normal data depending on whether the loss function value satisfies the corresponding normal condition.
  • the data classified by the data classification unit 350 may form an abnormal training data candidate group and a normal training data candidate group, respectively.
  • the data updater 370 may update the first training data population by refining abnormal data in the first training data population and adding a second training data population.
  • the data updating unit 370 may perform a refining operation for converting the ideal learning data candidate group classified by the data classifying unit 350 into normal data.
  • the purification operation may be performed in various ways, and operations such as simple deletion, numerical calculation, and data modification may be applied singly or in combination.
  • the data updater 370 may update the existing training data population by adding a new second learning data population to the existing first learning data population. Before and after the update, the size of the first training data population may increase and the quality of the training data may be improved.
  • the data updater 370 may remove abnormal data from the first training data population or update a label of the abnormal data.
  • the data updating unit 370 may replace a previous label that was misrecognized or assigned with low accuracy with a new label through a relabeling operation of adjusting labels of abnormal data.
  • the re-labeling operation performed by the data updating unit 370 may be implemented in correspondence with an auto-labeling operation.
  • the relabeling operation performed by the data updating unit 370 may be performed through manual label assignment by the user through the user terminal 110 . That is, the data updating unit 370 transmits the abnormal data to the user terminal 110, and the user can directly input a new label after checking the abnormal data through the user terminal 110.
  • the user terminal 110 may transmit the new label manually input by the user to the learning database building device 130, and may be transferred to the data updating unit 370 and processed as a re-labeling operation.
  • the manual relabeling operation by the user may increase processing cost in that a person directly participates in data inspection and correction.
  • the ratio of abnormal data existing in the existing training data decreases, so the relabeling cost due to manual work can be reduced in proportion to the performance of the machine learning model.
  • the data augmentation unit 390 may increase the learning data by repeatedly performing construction of a recognition model, generation of a second training data population, and update of the first training data population. In the case of the newly updated first training data population by adding the second training data population according to the repetition operation, it may be processed as existing training data in the next iteration. In addition, a series of operations of refining abnormal data from existing training data and generating and adding new training data may be repeatedly performed under the control of the data augmentation unit 390 . That is, the data augmentation unit 390 interworks with the recognition model building unit 310, the auto-labeling unit 330, the data classification unit 350, and the data update unit 370, respectively, to perform repetitive operations for augmenting learning data. can control.
  • the data augmentation unit 390 may dynamically control the number of iterations for data augmentation in consideration of the type of learning data, the characteristics of a machine learning algorithm, the size, time, and cost of data augmentation.
  • the data augmentation unit 390 may perform data augmentation operations in parallel when the learning database construction device 130 is implemented as a cloud server. More specifically, the data augmentation unit 390 may determine an instance configuration required for data augmentation, and may configure at least one instance in consideration of cloud-available resources. If the data augmentation operation is performed through a plurality of instances, the data augmentation unit 390 generates a plurality of partial learning data populations based on each of the first and second learning data populations and performs the data augmentation operation through each instance. can be performed in parallel.
  • the learning database construction device 130 may operate in conjunction with an independent cloud server, request some of the operations for data augmentation to the cloud server, receive a response, and process the data augmentation operation.
  • the control unit (not shown in FIG. 3) controls the overall operation of the learning database building device 130, and includes the recognition model building unit 310, the auto-labeling unit 330, the data classification unit 350, and the data updating unit. Control flow or data flow between 370 and data augmentation unit 390 may be managed.
  • FIG. 4 is a flowchart illustrating a method for constructing a learning database using automatic detection and automatic labeling of abnormal data according to the present invention.
  • the learning database construction apparatus 130 learns the labeled first learning data population through the recognition model construction unit 310 to independently generate first and second recognition models for data classification. It can be built (step S410).
  • the learning database construction apparatus 130 may generate a labeled second training data population by applying the first recognition model to the unlabeled raw data population through the auto-labeling performer 330 (step S430). .
  • the learning database construction apparatus 130 may classify the abnormal data by applying the second recognition model to the first learning data population through the data classification unit 350 (step S450).
  • the learning database construction device 130 may update the first learning data population by refining abnormal data in the first learning data population through the data updater 370 and adding a second learning data population (step S470).
  • the learning database construction apparatus 130 performs learning by repeatedly constructing a recognition model, generating a second learning data population, and updating the first learning data population through the data augmentation unit 390.
  • Data can be incrementally increased, and when interworking with a cloud server, operations for data augmentation can be more effectively processed by utilizing cloud resources.
  • FIG. 5 is a conceptual diagram illustrating an embodiment of a learning database construction method according to the present invention.
  • the learning database construction apparatus 130 can effectively secure learning data of guaranteed quality through a series of repetitive operation steps. That is, the learning database building device 130 automatically generates learning data used for machine learning using a data processing technology using many parameters called Deep Learning or Deep Neural Network. It is possible to automatically determine the degree of abnormality of manually or automatically generated learning data.
  • the learning database construction apparatus 130 may learn a recognition model using existing learning data (step 1).
  • a single or multiple recognition models may be generated, and each may be used for an auto-labeling operation and an abnormal data classification operation.
  • the learning database building device 130 may perform an auto-labeling operation on new raw data based on the recognition model (step 2), and may perform an imbalanced data sampling operation to compensate for imbalance in data distribution (step 2).
  • Step 3) auto-label learning data may be generated by performing a re-labeling operation to improve data quality (step 4).
  • the auto-labeling operation, the unbalanced data sampling operation, and the re-labeling operation may be optionally applied as needed.
  • the learning database construction apparatus 130 may classify abnormal data from the previously labeled training data based on the recognition model (step 5), and may perform a re-labeling operation to refine the classified abnormal data (step 5). Step 6). The refined abnormal data and normal data can be integrated with the autolabel learning data and used to update the existing training data (step 7).
  • the above operations (steps 1 to 7) may be repeatedly performed by the learning database building device 130, and the size of learning data for machine learning increases at each repetition.
  • 6 to 9 are diagrams illustrating embodiments of specific operations of FIG. 5 .
  • the learning database building device 130 may generate auto-label data 630 having similar correct answer data from day data 610 having no correct answer data through an auto-labeling operation to which a recognition model is applied. there is. For example, when the raw data 610 corresponds to an image including a predetermined object, auto-labeling may be performed for objects recognized on the image through auto-labeling.
  • autolabel data may include both misrecognized and unrecognized data depending on the recognition performance of the recognition model, and may have some differences from ideal data.
  • automatic labeling may have an advantage in that it requires significantly less time and human resources.
  • the learning database construction device 130 may extract meaningful label data 730 from auto label data 710 having similar correct answer data through an imbalanced data sampling operation.
  • the learning database construction apparatus 130 crops only the image of the selected label.
  • method in case of 730a
  • a method of overlaying a predetermined image (or color) on an image of an unselected label in case of 730b
  • only meaningful label data 730 may be selectively extracted.
  • the learning database construction apparatus 130 may correct misrecognized label data 810 through a re-labeling operation and update the data with corrected label data 830 .
  • the relabeling operation may be manually processed as needed. That is, the learning database building device 130 can transmit misrecognized label data 810 that needs to be relabeled to the user terminal 110 in conjunction with the user terminal 110, and the user can transmit the corresponding data on the user terminal 110. After checking, you can directly enter a normal label to replace the misrecognized label. Thereafter, the modified label data 830 may be transmitted from the user terminal 110 to the learning database construction device 130 .
  • the learning database building device 130 can effectively classify normal data 910 and abnormal data 930 using a recognition model learned through existing learning data.
  • the learning database construction apparatus 130 may additionally detect an erroneous label that exists despite the relabeling operation.
  • the method used may include various methods, including a method of classifying based on the variability of loss during learning and a method of classifying based on the absolute value of loss after learning is completed.
  • processor 230 memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Library & Information Science (AREA)

Abstract

본 발명은 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템에 관한 것으로, 상기 방법은 라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축하는 단계; 상기 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성하는 단계; 상기 제2 인식 모델을 상기 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류하는 단계; 및 상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 정제하고 상기 제2 학습 데이터 모집단을 추가하여 상기 제1 학습 데이터 모집단을 갱신하는 단계;를 포함한다.

Description

이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
본 발명은 기계학습을 위한 학습 데이터 생성 기술에 관한 것으로, 보다 상세하게는 정답 데이터의 생성 과정에 있어 소요되는 시간과 인적자원을 최소화하는 학습 데이터베이스 구축 시스템 및 그 방법에 관한 것이다.
기계학습의 학습 방법은 크게 지도학습, 비지도학습, 강화학습의 세가지 방법으로 분류된다. 지도학습은 정답 데이터(입력 데이터와 그에 대응하는 라벨 한 쌍)가 이미 존재하여 학습 모델에게 정답을 알려주어 학습 모델의 예측값과 정답값의 오차가 최소가 되도록 학습하는 방식이다. 비지도학습은 정답 데이터가 존재하지 않고(입력 데이터만 존재) 데이터 간의 유사성과 숨겨진 특성을 분석하여 분류하는 학습하는 방식이다. 강화학습은 정답 데이터가 존재하지 않고 환경에서의 모델의 결정에 상과 벌을 부여하는 과정을 통해 학습하는 방식이다.
지도학습은 명확한 정답 데이터가 이미 존재하기 때문에 비지도학습이나 강화학습에 비해 학습이 쉽고 안정적이며 성능 평가도 용이하다는 장점을 가진다. 그러나, 학습 데이터를 준비하는 과정이 지도학습에서의 대부분을 차지할 정도로 많은 시간과 인적자원이 소요된다. 또한, 학습 데이터의 양과 질은 학습된 기계학습 모델의 인식 성능에 큰 영향을 끼치므로 지도학습에서의 핵심은 학습 데이터의 생성에 있다고 볼 수 있다.
한편, 학습 데이터의 생성에는 이하의 해결해야 할 과제가 존재한다.
첫째로, 다량의 정답 데이터를 수작업으로 생성하려면 많은 자원이 소요된다는 점이다. 학습된 모델의 인식 성능에는 학습에 사용하는 정답 데이터의 양이 큰 영향을 끼치기에 인식 성능을 높이기 위해서는 데이터 양을 지속적으로 늘려야 한다. 데이터 양이 적을 때는 데이터를 조금만 늘려도 인식 성능이 크게 개선되지만 데이터 양이 많아지면 동일 수준의 인식 성능 향상을 위해 더 많은 데이터가 필요해지고 이를 위해 지속적으로 더 많은 자원이 소요된다.
둘째로, 데이터의 규모가 커질수록 데이터 간의 균형을 맞추기 어렵다는 점이다. 정답 데이터에는 실세계에서의 관측빈도에 따라 클래스간 수량의 불균형을 야기시킨다. 이는 학습 모델의 클래스간 인식 성능에 큰 영향을 미치게 된다. 일례로 데이터셋의 다수가 백인의 얼굴로 구성된 얼굴 데이터셋을 사용하여 학습된 모델은 백인의 얼굴은 잘 구분하지만 흑인/동양인의 얼굴을 잘 구분하지 못하는 편향을 가지게 되어 의도치 않은 인종차별을 하게 되는 문제가 발생할 수 있다.
셋째로, 정답 데이터의 검수가 어렵다는 점이다. 한번 만들어진 정답 데이터에는 잘 못 라벨링 된 정답 데이터가 소수 존재하지만 이는 쉽게 발견하기 어렵다. 잘 못 라벨링 된 정답 데이터는 소수이지만 검수를 진행하기 위해서는 전체 데이터를 확인해야하기 때문에 검수에는 추가적으로 많은 자원이 소요될 수 있다. 이렇게 잘 못 라벨링 된 정답 데이터는 학습 데이터의 품질을 떨어트려 학습된 모델의 성능에 악영향을 줄 수 있다.
[선행기술문헌]
[특허문헌]
한국등록특허 제10-1879735호 (2018.07.12)
본 발명의 일 실시예는 정답 데이터의 생성 과정에 있어 소요되는 시간과 인적자원을 최소화하는 학습 데이터베이스 구축 시스템 및 그 방법에 관한 것이다.
본 발명의 일 실시예는 기계학습 모델을 이용하여 라벨링 된 학습 데이터 내의 이상 데이터를 자동으로 분류하고, 기계학습 모델을 이용하여 날 데이터에 자동으로 라벨링을 적용하며, 이를 반복하여 지속적으로 학습 데이터를 증가시키는 데이터 구축 시스템을 제공하고자 한다.
실시예들 중에서, 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법은 라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축하는 단계; 상기 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성하는 단계; 상기 제2 인식 모델을 상기 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류하는 단계; 및 상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 정제하고 상기 제2 학습 데이터 모집단을 추가하여 상기 제1 학습 데이터 모집단을 갱신하는 단계;를 포함한다.
상기 인식 모델을 구축하는 단계는 상기 제1 인식 모델과 상기 제2 인식 모델을 하나의 인식 모델로서 구축하는 단계를 포함할 수 있다.
상기 제2 학습 데이터 모집단을 생성하는 단계는 상기 제1 학습 데이터 모집단의 데이터 분포를 기초로 상기 제2 학습 데이터 모집단에서 불균형 데이터를 샘플링(sampling) 하여 갱신하는 단계를 포함할 수 있다.
상기 제2 학습 데이터 모집단을 생성하는 단계는 상기 제2 인식 모델을 상기 제2 학습 데이터 모집단에 적용하여 이상 데이터를 분류하고 상기 이상 데이터의 라벨을 갱신하는 단계를 포함할 수 있다.
상기 이상 데이터를 분류하는 단계는 상기 인식 모델의 손실(loss)을 기초로 상기 이상 데이터를 결정하는 단계를 포함할 수 있다.
상기 제1 학습 데이터 모집단을 갱신하는 단계는 상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 제거하거나 또는 상기 이상 데이터의 라벨을 갱신하는 단계를 포함할 수 있다.
상기 학습 데이터베이스 구축 방법은 상기 인식 모델의 구축, 상기 제2 학습 데이터 모집단의 생성 및 상기 제1 학습 데이터 모집단의 갱신을 반복적으로 수행하여 학습 데이터를 증가시키는 단계;를 더 포함할 수 있다.
실시예들 중에서, 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 시스템은 라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축하는 인식 모델 구축부; 상기 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성하는 오토라벨링 수행부; 상기 제2 인식 모델을 상기 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류하는 데이터 분류부; 및 상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 정제하고 상기 제2 학습 데이터 모집단을 추가하여 상기 제1 학습 데이터 모집단을 갱신하는 데이터 갱신부;를 포함한다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템은 기계학습 모델을 이용하여 라벨링 된 학습 데이터 내의 이상 데이터를 자동으로 분류하고, 기계학습 모델을 이용하여 날 데이터에 자동으로 라벨링을 적용하며, 이를 반복하여 지속적으로 학습 데이터를 증가시킬 수 있다.
본 발명의 일 실시예에 따른 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템은 하나의 기계학습 모델로 이상 데이터 자동 분류와 자동 라벨링을 모두 적용할 수 있고, 기존 학습 데이터 분포에 기반하여 오토라벨 데이터 중 유의미한 라벨 데이터를 추출할 수 있다.
도 1은 본 발명에 따른 학습 데이터베이스 구축 시스템을 설명하는 도면이다.
도 2는 도 1의 학습 데이터베이스 구축 장치의 시스템 구성을 설명하는 도면이다.
도 3은 도 1의 학습 데이터베이스 구축 장치의 기능적 구성을 설명하는 도면이다.
도 4는 본 발명에 따른 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법을 설명하는 순서도이다.
도 5는 본 발명에 따른 학습 데이터베이스 구축 방법의 일 실시예를 설명하는 개념도이다.
도 6 내지 9는 도 5의 구체적 동작들에 관한 실시예들을 설명하는 도면이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
도 1은 본 발명에 따른 학습 데이터베이스 구축 시스템을 설명하는 도면이다.
도 1을 참조하면, 학습 데이터베이스 구축 시스템(100)은 사용자 단말(110), 학습 데이터베이스 구축 장치(130) 및 데이터베이스(150)를 포함하여 구현될 수 있다.
사용자 단말(110)은 사용자에 의해 운용되는 단말 장치에 해당할 수 있다. 본 발명의 실시예에서 사용자는 하나 이상의 사용자로 이해될 수 있으며, 복수의 사용자들은 하나 이상의 사용자 그룹으로 구분될 수 있다. 하나 이상의 사용자들 각각은 하나 이상의 사용자 단말(110)에 대응될 수 있다. 즉, 제1 사용자는 제1 사용자 단말, 제2 사용자는 제2 사용자 단말, ..., 제n(상기 n은 자연수) 사용자는 제n 사용자 단말에 대응될 수 있다.
또한, 사용자 단말(110)은 학습 데이터베이스 구축 시스템(100)을 구성하는 하나의 장치로서 학습 데이터의 생성, 수정 및 삭제를 포함하는 사용자 행위를 수행할 수 있는 컴퓨팅 장치에 해당할 수 있다. 예를 들어, 사용자 단말(110)은 학습 데이터베이스 구축 장치(130)와 연결되어 동작 가능한 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 포함하여 다양한 디바이스로도 구현될 수 있다.
또한, 사용자 단말(110)은 학습 데이터베이스 구축 장치(130)와 연동하기 위한 전용 프로그램 또는 어플리케이션을 설치하여 실행할 수 있다. 예를 들어, 사용자 단말(110)은 학습 데이터 생성을 위해 학습 데이터베이스 구축 장치(130)가 제공하는 이미지를 출력할 수 있으며, 사용자에 의해 입력된 라벨(label) 정보를 학습 데이터베이스 구축 장치(130)에 전달할 수 있다. 해당 과정은 전용 프로그램 또는 어플리케이션을 통해 제공되는 인터페이스를 통해 이루어질 수 있다.
한편, 사용자 단말(110)은 학습 데이터베이스 구축 장치(130)와 네트워크를 통해 연결될 수 있고, 복수의 사용자 단말(110)들은 학습 데이터베이스 구축 장치(130)와 동시에 연결될 수도 있다.
학습 데이터베이스 구축 장치(130)는 본 발명에 따른 학습 데이터베이스 구축 방법을 수행하는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 또한, 학습 데이터베이스 구축 장치(130)는 사용자 단말(110)과 유선 네트워크 또는 블루투스, WiFi, LTE 등과 같은 무선 네트워크로 연결될 수 있고, 네트워크를 통해 사용자 단말(110)과 데이터를 송·수신할 수 있다.
또한, 학습 데이터베이스 구축 장치(130)는 학습 데이터의 수집하거나 또는 학습 데이터를 제공하기 위하여 독립된 외부 시스템(도 1에 미도시함)과 연결되어 동작하도록 구현될 수 있다. 일 실시예에서, 학습 데이터베이스 구축 장치(130)는 클라우드 서버로 구현될 수 있으며, 클라우드 서비스를 통해 학습 데이터베이스의 구축과 활용에 관한 사용자들의 다양한 니즈(needs)를 충족시킬 수 있다.
데이터베이스(150)는 학습 데이터베이스 구축 장치(130)의 동작 과정에서 필요한 다양한 정보들을 저장하는 저장장치에 해당할 수 있다. 예를 들어, 데이터베이스(150)는 다양한 출처로부터 수집한 학습 데이터 모집단을 저장하거나 또는 기계학습 모델 구축을 위한 학습 알고리즘과 학습 모델에 관한 정보를 저장할 수 있으며, 반드시 이에 한정되지 않고, 학습 데이터베이스 구축 장치(130)가 본 발명에 따른 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법을 수행하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.
또한, 도 1에서, 데이터베이스(150)는 학습 데이터베이스 구축 장치(130)와 독립적인 장치로서 도시되어 있으나, 반드시 이에 한정되지 않고, 논리적인 저장장치로서 학습 데이터베이스 구축 장치(130)에 포함되어 구현될 수 있음은 물론이다.
도 2는 도 1의 학습 데이터베이스 구축 장치의 시스템 구성을 설명하는 도면이다.
도 2를 참조하면, 학습 데이터베이스 구축 장치(130)는 프로세서(210), 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)를 포함할 수 있다.
프로세서(210)는 본 발명의 실시예에 따른 학습 데이터베이스 구축 프로시저를 실행할 수 있고, 이러한 과정에서 읽혀지거나 작성되는 메모리(230)를 관리할 수 있으며, 메모리(230)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄 할 수 있다. 프로세서(210)는 학습 데이터베이스 구축 장치(130)의 동작 전반을 제어할 수 있고, 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(210)는 학습 데이터베이스 구축 장치(130)의 CPU(Central Processing Unit)로 구현될 수 있다.
메모리(230)는 SSD(Solid State Disk) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 학습 데이터베이스 구축 장치(130)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다. 또한, 메모리(230)는 전기적으로 연결된 프로세서(210)에 의해 실행됨으로써 본 발명에 따른 학습 데이터베이스 구축 방법을 실행하는 명령들의 집합을 저장할 수 있다.
사용자 입출력부(250)은 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함하고, 예를 들어, 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치 스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(250)은 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 학습 데이터베이스 구축 장치(130)는 독립적인 서버로서 수행될 수 있다.
네트워크 입출력부(270)은 네트워크를 통해 사용자 단말(110)과 연결되기 위한 통신 환경을 제공하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다. 또한, 네트워크 입출력부(270)는 학습 데이터의 무선 전송을 위해 WiFi, 블루투스 등의 근거리 통신 기능이나 4G 이상의 무선 통신 기능을 제공하도록 구현될 수 있다.
도 3은 도 1의 학습 데이터베이스 구축 장치의 기능적 구성을 설명하는 도면이다.
도 3을 참조하면, 학습 데이터베이스 구축 장치(130)는 인식 모델 구축부(310), 오토라벨링 수행부(330), 데이터 분류부(350), 데이터 갱신부(370), 데이터 증강부(390) 및 제어부(도 3에 미도시함)를 포함할 수 있다.
인식 모델 구축부(310)는 라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축할 수 있다. 여기에서, 인식 모델은 딥러닝(Deep Learning) 또는 심층신경망(Deep Neural Network)을 포함하는 기계학습 알고리즘을 통해 구축되는 학습 모델에 해당할 수 있다. 또한, 제1 학습 데이터 모집단은 사전에 수집된 학습 데이터들의 집합으로 각 학습 데이터는 라벨링된, 즉 라벨 정보가 부여된 데이터로 구성될 수 있다. 제1 인식 모델과 제2 인식 모델은 인식 모델 구축부(310)에 의해 각각 독립적으로 구축될 수 있으며, 인식 모델 구축부(310)는 제1 및 제2 인식 모델들 각각의 학습 과정에 서로 다른 학습 데이터를 적용할 수 있다.
예를 들어, 인식 모델 구축부(310)는 제1 학습 데이터 모집단의 일부를 학습하여 제1 인식 모델을 구축할 수 있고, 제1 학습 데이터 모집단의 나머지를 학습하여 제2 인식 모델을 구축할 수 있다. 또한, 인식 모델 구축부(310)는 제1 학습 데이터 모집단에서 랜덤하게 선택되는 데이터들을 순차적으로 학습하여 제1 및 제2 인식 모델을 각각 구축할 수도 있다.
한편, 인식 모델 구축부(310)는 제1 학습 데이터 모집단을 소정의 비율로 학습 데이터와 테스트 데이터로 구분할 수 있으며, 학습 데이터로 인식 모델을 구축하는 과정에서 테스트 데이터로 측정된 정확도(Accuracy)가 소정의 기준을 충족할 때까지 학습 과정을 반복적으로 수행할 수 있다. 이후, 학습 완료된 인식 모델들은 학습 데이터베이스 구축 장치(130)와 연동하는 데이터베이스(150)에 저장되어 관리될 수 있다.
일 실시예에서, 인식 모델 구축부(310)는 제1 인식 모델과 제2 인식 모델을 하나의 인식 모델로서 구축할 수 있다. 인식 모델 구축부(310)는 기본적으로 인식 모델의 사용 조건 및 목적에 따라 제1 및 제2 인식 모델들 각각을 구분하여 구축할 수 있으나, 필요에 따라 사용 목적에 관계없이 하나의 인식 모델만을 구축할 수 있다. 즉, 인식 모델 구축부(310)에 의해 하나의 인식 모델만이 생성된 경우에는 모델 추론이 필요할 때마다 동일한 인식 모델이 통합적으로 적용될 수 있다.
오토라벨링 수행부(330)는 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성할 수 있다. 여기에서, 로우 데이터 모집단은 기존의 학습 데이터인 제1 학습 데이터 모집단과는 독립적으로 수집된 데이터 집합으로 라벨링 되지 않아 라벨 정보가 부여되지 않은 학습 데이터들의 집합에 해당할 수 있다. 따라서, 오토라벨링 수행부(330)에 의해 수행되는 동작은 라벨링 되지 않은 데이터에 라벨 정보를 자동으로 부여하는 오토라벨링 동작에 해당할 수 있다.
즉, 기계학습 모델로 구현된 제1 인식 모델은 라벨링 되지 않은 자료를 입력으로 수신하여 소정의 네트워크 단계를 진행하는 전파(propagation) 동작의 결과로서 라벨 정보를 출력으로 생성할 수 있다. 결과적으로, 오토라벨링 수행부(330)에 의해 생성되는 제2 학습 데이터 모집단은 신규 날 데이터에 자동 라벨링을 적용하여 생성되는 오토라벨 학습 데이터들의 집합에 해당할 수 있다. 또한, 오토라벨링 동작을 통해 생성되는 제2 학습 데이터 모집단에는 오인식 또는 미인식 된 오류 데이터들이 소정의 비율로 존재할 수 있다.
일 실시예에서, 오토라벨링 수행부(330)는 제1 학습 데이터 모집단의 데이터 분포를 기초로 제2 학습 데이터 모집단에서 불균형 데이터를 샘플링(sampling) 하여 갱신할 수 있다. 여기에서, 불균형 데이터는 특정 데이터 모집단에서 데이터들이 소정의 비율 내에서 균형적으로 분포하지 않는 경우의 데이터에 해당할 수 있다. 즉, 불균형 데이터는 데이터 모집단 내에서 다른 데이터들에 비해 매우 높은 비율로 분포하는 데이터 또는 매우 낮은 비율로 분포하는 데이터에 해당할 수 있다.
예를 들어, A, B, C유형 데이터들로 구성된 데이터 모집단에서 각 유형 데이터들이 40%:45%:15%의 비율로 분포하는 경우 C유형 데이터가 A 및 B유형 데이터들보다 매우 낮은 비율로 분포하므로 불균형 데이터에 해당할 수 있다. 이와 반대로, 각 유형 데이터들이 65%:20%:15%의 비율로 분포하는 경우 A유형 데이터가 B 및 C유형 데이터들보다 매우 높은 비율로 분포하므로 불균형 데이터에 해당할 수 있다.
보다 구체적으로, 제1 학습 데이터 모집단 내에서 A 유형 데이터가 분포 비율이 낮은 불균형 데이터에 해당하는 경우 오토라벨링 수행부(330)는 제2 학습 데이터 모집단에 대해 샘플링을 통해 데이터를 선별하는 과정에서 A 유형 데이터를 보다 높은 비율로 선택할 수 있다. 이와 반대로, 제1 학습 데이터 모집단 내에서 C 유형의 데이터가 분포 비율이 높은 불균형 데이터에 해당하는 경우 오토라벨링 수행부(330)는 제2 학습 데이터 모집단에서 C 유형 데이터를 보다 낮은 비율로 선택할 수 있다. 즉, 제2 학습 데이터 모집단은 샘플링을 통해 선별된 데이터들로 기존 데이터들을 대체하여 갱신될 수 있으며, 갱신된 이후 제2 학습 데이터 모집단 내에서는 A 유형의 데이터들이 다른 유형의 데이터들보다 상대적으로 높은 비율로 분포하게 되고, C 유형의 데이터들은 다른 유형의 데이터들보다 상대적으로 낮은 비율로 분포할 수 있다.
또한, 제2 학습 데이터 모집단은 이후 동작 단계들을 통해 제1 학습 데이터 모집단과 통합될 수 있으며, 오토라벨링 수행부(330)에 의해 데이터 분포가 조절된 결과 통합된 학습 데이터 모집단 내에서 데이터 분포가 균형을 이루는 효과를 얻을 수 있다.
일 실시예에서, 오토라벨링 수행부(330)는 제2 인식 모델을 제2 학습 데이터 모집단에 적용하여 이상 데이터를 분류하고 이상 데이터의 라벨을 갱신할 수 있다. 오토라벨링 수행부(330)는 제2 학습 데이터 모집단에 포함된 오인식 또는 미인식된 오류 데이터들을 이상 데이터로 분류할 수 있으며, 이상 데이터에 대한 재라벨링 동작을 수행하여 제2 학습 데이터 모집단 내에서 이상 데이터를 제거할 수 있다. 한편, 오토라벨링 수행부(330)에 의해 수행되는 이상 테이터의 분류 및 라벨 갱신 동작은 이하에서 설명하는 데이터 분류부(350)와 데이터 갱신부(370)의 동작에 각각 대응하여 구현될 수 있다.
데이터 분류부(350)는 제2 인식 모델을 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류할 수 있다. 이때, 제2 인식 모델은 라벨이 부여된 자료를 입력으로 수신하여 라벨을 추론하는 동작을 수행하는 과정에서 정상 데이터와 이상 데이터를 분류하는데 사용될 수 있다. 데이터 분류부(350)는 제1 학습 데이터 모집단에서 학습 데이터의 품질을 저하시키는 이상 데이터를 선별하는 동작을 수행할 수 있다.
보다 구체적으로, 데이터 분류부(350)는 기계학습 모델인 제2 인식 모델을 기존 학습 데이터에 적용하여 개별 데이터의 손실 함수(loss function) 값을 추출할 수 있다. 여기에서, 손실 함수(loss function)는 실제값과 예측값 사이의 차이를 수치화 하는 함수에 해당할 수 있다. 실제값과 예측값 간의 오차가 클수록 손실 함수 값이 커지는 반면, 오차가 작을수록 손실 함수 값이 작아질 수 있다. 기계학습 모델의 경우 이러한 손실 함수 값을 최소화하는 방향으로 학습이 진행될 수 있다. 손실 함수에는 평균 제곱 오차(MSE), 크로스 엔트로피(Cross-Entropy) 등이 포함될 수 있다.
따라서, 데이터 분류부(350)는 손실 함수 값이 소정의 기준값 이상인 데이터를 추출하여 이상 데이터 후보로 결정할 수 있으며, 손실 함수 값이 기준값 미만인 경우 정상 데이터 후보로 결정할 수 있다. 데이터 분류부(350)에 의해 이상 데이터 후보로 분류되면 이후 데이터 정제 단계를 통해 정상 데이터로 보정된 후 제1 학습 데이터 모집단에 추가될 수 있다.
일 실시예에서, 데이터 분류부(350)는 인식 모델의 손실(loss)을 기초로 이상 데이터를 결정할 수 있다. 데이터 분류부(350)는 인식 모델을 활용하는 다양한 방법을 통해 학습 데이터 모집단에서 이상 데이터를 선별할 수 있다. 예를 들어, 데이터 분류부(350)는 인식 모델의 학습 과정에서 손실(loss)의 변동성을 기초로 이상 데이터를 결정할 수 있고, 학습 완료 후 손실의 절대값에 따라 이상 데이터를 결정할 수도 있다. 데이터 분류부(350)는 손실 함수 값에 관한 소정의 정상 조건을 설정하고 손실 함수 값이 해당 정상 조건을 충족하는지 여부에 따라 이상 또는 정상 데이터로 분류할 수 있다. 데이터 분류부(350)에 의해 분류된 데이터들은 이상 학습 데이터 후보군과 정상 학습 데이터 후보군을 각각 형성할 수 있다.
데이터 갱신부(370)는 제1 학습 데이터 모집단에서 이상 데이터를 정제하고 제2 학습 데이터 모집단을 추가하여 제1 학습 데이터 모집단을 갱신할 수 있다. 데이터 갱신부(370)는 데이터 분류부(350)에 의해 분류된 이상 학습 데이터 후보군에 대해 정상 데이터로 변환하기 위한 정제 동작을 수행할 수 있다. 정제 동작은 다양한 방법으로 수행될 수 있으며, 단순 삭제, 수치 연산, 데이터 수정 등의 동작들이 단일 적용되거나 또는 복합적으로 적용될 수 있다. 이후, 데이터 갱신부(370)는 기존의 제1 학습 데이터 모집단에 신규의 제2 학습 데이터 모집단을 추가하여 기존의 학습 데이터 모집단을 갱신할 수 있다. 갱신 전후로 제1 학습 데이터 모집단의 크기는 증가하고 학습 데이터의 품질은 향상될 수 있다.
일 실시예에서, 데이터 갱신부(370)는 제1 학습 데이터 모집단에서 이상 데이터를 제거하거나 또는 이상 데이터의 라벨을 갱신할 수 있다. 데이터 갱신부(370)는 이상 데이터의 라벨을 조정하는 재라벨링 동작을 통해 오인식되거나 또는 낮은 정확도로 부여된 이전 라벨을 신규의 라벨로 교체할 수 있다. 데이터 갱신부(370)에 의해 수행되는 재라벨링 동작은 오토라벨링 동작에 대응되어 구현될 수 있다.
한편, 데이터 갱신부(370)에 의해 수행되는 재라벨링 동작은 사용자 단말(110)을 통해 사용자에 의한 수동 라벨 부여를 통해 이루어질 수도 있다. 즉, 데이터 갱신부(370)는 이상 데이터를 사용자 단말(110)에게 전송하고, 사용자는 사용자 단말(110)을 통해 이상 데이터를 확인한 후 신규 라벨을 직접 입력할 수 있다. 사용자 단말(110)은 사용자에 의해 수동 입력된 신규 라벨을 학습 데이터베이스 구축 장치(130)에게 전송할 수 있으며, 데이터 갱신부(370)에 전달되어 재라벨링 동작으로 처리될 수 있다.
이와 같은 사용자에 의한 수동 재라벨링 동작은 데이터 갱신부(370)에 의한 자동 재라벨링 동작에 비해 사람이 직접 참여하여 데이터 검수와 수정을 처리하는 점에서 처리 비용이 높아질 수 있다. 다만, 기계학습 모델의 성능이 좋을수록 기존의 학습 데이터에 존재하는 이상 데이터의 비율이 낮아지는 점에서, 기계학습 모델의 성능에 비례하여 수동 작업에 따른 재라벨링 비용은 감소될 수 있다.
데이터 증강부(390)는 인식 모델의 구축, 제2 학습 데이터 모집단의 생성 및 제1 학습 데이터 모집단의 갱신을 반복적으로 수행하여 학습 데이터를 증가시킬 수 있다. 반복 동작에 따라 제2 학습 데이터 모집단이 추가되어 새롭게 갱신된 제1 학습 데이터 모집단의 경우 다음 반복에서는 기존 학습 데이터로서 처리될 수 있다. 또한, 기존의 학습 데이터에서 이상 데이터를 정제하고 신규 학습 데이터를 생성하여 추가하는 일련의 동작들은 데이터 증강부(390)의 제어에 따라 반복적으로 수행될 수 있다. 즉, 데이터 증강부(390)는 인식 모델 구축부(310), 오토라벨링 수행부(330), 데이터 분류부(350) 및 데이터 갱신부(370)와 각각 연동하여 학습 데이터의 증강을 위한 반복 동작을 제어할 수 있다.
일 실시예에서, 데이터 증강부(390)는 학습 데이터의 유형, 기계학습 알고리즘의 특성, 데이터 증강의 크기, 시간 및 비용 등을 고려하여 데이터 증강을 위한 반복 횟수를 동적으로 제어할 수 있다.
일 실시예에서, 데이터 증강부(390)는 학습 데이터베이스 구축 장치(130)가 클라우드 서버로 구현된 경우 데이터 증강 연산을 병렬적으로 수행할 수 있다. 보다 구체적으로, 데이터 증강부(390)는 데이터 증강에 필요한 인스턴스 구성을 결정할 수 있으며, 클라우드 가용 자원을 고려하여 적어도 하나의 인스턴스로 구성할 수 있다. 만약 복수의 인스턴스를 통해 데이터 증강 동작이 수행되는 경우 데이터 증강부(390)는 제1 및 제2 학습 데이터 모집단들 각각을 기초로 복수개의 부분 학습 데이터 모집단들을 생성하고 각 인스턴스를 통해 데이터 증강 동작을 병렬적으로 수행할 수 있다.
한편, 학습 데이터베이스 구축 장치(130)는 독립된 클라우드 서버와 연동하여 동작할 수 있으며, 데이터 증강을 위한 동작 중 일부를 클라우드 서버에 요청하고 그 응답을 수신하여 데이터 증강 동작을 처리할 수도 있다.
제어부(도 3에 미도시함)는 학습 데이터베이스 구축 장치(130)의 전체적인 동작을 제어하고, 인식 모델 구축부(310), 오토라벨링 수행부(330), 데이터 분류부(350), 데이터 갱신부(370) 및 데이터 증강부(390) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.
도 4는 본 발명에 따른 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법을 설명하는 순서도이다.
도 4를 참조하면, 학습 데이터베이스 구축 장치(130)는 인식 모델 구축부(310)를 통해 라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축할 수 있다(단계 S410). 학습 데이터베이스 구축 장치(130)는 오토라벨링 수행부(330)를 통해 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성할 수 있다(단계 S430).
이후, 학습 데이터베이스 구축 장치(130)는 데이터 분류부(350)를 통해 제2 인식 모델을 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류할 수 있다(단계 S450). 학습 데이터베이스 구축 장치(130)는 데이터 갱신부(370)를 통해 제1 학습 데이터 모집단에서 이상 데이터를 정제하고 제2 학습 데이터 모집단을 추가하여 제1 학습 데이터 모집단을 갱신할 수 있다(단계 S470).
본 발명의 일 실시예에 따른 학습 데이터베이스 구축 장치(130)는 데이터 증강부(390)를 통해 인식 모델의 구축, 제2 학습 데이터 모집단의 생성 및 제1 학습 데이터 모집단의 갱신을 반복적으로 수행하여 학습 데이터를 단계적으로 증가시킬 수 있으며, 클라우드 서버와 연동하는 경우 클라우드 자원을 활용하여 데이터 증강을 위한 동작을 보다 효과적으로 처리할 수 있다.
도 5는 본 발명에 따른 학습 데이터베이스 구축 방법의 일 실시예를 설명하는 개념도이다.
도 5를 참조하면, 학습 데이터베이스 구축 장치(130)는 일련의 반복적인 동작 단계들을 통해 보장된 품질의 학습 데이터를 효과적으로 확보할 수 있다. 즉, 학습 데이터베이스 구축 장치(130)는 딥러닝(Deep Learning) 또는 심층신경망(Deep Neural Network)로 불리는, 많은 파라미터를 활용한 데이터 처리 기술을 이용하여 기계학습에 사용되는 학습 데이터를 자동으로 생성할 수 있고, 수작업 또는 자동으로 생성된 학습 데이터의 이상 정도를 자동으로 판별할 수 있다.
도 5에서, 학습 데이터베이스 구축 장치(130)는 기존 학습 데이터를 이용하여 인식 모델을 학습할 수 있다(단계 1). 이때, 인식 모델은 단일 또는 복수로 생성될 수 있으며, 각각 오토라벨링 동작과 이상 데이터 분류 동작에 사용될 수 있다. 학습 데이터베이스 구축 장치(130)는 인식 모델을 기초로 신규 날 데이터에 대한 오토라벨링 동작을 수행할 수 있고(단계 2), 데이터 분포의 불균형성을 보완하기 위해 불균형 데이터 샘플링 동작을 수행할 수 있으며(단계 3), 데이터 품질을 높이기 위해 재라벨링 동작을 수행하여 오토라벨 학습 데이터를 생성할 수 있다(단계 4). 여기에서, 오토라벨링 동작, 불균형 데이터 샘플링 동작 및 재라벨링 동작은 필요에 따라 선택적(optional)으로 적용될 수 있다.
또한, 학습 데이터베이스 구축 장치(130)는 인식 모델을 기초로 라벨링 된 기존 학습 데이터에서 이상 데이터를 분류할 수 있으며(단계 5), 분류된 이상 데이터를 정제하기 위해 재라벨링 동작을 수행할 수 있다(단계 6). 정제된 이상 데이터와 정상 데이터는 오토라벨 학습 데이터와 통합되어 기존 학습 데이터를 갱신하는데 사용될 수 있다(단계 7). 상기의 동작들(단계 1 내지 7)은 학습 데이터베이스 구축 장치(130)에 의해 반복적으로 수행될 수 있으며, 각 반복마다 기계학습을 위한 학습 데이터의 크기가 증가하게 된다.
도 6 내지 9는 도 5의 구체적 동작들에 관한 실시예들을 설명하는 도면이다.
도 6을 참조하면, 학습 데이터베이스 구축 장치(130)는 인식 모델이 적용된 오토라벨링 동작을 통해 정답 데이터가 존재하지 않는 날 데이터(610)로부터 유사 정답 데이터를 가진 오토라벨 데이터(630)를 생성할 수 있다. 예를 들어 날 데이터(610)가 소정의 객체를 포함하는 이미지에 해당하는 경우 오토라벨링을 통해 해당 이미지 상에서 인식된 객체들에 대한 오토라벨을 생성할 수 있다.
한편, 이러한 오토라벨 데이터에는 인식 모델의 인식 성능에 따라 오인식 및 미인식 데이터가 모두 포함될 수 있으며, 이상적인 데이터와는 다소 차이가 존재할 수 있다. 다만, 자동 라벨링은 수동 라벨링과 비교하면 소요되는 시간과 인적자원이 압도적으로 적다는 장점을 가질 수 있다.
도 7을 참조하면, 학습 데이터베이스 구축 장치(130)는 불균형 데이터 샘플링 동작을 통해 유사 정답 데이터를 가진 오토라벨 데이터(710)에서 유의미한 라벨 데이터(730)를 추출할 수 있다. 예를 들어, 도 7에서, 기존 학습 데이터(이미지인 경우)의 분포가 트럭 데이터에 비해 세단 데이터가 매우 많은 불균형 상태에 해당하는 경우 학습 데이터베이스 구축 장치(130)는 선택된 라벨의 이미지만을 크롭(crop)하는 방법(730a의 경우), 선택되지 않은 라벨의 이미지에 소정의 이미지(또는 색)를 오버레이 하는 방법(730b의 경우)을 통해 유의미한 라벨 데이터(730)만을 선별적으로 추출할 수 있다. 한편, 이러한 샘플링 방법은 상기의 예시들을 포함하여 다양한 방식이 적용될 수 있음은 물론이다.
도 8을 참조하면, 학습 데이터베이스 구축 장치(130)는 재라벨링 동작을 통해 오인식 라벨 데이터(810)를 수정하여 수정된 라벨 데이터(830)로 갱신할 수 있다. 한편, 재라벨링 동작은 필요에 따라 수동적으로 처리될 수 있다. 즉, 학습 데이터베이스 구축 장치(130)는 사용자 단말(110)과 연동하여 사용자 단말(110)로 재라벨링이 필요한 오인식 라벨 데이터(810)를 전송할 수 있고, 사용자는 사용자 단말(110) 상에서 해당 데이터를 확인한 후 오인식된 라벨을 대체하는 정상 라벨을 직접 입력할 수 있다. 이후, 수정된 라벨 데이터(830)는 사용자 단말(110)에서 학습 데이터베이스 구축 장치(130)로 전송될 수 있다.
이와 같이, 본 발명에 따른 방법의 일부 과정이 수작업에 의해 처리되는 경우라 하더라도 이미 오토라벨링과 불균형 데이터 샘플링을 통해 이상 데이터를 효과적으로 줄인 상태이므로 최소한의 노동력으로 다량의 학습 데이터를 효과적으로 확보할 수 있게 된다.
도 9를 참조하면, 학습 데이터베이스 구축 장치(130)는 기존 학습 데이터를 통해 학습된 인식 모델을 이용하여 정상 데이터(910)와 이상 데이터(930)를 효과적으로 분류할 수 있다. 이를 통해, 학습 데이터베이스 구축 장치(130)는 재라벨링 동작에도 불구하고 존재하는 잘못된 라벨을 추가적으로 검출할 수 있다. 이때, 사용되는 방법에는 학습 중 손실(loss)의 변동성에 기반하여 분류하는 방법, 학습 완료 후 손실(loss)의 절대값에 기반하여 분류하는 방법 등을 포함하여 다양한 방법들이 포함될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
[부호의 설명]
100: 학습 데이터베이스 구축 시스템
110: 사용자 단말 130: 학습 데이터베이스 구축 장치
150: 데이터베이스
210: 프로세서 230: 메모리
250: 사용자 입출력부 270: 네트워크 입출력부
310: 인식 모델 구축부 330: 오토라벨링 수행부
350: 데이터 분류부 370: 데이터 갱신부
390: 데이터증강부

Claims (8)

  1. 라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축하는 단계;
    상기 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성하는 단계;
    상기 제2 인식 모델을 상기 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류하는 단계; 및
    상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 정제하고 상기 제2 학습 데이터 모집단을 추가하여 상기 제1 학습 데이터 모집단을 갱신하는 단계;를 포함하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
  2. 제1항에 있어서, 상기 인식 모델을 구축하는 단계는
    상기 제1 인식 모델과 상기 제2 인식 모델을 하나의 인식 모델로서 구축하는 단계를 포함하는 것을 특징으로 하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
  3. 제1항에 있어서, 상기 제2 학습 데이터 모집단을 생성하는 단계는
    상기 제1 학습 데이터 모집단의 데이터 분포를 기초로 상기 제2 학습 데이터 모집단에서 불균형 데이터를 샘플링(sampling) 하여 갱신하는 단계를 포함하는 것을 특징으로 하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
  4. 제3항에 있어서, 상기 제2 학습 데이터 모집단을 생성하는 단계는
    상기 제2 인식 모델을 상기 제2 학습 데이터 모집단에 적용하여 이상 데이터를 분류하고 상기 이상 데이터의 라벨을 갱신하는 단계를 포함하는 것을 특징으로 하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
  5. 제1항에 있어서, 상기 이상 데이터를 분류하는 단계는
    상기 인식 모델의 손실(loss)을 기초로 상기 이상 데이터를 결정하는 단계를 포함하는 것을 특징으로 하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
  6. 제1항에 있어서, 상기 제1 학습 데이터 모집단을 갱신하는 단계는
    상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 제거하거나 또는 상기 이상 데이터의 라벨을 갱신하는 단계를 포함하는 것을 특징으로 하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
  7. 제1항에 있어서,
    상기 인식 모델의 구축, 상기 제2 학습 데이터 모집단의 생성 및 상기 제1 학습 데이터 모집단의 갱신을 반복적으로 수행하여 학습 데이터를 증가시키는 단계;를 더 포함하는 것을 특징으로 하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
  8. 라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축하는 인식 모델 구축부;
    상기 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성하는 오토라벨링 수행부;
    상기 제2 인식 모델을 상기 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류하는 데이터 분류부; 및
    상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 정제하고 상기 제2 학습 데이터 모집단을 추가하여 상기 제1 학습 데이터 모집단을 갱신하는 데이터 갱신부;를 포함하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 시스템.
PCT/KR2022/009156 2021-07-12 2022-06-27 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템 WO2023287064A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/032,694 US20230385333A1 (en) 2021-07-12 2022-06-27 Method and system for building training database using automatic anomaly detection and automatic labeling technology

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210090913A KR102337070B1 (ko) 2021-07-12 2021-07-12 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
KR10-2021-0090913 2021-07-12

Publications (1)

Publication Number Publication Date
WO2023287064A1 true WO2023287064A1 (ko) 2023-01-19

Family

ID=78867529

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/009156 WO2023287064A1 (ko) 2021-07-12 2022-06-27 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템

Country Status (3)

Country Link
US (1) US20230385333A1 (ko)
KR (1) KR102337070B1 (ko)
WO (1) WO2023287064A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102337070B1 (ko) * 2021-07-12 2021-12-08 (주)에이아이매틱스 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
KR102390891B1 (ko) * 2021-12-21 2022-04-26 주식회사 그레온 오토 라벨링을 통한 학습데이터 가공 서비스 제공 장치, 방법 및 프로그램
KR20230155658A (ko) 2022-05-03 2023-11-13 동국대학교 산학협력단 시계열 분류를 위한 능동 학습 장치 및 그 방법
KR20240015792A (ko) 2022-07-27 2024-02-06 재단법인 지능형자동차부품진흥원 자율 주행 차량의 센서 데이터 계측을 이용한 시나리오 라벨링 시스템 및 방법
KR102552230B1 (ko) * 2022-10-31 2023-07-06 (주)바질컴퍼니 클라우드 플랫폼에서 인공지능 모델을 활용한 데이터 라벨링 방법
CN117313900B (zh) * 2023-11-23 2024-03-08 全芯智造技术有限公司 用于数据处理的方法、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210089883A1 (en) * 2019-09-24 2021-03-25 Salesforce.Com, Inc. System and Method for Learning with Noisy Labels as Semi-Supervised Learning
KR20210048058A (ko) * 2019-10-23 2021-05-03 삼성에스디에스 주식회사 심층 신경망 학습 장치 및 방법
KR20210067442A (ko) * 2019-11-29 2021-06-08 엘지전자 주식회사 객체 인식을 위한 자동 레이블링 장치 및 방법
KR102337070B1 (ko) * 2021-07-12 2021-12-08 (주)에이아이매틱스 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101879735B1 (ko) 2017-03-15 2018-07-18 (주)넥셀 자동적인 학습데이터 생성 방법 및 장치와 이를 이용하는 자가 학습 장치 및 방법
NL2020424B1 (en) * 2018-02-12 2019-08-19 Jean Baptist Van Oldenborgh Marc Method for protecting the intellectual property rights of a trained machine learning network model using digital watermarking by adding, on purpose, an anomaly to the training data.
KR102002024B1 (ko) * 2018-12-06 2019-07-22 주식회사 아임클라우드 객체 라벨링 처리 방법 및 객체 관리 서버

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210089883A1 (en) * 2019-09-24 2021-03-25 Salesforce.Com, Inc. System and Method for Learning with Noisy Labels as Semi-Supervised Learning
KR20210048058A (ko) * 2019-10-23 2021-05-03 삼성에스디에스 주식회사 심층 신경망 학습 장치 및 방법
KR20210067442A (ko) * 2019-11-29 2021-06-08 엘지전자 주식회사 객체 인식을 위한 자동 레이블링 장치 및 방법
KR102337070B1 (ko) * 2021-07-12 2021-12-08 (주)에이아이매틱스 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
REED SCOTT E, LEE HONGLAK, ANGUELOV DRAGOMIR, SZEGEDY CHRISTIAN, ERHAN DUMITRU, RABINOVICH ANDREW: "Training Deep Neural Networks on Noisy Labels with Bootstrapping.", ARXIV:1412.6596V1, 20 December 2014 (2014-12-20), pages 1 - 11, XP093024904 *
TONG XIAO; TIAN XIA; YI YANG; CHANG HUANG; XIAOGANG WANG: "Learning from massive noisy labeled data for image classification", 2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 7 June 2015 (2015-06-07), pages 2691 - 2699, XP032793715, DOI: 10.1109/CVPR.2015.7298885 *

Also Published As

Publication number Publication date
KR102337070B1 (ko) 2021-12-08
US20230385333A1 (en) 2023-11-30

Similar Documents

Publication Publication Date Title
WO2023287064A1 (ko) 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
WO2018101722A2 (ko) 머신 러닝 기반 반도체 제조 수율 예측 시스템 및 방법
WO2019107698A1 (ko) 기업정보 분석을 통한 성공 예측 분석 시스템
WO2021194056A1 (en) Method for training deep learning network based on artificial intelligence and learning device using the same
WO2020111754A9 (ko) 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법 및 이를 이용하는 진단 시스템
WO2017131263A1 (ko) 교차 프로젝트 결함 예측을 위한 최단 이웃점을 이용한 하이브리드 인스턴스 선택 방법
WO2020005049A1 (ko) 인공 신경망의 학습 방법
WO2018212396A1 (ko) 데이터를 분석하는 방법, 장치 및 컴퓨터 프로그램
WO2021107422A1 (ko) 에너지 사용량 데이터의 비지도 학습 기반 부하 모니터링 방법
WO2021149913A1 (ko) Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치
WO2023085717A1 (ko) 클러스터링을 기반으로 하는 레이블링을 수행하기 위한 장치, 이상 탐지를 위한 장치 및 이를 위한 방법
WO2023063486A1 (ko) 기계학습모델의 생성 방법 및 그 장치
WO2024090932A1 (ko) 수집 데이터 자동 처리를 위한 데이터 적재 프로파일링 장치 및 방법
WO2022055020A1 (ko) 자동화된 기계 학습 방법 및 그 장치
WO2021075742A1 (ko) 딥러닝 기반의 가치 평가 방법 및 그 장치
WO2019221461A1 (ko) 네트워크 장애 원인 분석 장치 및 방법
WO2024034873A1 (ko) 화학공정의 기저원인 분석 및 이를 이용한 수율 예측 모델링 방법
WO2023113437A1 (ko) 메모리를 이용하는 의미론적 영상 분할 장치 및 방법
WO2019117400A1 (ko) 유전자 네트워크 구축 장치 및 방법
WO2023022406A1 (ko) 학습 실력 평가 방법, 학습 실력 평가 장치 및 학습 실력 평가 시스템
WO2023282500A1 (ko) 슬라이드 스캔 데이터의 자동 레이블링 방법, 장치 및 프로그램
WO2022050477A1 (ko) 클라우드 기반 딥러닝 작업의 수행시간 예측 시스템 및 방법
WO2021261901A1 (ko) 함수 호출 패턴 분석을 통한 이상 검출 장치 및 방법
WO2020096135A1 (ko) 업종별 창업 업무 프로세스의 최적화를 위한 방법 및 시스템
WO2023095945A1 (ko) 모델 학습을 위한 합성 데이터 생성 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22842326

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18032694

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE