WO2020153597A1 - 다단계 분류모델 생성 방법 및 그 장치 - Google Patents

다단계 분류모델 생성 방법 및 그 장치 Download PDF

Info

Publication number
WO2020153597A1
WO2020153597A1 PCT/KR2019/016993 KR2019016993W WO2020153597A1 WO 2020153597 A1 WO2020153597 A1 WO 2020153597A1 KR 2019016993 W KR2019016993 W KR 2019016993W WO 2020153597 A1 WO2020153597 A1 WO 2020153597A1
Authority
WO
WIPO (PCT)
Prior art keywords
classification model
learning data
nth
classification
level
Prior art date
Application number
PCT/KR2019/016993
Other languages
English (en)
French (fr)
Inventor
최유리
이재웅
유두열
Original Assignee
주식회사 솔리드웨어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔리드웨어 filed Critical 주식회사 솔리드웨어
Publication of WO2020153597A1 publication Critical patent/WO2020153597A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Definitions

  • the present invention relates to a machine learning-based classification model, and more particularly, to a method and apparatus for generating a multi-level classification model.
  • Machine learning-based classification models require a learning process first.
  • Data for learning the classification model may be variously collected according to the field in which the classification model is used.
  • the collection rates of positive and negative samples often do not match.
  • a positive sample means a sample belonging to a group to be predicted by a classification model
  • a negative sample means a sample not belonging to a group to be predicted.
  • the classification model based on machine learning is a model for classifying cancer from medical images
  • the ratio of a positive sample, which is a medical image representing a cancer state, and a negative sample, which is a medical image representing a normal state is used for learning the model. Similar learning data are needed.
  • the ratio of the medical image in the cancer state to the normal medical image in the overall medical image is very low.
  • a problem in which a negative sample is collected excessively compared to a positive sample is called a data imbalance problem or an asymmetric data problem, and in a machine learning-based classification model, this is an important factor influencing model performance. Therefore, in order to solve the data imbalance problem, most of the processes include pre-processing the collected data.
  • Undersampling is a method of extracting a part of an excessively collected speech sample and using it for training a classification model. Some of the imbalance problems can be solved through sample extraction, but it is important to extract them to properly reflect the original distribution.
  • a sample extraction method a sampling method used in traditional statistical fields such as a simple random extraction method, a stratified random extraction method, and a systematic extraction method may be applied.
  • undersampling does not use the entire collected data, so there is a drawback of information loss.
  • Oversampling is a method of artificially generating additional data by seeding a positive sample present in a small proportion.
  • oversampling methods include Synthetic Minority Over-Sampling (SMOTE) and Adaptive Synthetic Sampling Approach for Imbalanced Learning (ADASYN).
  • SMOTE Synthetic Minority Over-Sampling
  • ADASYN Adaptive Synthetic Sampling Approach for Imbalanced Learning
  • Oversampling can generate as many positive samples as possible to solve the imbalance problem, but there is no basis for how closely the generated data matches the actual, and most often, it is based on the absolute distance (e.g. Euclidean distance). It is difficult to apply it to categorical data because it is determined whether it matches, and there is a problem that it takes a lot of calculation time.
  • the technical problem to be achieved by the embodiments of the present invention is to provide a method and apparatus for generating a multi-level classification model capable of exerting optimal performance in an unbalanced situation of a positive sample and a negative sample.
  • An example of a method for generating a multi-level classification model according to an embodiment of the present invention for achieving the above technical problem includes a plurality of classification models outputting prediction values indicating which group is input from among at least two or more groups. Sequential connection arrangement; Inputting first learning data into a first classification model located in front of the plurality of classification models; Inputting second learning data excluding a predetermined amount of samples from the first learning data into a second classification model based on a predicted value for each sample of the first learning data output from the first classification model; And the Nth learning data based on the predicted value for each sample of the Nth training data output from the Nth classification model until the magnitude of the loss function of the Nth (N is a natural number greater than or equal to 2) classification model is less than a certain level And repeating the process of inputting the (N+1) learning data into the (N+1) classification model except for a predetermined amount of samples.
  • an example of an apparatus for generating a multi-level classification model includes a plurality of classification models that output a predicted value indicating which group an input sample of at least two or more groups is close to.
  • a model arrangement unit sequentially connected and arranged; Input Nth learning data into the Nth (N is a natural number greater than or equal to 1) classification model, extract a certain amount of samples based on the predicted value for each sample of the Nth learning data output from the Nth classification model, N+1) a data management unit that generates learning data; And iteratively repeating the process of inputting the (N+1) learning data generated by the data management unit to the (N+1) classification model until the size of the loss function of the Nth classification model becomes less than a certain level. Includes; performance unit.
  • an imbalance problem in which the ratio of the positive sample and the negative sample does not match is solved using a multi-level classification model without pre-processing such as undersampling or oversampling. It is possible to create a multi-level classification model that can achieve optimal performance even under data imbalance. In addition, it is possible to adaptively determine the number of steps of the multi-level classification model according to the application field.
  • FIG. 1 is a view showing an example of a classification model used in an embodiment of the present invention
  • FIG. 2 is a diagram showing an example of learning data and prediction values of a classification model applied to an embodiment of the present invention
  • FIG. 3 is a diagram showing an example of a multi-level classification model according to an embodiment of the present invention.
  • FIG. 4 is a view showing the concept of a method for solving a data imbalance problem according to an embodiment of the present invention
  • FIG. 5 is a diagram showing an example of a method for generating learning data for each stage according to an embodiment of the present invention
  • FIG. 6 is a diagram illustrating an example of a method for determining the number of steps in a multi-level classification model according to an embodiment of the present invention
  • FIG. 7 is a flowchart illustrating an example of a method for generating a multi-level classification model according to an embodiment of the present invention
  • FIG. 8 is a view showing a classification process using a multi-level classification model according to an embodiment of the present invention.
  • FIG. 9 is a diagram showing an example of the configuration of a multi-level classification model generating apparatus according to an embodiment of the present invention.
  • FIG. 1 is a view showing an example of a classification model used in an embodiment of the present invention.
  • the machine learning-based classification model 100 needs a learning process using learning data.
  • the learning data may include ground truths of positive and negative samples.
  • the classification model 100 outputs a prediction value indicating which group of samples included in the learning data is closer to at least two groups (for example, a prediction group and a group not belonging to) defined in advance.
  • the classification model 100 may output a probability that an input sample belongs to a group to be predicted as a prediction value between 0 and 1 as shown in FIG. 2. That is, in the case of the classification model 100 predicting cancer in the medical image, the classification model 100 outputs the cancer probability as a predicted value, and in the case of the classification model predicting the default rate, the classification model outputs the default rate as the predicted value. can do.
  • the classification model 100 may be implemented with various architectures such as CNN (Convolutional Neural Network), DenseNet, U-net, and Goolenet.
  • the classification model 100 performs a learning process of adjusting various parameters, etc., using predicted values for positive samples and predicted values for negative samples.
  • the classification model 100 may perform a learning process of adjusting connection weights of an artificial network using learning data and prediction values. .
  • This embodiment proposes a method of solving this problem through a multi-level classification model without pre-processing such as conventional undersampling or oversampling.
  • FIG. 2 is a diagram illustrating an example of learning data and prediction values of a classification model applied to an embodiment of the present invention.
  • the classification model 100 outputs the predicted value 220 when the positive sample 240 and the negative sample 230 included in the learning data 210 are input.
  • This embodiment assumes that the classification model 100 outputs a predicted value 220 between 0 and 1 for convenience of explanation. If the predicted value 220 is 1, it means that the input sample belongs to the group to be predicted, and if the predicted value is 0, it means that the input sample does not belong to the group to be predicted.
  • the predicted value between 0 and 1 may mean the probability that the input sample belongs to the group to be predicted.
  • the learning data 210 is financial statistical information
  • the predicted value 220 indicates default rate
  • This embodiment proposes a method for solving an imbalance problem in which the ratio of the positive sample 240 and the negative sample 230 does not match each other.
  • the present embodiment is not only applied to a field in which an imbalance problem exists, but can also be applied to a general field in which an imbalance problem does not exist.
  • FIG. 3 is a diagram illustrating an example of a multi-level classification model according to an embodiment of the present invention.
  • the multi-level classification model 300 is a structure in which at least two classification models 310, 320, and 330 are sequentially connected and arranged.
  • Each classification model (310,320,330) may be composed of the same architecture or different architectures.
  • all or part of the classification models 310, 320, and 330 included in the multi-level classification model 300 such as the first classification model 310 is implemented with a CNN architecture, and the second classification model 320 is implemented with DenseNET. It can be implemented with different machine learning models.
  • the arrangement order of each classification model 310, 320, 330 may be specified by a user or may be arbitrarily arranged.
  • the classification model implemented by the DenseNET architecture may be the first classification model 310 and the classification model implemented by CNN may be the second classification model 320 or vice versa.
  • the arrangement order of each of the classification models 310, 320, and 330 belonging to the multi-level classification model 300 may be variously modified, and then the multi-level classification model of the batch order indicating optimal performance may be selected.
  • FIG. 4 is a diagram illustrating a concept of a method of solving a data imbalance problem according to an embodiment of the present invention.
  • a part of the learning data is not excluded in advance in the pre-processing process or randomly generated learning data is input into the multi-level classification model 300 as it is.
  • a certain amount of speech samples are removed each time the classification models 310, 320, and 330 of each stage are passed through the multi-level classification model 300 salpin.
  • first learning data 460 where the ratio of the negative sample 400 and the positive sample 450 does not match.
  • the first learning data 460 is data collected in the application field of the classification model, and is data to which pre-processing such as undersampling or oversampling is not applied. That is, the first learning data 460 is data itself in which no information loss or distortion occurs.
  • the first learning data 460 is data input as learning data of the first classification model 310 of the multi-level classification model 300.
  • the second learning data 470 is data input as learning data of the second classification model 320, and is data obtained by excluding a portion of the speech sample 400 existing in the unbalanced state from the first learning data 460.
  • the third learning data 480 is data input as learning data of the third classification model, and is data excluding part of the speech sample 410 from the second learning data 470.
  • the training data of the Nth (two or more natural number) classification model becomes data excluding part of the speech sample from the (N-1)th training data.
  • this embodiment shows up to the third learning data 480 for convenience of explanation, when the multi-level classification model 300 is composed of two classification models 310 and 320, only the second learning data needs to be generated.
  • the imbalance ratio of the negative samples 400, 410, 420 and the positive sample 450 is adjusted at each step.
  • a part of the learning data for training the classification model is pre-removed and then input to the classification model, resulting in loss of information.
  • the first learning data 460 in an unbalanced state is directly input to the first classification model 310, no information is lost.
  • some voice samples are based on prediction values to prevent distortion of information. Excludes.
  • Each classification model (310,320,330) learns using the generated learning data (460,470,480), respectively.
  • the multi-level classification model 300 is composed of N classification models 310, 320 and 330
  • the first classification model 310 learns using the first learning data 360 and the second classification model 320 ) Is learned using the second learning data 470
  • the Nth classification model 330 is learned using the Nth learning data.
  • FIG. 5 is a diagram illustrating an example of a method of generating learning data for each step according to an embodiment of the present invention.
  • each classification model 310, 320, 330 receives prediction data 220 for each sample when learning data 210 composed of positive and negative samples is input. As shown in FIG. 2, when the range of the predicted value of each classification model is between 0 and 1, each sample is sorted 500 based on the predicted value as shown in FIG. 5. Then, based on the positive sample 510 having the smallest predicted value 220, negative samples below it are removed to generate learning data for the next step.
  • the present embodiment suggests the smallest positive sample 510 as a reference for removing a negative sample based on the predicted value, but is not limited thereto.
  • a user may predefine a criterion (eg, 0.5, etc.) of prediction values for each step for removing some voice samples. That is, the reference value of the predicted value of 0.1 may be previously defined as the removal criterion for generating the second learning data 470 and 0.1 as the removal criterion for generating the second learning data 470.
  • all the criteria of the prediction value for each step may be set identically.
  • the criteria for removing some speech samples may be predefined in a certain ratio, such as the lower 10% when sorted in order of predicted value.
  • FIG. 6 is a diagram showing an example of a method for determining the number of steps in a multi-level classification model according to an embodiment of the present invention.
  • the multi-level classification model may include N-level classification models 310, 320, and 330.
  • the number of steps of the classification model included in the multi-level classification model may be fixed in advance, but this embodiment shows an example of adaptively changing the number of steps of the classification model according to the learning field.
  • the multi-level classification model generating device calculates a loss function value for the classification models 310, 320, and 330 of each step.
  • the apparatus may define a multi-stage classification model including a classification model up to that stage when the loss function size becomes smaller than a predefined threshold. For example, if each loss function value from the first classification model to the N-1 classification model is greater than a threshold value and the loss function value of the Nth classification model 330 is less than a threshold value, the multi-level classification model is It is composed of N steps including the first classification model 310 to the Nth classification model 330.
  • loss functions include Mean Squared Error (MSE) and Cross Entropy Error (CEE). This embodiment is not limited to the terms of the loss function, and various conventional methods capable of evaluating the performance of each classification model (310,320,330) can be used in place of the loss function.
  • MSE Mean Squared Error
  • CEE Cross Entropy Error
  • FIG. 7 is a flowchart illustrating an example of a method for generating a multi-level classification model according to an embodiment of the present invention.
  • the multi-level classification model generation device sequentially connects and arranges a plurality of classification models (S700 ). If the number of stages of the classification model belonging to the multi-stage classification model is fixed, the apparatus arranges the classification models for the fixed number of stages. On the other hand, if the number of stages of the classification model belonging to the multi-level classification model is variable, the apparatus can connect and arrange a plurality of classification models that are much larger than the number of steps belonging to the general multi-level classification model.
  • the apparatus may directly input the first learning data in an unbalanced state into the first classification model of the multi-level classification model without a process such as undersampling or oversampling (S710 ).
  • the first classification model learns using the first learning data.
  • the apparatus calculates a loss function value of the first classification model (S720), and when the loss function value exceeds a predefined threshold value (S730), the second for the second classification model based on the predicted value of the first classification model
  • the learning data is generated (S740). For example, as shown in FIGS. 4 and 5, the device generates second learning data excluding a part of the speech sample from the first learning data.
  • the apparatus inputs the second learning data into the second classification model (S710), calculates a loss function value (S720), and performs a process of determining whether the loss function value is below a threshold (S730).
  • the device repeats the process of generating N-th learning data and inputting it into the N-th classification model until the loss function value becomes less than or equal to the threshold.
  • the apparatus defines a multi-level classification model including the first classification model to the Nth classification model (S750). That is, when the M(M>N) classification model is concatenated, the device is configured from the (N+1) classification model to the first to N classification models excluding the M classification model using the loss function value. Create a multi-level classification model.
  • FIG. 8 is a diagram illustrating a classification process using a multi-level classification model according to an embodiment of the present invention.
  • an apparatus for generating a multi-level classification model may classify an input sample using a multi-level classification model. For example, if the multi-level classification model is a default prediction model or a cancer prediction model, when the device receives a sample of financial statistics or medical images using the multi-level classification model, the device finally outputs classification results such as default rate or probability of cancer. can do.
  • the device determines that the sample does not belong to the group to be predicted and ends further classification.
  • the predicted value is 0 as a criterion for determining whether to proceed with the step further
  • the present invention is not limited thereto, and the predicted value for ending the classification process may be variously set according to an embodiment. For example, if the predicted value is between 0 and 0.1, it can be set to end the classification step. As another example, a range of predicted values for ending each step of the classification process may be different.
  • the criterion of the predicted value for the end of each step is defined as 0.
  • the device inputs a sample to the second classification model 320 as a next step. If the predicted value of the second classification model 320 is 0, the device ends the classification process and determines that the sample does not belong to the prediction target group. On the other hand, if the predicted value of the second classification model 320 is not 0, the device inputs a sample to the third classification model, which is the next step. In this way, the device performs the classification process up to the Nth classification model 330.
  • FIG. 9 is a diagram showing an example of the configuration of a multi-level classification model generating apparatus according to an embodiment of the present invention.
  • the multi-level classification model generation device includes a model placement unit 910, a data management unit 920, an iteration unit 930, a model definition unit 940, and a classification unit 950.
  • the device may be implemented as a computing device including a processor, memory, input/output device, wired or wireless communication module, and the like.
  • the computing device may be various types, such as a virtual machine and a cloud system, as well as a general computer or server.
  • each component of the present embodiment is implemented as a software module, and the computing device can load each software module into memory and perform it through a processor.
  • the model arranging unit 910 sequentially connects and arranges a plurality of classification models that output a predicted value indicating which group the input sample of at least two or more groups is close to.
  • the data management unit 920 inputs Nth training data into the Nth (N is a natural number greater than or equal to 1) classification model, and receives a predetermined amount of samples based on the predicted values for each sample of the Nth training data output from the Nth classification model. Excluded or extracted to generate (N+1) learning data. For example, the data management unit 920 may generate negative (N+1) training data by excluding negative samples having a prediction value smaller than the lowest value among the prediction values of the plurality of positive samples. An example of a method of generating learning data is illustrated in FIGS. 4 and 5.
  • the iterative execution unit 930 inputs the (N+1) learning data generated by the data management unit 920 to the (N+1) classification model until the size of the loss function of the Nth classification model becomes less than or equal to a predetermined level. Repeatedly.
  • the model definition unit 940 defines a multi-level classification model including a first classification model to the Nth classification model among a plurality of classification models when the size of the loss function of the Nth classification model is less than or equal to a predetermined level.
  • An example of a multi-level classification model composed of N-th steps is illustrated in FIG. 6.
  • the classification unit 950 classifies input data including at least one sample using the multi-level classification model.
  • An example of a method for classifying samples is illustrated in FIG. 8.
  • the present invention can also be embodied as computer readable program code on a computer readable recording medium.
  • the computer-readable recording medium includes all kinds of recording devices in which data readable by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disks, and optical data storage devices.
  • the computer-readable recording medium can be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

다단계 분류모델 생성 방법 및 그 장치가 개시된다. 다단계 분류모델 생성장치는 적어도 둘 이상의 그룹 중 입력된 샘플이 어느 그룹에 가까운지를 나타내는 예측값을 출력하는 복수 개의 분류모델을 순차적으로 연결 배치하고, 제N(N은 1 이상의 자연수) 분류모델에 제N 학습데이터를 입력하고, 제N 분류모델로부터 출력된 제N 학습데이터의 각 샘플에 대한 예측값을 기준으로 일정량의 샘플을 추출하여 제(N+1) 학습데이터를 생성하고, 제N 분류모델의 손실함수의 크기가 일정 이하가 될 때까지 제(N+1) 학습데이터를 제(N+1) 분류모델에 입력하는 과정을 반복 수행한다.

Description

다단계 분류모델 생성 방법 및 그 장치
본 발명은 머신러닝(machine learning) 기반의 분류모델에 관한 것으로, 보다 상세하게는 다단계의 분류모델을 생성하는 방법 및 그 장치에 관한 것이다.
머신러닝 기반의 분류모델은 사용을 위해 먼저 학습과정이 필요하다. 분류모델의 학습을 위한 데이터(즉, 학습데이터)는 분류모델이 사용되는 분야에 따라 다양하게 수집될 수 있다. 그러나 웹 마이닝(web mining)부터 텍스트 범주화, 금융공학, 생물의학에 이르기까지 다양한 분야에서 양성샘플과 음성샘플의 수집 비율이 맞지 않는 경우가 자주 발생한다. 여기서 양성샘플이라고 함은 분류모델이 예측하고자 하는 그룹에 속하는 샘플을 의미하고, 음성샘플은 예측하고자 하는 그룹에 속하지 않는 샘플을 의미한다.
예를 들어, 머신러닝 기반의 분류모델이 의료영상으로부터 암을 분류하는 모델이라고 하면, 해당 모델의 학습을 위해서 암 상태를 나타내는 의료영상인 양성샘플과 정상상태를 나타내는 의료영상인 음성샘플의 비율이 유사한 학습데이터가 필요하다. 그러나 전체 의료영상에서 정상상태의 의료영상 대비 암 상태의 의료영상이 차지하는 비율이 매우 낮다.
음성샘플이 양성샘플에 비해 과도하게 수집되는 문제를 데이터 불균형 문제 또는 비대칭 데이터 문제라고 하며, 머신러닝 기반의 분류모델에서 이는 모델의 성능을 좌우하는 중요한 요소가 된다. 따라서 데이터 불균형 문제를 해결하기 위하여 종래에는 대부분 수집한 데이터를 전처리하는 과정을 포함한다.
데이터 불균형 문제를 해결하는 종래 전처리 방법 중 하나가 언더샘플링(under-sampling)이다. 언더샘플링는 과도하게 수집된 음성샘플의 일부를 추출하여 분류모델의 학습에 사용하는 방법이다. 샘플 추출을 통해 불균형 문제를 일부 해소할 수 있는데 이때 원래의 분포를 적절히 반영하도록 추출하는 것이 중요하다. 샘플 추출 방법으로 단순임의추출법, 층화임의추출법, 계통추출법 등 전통 통계분야에서 사용되는 표본추출법이 적용될 수 있다. 그러나 언더샘플링는 수집한 전체 데이터를 사용하지 않으므로 정보의 손실이 발생하는 단점이 있다.
데이터 불균형 문제를 해결하는 종래 전처리 방법 중 다른 하나는 오버샘플링(over-sampling)이다. 오버샘플링은 적은 비율로 존재하는 양성샘플을 시드(seed)로 하여 추가 데이터를 인위적으로 생성하는 방법이다. 오버샘플링 방법의 일 예로 SMOTE(Synthetic Minority Over-Sampling), ADASYN(Adaptive Synthetic Sampling Approach for Imbalanced Learning) 등이 존재한다. 오버샘플링은 불균형 문제를 해소하기 위해 양성샘플을 원하는 비율만큼 생성할 수 있지만 생성된 데이터가 실제와 얼마나 일치하는지에 대한 기준이 없으며, 대부분 절대적인 거리(예를 들어, Euclidean distance)를 기준으로 실제와 일치하는지 파악하므로 범주형 데이터엔 적용하기 어려울 뿐만 아니라 계산 시간이 많이 소요되는 문제점이 있다.
본 발명의 실시 예가 이루고자 하는 기술적 과제는, 양성샘플과 음성샘플의 불균형 상황에서 최적의 성능을 발휘할 수 있는 다단계 분류 모델을 생성하는 방법 및 그 장치를 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 다단계 분류모델 생성 방법의 일 예는, 적어도 둘 이상의 그룹 중 입력된 샘플이 어느 그룹에 가까운지를 나타내는 예측값을 출력하는 복수 개의 분류모델을 순차적으로 연결 배치하는 단계; 제1 학습데이터를 상기 복수 개의 분류모델 중 제일 앞에 위치한 제1 분류모델에 입력하는 단계; 상기 제1 분류모델로부터 출력된 상기 제1 학습데이터의 각 샘플에 대한 예측값을 기준으로, 상기 제1 학습데이터에서 일정량의 샘플을 제외한 제2 학습데이터를 제2 분류모델에 입력하는 단계; 및 제N(N은 2 이상의 자연수) 분류모델의 손실함수의 크기가 일정 이하가 될 때까지, 제N 분류모델로부터 출력된 제N 학습데이터의 각 샘플에 대한 예측값을 기준으로 제N 학습데이터에서 일정량의 샘플을 제외한 제(N+1) 학습데이터를 제(N+1) 분류모델에 입력하는 과정을 반복 수행하는 단계;를 포함한다.
상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 다단계 분류모델 생성장치의 일 예는, 적어도 둘 이상의 그룹 중 입력된 샘플이 어느 그룹에 가까운지를 나타내는 예측값을 출력하는 복수 개의 분류모델을 순차적으로 연결 배치하는 모델배치부; 제N(N은 1 이상의 자연수) 분류모델에 제N 학습데이터를 입력하고, 상기 제N 분류모델로부터 출력된 상기 제N 학습데이터의 각 샘플에 대한 예측값을 기준으로 일정량의 샘플을 추출하여 제(N+1) 학습데이터를 생성하는 데이터관리부; 및 상기 제N 분류모델의 손실함수의 크기가 일정 이하가 될 때까지 상기 데이터관리부가 생성한 제(N+1) 학습데이터를 제(N+1) 분류모델에 입력하는 과정을 반복 수행하는 반복수행부;를 포함한다.
본 발명의 실시 예에 따르면, 양성샘플과 음성샘플의 비율이 맞지 않는 불균형 문제를 언더샘플링 또는 오버샘플링 등과 같은 전처리 과정 없이 다단계 분류모델을 이용하여 해소한다. 데이터 불균형 상황에서도 최적의 성능을 발휘할 수 있는 다단계 분류모델을 생성할 수 있다. 또한, 다단계 분류모델의 단계 수를 적용분야에 따라 적응적으로 결정할 수 있다.
도 1은 본 발명의 실시 예에 사용되는 분류모델의 일 예를 도시한 도면,
도 2는 본 발명의 실시 예에 적용되는 분류모델의 학습데이터와 예측값의 일 예를 도시한 도면,
도 3은 본 발명의 실시 예에 따른 다단계 분류모델의 일 예를 도시한 도면,
도 4는 본 발명의 실시 예에 따른 데이터 불균형 문제를 해소하는 방법의 개념을 도시한 도면,
도 5는 본 발명의 실시 예에 따른 각 단계별 학습데이터를 생성하는 방법의 일 예를 도시한 도면,
도 6은 본 발명의 실시 예에 따른 다단계 분류모델의 단계 수를 결정하는 방법의 일 예를 도시한 도면,
도 7은 본 발명의 실시 예에 따른 다단계 분류모델 생성 방법의 일 예를 도시한 흐름도,
도 8은 본 발명의 실시 예에 따른 다단계 분류모델을 이용한 분류 과정을 도시한 도면, 그리고,
도 9는 본 발명의 실시 예에 따른 다단계 분류모델 생성장치의 구성의 일 예를 도시한 도면이다.
이하에서, 첨부된 도면들을 참조하면 본 발명의 실시 예에 따른 다단계 분류모델 생성 방법 및 그 장치에 대해 상세히 설명한다.
도 1은 본 발명의 실시 예에 사용되는 분류모델의 일 예를 도시한 도면이다.
도 1을 참조하면, 머신러닝 기반의 분류모델(100)은 학습데이터를 이용한 학습 과정이 필요하다. 학습데이터는 양성샘플과 음성샘플의 실측자료(Ground Truth)를 포함할 수 있다. 분류모델(100)은 학습데이터에 포함된 샘플을 기 정의된 적어도 둘 이상의 그룹(예를 들어, 예측 그룹과 이에 속하지 않는 그룹) 중 어느 그룹에 가까운지를 나타내는 예측값을 출력한다. 예를 들어, 분류모델(100)은 도 2와 같이 예측하고자 하는 그룹에 입력 샘플이 속할 확률을 0~1 사이의 예측값으로 출력할 수 있다. 즉, 의료영상에서 암을 예측하는 분류모델(100)인 경우에, 분류모델(100)은 암 확률을 예측값으로 출력하고, 부도율을 예측하는 분류모델인 경우에, 분류모델은 부도율을 예측값으로 출력할 수 있다.
분류모델(100)은 CNN(Convolutional Neural Network), DenseNet, U-net, Goolenet 등 다양한 아키텍처로 구현될 수 있다. 분류모델(100)은 양성샘플에 대한 예측값과 음성샘플에 대한 예측값을 이용하여 다양한 파라미터 등을 조정하는 학습 과정을 수행한다. 예를 들어, 분류모델(100)이 CNN 아키텍처로 구현된 경우에, 분류모델(100)은 학습데이터와 예측값을 이용하여 인공신경망(artificial network)의 연결 가중치를 조정하는 학습 과정을 수행할 수 있다.
양성샘플과 음성샘플의 불균형 상황에서 분류모델(100)을 학습시키는 경우에 분류모델(100)의 성능이 저하되는 문제점이 존재한다. 본 실시 예는 이러한 문제점을 종래의 언더샘플링 또는 오버샘플링 등의 전처리 과정 없이 다단계 분류모델을 통해 해결하는 방법을 제시한다.
도 2는 본 발명의 실시 예에 적용되는 분류모델의 학습데이터와 예측값의 일 예를 도시한 도면이다.
도 2를 참조하면, 분류모델(100)은 학습데이터(210)에 포함된 양성샘플(240)과 음성샘플(230)을 입력받으면 예측값(220)을 출력한다. 본 실시 예는 설명의 편의를 위하여 분류모델(100)이 0~1 사이의 예측값(220)을 출력하는 경우를 가정한다. 예측값(220)이 1이면 입력 샘플은 예측하고자 하는 그룹에 반드시 속하는 것을 의미하고, 예측값이 0이면, 입력 샘플은 예측하고자 하는 그룹에 속하지 않는 것을 의미한다. 0과 1사이의 예측값은 입력 샘플이 예측하고자 하는 그룹에 속할 확률을 의미할 수 있다. 예를 들어, 학습데이터(210)가 금융 통계정보이고, 예측값(220)이 부도율을 나타내는 경우에, 예측값(220)이 1이면 부도 가능성이 100%임을 의미하고, 예측값(220)이 0이면 부도 가능성이 0%임을 의미한다.
본 실시 예는 양성샘플(240)과 음성샘플(230)의 비율이 서로 맞지 않는 불균형 문제를 해결할 수 있는 방법을 제시한다. 그러나 본 실시 예는 불균형 문제가 존재하는 분야에만 적용되는 것은 아니며 불균형 문제가 존재하지 않는 일반적인 분야에도 적용할 수 있다.
도 3은 본 발명의 실시 예에 따른 다단계 분류모델의 일 예를 도시한 도면이다.
도 3을 참조하면, 데이터 불균형 문제를 해소하기 위한 다단계 분류모델(300)이 도시되어 있다. 다단계 분류모델(300)은 적어도 둘 이상의 분류모델(310,320,330)이 순차적으로 연결 배치된 구조이다. 각 분류모델(310,320,330)은 동일한 아키텍처 또는 서로 다른 아키텍처로 구성될 수 있다. 예를 들어, 제1 분류모델(310)은 CNN 아키텍처로 구현되고, 제2 분류모델(320)은 DenseNET으로 구현되는 등 다단계 분류모델(300)에 포함된 분류모델(310,320,330)의 전체 또는 일부는 서로 다른 머신러닝 모델로 구현될 수 있다.
다단계 분류모델(300)에 포함된 전체 또는 일부의 분류모델(310,320,330)의 아키텍처가 서로 다른 경우에, 각 분류모델(310,320,330)의 배치 순서는 사용자에 의해 지정되거나 임의로 배치될 수 있다. 예를 들어, DenseNET 아키텍처로 구현된 분류모델이 제1 분류모델(310)이 되고 CNN으로 구현된 분류모델이 제2 분류모델(320)이 되거나, 그 반대의 순서로 배치될 수 있다. 또 다른 예로, 다단계 분류모델(300)에 속한 각 분류모델(310,320,330)의 배치순서를 다양하게 변형한 후 최적의 성능을 나타내는 배치순서의 다단계 분류모델을 선택할 수 있다.
도 4는 본 발명의 실시 예에 따른 데이터 불균형 문제를 해소하는 방법의 개념을 도시한 도면이다.
도 3 및 도 4를 함께 참조하면, 본 실시 예는 학습데이터의 일부를 전처리 과정에서 미리 제외하거나 임의로 생성하지 않고 불균형 상태의 학습데이터를 다단계 분류모델(300)에 그대로 입력한다. 다만, 도 3에서 살핀 다단계 분류모델(300)에서 각 단계의 분류모델(310,320,330)을 거칠 때마다 음성샘플의 일정량이 제거된다.
예를 들어, 음성샘플(400)과 양성샘플(450)의 비율이 맞지 않는 제1 학습데이터(460)가 존재한다. 제1 학습데이터(460)는 분류모델의 적용 분야에서 수집한 데이터로서, 언더샘플링이나 오버샘플링 등의 전처리 과정이 적용되지 않는 데이터이다. 즉, 제1 학습데이터(460)는 정보의 손실이나 왜곡이 발생하지 않은 데이터 그 자체이다.
제1 학습데이터(460)는 다단계 분류모델(300)의 제1 분류모델(310)의 학습데이터로 입력되는 데이터이다. 제2 학습데이터(470)는 제2 분류모델(320)의 학습데이터로 입력되는 데이터로서, 제1 학습데이터(460)에서 불균형 상태에 존재하는 음성샘플(400)의 일부를 제외한 데이터이다. 제3 학습데이터(480)는 제3 분류모델의 학습데이터로 입력되는 데이터로서, 제2 학습데이터(470)에서 음성샘플(410)의 일부를 제외한 데이터이다.
이와 같은 방법으로, 제N(2 이상의 자연수) 분류모델의 학습데이터는 제(N-1) 학습데이터에서 음성샘플의 일부를 제외한 데이터가 된다. 본 실시 예는 설명의 편의를 위하여 제3 학습데이터(480)까지 도시하고 있으나, 다단계 분류모델(300)이 두 개의 분류모델(310,320)로 구성되는 경우에는 제2 학습데이터까지만 생성되면 된다.
다단계 분류모델(300)에서 각 단계를 지날 때마다 음성샘플(400,410,420)과 양성샘플(450)의 불균형 비율이 조정된다. 종래의 언더샘플링은 분류모델을 학습시키기 위한 학습데이터의 일부를 미리 제거한 후 분류모델에 입력하므로 정보의 손실이 발생한다. 그러나 본 실시 예는 불균형 상태의 제1 학습데이터(460)를 그대로 제1 분류모델(310)에 입력하므로 정보의 손실이 발생하지 않는다. 또한, 각 단계를 위한 학습데이터 생성을 위해 음성샘플(400,410,20)의 일부를 제외할 때 임의로 제외하는 것이 아니라 도 5에서 살피는 바와 같이 정보의 왜곡이 발생하지 않도록 예측값을 기준으로 일부의 음성샘플을 제외한다.
각 분류모델(310,320,330)은 각각 생성된 학습데이터(460,470,480)를 이용하여 학습한다. 예를 들어, 다단계 분류모델(300)이 N 개의 분류모델(310,320,330)로 구성된 경우에, 제1 분류모델(310)은 제1 학습데이터(360)를 이용하여 학습하고, 제2 분류모델(320)은 제2 학습데이터(470)를 이용하여 학습하고, 제N 분류모델(330)은 제N 학습데이터를 이용하여 학습한다.
도 5는 본 발명의 실시 예에 따른 각 단계별 학습데이터를 생성하는 방법의 일 예를 도시한 도면이다.
도 5를 참조하면, 각 분류모델(310,320,330)은 도 2에서 살핀 바와 같이 양성샘플과 음성샘플로 이루어진 학습데이터(210)를 입력받으면 각 샘플에 대한 예측값(220)을 출력한다. 도 2와 같이 각 분류모델의 예측값의 범위가 0~1 사이인 경우에, 각 샘플은 도 5와 같이 예측값을 기준으로 정렬(500)된다. 그리고 예측값(220)이 가장 작은 양성샘플(510)을 기준으로 그 이하의 음성샘플을 제거하여 그 다음 단계를 위한 학습데이터를 생성한다.
본 실시 예는 예측값을 기준으로 가장 작은 양성샘플(510)을 음성샘플 제거를 위한 기준으로 제시하고 있으나, 반드시 이에 한정되는 것은 아니다. 예를 들어, 사용자가 일부 음성샘플 제거를 위한 각 단계별 예측값의 기준(예를 들어, 0.5 등)을 미리 정의할 수 있다. 즉, 제2 학습데이터(470) 생성을 위한 제거 기준으로 0.1, 제3 학습데이터(480) 생성을 위한 제거 기준으로 0.2의 예측값 기준값을 미리 정의할 수 있다. 다른 실시 예로 각 단계별 예측값의 기준을 모두 동일하게 설정할 수 있다. 또 다른 예로, 일부 음성샘플 제거를 위한 기준은 예측값 순으로 정렬했을 때 하위 10% 등과 같이 일정 비율로 미리 정의될 수 있다.
도 6은 본 발명의 실시 예에 따른 다단계 분류모델의 단계 수를 결정하는 방법의 일 예를 도시한 도면이다.
도 6을 참조하면, 다단계 분류모델은 N 단계의 분류모델(310,320,330)로 구성될 수 있다. 다단계 분류모델에 포함되는 분류모델의 단계 수는 미리 고정될 수 있으나, 본 실시 예는 학습 분야에 따라 분류모델의 단계 수를 적응적으로 변경하는 예를 도시하고 있다.
분류모델의 단계 수를 적응적으로 결정하기 위하여, 먼저 다단계 분류모델 생성장치(이하, 장치)는 각 단계의 분류모델(310,320,330)에 대한 손실함수 값을 산출한다. 장치는 손실함수 크기가 기 정의된 임계값보다 작아지면 그 단계까지의 분류모델을 포함하는 다단계 분류모델을 정의할 수 있다. 예를 들어, 제1 분류모델부터 제N-1 분류모델까지의 각 손실함수 값이 임계값보다 크고, 제N 분류모델(330)의 손실함수 값이 임계값보다 작으면, 다단계 분류모델은 제1 분류모델(310)부터 제N 분류모델(330)을 포함하는 N 단계로 구성된다.
손실함수의 일 예로 MSE(Mean Squared Error), CEE(Cross Entropy Error) 등이 존재한다. 본 실시 예는, 손실함수의 용어에 한정되지 아니하며, 각 분류모델(310,320,330)의 성능을 평가할 수 있는 종래의 다양한 방법이 손실함수를 대신하여 사용될 수 있다.
도 7은 본 발명의 실시 예에 따른 다단계 분류모델 생성 방법의 일 예를 도시한 흐름도이다.
도 7을 참조하면, 다단계 분류모델 생성장치(이하, '장치')는 복수 개의 분류모델을 순차적으로 연결 배치한다(S700). 다단계 분류모델에 속한 분류모델의 단계 수가 고정된 경우이면, 장치는 고정된 단계 수만큼의 분류모델을 배치한다. 반면, 다단계 분류모델에 속한 분류모델의 단계 수가 가변적이면, 장치는 일반적인 다단계 분류모델에 속한 단계 수보다 훨씬 많은 복수 개의 분류모델을 연결 배치할 수 있다.
장치는 언더샘플링 또는 오버샘플링 등의 과정 없이 불균형 상태인 제1 학습데이터를 다단계 분류모델의 제1 분류모델에 그대로 입력할 수 있다(S710). 제1 분류모델은 제1 학습데이터를 이용하여 학습한다. 장치는 제1 분류모델의 손실함수 값을 산출하고(S720), 손실함수 값이 기 정의된 임계값을 초과하면(S730), 제1 분류모델의 예측값을 기준으로 제2 분류모델을 위한 제2 학습데이터를 생성한다(S740). 예를 들어, 장치는 도 4 및 도 5에서 살핀 바와 같이 제1 학습데이터에서 음성샘플의 일부를 제외한 제2 학습데이터를 생성한다.
장치는 제2 학습데이터를 제2 분류모델에 입력하고(S710), 손실함수값을 산출하고(S720), 손실함수 값이 임계값 이하인지 파악하는 과정을 다시 수행한다(S730). 장치는 손실함수 값이 임계값 이하가 될 때까지 제N 학습데이터를 생성하고 제N 분류모델에 입력하는 과정을 반복 수행한다.
제N 분류모델의 손실함수 값이 임계값 이하이면(S730), 장치는 제1 분류모델부터 제N 분류모델까지를 포함하는 다단계 분류모델을 정의한다(S750). 즉, M(M>N) 단계의 분류모델이 연결 배치된 경우에, 장치는 손실함수값을 이용하여 제(N+1) 분류모델부터 제M 분류모델을 제외한 제1~N 분류모델로 구성된 다단계 분류모델을 생성한다.
도 8은 본 발명의 실시 예에 따른 다단계 분류모델을 이용한 분류 과정을 도시한 도면이다.
도 8을 참조하면, 각 단계의 학습데이터를 이용하여 학습된 다단계 분류모델이 생성되면, 다단계 분류모델 생성장치(이하, '장치')는 다단계 분류모델을 이용하여 입력 샘플을 분류할 수 있다. 예를 들어, 다단계 분류모델이 부도 예측 모델이거나 암 예측 모델이라면, 장치는 다단계 분류모델을 이용하여 금융 통계 정보 또는 의료영상의 샘플을 입력받으면, 부도율 또는 암 가능 확률 등의 분류결과를 최종적으로 출력할 수 있다.
예를 들어, 다단계 분류모델에 속한 각 분류모델이 예측 대상에 대한 예측값으로 도 2와 같이 0~1 사이의 값을 출력하는 모델인 경우에, 제1 분류모델(310)의 예측값이 0이면, 장치는 샘플이 예측 대상 그룹에 속하지 않는다고 판단하고 더 이상의 분류과정을 종료한다. 본 실시 예는 단계의 추가 진행 여부를 판단하는 기준으로 예측값이 0인 경우를 도시하고 있으나, 반드시 이에 한정되는 것은 아니며 분류과정 종료를 위한 예측값은 실시 예에 따라 다양하게 설정될 수 있다. 예를 들어, 예측값이 0~0.1 사이이면 분류 단계를 종료하도록 설정할 수 있다. 또 다른 예로, 각 단계별 분류과정 종료를 위한 예측값의 범위를 서로 다르게 할 수 있다. 다만, 본 실시 예는 설명의 편의를 위하여 각 단계의 종료를 위한 예측값의 기준을 0이라고 정의한다.
제1 분류모델(310)의 예측값이 0이 아니면, 장치는 샘플을 그 다음 단계인 제2 분류모델(320)에 입력한다. 제2 분류모델(320)의 예측값이 0이면, 장치는 분류 과정을 종료하고 해당 샘플이 예측 대상 그룹에 속하지 않는다고 판단한다. 반면, 제2 분류모델(320)의 예측값이 0이 아니면, 장치는 샘플을 그 다음 단계인 제3 분류모델에 입력한다. 이와 같은 방법으로, 장치는 제N 분류모델(330)까지 분류 과정을 수행한다.
도 9는 본 발명의 실시 예에 따른 다단계 분류모델 생성장치의 구성의 일 예를 도시한 도면이다.
도 9를 참조하면, 다단계 분류모델 생성장치(이하, '장치')는 모델배치부(910), 데이터관리부(920), 반복수행부(930), 모델정의부(940) 및 분류부(950)를 포함한다. 장치는 프로세서, 메모리, 입출력장치, 유선 또는 무선 통신모듈 등을 포함하는 컴퓨팅 장치로 구현될 수 있다. 여기서 컴퓨팅 장치는 일반 컴퓨터나 서버뿐만 아니라 가상머신, 클라우드 시스템 등 다양한 형태일 수 있다. 예를 들어, 본 실시 예의 각 구성은 소프트웨어 모듈로 구현되고, 컴퓨팅 장치는 각 소프트웨어 모듈을 메모리에 로딩한 후 프로세서를 통해 이를 수행할 수 있다.
모델배치부(910)는 적어도 둘 이상의 그룹 중 입력된 샘플이 어느 그룹에 가까운지를 나타내는 예측값을 출력하는 복수 개의 분류모델을 순차적으로 연결 배치한다.
데이터관리부(920)는 제N(N은 1 이상의 자연수) 분류모델에 제N 학습데이터를 입력하고, 제N 분류모델로부터 출력된 제N 학습데이터의 각 샘플에 대한 예측값을 기준으로 일정량의 샘플을 배제 또는 추출하여 제(N+1) 학습데이터를 생성한다. 예를 들어, 데이터관리부(920)는 복수 개의 양성샘플의 예측값 중 최하값보다 작은 예측값을 가진 음성샘플을 제N 학습데이터에서 제외하여 제(N+1) 학습데이터를 생성할 수 있다. 학습데이터의 생성 방법의 일 예가 도 4 및 도 5에 도시되어 있다.
반복수행부(930)는 제N 분류모델의 손실함수의 크기가 일정 이하가 될 때까지 데이터관리부(920)가 생성한 제(N+1) 학습데이터를 제(N+1) 분류모델에 입력하는 과정을 반복 수행한다.
모델정의부(940)는 제N 분류모델의 손실함수의 크기가 일정 이하가 되면, 복수 개의 분류모델 중 제1 분류모델 내지 상기 제N 분류모델를 포함하는 다단계 분류모델을 정의한다. 제N 단계로 구성된 다단계 분류모델의 일 예가 도 6에 도시되어 있다.
분류부(950)는 적어도 하나 이상의 샘플을 포함하는 입력데이터를 상기 다단계 분류모델을 이용하여 분류한다. 샘플의 분류방법의 일 예가 도 8에 도시되어 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (12)

  1. 적어도 둘 이상의 그룹 중 입력된 샘플이 어느 그룹에 가까운지를 나타내는 예측값을 출력하는 복수 개의 분류모델을 순차적으로 연결 배치하는 단계;
    제1 학습데이터를 상기 복수 개의 분류모델 중 제일 앞에 위치한 제1 분류모델에 입력하는 단계;
    상기 제1 분류모델로부터 출력된 상기 제1 학습데이터의 각 샘플에 대한 예측값을 기준으로, 상기 제1 학습데이터에서 일정량의 샘플을 제외한 제2 학습데이터를 제2 분류모델에 입력하는 단계; 및
    제N(N은 2 이상의 자연수) 분류모델의 손실함수의 크기가 일정 이하가 될 때까지, 제N 분류모델로부터 출력된 제N 학습데이터의 각 샘플에 대한 예측값을 기준으로 제N 학습데이터에서 일정량의 샘플을 제외한 제(N+1) 학습데이터를 제(N+1) 분류모델에 입력하는 과정을 반복 수행하는 단계;를 포함하는 것을 특징으로 하는 다단계 분류모델 생성 방법.
  2. 제 1항에 있어서,
    상기 학습데이터는 예측하고자 하는 그룹에 속하는 복수 개의 양성샘플과 그 나머지 그룹에 속하는 복수 개의 음성샘플을 포함하고, 상기 음성샘플의 비율이 50% 초과인 것을 특징으로 하는 다단계 분류모델 생성 방법.
  3. 제 2항에 있어서, 상기 제2 학습데이터를 제2 분류모델에 입력하는 단계는,
    상기 복수 개의 양성샘플의 예측값 중 최하값보다 작은 예측값을 가진 음성샘플을 상기 제1 학습데이터에서 제외하여 상기 제2 학습데이터를 생성하는 단계;를 포함하는 것을 특징으로 하는 다단계 분류모델 생성 방법.
  4. 제 1항에 있어서,
    상기 복수 개의 분류모델은 서로 다른 머신러닝 모델인 것을 특징으로 하는 다단계 분류모델 생성 방법.
  5. 제 1항에 있어서,
    상기 제1 분류모델은 상기 제1 학습데이터를 이용하여 학습하고,
    상기 제2 분류모델은 상기 제2 학습데이터를 이용하여 학습하고,
    상기 제N 분류모델은 상기 제N 학습데이터를 이용하여 학습하는 것을 특징으로 하는 다단계 분류모델 생성 방법.
  6. 제 1항에 있어서,
    상기 복수 개의 분류모델은 적어도 둘 이상의 그룹 중 예측 대상 그룹에 속할 확률을 예측값으로 출력하는 것을 특징으로 하는 다단계 분류모델 생성 방법.
  7. 제 1항에 있어서,
    상기 제N 분류모델의 손실함수의 크기가 일정 이하가 되면, 상기 복수 개의 분류모델 중 상기 제1 분류모델 내지 상기 제N 분류모델을 포함하는 다단계 분류모델을 정의하는 단계; 및
    적어도 하나 이상의 샘플을 포함하는 입력데이터를 상기 다단계 분류모델을 이용하여 분류하는 단계;를 더 포함하는 것을 특징으로 하는 다단계 분류모델 생성 방법.
  8. 적어도 둘 이상의 그룹 중 입력된 샘플이 어느 그룹에 가까운지를 나타내는 예측값을 출력하는 복수 개의 분류모델을 순차적으로 연결 배치하는 모델배치부;
    제N(N은 1 이상의 자연수) 분류모델에 제N 학습데이터를 입력하고, 상기 제N 분류모델로부터 출력된 상기 제N 학습데이터의 각 샘플에 대한 예측값을 기준으로 일정량의 샘플을 추출하여 제(N+1) 학습데이터를 생성하는 데이터관리부; 및
    상기 제N 분류모델의 손실함수의 크기가 일정 이하가 될 때까지 상기 데이터관리부가 생성한 제(N+1) 학습데이터를 제(N+1) 분류모델에 입력하는 과정을 반복 수행하는 반복수행부;를 포함하는 것을 특징으로 하는 다단계 분류모델 생성장치.
  9. 제 8항에 있어서, 상기 데이터관리부는,
    복수 개의 양성샘플의 예측값 중 최하값보다 작은 예측값을 가진 음성샘플을 상기 제N 학습데이터에서 제외하여 상기 제(N+1) 학습데이터를 생성하는 것을 특징으로 하는 다단계 분류모델 생성장치.
  10. 제 8항에 있어서,
    제N 분류모델은 제N 학습데이터를 이용하여 학습하는 것을 특징으로 하는 다단계 분류모델 생성장치.
  11. 제 8항에 있어서,
    상기 제N 분류모델의 손실함수의 크기가 일정 이하가 되면, 상기 복수 개의 분류모델 중 상기 제1 분류모델 내지 상기 제N 분류모델를 포함하는 다단계 분류모델을 정의하는 모델정의부;를 더 포함하고,
    적어도 하나 이상의 샘플을 포함하는 입력데이터를 상기 다단계 분류모델을 이용하여 분류하는 분류부;를 더 포함하는 것을 특징으로 하는 다단계 분류모델 생성장치.
  12. 제 1항 내지 제 7항 중 어느 한 항에 기재된 방법을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2019/016993 2019-01-23 2019-12-04 다단계 분류모델 생성 방법 및 그 장치 WO2020153597A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190008602A KR102002549B1 (ko) 2019-01-23 2019-01-23 다단계 분류모델 생성 방법 및 그 장치
KR10-2019-0008602 2019-01-23

Publications (1)

Publication Number Publication Date
WO2020153597A1 true WO2020153597A1 (ko) 2020-07-30

Family

ID=67468932

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/016993 WO2020153597A1 (ko) 2019-01-23 2019-12-04 다단계 분류모델 생성 방법 및 그 장치

Country Status (2)

Country Link
KR (1) KR102002549B1 (ko)
WO (1) WO2020153597A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465042B (zh) * 2020-12-02 2023-10-24 中国联合网络通信集团有限公司 一种分类网络模型的生成方法及装置
WO2024106751A1 (ko) * 2022-11-15 2024-05-23 주식회사 인비전랩 인공지능 모델 자동생성 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170039951A (ko) * 2015-10-02 2017-04-12 네이버 주식회사 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
KR20170053525A (ko) * 2015-11-06 2017-05-16 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
KR20180055573A (ko) * 2016-11-17 2018-05-25 삼성전자주식회사 데이터 인식 및 트레이닝 장치 및 방법
KR20180125905A (ko) * 2017-05-16 2018-11-26 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170039951A (ko) * 2015-10-02 2017-04-12 네이버 주식회사 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
KR20170053525A (ko) * 2015-11-06 2017-05-16 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
KR20180055573A (ko) * 2016-11-17 2018-05-25 삼성전자주식회사 데이터 인식 및 트레이닝 장치 및 방법
KR20180125905A (ko) * 2017-05-16 2018-11-26 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RAHBAR, MOHAMMAD ET AL.: "Unbalance Fault Localization in Rotating Machinery Disks Using EEMD and Optimized Multi-ctass SVM", 2017 IEEE INTERNATIONAL INSTRUMENTATION AND MEASUREMENT TECHNOLOGY CONFERENCE (I2MTC, May 2017 (2017-05-01), pages 1258 - 1263, XP033115117 *

Also Published As

Publication number Publication date
KR102002549B1 (ko) 2019-07-22

Similar Documents

Publication Publication Date Title
CN109617888B (zh) 一种基于神经网络的异常流量检测方法及系统
CN112491854B (zh) 一种基于fcnn的多方位安全入侵检测方法及系统
US20190340507A1 (en) Classifying data
WO2020153597A1 (ko) 다단계 분류모델 생성 방법 및 그 장치
CN113435509B (zh) 基于元学习的小样本场景分类识别方法及系统
CN112910811B (zh) 基于联合学习的噪声水平未知条件下的盲调制识别方法和装置
CN113489674A (zh) 一种面向物联网系统的恶意流量智能检测方法及应用
WO2023179099A1 (zh) 一种图像检测方法、装置、设备及可读存储介质
Feng et al. Network protocol recognition based on convolutional neural network
CN113762405A (zh) 一种电力网络攻击识别系统及其识别方法
CN110163206B (zh) 车牌识别方法、系统、存储介质和装置
CN116522988B (zh) 基于图结构学习的联邦学习方法、系统、终端及介质
CN111178897B (zh) 在不平衡数据上快速特征学习的代价敏感的动态聚类方法
CN112948578A (zh) 一种dga域名开集分类方法、装置、电子设备及介质
WO2023113372A1 (ko) 불균형 데이터에 대한 딥러닝 분류 모델 성능을 향상시키기 위한 레이블 기반 샘플 추출 장치 및 그 방법
CN116668112A (zh) 一种生成流量对抗样本访问黑盒模型的方法及装置
CN113139650A (zh) 深度学习模型的调优方法和计算装置
CN115984946A (zh) 一种基于集成学习的人脸识别模型遗忘方法及系统
WO2023033194A1 (ko) 가지치기 기반 심층 신경망 경량화에 특화된 지식 증류 방법 및 시스템
WO2020091259A1 (ko) 비대칭 tanh 활성 함수를 이용한 예측 성능의 개선
CN114862404A (zh) 基于聚类样本与极限梯度的信用卡欺诈检测方法及设备
Merkle et al. Pruning in the Face of Adversaries
Mousa et al. Identification the modulation type in cognitive radio network based on Alexnet architecture
Xue et al. MLResNet: An Efficient Method for Automatic Modulation Classification Based on Residual Neural Network
CN112417447B (zh) 一种恶意代码分类结果的精确度验证方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19911121

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19911121

Country of ref document: EP

Kind code of ref document: A1