WO2021112335A1 - 생성적 적대 신경망 기반의 분류 시스템 및 방법 - Google Patents

생성적 적대 신경망 기반의 분류 시스템 및 방법 Download PDF

Info

Publication number
WO2021112335A1
WO2021112335A1 PCT/KR2020/003622 KR2020003622W WO2021112335A1 WO 2021112335 A1 WO2021112335 A1 WO 2021112335A1 KR 2020003622 W KR2020003622 W KR 2020003622W WO 2021112335 A1 WO2021112335 A1 WO 2021112335A1
Authority
WO
WIPO (PCT)
Prior art keywords
reward
label
weight
missing
policy
Prior art date
Application number
PCT/KR2020/003622
Other languages
English (en)
French (fr)
Inventor
르팜투옌
노철균
민예린
Original Assignee
주식회사 애자일소다
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190162110A external-priority patent/KR102093079B1/ko
Priority claimed from KR1020190162111A external-priority patent/KR102093080B1/ko
Priority claimed from KR1020200023895A external-priority patent/KR102093090B1/ko
Priority claimed from KR1020200023894A external-priority patent/KR102093089B1/ko
Application filed by 주식회사 애자일소다 filed Critical 주식회사 애자일소다
Priority to US17/606,517 priority Critical patent/US12019711B2/en
Priority to JP2020560365A priority patent/JP7059458B2/ja
Publication of WO2021112335A1 publication Critical patent/WO2021112335A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Definitions

  • the present invention relates to a classification system and method based on a generative adversarial network, and more particularly, a label data set and a label using a missing replacement value generated by a generative adversarial network (GAN). It relates to a classification system and method based on generative adversarial neural networks that can learn from an unbalanced data set of an unlabeled data set.
  • GAN generative adversarial network
  • Machine learning is an application of artificial intelligence that enables complex systems to learn and improve automatically from experience without being explicitly programmed.
  • the accuracy and validity of machine learning models may depend in part on the data used to train those models.
  • machine learning classifiers can be trained using a set of labeled (or labeled data), where the samples of data that the classifier is learning to recognize are classified into a sample. ) are provided to the classifier along with one or more labels identifying them.
  • labeled data means that an answer to the data is given (or that has been evaluated).
  • FIG. 1 is an exemplary diagram illustrating a data set including general missing data.
  • the data set 10 is configured to include n states, and the elements 11 of the states are the states.
  • the 'j' element of ' i ' is expressed as 'S i j ', where 'j' is a constant from 1 to d, and 'S i j ' is a scalar or missing data 'Z i j '(12 ) can have
  • Missing data lowers the overall quality of the data set, so there is a problem in that the predicted result in the decision-making system is distorted.
  • the present invention uses a missing replacement value generated by a generative adversarial network (GAN) to provide a labeled data set and an unlabeled unlabeled data set even in an unbalanced data set.
  • GAN generative adversarial network
  • An object of the present invention is to provide a classification system and method based on a generative adversarial neural network that can learn.
  • a generative adversarial neural network-based classification system includes: a generator for generating a missing replacement value for a missing portion of states from a labeled data set; a discriminator for discriminating the missing replacement value generated by the generator from the original data; an actor predicting an action through a policy with the missing replacement value generated by the creator; and a weight function unit configured to generate a weight of a reward based on the state replaced by the missing replacement value, the predicted action, and the label of the labeled data set.
  • the weight function unit operates so that the weight of the reward is increased for a label having a relatively small frequency, and the weight of the reward is lowered for a label having a relatively high frequency so that the labels are balanced,
  • the actor learns the policy so that the policy loss function is optimized by reflecting the weight of the predicted action and the reward generated by the weight function unit.
  • the weight of the reward according to the embodiment of the present invention is the weight of the reward according to the embodiment of the present invention.
  • is the action predicted by the policy ⁇ for a given state
  • y is the label of the state
  • ⁇ y and ⁇ a are (b is a weighting coefficient based on e, 10 %) based on logarithmic
  • the weight function unit operates so that the weight of a reward is increased for a label having a relatively low frequency, and a weight of a reward is decreased for a label having a relatively high frequency so that the labels are balanced.
  • the label frequency according to an embodiment of the present invention is
  • n k is the number of samples of the kth label, is within the range of (0, 1) - is approximated, and the actor learns the policy so that the policy loss function 41 is optimized by reflecting the weight of the predicted action and the reward generated by the weight function unit. characterized.
  • the weight function unit operates so that the weight of a reward is increased for a label having a relatively low frequency, and a weight of a reward is decreased for a label having a relatively high frequency so that the labels are balanced.
  • the actor according to an embodiment of the present invention learns the policy so that the policy loss function is optimized by reflecting the weight of the predicted action and the reward generated by the weight function unit.
  • y is the label of the state
  • a is the action predicted by the policy ⁇ for the given state
  • the classification method using a generative adversarial neural network-based classification system uses a generative adversarial network (GAN) composed of a generator, a discriminator, an actor, and a weight function unit, and , a) a generator generating missing replacement values for the missing portions of the states from the labeled data set; b) predicting an action by an actor through a policy with a missing replacement value generated by the creator; c) generating, by a weight function unit, a weight value of a reward based on the state replaced by the missing replacement value, the predicted action, and a label of the labeled data set; and d) learning, by the actor, the policy so that the policy loss function is optimized by reflecting the weight of the predicted action and the reward generated by the weight function unit,
  • GAN generative adversarial network
  • step c) the weight function unit operates so that the weight of the reward is increased for a label having a relatively low frequency, and the weight of the reward is lowered for a label with a relatively high frequency so that the labels are balanced. do.
  • step a) i) a state with a missing value from the data set labeled by the producer, and a missing indicator (m) indicating whether an element of the state corresponding to the state is missing ) to select; and ii) a missing replacement value in which the generator is replaced with random noise from a uniform distribution between '0' and '1' in the state ( ) to substitute missing values ( ), and the generated missing replacement value ( ) using a pre-processing step of learning the generator and the discriminator; characterized in that it further comprises.
  • the weight function unit of step c) increases the weight of the reward for a label with a relatively low frequency and lowers the weight of the reward for a label with a relatively high frequency so that the labels are balanced. operate so as to
  • the label frequency according to an embodiment of the present invention is
  • n k is the number of samples of the kth label, is in the range of (0, 1) - is approximated by
  • the weight of the reward according to an embodiment of the present invention is a weight of the reward according to an embodiment of the present invention.
  • is the action predicted by the policy ⁇ for a given state
  • y is the label of the state
  • ⁇ y and ⁇ a are (b is a weighting coefficient based on e, 10 %) based on logarithmic
  • the weight function unit of step c) increases the weight of the reward for a label with a relatively low frequency and lowers the weight of the reward for a label with a relatively high frequency so that the labels are balanced. It is characterized in that it operates so as to
  • step d) according to an embodiment of the present invention, the learning of the policy is
  • y is the label of the state
  • a is the action predicted by the policy ⁇ for the given state
  • the generative adversarial neural network-based classification system detects a missing value from a labeled data set (S L ) or an unlabeled data set (S U ) for a missing part of the state.
  • a constructor that creates a substitute value
  • a discriminator for discriminating the missing replacement value generated by the generator from the original data
  • an actor predicting an action through a policy with the missing replacement value generated by the creator
  • a weight function unit for generating a weight of a reward based on the state replaced by the missing replacement value, the predicted action, and a label of the labeled data set
  • a reward unit that provides a reward so that the actor's policy is learned with respect to the labeled data set and the unlabeled data set.
  • the actor learns the policy so that the policy loss function is optimized by reflecting the weight of the reward generated from the predicted action and the weight function unit, and a semi-policy loss function based on the predicted action and the reward of the reward unit
  • the policy is learned so that .
  • the reward of the reward unit 600a is a reward of the reward unit 600a according to an embodiment of the present invention.
  • ⁇ [0, 1] is the threshold considering whether the state-action pair is likely to be included in the label dataset Im - characterized in that it is defined as.
  • the generative adversarial neural network-based classification method using the generative adversarial neural network-based classification system includes a) the missing part of the states from the data set (S L ) where the generator is labeled. generating a missing replacement value; b) predicting an action by an actor through a policy with a missing replacement value generated by the creator; c) generating, by a weight function unit, a weight of a reward based on the state replaced by the missing replacement value, the predicted action, and the label of the labeled data set; and d) learning, by the actor, the policy so that the policy loss function is optimized by reflecting the weight of the predicted action and the reward generated by the weight function unit;
  • step a if there is an unlabeled data set (S U ), a-1) the creator gives a missing replacement value ( ) for the missing part of the state from the unlabeled data set ( S U ).
  • creating U ); b-1) the missing replacement value for which the actor was created ( U ) with the step of predicting an action (Action) through a policy; c-1) providing, by a reward unit, a reward so that the actor's policy is learned for the labeled data set and the unlabeled data set; and d-1) the actor learns the policy so that the semi-policy loss function is optimized based on the predicted action and the reward of the reward unit.
  • the reward of the reward unit 600a is a reward of the reward unit 600a according to an embodiment of the present invention.
  • ⁇ [0, 1] is the threshold considering whether the state-action pair is likely to be included in the label dataset Im - characterized in that it is defined as.
  • the present invention dramatically reduces the time and trial and error process required for setting up a reward function to develop an optimal model for reinforcement learning. In order to shorten it, there is an advantage that a compensation function system can be automatically provided according to the characteristics of the data.
  • the present invention has an advantage in that the overall quality of data can be improved because missing data can be generated as a missing replacement value similar to real data using a generative adversarial neural network (GAN).
  • GAN generative adversarial neural network
  • the present invention has the advantage of reducing the negative effect of missing data.
  • the present invention has the advantage of being able to learn from unbalanced data sets such as labeled data sets and unlabeled unlabeled data sets using missing data generated by a generative adversarial neural network (GAN).
  • GAN generative adversarial neural network
  • the present invention has the advantage of simultaneously using the label data set and the non-label data set as input data, and learning from a small number of data sets.
  • the present invention has an advantage in that it is possible to reduce the construction time of the classification system and method by providing a customized compensation function related to the label imbalance ratio.
  • the present invention applies a reinforcement learning methodology for business decision optimization problems such as banking, card or insurance, systems, manufacturing, and airlines, etc., to design or compensate for missing data sets. It has the advantage of being able to apply the reinforcement learning methodology without a design for applying a function.
  • the compensation value for the fraud case is adjusted through weight adjustment using a weight function. It has the advantage of being able to configure a system that concentrates more on fraud cases by making it relatively large.
  • 1 is an exemplary diagram showing a data set including general missing data.
  • FIG. 2 is a block diagram illustrating the configuration of a classification system based on a generative adversarial neural network according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a classification method based on a generative adversarial neural network according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating a missing data learning process of the generative adversarial neural network-based classification method according to FIG. 3 .
  • FIG. 5 is a flowchart illustrating a supervised classification learning process using weights of the generative adversarial neural network-based classification method according to FIG. 3 .
  • FIG. 6 is a flowchart illustrating a weight estimation process of the classification method based on a generative adversarial neural network according to FIG. 3;
  • FIG. 7 is a block diagram showing the configuration of a classification system based on a generative adversarial neural network according to another embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a classification method based on a generative adversarial neural network according to another embodiment of the present invention.
  • FIG. 9 is a flowchart illustrating a classification learning process of unlabeled data in the classification method based on a generative adversarial neural network according to FIG. 8;
  • FIG. 10 is a graph showing evaluation results according to various missing rates using a classification system based on a generative adversarial neural network using label data and unlabeled data according to an embodiment of the present invention.
  • 11 is a graph showing the distribution of values generated during a learning process by using a classification system based on a generative adversarial neural network using label data and unlabeled data according to an embodiment of the present invention.
  • FIG. 12 is an exemplary diagram illustrating the performance of those with and without plug-in elements by using a classification system based on a generative adversarial neural network using label data and non-label data according to an embodiment of the present invention.
  • FIG. 13 is a graph showing a performance comparison according to a label data rate and a missing rate using a generative adversarial neural network-based classification system using label data and non-label data according to an embodiment of the present invention.
  • ... unit means a unit that processes at least one function or operation, which may be divided into hardware, software, or a combination of the two.
  • 'learning' or 'learning' is a term referring to performing machine learning through procedural computing in a computer system, and human educational activities and It is not intended to refer to the same mental processes, and training is used in the generally accepted sense of machine learning.
  • the computing device may include a communication device and a processor, and may directly/indirectly communicate with an external computing device through the communication device.
  • computing devices include devices that may include typical computer hardware (eg, computer processors, memory, storage, input and output devices, and other components of conventional computing devices; electronic communication devices such as routers, switches, and the like; electronic information storage systems such as network-attached storage (NAS) and storage area networks (SANs)) and computer software (ie, instructions that cause a computing device to function in a particular way). Combinations may be used to achieve the desired system performance.
  • typical computer hardware eg, computer processors, memory, storage, input and output devices, and other components of conventional computing devices
  • electronic communication devices such as routers, switches, and the like
  • electronic information storage systems such as network-attached storage (NAS) and storage area networks (SANs)
  • SANs storage area networks
  • the communication device of such a computing device can transmit and receive requests and responses to and from other computing devices that are interlocked.
  • requests and responses may be made by the same transmission control protocol (TCP) session, but this It is not limited, for example, it may be transmitted and received as a UDP (user datagram protocol) datagram (datagram).
  • TCP transmission control protocol
  • the communication device may include a keyboard, a mouse, other external input devices, printers, displays, and other external output devices for receiving commands or instructions.
  • the processor of the computing device includes a micro processing unit (MPU), a central processing unit (CPU), a graphics processing unit (GPU), a neural processing unit (NPU) or a tensor processing unit (TPU), a cache memory, and data. It may include a hardware configuration such as a data bus.
  • MPU micro processing unit
  • CPU central processing unit
  • GPU graphics processing unit
  • NPU neural processing unit
  • TPU tensor processing unit
  • cache memory and data. It may include a hardware configuration such as a data bus.
  • FIG. 2 is a block diagram showing the configuration of a generative adversarial neural network-based classification system according to an embodiment of the present invention
  • FIG. 3 is a flowchart illustrating a generative adversarial neural network-based classification method according to an embodiment of the present invention.
  • FIG. 4 is a flowchart showing the missing data learning process of the generative adversarial neural network-based classification method according to FIG. 3
  • a classification system based on a generative adversarial neural network includes a generator 100, a discriminator 200, an actor 400, and a weighted function unit 500, Weighted. function) is included.
  • the generator 100 and the discriminator 200 use a generative adversarial network (GAN), which is a network in a competitive structure, and the generator 100 sees the distribution of the original data and deceives the discriminator 200. Learning for generating a replacement value is performed, and the discriminator 200 performs learning to discriminate which data is generated by the generator 100 .
  • GAN generative adversarial network
  • the generator 100 performs learning for generating a missing replacement value that deceives the discriminator 200 with reference to the distribution of the original data.
  • the generator 100 is a generative adversarial neural network-based classification system using the labeled data S L , and generates missing replacement values from the labeled data set 10 .
  • the generator 100 may perform a learning process for generating a missing replacement value from a non-labeled data set rather than a labeled data set.
  • the generator 100 has n states from the data set 10 as an input for generating a missing replacement value, and n missing indicators 20, m L ).
  • S L means that each state is a labeled data set
  • m L means a labeled missing index
  • the labeled data set 10 contains n states consisting of S 1 , S 2 , S 3 , ..., S n ⁇ R d , where d is the state feature.
  • the j-th element of the state i is expressed as s i j , where j is a constant up to d, and s i j may have a scalar or a missing value.
  • the data set 10 may include at least one of labeled data and unlabeled unlabeled data.
  • the missing index 20 is an index for indicating whether an element of the state is missing, m 1 , m 2 , m 3 , .., m n ⁇ R d , and in this case, m i j is s i j If there is missing data, the missing index value 22 may be indicated as '0', otherwise the missing index value 21 may be indicated as '1'.
  • the generator 100 sets a preset value for the missing element 12 randomly (randomly) selected for any element 11 from among n states, for example, an equal value between '0' and '1'. Missing replacement value replaced by random noise 'Z' from the distribution ( ) is input and calculated.
  • the missing replacement value ( ) is received as an input through the following formula.
  • m is a vector of a missing index corresponding to a state s
  • z is a vector of noise randomly selected from a uniform distribution between '0' and '1', and may be expressed as a product of each element.
  • the constructor 100 is a missing replacement value ( ), a state consisting of a vector of elements created using ) is output.
  • the constructor 100 is a state ( ) replaced with the missing replacement ( ) is generated and printed.
  • the missing replacement value ( ) so that the data corresponding to the discriminator 200 can be used for learning.
  • m is the vector of the missing index corresponding to the state s.
  • the discriminator 200 is the missing replacement value ( ) and the original data, and each element of what the discriminator 200 outputs is missing (fake) or not (real), and as a result, m is It can be used as a label for
  • the discriminator 200 is a state through a function
  • the i-th output of the discriminator 200 corresponding to the probability that the i-th element of is not missing data can be expressed as S ⁇ [0, 1] d.
  • the discriminator 200 may represent the output as D 1 , D 2 , D 3 , ..., D d through the discriminator output index 30 .
  • the generator 100 and the discriminator 200 may be learned through a loss function, and the generator loss function for learning the generator 100 may be as follows.
  • the generator loss function may consist of two terms, the first term is to maximize the probability D i for missing data.
  • the second term is a reconstruction loss 40 that transforms the missing data generated by the generator 100 to be close to the original data using the original data distribution, where ⁇ is a scale factor .
  • a discriminator loss function for learning the discriminator 200 may be as follows.
  • Discriminator loss function is the i th element missing data, can be configured to learn a direction to maximize the probability of D and i, or learning in a direction to minimize the probability of D i contrary.
  • the actor 400 predicts the probability of performing an action from a labeled data set using a policy using a vector consisting of missing replacement values generated by the generator 100 .
  • actor 400 may be a component of the 'Actor-critic' architecture, which is a well-known decision-making framework in reinforcement learning.
  • the actor 400 receives a state as an input, outputs a probability of performing a given action, and uses 'Actor-critic' to learn a policy ⁇ , a policy loss function, 41) may be defined as follows.
  • the above-described policy loss function is a general form in which an action is not determined, and the actor 400 must be learned from both correct and incorrect actions.
  • the actor 400 according to the embodiment of the present invention may be defined by the following formula so that only the given correct label can be used, omitting the case where the policy loss function 41 is learned from an incorrect action.
  • y is the label of the state
  • a is the action predicted by the policy ⁇ for a given state
  • the supervised policy loss L L is a weight function Classification loss weighted from
  • L L is completely equal to the classification loss weight.
  • actor 400 may learn the guidance policy by using the weight value of the reward generated by the weight function unit 500 by the policy loss function 41 for map classification.
  • the weight function unit 500 is a state As the weight of the reward that can be taken from , we create the weight of the reward for the state, action, and label based on the frequency of the label from the labeled data set.
  • n k is the number of samples of the kth label, is in the range (0, 1).
  • weighting coefficient ⁇ k can be estimated by the following equation for each label.
  • the weight function unit 500 may define a weight function, that is, the weight of a reward for a state, an action, and a label by the following formula.
  • a is the action predicted by the policy ⁇ for a given state
  • y is the label of the state
  • ⁇ y and ⁇ a are (b is the weighting factor based on logarithm e, 10 ).
  • the following describes a classification and learning method based on a generative adversarial neural network using label data according to a first embodiment of the present invention.
  • the learning procedure may be divided into two steps: generating a missing value (S100) and generating a learning policy (S200).
  • each step S100 and S200 can be updated while iterating through various epochs of the labeled data set.
  • One rotation of the data set is called one epoch.
  • GAN generative adversarial network
  • a generator 100 a discriminator 200 , an actor 400 , and a weight function unit 500 may be used.
  • step S100 of generating a missing replacement value learns the generator 100 and the discriminator 200, and randomly (randomly) n states from the data set to be input to the generator 100 in each iteration.
  • a step of selecting (S110) and a step (S120) of selecting n missing indexes (m) indicating whether an element of a state corresponding to the state is missing are performed.
  • steps S110 and S120 may be provided from an external terminal or may be provided from a preset data set.
  • the data set may be a data set including at least one of labeled data and unlabeled data.
  • step S140 the generator 100 generates a missing replacement value ( ) is received as input and calculated, and it is received as an input through the following equation.
  • the constructor 100 is a generated state ( ), which is a vector of missing substitutes replaced by ), which can be calculated through the following formula.
  • the missing replacement value generated by the constructor 100 ( ) is provided to the discriminator 200, and the discriminator 200 is trained (S150) using the discriminator loss function.
  • the missing replacement value generated by the constructor 100 ( ) allows the generator 100 to learn (S160) using the generator loss function.
  • an 'Adam optimizer' that optimally adjusts the update rate for each parameter can be used to learn all components.
  • Step S200 of creating a learning policy is, in each iteration, randomly (randomly) n states from a labeled data set (S L ), and n indicating whether an element of the state corresponding to the state is missing.
  • a missing index m L is selected (S210).
  • a vector substituted with a random noise 'Z' (here Z ⁇ [0, 1]) is selected from a preset value for n states, for example, a uniform distribution between '0' and '1' (S220) ) and input to the constructor 100, the constructor 100 is a missing replacement value ( L ) and state( L ) and the missing replacement ( L ) is calculated (S230).
  • L is the missing replacement value replaced by noise 'Z'
  • L represents the state created by the constructor 100
  • L is the missing replacement value replaced by the value generated by the constructor.
  • step S230 the generator 100 generates a missing replacement value ( L ) is received as input and calculated, and it is received as an input through the following equation.
  • the constructor 100 is a generated state ( L ), which is a vector of missing substitutes replaced by the missing imputation ( L ) is calculated, and it can be calculated through the following formula.
  • this policy Predicts a probability value to perform an action through (S240).
  • the weight function unit 500 generates the weight of the reward for the state, action, and label using the weight function through the following equation (S250).
  • the weight function unit 500 may reflect the weight of the reward that can be obtained from the state as the weight of the reward for the state, the action, and the label based on the frequency of labels from the labeled data set. .
  • the label frequency can be approximated by the following equation.
  • step S250 the weight generated in step S250 is learned ( S260 ) through the guidance policy loss function 41 using the following equation.
  • y is the label of the state
  • a is the action predicted by the policy ⁇ for a given state
  • an 'Adam optimizer' that optimally adjusts the update rate for each parameter can be used to learn all components.
  • FIG. 7 is a block diagram showing the configuration of a generative adversarial neural network-based classification system according to a second embodiment of the present invention
  • FIG. 8 is a generative adversarial neural network-based classification method according to a second embodiment of the present invention. It is a flowchart
  • FIG. 9 is a flowchart illustrating a classification learning process of unlabeled data in the classification method based on the generative adversarial neural network according to FIG.
  • a classification system based on a generative adversarial neural network includes a generator 100a, a discriminator 200a, an actor 400a, an actor, and a weight function unit 500a, Weighted. Function) and a reward unit (600a, Reward).
  • the generator 100a and the discriminator 200a use a generative adversarial network (GAN), which is a network in a competitive structure, and the generator 100 sees the distribution of the original data and deceives the discriminator 200a. Learning for data generation is performed, and the discriminator 200a learns to discriminate which data is generated by the generator 100a.
  • GAN generative adversarial network
  • the generator 100a performs learning for generating missing data that deceives the discriminator 200a with reference to the distribution of the original data.
  • the constructor 100a may use a labeled data set S L with a label, or an unlabeled data set S U without a label.
  • L is a data set in which states are labeled
  • U is a data set in which states are not labeled
  • an arbitrary data set may be input from an external terminal.
  • the generator 100a may perform a learning process for generating a missing replacement value from a labeled data set S L or an unlabeled data set S U .
  • the generator 100a may perform a learning process for generating a missing replacement value from an unlabeled, unlabeled data set rather than a labeled labeled data set.
  • the generator 100a has n states from the data set 10a as an input for generating a missing replacement value, and n missing indicators 20a indicating whether elements of the states corresponding to the n states are missing. select
  • Missing surface (20a) is also labeled data set with a label (S L) and the label non-labeled data set with no (S U) and similarly labeled data set with a label (S L) is a non-label data that is not labeled as M L
  • the set S U may be classified as M U .
  • the data set 10a includes n states consisting of S 1 , S 2 , S 3 , ..., S n ⁇ R d , where d is a state feature.
  • the j-th element of the state i is expressed as S i j , where j is a constant up to d, and S i j has a scalar or a missing value.
  • the data set 10a may include at least one of labeled data and unlabeled data.
  • the missing index 20a is an index for indicating whether an element of the state is missing, and uses m 1 , m 2 , m 3 , ..., m n ⁇ R d , where m i j is S i j If there is missing data, the missing index value 22 is indicated as '0', otherwise the missing index value 21 is indicated as '1'.
  • the generator 100a sets a preset value for the missing element 12 randomly (randomly) selected for any element 11 from among the n states, for example, an equal value between '0' and '1'. Missing replacement value replaced by random noise 'Z' from the distribution ( ) is input and calculated.
  • the missing replacement value ( ) is received as an input through the following formula.
  • m is a vector of a missing index corresponding to a state s
  • z is a vector of noise randomly selected from a uniform distribution between '0' and '1', and may be expressed as a product of each element.
  • the constructor 100a is a missing replacement value ( ), a state consisting of a vector of elements created using ) is output.
  • constructor 100a is a state ( ) replaced with the missing replacement ( ) is generated and printed.
  • the missing replacement value ( ) so that the data corresponding to the discriminator 200a can be used for learning.
  • m is a vector of missing indexes corresponding to state s.
  • the discriminator 200a is the missing replacement value ( ) and the original data, and each element of what the discriminator 200a outputs is missing (fake) or not (real), and as a result, m is It can be used as a label for
  • the discriminator 200a is a state through a function
  • the i-th output of the discriminator 200a corresponding to the probability that the i-th element of is not missing data can be expressed as S ⁇ [0, 1] d.
  • the discriminator 200a may represent the output as D 1 , D 2 , D 3 , ..., D d through the discriminator output index 30 .
  • the generator 100a and the discriminator 200a may be learned through a loss function, and the generator loss function for learning the generator 100a may be as follows.
  • the generator loss function may consist of two terms, the first term is to maximize the probability D i for missing data.
  • the second term is a reconstruction loss 40a that transforms the missing data generated by the generator 100a to be close to the original data using the original data distribution, where ⁇ is a scale factor .
  • the discriminator loss function for learning the discriminator 200a may be as follows.
  • the actor 400a predicts the probability of performing an action from a labeled data set using a policy using a vector consisting of missing replacement values generated by the generator 100a.
  • actor 400a may be a component of the 'Actor-critic' architecture, which is a well-known decision-making framework in reinforcement learning.
  • actor 400a may generate a label for a given state.
  • the actor 400a receives a state as an input, outputs a probability of performing a given action, and uses 'Actor-critic' to learn a policy ⁇ , a policy loss function.
  • a state as an input
  • outputs a probability of performing a given action and uses 'Actor-critic' to learn a policy ⁇ , a policy loss function.
  • the above-described policy loss function is a general form in which an action is not determined, and the actor 400a must be learned from both correct and incorrect actions.
  • the policy loss function may optimize in the wrong direction and, as a result, converge or diverge slowly.
  • the actor 400a may be defined by the following formula so that only the given correct label can be used, omitting the case where the policy loss function 41a is learned from an incorrect action.
  • y is the label of the state
  • a is the action predicted by the policy ⁇ for a given state
  • the supervised policy loss L L is a weight function Classification loss weighted from
  • L L is completely equal to the classification loss weight.
  • the actor 400a may learn the guidance policy by using the weights generated by the weight function unit 500a for the policy loss functions L L and 41a for map classification.
  • the semi-policy loss function (L U , 42a) for semi-supervised classification reflects the policy of the actor 400a and the output of the reward unit 600a to learn the policy.
  • the semi-map classification utilizes a non-labeled data set, and through cooperation between the action (a) of the actor 400a and the output of the reward unit 600a, the policy of the actor 400a serving as a generator is the label of a given state. , and the reward unit 600a serving as a discriminator is each state-action ( , a) let us decide whether a pair is a label data set or not.
  • the output of the reward unit 600a and the policy of the actor 400a may be operated together to utilize the unlabeled data set S U .
  • the semi-policy loss function (L U ) may be defined by the following equation.
  • the semi-policy loss function (L U ) can be obtained from a policy loss, is the reward of the reward unit 600a defined as follows can be replaced with
  • ( , a) is the probability value of whether the pair is a label in the label data set
  • ⁇ [0, 1] is the threshold considering whether the state-action pair is likely to be included in the label data set.
  • the weight function unit 500a is a state As the weight of the reward that can be obtained from , the weight of the reward for the state, action, and label is generated based on the frequency of labels from the labeled data set (S L ).
  • n k is the number of samples of the kth label, is in the range (0, 1).
  • weighting coefficient ⁇ k can be estimated by the following equation for each label.
  • the weight function unit 500a may define a weight function for each class, that is, a weight of a reward for a state, an action, and a label by the following formula.
  • a is the action predicted by the policy ⁇ for a given state
  • y is the label of the state
  • ⁇ y and ⁇ a are (b is the weighting factor based on logarithm e, 10 ).
  • Rewards portion (600a) is a state in the data set (S L) with a label-action ( , a) determining if there is a pair, and providing a reward to learn the actor 400a's policy on the unlabeled data set.
  • the reward unit 600a is a state-action ( , a) may consist of a reward model that provides a reward for a probability value for a pair.
  • the reward model is the state-action ( , a) A function that outputs a probability value of whether a label is a pair, and may be R: S ⁇ A ⁇ [0, 1].
  • Each state-action ( , a) can be defined as follows.
  • m is the missing indicator of the state
  • y is the label of the state
  • a is the action predicted by the actor's policy for a given state.
  • the reward unit 600a state-action ( , a) If the pair is a label in the labeled data set, the probability value is maximized so that the reward ( ), and state-action ( , a) If the pair is a label that is not in the labeled data set, the probability value is minimized so that the reward ( ), and the reward unit 600a may be learned using a reward model loss function (L rew , 61a).
  • the reward model loss function (L rew , 61a) can consist of two parts, state-action ( L , a) learn to maximize the probability value if the pair is a label in the labeled dataset, and state-action ( L , a) If the pair is a label that is not in the labeled dataset, then learn to minimize the probability value.
  • the following describes a method for classifying and learning a map based on a generative adversarial neural network according to a second embodiment of the present invention.
  • the learning procedure generates a learning policy including the steps of generating a missing replacement value (S100'), a learning process using a labeled data set (S200'), and a learning process using an unlabeled data set (S300). It can consist of steps.
  • the data set may be updated while iterating through various epochs, and one rotation of the data set is referred to as one epoch.
  • GAN generative adversarial network
  • steps S100' and S200' of generating a missing replacement value are steps of performing a learning policy using a label data set with a label, and the generator 100a and the discriminator 200a according to the first embodiment It operates in the same manner as in steps S100 and S200, and a repetitive description of the same components will be omitted.
  • Step (S300) for generating a learning policy from the non-labeled data set does not have a label (S U) is provided with a random (random) in the n-state (State) from the data set does not have a label (S U), that corresponds to the state n missing indicators (m U ) indicating whether an element of the state is missing ( S310 ) is selected.
  • a vector in which random noise 'Z' (here Z ⁇ [0, 1]) is substituted from a preset value for n states, for example, a uniform distribution between '0' and '1' (S320) ) and input to the constructor 100a, the generator 100a is a missing replacement value ( ) and state( ) and the missing data, that is, the missing replacement value ( ) is calculated (S330).
  • step S330 the generator 100a generates a missing replacement value ( ) is received as input and calculated, and it is received as an input through the following equation.
  • the constructor 100a is a generated state ( ) replaced with the missing replacement ( ), which is a missing replacement ( ) can be calculated through the following formula.
  • the reward unit 600a states-action ( , a) provides the reward of the reward unit 600a as a probability value for the pair, and the reward unit 600a performs a learning step using the reward model loss function (L rew ) (S340).
  • the reward unit 600a may be formed of a reward model, and the reward model is a state-action ( , a) As a function that outputs the probability for a pair, it may be R: S ⁇ A ⁇ [0, 1].
  • each state-action ( , a) can be defined by the following formula.
  • m is the missing indicator of the state
  • y is the label of the state
  • a is the action predicted by the actor's policy for a given state.
  • the reward model loss function (L rew ) is the state-action ( L , a) Learn to maximize the probability value if the pair is a label in the labeled dataset.
  • the reward model loss function (L rew ) is a state-action ( L , a) If the pair is a label that is not in the labeled data set, then learn to minimize the probability value.
  • the reward of the reward model provided in step S340 and the prediction result of the action predicted in step S350 are optimized in the semi-policy loss function 42a by the actor 400a using the semi-policy loss function L U using the following equation It is possible to learn the policy (S360).
  • ⁇ [0, 1] is the threshold considering whether the state-action pair is likely to be included in the label dataset to be.
  • an 'Adam optimizer' that optimally adjusts the update rate for each parameter can be used to learn all components.
  • FIG. 10 is data of an experiment using actual credit card transaction data including 22% fraudulent transactions disclosed by the University of California (UCI), and is a result of performing the data at a ratio of 0.7 test set and 0.3 test set.
  • UCI University of California
  • the entire data set was assumed to represent the degree of missing with a missing rate of 10%, 20%, 30%, 40%, and 50%, and the data were preprocessed by applying zero-mean normalization.
  • the performance of the generator and discriminator using a large number of missing rates is averaged more than 10 times by the root mean square error index, so that the missing replacement value is generated by learning the generator rather than simply filling the missing replacement value with the average. It can be seen that it appears more similar to the original value.
  • 11 is a graph showing the distribution of values generated during the learning process.
  • the distribution of values generated during the learning process is 10 in FIG. 11( c ) compared to the distribution after epoch 0 in FIG. 11( a ) and epoch 1 in FIG. 11( b ). Comparing the distribution of the values generated after the epoch with the distribution of the original values, it can be seen that they appear more similar.
  • FIG. 12 is an exemplary diagram showing the performance of plug-in elements with and without plug-in elements, and a framework according to the present invention is compared with other state-of-art models using F1-score.
  • This weighting function has the greatest impact on performance, because when learning using the weighting function, the policy gives more weight to the minority class to learn.
  • the reward model can help to improve the performance of the framework by adjusting ⁇ .
  • limits how much information from unlabeled data can be used for policy updates, and the higher the value, the stricter the use of unlabeled data.
  • 12 is a graph showing performance comparison according to the label data rate and the missing rate.
  • the mlp-based classifier decreases the F1-score more rapidly when the missing rate increases, which can be seen as a better framework for handling missing values.
  • the performance difference between the two frameworks can be narrowed.
  • FIG. 13(b) shows the output of the reward model according to the amount of label data, and it can be seen that the more label data there is, the faster it converges to one value.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Filamentary Materials, Packages, And Safety Devices Therefor (AREA)
  • Yarns And Mechanical Finishing Of Yarns Or Ropes (AREA)
  • Chemical Treatment Of Fibers During Manufacturing Processes (AREA)
  • Nonwoven Fabrics (AREA)

Abstract

생성적 적대 신경망 기반의 분류 시스템 및 방법을 개시한다. 본 발명은 결측 데이터를 생성적 적대 신경망(GAN)을 이용하여 실제 데이터와 유사한 결측 대체값으로 생성할 수 있어 데이터의 전체적인 질을 향상시킬 수 있고, 레이블이 있는 레이블 데이터 세트와, 레이블이 없는 비레이블 데이터 세트와 같이 불균형한 데이터 세트에서도 학습할 수 있다. [대표도] 도 2

Description

생성적 적대 신경망 기반의 분류 시스템 및 방법
본 발명은 생성적 적대 신경망 기반의 분류 시스템 및 방법에 관한 발명으로서, 더욱 상세하게는 생성적 적대 신경망(Generative Adversarial Network; GAN)으로 생성한 결측 대체값을 이용하여 레이블이 있는 레이블 데이터 세트와 레이블이 없는 비레이블 데이터 세트의 불균형한 데이터 세트에서도 학습할 수 있는 생성적 적대 신경망 기반의 분류 시스템 및 방법에 관한 것이다.
머신 러닝은 복잡한 시스템이 명시적으로 프로그래밍되지 않고서 경험으로부터 자동으로 학습하고 개선할 수 있게 하는 인공 지능의 응용이다.
머신 러닝 모델들의 정확도 및 유효성은 그들 모델들을 훈련시키는 데 사용되는 데이터에 부분적으로 의존할 수 있다.
예를 들어, 머신 러닝 분류자(Classifier)들은 레이블이 있는(또는 레이블링된 데이터(Labeled data) 세트를 사용하여 훈련될 수 있는데, 여기서 분류자가 인식하도록 학습할 데이터의 샘플들이 샘플에 대한 분류(Classification)를 식별하는 하나 이상의 레이블들과 함께 분류자에 제공된다.
여기서, 레이블링된 데이터는 데이터에 대한 답이 주어져 있는 것(또는 평가가 되어 있는 것)을 말한다.
그러나, 의사 결정 시스템에서는 다음과 같은 문제들로 어려움을 겪을 때가 있다.
도 1은 일반적인 결측 데이터가 포함된 데이터 세트를 나타낸 예시도로서, 도 1에 나타낸 바와 같이, 데이터 세트(10)는 n개의 스테이트(State)를 포함하여 구성되고, 스테이트의 원소(11)는 스테이트 'i'가 가지는 'j'번째 원소로 'Si j'로 표현되며, 여기서 'j'는 1부터 d까지의 상수이고, 'Si j'는 스칼라 또는 결측 데이터 'Zi j'(12)를 가질 수 있다.
결측 데이터(Missing data)는 데이터 세트(Data set)의 전체적인 질을 낮추게 되어, 의사 결정 시스템에서 예측된 결과가 왜곡되는 문제점이 있다.
또한, 딥 러닝에서는 레이블이 있는 데이터의 양이 성능에 있어 상당한 영향력을 가지고 있지만, 대부분의 실제 데이터 세트는 일반적으로 레이블이 없는 비레이블 데이터를 포함하고 있어 데이터를 레이블링하는 비용이 매우 고가인 문제점이 있다.
또한, 통상의 비즈니스 의사 결정을 위한 비즈니스 데이터 세트에는 많은 결측 값, 비이상적인 레이블 불균형 문제가 있어 분류 시스템을 구축하는데 많은 어려움이 있다.
또한, 통상의 비즈니스 의사결정을 위한 비즈니스 데이터 세트에는 불균형의 차이가 매우 심하고, 소수의 클래스가 데이터에서 매우 작은 부분만을 차지하지만, 결과적으로 그러한 클래스의 샘플은 의사 결정 시스템을 업데이트 하는 과정에서 거의 쿼리(Quarry)되지 않는 문제점이 있다.
또한, 통상의 비즈니스 의사 결정을 위한 비즈니스 데이터 세트, 예를 들어 대출 사기 비즈니스의 데이터 세트인 경우 사기 건이 매우 미미하여 통상의 분류 시스템으로는 분류 및 예측하기가 어려운 문제점이 있다.
이러한 문제점을 해결하기 위하여, 본 발명은 생성적 적대 신경망(Generative Adversarial Network; GAN)으로 생성한 결측 대체값을 이용하여 레이블이 있는 레이블 데이터 세트와 레이블이 없는 비레이블 데이터 세트의 불균형한 데이터 세트에서도 학습할 수 있는 생성적 적대 신경망 기반의 분류 시스템 및 방법을 제공하는 것을 목적으로 한다.
본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템은 레이블이 있는 데이터 세트로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 생성자; 상기 생성자가 생성한 결측 대체값과 원본 데이터를 구분하는 판별자; 상기 생성자에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 액터; 및 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 가중치 함수부;를 포함하고,
상기 가중치 함수부는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하며,
상기 액터는 상기 예측된 액션과 가중치 함수부에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수가 최적화 되도록 상기 정책을 학습하는 것을 특징으로 한다.
또한, 본 발명의 실시 예에 따른 리워드의 가중치는 하기식
Figure PCTKR2020003622-appb-I000001
- 여기서,
Figure PCTKR2020003622-appb-I000002
는 스테이트
Figure PCTKR2020003622-appb-I000003
으로부터 가져올 수 있는 리워드이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며, y는 스테이트의 레이블이고, ωy와 ωa
Figure PCTKR2020003622-appb-I000004
(b 는 로그에 기초한 e, 10 …)에 기반한 가중 계수 임 - 으로 정의되는 것을 특징으로 한다.
또한, 본 발명의 실시 예에 따른 가중치 함수부는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작한다.
또한, 본 발명의 실시 예에 따른 레이블 빈도수는 하기식
Figure PCTKR2020003622-appb-I000005
- 여기서, nk는 k번째 레이블의 샘플 수이고,
Figure PCTKR2020003622-appb-I000006
는 (0, 1)의 범위 안에 있음 - 으로 근사되며, 상기 액터는 상기 예측된 액션과 가중치 함수부에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41)가 최적화 되도록 상기 정책을 학습하는 것을 특징으로 한다.
또한, 본 발명의 실시 예에 따른 가중치 함수부는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작한다
또한, 본 발명의 실시 예에 따른 액터는 상기 예측된 액션과 가중치 함수부에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수가 최적화 되도록 상기 정책을 학습한다.
또한, 본 발명의 실시 예에 따른 정책의 학습은 하기식
Figure PCTKR2020003622-appb-I000007
- 여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,
Figure PCTKR2020003622-appb-I000008
는 스테이트, 액션 및 레이블에 대한 리워드의 가중치 임 - 을 이용하는 것을 특징으로 한다.
또한, 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템을 이용한 분류 방법은 생성자와, 판별자와, 액터와 가중치 함수부로 구성된 생성적 적대 신경망(Generative Adversarial Network; GAN)을 이용하고, a) 생성자가 레이블이 있는 데이터 세트로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 단계; b) 액터가 상기 생성자에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 단계; c) 가중치 함수부가 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치 값을 생성하는 단계; 및 d) 상기 액터가 상기 예측된 액션과, 가중치 함수부에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수가 최적화 되도록 상기 정책을 학습하는 단계를 포함하고,
상기 c) 단계에서, 상기 가중치 함수부는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하는 것을 특징으로 한다.
또한, 본 발명의 실시 예에 따른 a) 단계는 i) 상기 생성자가 레이블이 있는 데이터 세트로부터 결측값이 있는 스테이트(State)와, 상기 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 결측 지표(m)를 선택하는 단계; 및 ii) 상기 생성자가 상기 스테이트에 '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈로 대체된 결측 대체값(
Figure PCTKR2020003622-appb-I000009
)을 이용하여 결측 대체값(
Figure PCTKR2020003622-appb-I000010
)을 생성하고, 상기 생성된 결측 대체값(
Figure PCTKR2020003622-appb-I000011
)을 이용하여 생성자와 판별자를 학습하는 전처리 단계;를 더 포함하는 것을 특징으로 한다.
또한, 본 발명의 실시 예에 따른 c) 단계의 가중치 함수부는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작한다.
또한, 본 발명의 실시 예에 따른 상기 레이블 빈도수는 하기식
Figure PCTKR2020003622-appb-I000012
- 여기서, nk는 k번째 레이블의 샘플 수이고,
Figure PCTKR2020003622-appb-I000013
는 (0, 1)의 범위 안에 있음 - 으로 근사된다.
또한, 본 발명의 실시 예에 따른 상기 리워드의 가중치는 하기식
Figure PCTKR2020003622-appb-I000014
- 여기서,
Figure PCTKR2020003622-appb-I000015
는 스테이트
Figure PCTKR2020003622-appb-I000016
으로부터 가져올 수 있는 리워드이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며, y는 스테이트의 레이블이고, ωy와 ωa
Figure PCTKR2020003622-appb-I000017
(b 는 로그에 기초한 e, 10 …)에 기반한 가중 계수 임 - 으로 정의되는 것을 특징으로 한다.
또한, 본 발명의 실시 예에 따른 c) 단계의 가중치 함수부는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하는 것을 특징으로 한다.
또한, 본 발명의 실시 예에 따른 d) 단계는 정책의 학습을 하기식
Figure PCTKR2020003622-appb-I000018
- 여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,
Figure PCTKR2020003622-appb-I000019
는 스테이트, 액션 및 레이블에 대한 리워드의 가중치 임 - 을 이용하여 학습하는 것을 특징으로 한다.
또한, 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템은 레이블이 있는 데이터 세트(SL) 또는 레이블이 없는 데이터 세트(SU)로부터 결측값을 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 생성자; 상기 생성자가 생성한 결측 대체값과 원본 데이터를 구분하는 판별자; 상기 생성자에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 액터; 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 가중치 함수부; 및 상기 레이블이 있는 데이터 세트와, 레이블이 없는 데이터 세트를 대상으로 액터의 정책이 학습되도록 리워드를 제공하는 리워드부;를 포함하고,
상기 액터는 상기 예측된 액션과, 가중치 함수부로부터 생성된 리워드의 가중치를 반영하여 정책 손실 함수가 최적화 되도록 상기 정책을 학습하며, 또한 상기 예측된 액션과, 리워드부의 리워드에 기반하여 세미 정책 손실 함수가 최적화 되도록 상기 정책을 학습한다.
또한, 본 발명의 실시 예에 따른 상기 리워드부(600a)의 리워드는 하기식
Figure PCTKR2020003622-appb-I000020
- 여기서,
Figure PCTKR2020003622-appb-I000021
는 리워드부가 출력하는 레이블 데이터 세트(
Figure PCTKR2020003622-appb-I000022
, a)쌍이 레이블이 있는 레이블 데이터 세트의 레이블인지 또는 액터가 생성한 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값 임 - 으로 정의되는 것을 특징으로 한다.
또한, 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템을 이용한 생성적 적대 신경망 기반의 분류 방법은 a) 생성자가 레이블이 있는 데이터 세트(SL)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 단계; b) 액터가 상기 생성자에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 단계; c) 가중치 함수부가 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 단계; 및 d) 상기 액터가 상기 예측된 액션과, 가중치 함수부로부터 생성된 리워드의 가중치를 반영하여 정책 손실 함수가 최적화 되도록 상기 정책을 학습하는 단계;를 포함하되,
상기 a) 단계에서 레이블이 없는 데이터 세트(SU)가 있으면, a-1) 상기 생성자가가 레이블이 없는 데이터 세트(SU)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값(
Figure PCTKR2020003622-appb-I000023
U)을 생성하는 단계; b-1) 상기 액터가 생성된 결측 대체값(
Figure PCTKR2020003622-appb-I000024
U)을 가지고 정책을 통해 액션(Action)을 예측하는 단계; c-1) 리워드부가 상기 레이블이 있는 데이터 세트와, 레이블이 없는 데이터 세트를 대상으로 액터의 정책이 학습되도록 리워드를 제공하는 단계; 및 d-1) 상기 액터가 상기 예측된 액션과, 상기 리워드부의 리워드에 기반하여 세미 정책 손실 함수가 최적화 되도록 상기 정책을 학습하는 단계를 더 포함한다.
또한, 본 발명의 실시 예에 따른 상기 리워드부(600a)의 리워드는 하기식
Figure PCTKR2020003622-appb-I000025
- 여기서,
Figure PCTKR2020003622-appb-I000026
는 리워드부가 출력하는 레이블 데이터 세트(
Figure PCTKR2020003622-appb-I000027
, a)쌍이 레이블이 있는 레이블 데이터 세트의 레이블인지 또는 액터가 생성한 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값 임 - 으로 정의되는 것을 특징으로 한다.
본 발명은 강화학습에서 'Actor-critic' 아키텍처와 생성적 적대 신경망(GAN) 아키텍처를 결합함으로써, 강화학습의 최적의 모델을 개발하기 위한 보상함수의 설정에 요구되는 시간과 시행 착오 과정을 획적으로 단축하기 위해 데이터의 특성에 맞게 자동으로 보상함수 체계를 제공할 수 있는 장점이 있다.
또한, 본 발명은 결측 데이터를 생성적 적대 신경망(GAN)을 이용하여 실제 데이터와 유사한 결측 대체값으로 생성할 수 있어 데이터의 전체적인 질을 향상시킬 수 있는 장점이 있다.
또한, 본 발명은 결측 데이터의 부정적 효과를 감소시킬 수 있는 장점이 있다.
본 발명은 생성적 적대 신경망(GAN)으로 생성한 결측 데이터를 이용하여 레이블이 있는 레이블 데이터 세트와, 레이블이 없는 비레이블 데이터 세트와 같이 불균형한 데이터 세트에서도 학습할 수 있는 장점이 있다.
또한, 본 발명은 레이블 데이터 세트 및 비레이블 데이터 세트를 동시에 입력 데이터로 사용함과 동시에, 적은 수의 데이터 세트에서도 학습할 수 있는 장점이 있다.
또한, 본 발명은 레이블의 불균형 비율에 연관된 맞춤형(Customized) 보상함수를 제공하여 분류 시스템 및 방법의 구축 시간을 감소시킬 수 있는 장점이 있다.
또한, 본 발명은 은행, 카드 또는 보험 등의 금융기관이나, 시스템, 제조, 항공사 등의 비즈니스 의사결정 최적화 문제를 위한 강화학습 방법론을 적용함에 있어서, 데이터 세트에 대한 결측 대체를 위한 디자인이나, 보상함수를 적용하기 위한 디자인 없이 강화학습 방법론을 적용할 수 있는 장점이 있다.
또한, 본 발명에 의하면, 통상으 비즈니스 의사 결정을 위한 비즈니스 데이터 세트에 발생될 수 있는 많은 결측 값, 비이상적인 레이블 블균형 문제를 해결할 수 있음에 따라 통상의 분석가가 분류 시스템을 구축하는데 비용 시간을 줄이면서 강화학습 방법론을 적용할 수 있는 장점이 있다.
또한, 본 발명에 의하면, 통상의 비즈니스 의사결정을 위한 비즈니스 데이터 세트, 예를 들어 대출 사기 비즈니스의 데이터 세터인 경우, 사기 건이 매우 미미하더라도, 가중치 함수를 이용한 가중치 조절을 통해 사기 건에 대한 보상 값을 상대적으로 커지게 하여 사기 건에 더욱 집중하는 시스템을 구성할 수 있는 장점이 있다.
도 1은 일반적인 결측 데이터가 포함된 데이터 세트를 나타낸 예시도.
도 2는 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템의 구성을 나타낸 블록도.
도 3은 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 방법을 나타낸 흐름도.
도 4는 도 3에 따른 생성적 적대 신경망 기반의 분류 방법의 결측 데이터 학습과정을 나타낸 흐름도.
도 5는 도 3에 따른 생성적 적대 신경망 기반의 분류 방법의 가중치를 이용한 지도 분류 학습과정을 나타낸 흐름도.
도 6은 도 3에 따른 생성적 적대 신경망 기반의 분류 방법의 가중치 추정과정을 나타낸 흐름도.
도 7은 본 발명의 다른 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템의 구성을 나타낸 블록도.
도 8은 본 발명의 다른 실시 예에 따른 생성적 적대 신경망 기반의 분류 방법을 나타낸 흐름도.
도 9는 도 8에 따른 생성적 적대 신경망 기반의 분류 방법의 비레이블 데이터의 분류 학습과정을 나타낸 흐름도.
도 10은 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템을 활용하여 여러 결측률에 따른 평가 결과를 나타낸 그래프.
도 11은 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템을 활용하여 학습 과정동안 생성된 값의 분포를 나타낸 그래프.
도 12는 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템을 활용하여 플러그인 요소가 있는 것과 없는 것의 성능을 나타낸 예시도.
도 13은 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템을 활용하여 레이블 데이터 비율과 결측률에 따른 성능 비교를 나타낸 그래프.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법의 바람직한 실시예를 상세하게 설명한다.
본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.
또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐 '학습' 혹은 '러닝'은 컴퓨터 시스템에서 절차에 따른 컴퓨팅(computing)을 통하여 기계 학습(machine learning)을 수행함을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아니며, 훈련(training)은 기계 학습에 관하여 일반적으로 받아들여지는 의미로 쓰인 것이다.
또한, 컴퓨팅 장치는, 통신장치 및 프로세서를 포함하며, 통신장치를 통하여 외부 컴퓨팅 장치와 직/간접적으로 통신할 수 있다.
구체적으로, 컴퓨팅 장치는, 전형적인 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS; network-attached storage) 및 스토리지 영역 네트워크(SAN; storage area network)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 명령어들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다.
이와 같은 컴퓨팅 장치의 통신장치는 연동되는 타 컴퓨팅 장치와 요청과 응답을 송수신할 수 있는바, 일 예시로서 그러한 요청과 응답은 동일한 TCP(transmission control protocol) 세션(session)에 의하여 이루어질 수 있지만, 이에 한정되지는 않는바, 예컨대 UDP(user datagram protocol) 데이터그램(datagram)으로서 송수신 될 수도 있을 것이다.
또한, 넓은 의미에서 통신장치는 명령어 또는 지시 등을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치, 프린터, 디스플레이, 기타 외부 출력장치를 포함할 수 있다.
또한, 컴퓨팅 장치의 프로세서는 MPU(micro processing unit), CPU(central processing unit), GPU(graphics processing unit), NPU(neural processing unit) 또는 TPU(tensor processing unit), 캐시 메모리(cache memory), 데이터 버스(data bus) 등의 하드웨어 구성을 포함할 수 있다.
(제1 실시 예)
도 2는 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템의 구성을 나타낸 블록도이고, 도 3은 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 방법을 나타낸 흐름도이며, 도 4는 도 3에 따른 생성적 적대 신경망 기반의 분류 방법의 결측 데이터 학습과정을 나타낸 흐름도이고, 도 5는 도 3에 따른 생성적 적대 신경망 기반의 분류 방법의 가중치를 이용한 지도 분류 학습과정을 나타낸 흐름도이며, 도 6은 도 3에 따른 생성적 적대 신경망 기반의 분류 방법의 가중치 추정과정을 나타낸 흐름도이다.
도 2 내지 도 6을 참조하면, 생성적 적대 신경망 기반의 분류 시스템은 생성자(100,Generator)와, 판별자(200, Discriminator)와, 액터(400, Actor)와, 가중치 함수부(500, Weighted Function)를 포함하여 구성된다.
생성자(100)와 판별자(200)는 경쟁 구조에 있는 네트워크인 생성적 적대 신경망(Generative Adversarial Network; GAN)을 사용하여 생성자(100)는 원본 데이터의 분포를 보고 판별자(200)를 속이는 결측 대체값의 생성을 위한 학습을 수행하며, 판별자(200)는 어떤 데이터가 생성자(100)에 의해 생성된 데이터인지 분별하는 학습을 수행한다.
또한, 생성자(100)는 원본 데이터의 분포를 참조하여 판별자(200)를 속이는 결측 대체값의 생성을 위한 학습을 수행한다.
또한, 생성자(100)는 레이블이 있는 데이터(SL)를 이용한 생성적 적대 신경망 기반의 분류 시스템으로서, 레이블이 있는 데이터 세트(10)로부터 결측 대체값을 생성한다.
또한, 생성자(100)는 전처리 과정으로, 레이블이 있는 데이터 세트가 아닌 레이블이 없는 데이터 세트로부터 결측 대체값을 생성하기 위한 학습과정을 수행할 수도 있다.
또한, 생성자(100)는 결측 대체값의 생성을 위한 입력으로 데이터 세트(10)로부터 n개의 스테이트(State)와, n개의 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(20, mL)를 선택한다.
여기서, SL은 각 스테이트가 레이블이 있는 데이터 세트인 것을 의미하고, mL은 레이블이 있는 결측 지표를 의미한다.
또한, 레이블이 있는 데이터 세트(10)는 S1, S2, S3, ‥, Sn ∈ Rd 로 이루어진 n개의 스테이트를 포함하고, 여기서 d는 스테이트 특징(feature)이다.
또한, 스테이트 i가 가지는 j번째 원소는 si j라고 표현하고, 여기서, j는 d까지의 상수이며, si j는 스칼라 또는 결측값을 가질 수 있다.
또한, 데이터 세트(10)는 레이블이 있는 레이블 데이터 및 레이블링되지 않은 비레이블 데이터 중 적어도 하나의 데이터로 구성될 수 있다.
또한, 결측 지표(20)는 스테이트의 원소가 결측 됐는지를 나타내기 위한 지표로서, m1, m2, m3, ‥, mn ∈ Rd 를 사용하고, 이때, mi j는 si j가 결측 데이터를 가지면 결측 지표값(22)은 '0', 그렇지 않으면 결측 지표값(21)은 '1'로 표시될 수 있다.
또한, 생성자(100)는 n개의 스테이트 중에서 임의의 원소(11)에 대하여 무작위(랜덤)로 선별된 결측 원소(12)에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'로 대체된 결측 대체값(
Figure PCTKR2020003622-appb-I000028
)을 입력 받아 계산한다.
이때, 결측 대체값(
Figure PCTKR2020003622-appb-I000029
)은 하기식을 통해 입력으로 받는다.
Figure PCTKR2020003622-appb-I000030
여기서, m은 스테이트 s에 해당하는 결측 지표의 벡터이고, z는 '0'과 '1' 사이의 균등 분포로부터 랜덤하게 선별된 노이즈의 벡터이며, 요소별 곱으로 나타낼 수 있다.
또한, 생성자(100)는 결측 대체값(
Figure PCTKR2020003622-appb-I000031
)을 이용하여 생성된 원소들의 벡터로 이루어진 스테이트(
Figure PCTKR2020003622-appb-I000032
)를 출력한다.
또한, 생성자(100)는 스테이트(
Figure PCTKR2020003622-appb-I000033
)로 대체된 결측 대체값(
Figure PCTKR2020003622-appb-I000034
)을 생성하여 출력한다.
이때, 생성자(100)의 출력을 통해 하기식을 따르는 결측 대체값(
Figure PCTKR2020003622-appb-I000035
)에 해당하는 데이터가 판별자(200)의 학습을 위해 사용될 수 있도록 한다.
Figure PCTKR2020003622-appb-I000036
여기서, m은 스테이트 s에 해당하는 결측 지표의 벡터이다.
판별자(200)는 생성자(100)가 생성한 결측 대체값(
Figure PCTKR2020003622-appb-I000037
)과 원본 데이터를 구분하는 구성으로서, 판별자(200)가 출력한 것의 각 원소들이 결측(fake)인지 아닌지(real)를 구분하고, 결과적으로 m은
Figure PCTKR2020003622-appb-I000038
을 위한 레이블로 사용될 수 있다.
또한, 판별자(200)는 함수를 통해 스테이트
Figure PCTKR2020003622-appb-I000039
의 i번째 원소가 결측 데이터가 아닐 확률에 해당하는 판별자(200)의 i번째 출력을 S →[0, 1]d로나타낼 수 있다.
또한, 판별자(200)는 출력을 판별자 출력 지표(30)를 통해 D1, D2, D3, ‥,Dd로 나타낼 수 있다.
한편, 생성자(100)와 판별자(200)는 손실 함수를 통해 학습될 수 있는데, 생성자(100)의 학습을 위한 생성자 손실 함수는 하기식과 같을 수 있다.
Figure PCTKR2020003622-appb-I000040
여기서, 생성자 손실 함수는 두 개의 항(term)으로 구성될 수 있는데, 첫 번째 항은 결측 데이터에 대한 확률 Di를 최대화 하는 것이다.
또한, 두 번째 항은 원본 데이터 분포를 이용하여 생성자(100)에서 생성된 결측 데이터를 원본 데이터에 가깝도록 변환하는 재구성 손실(reconstruction loss, 40)이고, 여기서, λ는 스케일 팩터(scale factor)이다.
또한, 판별자(200)의 학습을 위한 판별자 손실 함수는 하기식과 같을 수 있다.
Figure PCTKR2020003622-appb-I000041
판별자 손실 함수는 i번째 원소가 결측 데이터이면, 확률 Di를 최대화하는 방향으로 학습하고, 아니면 반대로 확률 Di를 최소화하는 방향으로 학습되도록 구성할 수 있다.
액터(400)는 생성자(100)에 의해 생성된 결측 대체값들로 이루어진 벡터를 정책(Policy)을 이용하여 레이블이 있는 데이터 세트로부터 액션(Action)을 수행할 확률을 예측한다.
또한, 액터(400)는 강화학습에서 잘 알려진 의사결정 프레임워크인 'Actor-critic' 아키텍처의 구성요소일 수 있다.
또한, 액터(400)는 스테이트를 입력으로 받아 주어진 액션(Action)을 할 확률을 출력하고, 'Actor-critic'를 이용하여 정책(Policy)π를 학습하기 위해, 정책 손실 함수(Policy loss function, 41)는 하기식과 같이 정의될 수 있다.
Figure PCTKR2020003622-appb-I000042
여기서,
Figure PCTKR2020003622-appb-I000043
는 주어진 스테이트에서 예측된 액션이 좋은지 또는 나쁜지를 결정하는 크리틱(Critic)으로부터 평가되는 함수이다.
또한,
Figure PCTKR2020003622-appb-I000044
는 'total discounted reward', 'action-value function' 또는 'TD-error'와 같은 형태를 가질 수도 있다.
상기된 정책 손실 함수는 액션이 결정되지 않은 일반적인 형태로서, 액터(400)는 정확하고, 부정확한 액션 모두로부터 학습되어야 한다.
그러나,
Figure PCTKR2020003622-appb-I000045
의 추정치가 나쁜 경우, 그 정책 손실 함수는 잘못된 방향으로 최적화를 하게 되고, 그 결과, 천천히 수렴하거나 또는 발산하게 될 수 있다.
따라서, 본 발명의 실시 예에 따른 액터(400)는 정책 손실 함수(41)를 부정확한 액션으로부터 학습되는 경우를 생략하고, 주어진 정확한 레이블 만을 이용할 수 있도록 하기식으로 정의될 수 있다.
Figure PCTKR2020003622-appb-I000046
여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,
Figure PCTKR2020003622-appb-I000047
는 스테이트, 액션 및 레이블에 대한 리워드의 가중치이다.
즉, 예측된 액션을 정확한 레이블로 대체하고, 함수
Figure PCTKR2020003622-appb-I000048
를 가중치 함수(Weighted Function) W로 대체한다.
따라서, 지도 정책 손실(Supervised policy loss) LL은 가중치 함수
Figure PCTKR2020003622-appb-I000049
로부터 얻은 분류 손실 가중치(Classification loss weighted)이다.
또한, 모든 스테이트, 액션, 레이블에 대해 가중치 함수가 '1'인 경우, LL은 분류 손실 가중치와 완전하게 같아지게 된다.
또한, 액터(400)는 지도 분류를 위한 정책 손실 함수(41)가 가중치 함수부(500)로부터 생성된 리워드의 가중치 값을 이용하여 지도 정책을 학습할 수 있다.
가중치 함수부(500)는 스테이트
Figure PCTKR2020003622-appb-I000050
으로부터 가져올 수 있는 리워드의 가중치로서, 레이블이 있는 데이터 세트로부터 레이블의 빈도수에 기반하여 스테이트, 액션 및 레이블에 대한 리워드의 가중치를 생성한다.
여기서, 가중치 함수부(500)가 K개의 레이블이 있는 (k = 0, 1, …, K-1) 레이블이 있는 데이터 세트 SL을 가지고 있다고 가정하면, K번째 레이블의 빈도수는 하기식으로 근사될 수 있다.
Figure PCTKR2020003622-appb-I000051
여기서, nk는 k번째 레이블의 샘플 수이고,
Figure PCTKR2020003622-appb-I000052
는 (0, 1)의 범위 안에 있다.
또한, 가중 계수 ωk는 각 레이블에 대하여 하기식으로 추정될 수 있다.
Figure PCTKR2020003622-appb-I000053
여기서, b는 로그에 기초한다(b = e, 10, …).
따라서, 레이블의 빈도수가 상대적으로 작은 소수의 레이블(minority lable)에 대하여 높은 리워드의 가중치를 주고, 레이블의 빈도수가 상대적으로 큰(높은) 다수의 레이블(majority lable)에는 더 낮은 리워드의 가중치를 줌으로써, 레이블 간의 균형이 맞춰지도록 생성할 수 있다.
또한, 가중치 함수부(500)는 가중치 함수, 즉 스테이트, 액션 및 레이블에 대한 리워드의 가중치를 하기식으로 정의할 수 있다.
Figure PCTKR2020003622-appb-I000054
여기서,
Figure PCTKR2020003622-appb-I000055
는 스테이트
Figure PCTKR2020003622-appb-I000056
으로부터 가져올 수 있는 리워드이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며, y는 스테이트의 레이블이고, ωy와 ωa
Figure PCTKR2020003622-appb-I000057
(b 는 로그에 기초한 e, 10 …)에 기반한 가중 계수이다.
다음은 본 발명의 제1 실시 예에 따른 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 및 학습 방법을 설명한다.
학습 절차는 결측값을 생성하는 단계(S100)와 학습 정책을 생성하는 단계(S200)인 두 단계로 나눠질 수 있다.
그리고, 각 단계 S100과 S200은 레이블이 있는 데이터 세트의 다양한 에폭(epoch)을 통해 반복하면서 업데이트 할 수 있는데, 데이터 세트를 한 번 도는 것을 1 에폭(epoch)이라 한다.
또한, 생성자(100)와, 판별자(200)와, 액터(400)와 가중치 함수부(500)로 구성된 생성적 적대 신경망(Generative Adversarial Network; GAN)을 이용할 수 있다.
우선, 결측 대체값을 생성하는 S100 단계는 생성자(100)와 판별자(200)를 학습하는데, 각각의 반복에서 생성자(100)에 입력될 데이터 세트로부터 무작위(랜덤)로 n개의 스테이트(State)를 선택하는 단계(S110)와, 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(m)를 선택하는 단계(S120)를 수행한다.
이때, S110 단계와 S120 단계는 외부 단말로부터 제공될 수도 있고, 미리 설정된 데이터 세트로부터 제공될 수도 있다.
또한, S110 단계와 S120 단계에서, 데이터 세트는 레이블링된 데이터 및 레이블링되지 않은 데이터 중 적어도 하나의 데이터로 이루어진 데이터 세트일 수 있다.
n개의 스테이트에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'(여기서 Z ∈ [0, 1])로 대체한 벡터를 선별(S130)하여 생성자(100)로 입력되면, 생성자(100)는 결측 대체값(
Figure PCTKR2020003622-appb-I000058
)과, 스테이트(
Figure PCTKR2020003622-appb-I000059
)와, 결측 대체값(
Figure PCTKR2020003622-appb-I000060
)을 계산(S140)한다.
여기서,
Figure PCTKR2020003622-appb-I000061
는 노이즈 'Z'로 대체된 결측 대체값이고,
Figure PCTKR2020003622-appb-I000062
는 생성자(100)에 의해 생성된 스테이트를 나타내며,
Figure PCTKR2020003622-appb-I000063
은 생성자에 의해 생성된 값으로 대체된 결측 대체값이다.
S140 단계에서, 생성자(100)는 랜덤 노이즈 'Z'로 대체된 결측 대체값(
Figure PCTKR2020003622-appb-I000064
)으로 이루어진 벡터를 입력받아 계산하는데, 하기식을 통해 입력으로 받는다.
Figure PCTKR2020003622-appb-I000065
또한, 생성자(100)는
Figure PCTKR2020003622-appb-I000066
= G(
Figure PCTKR2020003622-appb-I000067
)를 통해
Figure PCTKR2020003622-appb-I000068
∈ Rd를 계산하여 스테이트(
Figure PCTKR2020003622-appb-I000069
)를 생성한다.
또한, 생성자(100)는 생성된 스테이트(
Figure PCTKR2020003622-appb-I000070
)로 대체된 결측 대체값으로 이루어진 벡터인 결측 대체값(
Figure PCTKR2020003622-appb-I000071
)을 계산하는데, 하기식을 통해 계산될 수 있다.
Figure PCTKR2020003622-appb-I000072
또한, 생성자(100)가 생성한 결측 대체값(
Figure PCTKR2020003622-appb-I000073
)은 판별자(200)로 제공되고, 판별자 손실 함수를 이용하여 판별자(200)가 학습(S150)되도록 한다.
또한, 생성자(100)가 생성한 결측 대체값(
Figure PCTKR2020003622-appb-I000074
)은 생성자 손실 함수를 이용하여 생성자(100)가 학습(S160)되도록 한다.
한편, 모든 구성요소들을 학습하기 위해 매개 변수마다 업데이트 속도를 최적으로 조절하는 'Adam optimizer'를 사용할 수도 있다.
학습 정책을 생성하는 단계(S200)는 각각의 반복에서, 레이블이 있는 데이터 세트(SL)로부터 무작위(랜덤)로 n개의 스테이트(State)와, 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(mL)를 선택(S210)한다.
계속해서, n개의 스테이트에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'(여기서 Z ∈ [0, 1])로 대체한 벡터를 선별(S220)하여 생성자(100)로 입력되면, 생성자(100)는 결측 대체값(
Figure PCTKR2020003622-appb-I000075
L)과, 스테이트(
Figure PCTKR2020003622-appb-I000076
L)와, 결측 대체값(
Figure PCTKR2020003622-appb-I000077
L)을 계산(S230)한다.
여기서,
Figure PCTKR2020003622-appb-I000078
L은 노이즈 'Z'로 대체된 결측 대체값이고,
Figure PCTKR2020003622-appb-I000079
L은 생성자(100)에 의해 생성된 스테이트를 나타내며,
Figure PCTKR2020003622-appb-I000080
L은 생성자에 의해 생성된 값으로 대체된 결측 대체값이다.
S230 단계에서, 생성자(100)는 랜덤 노이즈 'Z'로 대체된 결측 대체값(
Figure PCTKR2020003622-appb-I000081
L)로 이루어진 벡터를 입력받아 계산하는데, 하기식을 통해 입력으로 받는다.
Figure PCTKR2020003622-appb-I000082
또한, 생성자(100)는
Figure PCTKR2020003622-appb-I000083
L = G(
Figure PCTKR2020003622-appb-I000084
L)를 통해
Figure PCTKR2020003622-appb-I000085
L ∈ Rd를 계산하여 스테이트(
Figure PCTKR2020003622-appb-I000086
L)를 생성한다.
또한, 생성자(100)는 생성된 스테이트(
Figure PCTKR2020003622-appb-I000087
L)로 대체된 결측 대체값으로 이루어진 벡터인 결측 대체값(
Figure PCTKR2020003622-appb-I000088
L)을 계산하는데, 하기식을 통해 계산될 수 있다.
Figure PCTKR2020003622-appb-I000089
계속해서, 액터(400)는 생성된 결측 대체값(
Figure PCTKR2020003622-appb-I000090
L)이 정책
Figure PCTKR2020003622-appb-I000091
을 통해 액션을 수행할 확률값을 예측(S240)한다.
이때, 가중치 함수부(500)는 가중치 함수를 이용하여 스테이트, 액션 및 레이블에 대한 리워드의 가중치를 하기식을 통해 생성(S250)한다.
Figure PCTKR2020003622-appb-I000092
또한, S250 단계에서, 가중치 함수부(500)는 스테이트로부터 가져올 수 있는 리워드의 가중치로서, 레이블이 있는 데이터 세트로부터 레이블의 빈도수에 기반하여 스테이트, 액션 및 레이블에 대한 리워드의 가중치로 반영할 수 있다.
이때, 레이블 빈도수는 하기식을 통해 근사할 수 있다.
Figure PCTKR2020003622-appb-I000093
계속해서, S250 단계에서 생성된 가중치는 하기식을 이용한 지도 정책 손실 함수(41)를 통해 학습(S260)한다.
Figure PCTKR2020003622-appb-I000094
여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,
Figure PCTKR2020003622-appb-I000095
는 스테이트, 액션 및 레이블에 대한 리워드의 가중치이다.
한편, 모든 구성요소들을 학습하기 위해 매개 변수마다 업데이트 속도를 최적으로 조절하는 'Adam optimizer'를 사용할 수도 있다.
(제2 실시 예)
도 7은 본 발명의 제2 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템의 구성을 나타낸 블록도이고, 도 8은 본 발명의 제2 실시 예에 따른 생성적 적대 신경망 기반의 분류 방법을 나타낸 흐름도이며, 도 9는 도 8에 따른 생성적 적대 신경망 기반의 분류 방법의 비레이블 데이터의 분류 학습과정을 나타낸 흐름도이다.
도 7 내지 도 9를 참조하면, 생성적 적대 신경망 기반의 분류 시스템은 생성자(100a, Generator)와, 판별자(200a, Discriminator)와, 액터(400a, Actor)와, 가중치 함수부(500a, Weighted Function)와, 리워드부(600a, Reward)를 포함하여 구성된다.
생성자(100a)와 판별자(200a)는 경쟁 구조에 있는 네트워크인 생성적 적대 신경망(Generative Adversarial Network; GAN)을 사용하여 생성자(100)는 원본 데이터의 분포를 보고 판별자(200a)를 속이는 결측 데이터의 생성을 위한 학습을 수행하며, 판별자(200a)는 어떤 데이터가 생성자(100a)에 의해 생성된 데이터인지 분별하는 학습을 수행한다.
또한, 생성자(100a)는 원본 데이터의 분포를 참조하여 판별자(200a)를 속이는 결측 데이터의 생성을 위한 학습을 수행한다.
또한, 생성자(100a)는 레이블이 있는 레이블 데이터 세트(SL)를 이용하거나, 또는 레이블이 없는 비레이블 데이터 세트(SU)를 이용할 수 있다.
여기서, L은 스테이트에 레이블이 있는 데이터 세트이고, U는 스테이트에 레이블이 없는 데이터 세트를 의미하고, 외부 단말로부터 임의의 데이터 세트를 입력받을 수도 있다.
또한, 생성자(100a)는 전처리 과정으로, 레이블이 있는 데이터 세트(SL) 또는 레이블이 없는 데이터 세트(SU)로부터 결측 대체값을 생성하기 위한 학습과정을 수행할 수도 있다.
또한, 생성자(100a)는 전처리 과정으로, 레이블이 있는 레이블 데이터 세트가 아닌 레이블이 없는 비레이블 데이터 세트로부터 결측 대체값을 생성하기 위한 학습과정을 수행할 수도 있다.
또한, 생성자(100a)는 결측 대체값의 생성을 위한 입력으로 데이터 세트(10a)로부터 n개의 스테이트(State)와, n개의 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(20a)를 선택한다.
결측 지표(20a)도 레이블이 있는 레이블 데이터 세트(SL) 및 레이블이 없는 비레이블 데이터 세트(SU)와 마찬가지로 레이블이 있는 레이블 데이터 세트(SL)는 ML로 레이블이 없는 비레이블 데이터 세트(SU)는 MU로 분류될 수 있다.
또한, 데이터 세트(10a)는 S1, S2, S3, ‥, Sn ∈ Rd 로 이루어진 n개의 스테이트를 포함하고, 여기서 d는 스테이트 특징(feature)이다.
또한, 스테이트 i가 가지는 j번째 원소는 Si j라고 표현하고, 여기서, j는 d까지의 상수이며, Si j는 스칼라 또는 결측값을 가진다.
또한, 데이터 세트(10a)는 레이블이 있는 데이터 및 레이블링되지 않은 데이터 중 적어도 하나의 데이터로 구성될 수 있다.
또한, 결측 지표(20a)는 스테이트의 원소가 결측 됐는지를 나타내기 위한 지표로서, m1, m2, m3, ‥, mn ∈ Rd 를 사용하고, 이때, mi j는 Si j가 결측 데이터를 가지면 결측 지표값(22)은 '0', 그렇지 않으면 결측 지표값(21)은 '1'로 표시된다.
또한, 생성자(100a)는 n개의 스테이트 중에서 임의의 원소(11)에 대하여 무작위(랜덤)로 선별된 결측 원소(12)에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'로 대체된 결측 대체값(
Figure PCTKR2020003622-appb-I000096
)을 입력 받아 계산한다.
이때, 결측 대체값(
Figure PCTKR2020003622-appb-I000097
)은 하기식을 통해 입력으로 받는다.
Figure PCTKR2020003622-appb-I000098
여기서, m은 스테이트 s에 해당하는 결측 지표의 벡터이고, z는 '0'과 '1' 사이의 균등 분포로부터 랜덤하게 선별된 노이즈의 벡터이며, 요소별 곱으로 나타낼 수 있다.
또한, 생성자(100a)는 결측 대체값(
Figure PCTKR2020003622-appb-I000099
)을 이용하여 생성된 원소들의 벡터로 이루어진 스테이트(
Figure PCTKR2020003622-appb-I000100
)를 출력한다.
또한, 생성자(100a)는 스테이트(
Figure PCTKR2020003622-appb-I000101
)로 대체된 결측 대체값(
Figure PCTKR2020003622-appb-I000102
)을 생성하여 출력한다.
이때, 생성자(100a)의 출력을 통해 하기식을 따르는 결측 대체값(
Figure PCTKR2020003622-appb-I000103
)에 해당하는 데이터가 판별자(200a)의 학습을 위해 사용될 수 있도록 한다.
Figure PCTKR2020003622-appb-I000104
여기서, m은 스테이트 s에 해당하는 결측 지표의 벡터이다.
판별자(200a)는 생성자(100a)가 생성한 결측 대체값(
Figure PCTKR2020003622-appb-I000105
)과 원본 데이터를 구분하는 구성으로서, 판별자(200a)가 출력한 것의 각 원소들이 결측(fake)인지 아닌지(real)를 구분하고, 결과적으로 m은
Figure PCTKR2020003622-appb-I000106
을 위한 레이블로 사용될 수 있다.
또한, 판별자(200a)는 함수를 통해 스테이트
Figure PCTKR2020003622-appb-I000107
의 i번째 원소가 결측 데이터가 아닐 확률에 해당하는 판별자(200a)의 i번째 출력을 S →[0, 1]d로나타낼 수 있다.
또한, 판별자(200a)는 출력을 판별자 출력 지표(30)를 통해 D1, D2, D3, ‥,Dd로 나타낼 수 있다.
한편, 생성자(100a)와 판별자(200a)는 손실 함수를 통해 학습될 수 있는데, 생성자(100a)의 학습을 위한 생성자 손실 함수는 하기식과 같을 수 있다.
Figure PCTKR2020003622-appb-I000108
여기서, 생성자 손실 함수는 두 개의 항(term)으로 구성될 수 있는데, 첫 번째 항은 결측 데이터에 대한 확률 Di를 최대화 하는 것이다.
또한, 두 번째 항은 원본 데이터 분포를 이용하여 생성자(100a)에서 생성된 결측 데이터를 원본 데이터에 가깝도록 변환하는 재구성 손실(reconstruction loss, 40a)이고, 여기서, λ는 스케일 팩터(scale factor)이다.
또한, 판별자(200a)의 학습을 위한 판별자 손실 함수는 하기식과 같을 수 있다.
Figure PCTKR2020003622-appb-I000109
액터(400a)는 생성자(100a)에 의해 생성된 결측 대체값들로 이루어진 벡터를 정책(Policy)을 이용하여 레이블이 있는 데이터 세트로부터 액션(Action)을 수행할 확률을 예측한다.
또한, 액터(400a)는 강화학습에서 잘 알려진 의사결정 프레임워크인 'Actor-critic' 아키텍처의 구성요소일 수 있다.
또한, 액터(400a)는 주어진 스테이트의 레이블을 생성할 수 있다.
또한, 액터(400a)는 스테이트를 입력으로 받아 주어진 액션(Action)을 할 확률을 출력하고, 'Actor-critic'를 이용하여 정책(Policy)π를 학습하기 위해, 정책 손실 함수(Policy loss function)는 하기식과 같이 정의될 수 있다.
Figure PCTKR2020003622-appb-I000110
여기서,
Figure PCTKR2020003622-appb-I000111
는 주어진 스테이트에서 예측된 액션이 좋은지 또는 나쁜지를 결정하는 크리틱(Critic)으로부터 평가되는 함수이다.
또한,
Figure PCTKR2020003622-appb-I000112
는 'total discounted reward', 'action-value function' 또는 'TD-error'와 같은 형태를 가질 수도 있다.
상기된 정책 손실 함수는 액션이 결정되지 않은 일반적인 형태로서, 액터(400a)는 정확하고, 부정확한 액션 모두로부터 학습되어야 한다.
그러나,
Figure PCTKR2020003622-appb-I000113
의 추정치가 나쁜 경우, 그 정책 손실 함수는 잘못된 방향으로 최적화를 하게 되고, 그 결과, 천천히 수렴하거나 또는 발산하게 될 수 있다.
따라서, 본 발명의 실시 예에 따른 액터(400a)는 정책 손실 함수(41a)를 부정확한 액션으로부터 학습되는 경우를 생략하고, 주어진 정확한 레이블 만을 이용할 수 있도록 하기식으로 정의될 수 있다.
Figure PCTKR2020003622-appb-I000114
여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,
Figure PCTKR2020003622-appb-I000115
는 스테이트, 액션 및 레이블에 대한 리워드의 가중치이다.
즉, 예측된 액션을 정확한 레이블로 대체하고, 함수
Figure PCTKR2020003622-appb-I000116
를 가중치 함수(Weighted Function) W로 대체한다.
따라서, 지도 정책 손실(Supervised policy loss) LL은 가중치 함수
Figure PCTKR2020003622-appb-I000117
로부터 얻은 분류 손실 가중치(Classification loss weighted)이다.
또한, 모든 스테이트, 액션, 레이블에 대해 가중치 함수가 '1'인 경우, LL은 분류 손실 가중치와 완전하게 같아지게 된다.
또한, 액터(400a)는 지도 분류를 위한 정책 손실 함수(LL, 41a)가 가중치 함수부(500a)로부터 생성된 가중치를 이용하여 지도 정책을 학습할 수 있다.
또한, 액터(400a)는 세미 지도 분류(Semi-supervised classification)를 위한 세미 정책 손실 함수(LU, 42a)가 액터(400a)의 정책과 리워드부(600a)의 출력을 반영하여 정책을 학습할 수 있다.
즉, 세미 지도 분류는 레이블이 없는 데이터 세트를 활용하여 액터(400a)의 액션(a)과 리워드부(600a)의 출력 간의 협력을 통해 생성자 역할을 하는 액터(400a)의 정책은 주어진 스테이트의 레이블을 생성하고, 판별자 역할을 하는 리워드부(600a)는 각 스테이트-액션(
Figure PCTKR2020003622-appb-I000118
, a) 쌍이 레이블 데이터 세트인지 아닌지를 결정하도록 한다.
또한, 세미 정책 손실 함수(LU, 42a)는 레이블이 없는 데이터 세트(SU)를 활용하기 위해 리워드부(600a)의 출력과 액터(400a)의 정책이 함께 동작될 수 있다.
세미 정책 손실 함수(LU)는 하기식으로 정의될 수 있다.
Figure PCTKR2020003622-appb-I000119
여기서, 세미 정책 손실 함수(LU)는 정책 손실(policy loss)로부터 얻어질 수 있고,
Figure PCTKR2020003622-appb-I000120
는 다음과 같이 정의되는 리워드부(600a)의 리워드인
Figure PCTKR2020003622-appb-I000121
로 대체될 수 있다.
또한,
Figure PCTKR2020003622-appb-I000122
은 하기식과 같이 정의될 수 있다.
Figure PCTKR2020003622-appb-I000123
여기서,
Figure PCTKR2020003622-appb-I000124
는 (
Figure PCTKR2020003622-appb-I000125
, a)쌍이 레이블 데이터 세트에 있는 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값이다.
가중치 함수부(500a)는 스테이트
Figure PCTKR2020003622-appb-I000126
으로부터 가져올 수 있는 리워드의 가중치로서, 레이블이 있는 데이터 세트(SL)로부터 레이블의 빈도수에 기반하여 스테이트, 액션, 레이블에 대한 리워드의 가중치를 생성한다.
여기서, 가중치 함수부(500a)가 K개의 레이블이 있는 (k = 0, 1, …, K-1) 레이블이 있는 데이터 세트 SL을 가지고 있다고 가정하면, K번째 레이블의 빈도수는 하기식으로 근사될 수 있다.
Figure PCTKR2020003622-appb-I000127
여기서, nk는 k번째 레이블의 샘플 수이고,
Figure PCTKR2020003622-appb-I000128
는 (0, 1)의 범위 안에 있다.
또한, 가중 계수 ωk는 각 레이블에 대하여 하기식으로 추정될 수 있다.
Figure PCTKR2020003622-appb-I000129
여기서, b는 로그에 기초한다(b = e, 10, …).
따라서, 레이블의 빈도수가 상대적으로 작은 소수의 레이블(minority lable)에 대하여 높은 리워드의 가중치를 주고, 레이블의 빈도수가 상대적으로 큰(높은) 다수의 레이블(majority lable)에는 더 낮은 리워드의 가중치를 줌으로써, 레이블 간의 균형이 맞춰지도록 동작할 수 있다.
또한, 가중치 함수부(500a)는 각 클래스에 대한 가중치 함수, 즉 스테이트, 액션 및 레이블에 대한 리워드의 가중치를 하기식으로 정의할 수 있다.
Figure PCTKR2020003622-appb-I000130
여기서,
Figure PCTKR2020003622-appb-I000131
는 스테이트
Figure PCTKR2020003622-appb-I000132
으로부터 가져올 수 있는 리워드이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며, y는 스테이트의 레이블이고, ωy와 ωa
Figure PCTKR2020003622-appb-I000133
(b 는 로그에 기초한 e, 10 …)에 기반한 가중 계수이다.
리워드부(600a)는 레이블이 있는 데이터 세트(SL)에 있는 스테이트-액션(
Figure PCTKR2020003622-appb-I000134
, a) 쌍이 있는지 결정하고, 레이블이 없는 데이터 세트에 대한 액터(400a)의 정책을 학습시키도록 리워드를 제공하는 구성이다.
또한, 리워드부(600a)는 레이블 데이터 세트에 있는 스테이트-액션(
Figure PCTKR2020003622-appb-I000135
, a) 쌍에 대한 확률값에 대하여 리워드를 제공하는 리워드 모델로 이루어질 수 있다.
또한, 리워드 모델은 레이블 데이터 세트에 있는 스테이트-액션(
Figure PCTKR2020003622-appb-I000136
, a) 쌍의 레이블인지에 대한 확률값을 출력하는 함수로서, R: S×A→[0, 1]일 수 있다.
각 스테이트-액션(
Figure PCTKR2020003622-appb-I000137
, a) 쌍에 대한 레이블은 하기식과 같이 정의될 수 있다.
Figure PCTKR2020003622-appb-I000138
여기서, m은 스테이트의 결측 지표이고, y는 스테이트의 레이블이며, a는 주어진 스테이트에 대해 액터의 정책이 예측한 액션이다.
또한, 리워드부(600a)는 스테이트-액션(
Figure PCTKR2020003622-appb-I000139
, a) 쌍이 레이블이 있는 데이터 세트에 있는 레이블이면 확률값이 최대화 되도록 하여 리워드부(600)의 리워드(
Figure PCTKR2020003622-appb-I000140
)로 제공하고, 스테이트-액션(
Figure PCTKR2020003622-appb-I000141
, a) 쌍이 레이블이 있는 데이터 세트에 없는 레이블이면 확률값이 최소화 되도록 하여 리워드부(600a)의 리워드(
Figure PCTKR2020003622-appb-I000142
)로 제공하며, 상기 리워드부(600a)는 리워드 모델 손실 함수(Lrew, 61a)를 이용하여 학습될 수 있다.
또한, 리워드 모델 손실 함수(Lrew, 61a)는 두가지 부분을 구성할 수 있는데, 스테이트-액션(
Figure PCTKR2020003622-appb-I000143
L, a) 쌍이 레이블이 있는 데이터 세트에 있는 레이블이면 확률값이 최대화 되도록 학습하고, 스테이트-액션(
Figure PCTKR2020003622-appb-I000144
L, a) 쌍이 레이블이 있는 데이터 세트에 없는 레이블이면 확률값이 최소화 되도록 학습한다.
이때, 하기식과 같이 정의될 수 있다.
Figure PCTKR2020003622-appb-I000145
다음은 본 발명의 제2 실시 예에 따른 생성적 적대 신경망 기반의 지도 분류 및 학습 방법을 설명한다.
학습 절차는 결측 대체값을 생성하는 단계(S100')와, 레이블이 있는 데이터 세트를 이용한 학습 과정(S200')과, 레이블이 없는 데이터 세트를 이용한 학습 과정(S300) 단계를 포함한 학습 정책을 생성하는 단계로 구성될 수 있다.
그리고, 각 단계 S100', S200' 및 S300은 데이터 세트를 다양한 에폭(epoch)을 통해 반복하면서 업데이트 할 수 있는데, 데이터 세트를 한 번 도는 것을 1 에폭(epoch)이라 한다.
또한, 생성자(100a)와, 판별자(200a)와, 액터(400a)와, 가중치 함수부(500a)와, 리워드부(600a)로 구성된 생성적 적대 신경망(Generative Adversarial Network; GAN)을 이용할 수 있다.
우선, 결측 대체값을 생성하는 S100' 단계 및 S200' 단계는 레이블이 있는 레이블 데이터 세트를 이용하여 학습 정책을 수행하는 단계로서, 생성자(100a)와 판별자(200a)는 제1 실시 예에 따른 S100 단계 및 S200 단계와 동일하게 동작하여 동일한 구성요소에 대한 반복적인 설명은 생략한다.
레이블이 없는 비레이블 데이터 세트(SU)로부터 학습 정책을 생성하는 단계(S300)는, 레이블이 없는 데이터 세트(SU)로부터 무작위(랜덤)로 n개의 스테이트(State)와, 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(mU)를 선택(S310)한다.
계속해서, n개의 스테이트에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'(여기서 Z ∈ [0, 1])로 대체한 벡터를 선별(S320)하여 생성자(100a)로 입력되면, 생성자(100a)는 결측 대체값(
Figure PCTKR2020003622-appb-I000146
)과, 스테이트(
Figure PCTKR2020003622-appb-I000147
)와, 결측 데이터 즉, 결측 대체값(
Figure PCTKR2020003622-appb-I000148
)를 계산(S330)한다.
여기서,
Figure PCTKR2020003622-appb-I000149
는 노이즈 'Z'로 대체된 결측 대체값이고,
Figure PCTKR2020003622-appb-I000150
는 생성자(100a)에 의해 생성된 스테이트를 나타내며,
Figure PCTKR2020003622-appb-I000151
는 생성자에 의해 생성된 값으로 대체된 결측 대체값이다.
S330 단계에서, 생성자(100a)는 랜덤 노이즈 'Z'로 대체된 결측 대체값(
Figure PCTKR2020003622-appb-I000152
)으로 이루어진 벡터를 입력받아 계산하는데, 하기식을 통해 입력으로 받는다.
Figure PCTKR2020003622-appb-I000153
또한, 생성자(100a)는
Figure PCTKR2020003622-appb-I000154
= G(
Figure PCTKR2020003622-appb-I000155
)를 통해
Figure PCTKR2020003622-appb-I000156
∈ Rd를 계산하여 스테이트(
Figure PCTKR2020003622-appb-I000157
)를 생성한다.
또한, 생성자(100a)는 생성된 스테이트(
Figure PCTKR2020003622-appb-I000158
)로 대체된 결측 대체값(
Figure PCTKR2020003622-appb-I000159
)을 계산하는데, 결측 대체값(
Figure PCTKR2020003622-appb-I000160
)은 하기식을 통해 계산될 수 있다.
Figure PCTKR2020003622-appb-I000161
계속해서, 리워드부(600a)는 레이블이 있는 데이터 세트에 대한 스테이트-액션(
Figure PCTKR2020003622-appb-I000162
, a) 쌍에 대한 확률값으로 리워드부(600a)의 리워드를 제공하고, 상기 리워드부(600a)는 리워드 모델 손실 함수(Lrew)를 이용하여 학습하는 단계를 수행(S340)한다.
또한, 상기 리워드부(600a)는 리워드 모델로 이루어질 수 있고, 상기 리워드 모델은 레이블 데이터 세트에 있는 스테이트-액션(
Figure PCTKR2020003622-appb-I000163
, a) 쌍에 대한 확률을 출력하는 함수로서, R: S×A→[0, 1]일 수 있다.
또한, 각 스테이트-액션(
Figure PCTKR2020003622-appb-I000164
, a) 쌍에 대한 레이블은 하기식으로 정의될 수 있다.
Figure PCTKR2020003622-appb-I000165
여기서, m은 스테이트의 결측 지표이고, y는 스테이트의 레이블이며, a는 주어진 스테이트에 대해 액터의 정책이 예측한 액션이다.
리워드 모델 손실 함수(Lrew)는 스테이트-액션(
Figure PCTKR2020003622-appb-I000166
L, a) 쌍이 레이블이 있는 데이터 세트에 있는 레이블이면 확률값이 최대화 되도록 학습한다.
또한, 리워드 모델 손실 함수(Lrew)는 스테이트-액션(
Figure PCTKR2020003622-appb-I000167
L, a) 쌍이 레이블이 있는 데이터 세트에 없는 레이블이면, 확률값이 최소화 되도록 학습한다.
이때, 리워드 모델 손실 함수(Lrew)는 하기식을 이용하여 학습한다.
Figure PCTKR2020003622-appb-I000168
이후, 액터(400a)에서 생성된 결측 대체값(
Figure PCTKR2020003622-appb-I000169
L)과 정책(Policy)을 이용하여 액션을 수행할 확률
Figure PCTKR2020003622-appb-I000170
을 예측하는 과정을 수행(S350)한다.
S340단계에서 제공되는 리워드 모델의 리워드와 S350 단계에서 예측한 액션의 예측 결과는 액터(400a)가 하기식을 이용한 세미 정책 손실 함수(LU)를 이용하여 세미 정책 손실 함수(42a)에서 최적화 되도록 정책을 학습(S360)할 수 있다.
Figure PCTKR2020003622-appb-I000171
여기서,
Figure PCTKR2020003622-appb-I000172
는 리워드부(600a)에서 리워드 모델 함수에 대한 리워드이다.
또한,
Figure PCTKR2020003622-appb-I000173
은 하기식과 같이 정의될 수 있다.
Figure PCTKR2020003622-appb-I000174
여기서,
Figure PCTKR2020003622-appb-I000175
는 리워드부가 출력하는 레이블 데이터 세트(
Figure PCTKR2020003622-appb-I000176
, a)쌍이 레이블이 있는 레이블 데이터 세트의 레이블인지 또는 액터가 생성한 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값이다.
한편, 모든 구성요소들을 학습하기 위해 매개 변수마다 업데이트 속도를 최적으로 조절하는 'Adam optimizer'를 사용할 수도 있다.
도 10은 UCI(University of California)에서 공개한 22% 사기 거래를 포함하는 실제 신용카드 거래 데이터를 이용한 실험의 데이터로서, 데이터를 0.7 테스트 세트와 0.3 테스트 세트 비율로 진행한 결과이다.
여기서 전체 데이터 세트는 10%, 20%, 30%, 40%, 50%의 결측률로 결측 정도를 나타내게 가정되었고, 데이터는 제로-평균 정규화를 적용하여 전처리되었다.
도 10에서 확인할 수 있듯이, 다수의 결측률을 이용한 생성자와 판별자의 성능은 평균 제곱근 오차 지표에 의해 10회 이상 평균화되어 단순하게 결측 대체값을 평균으로 채우는 것 보다 생성자를 학습하여 결측 대체값을 생성하는 것이 원래의 값과 더 비슷하게 나타나는 것을 알 수 있다.
또한, 결측률이 증가함에 따라 GAN의 효과도 함께 증가되는 것을 알 수 있다.
또한, 도 11은 학습 과정 동안 생성된 값의 분포를 나타낸 그래프이다.
도 11에서 확인할 수 있듯이, 학습 과정동안 생성된 값의 분포가 도 11(a)의 0 에폭(epoch)과, 도 11(b)의 1 에폭 후의 분포와 대비하여, 도 11(c)의 10 에폭 후에 생성된 값의 분포를 원래 값의 분포와 비교하면 더욱 비슷하게 나타나는 것을 알 수 있다.
또한, 도 12는 플러그인 요소가 있는 것과 없는 것의 성능을 나타낸 예시도로서, F1-score를 이용하여 다른 state-of-art 모형과 본 발명에 따른 프레임워크를 비교한 것이다.
여기서, GAN, 가중치 함수, 리워드 모델을 순차적으로 구현함으로써, 각각 2.2%, 4.4%와 1.04%의 성능이 향상된 것을 알 수 있다.
이 가중치 함수는 성능에 가장 큰 영향을 주고, 이는 가중치 함수를 이용하여 학습할 때 정책(Policy)이 소수 클래스에 더 많은 가중치를 주어 학습하기 때문이다.
결과적으로 더 좋은 리콜 점수를 가지며, 이는 더 좋은 F1 점수를 얻을 수 있도록 한다.
또한, 리워드 모델은 ε을 조절하면, 프레임워크의 성능을 향상시키는데 도움을 줄 수 있다.
또한, ε은 레이블이 없는 데이터로부터 어느 정도의 정보를 정책 업데이트에 이용할 것인지를 제한하며, 높은 값을 가질수록 레이블이 없는 데이터 사용을 더욱 엄격하게 관리한다.
도 12는 레이블 데이터 비율과 결측률에 따른 성능 비교를 나타낸 그래프이다.
도 13은 ULB에서 가져온 0.172%의 사기 비율을 가진 매우 불균형한 신용카드 데이터 세트를 이용한 평가 결과이고, 평가 결과는 F1-score 지표에 의해 측청되었다.
도 13(a)에서 알 수 있듯이, 같은 수의 레이블 데이터를 이용하면, 본 발명에 따른 프레임워크가 기존의 mlp 기반의 분류기보다 더 좋은 성능을 내는 것을 알 수 있다.
또한, mlp 기반의 분류기는 결측률이 증가했을때, F1-score가 보다 빠르게 감소하는 것을 볼 수 있는데, 이는 본 발명의 프레임워크가 결측값을 다루기에 더 좋은 프레임워크라는 것으로 볼 수 있다.
또한, 두 프레임워크가 레이블 데이터를 충분히 포함하고 있을 때, 둘의 성능 차이는 좁혀질 수 있다.
예를 들어, 50%의 레이블 데이터만 포함한 경우, 본 발명에 따른 프레임 워크의 성능은 완전한 레이블 데이터 세트를 이용할 때와 비슷한 성능을 보여주는 것을 알 수 있다.
또한, 도 13(b)의 플롯은 레이블 데이터의 양에 따른 리워드 모델의 출력을 나타낸 것으로서, 레이블 데이터가 많을수록 더 빨리 하나의 값으로 수렴하는 것을 알 수 있다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있으며, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
[부호의 설명]
10, 10a : 데이터 세트
11 : 원소
12 : 결측 원소
20, 20a : 결측 지표
21, 22 : 결측 지표값
30 : 판별자 출력 지표
40, 40a : 손실 함수
41, 41a : 정책 손실 함수
42, 42a : 세미 정책 손실 함수
61a : 리워드 모델 손실 함수
100, 100a : 생성자
200, 200a : 판별자
400, 400a : 액터
500, 500a : 가중치 함수부
600a : 리워드부

Claims (11)

  1. 레이블이 있는 데이터 세트로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 생성자(100);
    상기 생성자(100)가 생성한 결측 대체값과 원본 데이터를 구분하는 판별자(200);
    상기 생성자(100)에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 액터(400); 및
    상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 가중치 함수부(500);를 포함하고,
    상기 가중치 함수부(500)는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하며,
    상기 액터(400)는 상기 예측된 액션과 가중치 함수부(500)에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41)가 최적화 되도록 상기 정책을 학습하는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 시스템.
  2. 제 1 항에 있어서,
    상기 리워드의 가중치는 하기식
    Figure PCTKR2020003622-appb-I000177
    - 여기서,
    Figure PCTKR2020003622-appb-I000178
    는 스테이트
    Figure PCTKR2020003622-appb-I000179
    으로부터 가져올 수 있는 리워드이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며, y는 스테이트의 레이블이고, ωy와 ωa
    Figure PCTKR2020003622-appb-I000180
    (b 는 로그에 기초한 e, 10 …)에 기반한 가중 계수 임 - 으로 정의되는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 시스템.
  3. 제 1 항에 있어서,
    상기 가중치 함수부(500)는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하되,
    상기 레이블 빈도수는 하기식
    Figure PCTKR2020003622-appb-I000181
    - 여기서, nk는 k번째 레이블의 샘플 수이고,
    Figure PCTKR2020003622-appb-I000182
    는 (0, 1)의 범위 안에 있음 - 으로 근사되며,
    상기 액터(400)는 상기 예측된 액션과 가중치 함수부(500)에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41)가 최적화 되도록 상기 정책을 학습하는 것을 특징으로 생성적 적대 신경망 기반의 분류 시스템.
  4. 제 1 항에 있어서,
    상기 가중치 함수부(500)는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하며,
    상기 액터(400)는 상기 예측된 액션과 가중치 함수부(500)에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41)가 최적화 되도록 상기 정책을 학습하되,
    상기 정책의 학습은 하기식
    Figure PCTKR2020003622-appb-I000183
    - 여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,
    Figure PCTKR2020003622-appb-I000184
    는 스테이트, 액션 및 레이블에 대한 리워드의 가중치 임 - 을 이용하는 것을 특징으로 생성적 적대 신경망 기반의 분류 시스템.
  5. 생성자(100)와, 판별자(200)와, 액터(400)와 가중치 함수부(500)로 구성된 생성적 적대 신경망(Generative Adversarial Network; GAN)을 이용한 생성적 적대 신경망 기반의 분류 방법으로서,
    a) 생성자(100)가 레이블이 있는 데이터 세트(10)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 단계;
    b) 액터(400)가 상기 생성자(100)에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 단계;
    c) 가중치 함수부(500)가 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치 값을 생성하는 단계; 및
    d) 상기 액터(400)가 상기 예측된 액션과, 가중치 함수부(500)에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41)가 최적화 되도록 상기 정책을 학습하는 단계를 포함하고,
    상기 c) 단계에서, 상기 가중치 함수부(500)는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 방법.
  6. 제 5 항에 있어서,
    상기 a) 단계는 i) 상기 생성자(100)가 레이블이 있는 데이터 세트(10)로부터 결측값이 있는 스테이트(State)와, 상기 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 결측 지표(m)를 선택하는 단계; 및
    ii) 상기 생성자(100)가 상기 스테이트에 '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈로 대체된 결측 대체값(
    Figure PCTKR2020003622-appb-I000185
    )을 이용하여 결측 대체값(
    Figure PCTKR2020003622-appb-I000186
    )을 생성하고, 상기 생성된 결측 대체값(
    Figure PCTKR2020003622-appb-I000187
    )을 이용하여 생성자(100)와 판별자(200)를 학습하는 전처리 단계;를 더 포함하는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 방법.
  7. 제 5 항에 있어서,
    상기 c) 단계의 가중치 함수부(500)는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하되,
    상기 레이블 빈도수는 하기식
    Figure PCTKR2020003622-appb-I000188
    - 여기서, nk는 k번째 레이블의 샘플 수이고,
    Figure PCTKR2020003622-appb-I000189
    는 (0, 1)의 범위 안에 있음 - 으로 근사되며,
    상기 리워드의 가중치는 하기식
    Figure PCTKR2020003622-appb-I000190
    - 여기서,
    Figure PCTKR2020003622-appb-I000191
    는 스테이트
    Figure PCTKR2020003622-appb-I000192
    으로부터 가져올 수 있는 리워드이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며, y는 스테이트의 레이블이고, ωy와 ωa
    Figure PCTKR2020003622-appb-I000193
    (b 는 로그에 기초한 e, 10 …)에 기반한 가중 계수 임 - 으로 정의되는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 방법.
  8. 제 5 항에 있어서,
    상기 c) 단계의 가중치 함수부(500)는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 방법.
  9. 제 5 항에 있어서,
    상기 d) 단계는 정책의 학습을 하기식
    Figure PCTKR2020003622-appb-I000194
    - 여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,
    Figure PCTKR2020003622-appb-I000195
    는 스테이트, 액션 및 레이블에 대한 리워드의 가중치 임 - 을 이용하여 학습하는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 방법.
  10. 레이블이 있는 데이터 세트(SL) 또는 레이블이 없는 데이터 세트(SU)로부터 결측값을 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 생성자(100a);
    상기 생성자(100a)가 생성한 결측 대체값과 원본 데이터를 구분하는 판별자(200a);
    상기 생성자(100a)에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 액터(400a);
    상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 가중치 함수부(500a); 및
    상기 레이블이 있는 데이터 세트와, 레이블이 없는 데이터 세트를 대상으로 액터(400a)의 정책이 학습되도록 리워드를 제공하는 리워드부(600a);를 포함하고,
    상기 액터(400a)는 상기 예측된 액션과, 가중치 함수부(500a)로부터 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41a)가 최적화 되도록 상기 정책을 학습하며, 또한 상기 예측된 액션과, 리워드부(600a)의 리워드에 기반하여 세미 지도 정책 손실 함수(42a)가 최적화 되도록 상기 정책을 학습하되,
    상기 리워드부(600a)의 리워드는 하기식
    Figure PCTKR2020003622-appb-I000196
    - 여기서,
    Figure PCTKR2020003622-appb-I000197
    는 리워드부가 출력하는 레이블 데이터 세트(
    Figure PCTKR2020003622-appb-I000198
    , a)쌍이 레이블이 있는 레이블 데이터 세트의 레이블인지 또는 액터가 생성한 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값 임 - 으로 정의되는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 시스템.
  11. 생성자(100a)와, 판별자(200a)와, 액터(400a)와 가중치 함수부(500a)와, 리워드부(600a)로 구성된 생성적 적대 신경망(Generative Adversarial Network; GAN)을 이용한 생성적 적대 신경망 기반의 분류 방법으로서,
    a) 생성자(100a)가 레이블이 있는 데이터 세트(SL)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 단계;
    b) 액터(400a)가 상기 생성자(100a)에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 단계;
    c) 가중치 함수부(500a)가 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 단계; 및
    d) 상기 액터(400a)가 상기 예측된 액션과, 가중치 함수부(500a)로부터 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41a)가 최적화 되도록 상기 정책을 학습하는 단계;를 포함하되,
    상기 a) 단계에서 레이블이 없는 데이터 세트(SU)가 있으면,
    a-1) 상기 생성자가(100a)가 레이블이 없는 데이터 세트(SU)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값(
    Figure PCTKR2020003622-appb-I000199
    U)을 생성하는 단계;
    b-1) 상기 액터(400a)가 생성된 결측 대체값(
    Figure PCTKR2020003622-appb-I000200
    U)을 가지고 정책을 통해 액션(Action)을 예측하는 단계;
    c-1) 리워드부(600a)가 상기 레이블이 있는 데이터 세트와, 레이블이 없는 데이터 세트를 대상으로 액터(400a)의 정책이 학습되도록 리워드를 제공하는 단계; 및
    d-1) 상기 액터(400a)가 상기 예측된 액션과, 상기 리워드부(600a)의 리워드에 기반하여 세미 지도 정책 손실 함수(42a)가 최적화 되도록 상기 정책을 학습하는 단계를 더 포함하고,
    상기 리워드부(600a)의 리워드는 하기식
    Figure PCTKR2020003622-appb-I000201
    - 여기서,
    Figure PCTKR2020003622-appb-I000202
    는 리워드부가 출력하는 레이블 데이터 세트(
    Figure PCTKR2020003622-appb-I000203
    , a)쌍이 레이블이 있는 레이블 데이터 세트의 레이블인지 또는 액터가 생성한 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값 임 - 으로 정의되는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 방법.
PCT/KR2020/003622 2019-12-06 2020-03-17 생성적 적대 신경망 기반의 분류 시스템 및 방법 WO2021112335A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/606,517 US12019711B2 (en) 2019-12-06 2020-03-17 Classification system and method based on generative adversarial network
JP2020560365A JP7059458B2 (ja) 2019-12-06 2020-03-17 生成的敵対神経網ベースの分類システム及び方法

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
KR10-2019-0162111 2019-12-06
KR1020190162110A KR102093079B1 (ko) 2019-12-06 2019-12-06 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
KR10-2020-0023895 2019-12-06
KR20190162109 2019-12-06
KR10-2019-0162109 2019-12-06
KR10-2019-0162110 2019-12-06
KR10-2020-0023894 2019-12-06
KR1020190162111A KR102093080B1 (ko) 2019-12-06 2019-12-06 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
KR1020200023895A KR102093090B1 (ko) 2020-02-26 2020-02-26 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
KR1020200023894A KR102093089B1 (ko) 2020-02-26 2020-02-26 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2021112335A1 true WO2021112335A1 (ko) 2021-06-10

Family

ID=76222747

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/003622 WO2021112335A1 (ko) 2019-12-06 2020-03-17 생성적 적대 신경망 기반의 분류 시스템 및 방법

Country Status (3)

Country Link
US (1) US12019711B2 (ko)
JP (1) JP7059458B2 (ko)
WO (1) WO2021112335A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023273449A1 (zh) * 2021-06-29 2023-01-05 中国电子技术标准化研究院 基于生成对抗网络的测试用例生成方法及装置
KR102695889B1 (ko) * 2023-10-27 2024-08-16 중앙대학교 산학협력단 사후 보정을 위한 클래스별 손실 규모 제어 방법 및 장치, 컴퓨터 프로그램

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230022206A1 (en) * 2019-12-17 2023-01-26 Shenzhen Institutes Of Advanced Technology Infrared image sequence-based sleep quality evaluation system and method
EP3907651A1 (en) * 2020-05-08 2021-11-10 Robert Bosch GmbH Training a function to respond predictably to differences
CN115081338B (zh) * 2022-07-14 2024-03-19 重庆大学 数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法
CN115883016B (zh) * 2022-10-28 2024-02-02 南京航空航天大学 基于联邦生成对抗网络的流量数据增强方法与装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251997A (ja) * 2005-03-09 2006-09-21 Toyo Electric Mfg Co Ltd 欠測データの補間方法
KR20160084456A (ko) * 2013-11-22 2016-07-13 캘리포니아 인스티튜트 오브 테크놀로지 머신 러닝에서의 가중치 생성
KR20190096295A (ko) * 2018-02-08 2019-08-19 애플 인크. 생성적 적대 신경망을 이용한 비공개화된 머신 러닝
KR20190110068A (ko) * 2018-03-19 2019-09-27 에스알아이 인터내셔널 딥 신경망들의 동적 적응

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210271968A1 (en) * 2018-02-09 2021-09-02 Deepmind Technologies Limited Generative neural network systems for generating instruction sequences to control an agent performing a task
EP3792830A1 (en) * 2019-09-10 2021-03-17 Robert Bosch GmbH Training a class-conditional generative adverserial network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251997A (ja) * 2005-03-09 2006-09-21 Toyo Electric Mfg Co Ltd 欠測データの補間方法
KR20160084456A (ko) * 2013-11-22 2016-07-13 캘리포니아 인스티튜트 오브 테크놀로지 머신 러닝에서의 가중치 생성
KR20190096295A (ko) * 2018-02-08 2019-08-19 애플 인크. 생성적 적대 신경망을 이용한 비공개화된 머신 러닝
KR20190110068A (ko) * 2018-03-19 2019-09-27 에스알아이 인터내셔널 딥 신경망들의 동적 적응

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HENDERSON PETER, CHANG WEI-DI, BACON PIERRE-LUC, MEGER DAVID, PINEAU JOELLE, PRECUP DOINA: "OptionGAN: Learning Joint Reward-Policy Options using Generative Adversarial Inverse Reinforcement Learning", ARXIV.ORG, no. 1709.06683v2, 24 November 2017 (2017-11-24), pages 1 - 11, XP081283136 *
PFAU DAVID, VINYALS ORIOL: "Connecting Generative Adversarial Networks and Actor-Critic Methods", ARXIV.ORG, no. 1610.01945v1, 6 October 2016 (2016-10-06), pages 1 - 9, XP055832072 *
YOON JINSUNG, JORDON JAMES, VAN DER SCHAAR MIHAELA: "GAIN: Missing Data Imputation using Generative Adversarial Nets", ARXIV:1806.02920V1, no. 1806.02920v1, 7 June 2018 (2018-06-07), pages 1 - 10, XP055832071 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023273449A1 (zh) * 2021-06-29 2023-01-05 中国电子技术标准化研究院 基于生成对抗网络的测试用例生成方法及装置
KR102695889B1 (ko) * 2023-10-27 2024-08-16 중앙대학교 산학협력단 사후 보정을 위한 클래스별 손실 규모 제어 방법 및 장치, 컴퓨터 프로그램

Also Published As

Publication number Publication date
US12019711B2 (en) 2024-06-25
JP2022515941A (ja) 2022-02-24
JP7059458B2 (ja) 2022-04-26
US20220207300A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
WO2021112335A1 (ko) 생성적 적대 신경망 기반의 분류 시스템 및 방법
WO2022005188A1 (en) Entity recognition method, apparatus, electronic device and computer readable storage medium
WO2021025482A1 (en) Electronic device and method for generating attestation certificate based on fused key
WO2020036297A1 (en) Electronic apparatus and controlling method thereof
WO2022071727A1 (en) Method for sharing spectrum resources, apparatus, electronic device and storage medium
WO2020242260A1 (ko) 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치
WO2020117006A1 (ko) Ai 기반의 안면인식시스템
WO2020209693A1 (ko) 인공지능 모델을 갱신하는 전자 장치, 서버 및 그 동작 방법
WO2023153818A1 (en) Method of providing neural network model and electronic apparatus for performing the same
WO2021049921A1 (en) Method, apparatus, electronic device and storage medium for predicting user attribute
WO2022154457A1 (en) Action localization method, device, electronic equipment, and computer-readable storage medium
WO2019000466A1 (zh) 人脸识别方法、装置、存储介质及电子设备
WO2021230449A1 (ko) 연합 학습을 위한 전자 장치를 제어하는 방법 및 디바이스
WO2022031059A1 (ko) 분석적 민감도 수식에 기초하여 배터리 전기화학적 파라미터의 동정을 위한 전류 여기를 최적화하는 시스템 및 방법
WO2023068821A1 (ko) 자기-지도 학습 기반의 다중 객체 추적 장치 및 방법
WO2020017827A1 (ko) 전자 장치, 및 전자 장치의 제어 방법
WO2021112647A1 (en) Method, apparatus and electronic device for determining word representation vector
WO2023048537A1 (ko) 추천 콘텐트를 제공하는 서버 및 방법
WO2021235750A1 (ko) 강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치
WO2022124860A1 (ko) 기지국 안테나의 기울기 각도 최적화 방법 및 장치
WO2019045320A1 (ko) 소재의 전자 구조를 예측하는 방법 및 전자 장치
WO2011083900A1 (en) Codebook design method for multiple-input multiple-output (mimo) communication system and method for using the codebook
WO2024072017A1 (en) Method and system for federated learning
WO2012093746A1 (ko) 규칙 서버와 규칙 실행 단말기가 분리된 규칙기반 규칙추론 장치 및 방법
WO2024106948A1 (ko) 저궤도 위성 기반의 통신 방법 및 이를 수행하기 위한 컴퓨팅 장치

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020560365

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20895208

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20895208

Country of ref document: EP

Kind code of ref document: A1