WO2023182848A1 - 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치 및 이를 이용한 인공지능 모델 학습 방법 - Google Patents

신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치 및 이를 이용한 인공지능 모델 학습 방법 Download PDF

Info

Publication number
WO2023182848A1
WO2023182848A1 PCT/KR2023/003910 KR2023003910W WO2023182848A1 WO 2023182848 A1 WO2023182848 A1 WO 2023182848A1 KR 2023003910 W KR2023003910 W KR 2023003910W WO 2023182848 A1 WO2023182848 A1 WO 2023182848A1
Authority
WO
WIPO (PCT)
Prior art keywords
artificial intelligence
intelligence model
learning
noise ratio
weight
Prior art date
Application number
PCT/KR2023/003910
Other languages
English (en)
French (fr)
Inventor
윤성로
최주영
김현우
Original Assignee
주식회사 엘지경영개발원
서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020230037824A external-priority patent/KR20230140526A/ko
Application filed by 주식회사 엘지경영개발원, 서울대학교 산학협력단 filed Critical 주식회사 엘지경영개발원
Publication of WO2023182848A1 publication Critical patent/WO2023182848A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to an artificial intelligence model learning device and an artificial intelligence model learning method using the same, and more specifically, to an artificial intelligence model learning device applying priority based on signal to noise ratio (SNR) and an artificial intelligence model learning device using the same. It is about how to learn an intelligence model.
  • SNR signal to noise ratio
  • the diffusion model is one of the deep generative models inspired by Langevin kinetics, which indicates that molecules in the initial state are dispersed over time. It involves forward transformation that turns data into complete noise by adding noise from the data little by little, and gradually transforms the data from noise. Reverse transformation is performed to create data while being restored, and the target image can be output by learning the reverse transformation.
  • the diffusion model according to the present invention is learned to reconstruct the image obtained through forward transformation into a clean image.
  • the degree of forward conversion is expressed as n noise levels.
  • the loss function used for learning the diffusion model is a weighted sum of the reconstruction loss obtained from n noise levels. Therefore, the diffusion model according to the present invention derives n weights from the input image to remove noise from the MRI image, and generates an output image by weighted average of n intermediate images using the n weights. .
  • the purpose of the embodiment disclosed in the present invention is to provide a signal-to-noise ratio-based artificial intelligence model learning device that applies priority-based weights to the inverse transformation process of diffusion models classified according to SNR values and an artificial intelligence model learning method using the same. there is.
  • the artificial intelligence model learning method using the signal-to-noise ratio-based artificial intelligence model learning device includes a classification step of dividing the reverse conversion process of the learning model into a plurality of learning steps according to the SNR value; and a reverse transformation step of performing a reverse transformation process by applying different weights to each of the plurality of divided learning stages.
  • a classification step of dividing the reverse conversion process of the learning model into a plurality of learning steps according to the SNR value and a reverse transformation step of performing a reverse transformation process by applying different weights to each of the plurality of divided learning stages.
  • a computer program stored in a computer-readable recording medium for implementing the present invention may be further provided.
  • a computer-readable recording medium recording a computer program for executing a method for implementing the present invention may be further provided.
  • the noise image is reduced by applying weights according to priority to the inverse transformation process of the diffusion model classified according to the SNR value and learning by assigning more weight to the area that actually constitutes the content. It provides the effect of optimizing the reconstruction objective function.
  • Figure 1 shows a block diagram of an artificial intelligence model learning device applying priority based on signal-to-noise ratio according to an embodiment of the present invention.
  • Figure 2 shows a Learned Perceptual Image Patch Similarity (LPIPS) distance graph according to signal-to-noise ratio (SNR).
  • LPIPS Learned Perceptual Image Patch Similarity
  • Figure 3 divides the learning steps of the artificial intelligence model learning device applying priority based on signal-to-noise ratio according to an embodiment of the present invention.
  • Figure 4 is a graph comparing the application of weights according to SNR in the case of using the baseline (base line) and the artificial intelligence model learning device according to an embodiment of the present invention (ours).
  • Figure 5 is a graph showing FID scores according to the baseline (base line) and the learning process progress rate when using the artificial intelligence model learning device according to an embodiment of the present invention (ours).
  • Figure 6 is a qualitative comparison of the generated image quality between the baseline (base line) and the case (ours) using the artificial intelligence model learning device according to an embodiment of the present invention.
  • Figure 7 is a table comparing quantitative values of the baseline (base line) and the case (ours) using the artificial intelligence model learning device according to an embodiment of the present invention.
  • Figure 8 is a table comparing quantitative values according to the learning method and type of artificial intelligence models that were trained using the artificial intelligence model learning method according to an embodiment of the present invention.
  • Figure 9 is a table comparing quantitative values according to the model configuration of artificial intelligence models trained using the artificial intelligence model learning method according to an embodiment of the present invention.
  • Figure 10 is a graph showing quantitative values according to the sampling stage of the artificial intelligence model learning device according to an embodiment of the present invention.
  • Figure 11 is a table showing quantitative values according to the sweeping sampling schedule of the artificial intelligence model learning device according to an embodiment of the present invention.
  • Figure 12 shows a flow chart of an artificial intelligence model learning method using an artificial intelligence model learning device applying priority based on signal-to-noise ratio according to an embodiment of the present invention.
  • first and second are used to distinguish one component from another component, and the components are not limited by the above-mentioned terms.
  • the identification code for each step is used for convenience of explanation.
  • the identification code does not explain the order of each step, and each step may be performed differently from the specified order unless a specific order is clearly stated in the context. there is.
  • 'device according to the present invention includes all various devices that can perform computational processing and provide results to the user.
  • the device according to the present invention may include all of a computer, a server device, and a portable terminal, or may take the form of any one.
  • the computer may include, for example, a laptop, desktop, laptop, tablet PC, slate PC, etc. equipped with a web browser.
  • the server device is a server that processes information by communicating with external devices, and may include an application server, computing server, database server, file server, game server, mail server, proxy server, and web server.
  • the portable terminal is, for example, a wireless communication device that guarantees portability and mobility, such as PCS (Personal Communication System), GSM (Global System for Mobile communications), PDC (Personal Digital Cellular), PHS (Personal Handyphone System), and PDA. (Personal Digital Assistant), IMT (International Mobile Telecommunication)-2000, CDMA (Code Division Multiple Access)-2000, W-CDMA (W-Code Division Multiple Access), WiBro (Wireless Broadband Internet) terminal, smart phone ), all types of handheld wireless communication devices, and wearable devices such as watches, rings, bracelets, anklets, necklaces, glasses, contact lenses, or head-mounted-device (HMD). may include.
  • PCS Personal Communication System
  • GSM Global System for Mobile communications
  • PDC Personal Digital Cellular
  • PHS Personal Handyphone System
  • PDA Personal Digital Assistant
  • IMT International Mobile Telecommunication
  • CDMA Code Division Multiple Access
  • W-CDMA Wideband Code Division Multiple Access
  • WiBro Wireless Broadband Internet
  • smart phone smart phone
  • the processor may consist of one or multiple processors.
  • one or more processors may be a general-purpose processor such as a CPU, AP, or DSP (Digital Signal Processor), a graphics-specific processor such as a GPU or VPU (Vision Processing Unit), or an artificial intelligence-specific processor such as an NPU.
  • One or more processors control input data to be processed according to predefined operation rules or artificial intelligence models stored in memory.
  • the artificial intelligence dedicated processors may be designed with a hardware structure specialized for processing a specific artificial intelligence model.
  • Predefined operation rules or artificial intelligence models are characterized by being created through learning.
  • being created through learning means that the basic artificial intelligence model is learned using a large number of learning data by a learning algorithm, thereby creating a predefined operation rule or artificial intelligence model set to perform the desired characteristics (or purpose). It means burden.
  • This learning may be accomplished in the device itself that performs the artificial intelligence according to the present invention, or may be accomplished through a separate server and/or system. Examples of learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but are not limited to the examples described above.
  • An artificial intelligence model may be composed of multiple neural network layers.
  • Each of the plurality of neural network layers has a plurality of weight values, and neural network calculation is performed through calculation between the calculation result of the previous layer and the plurality of weights.
  • Multiple weights of multiple neural network layers can be optimized by the learning results of the artificial intelligence model. For example, a plurality of weights may be updated so that loss or cost values obtained from the artificial intelligence model are reduced or minimized during the learning process.
  • DNN deep neural networks
  • CNN Convolutional Neural Network
  • DNN Deep Neural Network
  • RNN Recurrent Neural Network
  • RBM Restricted Boltzmann Machine
  • DBN Deep Belief Network
  • BNN Bidirectional Recurrent Deep Neural Network
  • DNN Deep Q-Networks
  • a processor may implement artificial intelligence.
  • Artificial intelligence refers to a machine learning method based on an artificial neural network that allows machines to learn by imitating human biological neurons.
  • Methodology of artificial intelligence includes supervised learning, in which the answer (output data) to the problem (input data) is determined by providing input data and output data together as training data according to the learning method, and only input data is provided without output data.
  • unsupervised learning in which the solution (output data) to the problem (input data) is not determined, and a reward is given from the external environment whenever an action is taken in the current state, , It can be divided into reinforcement learning, which conducts learning in the direction of maximizing these rewards.
  • artificial intelligence methodologies can be divided according to the architecture, which is the structure of the learning model.
  • the architecture of widely used deep learning technology is convolutional neural network (CNN) and recurrent neural network (RNN). , Transformer, generative adversarial networks (GAN), etc.
  • the devices and systems may include artificial intelligence models.
  • An artificial intelligence model may be a single artificial intelligence model or may be implemented as multiple artificial intelligence models.
  • Artificial intelligence models may be composed of neural networks (or artificial neural networks) and may include statistical learning algorithms that mimic biological neurons in machine learning and cognitive science.
  • a neural network can refer to an overall model in which artificial neurons (nodes), which form a network through the combination of synapses, change the strength of the synapse connection through learning and have problem-solving capabilities. Neurons in a neural network can contain combinations of weights or biases.
  • a neural network may include one or more layers consisting of one or more neurons or nodes.
  • a device may include an input layer, a hidden layer, and an output layer. The neural network that makes up the device can infer the result (output) to be predicted from arbitrary input (input) by changing the weight of neurons through learning.
  • the processor creates a neural network, trains or learns a neural network, performs calculations based on received input data, generates an information signal based on the results, or generates a neural network. You can retrain the network.
  • Neural network models include CNN (Convolution Neural Network), R-CNN (Region with Convolution Neural Network), RPN (Region Proposal Network), RNN such as GoogleNet, AlexNet, VGG Network, etc.
  • the processor may include one or more processors to perform operations according to models of the neural network.
  • a neural network may include a deep neural network.
  • Neural networks include CNN (Convolutional Neural Network), RNN (Recurrent Neural Network), perceptron, multilayer perceptron, FF (Feed Forward), RBF (Radial Basis Network), DFF (Deep Feed Forward), and LSTM.
  • the processor may be configured to operate a Convolution Neural Network (CNN), Region with Convolution Neural Network (R-CNN), Region Proposal Network (RPN), Recurrent Neural Network (RNN), such as GoogleNet, AlexNet, VGG Network, etc.
  • CNN Convolution Neural Network
  • R-CNN Region with Convolution Neural Network
  • RPN Region Proposal Network
  • RNN Recurrent Neural Network
  • GoogleNet GoogleNet
  • AlexNet AlexNet
  • VGG Network etc.
  • FIG. 1 shows a block diagram of an artificial intelligence model learning device applying signal-to-noise ratio (SNR)-based priority according to an embodiment of the present invention.
  • SNR signal-to-noise ratio
  • the artificial intelligence model learning device can be performed in a computing environment.
  • the computing environment may include a computing device 12 and an artificial intelligence model 100.
  • Figure 1 shows only an embodiment in which the computing device 12 and the artificial intelligence model 100 are separate devices. However, in another embodiment, one computing device 12 performs the function of the artificial intelligence model 100. It may also include software or hardware that
  • the artificial intelligence model learning device applying priority based on signal-to-noise ratio according to an embodiment of the present invention performs a reverse conversion process based on a plurality of learning steps divided according to SNR values. It includes an artificial intelligence model 100 and a processor 14 that controls the operation of the artificial intelligence model 100, and the processor 12 divides the reverse conversion process into a plurality of learning steps according to the SNR value. , different weights can be applied to each divided learning stage.
  • Computing device 12 includes at least one processor 14, a computer-readable storage medium 16, and a communication bus 18.
  • Processor 14 may execute one or more programs stored on computer-readable storage medium 16.
  • the one or more programs may include one or more computer-executable instructions, which, when executed by the processor 14, cause computing device 12 to perform operations according to example embodiments. It can be.
  • Computer-readable storage medium 16 is configured to store computer-executable instructions or program code, program data, and/or other suitable form of information.
  • the program 20 stored in the computer-readable storage medium 16 includes a set of instructions executable by the processor 14.
  • Communication bus 18 interconnects various other components of computing device 12, including processor 14 and computer-readable storage medium 16.
  • Computing device 12 may also include one or more input/output interfaces 22 and one or more network communication interfaces 26 that provide an interface for one or more input/output devices 24.
  • the input/output interface 22 and the network communication interface 26 are connected to the communication bus 18.
  • Input/output device 24 may be coupled to other components of computing device 12 through input/output interface 22.
  • Each component may have different functions and capabilities in addition to those described below, and may include additional components in addition to those described below.
  • SNR represents the ratio of signal to noise. The larger the SNR, the less noise and closer to the original. Conversely, the smaller the SNR, the greater the noise. In the reverse conversion process, the SNR gradually increases, and the processor 14 can classify the learning steps by classifying the SNR in a specific range and apply different weights to each learning step.
  • the artificial intelligence model 110 may include a diffusion model 110, and the diffusion model 110 may be converted into an image input to the diffusion model 110 through an inverse transformation process of outputting a generated image. It can be learned.
  • the diffusion model 110 is a type of Variational Auto-Encoder (VAE), where the encoder is a fixed diffusion process rather than a learnable neural network, and the decoder performs a learnable noise removal process that generates a generated image. Learning is performed in the inverse transformation process to create a clean image by gradually removing noise from the image containing noise. In order to remove noise in the inverse transformation process, VLB (Variational Lower Bound), which is the sum of the noise removal score matching loss, is optimized.
  • VLB Variational Lower Bound
  • the processor 14 classifies the inverse transformation process into each learning stage according to the SNR value and applies different weights to each classified learning stage. can do.
  • the optimal objective function can be obtained by applying different weights to each learning step.
  • the optimal objective function can be applied and the generated image reconstruction efficiency can be improved.
  • Figure 2 is a graph of LPIPS (Learned Perceptual Image Patch Similarity) distance according to signal-to-noise ratio (SNR).
  • the LPIPS distance means the distance between the actual image and the image that was projected into the latent space and then passed back to the generator. .
  • XtA VS XtB (dashed line) represents the LPIPS distance between two noise images that are damaged and share the same image .
  • the noise image (Xt) has only small invisible noise and contains a lot of information about the content, so XtA and XtB are perceptually similar at the beginning of the diffusion process, whereas XtA It can be easily seen that and Xt' are perceptually different.
  • the diffusion model 110 can recover the image without full context information, so when the SNR is large, only invisible details are learned.
  • the diffusion model 110 learns prior knowledge to recover the image without rich perceptible content.
  • the diffusion model 110 can only learn unrecognized details when performing reconstruction through backward transformation when the SNR is large, and when the SNR is small, specifically, the size of the SNR is 10 -2 to 10. It is possible to learn the content of the clean image
  • the learning step may include at least a first step 301, a second step 302, and a third step 303 sequentially divided according to the SNR value.
  • the learning step may include at least a first step 301, a second step 302, and a third step 303 sequentially divided according to the SNR value.
  • the first step 301 is a coarse step in which the skeleton (coarse features) of the image are determined.
  • the learning model 110 can learn the background, color, and skeleton such as the outer structure of the person. This is the stage of learning coarse features. Referring to Figure 3, it can be seen that there is a significant difference between the input image and the image of the first stage 301, and only the overall color structure is similar.
  • the second step 302 is a content step in which the actual contents of the image are determined.
  • the learning model 110 learns the areas that actually constitute the contents of the content, such as human faces and animal faces, in the image, and can learn the actual contents of the content. This is the stage where you learn the main features. Referring to FIG. 3, the input image and the image of the second step 302 are almost similar, and the perceptually distinguishable features are the same except for detailed details.
  • the third step 303 is a clean-up step, which is a step of removing remaining residual noise.
  • the post-noise removal process allows learning inconspicuous details that do not affect perception. Since the reconstructed image and the input image are perceptually identical, this is the stage of learning details that do not contribute to perceptually recognizable content. Referring to FIG. 3, it can be seen that the image of the third step 303 is identical to the input, even down to imperceptible details.
  • the SNR value of the first step 301 is between 0 and 10 -2
  • the SNR value of the second step 302 is between 10 -2 and 10 0
  • the SNR value of the third step is is between 10 0 and 10 4 .
  • Each learning stage can be divided or classified according to the SNR value.
  • the SNR value of the first step 301 is 1.5*10 -3 and 6.9*10 -3
  • the SNR value of the second step 302 is 8.4*10 -2. and 6.5*10 -1
  • the SNR of the third stage 303 is 8.5*10 0 , which can be confirmed to correspond to the SNR values for each stage described above.
  • the processor 14 may sequentially apply weights according to the priorities for the learning steps 301, 302, and 303.
  • the highest weight may be applied to the second step 302, which has the greatest influence on learning, and the lowest weight may be applied to the third step 303, which removes residual noise.
  • the second step 302 has the highest priority
  • the priority of the first step 301 is higher than the priority of the third step 303
  • the processor 14 has the highest priority. Accordingly, a large weight can be applied in the order of the second step 302, the first step 301, and the third step 303.
  • the processor 14 can simplify the objective function (Lsimple) to be applied in the learning step from the conventional objective function (Lt) according to Equation (1) below.
  • the processor 14 may apply a weight calculated according to Equation (2) below to the objective function to be applied to each learning step.
  • the ⁇ t is a conventional weight
  • ⁇ t' is a weight to which the priority of each learning step is applied
  • k is a constant to prevent weight explosion due to small SNR values
  • ⁇ (gamma) is a hyper-weight that controls the strength of the downward weight. It is a parameter
  • t is an index indicating the noise level.
  • the diffusion model 110 does not learn with the same weight in each learning step (301, 302, 303), but performs learning by applying different weights considering the characteristics of each learning step (301, 302, 303). You can.
  • the processor 14 can adjust the values of k and ⁇ according to the data set to be input to the artificial intelligence model 100, for example, the diffusion model 110.
  • k is a constant that prevents the denominator from being 0, and the weights can be readjusted by adjusting the hyperparameter ⁇ .
  • Figure 4(a) shows the change in SNR according to the general diffusion process in terms of cosine schedule and linear schedule. It can be seen that the SNR of the cosine schedule and linear schedule decreases as the diffusion process progresses.
  • FIGS. 4(b) and 4(c) when using the artificial intelligence model learning device (ours) according to the present invention, the weights of the cosine schedule and linear schedule of the baseline (base line) are higher. It can be confirmed that the weight of the third stage 303 is suppressed.
  • step of learning unrecognizable details for example, reducing the weight to a minimum in the third step 303 and adding relatively more weight to the first step 301 and the second step 302, especially By assigning the greatest weight to the second step 302 and learning, perceptible features can be further specified.
  • FIG. 4 it can be seen that rich recognizable content can be learned by solving the pretext task in the content stage, which is the second stage 302.
  • the baseline (base) and the artificial intelligence model learning device (ours) according to an embodiment of the present invention can be compared with the FID (Frechet Inception Distance) index, and this It can be seen that the artificial intelligence model learning device according to an embodiment of the invention has a lower FID score than the baseline cosine shecule and linear schedule, so it has better quality.
  • FID Frechet Inception Distance
  • the cosine schedule shows an inferior FID score compared to the linear schedule, and it can be seen that the first stage 301 is learning more data than the third stage 303 and is therefore more important.
  • the artificial intelligence model learning device weights the weights of the first step 301 and the second step 302 and suppresses the weight of the third step 303 to model the artificial intelligence model. (100), especially the diffusion model (110), can enable learning richer initial concepts.
  • the weight effect can be adjusted by adjusting the size of ⁇ , and the processor 14 can adjust the value of ⁇ to be larger as the image resolution of the data set increases.
  • step 302 On the other hand, if ⁇ is too strong, learning steps other than the second step 302, such as the first step 301 and the third step 303, become impossible, and if the image resolution is small, even if the ⁇ value is large, the second step 302 becomes impossible. The effect of perceiving the actual content of step 302 more clearly than other details is reduced.
  • the weight to be applied to the learning step can be applied by adjusting ⁇ according to the image resolution, and the weights can be assigned in the order of the second step 302, the first step 301, and the third step 303.
  • the greatest weight is given to the second step (302), and the first step (301) is given a greater weight than the third step (303).
  • the learned artificial intelligence model 100 when learning is performed using an artificial intelligence model learning device according to an embodiment of the present invention, is Accurate colors and objects can be created.
  • the artificial intelligence model (100) can create accurate images even when various datasets such as FFHQ, CelebA-HQ, MetFaces, AFHQ-Dogs, Oxford flowers, and CUB Bird are input.
  • the learned artificial intelligence model can generate images with different colors or different perceptual characteristics from the input image, such as the baseline image placed at the bottom of Figure 6.
  • the baseline image may be generated to have an overall blue color.
  • the baseline image may be generated to have a red color, and MetFaces 1.6M may also be generated to have an unclear color as if there is noise.
  • the present invention can solve the color shift problem and prevent wasting model capacity by applying different weights for each learning step.
  • the FID and KID values of Ours are lower than those of the Base, and the lower the FID and KID values, the better the quality.
  • the standards and the present invention were applied to various data sets such as FFHQ, CUB, AFHQ-D, Flowers, and MetFaces, but the performance of the present invention was found to be superior in all data sets.
  • Figure 7 above used a data set with a resolution of 256*256, and FFHQ performed 500 sampling processes and the others performed 250 sampling processes.
  • Figure 8 shows an artificial intelligence model learning method using an artificial intelligence model learning device according to an embodiment of the present invention and a different learning method applied to various artificial intelligence models for the FFHQ, Oxford Flower, and CelebA-HQ data sets. , the performance is listed according to the FID score.
  • Figure 9 shows a model trained with MetFace for 800k images with samples generated in 250 steps, and it can be seen that the present invention consistently achieves better performance than baselines of various configurations.
  • the present invention is efficient regardless of the configuration of the artificial intelligence model.
  • (a) is the default configuration of the present invention
  • (b) is a BigGAN block
  • (c) is a configuration in which only self-attention is performed in a bottleneck (8*8 resolution)
  • (d) is a configuration with two residuals. block
  • (e) means a configuration with a learning rate of 2.5*e -5 .
  • Figure 10 also shows the FID scores at various sampling stages of the model trained with the FFHQ dataset, and it can be seen that the model trained with the present invention outperforms the baseline by a significant margin.
  • Figure 11 shows the FID and KID indicators according to the sweeping sampling schedule, showing that although the performance is somewhat improved even if the sweeping sampling schedule is adjusted to the standard method, the performance of the present invention is not improved. You can check it.
  • the processor 14 applies priority weights to each learning step (301, 302, 303) based on the quality parameters of the generated image output from the artificial intelligence model 100. ( ⁇ t') can be readjusted.
  • the quality parameter may include FID (Frechet Inception Distance) and KID (Kernal Inception Distance) values of the generated image.
  • the ⁇ t' is readjusted to increase the weight of the second stage 302, and the weights of the first stage 301 and the third stage 303 are increased. can be lowered.
  • the weight down range or down priority of the first step (301) may be smaller than the weight down range or down priority of the third step (303).
  • the weight of the third stage 303 can be lowered by a set value.
  • the weight of the third stage 303 has been lowered by the set value, if additional weight reduction is necessary, the weight of the first stage 301 can be lowered by the additional weight reduction value.
  • Figure 12 shows a flow chart of an artificial intelligence model learning method using an artificial intelligence model learning device applying priority based on signal-to-noise ratio according to an embodiment of the present invention.
  • An artificial intelligence model learning method using a signal-to-noise ratio-based artificial intelligence model learning device includes dividing the reverse conversion process of the learning model into a plurality of learning steps according to the SNR value (S1210). It may include a reverse step (S1220) in which a reverse transformation process is performed by applying different weights to each of the plurality of learning steps.
  • the step (S1210) includes the reverse conversion process of the learning model according to the SNR value into at least a first step (301), a second step (302), and a third step (303). It may include a classification step.
  • step (S1220) is a step of applying priorities in the order of the second step (302), the first step (301), and the third step (303), and the second step according to the priority. It may include optimizing the objective function by applying the highest weight in step 302 and applying the lowest weight in the third step 303.
  • ⁇ t' is readjusted to increase the weight of the second step 302, and the first step 301 and the It further includes the step of lowering the weight of the third step (303), wherein the weight reduction width or downward priority of the first stage (301) is equal to the weight reduction width or downward priority of the third stage (303). It can be smaller than
  • the weight of the second stage (302) is first raised, and if the reconstruction efficiency does not reach the target, the weight of the third stage (303) is lowered by the set value, and additional To the extent that it is insufficient, the weight of the first stage 301 can be lowered by the amount of the shortage.
  • the priorities may be in the order of the second step 302, the first step 301, and the third step 303.
  • An artificial intelligence model learning device applying priority based on signal-to-noise ratio includes a diffusion model 110 that performs a reverse conversion process based on a plurality of learning steps divided according to SNR values. It includes an artificial intelligence model 100 and a processor 104 that controls the operation of the artificial intelligence model, wherein the processor 104 divides the reverse conversion process into a plurality of learning stages according to the SNR value, and each divided Different weights can be applied to the learning steps.
  • Learning efficiency can be improved by applying different weights to each stage, especially by assigning the highest weight to the content stage and the lowest weight to the clean-up stage to learn to recover perceptible key features.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 일 실시예에 따른 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치는 SNR 값에 따라 구분된 복수의 학습 단계를 기반으로 역방향 변환 과정을 수행하는 인공지능 모델; 및 상기 인공지능 모델의 동작을 제어하는 프로세서;를 포함하고, 상기 프로세서는 상기 SNR 값에 따라 역방향 변환 과정을 복수의 학습 단계로 구분하고, 구분된 각 학습 단계에 상이한 가중치를 적용하는 것이다.

Description

신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치 및 이를 이용한 인공지능 모델 학습 방법
본 발명은 인공지능 모델 학습 장치 및 이를 이용한 인공지능 모델 학습 방법에 관한 것으로, 보다 상세하게는 신호 대 잡음비(SNR, Signal to Noise Ratio) 기반의 우선순위를 적용한 인공지능 모델 학습 장치 및 이를 이용한 인공지능 모델 학습 방법에 관한 것이다.
확산 모델은 초기 상태의 분자들이 시간이 흐름에 따라 흩어지는 것을 나타내는 랑주뱅 동영학에서 아이디어를 얻은 deep generative model 중 하나로, 데이터로부터 노이즈를 조금씩 더해가면서 데이터를 완전한 노이즈로 만드는 정방향 변환과, 노이즈로부터 조금씩 복원해가며 데이터를 만들어내는 역방향 변환을 수행하며, 역방향 변환을 학습함으로써 목표 이미지를 출력할 수 있다.
그러나, 모든 이미지는 동일한 노이즈 레벨을 가지지 않고, 확산 모델이 학습할 때 노이즈 레벨이 낮아 실질적인 컨텐츠 내용을 학습하는 학습 단계가 있고, 노이즈 레벨이 너무 높아 컨텐츠 내용에 기여하지 않는 영역을 학습하는 학습단계가 포함될 수 있다. 학습 단계에 일괄적으로 동일한 가중치를 적용할 경우, 노이즈 레벨이 낮은 영역에서는 과도한 자원이 사용되고, 노이즈 레벨이 높은 영역에서는 충분한 자원을 사용할 수 없어 이미지 재건(reconstruction) 효율이 떨어지게 된다.
따라서, 재건 효율을 향상시키기 위하여 노이즈 레벨에 따라 확산 모델의 역변환 과정에서 사용되는 가중치를 다르게 적용할 필요성이 대두되었다.
본 발명에 따른 확산모델은 정방향 변환으로 얻은 이미지를 깨끗한 이미지로 재건 (reconstruction)하도록 학습된다. 정변환의 정도를 n개의 노이즈 레벨로 표기한다. 확산 모델 학습을 위해 사용되는 손실함수 (loss function)는 n개의 노이즈 레벨로부터 얻은 재건 손실함수 (reconstruction loss)의 가중합이다. 따라서 본 발명에 따른 확산모델은, 이미지인 MRI 화상에서 노이즈를 제거하도록 입력 화상에서 n개의 가중치를 도출하고, 상기 n개의 가중치를 이용하여 n장의 중간 화상을 가중 평균함으로써 출력 이미지를 생성할 수 있다.
본 발명에 개시된 실시예는 SNR 값에 따라 구분된 확산 모델의 역변환 과정에 우선순위에 따른 가중치를 적용하는 신호 대 잡음비 기반 인공지능 모델 학습 장치 및 이를 이용한 인공지능 모델 학습 방법을 제공하는데 그 목적이 있다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 기술적 과제를 달성하기 위한 본 발명에 따른 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치는 SNR 값에 따라 구분된 복수의 학습 단계를 기반으로 역방향 변환 과정을 수행하는 인공지능 모델; 및 상기 인공지능 모델의 동작을 제어하는 프로세서; 를 포함하고, 상기 프로세서는 상기 SNR 값에 따라 역방향 변환 과정을 복수의 학습 단계로 구분하고, 구분된 각 학습 단계에 상이한 가중치를 적용하는 것이다.
또한, 본 발명에 따른 신호 대 잡음비 기반 인공지능 모델 학습 장치를 이용한 인공지능 모델 학습 방법은, SNR 값에 따라 상기 학습 모델의 역방향 변환 과정을 복수의 학습 단계로 구분하는 분류단계; 및 구분된 복수의 학습 단계에 대해 각각 상이한 가중치를 적용하여 역방향 변환 과정을 수행하는 역방향 변환단계; 를 포함할 수 있다.
이 외에도, 본 발명을 구현하기 위한 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 더 제공될 수 있다.
이 외에도 본 발명을 구현하기 위한 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체가 더 제공될 수 있다.
본 발명의 전술한 과제 해결 수단에 의하면, SNR 값에 따라 구분된 확산 모델의 역변환 과정에 우선순위에 따른 가중치를 적용하여 실질적으로 컨텐츠를 구성하는 영역에 더 많은 가중치를 부여하여 학습함으로써 노이즈 이미지를 재건하는 목적함수를 최적화하는 효과를 제공한다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치의 블록도를 도시한 것이다.
도 2는 신호 대 잡음비(SNR)에 따른 LPIPS(Learned Perceptual Image Patch Similarity) 거리(distance) 그래프를 도시한 것이다.
도 3은 본 발명의 일 실시예에 따른 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치의 학습 단계를 구분한 것이다.
도 4는 기준선(base line)과 본 발명의 일 실시예에 따른 인공지능 모델 학습 장치를 이용한 경우(ours)의 SNR에 따른 가중치(weights) 적용을 비교한 그래프이다.
도 5는 기준선(base line)과 본 발명의 일 실시예에 따른 인공지능 모델 학습 장치를 이용한 경우(ours)의 학습 과정 진행률에 따른 FID 점수를 나타낸 그래프이다.
도 6은 기준선(base line)과 본 발명의 일 실시예에 따른 인공지능 모델 학습 장치를 이용한 경우(ours)의 생성 이미지 퀄리티를 질적 비교한 것이다.
도 7은 기준선(base line)과 본 발명의 일 실시예에 따른 인공지능 모델 학습 장치를 이용한 경우(ours)의 정량적 수치를 비교한 표이다.
도 8은 본 발명의 일 실시예에 따른 인공지능 모델 학습 방법을 이용하여 학습을 수행한 인공지능 모델들의 학습 방법 및 타입에 따른 정량적 수치를 비교한 표이다.
도 9는 본 발명의 일 실시예에 따른 인공지능 모델 학습 방법을 이용하여 학습을 수행한 인공지능 모델들의 모델 구성에 따른 정량적 수치를 비교한 표이다.
도 10은 본 발명의 일 실시예에 따른 인공지능 모델 학습 장치의 샘플링 단계에 따른 정량적 수치를 나타낸 그래프이다.
도 11은 본 발명의 일 실시예에 따른 인공지능 모델 학습 장치의 스위핑 샘플링 스케쥴에 따른 정량적 수치를 나타낸 표이다.
도 12는 본 발명의 일 실시예에 따른 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치를 이용한 인공지능 모델 학습 방법의 플로우 차트를 도시한 것이다.
본 발명 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 발명이 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 ‘부, 모듈, 부재, 블록’이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.
단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.
각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.
이하 첨부된 도면들을 참고하여 본 발명의 작용 원리 및 실시예들에 대해 설명한다.
본 명세서에서 '본 발명에 따른 장치'는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 본 발명에 따른 장치는, 컴퓨터, 서버 장치 및 휴대용 단말기를 모두 포함하거나, 또는 어느 하나의 형태가 될 수 있다.
여기에서, 상기 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 태블릿 PC, 슬레이트 PC 등을 포함할 수 있다.
상기 서버 장치는 외부 장치와 통신을 수행하여 정보를 처리하는 서버로써, 애플리케이션 서버, 컴퓨팅 서버, 데이터베이스 서버, 파일 서버, 게임 서버, 메일 서버, 프록시 서버 및 웹 서버 등을 포함할 수 있다.
상기 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말, 스마트 폰(Smart Phone) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치와 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD) 등과 같은 웨어러블 장치를 포함할 수 있다.
본 발명에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 발명에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들 (weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
본 발명의 예시적인 실시예에 따르면, 프로세서는 인공지능을 구현할 수 있다. 인공지능이란 사람의 신경세포(biological neuron)를 모사하여 기계가 학습하도록 하는 인공신경망(Artificial Neural Network) 기반의 기계 학습법을 의미한다. 인공지능의 방법론에는 학습 방식에 따라 훈련데이터로서 입력데이터와 출력데이터가 같이 제공됨으로써 문제(입력데이터)의 해답(출력데이터)이 정해져 있는 지도학습(supervised learning), 및 출력데이터 없이 입력데이터만 제공되어 문제(입력데이터)의 해답(출력데이터)이 정해지지 않는 비지도학습(unsupervised learning), 및 현재의 상태(State)에서 어떤 행동(Action)을 취할 때마다 외부 환경에서 보상(Reward)이 주어지는데, 이러한 보상을 최대화하는 방향으로 학습을 진행하는 강화학습(reinforcement learning)으로 구분될 수 있다. 또한, 인공지능의 방법론은 학습 모델의 구조인 아키텍처에 따라 구분될 수도 있는데, 널리 이용되는 딥러닝 기술의 아키텍처는, 합성곱신경망(CNN; Convolutional Neural Network), 순환신경망(RNN; Recurrent Neural Network), 트랜스포머(Transformer), 생성적 대립 신경망(GAN; generative adversarial networks) 등으로 구분될 수 있다.
본 장치와 시스템은 인공지능 모델을 포함할 수 있다. 인공지능 모델은 하나의 인공지능 모델일 수 있고, 복수의 인공지능 모델로 구현될 수도 있다. 인공지능 모델은 뉴럴 네트워크(또는 인공 신경망)로 구성될 수 있으며, 기계학습과 인지과학에서 생물학의 신경을 모방한 통계학적 학습 알고리즘을 포함할 수 있다. 뉴럴 네트워크는 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다. 뉴럴 네트워크의 뉴런은 가중치 또는 바이어스의 조합을 포함할 수 있다. 뉴럴 네트워크는 하나 이상의 뉴런 또는 노드로 구성된 하나 이상의 레이어(layer)를 포함할 수 있다. 예시적으로, 장치는 input layer, hidden layer, output layer를 포함할 수 있다. 장치를 구성하는 뉴럴 네트워크는 뉴런의 가중치를 학습을 통해 변화시킴으로써 임의의 입력(input)으로부터 예측하고자 하는 결과(output)를 추론할 수 있다.
프로세서는 뉴럴 네트워크를 생성하거나, 뉴럴 네트워크를 훈련(train, 또는 학습(learn)하거나, 수신되는 입력 데이터를 기초로 연산을 수행하고, 수행 결과를 기초로 정보 신호(information signal)를 생성하거나, 뉴럴 네트워크를 재훈련(retrain)할 수 있다. 뉴럴 네트워크의 모델들은 GoogleNet, AlexNet, VGG Network 등과 같은 CNN(Convolution Neural Network), R-CNN(Region with Convolution Neural Network), RPN(Region Proposal Network), RNN(Recurrent Neural Network), S-DNN(Stacking-based deep Neural Network), S-SDNN(State-Space Dynamic Neural Network), Deconvolution Network, DBN(Deep Belief Network), RBM(Restrcted Boltzman Machine), Fully Convolutional Network, LSTM(Long Short-Term Memory) Network, Classification Network 등 다양한 종류의 모델들을 포함할 수 있으나 이에 제한되지는 않는다. 프로세서는 뉴럴 네트워크의 모델들에 따른 연산을 수행하기 위한 하나 이상의 프로세서를 포함할 수 있다. 예를 들어 뉴럴 네트워크는 심층 뉴럴 네트워크 (Deep Neural Network)를 포함할 수 있다.
뉴럴 네트워크는 CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), 퍼셉트론(perceptron), 다층 퍼셉트론(multilayer perceptron), FF(Feed Forward), RBF(Radial Basis Network), DFF(Deep Feed Forward), LSTM(Long Short Term Memory), GRU(Gated Recurrent Unit), AE(Auto Encoder), VAE(Variational Auto Encoder), DAE(Denoising Auto Encoder), SAE(Sparse Auto Encoder), MC(Markov Chain), HN(Hopfield Network), BM(Boltzmann Machine), RBM(Restricted Boltzmann Machine), DBN(Depp Belief Network), DCN(Deep Convolutional Network), DN(Deconvolutional Network), DCIGN(Deep Convolutional Inverse Graphics Network), GAN(Generative Adversarial Network), LSM(Liquid State Machine), ELM(Extreme Learning Machine), ESN(Echo State Network), DRN(Deep Residual Network), DNC(Differentiable Neural Computer), NTM(Neural Turning Machine), CN(Capsule Network), KN(Kohonen Network) 및 AN(Attention Network)를 포함할 수 있으나 이에 한정되는 것이 아닌 임의의 뉴럴 네트워크를 포함할 수 있음은 통상의 기술자가 이해할 것이다.
본 발명의 예시적인 실시예에 따르면, 프로세서는 GoogleNet, AlexNet, VGG Network 등과 같은 CNN(Convolution Neural Network), R-CNN(Region with Convolution Neural Network), RPN(Region Proposal Network), RNN(Recurrent Neural Network), S-DNN(Stacking-based deep Neural Network), S-SDNN(State-Space Dynamic Neural Network), Deconvolution Network, DBN(Deep Belief Network), RBM(Restrcted Boltzman Machine), Fully Convolutional Network, LSTM(Long Short-Term Memory) Network, Classification Network, Generative Modeling, eXplainable AI, Continual AI, Representation Learning, AI for Material Design, 자연어 처리를 위한 BERT, SP-BERT, MRC/QA, Text Analysis, Dialog System, GPT-3, GPT-4, 비전 처리를 위한 Visual Analytics, Visual Understanding, Video Synthesis, ResNet 데이터 지능을 위한 Anomaly Detection, Prediction, Time-Series Forecasting, Optimization, Recommendation, Data Creation 등 다양한 인공지능 구조 및 알고리즘을 이용할 수 있으며, 이에 제한되지 않는다. 이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 신호 대 잡음비(SNR) 기반의 우선순위를 적용한 인공지능 모델 학습 장치의 블록도를 도시한 것이다. 이하, 도 2 내지 도 11을 참조하여 상기 인공지능 모델 학습 장치의 구체적인 구성을 설명하기로 한다.
본 발명의 일 실시예에 따른 인공지능 모델 학습 장치는 컴퓨팅 환경에서 수행될 수 있다. 상기 컴퓨팅 환경은 컴퓨팅 장치(12)와 인공지능 모델(100)을 포함할 수 있다.
도 1에서는 컴퓨팅 장치(12)와 인공지능 모델(100)이 별개의 장치인 실시예만을 도시하고 있으나, 다른 실시예로서, 하나의 컴퓨팅 장치(12)가 인공지능 모델(100)의 기능을 수행하는 소프트웨어 또는 하드웨어를 포함할 수도 있다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치는 SNR 값에 따라 구분된 복수의 학습 단계를 기반으로 역방향 변환 과정을 수행하는 인공지능 모델(100), 및 상기 인공지능 모델(100)의 동작을 제어하는 프로세서(14)를 포함하고, 상기 프로세서(12)는 상기 SNR 값에 따라 역방향 변환 과정을 복수의 학습 단계로 구분하고, 구분된 각 학습 단계에 상이한 가중치를 적용할 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
SNR은 노이즈 대비 신호의 비율을 나타낸 것으로 SNR이 클수록 노이즈가 적고 원본에 가까우며, 반대로 SNR이 작을수록 노이즈가 크다. 상기 역방향 변환 과정에서 SNR이 점점 커지며, 상기 프로세서(14)는 SNR을 특정 범위에서 구분하여 학습 단계를 분류하고 각 학습 단계에 상이한 가중치를 적용할 수 있다.
일 실시예로서, 상기 인공지능 모델(110)은 확산 모델(110)을 포함할 수 있으며, 확산 모델(110)에 입력된 이미지로 생성 이미지를 출력하는 역변환 과정을 통해 상기 확산 모델(110)을 학습시킬 수 있다.
확산 모델(110)은 VAE(Variational Auto-Encoder)의 일종으로, 인코더는 학습가능한 신경망이 아니라 고정된 확산 프로세스고, 디코더는 생성 이미지를 생성하는 학습 가능한 노이즈 제거 프로세스를 수행한다. 노이즈가 포함된 이미지에서 점진적으로 노이즈를 제거해 나가면서 깨끗한 이미지를 생성하는 역변환 과정에서 학습을 수행하며, 역변환 과정에서 노이즈를 제거하기 위하여 노이즈 제거 스코어 매칭 손실의 합인 VLB(Variational Lower Bound)를 최적화하여 확산 모델(110)을 훈련시킬 수 있다.
또한, 일 실시예로서, 상기 프로세서(14)는 확산 모델(110)이 역변환 과정을 수행할 때 상기 역변환 과정을 SNR 값에 따라 각 학습 단계로 분류하고, 분류된 학습 단계에 각각 상이한 가중치를 적용할 수 있다. 각 학습 단계에 대해 상이한 가중치를 적용하여 최적의 목적함수를 획득할 수 있다.
분류된 학습 단계 중 깨끗한 이미지를 얻기 위한 더 중요한 학습 단계에 대해 목적함수의 가중치를 더 할당함으로써 최적의 목적함수를 적용하고 생성 이미지 재건 효율을 향상시킬 수 있다.
도 2는 신호 대 잡음비(SNR)에 따른 LPIPS(Learned Perceptual Image Patch Similarity) 거리(distance) 그래프로, LPIPS 거리는 실제 이미지와 잠재 공간으로 투영한 후 생성자에 한번 다시 통과한 이미지 사이의 거리를 의미한다.
도 2에 도시된 바와 같이, 두 개의 서로 다른 깨끗한 이미지 Xo, Xo`와 세 개의 노이즈가 있는 이미지 XtA, XtB~ q(Xt|Xo), Xt`~ q(Xt|Xo)가 존재하고, 확산 과정(diffusion process)가 진행될 수록 SNR이 작아진다.
XtA VS XtB(점선)은 동일 이미지 Xo를 공유하고 손상된 두 개의 노이즈 이미지 간의 LPIPS 거리, XtA VS Xt`(실선)은 다른 이미지 Xo, Xo`로부터 합성되고 손상된 두 개의 노이즈 이미지 간의 LPIPS 거리를 의미한다.
확산 과정 초기의 SNR이 클 때에 보이지 않는 작은 노이즈만 가지고 있어 노이즈 이미지(Xt)가 콘텐츠(content)에 대한 정보를 많이 보유하고 있어, 확산 과정 초기에 XtA 및 XtB가 지각적으로 유사하고, 반면 XtA 및 Xt'는 지각적으로 상이함을 간단하게 알 수 있다.
따라서, 확산 모델(110)은 전체적인 맥락 정보 없이도 이미지를 복구할 수 있어 SNR이 클 때는 눈에 보이지 않는 디테일만 학습하게 된다.
반면, 확산 과정 후반의 SNR이 작을 때는 깨끗한 이미지 Xo, Xo`의 콘텐츠에 대한 정보가 많이 제거되어 XtA VS XtB(점선)과 XtA VS Xt'(실선) 모두 LPIPS 거리가 일정한 상수 값으로 수렴하게 되고, 노이즈 이미지(Xt)에서 하이 레벨의 콘텐츠는 인식하기 어렵게 된다.
따라서, 확산 모델(110)은 지각할 수 있는 풍부한 콘텐츠가 없어 이미지를 복구할 수 있는 사전 지식을 학습하게 된다.
다시 말해, 확산 과정에서 SNR의 크기가 10-2 내지 100 사이일 때 지각 가능한 콘텐츠가 제거되어 SNR의 크기가 10-2 미만일 때는 입력 이미지가 상이하더라도 LPIPS 거리가 동일하게 수렴되고 손상된 두 개의 이미지가 지각 가능하게 구분되지 않으며, SNR의 크기가 100을 초과할 때 콘텐츠가 명확하게 구분되어 지각 가능함을 알 수 있다.
따라서, 확산 모델(110)은 SNR이 클 때 역방향 변환을 통한 재건 작업을 수행할 경우 인지할 수 없는 세부 사항만 학습할 수 있고, SNR이 작을 때, 구체적으로, SNR의 크기가 10-2 내지 100 사이일 때 제거되는 클린 이미지 Xo의 컨텐츠 내용을 학습할 수 있어 지각 가능한 실질적인 컨텐츠를 학습할 수 있다.
도 3에 도시된 바와 같이, 깨끗한 이미지(Xo, Clean data)가 확산 과정 q(Xt|Xo)을 통해 손상된 노이즈 이미지(Xt, Corrupted data)가 되고, 노이즈 이미지(Xt)가 디노이징 과정 p(
Figure PCTKR2023003910-appb-img-000001
|Xt)를 통해 복구 이미지(
Figure PCTKR2023003910-appb-img-000002
)가 된다. 상기 학습 단계는 상기 SNR 값에 따라 순차적으로 구분된 제1 단계(301), 제2 단계(302) 및 제3 단계(303)를 적어도 포함할 수 있다.
도 3에 도시된 바와 같이, 깨끗한 이미지(Xo, Clean data)가 확산 과정 q(Xt|Xo)을 통해 손상된 노이즈 이미지(Xt, Corrupted data)가 되고, 노이즈 이미지(Xt)가 디노이징 과정 p(
Figure PCTKR2023003910-appb-img-000003
|Xt)를 통해 복구 이미지(
Figure PCTKR2023003910-appb-img-000004
)가 된다. 상기 학습 단계는 상기 SNR 값에 따라 순차적으로 구분된 제1 단계(301), 제2 단계(302) 및 제3 단계(303)를 적어도 포함할 수 있다.
일 실시예로서, 제1 단계(301)는 coarse 단계로 이미지의 골격(coarse feature)이 정해지는 단계이다. 초반 노이즈 제거 과정으로 학습 모델(110)이 배경, 색깔, 인물의 외각 구조와 같은 골격을 학습할 수 있다. 성긴 특징을 학습하는 단계이다. 도 3을 참조하면, 입력과 제1 단계(301)의 이미지는 상당한 차이가 있으며, 전체 색상 구조 정도만 유사함을 알 수 있다.
일 실시예로서, 제2 단계(302)는 content 단계로 이미지의 실질적인 컨텐츠(contents)가 정해지는 단계이다. 중반 노이즈 제거 과정으로 학습 모델(110)이 이미지 내 사람 얼굴, 동물 얼굴 등 실질적으로 해당 컨텐츠의 내용을 구성하는 영역을 학습하며, 실질적인 컨텐츠 내용을 학습할 수 있다. 주요 특징을 학습하는 단계이다. 도 3을 참조하면, 입력과 제2 단계(302)의 이미지가 거의 유사하며, 세부적인 디테일을 제외하고 인지적으로 구별되는 특징이 동일하다.
일 실시예로서, 제3 단계(303)는 clean-up 단계로, 남은 잔여 노이즈를 제거하는 단계이다. 후반 노이즈 제거 과정으로 인지에 영향을 주지 않는 눈에 띄지 않는 디테일을 학습할 수 있다. 재구성된 이미지와 입력 이미지가 지각적으로 동일한 바, 지각적으로 인식할 수 있는 내용에 기여하지 않는 디테일을 학습하는 단계이다. 도 3을 참조하면, 제3 단계(303)의 이미지가 인지할 수 없는 세부적인 디테일들까지 입력과 동일함을 알 수 있다.
따라서, 상기 제1 단계(301)의 SNR 값은 0 내지 10-2 사이에 있으며, 상기 제2 단계(302)의 SNR 값은 10-2 내지 100 사이에 있으며, 상기 제3 단계의 SNR 값은 100 내지 104사이에 있다. SNR의 수치에 따라 각 학습 단계를 구분 또는 분류할 수 있다.
일 실시예로서, 도 3을 참조하면, 제1 단계(301)의 SNR값은 1.5*10-3 및 6.9*10-3 을 가지며, 제2 단계(302)의 SNR 값은 8.4*10-2 및 6.5*10-1 를 가지며, 제3 단계(303)의 SNR은 8.5*100 를 가져 상술한 각 단계 별 SNR의 수치에 해당함을 확인할 수 있다.
본 발명의 일 실시예에 따른 프로세서(14)는, 상기 학습 단계(301, 302, 303)에 대한 우선순위에 따라 순차적으로 가중치를 적용할 수 있다.
일 실시예로서, 학습에 가장 영향을 많이 끼치는 상기 제2 단계(302)에 가장 높은 가중치를 적용하고, 잔여 노이즈를 제거하는 상기 제3 단계(303)에서 가장 낮은 가중치를 적용할 수 있다.
일 실시예로서, 제2 단계(302)는 가장 높은 우선순위를 가지며, 상기 제1 단계(301)의 우선순위는 상기 제3 단계(303)의 우선순위보다 높고, 프로세서(14)는 우선순위에 따라 제2 단계(302), 제1 단계(301), 제3 단계(303)의 순서로 큰 가중치를 적용할 수 있다.
본 발명의 일 실시예에 따르면, 상기 프로세서(14)는, 하기 식(1)에 따라 상기 학습 단계에서 적용될 목적 함수(Lsimple)를 종래의 목적함수(Lt)로부터 단순화할 수 있다.
Figure PCTKR2023003910-appb-img-000005
식(1)
본 발명의 일 실시예에 따르면, 상기 프로세서(14)는, 각 학습 단계에 적용될 목적함수에 하기 식(2)에 따라 산출된 가중치를 적용할 수 있다.
Figure PCTKR2023003910-appb-img-000006
식(2)
상기 λt는 종래 가중치이고, λt'는 각 학습 단계의 우선순위가 적용된 가중치이며, k는 작은 SNR 수치에 따른 가중치 폭발을 방지하는 상수이며, 상기 γ(감마)는 하향 가중치의 강도를 제어하는 하이퍼파라미터이고, t는 노이즈 정도를 표시하는 인덱스이다.
이때 λ는 널리 사용되는 가중치 체계의 일반화로, γ=0일 때 λt에 도달하여 λt를 기준선이라고 할 수 있다. 기존의 목적함수에 적용되는 가중치 λt를 λt'로 대체하여 기존의 확산 모델에도 적용할 수 있다.
따라서, 확산 모델(110)은 각 학습 단계(301, 302, 303)에서 동일한 가중치로 학습하는 것이 아니라 각 학습 단계(301, 302, 303)의 특성을 고려한 가중치를 상이하게 적용하여 학습을 수행할 수 있다.
또한, 본 발명의 일 실시예에 따른 프로세서(14)는, 상기 인공지능 모델(100), 예를 들어 확산 모델(110)에 입력될 데이터 셋(set)에 따라 상기 k와 γ의 값을 조절할 수 있다. k는 분모가 0이 되지 않게 하는 상수이며, 하이퍼 파라미터인 γ를 조절하여 가중치를 재조정할 수 있다.
구체적으로, 도 4(a)는 일반적인 확산 과정에 따른 SNR 변화를 cosine schedule과 linear schedule로 나타낸 것으로, 확산 과정이 진행될수록 cosine schedule과 linear schedule의 SNR이 작아지고 있음을 확인할 수 있다. 반면, 도 4(b) 및 (c)에 도시된 바와 같이, 본 발명에 따른 인공지능 모델 학습 장치(ours)를 이용할 경우, 기준선(base line)의 cosine schedule 및 linear schedule의 가중치(weights)보다 제3 단계(303)의 가중치를 억제하고 있음을 확인할 수 있다.
또한, γ=0.5 일 때보다 γ=1로 γ 값을 더 크게 조절하였을 때 제3 단계(303)의 가중치가 추가적으로 억제됨을 확인할 수 있다.
따라서, 인지할 수 없는 디테일을 학습하는 단계, 예를 들어 제3 단계(303)에서 가중치를 최소로 줄이고 제1 단계(301) 및 제2 단계(302)에 상대적으로 더 많은 가중치를 부가, 특히 제2 단계(302)에 가장 큰 가중치를 부여하여 학습함으로써 인지할 수 있는 특징을 더욱 구체화할 수 있다. 도 4를 참조하면, 제2 단계(302)인 콘텐츠(content) 단계에서 pretext 태스크를 해결함으로써 인지 가능한 풍부한 콘텐츠를 학습할 수 있다는 것을 확인할 수 있다.
도 5에 도시된 바와 같이, 생성 이미지의 정량적 평가를 위해 FID(Frechet Inception Distance) 지표로 기준선(base)과 본 발명의 일 실시예에 따른 인공지능 모델 학습 장치(ours)를 비교할 수 있으며, 본 발명의 일 실시예에 따른 인공지능 모델 학습 장치가 기준선의 cosine shecule 및 linear schedule보다 FID 점수가 낮아 퀄리티가 더 우수함을 알 수 있다.
더하여, cosine schedule이 linear schedule보다 열등한 FID 점수를 보이고 있어, 제1 단계(301)가 제3 단계(303)보다 더 많은 데이터를 학습하고 있어 중요성이 더 큰 것을 알 수 있다.
다시 말해, 본 발명의 일 실시예에 따른 인공지능 모델 학습 장치는 제1 단계(301) 및 제2 단계(302)의 가중치는 가중하고, 제3 단계(303)의 가중치는 억제하여 인공지능 모델(100), 특히 확산 모델(110)이 더 풍부한 시작적 컨셉을 학습하도록 할 수 있다.
참고로, 도 5의 학습 과정(traning progress)은 확산 모델(110)이 처리한 이미지의 수를 나타내며, γ=1을 전제로 가중치를 적용한 것이다.
일 실시예로서, 확산 모델(110)을 학습시킬 때 k=1로 설정하고, γ=0.5 또는 1로 설정하여 λt'를 적용할 수 있다.
한편, 일 실시예로서, γ의 크기를 조절하여 가중치 효과를 조절할 수 있으며, 프로세서(14)는 데이터 셋의 이미지 해상도(resolution)가 클수록 상기 γ의 값을 크게 조절할 수 있다.
γ가 0이면(λt = λt’), 원본인 입력 이미지이고, γ 값을 늘릴수록 제2 단계(302)에 제1 단계(301) 및 제3 단계(303)보다 더 많은 가중치를 부여할 수 있다. 이미지 해상도가 크면 이미지 내에 더 많은 인지 가능한 정보들이 존재하는 바, 제2 단계(302)에 가중치를 늘려 재건 효율을 향상시킬 수 있다.
반면, γ가 너무 강하면 제1 단계(301) 및 제3 단계(303)와 같이 제2 단계(302)를 제외한 학습 단계의 학습이 불가능해지며, 이미지 해상도가 적으면 γ 값이 크더라도 제2 단계(302)의 실질적인 컨텐츠를 다른 디테일보다 더 명확하게 지각하는 효과가 떨어지게 된다.
따라서, 이미지 해상도에 따라 γ를 조절하여 학습 단계에 적용될 가중치를 적용할 수 있으며, 제2 단계(302), 제1 단계(301), 제3 단계(303) 순서대로 가중치가 부여될 수 있다.
다시 말해, 제2 단계(302)에 가장 큰 가중치를 부여하고, 제1 단계(301)에 제3 단계(303) 보다 큰 가중치를 부여하는 것이다.
도 6에 도시된 바와 같이, 본 발명의 일 실시예에 따른 인공지능 모델 학습 장치를 이용하여 학습을 수행할 경우, 도 6의 위쪽에 배치된 이미지와 같이, 학습된 인공지능 모델(100)이 정확한 색감과 객체를 생성할 수 있다.
인공지능 모델(100)은 FFHQ, CelebA-HQ, MetFaces, AFHQ-Dogs, Oxford flowers, CUB Bird 등 다양한 데이터셋이 입력되더라도 정확한 이미지를 생성할 수 있다.
반면, 종래 인공지능 모델 학습 장치를 이용할 경우, 도 6의 아래쪽에 배치된 기준선(Baseline) 이미지와 같이, 학습된 인공지능 모델이 입력 이미지와 상이한 색감이나 상이한 지각적 특성을 가진 이미지를 생성할 수 있다. 예를 들어, FFHQ 2M이 입력될 경우 본 발명(Ours)은 이미지에 따른 정확한 색감을 복구하지만, 기준선 이미지는 전체적으로 푸른 색감을 가지도록 생성될 수 있다. 또한, FFHQ 4M이 입력될 경우 본 발명과 달리, 기준선 이미지는 붉은 색감을 가지도록 생성될 수 있으며, MetFaces 1.6M 또한 노이즈가 낀 듯 불명확한 색감을 가지도록 생성될 수 있다.
다시 말해, 본 발명은 학습 단계 별 상이한 가중치 적용을 이용하여 컬러 시프트(color shift) 문제를 해결하고 모델 캐패시티를 낭비하는 것을 방지할 수 있다.
따라서, 학습 단계(301, 302, 303)의 우선순위에 따라 가중치를 상이하게 적용함으로써 입력 이미지와 더 유사한 생성 이미지를 획득할 수 있으며, 재건 효율을 극대화할 수 있다.
도 7에 도시된 바와 같이, 기준(Base)에 비해 본 발명(Ours)의 FID 및 KID 수치가 더 낮으며, FID 및 KID 수치가 낮을수록 퀄리티가 더 우수한 것이다. 특히 FFHQ, CUB, AFHQ-D, Flowers, MetFaces 등 다양한 데이터 셋에 기준과 본 발명을 적용하였으나 모든 데이터 셋에서 본 발명의 성능이 더 우수하게 나타났다. 상기 도 7은 256*256 해상도의 데이터 셋을 사용하였고, FFHQ는 500개 샘플링 과정, 그 외에는 250 개의 샘플링 과정을 수행하였다.
또한, 도 8은 FFHQ, Oxford Flower, CelebA-HQ 데이터 셋에 대해, 본 발명의 일 실시예에 따른 인공지능 모델 학습 장치를 이용한 인공지능 모델 학습 방법과 다른 학습 방법을 다양한 인공지능 모델에 적용하고, FID 점수에 따라 그 성능을 나열한 것이다.
모든 데이터 셋은 256*256 해상도이고, 노이즈 적용한 횟수 T=1000으로 설정한 학습 결과로, 도 8을 참조하면, 본 발명이 적용된 모든 모델이 다른 모델들보다 감소된 샘플링 단계에서 최상의 성능을 달성했으며, 특히 FFHQ에 대해서는, 본 발명이 StyleGAN2를 제외하고 가장 많은 모델에서 가장 낮은 FID 점수를 획득하여 우수한 결과를 달성함을 확인할 수 있다.
더하여, 도 9는 250 단계로 생성된 샘플로, 800k 이미지에 대한 MetFace로 훈련된 모델로서, 본 발명이 다양한 구성의 기준선보다 더 우수한 성능을 지속적으로 달성함을 나타냄을 확인할 수 있다. 도 9를 참조하면, 본 발명은 인공지능 모델의 구성에 상관없이 효율적임을 알 수 있다. 도 9의 (a)는 본 발명의 디폴트 구성이고, (b)는 BigGAN block이며, (c)는 보틀넥(8*8 해상도)에서 Self-attention만 수행한 구성, (d)는 2개의 residual block이고, (e)는 학습률 2.5*e-5인 구성을 의미한다.
도 10도 FFHQ 데이터셋으로 훈련된 모델의 다양한 샘플링 단계의 FID 점수를 나타내며, 본 발명으로 훈련된 모델이 기준선보다 상당한 마진으로 우수한 성능을 내고 있음을 확인할 수 있다.
더하여, 도 11은 스위핑 샘플링 스케쥴(Sweeping sampling schedule)에 따른 FID 와 KID 지표를 나타낸 것으로, 기준 방법으로 스위핑 샘플링 스케쥴을 조절하더라도 다소 성능이 향상되고는 있지만, 본 발명의 성능을 향상하지는 못하고 있음을 확인할 수 있다.
따라서, 인공지능 모델(100)의 구성 불문, 샘플링 단계 불문, 데이터 셋 종류 불문, 스위핑 샘프링 스케쥴 불문하고 우수한 성능을 도출할 수 있어 환경에 구애받지 않고 월등한 재건 효율을 발휘할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 상기 프로세서(14)는, 상기 인공지능 모델(100)로부터 출력된 생성 이미지의 퀄리티 파라미터를 기반으로 각 학습 단계(301,302, 303)의 우선순위가 적용된 가중치(λt')를 재조정할 수 있다. 이때, 상기 퀄리티 파라미터는 상기 생성 이미지의 FID(Frechet Inception Distance) 및 KID(Kernal Inception Distance) 수치를 포함할 수 있다.
일 실시예로서, 상기 FID 및 KID 수치가 임계치 이상일 경우 상기 λt'를 재조정하여 상기 제2 단계(302)의 가중치를 상향하고, 상기 제1 단계(301) 및 상기 제3 단계(303)의 가중치를 하향시킬 수 있다. 이때, 상기 제1 단계(301)의 가중치 하향 폭 또는 하향 우선순위가 상기 제 3단계(303)의 가중치 하향 폭 또는 하향 우선순위보다 작을 수 있다.
예를 들어, 제 2단계(302)의 가중치를 상향시키고, 그에 따라 다른 학습 단계의 가중치를 하향시켜야 할 때 우선 제3 단계(303)의 가중치를 설정치만큼 하향시킬 수 있다.
제3 단계(303)의 가중치를 설정치만큼 하향시켰음에도 추가 가중치 하향이 필요한 경우 제1 단계(301)의 가중치를 추가 가중치 하향치만큼 하향시킬 수 있다.
한편, 도 12는 본 발명의 일 실시예에 따른 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치를 이용한 인공지능 모델 학습 방법의 플로우 차트를 도시한 것이다.
본 발명의 일 실시예에 따른 신호 대 잡음비 기반 인공지능 모델 학습 장치를 이용한 인공지능 모델 학습 방법은 SNR 값에 따라 상기 학습 모델의 역방향 변환 과정을 복수의 학습 단계로 구분하는 단계(S1210) 및 구분된 복수의 학습 단계에 대해 각각 상이한 가중치를 적용하여 역방향 변환 과정을 수행하는 역방향 단계(S1220)를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 단계(S1210)는 상기 SNR 값에 따라 상기 학습 모델의 역방향 변환 과정을 적어도 제1 단계(301), 제2 단계(302) 및 제3 단계(303)로 구분하는 단계를 포함할 수 있다.
또한, 상기 단계(S1220)는, 상기 제2 단계(302), 상기 제1 단계(301) 및 상기 제3 단계(303) 순서로 우선 순위를 적용하는 단계 및 상기 우선 순위에 따라 상기 제2 단계(302)에서 가장 높은 가중치를 적용하고, 상기 제3 단계(303)에서 가장 낮은 가중치를 적용하여 목적함수를 최적화하는 단계를 포함할 수 있다.
더하여, 본 발명의 일 실시예에 따르면, 퀄리티 파라미터인 FID 및 KID 수치가 임계치 이상일 경우 상기 λt'를 재조정하여 상기 제2 단계(302)의 가중치를 상향하고, 상기 제1 단계(301) 및 상기 제3 단계(303)의 가중치를 하향시키는 단계를 더 포함하며, 이때, 상기 제1 단계(301)의 가중치 하향 폭 또는 하향 우선순위가 상기 제 3단계(303)의 가중치 하향 폭 또는 하향 우선순위보다 작을 수 있다.
다시 말해, 학습 단계 별로 가중치를 적용할 떄 가장 먼저 제2 단계(302)의 가중치를 상향하고, 재건 효율이 목표에 이르지 못하면 그 다음으로 제3 단계(303)의 가중치를 설정치만큼 하향하며, 추가로 부족한 만큼 제1 단계(301)의 가중치를 부족분만큼 하향하도록 할 수 있다. 제2 단계(302), 제1 단계(301) 및 제3 단계(303)의 순으로 우선순위를 가질 수 있다.
상술한 내용과 중복되는 내용은 설명의 명료함을 위해 생략하기로 한다.
본 발명의 일 실시예에 따른 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치는 SNR 값에 따라 구분된 복수의 학습 단계를 기반으로 역방향 변환 과정을 수행하는 확산 모델(110)을 포함하는 인공지능 모델(100) 및 상기 인공지능 모델의 동작을 제어하는 프로세서(104)를 포함하고, 상기 프로세서(104)는 상기 SNR 값에 따라 역방향 변환 과정을 복수의 학습 단계로 구분하고, 구분된 각 학습 단계에 상이한 가중치를 적용할 수 있다.
상이한 가중치를 각 단계 별로 적용하고, 특히 content 단계에 가장 높은 가중치를, clean-up 단계에 가장 낮은 가중치를 부여하여 지각 가능한 주요 특징 복구를 학습하도록 학습 효율을 향상시킬 수 있다.
이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 개시가 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.

Claims (15)

  1. SNR 값에 따라 구분된 복수의 학습 단계를 기반으로 역방향 변환 과정을 수행하는 인공지능 모델; 및
    상기 인공지능 모델의 동작을 제어하는 프로세서; 를 포함하고,
    상기 프로세서는,
    상기 SNR 값에 따라 역방향 변환 과정을 복수의 학습 단계로 구분하고,
    구분된 각 학습 단계에 상이한 가중치를 적용하는,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치.
  2. 제1 항에 있어서,
    상기 학습 단계는 상기 SNR 값에 따라 순차적으로 구분된 제1 단계, 제2 단계 및 제3 단계를 적어도 포함하며,
    상기 프로세서는,
    상기 학습 단계에 대한 우선순위에 따라 순차적으로 가중치를 적용하는,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치.
  3. 제2 항에 있어서,
    상기 프로세서는,
    학습에 가장 영향을 많이 끼치는 상기 제2 단계에 가장 높은 가중치를 적용하고,
    잔여 노이즈를 제거하는 상기 제3 단계에서 가장 낮은 가중치를 적용하는,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치.
  4. 제3 항에 있어서,
    상기 제1 단계의 우선순위는 상기 제3 단계의 우선순위보다 높은,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치.
  5. 제3 항에 있어서,
    상기 프로세서는,
    각 학습 단계에 적용될 목적함수에 하기 식에 따라 산출된 가중치를 적용하며,
    Figure PCTKR2023003910-appb-img-000007
    상기 λt는 종래 가중치이고, λt'는 각 학습 단계의 우선순위가 적용된 가중치이며, k는 작은 SNR 수치에 따른 가중치 폭발을 방지하는 상수이며, 상기 γ는 하향 가중치의 강도를 제어하는 하이퍼파라미터이고, t는 노이즈 정도를 표시하는 인덱스인,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치.
  6. 제5 항에 있어서,
    상기 인공지능 모델은 확산 모델을 포함하는,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치.
  7. 제6 항에 있어서,
    상기 프로세서는,
    상기 확산 모델에 입력될 데이터 셋(set)에 따라 상기 k와 γ의 값을 조절하는,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치.
  8. 제7 항에 있어서,
    상기 프로세서는,
    상기 데이터 셋의 이미지 해상도(resolution)가 클수록 상기 γ의 값을 크게 조절하는,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치.
  9. 제1 항에 있어서,
    상기 프로세서는,
    상기 인공지능 모델로부터 출력된 생성 이미지의 퀄리티 파라미터를 기반으로 각 학습 단계의 우선순위가 적용된 가중치(λt')를 재조정하는,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치.
  10. 제9 항에 있어서,
    상기 퀄리티 파라미터는 상기 생성 이미지의 FID 및 KID 수치를 포함하는,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치.
  11. 신호 대 잡음비 기반 인공지능 모델 학습 장치를 이용한 인공지능 모델 학습 방법으로서,
    SNR 값에 따라 상기 학습 모델의 역방향 변환 과정을 복수의 학습 단계로 구분하는 분류단계; 및
    구분된 복수의 학습 단계에 대해 각각 상이한 가중치를 적용하여 역방향 변환 과정을 수행하는 역방향 변환단계; 를 포함하는,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 방법.
  12. 제11 항에 있어서,
    상기 분류단계는 상기 SNR 값에 따라 상기 학습 모델의 역방향 변환 과정을 적어도 제1 단계, 제2 단계 및 제3 단계로 구분하는 단계를 포함하며,
    상기 역방향 변환단계는,
    상기 제2 단계, 상기 제1 단계 및 상기 제3 단계 순서로 우선 순위를 적용하는 단계; 및
    상기 우선 순위에 따라 상기 제2 단계에서 가장 높은 가중치를 적용하고, 상기 제3 단계에서 가장 낮은 가중치를 적용하여 목적함수를 최적화하는 단계; 를 포함하는,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 방법.
  13. 제12 항에 있어서,
    입력 이미지에 적용될 목적함수에 하기 식에 따라 산출된 가중치를 적용하며,
    Figure PCTKR2023003910-appb-img-000008
    상기 λt는 종래 가중치이고, λt'는 각 학습 단계의 우선순위가 적용된 가중치이며, k는 작은 SNR 수치에 따른 가중치 폭발을 방지하는 상수이며, 상기 γ는 하향 가중치의 강도를 제어하는 하이퍼파라미터이고, t는 노이즈 정도를 표시하는 인덱스인,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 방법.
  14. 제13 항에 있어서,
    상기 FID 및 KID 수치가 임계치 이상일 경우 상기 λt'를 재조정하여 상기 제2 단계의 가중치를 상향하고, 상기 제1 단계 및 상기 제3 단계의 가중치를 하향시키는 단계를 더 포함하며,
    이때, 상기 제1 단계의 가중치 하향 폭 또는 하향 우선순위가 상기 제 3단계의 가중치 하향 폭 또는 하향 우선순위보다 작은 것을 특징으로 하는,
    신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 방법.
  15. 컴퓨터와 결합되어, 제11 항 내지 제14 항 중 어느 한 항의 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 방법을 실행시키기 위한 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체.
PCT/KR2023/003910 2022-03-25 2023-03-24 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치 및 이를 이용한 인공지능 모델 학습 방법 WO2023182848A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2022-0037519 2022-03-25
KR20220037519 2022-03-25
KR1020230037824A KR20230140526A (ko) 2022-03-25 2023-03-23 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치 및 이를 이용한 인공지능 모델 학습 방법
KR10-2023-0037824 2023-03-23

Publications (1)

Publication Number Publication Date
WO2023182848A1 true WO2023182848A1 (ko) 2023-09-28

Family

ID=88101878

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/003910 WO2023182848A1 (ko) 2022-03-25 2023-03-24 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치 및 이를 이용한 인공지능 모델 학습 방법

Country Status (1)

Country Link
WO (1) WO2023182848A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130089252A1 (en) * 2010-06-21 2013-04-11 Koninklijke Philips Electronics N.V. Method and system for noise reduction in low dose computed tomography
KR20190094133A (ko) * 2019-04-16 2019-08-12 엘지전자 주식회사 객체를 인식하는 인공 지능 장치 및 그 방법
KR20190119548A (ko) * 2019-10-02 2019-10-22 엘지전자 주식회사 이미지 노이즈 처리방법 및 처리장치
CN110796615A (zh) * 2019-10-18 2020-02-14 浙江大华技术股份有限公司 一种图像去噪方法、装置以及存储介质
KR20210116923A (ko) * 2020-03-18 2021-09-28 에스케이텔레콤 주식회사 디노이징 네트워크의 학습 방법, 및 이미지 처리 방법 및 그 장치 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130089252A1 (en) * 2010-06-21 2013-04-11 Koninklijke Philips Electronics N.V. Method and system for noise reduction in low dose computed tomography
KR20190094133A (ko) * 2019-04-16 2019-08-12 엘지전자 주식회사 객체를 인식하는 인공 지능 장치 및 그 방법
KR20190119548A (ko) * 2019-10-02 2019-10-22 엘지전자 주식회사 이미지 노이즈 처리방법 및 처리장치
CN110796615A (zh) * 2019-10-18 2020-02-14 浙江大华技术股份有限公司 一种图像去噪方法、装置以及存储介质
KR20210116923A (ko) * 2020-03-18 2021-09-28 에스케이텔레콤 주식회사 디노이징 네트워크의 학습 방법, 및 이미지 처리 방법 및 그 장치 방법

Similar Documents

Publication Publication Date Title
CN112507898B (zh) 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
WO2023098912A1 (zh) 图像处理方法、装置、存储介质及电子设备
WO2022012668A1 (zh) 一种训练集处理方法和装置
Aparna et al. CNN and stacked LSTM model for Indian sign language recognition
CN113205048A (zh) 一种手势识别方法及识别系统
JP2022120775A (ja) オンデバイスでの活動認識
CN114462290A (zh) 一种生成预训练人工智能模型的方法及装置
CN113283368A (zh) 一种模型训练方法、人脸属性分析方法、装置及介质
WO2023182848A1 (ko) 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치 및 이를 이용한 인공지능 모델 학습 방법
CN114358249A (zh) 目标识别模型训练、目标识别方法及装置
WO2023101417A1 (ko) 딥러닝 기반의 강수량 예측 방법
Shen et al. On theoretical analysis of single hidden layer feedforward neural networks with Relu activations
Hiremath et al. Facial Expression Recognition Using Transfer Learning with ResNet50
KR102334666B1 (ko) 얼굴 이미지 생성 방법
Malakar et al. Detection of face mask in real-time using convolutional neural networks and open-CV
CN113836804A (zh) 基于卷积神经网络的动物识别模型建立方法及其应用系统
KR20230140526A (ko) 신호 대 잡음비 기반의 우선순위를 적용한 인공지능 모델 학습 장치 및 이를 이용한 인공지능 모델 학습 방법
Lewis et al. Accurate imputation and efficient data acquisitionwith transformer-based vaes
Patchaiammal et al. Feature Extraction by Rework Image Recognition (RIR) Learning Model
Bouneffouf et al. Dialogue System with Missing Observation
KR102598080B1 (ko) 인공지능 알고리즘에 기초하여 초상권을 보호하는 방법 및 장치
Guo et al. Sleep behavior detection based on pseudo-3d convolutional neural network and attention mechanism
KR102598072B1 (ko) 인공지능 알고리즘에 기초하여 개인 정보 노출을 방지하는 서비스를 제공하는 장치 및 방법
Xia et al. CNN-based book cover and back cover recognition and classification
US20230290273A1 (en) Computer vision methods and systems for sign language to text/speech

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23775343

Country of ref document: EP

Kind code of ref document: A1