WO2024058380A1 - 지역 차분 프라이버시 기반 적대적 생성 네트워크를 활용한 합성 환자 데이터 생성 방법 및 장치 - Google Patents

지역 차분 프라이버시 기반 적대적 생성 네트워크를 활용한 합성 환자 데이터 생성 방법 및 장치 Download PDF

Info

Publication number
WO2024058380A1
WO2024058380A1 PCT/KR2023/009488 KR2023009488W WO2024058380A1 WO 2024058380 A1 WO2024058380 A1 WO 2024058380A1 KR 2023009488 W KR2023009488 W KR 2023009488W WO 2024058380 A1 WO2024058380 A1 WO 2024058380A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
perturbed
noise
generating
pseudo
Prior art date
Application number
PCT/KR2023/009488
Other languages
English (en)
French (fr)
Inventor
김영학
전태준
권한슬
안임진
강희준
김윤하
서혜람
조하나
김민경
한지예
기가은
박서현
최희정
Original Assignee
재단법인 아산사회복지재단
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인 아산사회복지재단, 울산대학교 산학협력단 filed Critical 재단법인 아산사회복지재단
Publication of WO2024058380A1 publication Critical patent/WO2024058380A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Definitions

  • the medical field is one of the fields where artificial intelligence can be applied well. While the number of patients is increasing, medical resources are limited, so the introduction of AI to improve efficiency is essential, and the amount and quality of medical data are increasing due to the development of medical devices. Numerous studies have shown that artificial intelligence is capable of expert-level judgment in solving specific problems, and its scope is gradually expanding. However, there are still several issues that need to be resolved for artificial intelligence to be effectively applied in the medical field. Currently, the most important issue is the privacy security of patient data, which is the most complex issue in handling medical data.
  • An electronic device for generating secure medical data includes: a memory storing computer-executable instructions; And a processor that accesses the memory and executes the instructions, wherein the instructions generate perturbed patient data from patient data extracted from electronic medical records (EMR), and create a latent space ( Generate perturbed pseudo data from pseudo data generated based on a generator from a latent vector in latent space, and generate a generator based on the perturbed patient data and the perturbed pseudo data. ) and a discriminator, a Generative Adversarial Network (GAN)-based model can be trained, and secured medical data can be generated using the generator.
  • EMR electronic medical records
  • GAN Generative Adversarial Network
  • the processor generates the perturbed patient data including discrete data opposite to the patient data with a change probability based on a randomized response mechanism when the extracted patient data is discrete data, and , Based on the discrete data, the perturbed pseudo data including discrete data opposite to the pseudo data with the change probability may be generated.
  • the processor generates noise data based on a Laplace mechanism when the extracted patient data is continuous data
  • the noise data may be added to the patient data to generate the disturbed patient data, and the noise data may be added to the pseudo data to generate the disturbed pseudo data.
  • the processor generates noise in a distribution corresponding to the security adjustment level based on a security adjustment level selected by a user, and generates the perturbed patient data by adding the noise to the extracted patient data; , the disturbed pseudo data can be generated by adding the noise to the pseudo data.
  • the processor may generate the noise based on at least one of a random response mechanism, a Laplace mechanism, a Gaussian mechanism, or an exponential mechanism.
  • the processor generates first noise and second noise based on at least two of the plurality of mechanisms, and generates the perturbed patient data by adding the first noise to the extracted patient data,
  • the disturbed pseudo data can be generated by adding the second noise to the pseudo data.
  • the processor obtains a discriminator score based on results of individually applying the discriminator to the perturbed pseudo data and the perturbed patient data, and based on the discriminator score, the generator determines the perturbed pseudo data and the perturbed patient data.
  • a generative network-based model may be trained, and based on the discriminator score, the adversarial generative network-based model may be trained such that the discriminator produces results that are false for the perturbed pseudodata.
  • the processor may obtain the discriminator score through the objective function of the discriminator based on the Wasserstein distance.
  • 1 is a diagram illustrating a membership inference attack.
  • Figure 2 is a diagram showing a full black-box attack on a generator.
  • Figure 3 is a diagram illustrating a partial black-box attack on a generator.
  • Figure 4 is a diagram showing a discriminator-white-box attack on a discriminator.
  • FIG. 5 is a diagram illustrating a Generative Adversarial Network (GAN)-based model for generating secure medical data according to an embodiment.
  • GAN Generative Adversarial Network
  • Figure 6 is a diagram illustrating a method of training an adversarial generation network-based model according to an embodiment.
  • Figure 7 is a flowchart illustrating a method for training an adversarial generative network according to an embodiment.
  • Figure 8 is a diagram illustrating a method of applying noise to each patient data item according to an embodiment.
  • Figure 9 is a diagram illustrating a randomized response mechanism according to one embodiment.
  • Figure 10 is a diagram illustrating a Laplace mechanism according to an embodiment.
  • FIG. 11 is a diagram illustrating a method of generating perturbed data for training an adversarial generation network based on a security control level according to an embodiment.
  • FIG. 12 is a diagram illustrating a method of generating perturbed data for training an adversarial generative network by applying a first mechanism and a second mechanism according to an embodiment.
  • Figure 13 is a diagram illustrating a method for verifying the utility of data according to an embodiment.
  • FIG. 14 is a diagram illustrating an apparatus for generating secure medical data according to an embodiment.
  • first or second may be used to describe various components, but these terms should be interpreted only for the purpose of distinguishing one component from another component.
  • a first component may be named a second component, and similarly, the second component may also be named a first component.
  • a or B “at least one of A and B”, “at least one of A or B”, “A, B or C”, “at least one of A, B and C”, and “A Each of phrases such as “at least one of , B, or C” may include any one of the items listed together in the corresponding phrase, or any possible combination thereof.
  • 1 is a diagram illustrating a membership inference attack.
  • the attacker 130 may obtain training data 110 used for learning based on the learned machine learning model 100.
  • 1 illustrates an example attack scenario by an attacker.
  • the attacker 130 may represent a person with expert knowledge about the system or programming within a computer without participating in the learning process of the machine learning model 100.
  • a machine learning model according to one embodiment can prevent attacks by the above-described attacker.
  • the machine learning model 100 may be created through machine learning. Learning algorithms may include, for example, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but It is not limited.
  • the machine learning model 100 may include a plurality of artificial neural network layers. Artificial neural networks include deep neural network (DNN), convolutional neural network (CNN), recurrent neural network (RNN), restricted boltzmann machine (RBM), belief deep network (DBN), bidirectional recurrent deep neural network (BRDNN), It may be one of deep Q-networks or a combination of two or more of the above, but is not limited to the examples described above.
  • DNN deep neural network
  • CNN convolutional neural network
  • RNN recurrent neural network
  • RBM restricted boltzmann machine
  • BNN belief deep network
  • BNN bidirectional recurrent deep neural network
  • It may be one of deep Q-networks or a combination of two or more of the above, but is not limited to the examples described above.
  • the above-described machine learning model 100 can be learned based on training data including a pair of training data 110 and learning output 120 mapped to the corresponding learning input.
  • machine learning model 100 may be trained to output learning output 120 from training data 110.
  • the machine learning model 100 during training may generate a temporary output in response to the training data 110, and may be trained to minimize loss between the temporary output and the learning output 120.
  • parameters of the machine learning model 100 e.g., connection weights between nodes/layers in a neural network
  • Such learning may be performed in the electronic device itself on which the machine learning model 100 is performed, or may be performed through a separate server.
  • the machine learning model 100 on which learning has been completed may be stored in the memory of the electronic device.
  • the attacker 130 may obtain training data 110 based on random output obtained by applying random data to the machine learning model 100.
  • the attack scenario in which the above-described attacker 130 obtains the training data 110 will be described later with reference to FIGS. 2 to 4 below.
  • Figure 2 is a diagram showing a full black-box attack on a generator.
  • the attacker 130 may generate random data in the generator 200.
  • the attacker 130 may obtain restored data 230 similar to the target data 240 based on the generated random data.
  • the restored data 230 may represent data most similar to the target data 240 among random data generated by the attacker 130.
  • Target data 240 may represent learning data used to train the generator 200.
  • the generated area 210 in FIG. 2 may represent an area of random data generated by the attacker 130 through the generator 200. Random data may represent pseudo data, which will be described later in FIG. 5.
  • the actual area 220 may represent an area of learning data used for learning of the generator 200. Specifically, if the distance data of the restored data 230 and the target data 240 falls within the threshold distance 250 of the target data 240, the attacker 130 may use the learned data of the generator 200. It can be evaluated with the training data used in .
  • target data 240 may represent data belonging to the created area 210.
  • distance function can use Euclidean distance.
  • Figure 3 is a diagram illustrating a partial black-box attack on a generator.
  • the attacker 130 may generate random data in the generator 200 based on the latent vector 300.
  • the latent vector 300 may represent input data of the generator 200 for generating random data in the generator 200.
  • the attacker 130 may obtain restored data 230 similar to the target data 240 based on the generated random data.
  • the attacker 130 can obtain the restored data 230 by modifying the latent vector 300 in a partial black box attack, unlike a full black box attack.
  • the attacker 130 may obtain the optimal latent vector based on the latent vector 300 and the restored data 230.
  • the optimal latent vector can be calculated by the following formula:
  • here, may represent random data generated by the generator 200 based on the latent vector 300.
  • the restored data 230 may represent data most similar to the target data 240 among random data generated by the attacker 130. If the distance data of the restored data 230 and the target data 240 falls within the threshold distance 250 of the target data 240, the attacker 130 determines that the restored data 230 is used for learning of the generator 200. It can be evaluated using learning data.
  • Figure 4 is a diagram showing a discriminator-white-box attack on a discriminator.
  • the attacker 130 can obtain data used for learning through the discriminator score 420 of the discriminator 400.
  • the attacker 130 may obtain inferred data 430 including a discriminator score exceeding a threshold among the discriminator scores 420 of the plurality of data 410.
  • the plurality of data 410 may include at least one of data used for learning the discriminator 400 or data that was not used for learning the discriminator 400 .
  • the discriminator 400 may be trained to output a higher discriminator score 420 for the data used for learning the discriminator 400.
  • the discriminator 400 may be trained to output a lower discriminator score 420 for data that was not used for training of the discriminator 400.
  • the attacker 130 can obtain the inferred data 430 through the characteristics of the discriminator 400 described above.
  • FIG. 5 is a diagram illustrating a Generative Adversarial Network (GAN)-based model for generating secure medical data according to an embodiment.
  • GAN Generative Adversarial Network
  • An electronic device may apply disturbed data to an adversarial generation network-based model 500.
  • the adversarial generative network-based model 500 may include a generator 200 and a discriminator 530.
  • the generator 200 may represent a machine learning model that receives one random vector included in a latent space described later in FIG. 6 and outputs pseudo data 512.
  • the generator 200 may generate pseudo data 512 so that the discriminator 530 cannot discriminate between the perturbed pseudo data 518 and the perturbed patient data 520.
  • Patient data 514 may represent data including private information about a plurality of patients.
  • patient data may include at least one of the patient's gender, age, height, systolic blood pressure, diastolic blood pressure, body mass index (BMI), or procedure experience.
  • Pseudo data 512 may represent fake data generated by generator 200.
  • Pseudo data 512 may include at least one of discrete data or continuous data depending on the type of patient data 514.
  • discrete data may represent data having discrete values among the patient data 514.
  • Continuous data may represent data with continuous real values among the patient data 514. If patient data 514 includes discrete data, pseudo data 512 may also include discrete data, and if patient data 514 includes continuous data, pseudo data 512 may also include continuous data. You can.
  • Disturbed data may represent data that is different from the original by applying noise to the original data.
  • disturbed pseudo data 518 and disturbed patient data 520 are described as examples of disturbed data.
  • Disturbed pseudo data 518 may be generated by applying noise 516 to pseudo data 512.
  • Disturbed patient data 520 may be generated by applying noise 517 to patient data 514 .
  • the generator 200 may be trained so that the discriminator 530 cannot distinguish between perturbed pseudo data 518 and perturbed patient data 520.
  • a method of training the adversarial generative network-based model 500 will be described later in FIG. 6.
  • the noises 516 and 517 may represent at least one of noise data representing random real values mathematically designed based on differential privacy or data to which a change probability has been applied.
  • Differential privacy can represent a methodology for measuring the degree of privacy protection by quantitatively modeling privacy. A method of obtaining noise 516 and 517 through differential privacy will be described later with reference to FIGS. 8 to 10.
  • Figure 6 is a diagram illustrating a method of training an adversarial generation network-based model according to an embodiment.
  • the electronic device may learn an adversarial generation network-based model (e.g., the adversarial generation network-based model 500 of FIG. 5) based on the security control level 600.
  • the security control level 600 is a parameter indicating the intensity of noise (e.g., noises 516 and 517 in FIG. 5), and may be input by the user.
  • the electronic device when it receives an increased security adjustment level 600 from the user, it may obtain data disturbed by increased noise intensity.
  • the electronic device may apply noise of a noise intensity corresponding to the increased security adjustment level 600 input by the user to the data.
  • the security of data e.g., pseudo data 512 or patient data 5114
  • the electronic device may generate disturbed data based on the security control level 600 indicating reduced intensity noise in order to increase the utility of the data.
  • the electronic device can apply the security adjustment level 600 that satisfies the following equation to the pseudo data 512 and patient data 514.
  • the security control level (600), and can represent a set of data that differs only in one data point.
  • the set of data is a set of patient data 514, and may represent a set of data that is different from only one patient data among a plurality of patient data.
  • may represent a differential privacy mechanism may represent a subset of the results of applying the differential privacy mechanism to the above-described data set.
  • the electronic device applies the security adjustment level 600 that satisfies Equation 1 to the pseudo data 512 and the patient data 514 to generate disturbed pseudo data 518 and disturbed patient data 520. can do.
  • a method of learning an adversarial generative network model based on perturbed data will be described later.
  • the electronic device may learn the generator 200 and the discriminator 530 through the objective function 610 of the discriminator 530.
  • the objective function 610 of the discriminator can be expressed by the following equation:
  • the discriminator score may represent the discriminator score obtained by applying the perturbed patient data 520 to the discriminator 530, may represent the discriminator score obtained by applying the perturbed pseudo data 518 to the discriminator 530. also, is based on sample patient data that follows the distribution of perturbed patient data 520. can represent the expected value of is based on sample pseudodata following the perturbed pseudodata 518 distribution. can represent the expected value of The discriminator score determines whether the data applied to the discriminator 530 is real data (e.g., perturbed patient data 520) or fake data (e.g., perturbed pseudo data 518). It can indicate the scores included.
  • the discriminator score may include a score close to 1 when the data input to the discriminator 530 is real data.
  • the electronic device can acquire a discriminator 530 whose discrimination ability improves as learning progresses and a sophisticated generator 200 that can deceive the discrimination ability of the discriminator 530.
  • the electronic device may obtain the discriminator score through an objective function of the discriminator based on the Wasserstein distance.
  • the Wasserstein distance measures the correlation between two probability distributions and can represent the distance when the expected value of the distance is the smallest.
  • input data e.g., at least one of patient data or pseudo data
  • output of the discriminator e.g., discriminator score
  • distribution of patient data can represent the distribution of pseudo data
  • Is The absolute value of the slope of can represent a supremum value that does not exceed 1.
  • Figure 7 is a flowchart illustrating a method for training an adversarial generative network according to an embodiment.
  • the electronic device may extract patient data from Electronic Medical Records (EMR).
  • EMR Electronic Medical Records
  • electronic records obligations may refer to computerized information recorded so that data about patients using the medical system can be managed efficiently and uniformly.
  • the electronic record obligation may include at least one of discrete data or continuous data, which will be described later with reference to FIGS. 8 to 10.
  • the electronic device generates pseudo data (e.g., the pseudo data (e.g., the pseudo data of FIG. 5) based on a generator (e.g., the generator 200 of FIG. 2) from a latent vector of a latent space. 512)) can be generated.
  • pseudo data may include data simply output by the generator.
  • pseudodata may not be completely dependent on an institution because it does not contain patient personal information and may include data that can be used relatively freely under multiple legal regulations.
  • the electronic device may apply local differential privacy to patient data and pseudodata.
  • the electronic device may apply the change probability generated through local differential privacy to the patient data and pseudo data based on the case where the patient data is binary data.
  • the electronic device may add noise data generated through local differential privacy to the patient data and pseudo data based on the case where the patient data is continuous data. A method by which an electronic device applies local differential privacy to patient data and pseudodata will be described later with reference to FIGS. 8 to 10.
  • the electronic device generates adversarial data based on perturbed patient data (e.g., perturbed patient data 520 of FIG. 5) and perturbed pseudo data (e.g., perturbed pseudo data 518 of FIG. 5).
  • a network-based model e.g., the adversarial generation network-based model 500 in Figure 5
  • the electronic device trains the adversarial generation network-based model based on the perturbed patient data and perturbed pseudo data. , personal information contained in patient data can be prevented from being leaked by external attackers.
  • Figure 8 is a diagram illustrating a method of applying noise to each patient data item according to an embodiment.
  • the electronic device may apply noise to the patient data 514 based on the security adjustment level 600.
  • patient data 514 may be extracted from electronic medical record 800.
  • Patient data 514 may include at least one of discrete data 812 or continuous data 814.
  • the electronic device may obtain disturbed discrete data 850 by applying the first noise 830 to the discrete data 812.
  • discrete data 812 may include information expressed as discrete values.
  • the discrete data 812 may include data expressed as binary values.
  • the gender binary value 813 corresponding to the patient's gender will be mainly described as an example of the discrete data 812, but it is not limited thereto.
  • Gender binary value 813 may include data expressed as a binary value of 1 for a male patient and 0 for a female patient.
  • the first noise 830 may include a randomized response mechanism 832 and a change probability 834.
  • the random response mechanism 832 is a representative mechanism for discrete data among the local differential privacy mechanisms described later, and is based on the gender binary value 813 and other binary values among the binary values corresponding to the change probability 534. It can represent a mechanism for generating a binary value converted to .
  • the electronic device can obtain the change probability 834 by applying the security adjustment level 600 to the random response mechanism 832.
  • the electronic device may obtain perturbed discrete data 850 by applying the obtained change probability 834 to the gender binary value 813.
  • the perturbed discrete data 850 may include a binary value 852 converted to another binary value among the original data (e.g., gender binary value 813) by a change probability.
  • a description of the random response mechanism 832 is provided later in FIG. 9.
  • the electronic device may obtain disturbed continuous data 860 by applying the second noise 840 to the continuous data 814.
  • continuous data 814 may include information expressed as continuous values.
  • the patient's height information 815 will be mainly used as an example of the continuous data 814, but it is not limited thereto.
  • the second noise 840 may include a Laplace mechanism 842 and noise data 844.
  • the Laplace mechanism 842 is a representative mechanism for continuous data among the local differential privacy mechanisms described later, and may represent a mechanism for adding noise data 844 to continuous data.
  • the electronic device may obtain noise data 844 by applying the security adjustment level 600 to the Laplace mechanism 842.
  • the electronic device may acquire disturbed continuous data 860 by adding the acquired noise data 844 to the patient's height information 815.
  • the perturbed continuous data 860 may include the patient's height information perturbed by adding noise data 844.
  • a description of the Laplace mechanism 842 will be provided later in FIG. 10.
  • Figure 9 is a diagram illustrating a randomized response mechanism according to one embodiment.
  • the electronic device may obtain perturbed discrete data 850 by applying a random response mechanism 832 to the discrete data 812.
  • Discrete data 812 may include gender binary values 813.
  • the electronic device applies a security adjustment level 600 based on at least one of a user's input or a predetermined value to the random response mechanism 832 to determine the change probability 900 and maintenance. (maintenance) probability (902) can be obtained.
  • the electronic device may acquire perturbed discrete data 850 based on the change probability 900 and the maintenance probability 902.
  • the change probability 900 can be calculated by the following formula:
  • security control level (600)
  • base of the natural logarithm may represent the change probability (900).
  • Perturbed discrete data 850 may include the results of applying a random response mechanism 832 to a gender binary value 813, which is an example of discrete data 812.
  • perturbed discrete data 850 may include modified discrete data 904 and maintained discrete data 906.
  • Changed discrete data 904 may represent discrete data changed by a change probability 900 in a gender binary value 813 .
  • Maintained discrete data 906 may represent discrete data maintained by a retention probability 902 in a gender binary value 813 .
  • the electronic device converts the perturbed discrete data 850 into perturbed pseudo data (e.g., perturbed pseudo data 518 of FIG. 5) or perturbed patient data (e.g., perturbed patient data 520 of FIG. 5). ), an adversarial generative network-based model (e.g., model 500 in FIG. 5) can be trained.
  • perturbed pseudo data e.g., perturbed pseudo data 518 of FIG. 518 of FIG. 518 of FIG
  • Figure 10 is a diagram illustrating a Laplace mechanism according to an embodiment.
  • the electronic device may obtain perturbed continuous data 860 by applying the Laplace mechanism 842 to the continuous data 814.
  • Continuous data 814 may include patient's height information 815.
  • the electronic device may obtain a Laplace distribution by applying the security adjustment level 600 based on at least one of a user's input or a predetermined value to the Laplace mechanism 842.
  • a plurality of Laplace distributions will be described as three Laplace distributions, but it is not limited thereto.
  • the electronic device may obtain the first distribution 1000 to the third distribution 1020 based on a plurality of security adjustment levels 600.
  • the first distribution 1000 may include a value with a smaller security adjustment level than the second distribution 1010 and the third distribution 1020.
  • the electronic device may obtain disturbed continuous data 860 by adding noise data 844 to continuous data 814.
  • the perturbed continuous data 860 may include the result of applying the Laplace mechanism 842 to the patient's height information 815, which is an example of the continuous data 814.
  • the perturbed continuous data 860 may include data obtained by adding noise data 844 to the patient's height information 815 .
  • the electronic device converts the perturbed continuous data 860 into perturbed pseudo data (e.g., perturbed pseudo data 518 of FIG. 5) or perturbed patient data (e.g., perturbed patient data 520 of FIG. 5). ), an adversarial generative network-based model (e.g., model 500 in FIG. 5) can be trained.
  • FIG. 11 is a diagram illustrating a method of generating perturbed data for training an adversarial generation network based on a security control level according to an embodiment.
  • the electronic device may learn an adversarial generation network-based model based on the security control level 600.
  • the electronic device may learn an adversarial generative network-based model by applying the security adjustment level 600 to one of a plurality of mechanisms.
  • the plurality of mechanisms may include at least one of a random response mechanism (832), a Laplace mechanism (842), a Gaussian mechanism (1102), or an exponential mechanism (1104).
  • the electronic device may generate perturbed pseudo data 518 by applying the noise parameter 1100 to the pseudo data 512.
  • the electronic device may generate perturbed patient data 520 by applying the noise parameter 1100 to the patient data 514 .
  • the noise parameter 1100 may represent a parameter related to the intensity of noise added to the data based on a mechanism selected depending on the type of patient data 514.
  • the noise parameter 1100 may include at least one of a change probability 834 or noise data 844. For example, based on patient data 514 being discrete data (e.g., discrete data 812 in FIG. 8), the electronic device may generate change probability 834 with random response mechanism 832.
  • the electronic device may generate a plurality of noise data 844 through the Laplace mechanism 842.
  • the electronic device may obtain a first distribution (eg, the first distribution 1000 in FIG. 10) by the Laplace mechanism 842 based on the security control level 600.
  • the electronic device may generate a plurality of noise data 844 in the first distribution.
  • the electronic device may apply two pieces of noise data from the plurality of noise data 844 to each of the patient data 514 and pseudo data 512.
  • FIG. 12 is a diagram illustrating a method of generating perturbed data for training an adversarial generative network by applying a first mechanism and a second mechanism according to an embodiment.
  • the electronic device may generate disturbed data by applying the first mechanism 1202 and the second mechanism 1204. For example, the electronic device may select at least two different mechanisms from among the plurality of mechanisms 1200. Specifically, if patient data 514 is discrete data (e.g., discrete data 812 in FIG. 8), both first mechanism 1202 and second mechanism 1204 may represent a random response mechanism 832. there is. If the patient data 514 is continuous data (e.g., continuous data 814 in FIG. 8), the first mechanism 1202 and the second mechanism 1204 may be a Laplace mechanism 842, a Gaussian mechanism 1102, or Among the exponential mechanisms 1104, at least two different mechanisms may be represented.
  • patient data 514 is discrete data (e.g., discrete data 812 in FIG. 8)
  • both first mechanism 1202 and second mechanism 1204 may represent a random response mechanism 832. there is.
  • the first mechanism 1202 and the second mechanism 1204 may be a Laplace mechanism 842, a Gaussian mechanism 1102, or Among the exponential mechanisms 110
  • Figure 13 is a diagram illustrating a method for verifying the utility of data according to an embodiment.
  • the utility of data may be evaluated by at least one of a scatter plot 1330 or correlation.
  • the utility of the data may indicate a degree of similarity between the secure medical data 1300 and the patient data 1310.
  • the scatter plot 1330 may represent a point where patient data 1310 on the x-axis and secure medical data 1300 on the y-axis meet.
  • the scatterplot 1330 may include points expressed as points on a coordinate plane by calculating scores appropriate for the characteristics of data items.
  • the score may be obtained based on at least one of dimension wise statistics (DWS), dimension wise average (DWA), or dimension wise prediction (DWP) depending on the characteristics of the data item or the information to be determined.
  • Secure medical data 1300 may represent data generated by a generator (e.g., generator 200 in FIG. 2) of a learned adversarial generative network-based model (e.g., adversarial generative network-based model 500 in FIG. 5). there is.
  • the utility of data may include distance data 1340.
  • Distance data 1340 may represent an indicator indicating the utility of the evaluated data.
  • the utility of the secure medical data 1300 may be obtained based on the scatter plot 1330 and the proportional utility index 1320.
  • the proportional utility indicator 1320 may indicate that the patient data 1310 and the secure medical data 1300 are the same.
  • the electronic device uses the disturbed data (e.g., the disturbed pseudo data 518 or the disturbed patient data 520 in FIG. 5) to learn an adversarial generation network-based model to ensure the security of the patient data 1310. It can be used for, and the utility of the data can be obtained through secure medical data 1300 generated by a generator similar to actual patient data 1310.
  • the utility of data according to one embodiment may be evaluated by the correlation between the secure medical data 1300 and the patient data 1310.
  • here may represent a correlation matrix of the patient data 1310, may represent a correlation matrix of the secure medical data 1300.
  • FIG. 14 is a diagram illustrating an apparatus for generating secure medical data according to an embodiment.
  • the electronic device 1400 may include a processor 1410, a memory 1420, an input/output interface 1440, and a communication module 1450.
  • the processor 1410 generates a generator (e.g., perturbed patient data 520 in FIG. 5) and perturbed pseudo data (e.g., perturbed pseudo data 518 in FIG. 5) based on the perturbed patient data (e.g., perturbed patient data 520 in FIG. 5).
  • a generator e.g., perturbed patient data 520 in FIG. 5
  • perturbed pseudo data e.g., perturbed pseudo data 518 in FIG. 5
  • a generator e.g., perturbed patient data 520 in FIG. 5
  • perturbed pseudo data e.g., perturbed pseudo data 518 in FIG. 5
  • a generator e.g., perturbed patient data 520 in FIG. 5
  • perturbed pseudo data e.g., perturbed pseudo data 518 in FIG. 5
  • a discriminator e.g. discriminator 530 in FIG. 5
  • Processor 1410 may execute software and control at least one other component (e.
  • Memory 1420 may include instructions 1430 that can be executed by a computer.
  • Memory 1420 may temporarily and/or permanently store various data and/or information required to train an adversarial generative network-based model.
  • the memory 1420 may store at least one of perturbed patient data, perturbed pseudodata, or an adversarial generative network-based model.
  • the input/output interface 1440 may include an input device and an output device.
  • the input device may receive input from the user through tactile, video, audio, or touch input.
  • an input device may include a keyboard, mouse, touch screen, microphone, or any other device capable of detecting input from a user and transmitting the detected input to electronic device 1400.
  • the output device may provide the output of the electronic device 1400 to the user through visual, auditory, or tactile channels.
  • the output device may include, for example, a display, a touch screen, a speaker, a vibration generating device, or any other device capable of providing output to a user.
  • the communication module 1450 can communicate with an external device through a wired or wireless network.
  • the embodiments described above may be implemented with hardware components, software components, and/or a combination of hardware components and software components.
  • the devices, methods, and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, and a field programmable gate (FPGA).
  • ALU arithmetic logic unit
  • FPGA field programmable gate
  • It may be implemented using a general-purpose computer or a special-purpose computer, such as an array, programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and software applications running on the operating system. Additionally, a processing device may access, store, manipulate, process, and generate data in response to the execution of software.
  • OS operating system
  • a processing device may access, store, manipulate, process, and generate data in response to the execution of software.
  • a single processing device may be described as being used; however, those skilled in the art will understand that a processing device includes multiple processing elements and/or multiple types of processing elements. It can be seen that it may include.
  • a processing device may include multiple processors or one processor and one controller. Additionally, other processing configurations, such as parallel processors, are possible.
  • Software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device.
  • Software and/or data may be used on any type of machine, component, physical device, virtual equipment, computer storage medium or device to be interpreted by or to provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave.
  • Software may be distributed over networked computer systems and stored or executed in a distributed manner.
  • Software and data may be stored on a computer-readable recording medium.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium.
  • a computer-readable medium may include program instructions, data files, data structures, etc., singly or in combination, and the program instructions recorded on the medium may be specially designed and constructed for the embodiment or may be known and available to those skilled in the art of computer software. It may be possible.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • Examples of program instructions include machine language code, such as that produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter, etc.
  • the hardware devices described above may be configured to operate as one or multiple software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

일 실시예에 따른 보안 의료 데이터 생성 전자 장치는,컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리; 및 상기 메모리에 억세스(access)하여 상기 명령어들을 실행하는 프로세서를 포함하고, 상기 명령어들은, 전자의무기록(EMR, Electronic Medical Records)으로부터 추출된 환자 데이터 로부터 교란된 환자 데이터를 생성하고, 잠재 공간(latent space)의 잠재 벡터(latent vector)로부터 생성자에 기초하여 생성된 슈도 데이터(pseudo data)로부터 교란된 슈도 데이터를 생성하고, 상기 교란된 환자 데이터 및 상기 교란된 슈도 데이터에 기초하여, 생성자(generator) 및 판별자(discriminator)를 포함하는 적대적 생성 네트워크(GAN; Generative Adversarial Network) 기반 모델을 학습시키고, 상기 생성자를 이용하여 보안 의료 데이터(secured medical data)를 생성할 수 있다.

Description

지역 차분 프라이버시 기반 적대적 생성 네트워크를 활용한 합성 환자 데이터 생성 방법 및 장치
이하, 지역 차분 프라이버시 기반 적대적 생성 네트워크를 활용한 합성 환자 데이터 생성 방법 및 장치에 관한 기술이 제공된다.
의료 분야는 인공 지능이 적용되기 좋은 분야 중 하나이다. 환자는 늘어나는데 반해 의료 자원은 한정적이어서 이를 효율화 하기위한 AI의 도입이 반드시 필요하기도 하고 의료기기의 발전으로 의료데이터의 양과 퀄리티가 증가하고 있기 때문이다. 수많은 연구에서 인공 지능이 특정 문제를 해결함에 있어서 전문의 수준의 판단이 가능함을 보였고 점점 영역을 확장하고 있다. 하지만 인공 지능이 효과적으로 의료영역에서 적용되기 위해서 해결해야 할 문제가 몇 가지 남아있다. 현재 가장 중요한 문제는 환자 데이터의 개인정보 보안에 관한 문제로 이는 의료 데이터를 다루는데 있어서 가장 복잡한 문제이다.
위에서 설명한 배경기술은 발명자가 본원의 개시 내용을 도출하는 과정에서 보유하거나 습득한 것으로서, 반드시 본 출원 전에 일반 공중에 공개된 공지기술이라고 할 수는 없다.
일 실시예에 따른 보안 의료 데이터 생성 전자 장치는,컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리; 및 상기 메모리에 억세스(access)하여 상기 명령어들을 실행하는 프로세서를 포함하고, 상기 명령어들은, 전자의무기록(EMR, Electronic Medical Records)으로부터 추출된 환자 데이터 로부터 교란된 환자 데이터를 생성하고, 잠재 공간(latent space)의 잠재 벡터(latent vector)로부터 생성자에 기초하여 생성된 슈도 데이터(pseudo data)로부터 교란된 슈도 데이터를 생성하고, 상기 교란된 환자 데이터 및 상기 교란된 슈도 데이터에 기초하여, 생성자(generator) 및 판별자(discriminator)를 포함하는 적대적 생성 네트워크(GAN; Generative Adversarial Network) 기반 모델을 학습시키고, 상기 생성자를 이용하여 보안 의료 데이터(secured medical data)를 생성할 수 있다.
상기 프로세서는, 상기 추출된 환자 데이터가 이산(discrete) 데이터인 경우 무작위 응답(randomized response) 메커니즘에 기초하여, 변경 확률로 상기 환자 데이터와 반대되는 이산 데이터를 포함하는 상기 교란된 환자 데이터를 생성하고, 상기 이산 데이터에 기초하여, 상기 변경 확률로 상기 슈도 데이터와 반대되는 이산 데이터를 포함하는 상기 교란된 슈도 데이터를 생성할 수 있다.
상기 프로세서는, 상기 추출된 환자 데이터가 연속(continuous) 데이터인 경우 라플라스 메커니즘(Laplace mechanism)에 기초하여, 노이즈 데이터를 생성하고,
상기 노이즈 데이터를 상기 환자 데이터에 부가하여 상기 교란된 환자 데이터를 생성하고, 상기 노이즈 데이터를 상기 슈도 데이터에 부가하여 상기 교란된 슈도 데이터를 생성할 수 있다.
상기 프로세서는, 사용자에 의해 선택된 보안성 조절 레벨에 기초하여, 상기 보안성 조절 레벨에 대응하는 분포에서 노이즈를 생성하고, 상기 추출된 환자 데이터에 상기 노이즈를 부가함으로써 상기 교란된 환자 데이터를 생성하고, 상기 슈도 데이터에 상기 노이즈를 부가함으로써 상기 교란된 슈도 데이터를 생성할 수 있다.
상기 프로세서는, 무작위 응답 메커니즘, 라플라스 메커니즘, 가우시안 메커니즘(Gaussian mechanism), 또는 익스포넨셜 메커니즘(exponential mechanism) 중 적어도 하나의 메커니즘에 기초하여 상기 노이즈를 생성할 수 있다.
상기 프로세서는, 상기 복수의 메커니즘 중 적어도 두 개에 기초하여, 제1 노이즈 및 제2 노이즈를 생성하고, 상기 추출된 환자 데이터에 상기 제1 노이즈를 부가함으로써 상기 교란된 환자 데이터를 생성하고, 상기 슈도 데이터에 상기 제2 노이즈를 부가함으로써 상기 교란된 슈도 데이터를 생성할 수 있다.
상기 프로세서는, 상기 교란된 슈도 데이터 및 상기 교란된 환자 데이터에 상기 판별자를 개별적으로 적용한 결과들에 기초하여 판별자 점수(discriminator score)를 획득하고, 상기 판별자 점수에 기초하여, 상기 생성자가 상기 환자 데이터와 유사한 상기 슈도 데이터를 생성하도록 상기 적대적 생성 네트워크 기반 모델을 학습시키고, 상기 판별자 점수에 기초하여, 상기 판별자가 상기 교란된 환자 데이터에 대해서는 참(true)을 나타내는 결과를 생성하도록 상기 적대적 생성 네트워크 기반 모델을 학습시키고, 상기 판별자 점수에 기초하여, 상기 판별자가 상기 교란된 슈도 데이터에 대해서는 거짓(false)을 나타내는 결과를 생성하도록 상기 적대적 생성 네트워크 기반 모델을 학습시킬 수 있다.
상기 프로세서는, 와서스타인 거리(Wasserstein distance)에 기초하는 상기 판별자의 목적함수를 통해 상기 판별자 점수를 획득할 수 있다.
도 1은 멤버십 추론 공격(membership inference attack)을 도시한 도면이다.
도 2는 생성자에 대한 풀 블랙 박스 공격(full black-box attack)을 도시한 도면이다.
도 3은 생성자에 대한 부분 블랙 박스 공격(partial black-box attack)을 도시한 도면이다.
도 4는 판별자에 대한 판별자 화이트 박스 공격(discriminator-white-box attack)을 도시한 도면이다.
도 5는 일 실시예에 따른 보안 의료 데이터를 생성하기 위한 적대적 생성 네트워크(GAN; Generative Adversarial Network) 기반 모델을 도시한 도면이다.
도 6은 일 실시예에 따른 적대적 생성 네트워크 기반 모델을 학습시키는 방법을 도시한 도면이다.
도 7은 일 실시예에 따른 적대적 생성 네트워크를 학습시키는 방법을 도시한 흐름도이다.
도 8은 일 실시예에 따른 환자 데이터 항목 별 노이즈를 적용시키는 방법을 도시한 도면이다.
도 9는 일 실시예에 따른 무작위 응답(randomized response) 메커니즘을 도시한 도면이다.
도 10은 일 실시예에 따른 라플라스 메커니즘(Laplace mechanism)을 도시한 도면이다.
도 11은 일 실시예에 따른 보안성 조절 레벨에 기초하여 적대적 생성 네트워크를 학습시키기 위한 교란된 데이터들을 생성하는 방법을 도시한 도면이다.
도 12는 일 실시예에 따른 제1 메커니즘 및 제2 메커니즘을 적용하여 적대적 생성 네트워크를 학습시키기 위한 교란된 데이터들을 생성하는 방법을 도시한 도면이다.
도 13은 일 실시예에 따른 데이터의 효용성(utility)을 검증하는 방법을 도시한 도면이다.
도 14는 일 실시예에 따른 보안 의료 데이터 생성 장치를 도시한 도면이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 멤버십 추론 공격(membership inference attack)을 도시한 도면이다.
공격자(130)는 학습된 기계 학습 모델(machine learning model)(100)에 기초하여, 학습에 사용된 훈련 데이터(110)를 획득할 수 있다. 도 1에서는 공격자에 의한 예시적인 공격 시나리오가 설명된다. 예를 들어, 공격자(130)는 기계 학습 모델(100)의 학습 과정에 참가하지 않고 컴퓨터(computer) 내의 시스템(system)이나 프로그래밍(programming)에 관해 전문적인 지식을 가진 사람을 나타낼 수 있다. 후술하겠으나, 일 실시예에 따른 기계 학습 모델은 전술한 공격자에 의한 공격을 방어할 수 있다.
기계 학습 모델(100)은 기계 학습을 통해 생성될 수 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. 기계 학습 모델(100)은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks) 또는 상기 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. 참고로 지도형 학습의 경우, 상술한 기계 학습 모델(100)은 훈련 데이터(110) 및 해당 학습 입력에 매핑(mapping)된 학습 출력(120)의 쌍을 포함하는 학습 데이터에 기초하여 학습될 수 있다. 예를 들어, 기계 학습 모델(100)은 훈련 데이터(110)으로부터 학습 출력(120)을 출력하도록 학습될 수 있다. 학습 중의 기계 학습 모델(100)은 훈련 데이터(110)에 응답하여 임시 출력을 생성할 수 있고, 임시 출력 및 학습 출력(120) 간의 손실이 최소화되도록 학습될 수 있다. 학습 과정 동안 기계 학습 모델(100)의 파라미터(예를 들어, 뉴럴 네트워크에서 노드들/레이어들 간의 연결 가중치)가 손실에 따라 업데이트될 수 있다. 이러한 학습은, 예를 들어, 기계학습 모델(100)이 수행되는 전자 장치 자체에서 수행될 수 있고, 별도의 서버를 통해 수행될 수도 있다. 학습이 완료된 기계 학습 모델(100)은 전자 장치의 메모리에 저장될 수 있다.
공격자(130)는 임의 데이터를 기계 학습 모델(100)에 적용하여 획득한 임의 출력에 기초하여, 훈련 데이터(110)를 획득할 수 있다. 전술한 공격자(130)가 훈련 데이터(110)를 획득하는 공격 시나리오는 하기 도 2 내지 도 4에서 후술한다.
도 2는 생성자에 대한 풀 블랙 박스 공격(full black-box attack)을 도시한 도면이다.
공격자(130)는 생성자(200)에서 무작위 데이터들을 생성할 수 있다. 예를 들어, 공격자(130)는 생성된 무작위 데이터들에 기초하여, 타겟 데이터(240)와 유사한 복원 데이터(230)를 획득할 수 있다. 복원 데이터(230)는 공격자(130)에 의해 생성된 무작위 데이터들 중 타겟 데이터(240)와 가장 유사한 데이터를 나타낼 수 있다. 타겟 데이터(240)는 생성자(200) 학습에 사용된 학습 데이터를 나타낼 수 있다. 도 2에서 생성된 영역(210)은 공격자(130)가 생성자(200)를 통해 생성된 무작위 데이터들의 영역을 나타낼 수 있다. 무작위 데이터들은 하기 도 5에서 후술하는 슈도 데이터를 나타낼 수 있다. 실제 영역(220)은 생성자(200)의 학습에 사용된 학습 데이터의 영역을 나타낼 수 있다. 구체적으로, 공격자(130)는 복원 데이터(230) 및 타겟 데이터(240)의 거리 데이터가 타겟 데이터(240)의 임계 거리(250) 안에 속하는 경우, 복원 데이터(230)가 생성자(200)의 학습에 사용된 학습 데이터로 평가할 수 있다.
거리 데이터는 다음 수식에 의해 계산될 수 있다:
[수식 1]
Figure PCTKR2023009488-appb-img-000001
여기서,
Figure PCTKR2023009488-appb-img-000002
는 타겟 데이터(240)를 나타낼 수 있고,
Figure PCTKR2023009488-appb-img-000003
은 생성된 영역(210)에 속하는 데이터를 나타낼 수 있다. 또한,
Figure PCTKR2023009488-appb-img-000004
은 거리 함수(distance function)을 나타낼 수 있다. 예를 들어, 거리 함수는 유클리디안 거리(Euclidean distance)를 사용할 수 있다.
도 3은 생성자에 대한 부분 블랙 박스 공격(partial black-box attack)을 도시한 도면이다.
공격자(130)는 잠재 벡터(300)에 기초하여 생성자(200)에서 무작위 데이터들을 생성할 수 있다. 잠재 벡터(300)는 생성자(200)에서 무작위 데이터들을 생성하기 위한 생성자(200)의 입력 데이터를 나타낼 수 있다. 예를 들어, 공격자(130)는 생성된 무작위 데이터에 기초하여, 타겟 데이터(240)와 유사한 복원 데이터(230)를 획득할 수 있다. 참고로, 공격자(130)는, 풀 블랙 박스 공격과 달리 부분 블랙 박스 공격에서, 잠재 벡터(300)를 변형함으로써 복원 데이터(230)를 획득할 수 있다. 또한, 공격자(130)는 잠재 벡터(300) 및 복원 데이터(230)에 기초하여 최적의 잠재 벡터를 획득할 수 있다.
최적의 잠재 벡터는 다음 수식에 의해 계산될 수 있다:
[수식 2]
Figure PCTKR2023009488-appb-img-000005
여기서,
Figure PCTKR2023009488-appb-img-000006
는 잠재 벡터(300)에 기초하여 생성자(200)에서 생성된 무작위 데이터를 나타낼 수 있다.
복원 데이터(230)는 공격자(130)에 의해 생성된 무작위 데이터들 중 타겟 데이터(240)와 가장 유사한 데이터를 나타낼 수 있다. 공격자(130)는 복원 데이터(230) 및 타겟 데이터(240)의 거리 데이터가 타겟 데이터(240)의 임계 거리(250) 안에 속하는 경우, 복원 데이터(230)가 생성자(200)의 학습에 사용된 학습 데이터로 평가할 수 있다.
도 4는 판별자에 대한 판별자 화이트 박스 공격(discriminator-white-box attack)을 도시한 도면이다.
공격자(130)는 판별자(400)의 판별자 점수(420)를 통해 학습에 사용된 데이터를 획득할 수 있다. 예를 들어, 공격자(130)는 복수의 데이터들(410)의 판별자 점수(420) 중 임계 값을 초과하는 판별자 점수를 포함하는 유추 데이터들(430)을 획득할 수 있다. 복수의 데이터들(410)은 판별자(400)의 학습에 사용된 데이터 또는 판별자(400)의 학습에 사용되지 않았던 데이터 중 적어도 하나를 포함할 수 있다. 판별자(400)는 판별자(400)의 학습에 사용된 데이터에 대해 보다 높은 판별자 점수(420)를 출력하도록 학습될 수 있다. 이와 반대로, 판별자(400)는 판별자(400)의 학습에 사용되지 않았던 데이터에 대해 보다 낮은 판별자 점수(420)를 출력하도록 학습될 수 있다. 여기서, 공격자(130)는 상술한 판별자(400)의 특성을 통해 유추 데이터들(430)을 획득할 수 있다.
도 5는 일 실시예에 따른 보안 의료 데이터를 생성하기 위한 적대적 생성 네트워크(GAN; Generative Adversarial Network) 기반 모델을 도시한 도면이다.
일 실시예에 따른 전자 장치는 교란된 데이터들을 적대적 생성 네트워크 기반 모델(500)에 적용할 수 있다. 예를 들어, 적대적 생성 네트워크 기반 모델(500)은 생성자(generator)(200) 및 판별자(discriminator)(530)를 포함할 수 있다. 생성자(200)는 도 6에서 후술하는 잠재 공간(latent space)에 포함된 하나의 랜덤 벡터를 입력 받아 슈도 데이터(512)를 출력하는 기계 학습 모델을 나타낼 수 있다. 생성자(200)는 판별자(530)로 하여금 교란된 슈도 데이터(518) 및 교란된 환자 데이터(520)를 구별(discriminate)하지 못하게 슈도 데이터(512)를 생성할 수 있다. 환자 데이터(514)는 복수의 환자에 대한 개인 정보(private information)를 포함하는 데이터를 나타낼 수 있다. 예를 들어, 환자 데이터는 환자의 성별, 나이, 키, 수축기 혈압(Systolic blood pressure), 이완기 혈압(Diastolic blood pressure), 체질량 지수(BMI, body mass index), 또는 시술 경험 중 적어도 하나를 포함할 수 있다. 슈도 데이터(512)는 생성자(200)에 의해 생성된 가짜 데이터를 나타낼 수 있다. 슈도 데이터(512)는 환자 데이터(514)의 종류(type)에 따라 이산 데이터 또는 연속 데이터 중 적어도 하나를 포함할 수 있다. 예를 들어, 이산 데이터는 환자 데이터(514) 중 이산 형태의 값을 가지는 데이터를 나타낼 수 있다. 연속 데이터는 환자 데이터(514) 중 연속적인 실수 값을 가지는 데이터를 나타낼 수 있다. 환자 데이터(514)가 이산 데이터를 포함하는 경우, 슈도 데이터(512)도 이산 데이터를 포함할 수 있고, 환자 데이터(514)가 연속 데이터를 포함하는 경우 슈도 데이터(512)도 연속 데이터를 포함할 수 있다.
교란된 데이터들은 원본 데이터에 노이즈가 적용됨으로써 원본과 달라진 데이터를 나타낼 수 있다. 본 명세서에서는 교란된 데이터의 예시로서, 교란된 슈도 데이터(518) 및 교란된 환자 데이터(520)를 설명한다. 교란된 슈도 데이터(518)는 슈도 데이터(512)에 노이즈(516)를 적용하여 생성될 수 있다. 교란된 환자 데이터(520)는 환자 데이터(514)에 노이즈(517)를 적용하여 생성될 수 있다. 생성자(200)는 판별자(530)가 교란된 슈도 데이터(518) 및 교란된 환자 데이터(520)를 구분하지 못하게 학습될 수 있다. 적대적 생성 네트워크 기반 모델(500)을 학습시키는 방법은 하기 도 6에서 후술한다.
노이즈(516, 517)는 차분 프라이버시(differential privacy)에 기초하여 수학적으로 디자인된 임의의 실수 값을 나타내는 노이즈 데이터 또는 변경 확률이 적용된 데이터 중 적어도 하나를 나타낼 수 있다. 차분 프라이버시는 프라이버시(privacy)를 정량적으로 모델화하여 프라이버시 보호 정도를 측정하기 위한 방법론을 나타낼 수 있다. 차분 프라이버시를 통해 노이즈(516,517)를 획득하는 방법은 하기 도 8 내지 도 10에서 후술한다.
도 6은 일 실시예에 따른 적대적 생성 네트워크 기반 모델을 학습시키는 방법을 도시한 도면이다.
일 실시예에 따른 전자 장치는 보안성 조절 레벨(600)에 기초하여 적대적 생성 네트워크 기반 모델(예: 도 5의 적대적 생성 네트워크 기반 모델(500))을 학습시킬 수 있다. 예를 들어, 보안성 조절 레벨(600)은 노이즈(예: 도 5의 노이즈(516, 517))의 강도(intensity)를 나타내는 파라미터(parameter)로서, 사용자에 의해 입력될 수 있다.
예를 들어, 전자 장치는, 사용자로부터 증가된 보안성 조절 레벨(600)을 입력 받은 경우, 증가된 노이즈 강도로 교란된 데이터들을 획득할 수 있다. 전자 장치는 사용자에 의해 입력된 증가된 보안성 조절 레벨(600)에 대응하는 노이즈 강도의 노이즈를 데이터에 적용시킬 수 있다. 증가된 강도의 노이즈를 통해, 데이터(예: 슈도 데이터(512) 또는 환자 데이터(514))의 보안성이 개선될 수 있다. 다른 예를 들어, 전자 장치는 데이터의 효용성을 높이기 위해서, 감소된 강도의 노이즈를 나타내는 보안성 조절 레벨(600)에 기초하여, 교란된 데이터들을 생성할 수 있다.
구체적으로, 전자 장치는 다음의 수식을 만족시키는 보안성 조절 레벨(600)을 슈도 데이터(512) 및 환자 데이터(514)에 적용시킬 수 있다.
[수식 3]
Figure PCTKR2023009488-appb-img-000007
여기서
Figure PCTKR2023009488-appb-img-000008
은 보안성 조절 레벨(600)을 나타낼 수 있고,
Figure PCTKR2023009488-appb-img-000009
Figure PCTKR2023009488-appb-img-000010
은 하나의 데이터 포인트에서만 차이가 있는 데이터들의 집합을 나타낼 수 있다. 예를 들어, 데이터들의 집합이 환자 데이터(514)들의 집합인 경우,
Figure PCTKR2023009488-appb-img-000011
Figure PCTKR2023009488-appb-img-000012
은 복수의 환자 데이터 중 하나의 환자 데이터에서만 차이가 있는 데이터들의 집합을 나타낼 수 있다. 또한,
Figure PCTKR2023009488-appb-img-000013
는 차분 프라이버시 메커니즘(mechanism)을 나타낼 수 있고,
Figure PCTKR2023009488-appb-img-000014
는 상술한 데이터 집합에서 차분 프라이버시 메커니즘을 적용한 결과들 중 부분 집합(subset)을 나타낼 수 있다. 결과적으로, 전자 장치는 수식 1을 만족하는 보안성 조절 레벨(600)을 슈도 데이터(512) 및 환자 데이터(514)에 적용하여 교란된 슈도 데이터(518) 및 교란된 환자 데이터(520)를 생성할 수 있다. 교란된 데이터들에 기초하여 적대적 생성 네트워크 모델을 학습시키는 방법은 하기 후술한다.
일 실시예에 따른 전자 장치는 판별자(530)의 목적함수(610)를 통해 생성자(200) 및 판별자(530)를 학습시킬 수 있다.
판별자의 목적함수(610)는 다음 수식에 의해 표현될 수 있다:
[수식 4]
Figure PCTKR2023009488-appb-img-000015
여기서,
Figure PCTKR2023009488-appb-img-000016
는 교란된 환자 데이터(520)를 판별자(530)에 적용시킴으로써 획득한 판별자 점수(discriminator score)를 나타낼 수 있고,
Figure PCTKR2023009488-appb-img-000017
는 교란된 슈도 데이터(518)를 판별자(530)에 적용시킴으로써 획득한 판별자 점수를 나타낼 수 있다. 또한,
Figure PCTKR2023009488-appb-img-000018
는 교란된 환자 데이터(520) 분포를 따르는 샘플(sample) 환자 데이터에 기초한
Figure PCTKR2023009488-appb-img-000019
의 기대값을 나타낼 수 있다.
Figure PCTKR2023009488-appb-img-000020
는 교란된 슈도 데이터(518) 분포를 따르는 샘플 슈도 데이터에 기초한
Figure PCTKR2023009488-appb-img-000021
의 기대값을 나타낼 수 있다. 판별자 점수는 판별자(530)에 적용된 데이터가 진짜(real) 데이터(예: 교란된 환자 데이터(520))인지 또는 가짜(fake) 데이터(예: 교란된 슈도 데이터(518))인지 여부를 포함하는 점수를 나타낼 수 있다. 예를 들어, 판별자 점수는 판별자(530)에 입력된 데이터가 진짜인 데이터인 경우, 1에 가까운 스코어를 포함할 수 있다. 구체적으로, 전자 장치는 학습이 진행될수록 구별 능력이 좋아지는 판별자(530) 및 판별자(530)의 구별 능력을 속일 수 있는 정교한 생성자(200)를 획득할 수 있다.
일 실시예에 따른 전자 장치는 판별자 점수를 획득하기 위해, 와서스타인 거리(Wasserstein distance)에 기초하는 판별자의 목적함수를 통해 상기 판별자 점수를 획득할 수 있다. 와서스타인 거리는 두 개의 확률분포의 연관성을 측정하여 거리의 기대값이 가장 작을 때의 거리를 나타낼 수 있다.
와서스타인 거리는 다음의 수식에 의해 계산될 수 있다:
[수식 5]
Figure PCTKR2023009488-appb-img-000022
여기서,
Figure PCTKR2023009488-appb-img-000023
는 입력 데이터(예: 환자 데이터 또는 슈도 데이터 중 적어도 하나)를 나타낼 수 있고,
Figure PCTKR2023009488-appb-img-000024
는 판별자의 출력(예: 판별자 점수)를 나타낼 수 있다. 또한,
Figure PCTKR2023009488-appb-img-000025
은 환자 데이터의 분포를 나타낼 수 있고,
Figure PCTKR2023009488-appb-img-000026
는 슈도 데이터의 분포를 나타낼 수 있고,
Figure PCTKR2023009488-appb-img-000027
Figure PCTKR2023009488-appb-img-000028
의 기울기의 절대값이 1을 넘지 않는 상한(supremum) 값을 나타낼 수 있다.
도 7은 일 실시예에 따른 적대적 생성 네트워크를 학습시키는 방법을 도시한 흐름도이다.
단계(710)에서, 전자 장치는 전자의무기록(EMR, Electronic Medical Records)에서 환자 데이터를 추출할 수 있다. 예를 들어, 전자기록의무는 의료 시스템을 이용하는 환자에 관한 데이터를 효율적이고 통일적으로 관리될 수 있도록 기록된 전산정보를 나타낼 수 있다. 구체적으로, 전자기록의무는 도 8 내지 도 10에서 후술하는 이산 데이터 또는 연속 데이터 중 적어도 하나를 포함할 수 있다.
단계(720)에서, 전자 장치는 잠재 공간(latent space)의 잠재 벡터(latent vector)로부터 생성자(예: 도 2의 생성자(200))에 기초하여, 슈도 데이터(예: 도 5의 슈도 데이터(512))를 생성할 수 있다. 슈도 데이터는, 환자 데이터와 달리, 생성자에 의해 단순히 출력된 데이터를 포함할 수 있다. 구체적으로, 슈도 데이터는 환자의 개인 정보를 포함하지 않기 때문에 기관에 완전히 종속되지 않을 수 있고 복수의 법적 규정(legal regulation)에서 상대적으로 자유롭게 활용할 수 있는 데이터를 포함할 수 있다.
단계(730)에서, 전자 장치는 환자 데이터 및 슈도 데이터에 지역 차분 프라이버시(local differential privacy)를 적용할 수 있다. 예를 들어, 전자 장치는 환자 데이터가 이진(binary) 데이터인 경우에 기초하여, 지역 차분 프라이버시를 통해 생성된 변경 확률을 환자 데이터 및 슈도 데이터에 적용할 수 있다. 전자 장치는, 환자 데이터가 연속(continuous) 데이터인 경우에 기초하여, 지역 차분 프라이버시를 통해 생성된 노이즈 데이터를 환자 데이터 및 슈도 데이터에 추가할 수 있다. 전자 장치가 환자 데이터 및 슈도 데이터에 지역 차분 프라이버시를 적용하는 방법은 하기 도 8 내지 도 10에서 후술한다.
단계(740)에서, 전자 장치는 교란된 환자 데이터(예: 도 5의 교란된 환자 데이터(520) 및 교란된 슈도 데이터(예: 도 5의 교란된 슈도 데이터(518))에 기초하여 적대적 생성 네트워크 기반 모델(예: 도 5의 적대적 생성 네트워크 기반 모델(500))을 학습시킬 수 있다. 구체적으로, 전자 장치는 교란된 환자 데이터 및 교란된 슈도 데이터에 기초하여 적대적 생성 네트워크 기반 모델을 학습시킴으로써, 환자 데이터에 포함된 개인 정보가 외부 공격자로부터 누출되는 것을 방지할 수 있다.
도 8은 일 실시예에 따른 환자 데이터 항목 별 노이즈를 적용시키는 방법을 도시한 도면이다.
일 실시예에 따른 전자 장치는 보안성 조절 레벨(600)에 기초하여 환자 데이터(514)에 노이즈를 적용시킬 수 있다. 예를 들어, 환자 데이터(514)는 전자 의무 기록(800)으로부터 추출될 수 있다. 환자 데이터(514)는 이산(discrete) 데이터(812) 또는 연속(continuous) 데이터(814) 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 전자 장치는 이산 데이터(812)에 제1 노이즈(830)를 적용하여 교란된 이산 데이터(850)를 획득할 수 있다. 예를 들어, 이산 데이터(812)는 이산 값으로 표현되는 정보를 포함할 수 있다. 구체적으로, 이산 데이터(812)는 이진(binary) 값으로 표현되는 데이터들을 포함할 수 있다. 본 명세서에서는 설명의 편의를 위해 이산 데이터(812)의 예시로 환자의 성별에 대응하는 성별 이진 값(813)을 주로 설명하겠으나, 이로 한정하는 것은 아니다. 성별 이진 값(813)은 남성 환자의 경우 1 및 여성 환자의 경우 0인 이진 값으로 표현되는 데이터를 포함할 수 있다. 제1 노이즈(830)는 무작위 응답(randomized response) 메커니즘(832) 및 변경 확률(834)을 포함할 수 있다. 예를 들어, 무작위 응답 메커니즘(832)은 후술하는 지역 차분 프라이버시의 메커니즘 중 이산 데이터에 관한 대표적인 메커니즘으로 성별 이진 값(813)에 기초하여, 변경 확률(534)에 대응하는 이진 값들 중 다른 이진 값으로 전환된 이진 값을 생성하는 메커니즘을 나타낼 수 있다. 여기서, 전자 장치는 보안성 조절 레벨(600)을 무작위 응답 메커니즘(832)에 적용하여 변경 확률(834)을 획득할 수 있다. 전자 장치는, 획득된 변경 확률(834)을 성별 이진 값(813)에 적용하여 교란된 이산 데이터(850)를 획득할 수 있다. 교란된 이산 데이터(850)는 변경 확률에 의해 원본 데이터(예: 성별 이진 값(813))중 다른 이진 값으로 전환된 이진 값(852)을 포함할 수 있다. 무작위 응답 메커니즘(832)에 관한 설명은 하기 도 9에서 후술한다.
일 실시예에 따른 전자 장치는 연속 데이터(814)에 제2 노이즈(840)를 적용하여 교란된 연속 데이터(860)를 획득할 수 있다. 예를 들어, 연속 데이터(814)는 연속 값으로 표현되는 정보를 포함할 수 있다. 본 명세서에서는 설명의 편의를 위해 연속 데이터(814)의 예시로 환자의 신장(height) 정보(815)로 주로 설명하겠으나, 이로 한정하는 것은 아니다. 제2 노이즈(840)는 라플라스 메커니즘(Laplace mechanism)(842) 및 노이즈 데이터(844)를 포함할 수 있다. 예를 들어, 라플라스 메커니즘(842)은 후술하는 지역 차분 프라이버시의 메커니즘 중 연속 데이터에 관한 대표적인 메커니즘으로, 연속 데이터에 노이즈 데이터(844)를 부가하는 메커니즘을 나타낼 수 있다. 여기서, 전자 장치는 보안성 조절 레벨(600)을 라플라스 메커니즘(842)에 적용하여 노이즈 데이터(844)를 획득할 수 있다. 전자 장치는, 획득된 노이즈 데이터(844)를 환자의 신장 정보(815)에 부가하여 교란된 연속 데이터(860)를 획득할 수 있다. 교란된 연속 데이터(860)는 노이즈 데이터(844)가 부가되어 교란된 환자의 신장 정보를 포함할 수 있다. 라플라스 메커니즘(842)에 관한 설명은 하기 도 10에서 후술한다.
도 9는 일 실시예에 따른 무작위 응답(randomized response) 메커니즘을 도시한 도면이다.
일 실시예에 따른 전자 장치는 이산 데이터(812)에 무작위 응답 메커니즘(832)을 적용하여 교란된 이산 데이터(850)를 획득할 수 있다. 이산 데이터(812)는 성별 이진 값(813)을 포함할 수 있다. 예를 들어, 전자 장치는 사용자(user)의 입력 또는 미리 결정된(predetermined) 값 중 적어도 하나에 기초하는 보안성 조절 레벨(600)을 무작위 응답 메커니즘(832)에 적용하여 변경 확률(900) 및 유지(maintenance) 확률(902)을 획득할 수 있다. 전자 장치는 변경 확률(900) 및 유지 확률(902)에 기초하여 교란된 이산 데이터(850)를 획득할 수 있다.
변경 확률(900)은 다음의 수식에 의해 계산될 수 있다:
[수식 6]
Figure PCTKR2023009488-appb-img-000029
여기서
Figure PCTKR2023009488-appb-img-000030
은 보안성 조절 레벨(600)을 나타낼 수 있고,
Figure PCTKR2023009488-appb-img-000031
는 자연 로그의 밑(base of the natural logarithm)을 나타낼 수 있고,
Figure PCTKR2023009488-appb-img-000032
는 변경 확률(900)을 나타낼 수 있다.
교란된 이산 데이터(850)는 이산 데이터(812)의 예시인 성별 이진 값(813)에 무작위 응답 메커니즘(832)을 적용한 결과를 포함할 수 있다. 예를 들어, 교란된 이산 데이터(850)는 변경 이산 데이터(904) 및 유지 이산 데이터(906)를 포함할 수 있다. 변경 이산 데이터(904)는 성별 이진 값(813)에서 변경 확률(900)에 의해 변경된 이산 데이터를 나타낼 수 있다. 유지 이산 데이터(906)는 성별 이진 값(813)에서 유지 확률(902)에 의해 유지되는 이산 데이터를 나타낼 수 있다. 결과적으로, 전자 장치는 교란된 이산 데이터(850)를 교란된 슈도 데이터(예: 도 5의 교란된 슈도 데이터(518)) 또는 교란된 환자 데이터(예: 도 5의 교란된 환자 데이터(520)) 중 적어도 하나로서 적대적 생성 네트워크 기반 모델(예: 도 5의 모델(500))을 학습시킬 수 있다.
도 10은 일 실시예에 따른 라플라스 메커니즘(Laplace mechanism)을 도시한 도면이다.
일 실시예에 따른 전자 장치는 연속 데이터(814)에 라플라스 메커니즘(842)을 적용하여 교란된 연속 데이터(860)를 획득할 수 있다. 연속 데이터(814)는 환자의 신장 정보(815)를 포함할 수 있다. 예를 들어, 전자 장치는 사용자(user)의 입력 또는 미리 결정된(predetermined) 값 중 적어도 하나에 기초하는 보안성 조절 레벨(600)을 라플라스 메커니즘(842)에 적용하여 라플라스 분포를 획득할 수 있다. 본 명세서에서는 설명의 편의를 위해서 복수의 라플라스 분포들을 3개의 라플라스 분포로서 예시를 설명하겠으나 이로 한정하는 것은 아니다. 예를 들어, 전자 장치는 복수의 보안성 조절 레벨(600)에 기초하여 제1 분포(1000) 내지 제3 분포(1020)를 획득할 수 있다. 제1 분포(1000)는 제2 분포(1010) 및 제3 분포(1020)보다 보안성 조절 레벨이 작은 값을 포함할 수 있다.
일 실시예에 따른 전자 장치는 연속 데이터(814)에 노이즈 데이터(844)를 부가(add)하여 교란된 연속 데이터(860)를 획득할 수 있다. 교란된 연속 데이터(860)는 연속 데이터(814)의 예시인 환자의 신장 정보(815)에 라플라스 메커니즘(842)을 적용한 결과를 포함할 수 있다. 예를 들어, 교란된 연속 데이터(860)는 환자의 신장 정보(815)에 노이즈 데이터(844)가 더해진 데이터를 포함할 수 있다. 결과적으로, 전자 장치는 교란된 연속 데이터(860)를 교란된 슈도 데이터(예: 도 5의 교란된 슈도 데이터(518)) 또는 교란된 환자 데이터(예: 도 5의 교란된 환자 데이터(520)) 중 적어도 하나로서 적대적 생성 네트워크 기반 모델(예: 도 5의 모델(500))을 학습시킬 수 있다.
도 11은 일 실시예에 따른 보안성 조절 레벨에 기초하여 적대적 생성 네트워크를 학습시키기 위한 교란된 데이터들을 생성하는 방법을 도시한 도면이다.
일 실시예에 따른 전자 장치는 보안성 조절 레벨(600)에 기초하여 적대적 생성 네트워크 기반 모델을 학습시킬 수 있다. 예를 들어, 전자 장치는 복수의 메커니즘들 중 하나에 보안성 조절 레벨(600)을 적용하여 적대적 생성 네트워크 기반 모델을 학습시킬 수 있다. 복수의 메커니즘들은 무작위 응답 메커니즘(832), 라플라스 메커니즘(842), 가우시안(Gaussian) 메커니즘(1102), 또는 익스포넨셜(exponential) 메커니즘(1104) 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 전자 장치는 슈도 데이터(512)에 노이즈 파라미터(1100)를 적용하여 교란된 슈도 데이터(518)를 생성할 수 있다. 전자 장치는 환자 데이터(514)에 노이즈 파라미터(1100)를 적용하여 교란된 환자 데이터(520)를 생성할 수 있다. 노이즈 파라미터(1100)는 환자 데이터(514)의 종류에 따라 선택된 메커니즘에 기초하여 데이터에 부가되는 노이즈 강도에 관련된 파라미터를 나타낼 수 있다. 구체적으로, 노이즈 파라미터(1100)는 변경 확률(834) 또는 노이즈 데이터(844) 중 적어도 하나를 포함할 수 있다. 예를 들어, 환자 데이터(514)가 이산 데이터(예: 도 8의 이산 데이터(812))인 것에 기초하여, 전자 장치는 무작위 응답 메커니즘(832)으로 변경 확률(834)을 생성할 수 있다.
일 실시예에 따른 전자 장치는 라플라스 메커니즘(842)을 통해 복수의 노이즈 데이터(844)들을 생성할 수 있다. 예를 들어, 전자 장치는 보안성 조절 레벨(600)에 기초하여 라플라스 메커니즘(842)에 의해 제1 분포(예: 도 10의 제1 분포(1000))를 획득할 수 있다. 전자 장치는 제1 분포에서 복수의 노이즈 데이터(844)들을 생성할 수 있다. 전자 장치는 복수의 노이즈 데이터(844)에서 2개의 노이즈 데이터를 환자 데이터(514) 및 슈도 데이터(512) 각각에 적용할 수 있다.
도 12는 일 실시예에 따른 제1 메커니즘 및 제2 메커니즘을 적용하여 적대적 생성 네트워크를 학습시키기 위한 교란된 데이터들을 생성하는 방법을 도시한 도면이다.
일 실시예에 따른 전자 장치는 제1 메커니즘(1202) 및 제2 메커니즘(1204)을 적용하여 교란된 데이터를 생성할 수 있다. 예를 들어, 전자 장치는 복수의 메커니즘(1200) 중에서 적어도 각각 다른 2개의 메커니즘을 선택할 수 있다. 구체적으로, 환자 데이터(514)가 이산 데이터(예: 도 8의 이산 데이터(812))인 경우, 제1 메커니즘(1202) 및 제2 메커니즘(1204)은 모두 무작위 응답 메커니즘(832)을 나타낼 수 있다. 환자 데이터(514)가 연속 데이터(예: 도 8의 연속 데이터(814))인 경우, 제1 메커니즘(1202) 및 제2 메커니즘(1204)은 라플라스 메커니즘(842), 가우시안 메커니즘(1102), 또는 익스포넨셜 메커니즘(1104) 중 적어도 각각 다른 2개의 메커니즘을 나타낼 수 있다.
도 13은 일 실시예에 따른 데이터의 효용성(utility)을 검증하는 방법을 도시한 도면이다.
일 실시예에 따른 데이터의 효용성은 산점도(scatter plot)(1330) 또는 상관 관계(correlation) 중 적어도 하나에 의해 평가될 수 있다. 데이터의 효용성은 보안 의료 데이터(1300) 및 환자 데이터(1310)간의 유사한 정도를 나타낼 수 있다. 산점도(1330)는 x축의 환자 데이터(1310)와 y축의 보안 의료 데이터(1300)가 만나는 지점을 나타낼 수 있다. 예를 들어, 산점도(1330)는 데이터 항목의 특성에 맞는 스코어(score)를 계산해서 좌표 평면상에 점으로 나타내는 지점을 포함할 수 있다. 스코어는 데이터 항목의 특성 또는 파악하려는 정보에 따라 DWS(dimension wise statistics), DWA(dimension wise average), 또는 DWP(dimension wise prediction) 중 적어도 하나에 기초하여 획득될 수 있다. 보안 의료 데이터(1300)는 학습된 적대적 생성 네트워크 기반 모델(예: 도 5의 적대적 생성 네트워크 기반 모델(500))의 생성자(예: 도 2의 생성자(200))에 의해 생성된 데이터를 나타낼 수 있다.
일 실시예에 따른 데이터의 효용성은 거리 데이터(1340)를 포함할 수 있다. 거리 데이터(1340)는 평가된 데이터들의 효용성을 나타내는 지표를 나타낼 수 있다. 도 13에 도시된 바와 같이, 보안 의료 데이터(1300)의 효용성은 산점도(1330) 및 정비례 효용성 지표(1320)에 기초하여 획득될 수 있다. 정비례 효용성 지표(1320)는 환자 데이터(1310) 및 보안 의료 데이터(1300)가 동일함을 나타낼 수 있다. 결과적으로, 전자 장치는 환자 데이터(1310)의 보안성을 위해 교란된 데이터들(예: 도 5의 교란된 슈도 데이터(518) 또는 교란된 환자 데이터(520))을 적대적 생성 네트워크 기반 모델의 학습을 위해 사용할 수 있고, 실제 환자 데이터(1310)에 유사하게 학습된 생성자에 의해 생성된 보안 의료 데이터(1300)를 통해 데이터의 효용성을 획득할 수 있다.
일 실시예에 따른 데이터의 효용성은 보안 의료 데이터(1300) 및 환자 데이터(1310)의 상관 관계에 의해 평가될 수 있다.
상관 관계는 다음의 수식에 의해 계산될 수 있다:
[수식 7]
Figure PCTKR2023009488-appb-img-000033
여기서
Figure PCTKR2023009488-appb-img-000034
은 환자 데이터(1310)의 상관 관계 행렬(correlation matrix)을 나타낼 수 있고,
Figure PCTKR2023009488-appb-img-000035
은 보안 의료 데이터(1300)의 상관 관계 행렬을 나타낼 수 있다.
도 14는 일 실시예에 따른 보안 의료 데이터 생성 장치를 도시한 도면이다.
일 실시예에 따른 전자 장치(1400)는 프로세서(1410), 메모리(1420), 입출력 인터페이스(1440), 및 통신 모듈(1450)을 포함할 수 있다.
프로세서(1410)는, 교란된 환자 데이터(예: 도 5의 교란된 환자 데이터(520)) 및 교란된 슈도 데이터(예: 도 5의 교란된 슈도 데이터(518))에 기초하여, 생성자(예: 도 5의 생성자(200)) 및 판별자(예: 도 5의 판별자(530))를 포함하는 적대적 생성 네트워크 기반 모델(예: 도 5의 적대적 생성 네트워크 기반 모델(500))을 학습시킬 수 있다. 프로세서(1410)는 소프트웨어를 실행할 수 있고, 프로세서(1410)에 연결된 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있다. 프로세서(1410)는 이외에도 다양한 데이터 처리 또는 연산을 수행할 수 있다.
메모리(1420)는 컴퓨터로 실행 가능한 명령어들(1430)을 포함할 수 있다. 메모리(1420)는 적대적 생성 네트워크 기반 모델을 학습시키기 위해 요구되는 다양한 데이터 및/또는 정보를 임시적으로 및/또는 영구적으로 저장할 수 있다. 예를 들어, 메모리(1420)는 교란된 환자 데이터, 교란된 슈도 데이터, 또는 적대적 생성 네트워크 기반 모델 중 적어도 하나를 저장할 수 있다.
입출력 인터페이스(1440)는 입력 장치 및 출력 장치를 포함할 수 있다. 입력 장치는 촉각, 비디오, 오디오 또는 터치 입력을 통해 사용자로부터 입력을 수신할 수 있다. 예를 들어, 입력 장치는 키보드, 마우스, 터치 스크린, 마이크로폰, 또는 사용자로부터 입력을 검출하고, 검출된 입력을 전자 장치(1400)에 전달할 수 있는 임의의 다른 장치를 포함할 수 있다. 출력 장치는 시각적, 청각적 또는 촉각적인 채널을 통해 사용자에게 전자 장치(1400)의 출력을 제공할 수 있다. 출력 장치는 예를 들어, 디스플레이, 터치 스크린, 스피커, 진동 발생 장치 또는 사용자에게 출력을 제공할 수 있는 임의의 다른 장치를 포함할 수 있다. 통신 모듈(1450)은 유선 또는 무선 네트워크를 통해 외부 장치와 통신할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (17)

  1. 프로세서에 의하여 수행되는 보안 의료 데이터 생성 방법에 있어서,
    전자의무기록(EMR, Electronic Medical Records)으로부터 추출된 환자 데이터로부터 교란된 환자 데이터를 생성하는 단계;
    잠재 공간(latent space)의 잠재 벡터(latent vector)로부터 생성자에 기초하여 생성된 슈도 데이터(pseudo data)로부터 교란된 슈도 데이터를 생성하는 단계;
    상기 교란된 환자 데이터 및 상기 교란된 슈도 데이터에 기초하여, 생성자(generator) 및 판별자(discriminator)를 포함하는 적대적 생성 네트워크(GAN; Generative Adversarial Network) 기반 모델을 학습(training)시키는 단계; 및
    상기 생성자를 이용하여 보안 의료 데이터(secured medical data)를 생성하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 추출된 환자 데이터가 이산(discrete) 데이터인 경우 무작위 응답(randomized response) 메커니즘에 기초하여, 변경 확률로 상기 환자 데이터와 반대되는 이산 데이터를 포함하는 상기 교란된 환자 데이터를 생성하는 단계; 및
    상기 이산 데이터에 기초하여, 상기 변경 확률로 상기 슈도 데이터와 반대되는 이산 데이터를 포함하는 상기 교란된 슈도 데이터를 생성하는 단계
    를 더 포함하는 방법.
  3. 제1항에 있어서,
    상기 추출된 환자 데이터가 연속(continuous) 데이터인 경우 라플라스 메커니즘(Laplace mechanism)에 기초하여, 노이즈 데이터를 생성하는 단계;
    상기 노이즈 데이터를 상기 환자 데이터에 부가하여 상기 교란된 환자 데이터를 생성하는 단계; 및
    상기 노이즈 데이터를 상기 슈도 데이터에 부가하여 상기 교란된 슈도 데이터를 생성하는 단계
    를 더 포함하는 방법.
  4. 제1항에 있어서,
    사용자에 의해 선택된 보안성 조절 레벨에 기초하여, 상기 보안성 조절 레벨에 대응하는 분포에서 노이즈를 생성하는 단계;
    상기 추출된 환자 데이터에 상기 노이즈를 부가함으로써 상기 교란된 환자 데이터를 생성하는 단계;
    상기 슈도 데이터에 상기 노이즈를 부가함으로써 상기 교란된 슈도 데이터를 생성하는 단계;
    를 더 포함하는 방법.
  5. 제4항에 있어서,
    상기 노이즈를 생성하는 단계는,
    무작위 응답 메커니즘, 라플라스 메커니즘, 가우시안 메커니즘(Gaussian mechanism), 또는 익스포넨셜 메커니즘(exponential mechanism) 중 적어도 하나의 메커니즘에 기초하여 상기 노이즈를 생성하는 단계
    를 포함하는 방법.
  6. 제5항에 있어서,
    상기 복수의 메커니즘 중 적어도 두 개에 기초하여, 제1 노이즈 및 제2 노이즈를 생성하는 단계;
    상기 추출된 환자 데이터에 상기 제1 노이즈를 부가함으로써 상기 교란된 환자 데이터를 생성하는 단계; 및
    상기 슈도 데이터에 상기 제2 노이즈를 부가함으로써 상기 교란된 슈도 데이터를 생성하는 단계
    를 더 포함하는 방법.
  7. 제1항에 있어서,
    상기 적대적 생성 네트워크 기반 모델을 학습시키는 단계는,
    상기 교란된 슈도 데이터 및 상기 교란된 환자 데이터에 상기 판별자를 개별적으로 적용한 결과들에 기초하여 판별자 점수(discriminator score)를 획득하는 단계;
    상기 판별자 점수에 기초하여, 상기 생성자가 상기 환자 데이터와 유사한 상기 슈도 데이터를 생성하도록 상기 적대적 생성 네트워크 기반 모델을 학습시키는 단계;
    상기 판별자 점수에 기초하여, 상기 판별자가 상기 교란된 환자 데이터에 대해서는 참(true)을 나타내는 결과를 생성하도록 상기 적대적 생성 네트워크 기반 모델을 학습시키는 단계; 및
    상기 판별자 점수에 기초하여, 상기 판별자가 상기 교란된 슈도 데이터에 대해서는 거짓(false)을 나타내는 결과를 생성하도록 상기 적대적 생성 네트워크 기반 모델을 학습시키는 단계
    를 포함하는 방법.
  8. 제7항에 있어서,
    상기 판별자 점수를 획득하는 단계는,
    와서스타인 거리(Wasserstein distance)에 기초하는 상기 판별자의 목적함수를 통해 상기 판별자 점수를 획득하는 단계
    를 포함하는 방법.
  9. 하드웨어와 결합되어 제1항 내지 제8항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
  10. 보안 의료 데이터 생성 전자 장치에 있어서,
    컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리; 및
    상기 메모리에 억세스(access)하여 상기 명령어들을 실행하는 프로세서
    를 포함하고,
    상기 명령어들은,
    전자의무기록(EMR, Electronic Medical Records)으로부터 추출된 환자 데이터로부터 교란된 환자 데이터를 생성하고,
    잠재 공간(latent space)의 잠재 벡터(latent vector)로부터 생성자에 기초하여 생성된 슈도 데이터(pseudo data)로부터 교란된 슈도 데이터를 생성하고,
    상기 교란된 환자 데이터 및 상기 교란된 슈도 데이터에 기초하여, 생성자(generator) 및 판별자(discriminator)를 포함하는 적대적 생성 네트워크(GAN; Generative Adversarial Network) 기반 모델을 학습시키고,
    상기 생성자를 이용하여 보안 의료 데이터(secured medical data)를 생성하는
    보안 의료 데이터 생성 전자 장치.
  11. 제10항에 있어서,
    상기 프로세서는,
    상기 추출된 환자 데이터가 이산(discrete) 데이터인 경우 무작위 응답(randomized response) 메커니즘에 기초하여, 변경 확률로 상기 환자 데이터와 반대되는 이산 데이터를 포함하는 상기 교란된 환자 데이터를 생성하고,
    상기 이산 데이터에 기초하여, 상기 변경 확률로 상기 슈도 데이터와 반대되는 이산 데이터를 포함하는 상기 교란된 슈도 데이터를 생성하는
    보안 의료 데이터 생성 전자 장치.
  12. 제10항에 있어서,
    상기 프로세서는,
    상기 추출된 환자 데이터가 연속(continuous) 데이터인 경우 라플라스 메커니즘(Laplace mechanism)에 기초하여, 노이즈 데이터를 생성하고,
    상기 노이즈 데이터를 상기 환자 데이터에 부가하여 상기 교란된 환자 데이터를 생성하고,
    상기 노이즈 데이터를 상기 슈도 데이터에 부가하여 상기 교란된 슈도 데이터를 생성하는
    보안 의료 데이터 생성 전자 장치.
  13. 제10항에 있어서,
    상기 프로세서는,
    사용자에 의해 선택된 보안성 조절 레벨에 기초하여, 상기 보안성 조절 레벨에 대응하는 분포에서 노이즈를 생성하고,
    상기 추출된 환자 데이터에 상기 노이즈를 부가함으로써 상기 교란된 환자 데이터를 생성하고,
    상기 슈도 데이터에 상기 노이즈를 부가함으로써 상기 교란된 슈도 데이터를 생성하는
    보안 의료 데이터 생성 전자 장치.
  14. 제13항에 있어서,
    상기 프로세서는,
    무작위 응답 메커니즘, 라플라스 메커니즘, 가우시안 메커니즘(Gaussian mechanism), 또는 익스포넨셜 메커니즘(exponential mechanism) 중 적어도 하나의 메커니즘에 기초하여 상기 노이즈를 생성하는
    보안 의료 데이터 생성 전자 장치.
  15. 제14항에 있어서,
    상기 프로세서는,
    상기 복수의 메커니즘 중 적어도 두 개에 기초하여, 제1 노이즈 및 제2 노이즈를 생성하고,
    상기 추출된 환자 데이터에 상기 제1 노이즈를 부가함으로써 상기 교란된 환자 데이터를 생성하고,
    상기 슈도 데이터에 상기 제2 노이즈를 부가함으로써 상기 교란된 슈도 데이터를 생성하는
    보안 의료 데이터 생성 전자 장치.
  16. 제10항에 있어서,
    상기 프로세서는,
    상기 교란된 슈도 데이터 및 상기 교란된 환자 데이터에 상기 판별자를 개별적으로 적용한 결과들에 기초하여 판별자 점수(discriminator score)를 획득하고,
    상기 판별자 점수에 기초하여, 상기 생성자가 상기 환자 데이터와 유사한 상기 슈도 데이터를 생성하도록 상기 적대적 생성 네트워크 기반 모델을 학습시키고,
    상기 판별자 점수에 기초하여, 상기 판별자가 상기 교란된 환자 데이터에 대해서는 참(true)을 나타내는 결과를 생성하도록 상기 적대적 생성 네트워크 기반 모델을 학습시키고,
    상기 판별자 점수에 기초하여, 상기 판별자가 상기 교란된 슈도 데이터에 대해서는 거짓(false)을 나타내는 결과를 생성하도록 상기 적대적 생성 네트워크 기반 모델을 학습시키는
    보안 의료 데이터 생성 전자 장치.
  17. 제16항에 있어서,
    상기 프로세서는,
    와서스타인 거리(Wasserstein distance)에 기초하는 상기 판별자의 목적함수를 통해 상기 판별자 점수를 획득하는
    보안 의료 데이터 생성 전자 장치.
PCT/KR2023/009488 2022-09-14 2023-07-05 지역 차분 프라이버시 기반 적대적 생성 네트워크를 활용한 합성 환자 데이터 생성 방법 및 장치 WO2024058380A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220115852A KR20240037437A (ko) 2022-09-14 2022-09-14 지역 차분 프라이버시 기반 적대적 생성 네트워크를 활용한 합성 환자 데이터 생성 방법 및 장치
KR10-2022-0115852 2022-09-14

Publications (1)

Publication Number Publication Date
WO2024058380A1 true WO2024058380A1 (ko) 2024-03-21

Family

ID=90275487

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/009488 WO2024058380A1 (ko) 2022-09-14 2023-07-05 지역 차분 프라이버시 기반 적대적 생성 네트워크를 활용한 합성 환자 데이터 생성 방법 및 장치

Country Status (2)

Country Link
KR (1) KR20240037437A (ko)
WO (1) WO2024058380A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200124610A (ko) * 2019-04-24 2020-11-03 쥐이 프리시즌 헬스케어 엘엘씨 의료 기계 합성 데이터 및 대응하는 이벤트 생성
KR20210107261A (ko) * 2020-02-24 2021-09-01 서울시립대학교 산학협력단 잠재 벡터를 이용하여 군집화를 수행하는 방법 및 장치
KR20220095949A (ko) * 2020-12-30 2022-07-07 재단법인 아산사회복지재단 전자의무기록에서의 다변량 결측값 대체 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200124610A (ko) * 2019-04-24 2020-11-03 쥐이 프리시즌 헬스케어 엘엘씨 의료 기계 합성 데이터 및 대응하는 이벤트 생성
KR20210107261A (ko) * 2020-02-24 2021-09-01 서울시립대학교 산학협력단 잠재 벡터를 이용하여 군집화를 수행하는 방법 및 장치
KR20220095949A (ko) * 2020-12-30 2022-07-07 재단법인 아산사회복지재단 전자의무기록에서의 다변량 결측값 대체 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CAI ZHIPENG ZCAI@GSU.EDU; XIONG ZUOBIN ZXIONG2@STUDENT.GSU.EDU; XU HONGHUI HXU16@STUDENT.GSU.EDU; WANG PENG WPENG12@STUDENT.GSU.ED: "Generative Adversarial Networks", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, vol. 54, no. 6, 13 July 2021 (2021-07-13), 201 Olin Library Cornell University Ithaca, NY 14853, pages 1 - 38, XP058622155, DOI: 10.1145/3459992 *
RYU JIHYEON, WON DONGHO, LEE YOUNGSOOK: "A Study of Split Learning Model to Protect Privacy", JOURANL OF INFORMATION AND SECURITY, vol. 21, no. 3, 30 September 2021 (2021-09-30), pages 49 - 56, XP093147299, ISSN: 1598-7329, DOI: 10.33778/kcsa.2021.21.3.049 *

Also Published As

Publication number Publication date
KR20240037437A (ko) 2024-03-22

Similar Documents

Publication Publication Date Title
US11886989B2 (en) System for measuring information leakage of deep learning models
CN108898028B (zh) 涉及迭代与随机加密的神经网络模型加密保护系统及方法
WO2017051943A1 (ko) 영상 생성 방법 및 장치, 및 영상 분석 방법
CN108920981B (zh) 涉及数据迭代加密的神经网络模型加密保护系统及方法
WO2020111314A1 (ko) 개념 그래프 기반 질의응답 장치 및 방법
US20220230061A1 (en) Modality adaptive information retrieval
WO2019172498A1 (ko) 종양의 악성도와 악성도 추론의 근거를 제공하는 컴퓨터 보조 진단 시스템 및 그 방법
WO2021095987A1 (ko) 다중타입 엔티티에 기반한 지식 보완 방법 및 장치
WO2020032420A1 (en) Method for training and testing data embedding network to generate marked data by integrating original data with mark data, and training device and testing device using the same
WO2024058380A1 (ko) 지역 차분 프라이버시 기반 적대적 생성 네트워크를 활용한 합성 환자 데이터 생성 방법 및 장치
US20230113896A1 (en) System for Restrictive Discovery of Private Data Feature Intersection
WO2022220354A1 (ko) 어군 생태계의 이상 여부를 감지하기 위한 어군 생태계 모니터링 시스템 장치 및 그 동작 방법
WO2020050456A1 (ko) 설비 데이터의 이상 정도 평가 방법
KR20200072586A (ko) 딥러닝 기반의 이미지 개인정보 가공장치 시스템, 장치 및 그 방법
CN112084509A (zh) 一种基于生物识别技术的区块链密钥生成方法及系统
WO2021242073A1 (ko) 전자 장치 및 이의 제어 방법
Chen et al. Detection method of Golden Chip-Free Hardware Trojan based on the combination of ResNeXt structure and attention mechanism
WO2022216142A1 (en) Method and system for securing neural network models
WO2019225799A1 (ko) 딥러닝 생성 모델을 이용한 사용자 정보 삭제 방법 및 장치
Xiao et al. ANNs on co-occurrence matrices for mobile malware detection
WO2022092346A1 (ko) 강화학습 기반의 난수 생성 장치 및 방법
Tang et al. Designing a partially understandable neural network through semantic embedding
WO2021045434A1 (ko) 전자 장치 및 이의 제어 방법
WO2023224205A1 (ko) 인공 신경망 모델 학습 결과 합성을 통한 공통 모델 생성 방법
WO2021167257A1 (ko) Ppt 추천방법 및 그 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23865684

Country of ref document: EP

Kind code of ref document: A1