WO2022250609A1 - 数据保护方法、网络结构训练方法、装置、介质及设备 - Google Patents

数据保护方法、网络结构训练方法、装置、介质及设备 Download PDF

Info

Publication number
WO2022250609A1
WO2022250609A1 PCT/SG2022/050261 SG2022050261W WO2022250609A1 WO 2022250609 A1 WO2022250609 A1 WO 2022250609A1 SG 2022050261 W SG2022050261 W SG 2022050261W WO 2022250609 A1 WO2022250609 A1 WO 2022250609A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature information
target
information
training
network structure
Prior art date
Application number
PCT/SG2022/050261
Other languages
English (en)
French (fr)
Inventor
孙建凯
高伟豪
解浚源
王崇
Original Assignee
脸萌有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 脸萌有限公司 filed Critical 脸萌有限公司
Publication of WO2022250609A1 publication Critical patent/WO2022250609A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the party that has sample label data is usually called the active party, and the party that does not have sample label data is called the passive party (passive party).
  • the data transmitted between each other is important data that needs to be protected.
  • the present disclosure provides a data protection method, the method comprising: acquiring original feature information of a target batch of reference samples of a passive participant of a joint training model; processing the original feature information through a target feature processing network structure performing processing to obtain target feature information corresponding to the original feature information; where at least aiming at minimizing the coupling degree between the original training feature information of the training samples of the passive participant and the target training feature information, the neural network The structure is trained to obtain the target feature processing network structure, and the target training feature information is the output of the neural network structure obtained by using the original training feature information as the input of the neural network structure and the original The feature information corresponding to the training feature information.
  • the present disclosure provides a method for training a feature processing network structure, the method comprising: obtaining original training feature information of a specified batch of training samples of a passive participant of a joint training model, and the neural network structure target training feature information output after processing the original training feature information; acquiring target gradient information corresponding to the parameters of the neural network structure, wherein the target gradient information is determined according to a preset loss function and the target training feature information
  • the preset loss function includes a loss function that characterizes the coupling degree between the original training feature information and the target training feature information; the parameters of the neural network structure are updated according to the target gradient information, wherein , at least aiming at minimizing the coupling degree between the original training feature information and the target training feature information, training the neural network structure; determining whether the training of the neural network structure is completed; responding to the neural network structure The network structure training is completed, and the target feature processing network structure is obtained.
  • the present disclosure provides a data protection device, the device comprising: an original feature information acquisition module, configured to acquire original feature information of reference samples of a target batch of passive participants of a joint training model; target feature information determination A module, configured to process the original feature information through the target feature processing network structure to obtain target feature information corresponding to the original feature information; wherein, at least by minimizing the original training feature information of the training samples of the passive participant
  • the coupling degree with the target training feature information is the target, and the neural network structure is trained to obtain the target feature processing network structure, and the target training feature information is to use the original training feature information as the neural network structure , and the obtained feature information corresponding to the original training feature information output by the neural network structure.
  • the present disclosure provides a feature processing network structure training device, which includes: a training feature information acquisition module, configured to acquire original training feature information of a specified batch of training samples of a passive participant of a joint training model, and target training feature information output by the neural network structure after processing the original training feature information; a target gradient information acquisition module, configured to acquire target gradient information corresponding to parameters of the neural network structure, wherein the target gradient information It is determined according to a preset loss function and the target training feature information, the preset loss function includes a loss function that characterizes the coupling degree between the original training feature information and the target training feature information; a parameter update module, For updating the parameters of the neural network structure according to the target gradient information, where at least aiming at minimizing the coupling degree between the original training feature information and the target training feature information, the neural network The network structure is trained; the judging module is used to determine whether the training of the neural network structure is completed; the network structure obtaining module is used to obtain the target feature processing network structure in response to the completion of the training of
  • the present disclosure provides a computer-readable medium on which a computer program is stored, and when the program is executed by a processing device, the steps of the method provided in the first aspect of the present disclosure are implemented.
  • the present disclosure provides a computer-readable medium on which a computer program is stored, and when the program is executed by a processing device, the steps of the method provided in the second aspect of the present disclosure are implemented.
  • the present disclosure provides an electronic device, including: a storage device, on which a computer program is stored; and a processing device, configured to execute the computer program in the storage device, so as to implement the method provided in the first aspect of the present disclosure. The steps of the method.
  • the present disclosure provides an electronic device, including: a storage device, on which a computer program is stored; and a processing device, configured to execute the computer program in the storage device, so as to implement the second aspect of the present disclosure.
  • a storage device on which a computer program is stored
  • a processing device configured to execute the computer program in the storage device, so as to implement the second aspect of the present disclosure.
  • FIG. 1 is a schematic diagram of an implementation environment according to an exemplary embodiment.
  • Fig. 2 is a flow chart showing a data protection method according to an exemplary embodiment.
  • Fig. 3 is a flowchart showing a method for training a feature processing network structure according to an exemplary embodiment.
  • Fig. 4 is a schematic diagram of training a neural network structure according to an exemplary embodiment.
  • Fig. 5 is a block diagram of a data protection device according to an exemplary embodiment.
  • Fig. 6 is a block diagram showing a device for training a feature processing network structure according to an exemplary embodiment.
  • Fig. 7 is a schematic structural diagram of an electronic device according to an exemplary embodiment.
  • the term “comprise” and its variants are open-ended, ie “including but not limited to”.
  • the term “based on” is “based at least in part on”.
  • the term “one embodiment” means “at least one embodiment”; the term “another embodiment” means “at least one further embodiment”; the term “some embodiments” means “at least some embodiments”.
  • Relevant definitions of other terms will be given in the description below. It should be noted that concepts such as “first” and “second” mentioned in this disclosure are only used to distinguish different devices, modules or units, and are not used to limit the sequence of functions performed by these devices, modules or units. or interdependence.
  • FIG. 1 is a schematic diagram of an implementation environment according to an exemplary embodiment.
  • the implementation environment may include a passive participant 101 and an active participant 102, and the passive participant 101 and the active participant 102 may be For communication coupling, for example, any of 3G, 4G, 5G, NB-IOT, eMTC, LTE, LTE-A, etc. may be used for communication.
  • FIG. 2 is a flowchart of a data protection method according to an exemplary embodiment.
  • the method can be applied to a passive participant of a joint training model, such as the passive participant 101 shown in FIG. 1 , as shown in FIG. 2 ,
  • the method may include S201 and S202.
  • the original feature information of the target batch of reference samples of the passive participants of the joint training model is acquired.
  • a batch of samples is usually input into the initial model for training each time, and the reference samples of the target batch are a batch of samples in a training process.
  • the passive participant can select a batch of samples from the sample collection as the reference sample of the target batch.
  • the original characteristic information of the reference samples of the target batch may include a collection of respective original characteristic information of all reference samples of the target batch.
  • the original feature information is processed through the target feature processing network structure to obtain target feature information corresponding to the original feature information.
  • the target feature processing network structure may be a multi-layer neural network structure.
  • the original feature information can be input into the target feature processing network structure, and the target feature information corresponding to the original feature information output by the target feature processing network structure is obtained.
  • the feature information is the feature representation (embedding) obtained by processing the original feature information of the reference sample of the passive participant.
  • the passive participant can send the target feature information to the active participant, and the active participant has real sample label data,
  • the label prediction can be performed according to the target feature information, so as to calculate the label prediction loss and gradient related information. Therefore, the target characteristic information sent by the passive participant to the active participant is the data that needs to be protected.
  • the target characteristic information is obtained by processing the original characteristic information.
  • the active participant receives the target characteristic information, it can If the original feature information of the passive participant is reversed, the risk of the original data leakage of the passive participant will occur, thereby reducing the data security in the joint learning process.
  • the neural network structure is trained to obtain the target feature processing network structure, and the target training The feature information is the feature information corresponding to the original training feature information that is output by the neural network structure obtained by using the original training feature information as the input of the neural network structure.
  • the target feature processing network structure can be pre-trained
  • the training samples of the passive participants can be the samples used in the process of training the target feature processing network
  • the reference samples of the above target batches can be in the target feature processing network structure
  • the samples used in the process of training the joint training model, the training samples and the reference samples may be the same or different. The higher the degree of coupling between the original training feature information and the target training feature information, the greater the degree of correlation between the two, and the greater the possibility of deriving the original training feature information from the target training feature information.
  • the original training feature information The lower the coupling degree between feature information and target training feature information is, the smaller the degree of correlation between them is, and the possibility of deriving original training feature information from target training feature information is smaller. Since at least aiming at minimizing the coupling degree between the original training feature information of the training samples of the passive participant and the target training feature information, the neural network structure is trained to obtain the target feature processing network structure. Therefore, the training completed The target feature processing network processes the original feature information of the reference samples of the target batch to obtain the target feature information, which can reduce the coupling degree between the target feature information and the original feature information, and reduce the ability to deduce the original feature information from the target feature information. Possibility, thereby reducing the risk of leakage of the original data of passive participants.
  • the original feature information of the target batch reference samples of the passive participants of the joint training model is obtained, and the original feature information is processed through the target feature processing network structure to obtain the corresponding target feature information.
  • the neural network structure is trained to obtain the target feature processing network structure.
  • FIG. 3 is a flowchart of a method for training a feature processing network structure according to an exemplary embodiment.
  • the method may include Including S301 to S305.
  • S301 the original training feature information of the specified batch of training samples of the passive participants of the joint training model, and the target training feature information output after the neural network structure processes the original training feature information are obtained.
  • the specified batch of training samples can be a batch of samples in the training process of the neural network structure.
  • sample the target gradient information corresponding to the parameters of the neural network structure is acquired.
  • the target gradient information may be determined according to a preset loss function and target training feature information, and the preset loss function may include a loss function representing a coupling degree between original training feature information and target training feature information.
  • the parameters of the neural network structure are updated according to the target gradient information.
  • the gradient descent method can be used to update the parameters of the neural network structure, so that the coupling degree between the original training feature information and the target training feature information can be gradually reduced during the training process.
  • the function value of the preset loss function is the smallest, it can be determined that the training of the neural network structure is completed, so as to achieve at least the goal of minimizing the coupling degree between the original training feature information and the target training feature information, and train the neural network structure Purpose.
  • the target feature processing network structure is obtained in response to the completion of the training of the neural network structure.
  • the next batch of training samples may be continuously obtained to train the neural network structure until the training of the neural network structure is completed, and the target feature processing network structure is obtained.
  • the target gradient information corresponding to the parameters of the neural network structure is determined according to the preset loss function and the target training feature information, and the preset loss function may include the coupling between the original training feature information and the target training feature information degree loss function.
  • the parameters of the neural network structure are updated according to the target gradient information, and the target feature processing network structure is obtained after the training of the neural network structure is completed.
  • FIG. 4 is a schematic diagram showing a training of a neural network structure according to an exemplary embodiment.
  • the solid line arrow indicates forward propagation (Forward Propagation)
  • the dotted line arrow indicates back propagation ( Backward Propagation).
  • the target gradient information may include at least one of distance correlation gradient information, confrontation reconstruction gradient information, and noise regularization gradient information.
  • the preset loss function may include distance correlation loss function, confrontation reconstruction loss function , at least one of the noise regularization loss function; correspondingly, obtaining the target gradient information corresponding to the parameters of the neural network structure in S302 may include the following steps (a), At least one of (b), (c).
  • the distance correlation loss function is a function that characterizes the distance correlation (Distance Correlation) between the original training feature information and the target training feature information. Among them, the smaller the distance correlation between the original training feature information and the target training feature information, the lower the coupling degree between the two can be represented, and the greater the distance correlation between the original training feature information and the target training feature information, The greater the degree of coupling between the two can be characterized.
  • the distance correlation loss function can be expressed as the following expression (1):
  • Ld DCOR (X, F(X)) ( 1 )
  • Ld represents the distance correlation loss function
  • X represents the original training feature information
  • F(X) represents the target training feature information.
  • the neural network structure can transmit the target training feature information to the distance correlation loss function value calculation module through forward propagation, and the distance correlation loss function value calculation module can be based on the original training feature information , target training feature information, distance correlation loss function, calculate the function value of the distance correlation loss function, the passive participant can determine the distance correlation gradient information according to the function value, and return the distance correlation gradient information through back propagation
  • the way of calculating distance correlation gradient information can refer to related technologies.
  • the neural network structure can use the gradient descent method to update its parameters according to the distance correlation gradient information, so that the distance correlation between the original training feature information and the target training feature information gradually becomes smaller, that is, the distance between the two The degree of coupling between is getting lower and lower.
  • the first prediction feature information According to the original training feature information, the first prediction feature information, and the confrontation reconstruction loss function, determine the first gradient information corresponding to the parameters of the neural network structure, and determine the gradient information after the first gradient information is processed by the gradient inversion layer Reconstruct gradient information for the adversarial. Wherein, the first prediction feature information is reconstructed according to the target training feature information, as shown in FIG.
  • the neural network structure can transmit the target training feature information to the feature reconstruction network structure, and the feature reconstruction network structure can be It is used to reconstruct the target training feature information, that is, to predict the original training feature information according to the target training feature information.
  • the first predicted feature information may be feature information output by the feature reconstruction network structure obtained by inputting target training feature information into the feature reconstruction network structure.
  • the feature reconstruction network structure can transmit the first predicted feature information to the adversarial reconstruction loss function value calculation module through forward propagation, and the adversarial reconstruction loss function value calculation module can be based on the original training feature information, the first predicted feature information, and the adversarial reconstruction loss function,
  • the function value of the adversarial reconstruction loss function is calculated, and the passive participant can determine the first gradient information corresponding to the parameters of the neural network structure according to the function value.
  • the adversarial reconstruction loss function is a function that characterizes the distance between the first prediction feature information and the original training feature information, and the distance may be, for example, Euclidean distance.
  • the adversarial reconstruction loss function can be expressed as the following expression (2):
  • Lr P (X, R1(F(X))) (2) Among them, Lr represents the adversarial reconstruction loss function, X represents the original training feature information, R1(F(X)) represents the first prediction feature information, and P represents the calculation
  • the function of the distance between the first prediction feature information and the original training feature information may be, for example, a Euclidean distance calculation function.
  • a Gradient Reversal Layer (GRL, Gradient Reversal Layer) can be set between the neural network structure and the feature reconstruction network structure. The gradient information after the layer transfer process is determined as the gradient information of the confrontation reconstruction, and the gradient information of the confrontation reconstruction is sent back to the neural network structure.
  • the gradient inversion layer can multiply the first gradient information by -A, and the passive participant can multiply the first gradient information by -A to determine the gradient information as the confrontation reconstruction gradient information, where A is a number greater than 0 , its value can be preset.
  • the adversarial reconstruction loss function represents the distance between the first prediction feature information and the original training feature information, so that the smaller the adversarial reconstruction loss function is, the greater the similarity between the first prediction feature information and the original training feature information is , indicating that the original training feature information predicted by the feature reconstruction network structure is more similar to the actual original training feature information, so that the representation can easily deduce the actual original training feature information based on the target training feature information, then the target training feature information and the original The greater the coupling degree between the training feature information is.
  • the purpose of training the neural network structure is to reduce the coupling degree between the target training feature information and the original training feature information.
  • the gradient information when the gradient information is passed back to the neural network structure, it is processed by the gradient inversion layer, so that the neural network structure
  • the parameters can be updated according to the gradient information of the confrontation reconstruction, and the gradient descent method is used to update its parameters.
  • the goal of the training of the neural network structure is to gradually increase the function value of the confrontation reconstruction loss function, so as to maximize the return value based on the target training feature information.
  • the purpose of deriving the difficulty of the actual original training feature information is to gradually reduce the coupling degree between the target training feature information and the original training feature information.
  • the gradient inversion layer does not perform any processing on the target feature information at this time, and directly converts the target feature information Transfer to feature reconstruction network structure.
  • (c) Determine noise regularization gradient information according to the second prediction feature information, noise information, and noise regularization loss function.
  • the second predictive feature information is reconstructed according to the target training feature information, and the first predictive feature information is the same as or different from the second predictive feature information.
  • the feature reconstruction network structure can input The first predicted feature information is transmitted to the noise regularization loss function value calculation module, and the first predicted feature information can be used as the second predicted gradient information for determining the noise regularized gradient information, that is, the first predicted feature information and the second predicted feature The information is the same.
  • the second predictive feature information may also be reconstructed by other reconstruction modules in the passive participant according to the target training feature information, and is different from the first predictive feature information.
  • the transmission mode shown in FIG. 4 is only exemplary, and does not constitute a limitation to the implementation of the present disclosure.
  • the noise information may be random noise information, such as random Gaussian noise information.
  • the noise regularization loss function can be a function that characterizes the error between the second predicted feature information and the noise information. The smaller the error between the second predicted feature information and the noise information, the better the original training feature information reconstructed according to the target training feature information. Like noise information, that is, the lower the coupling degree between the target training feature information and the original training feature information.
  • the noise regularization loss function can be expressed as the following expression (3):
  • L n PR 2 (F(X))-X(3) Among them, Ln represents the noise regularization loss function, R2(F(X)) represents the second prediction feature information, and Xnoise represents the noise information.
  • the noise regularization loss function value calculation module can determine the function value of the noise regularization loss function according to the second prediction feature information, noise information, and noise regularization loss function, and the passive participant can calculate the noise regularization gradient information according to the function value, And the noise regularized gradient information is sent back to the neural network structure through backpropagation, and the neural network structure can update its parameters by using the gradient descent method.
  • at least one of the three methods (a), (b) and (c) can be used to determine the target gradient information corresponding to the parameters of the neural network structure. If more than one of these three methods is used, That is, when the target gradient information includes more than one of distance correlation gradient information, adversarial reconstruction gradient information, and noise regularization gradient information, the neural network structure updates its own parameters according to the multiple gradient information.
  • the feature reconstruction network structure, gradient inversion layer, distance correlation loss function value calculation module, confrontation reconstruction loss function value calculation module, and noise regularization loss function value calculation module shown in Figure 4 are only used when training the neural network structure , after the neural network structure training is completed to obtain the target feature processing network structure, these modules are not involved in the actual training process of the joint training model.
  • the distance correlation loss function, the adversarial reconstruction loss function, and the noise regularization loss function can all represent the coupling degree between the original training feature information and the target training feature information.
  • the neural network structure is based on the distance correlation gradient information, adversarial reconstruction At least one of the gradient information and the noise regularization gradient information updates its own parameters, which can achieve the goal of minimizing the coupling degree between the original training feature information of the passive participant's training samples and the target training feature information, and the neural network structure purpose of training.
  • the training process of the target feature processing network structure may also include: determining the second gradient information corresponding to the parameters of the feature reconstruction network structure according to the original training feature information, the first prediction feature information, and the confrontation reconstruction loss function; The second gradient information is sent back to the feature reconstruction network structure, so that the feature reconstruction network structure updates the parameters of the feature reconstruction network structure according to the second gradient information.
  • the first prediction feature information and the adversarial reconstruction loss function have been introduced above, and the adversarial reconstruction loss function is a function that characterizes the distance between the first prediction feature information and the original training feature information, and the second gradient information is used to update the graph
  • the feature reconstruction network structure shown in 4 the feature reconstruction network structure can use the gradient descent method to update its own parameters.
  • two gradient information can be determined according to the function value of the adversarial reconstruction loss function, one is the second gradient information used to update the parameters of the feature reconstruction network structure, that is, the first predicted feature information reconstructed by the feature reconstruction network is different from the actual
  • the adversarial reconstruction gradient information used to update the parameters of the neural network structure, that is, to increase the difficulty of deriving the actual original training feature information based on the target training feature information as much as possible, so as to achieve adversarial training.
  • training the feature reconstruction network structure makes the reconstruction effect of the feature reconstruction network structure better and better.
  • the purpose of training the neural network structure also includes the feature reconstruction network structure that makes the target training feature information better after reconstruction.
  • the similarity between the predicted original training feature information and the actual original training feature information is reduced.
  • the target gradient information may also include cross-entropy gradient information
  • the preset loss function may also include a cross-entropy loss function
  • Obtaining the target gradient information corresponding to the parameters of the neural network structure in S302 may also include: sending the target training feature information to the active participant of the joint training model, so that the active participant performs label data prediction according to the target training feature information, and according to The label data prediction result and the cross-entropy loss function determine the cross-entropy gradient information, wherein the cross-entropy loss function is a function representing the cross-entropy between the label data prediction result and the real label data; receiving the cross-entropy gradient information sent by the active participant.
  • the passive participant can send the target training characteristic information to the active participant, and the active participant can input the target training characteristic information into the label data prediction network structure, and obtain the label data prediction output by the label data prediction network structure
  • the cross-entropy loss function value calculation module can determine the function value of the cross-entropy loss function according to the label data prediction result and the cross-entropy loss function (Cross Entropy Loss), and the active participant can calculate the cross-entropy loss function according to the function value.
  • Cross entropy gradient information is a function that characterizes the cross-entropy between the predicted result of the label data and the real label data.
  • the active participant can send the cross-entropy gradient information to the passive participant, and the neural network structure of the passive participant can use the gradient descent method , Updating the parameters of the neural network structure according to the cross-entropy gradient information.
  • the neural network structure can also update its own parameters according to the cross-entropy gradient information to ensure that the active participants
  • the output target training feature information is used to predict the accuracy of the label, thereby ensuring the accuracy of the joint training model.
  • determining whether the training of the neural network structure is completed in S304 may include: determining that the training of the neural network structure is completed when the sum of the function value of the cross-entropy loss function and the product of the objective function value and the corresponding weight is the smallest, wherein,
  • the objective function value includes at least one of a distance correlation loss function, an adversarial reconstruction loss function, and a noise regularization loss function.
  • the preset loss function including the distance correlation loss function, the adversarial reconstruction loss function, and the noise regularization loss function as an example, in the case where L is determined to be the smallest, it can be determined that the training of the neural network structure is completed, wherein,
  • represents the weight corresponding to the function value of the distance correlation loss function
  • the value of each weight can be preset.
  • the purpose of minimizing the function value of the cross-entropy loss function is to minimize the difference between the predicted result of the label data and the real label data, ensure the accuracy of the joint training model, and minimize the product of the objective function value and the corresponding weight.
  • the coupling degree between the original training feature information of the passive participant's training samples and the target training feature information As a result, the original data of the passive participants can be protected, and the accuracy of the joint training model can be guaranteed.
  • the data protection method provided by the present disclosure may further include: sending target characteristic information to the active participant of the joint training model, so that the active participant determines the gradient transfer information of the parameters of the joint training model according to the target characteristic information; receiving the information sent by the active participant The gradient transfer information of , and update the parameters of the joint training model according to the gradient transfer information.
  • the gradient transfer information can be used to represent the basis for adjusting the parameters of the joint training model passed from the active participant to the passive participant of the joint training model.
  • the gradient transfer information can include reference samples of the passive participant's target batch Correspondingly, the gradient corresponding to each neuron in the output layer of the model trained by the passive participant of the joint training model by using the cross-entropy loss function.
  • the original feature information of the reference samples of the target batch is processed through the target feature processing network structure to obtain the corresponding target feature information, so that the coupling degree between the target feature information and the original feature information is reduced, and the ability of active participants to be reduced
  • the present disclosure also provides a method for training a feature processing network structure. The specific process of the training method has been described above.
  • the main technical problem to be solved by the training method is how to improve data security.
  • FIG. 5 is a block diagram of a data protection device according to an exemplary embodiment. As shown in FIG.
  • the device 500 may include: acquisition of original feature information Module 501 is used to obtain the original feature information of the target batch reference samples of the passive participants of the joint training model; the target feature information determination module 502 is used to process the original feature information through the target feature processing network structure to obtain The target feature information corresponding to the original feature information; wherein, at least aiming at minimizing the coupling degree between the original training feature information of the training samples of the passive participant and the target training feature information, training the neural network structure, To obtain the target feature processing network structure, the target training feature information is that the original training feature information is used as the input of the neural network structure, and the output of the obtained neural network structure corresponds to the original training feature information feature information.
  • the target feature processing network structure is obtained by training a feature processing network structure training device.
  • FIG. 6 is a block diagram of a feature processing network structure training device according to an exemplary embodiment, as shown in FIG. 6
  • the apparatus 600 may include: a training feature information acquisition module 601, configured to acquire the original training feature information of the specified batch of training samples of the passive participants of the joint training model, and the neural network structure for the original training feature information Target training feature information output after processing; target gradient information acquisition module 602, configured to acquire target gradient information corresponding to parameters of the neural network structure, wherein the target gradient information is based on a preset loss function and the target Determined by the training feature information, the preset loss function includes a loss function that characterizes the coupling degree between the original training feature information and the target training feature information; a parameter update module 603, configured to The parameters of the neural network structure are updated, wherein at least aiming at minimizing the coupling degree between the original training feature information and the target training feature information, the neural network structure is trained; Judgment module 604,
  • the target gradient information includes at least one of distance correlation gradient information, confrontation reconstruction gradient information, and noise regularization gradient information.
  • the preset loss function includes a distance correlation loss function, At least one of an adversarial reconstruction loss function and a noise regularization loss function;
  • the target gradient information acquisition module 602 includes at least one of the following: a distance correlation gradient information determination module, configured to be based on the original The training feature information, the target training feature information, and the distance correlation loss function determine the distance correlation gradient information, wherein the distance correlation loss function represents the original training feature information and the target training A function of the distance correlation between feature information; an adversarial reconstruction gradient information determination module, configured to determine the parameter correspondence of the neural network structure according to the original training feature information, the first prediction feature information, and the adversarial reconstruction loss function The first gradient information of the first gradient information, and the gradient information after the first gradient information is processed by the gradient inversion layer is determined as the adversarial reconstruction gradient information, wherein the first prediction feature information is based on the target training feature information Obtained
  • the first predicted feature information is the feature information output by the feature reconstruction network structure obtained by inputting the target training feature information into the feature reconstruction network structure; when the target gradient information includes the When the adversarial reconstruction gradient information is used, and the preset loss function includes the adversarial reconstruction loss function, the apparatus 600 further includes: a gradient determination module, configured to use the original training feature information, the first prediction feature information, The adversarial reconstruction loss function determines the second gradient information corresponding to the parameters of the feature reconstruction network structure; the gradient return module is used to transmit the second gradient information back to the feature reconstruction network structure, so that the The feature reconstruction network structure updates parameters of the feature reconstruction network structure according to the second gradient information.
  • a gradient determination module configured to use the original training feature information, the first prediction feature information
  • the adversarial reconstruction loss function determines the second gradient information corresponding to the parameters of the feature reconstruction network structure
  • the gradient return module is used to transmit the second gradient information back to the feature reconstruction network structure, so that the The feature reconstruction network structure updates parameters of the feature reconstruction network structure according to the second gradient information.
  • the target gradient information further includes cross-entropy gradient information
  • the preset loss function further includes a cross-entropy loss function
  • the target gradient information acquisition module 602 further includes: a first sending module, configured to sending the target training feature information to the active participant of the joint training model, so that the active participant performs label data prediction according to the target training feature information, and according to the label data prediction result and the cross-entropy loss function to determine the cross-entropy gradient information, wherein the cross-entropy loss function is characterized by A function of the cross-entropy between the tag data prediction result and the real tag data; a first receiving module, configured to receive the cross-entropy gradient information sent by the active participant.
  • the judging module 604 is configured to: determine that the training of the neural network structure is completed when the sum of the function value of the cross-entropy loss function and the product of the objective function value and the corresponding weight is the smallest, wherein , the objective function value includes at least one of the function value of the distance correlation loss function, the function value of the adversarial reconstruction loss function, and the function value of the noise regularization loss function.
  • the apparatus 500 further includes: a second sending module, configured to send the target feature information to the active participants of the joint training model, so that the active participants can The information determines the gradient transfer information of the parameters of the joint training model; the second receiving module is configured to receive the gradient transfer information sent by the active participant, and update the parameters of the joint training model according to the gradient transfer information .
  • a second sending module configured to send the target feature information to the active participants of the joint training model, so that the active participants can The information determines the gradient transfer information of the parameters of the joint training model
  • the second receiving module is configured to receive the gradient transfer information sent by the active participant, and update the parameters of the joint training model according to the gradient transfer information .
  • the terminal devices in the embodiments of the present disclosure may include but not limited to mobile phones, notebook computers, digital broadcast receivers, PDAs (personal digital assistants), PADs (tablet computers), PMPs (portable multimedia players), vehicle-mounted terminals (eg mobile terminals such as car navigation terminals) and fixed terminals such as digital TVs, desktop computers, and the like.
  • the electronic device shown in FIG. 7 is only an example, and should not limit the functions and scope of use of the embodiments of the present disclosure.
  • an electronic device 700 may include a processing device (such as a central processing unit, a graphics processing unit, etc.) 701, which may be randomly accessed according to a program stored in a read-only memory (ROM) 702 or loaded from a storage device 708.
  • ROM read-only memory
  • RAM 703 various appropriate actions and processes are executed by programs in the memory (RAM) 703 .
  • RAM 703 various programs and data necessary for the operation of the electronic device 700 are also stored.
  • the processing device 701 , ROM 702 and RAM 703 are connected to each other through a bus 704 .
  • An input/output (I/O) interface 705 is also connected to bus 704 .
  • the following devices can be connected to the I/O interface 705: input devices 706 including, for example, a touch screen, touch pad, keyboard, mouse, camera, microphone, accelerometer, gyroscope, etc.; including, for example, a liquid crystal display (LCD), speakers, vibration an output device 707 such as a device; a storage device 708 including, for example, a magnetic tape, a hard disk, etc.; and a communication device 709.
  • the communication means 709 may allow the electronic device 700 to communicate with other devices wirelessly or by wire to exchange data. While FIG. 7 shows electronic device 700 having various means, it should be understood that implementing or having all of the illustrated means is not a requirement. More or fewer means may alternatively be implemented or provided.
  • embodiments of the present disclosure include a computer program product, which includes a non-transitory computer-readable A computer program on a medium, the computer program including program codes for executing the methods shown in the flowcharts.
  • the computer program may be downloaded and installed from a network via communication means 709 , or from storage means 708 , or from ROM 702 .
  • the processing device 701 the above-mentioned functions defined in the methods of the embodiments of the present disclosure are executed.
  • the computer-readable medium mentioned above in the present disclosure may be a computer-readable signal medium or a computer-readable storage medium or any combination of the above two.
  • a computer-readable storage medium may be, for example but not limited to, an electrical, magnetic, optical, electromagnetic, infrared, or semiconductor system, device, or device, or any combination thereof. More specific examples of computer readable storage media may include, but are not limited to: electrical connections with one or more conductors, portable computer disks, hard disks, random access memory (RAM), read only memory (ROM), erasable Programmable read-only memory (EPROM or flash memory), optical fiber, portable compact disk read-only memory (CD-ROM), optical storage device, magnetic storage device, or any suitable combination of the above.
  • a computer-readable storage medium may be any tangible medium containing or storing a program, and the program may be used by or in combination with an instruction execution system, device, or device.
  • a computer-readable signal medium may include a data signal propagated in a baseband or as part of a carrier wave, in which computer-readable program codes are carried. The propagated data signal may take various forms, including but not limited to electromagnetic signal, optical signal, or any suitable combination of the above.
  • the computer-readable signal medium can also be any computer-readable medium other than the computer-readable storage medium, and the computer-readable signal medium can send, propagate or transmit the program for use by the instruction execution system, device or device or in combination with it .
  • the program code contained on the computer readable medium can be transmitted by any appropriate medium, including but not limited to: electric wire, optical cable, RF (radio frequency), etc., or any suitable combination of the above.
  • the client and the server can communicate using any currently known or future-developed network protocols such as HTTP (HyperText Transfer Protocol, Hypertext Transfer Protocol), and can communicate with digital data in any form or medium Communication (eg, communication network) interconnections.
  • Examples of communication networks include local area networks ("LANs”), wide area networks (“WANs”), Internets (e.g., the Internet) and peer-to-peer networks (e.g., ad hoc peer-to-peer networks), as well as any currently known or future developed network of.
  • the above-mentioned computer-readable medium may be included in the above-mentioned electronic device; or it may exist independently without being assembled into the electronic device.
  • the above-mentioned computer-readable medium carries one or more programs, and when the above-mentioned one or more programs are executed by the electronic device, the electronic device: acquires the original features of the target batch of reference samples of the passive participants of the joint training model information; the original feature information is processed through the target feature processing network structure to obtain the target feature information corresponding to the original feature information; wherein, at least by minimizing the original training feature information of the training samples of the passive participant and the target
  • the coupling degree between the training feature information is the target, and the neural network structure is trained to obtain the target feature processing network structure, and the target training feature information is to use the original training feature information as the neural network structure.
  • the electronic device obtains the original training feature information of the specified batch of training samples of the passive participants of the joint training model, and the target training feature information output after the neural network structure processes the original training feature information ; Acquiring target gradient information corresponding to the parameters of the neural network structure, wherein the target gradient information is determined according to a preset loss function and the target training feature information, and the preset loss function includes characterizing the original training A loss function of the coupling degree between feature information and the target training feature information; update the parameters of the neural network structure according to the target gradient information, wherein at least to minimize the original training feature information and the The coupling degree between the target training feature information is the target, and the neural network structure is trained; it is determined whether the training of the neural network structure is completed; in response to the completion
  • Computer program code for carrying out operations of the present disclosure may be written in one or more programming languages, or combinations thereof, including but not limited to object-oriented programming languages such as Java, Smalltalk, C++, and Includes conventional procedural programming languages - such as the "C" language or similar programming languages.
  • the program code may execute entirely on the user's computer, partly on the user's computer, as a stand-alone software package, partly on the user's computer and partly on a remote computer or entirely on the remote computer or server.
  • the remote computer can be connected to the user computer through any kind of network, including a local area network (LAN) or a wide area network (WAN), or it can be connected to an external connect).
  • LAN local area network
  • WAN wide area network
  • each block in the flowchart or block diagram may represent a module, program segment, or part of code that contains one or more logic functions for implementing the specified executable instructions.
  • the functions noted in the block may occur out of the order noted in the figures. For example, two blocks shown in succession may, in fact, be executed substantially concurrently, or they may sometimes be executed in the reverse order, depending upon the functionality involved.
  • each block in the block diagrams and/or flowcharts, and combinations of blocks in the block diagrams and/or flowcharts can be implemented by a dedicated hardware-based system that performs specified functions or operations. , or may be implemented by a combination of special purpose hardware and computer instructions.
  • the modules involved in the embodiments described in the present disclosure may be implemented by software or by hardware. Wherein, the name of the module does not constitute a limitation on the module itself under certain circumstances, for example, the original feature information acquisition module may also be described as an "information acquisition module".
  • the functions described herein above may be performed at least in part by one or more hardware logic components.
  • exemplary types of hardware logic components include: field programmable gate array (FPGA), application specific integrated circuit (ASIC), application specific standard product (ASSP), system on chip (SOC), complex programmable Logical device (CPLD) and so on.
  • FPGA field programmable gate array
  • ASIC application specific integrated circuit
  • ASSP application specific standard product
  • SOC system on chip
  • CPLD complex programmable Logical device
  • a machine-readable medium may be a tangible medium, which may contain or store a program for use by or in combination with an instruction execution system, device, or device.
  • a machine-readable medium may be a machine-readable signal medium or a machine-readable storage medium.
  • a machine-readable medium may include, but is not limited to, an electronic, magnetic, optical, electromagnetic, infrared, or semiconductor system, device, or device, or any suitable combination of the foregoing.
  • machine-readable storage media would include one or more wire-based electrical connections, portable computer disks, hard disks, Random Access Memory (RAM), Read Only Memory (ROM), Erasable Programmable Read Only Memory (EPROM or flash memory), optical fiber, compact disk read-only memory (CD-ROM), optical storage device, magnetic storage device, or any suitable combination of the above.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • EPROM Erasable Programmable Read Only Memory
  • CD-ROM compact disk read-only memory
  • magnetic storage device or any suitable combination of the above.
  • Example 1 provides a data protection method, the method comprising: acquiring the original feature information of the target batch of reference samples of the passive participants of the joint training model; The network structure processes the original feature information to obtain target feature information corresponding to the original feature information; wherein, at least by minimizing the difference between the original training feature information of the training samples of the passive participant and the target training feature information
  • the coupling degree is the target, and the neural network structure is trained to obtain the target feature processing network structure, and the target training feature information is the neural network structure obtained by using the original training feature information as the input of the neural network structure.
  • Example 2 provides the method of Example 1, and the target feature processing network structure is obtained by training in the following manner: Obtaining the original batch of training samples of the passive participant training feature information, and target training feature information output after the neural network structure processes the original training feature information; acquiring target gradient information corresponding to parameters of the neural network structure, wherein the target gradient information is based on Determined by a preset loss function and the target training feature information, the preset loss function includes a loss function that characterizes the coupling degree between the original training feature information and the target training feature information; according to the target gradient information Updating the parameters of the neural network structure; determining whether the training of the neural network structure is completed; in response to the completion of the training of the neural network structure, obtaining the target feature processing network structure.
  • Example 3 provides the method of Example 2, the target gradient information includes at least one of distance correlation gradient information, confrontation reconstruction gradient information, and noise regularization gradient information, correspondingly , the preset loss function includes at least one of a distance correlation loss function, an adversarial reconstruction loss function, and a noise regularization loss function; correspondingly, the acquisition of the target gradient information corresponding to the parameters of the neural network structure includes At least one of the following: According to the original training feature information, the target training feature information, the distance correlation loss a loss function, determining the distance correlation gradient information, wherein the distance correlation loss function is a function that characterizes the distance correlation between the original training feature information and the target training feature information; according to the original training The feature information, the first prediction feature information, the adversarial reconstruction loss function, determine the first gradient information corresponding to the parameters of the neural network structure, and determine the gradient information after the first gradient information is processed by the gradient inversion layer Reconstruction gradient information for the confrontation, wherein the first prediction feature information is obtained by reconstructing according to
  • Example 4 provides the method of Example 3, the first prediction feature information is the feature reconstruction network obtained by inputting the target training feature information into a feature reconstruction network structure The feature information output by the structure; in the case where the target gradient information includes the adversarial reconstruction gradient information, and the preset loss function includes the adversarial reconstruction loss function, the training process of the target feature processing network structure further includes: According to the original training feature information, the first prediction feature information, and the adversarial reconstruction loss function, determine the second gradient information corresponding to the parameters of the feature reconstruction network structure; return the second gradient information to the feature Reconstructing the network structure, so that the parameters of the feature reconstruction network structure are updated by the feature reconstruction network structure according to the second gradient information.
  • Example 5 provides the method of Example 3, wherein the target gradient information further includes cross-entropy gradient information, and the preset loss function further includes a cross-entropy loss function; the acquiring the The target gradient information corresponding to the parameters of the neural network structure further includes: sending the target training feature information to the active participant of the joint training model, so that the active participant performs label data according to the target training feature information Predict, and determine the cross-entropy gradient information according to the label data prediction result and the cross-entropy loss function, wherein the cross-entropy loss function is a function that characterizes the cross-entropy between the label data prediction result and the real label data ; Receive the cross-entropy gradient information sent by the active participant.
  • the target gradient information further includes cross-entropy gradient information
  • the preset loss function further includes a cross-entropy loss function
  • the acquiring the The target gradient information corresponding to the parameters of the neural network structure further includes: sending the target training feature information to the active participant of the joint training model, so that the active participant
  • Example 6 provides the method of Example 5, the determination of whether the neural network structure is trained includes: the function value of the cross-entropy loss function and the value of the objective function correspond to When the sum of the products of the weights is the smallest, it is determined that the training of the neural network structure is completed, wherein the objective function value includes the function value of the distance correlation loss function, the function value of the adversarial reconstruction loss function, the At least one of the function values of the noise regularization loss function.
  • Example 7 provides the method of Example 1, and the method further includes: sending the target characteristic information to an active participant of the joint training model, so that the active participant according to the The target feature information determines the gradient transfer information of the parameters of the joint training model; receives the gradient transfer information sent by the active participant, and updates the parameters of the joint training model according to the gradient transfer information.
  • Example 8 provides a method for training a feature processing network structure, the method including: obtaining original training feature information of a specified batch of training samples of a passive participant of a joint training model, and the target training feature information output by the neural network structure after processing the original training feature information; obtaining target gradient information corresponding to the parameters of the neural network structure, wherein the target gradient information is based on the preset loss function and the determined by the target training feature information, the preset loss function includes a loss function that characterizes the coupling degree between the original training feature information and the target training feature information; the neural network structure is calculated according to the target gradient information update the parameters of the neural network structure, wherein at least aiming at minimizing the coupling degree between the original training feature information and the target training feature information, the neural network structure is trained; determining whether the training of the neural network structure is completed ; Responding to the completion of the training of the neural network structure, obtaining the target feature processing network structure.
  • Example 9 provides the method of Example 8, the target gradient information includes at least one of distance correlation gradient information, confrontation reconstruction gradient information, and noise regularization gradient information, correspondingly , the preset loss function includes at least one of a distance correlation loss function, an adversarial reconstruction loss function, and a noise regularization loss function; correspondingly, the acquisition of the target gradient information corresponding to the parameters of the neural network structure includes At least one of the following: determining the distance correlation gradient information according to the original training feature information, the target training feature information, and the distance correlation loss function, wherein the distance correlation loss function is characterized by A function of the distance correlation between the original training feature information and the target training feature information; according to the original training feature information, the first prediction feature information, and the adversarial reconstruction loss function, determine the neural network structure The first gradient information corresponding to the parameters, and determining the gradient information after the first gradient information is processed by the gradient inversion layer as the confrontation reconstruction gradient information, wherein the first prediction feature information is based on the target training Obtained by reconstructing
  • Example 10 provides the method of Example 9, the first prediction feature information is the feature reconstruction network obtained by inputting the target training feature information into the feature reconstruction network structure feature information of the structure output; when the target gradient information includes the adversarial reconstruction gradient information, and the preset loss function includes the adversarial reconstruction loss function, the method further includes: according to the original training feature information , the first predicted feature information, the distance correlation loss function, determine the second gradient information corresponding to the parameters of the feature reconstruction network structure; return the second gradient information to the feature reconstruction network structure, to be obtained by The feature reconstruction network structure The structure updates the parameters of the feature reconstruction network structure according to the second gradient information.
  • Example 11 provides the method of Example 9, wherein the target gradient information further includes cross-entropy gradient information, and the preset loss function further includes a cross-entropy loss function; the acquiring the The target gradient information corresponding to the parameters of the neural network structure further includes: sending the target training feature information to the active participant of the joint training model, so that the active participant performs label data according to the target training feature information Predict, and determine the cross-entropy gradient information according to the label data prediction result and the cross-entropy loss function, wherein the cross-entropy loss function is a function that characterizes the cross-entropy between the label data prediction result and the real label data ; Receive the cross-entropy gradient information sent by the active participant.
  • the target gradient information further includes cross-entropy gradient information
  • the preset loss function further includes a cross-entropy loss function
  • the acquiring the The target gradient information corresponding to the parameters of the neural network structure further includes: sending the target training feature information to the active participant of the joint training model, so that the active participant
  • Example 12 provides the method of Example 11.
  • the determining whether the neural network structure is trained includes: The function value of the cross-entropy loss function and the target function value correspond to When the sum of the products of the weights is the smallest, it is determined that the training of the neural network structure is completed, wherein the objective function value includes the function value of the distance correlation loss function, the function value of the adversarial reconstruction loss function, the At least one of the function values of the noise regularization loss function.
  • Example 13 provides a data protection device, the device comprising: an original feature information acquisition module, configured to acquire reference samples of a target batch of passive participants of a joint training model original feature information; a target feature information determination module, configured to process the original feature information through a target feature processing network structure to obtain target feature information corresponding to the original feature information; wherein, at least by minimizing the passive participant
  • the coupling degree between the original training feature information of the training sample and the target training feature information is the target, and the neural network structure is trained to obtain the target feature processing network structure, and the target training feature information is the original training feature information
  • the feature information is used as the input of the neural network structure, and the obtained feature information corresponding to the original training feature information is output by the neural network structure.
  • Example 14 provides a feature processing network structure training device, the device includes: a training feature information acquisition module, configured to acquire a specified batch of passive participants of the joint training model The original training feature information of the training sample, and the target training feature information output after the neural network structure processes the original training feature information; the target gradient information acquisition module is used to acquire the target gradient information corresponding to the parameters of the neural network structure , wherein, the target gradient information is determined according to a preset loss function and the target training feature information, and the preset loss function includes a coupling degree between the original training feature information and the target training feature information a loss function; a parameter update module, configured to update the parameters of the neural network structure according to the target gradient information, wherein at least to minimize the coupling between the original training feature information and the target training feature information training the neural network structure; a judging module, configured to determine whether the neural network structure has been trained; a network structure obtaining module, configured to obtain the target feature in response to the completion of the neural network structure training Deal with network
  • Example 15 provides a computer-readable medium on which a computer program is stored, and when the program is executed by a processing device, the steps of any one of the methods described in Examples 1-7, Or, when the program is executed by the processing device, the steps of any one of the methods described in Examples 8-12 are realized.
  • Example 16 provides an electronic device, including: a storage device, on which a computer program is stored; a processing device, configured to execute the computer program in the storage device, to Implementing the steps of the method described in any one of Examples 1-7, or implementing the steps of the method described in any one of Examples 8-12.
  • the above description is only a preferred embodiment of the present disclosure and an illustration of the applied technical principles.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开涉及一种数据保护方法、网络结构训练方法、装置、介质及设备,该数据保护方法包括:获取联合训练模型的被动参与方的目标批次的参考样本的原始特征信息;通过目标特征处理网络结构对原始特征信息进行处理,得到原始特征信息对应的目标特征信息;其中,至少以最小化被动参与方的训练样本的原始训练特征信息与目标训练特征信息之间的耦合5 度为目标,对神经网络结构进行训练,以得到目标特征处理网络结构,目标训练特征信息为将原始训练特征信息作为神经网络结构的输入、得到的神经网络结构输出的与原始训练特征信息对应的特征信息。通过上述方案,降低被动参与方的原始数据发生泄露的风险,实现对被动参与方的原始数据的保护,提高数据安全性。

Description

数 据保 护 方法 、 网络结 构训 练方 法、 装置、 介质及设 备 优先权信息 本 申请要求于 2021年 05月 28日提交的, 申请名称为 “数据保护方法、 网络结构训练 方法、 装置、 介质及设备 ” 的、 中国专利申请号 “202110593862.X” 的优先权, 该申请的 全部内容通过引用结合在本申请中。 技术领域 本 公开涉及计算机技术领域, 具体地, 涉及一种数据保护方法、 网络结构训练方法、 装置、 介质及设备。 背景技术 随着人工智能技术的发展, 机器学习取得越来越广泛的应用。 近年来, 为了保护数据 安全和解决数据孤岛的问题, 相关的方式通常采用联合训练模型来实现在不暴露原始数据 的前提下完成机器学习模型的共同训练。 针对有监督机器学习模型, 通常将拥有样本标签 数据的一方称为主动参与方 (active party), 将未拥有样本标签数据的一方称为被动参与方 (passive party) o 主动参与方与被动参与方之间互相传输的数据是需要进行保护的重要数 据。 发明内容 提供 该发明内容部分以便以简要的形式介绍构思, 这些构思将在后面的具体实施方式 部分被详细描述。 该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特 征, 也不旨在用于限制所要求的保护的技术方案的范围。 第 一方面, 本公开提供一种数据保护方法, 所述方法包括: 获取联合训练模型的被动 参与方的 目标批次的参考样本的原始特征信息; 通过目标特征处理网络结构对所述原始特 征信息进行处理, 得到所述原始特征信息对应的目标特征信息; 其中, 至少以最小化所述 被动参与方的训练样本的原始训练特征信息与目标训练特征信息之间的耦合度为目标, 对 神经网络结构进行训练, 以得到所述目标特征处理网络结构, 所述目标训练特征信息为将 所述原始训练特征信息作为所述神经网络结构的输入、 得到的所述神经网络结构输出的与 所述原始训练特征信息对应的特征信息。 第 二方面, 本公开提供一种特征处理网络结构训练方法, 所述方法包括: 获取联合训 练模型的被动参与方的指定批次的训练样本的原始训练特征信息, 以及神经网络结构对所 述原始训练特征信息进行处理之后输出的目标训练特征信息; 获取所述神经网络结构的参 数对应的目标梯度信息, 其中, 所述目标梯度信息是根据预设损失函数以及所述目标训练 特征信息确定的, 所述预设损失函数包括表征所述原始训练特征信息与所述目标训练特征 信息之间的耦合度的损失函数; 根据所述目标梯度信息对所述神经网络结构的参数进行更 新, 其中, 至少以最小化所述原始训练特征信息与所述目标训练特征信息之间的耦合度为 目标, 对所述神经网络结构进行训练; 确定所述神经网络结构是否训练完成; 响应于所述 神经网络结构训练完成, 得到目标特征处理网络结构。 第三方面 , 本公开提供一种数据保护装置, 所述装置包括: 原始特征信息获取模块, 用于获取联合训练模型的被动参与方的目标批次的参考样本的原始特征信息; 目标特征信 息确定模块, 用于通过目标特征处理网络结构对所述原始特征信息进行处理, 得到所述原 始特征信息对应的目标特征信息; 其中, 至少以最小化所述被动参与方的训练样本的原始 训练特征信息与目标训练特征信息之间的耦合度为目标, 对神经网络结构进行训练, 以得 到所述目标特征处理网络结构, 所述目标训练特征信息为将所述原始训练特征信息作为所 述神经网络结构的输入、 得到的所述神经网络结构输出的与所述原始训练特征信息对应的 特征信息。 第 四方面, 本公开提供一种特征处理网络结构训练装置, 所述装置包括: 训练特征信 息获取模块, 用于获取联合训练模型的被动参与方的指定批次的训练样本的原始训练特征 信息, 以及神经网络结构对所述原始训练特征信息进行处理之后输出的目标训练特征信息; 目标梯度信息获取模块, 用于获取所述神经网络结构的参数对应的目标梯度信息, 其中, 所述目标梯度信息是根据预设损失函数以及所述目标训练特征信息确定的, 所述预设损失 函数包括表征所述原始训练特征信息与所述目标训练特征信息之间的耦合度的损失函数; 参数更新模块, 用于根据所述目标梯度信息对所述神经网络结构的参数进行更新, 其中, 至少以最小化所述原始训练特征信息与所述目标训练特征信息之间的耦合度为目标, 对所 述神经网络结构进行训练; 判断模块, 用于确定所述神经网络结构是否训练完成; 网络结 构获得模块, 用于响应于所述神经网络结构训练完成, 得到所述目标特征处理网络结构。 第五方面 , 本公开提供一种计算机可读介质, 其上存储有计算机程序, 该程序被处理 装置执行时实现本公开第一方面提供的所述方法的步骤。 第六方面 , 本公开提供一种计算机可读介质, 其上存储有计算机程序, 该程序被处理 装置执行时实现本公开第二方面提供的所述方法的步骤。 第七方面 , 本公开提供一种电子设备, 包括: 存储装置, 其上存储有计算机程序; 处 理装置, 用于执行所述存储装置中的所述计算机程序, 以实现本公开第一方面提供的所述 方法的步骤。 第八方面 , 本公开提供一种电子设备, 包括: 存储装置, 其上存储有计算机程序; 处 理装置, 用于执行所述存储装置中的所述计算机程序, 以实现本公开第二方面提供的所述 方法的步骤。 本公开 的其他特征和优点将在随后的具体实施方式部分予以详细说明。 附图说明 结合 附图并参考以下具体实施方式, 本公开各实施例的上述和其他特征、 优点及方面 将变得更加明显。 贯穿附图中, 相同或相似的附图标记表示相同或相似的元素。 应当理解 附图是示意性的, 原件和元素不一定按照比例绘制。 在附图中: 图 1是根据一示例性实施例示出的一种实施环境示意图。 图 2是根据一示例性实施例示出的一种数据保护方法的流程图。 图 3是根据一示例性实施例示出的一种特征处理网络结构训练方法的流程图。 图 4是根据一示例性实施例示出的一种对神经网络结构进行训练的示意图。 图 5是根据一示例性实施例示出的一种数据保护装置的框图。 图 6是根据一示例性实施例示出的一种特征处理网络结构训练装置的框图。 图 7是根据一示例性实施例示出的一种电子设备的结构示意图。 具体实施方式 下面将参 照附图更详细地描述本公开的实施例。 虽然附图中显示了本公开的某些实施 例, 然而应当理解的是, 本公开可以通过各种形式来实现, 而且不应该被解释为限于这里 阐述的实施例, 相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是, 本公开的附图及实施例仅用于示例性作用, 并非用于限制本公开的保护范围。 应 当理解, 本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行, 和 /或 并行执行。 此外, 方法实施方式可以包括附加的步骤和 /或省略执行示出的步骤。 本公开的 范围在此方面不受限制。 本文使用 的术语 “包括 ”及其变形是开放性包括, 即 “包括但不限于”。术语“基于”是“至 少部分地基于”。术语“一个实施例”表示“至少一个实施例”; 术语“另一实施例”表示“至少一 个另外的实施例”; 术语“一些实施例”表示“至少一些实施例”。 其他术语的相关定义将在下 文描述中给出。 需要注意, 本公开中提及的“第一”、 “第二”等概念仅用于对不同的装置、 模块或单元 进行区分, 并非用于限定这些装置、 模块或单元所执行的功能的顺序或者相互依存关系。 需要注意, 本公开中提及的“一个”、 “多个”的修饰是示意性而非限制性的, 本领域技 术人员应当理解, 除非在上下文另有明确指出, 否则应该理解为 “一个或多个”。 本 公开实施方式中的多个装置之间所交互的消息或者 信息的名称仅用于说明性的目 的, 而并不是用于对这些消息或信息的范围进行限制。 首先对本公开的应用场景进行介绍。 本公开可以应用于联邦学习或联合学习过程中, 联合训练模型通常用于实现在不暴露原始数据的前提下完成机器学习模型的共同训练, 针 对有监督机器学习模型, 通常将拥有样本标签数据的一方称为主动参与方 (active party), 将未拥有样本标签数据的一方称为被动参与方 ( passive party)。 主动参与方和被动参与方 之间可以通过网络进行交互, 以接收或发送消息等, 二者之间互相传输的数据是需要进行 保护的重要数据。 图 1是根据一示例性实施例示出的一种实施环境示意图, 如图 1所示, 该实施环境可包括被动参与方 101和主动参与方 102, 被动参与方 101和主动参与方 102 之间可以进行通信耦合, 例如可以采用 3G、 4G、 5G、 NB-IOT、 eMTC、 LTE、 LTE-A等任 一种方式进行通信。 值得说明的是, 本公开中当提及被动参与方进行发送、 接收、 处理数据的操作时, 可 理解为是被动参与方通过被动参与方的服务器设备进行这些操作, 以及, 当提及主动参与 方进行发送、 接收、 处理数据的操作时, 可理解为是主动参与方通过主动参与方的服务器 设备进行这些操作。 以下对本公开实施例提供的技术方案进行详细说明。 图 2是根据一示例性实施例示出的一种数据保护方法的流程图, 该方法可应用于联合 训练模型的被动参与方, 如图 1所示的被动参与方 101, 如图 2所示, 该方法可包括 S201 和 S202。 在 S201中, 获取联合训练模型的被动参与方的目标批次的参考样本的原始特征信息。 其 中, 联合训练模型在训练过程中通常采用每次将一批 (batch) 样本输入初始模型进 行训练的方式, 该目标批次的参考样本即为一次训练过程中的一批样本。 被动参与方可以 从样本集合中选取一批样本作为该目标批次的参考样本。 目标批次的参考样本的原始特征 信息, 可包括目标批次的所有参考样本各自的原始特征信息的集合。 在 S202中, 通过目标特征处理网络结构对原始特征信息进行处理, 得到原始特征信息 对应的目标特征信息。 目标特征处理网络结构可以是多层神经网络结构。 在获取到目标批次的参考样本的原 始特征信息后, 可将该原始特征信息输入到目标特征处理网络结构中, 得到目标特征处理 网络结构输出的该原始特征信息对应的目标特征信息, 该目标特征信息即对被动参与方的 参考样本的原始特征信息进行处理得到的特征表示 (embedding)。 被动参与方可将 目标特征信息发送至主动参与方,主动参与方具有真实样本标签数据, 可以根据该目标特征信息进行标签预测, 从而计算标签预测损失以及梯度相关信息。 因此, 被动参与方向主动参与方发送的目标特征信息是需要重点保护的数据, 目标特征信息是通 过对原始特征信息进行处理得到的, 如果主动参与方接收到目标特征信息后, 能够根据目 标特征信息反推出被动参与方的原始特征信息, 那么则发生被动参与方的原始数据泄露的 风险, 从而降低了联合学习过程中的数据安全性。 本公开 中, 至少以最小化被动参与方的训练样本的原始训练特征信息与目标训练特征 信息之间的耦合度为目标, 对神经网络结构进行训练, 以得到目标特征处理网络结构, 该 目标训练特征信息为将原始训练特征信息作为神经网络结构的输入、 得到的神经网络结构 输出的与原始训练特征信息对应的特征信息。 其 中, 目标特征处理网络结构可以是预先训练的, 被动参与方的训练样本可以是训练 得到该目标特征处理网络的过程中使用的样本, 上述目标批次的参考样本可以是在目标特 征处理网络结构训练完成之后, 训练联合训练模型的过程中使用的样本, 训练样本和参考 样本可以相同或不同。 原始训练特征信息与 目标训练特征信息之间的耦合度越高, 则二者之间的关联程度越 大, 能够从目标训练特征信息反推出原始训练特征信息的可能性越大, 反之, 原始训练特 征信息与目标训练特征信息之间的耦合度越低, 则二者之间的关联程度越小, 能够从目标 训练特征信息反推出原始训练特征信息的可能性越小。 由于至少以最小化被动参与方的训练样本的原始训练特征信息与目标训练特征信息之 间的耦合度为目标, 对神经网络结构进行训练, 从而得到目标特征处理网络结构, 因此, 采用训练完成的目标特征处理网络对目标批次的参考样本的原始特征信息进行处理得到目 标特征信息, 可以使得目标特征信息与原始特征信息之间的耦合度降低, 降低能够从目标 特征信息反推出原始特征信息的可能性,从而降低被动参与方的原始数据发生泄露的风险。 通过上述技术方案, 获取联合训练模型的被动参与方的目标批次的参考样本的原始特 征信息, 并通过目标特征处理网络结构对原始特征信息进行处理, 得到对应的目标特征信 息。 其中, 至少以最小化被动参与方的训练样本的原始训练特征信息与目标训练特征信息 之间的耦合度为目标, 对神经网络结构进行训练, 以得到目标特征处理网络结构。 如此, 采用训练完成的目标特征处理网络对目标批次的参考样本的原始特征信息进行处理得到目 标特征信息, 可以使得目标特征信息与原始特征信息之间的耦合度降低, 降低能够从目标 特征信息反推出原始特征信息的可能性,从而降低被动参与方的原始数据发生泄露的风险, 实现对被动参与方的原始数据的保护, 提高数据安全性。 下面介绍对神经网络结构进行训练得到目标特征处理网络结构的过程, 图 3是根据一 示例性实施例示出的一种特征处理网络结构训练方法的流程图, 如图 3所示, 该方法可包 括 S301至 S305。 在 S301中,获取联合训练模型的被动参与方的指定批次的训练样本的原始训练特征信 息, 以及神经网络结构对原始训练特征信息进行处理之后输出的目标训练特征信息。 其 中, 在对神经网络结构进行训练的过程中, 也可采用每次将一批样本输入神经网络 结构的方式, 该指定批次的训练样本可以是对神经网络结构进行一次训练过程中的一批样 本。 在 S302中, 获取神经网络结构的参数对应的目标梯度信息。 其 中, 该目标梯度信息可以是根据预设损失函数以及目标训练特征信息确定的, 预设 损失函数可包括表征原始训练特征信息与目标训练特征信息之间的耦合度的损失函数。 在 S303中, 根据目标梯度信息对神经网络结构的参数进行更新。 在 S304中, 确定神经网络结构是否训练完成。 示例地 , 可采用梯度下降法对神经网络结构的参数进行更新, 这样, 原始训练特征信 息与目标训练特征信息之间的耦合度在训练的过程中可以逐渐降低。 例如在预设损失函数 的函数值最小时, 可以确定神经网络结构训练完成, 从而实现至少以最小化原始训练特征 信息与目标训练特征信息之间的耦合度为目标, 对神经网络结构进行训练的目的。 在 S305中, 响应于神经网络结构训练完成, 得到目标特征处理网络结构。 如果确定神经 网络结构未训练完成, 可继续获取下一批次的训练样本对神经网络结构 进行训练, 直至神经网络结构训练完成, 得到目标特征处理网络结构。 通过上述技术方案, 神经网络结构的参数对应的目标梯度信息, 是根据预设损失函数 以及目标训练特征信息确定的, 预设损失函数可包括表征原始训练特征信息与目标训练特 征信息之间的耦合度的损失函数。 根据目标梯度信息对神经网络结构的参数进行更新, 在 神经网络结构训练完成的情况下得到目标特征处理网络结构。 如此, 通过训练完成的目标 特征处理网络结构, 对被动参与方的原始特征信息进行处理得到的目标特征信息, 与原始 特征信息之间的耦合度降低, 降低能够从目标特征信息反推出原始特征信息的可能性, 实 现对被动参与方的原始数据的保护, 提高数据安全性。 以下结合图 4介绍本公开中对神经网络结构进行训练的过程。 图 4是根据一示例性实 施例示出的一种对神经网络结构进行训练的示意图, 在图 4中, 实线箭头所指表示前向传 播 (Forward Propagation), 虚线箭头所指表示反向传播 (Backward Propagation)。 本公开 中, 目标梯度信息可包括距离相关性梯度信息、 对抗重建梯度信息、 噪声正则 化梯度信息中的至少一者, 相应地, 预设损失函数可包括距离相关性损失函数、 对抗重建 损失函数、 噪声正则化损失函数中的至少一者; 相应地, S302中获取神经网络结构的参数对应的目标梯度信息, 可包括以下步骤 (a)、 (b)、 (c) 中的至少一者。
(a)根据原始训练特征信息、 目标训练特征信息、 距离相关性损失函数, 确定距离相 关性梯度信息。 距离相关性损失函数为表征原始训练特征信息与 目标训练特征信息之间的距离相关性 (Distance Correlation) 的函数。 其中, 原始训练特征信息与目标训练特征信息之间的距离 相关性越小, 可表征二者之间的耦合度越低, 原始训练特征信息与目标训练特征信息之间 的距离相关性越大, 可表征二者之间的耦合度越大。 该距离相关性损失函数可如下表达式 ( 1 ) 所示:
Ld=DCOR (X, F(X)) ( 1 ) 其 中, Ld表示距离相关性损失函数, X表示原始训练特征信息, F(X)表示目标训练特 征信息。 如 图 4所示, 在被动参与方, 神经网络结构可将目标训练特征信息通过前向传播传输 给距离相关性损失函数值计算模块, 该距离相关性损失函数值计算模块可根据原始训练特 征信息、 目标训练特征信息、 距离相关性损失函数, 计算距离相关性损失函数的函数值, 被动参与方可根据该函数值确定距离相关性梯度信息, 并通过反向传播将距离相关性梯度 信息回传给神经网络结构, 其中, 计算距离相关性梯度信息的方式可参照相关技术。 这样, 神经网络结构可根据距离相关性梯度信息、 采用梯度下降法对其参数进行更新, 如此, 使 得原始训练特征信息与目标训练特征信息之间的距离相关性逐渐变小, 即使得二者之间的 耦合度越来越低。 (b) 根据原始训练特征信息、 第一预测特征信息、 对抗重建损失函数, 确定神经网络 结构的参数对应的第一梯度信息, 并将第一梯度信息经过梯度反转层处理之后的梯度信息 确定为对抗重建梯度信息。 其 中, 第一预测特征信息是根据目标训练特征信息进行重建得到的, 如图 4所示, 在 一示例中, 神经网络结构可将目标训练特征信息传输给特征重建网络结构, 特征重建网络 结构可用于对目标训练特征信息进行重建, 即根据目标训练特征信息预测原始训练特征信 息。 第一预测特征信息可以为将目标训练特征信息输入到特征重建网络结构中、 得到的特 征重建网络结构输出的特征信息。 特征重建 网络结构可通过前向传播将第一预测特征信息传输给对抗重建损失函数值计 算模块, 对抗重建损失函数值计算模块可根据原始训练特征信息、 第一预测特征信息、 对 抗重建损失函数, 计算对抗重建损失函数的函数值, 被动参与方可根据该函数值确定神经 网络结构的参数对应的第一梯度信息。 其中, 对抗重建损失函数为表征第一预测特征信息 与原始训练特征信息之间的距离的函数, 该距离例如可以为欧式距离。 第一预测特征信息 与原始训练特征信息之间的距离越小, 可表征二者之间的相似度越大, 即特征重建网络结 构预测的原始训练特征信息与实际的原始训练特征信息越相似, 目标训练特征信息与原始 训练特征信息之间的耦合度越大; 反之, 第一预测特征信息与原始训练特征信息之间的距 离越大, 可表征二者之间的相似度越小, 即特征重建网络结构预测的原始训练特征信息与 实际的原始训练特征信息差别越大, 目标训练特征信息与原始训练特征信息之间的耦合度 越低。 该对抗重建损失函数可如下表达式 (2) 所示:
Lr=P (X, R1(F(X))) (2) 其 中, Lr表示对抗重建损失函数, X表示原始训练特征信息, R1(F(X))表示第一预测 特征信息, P表示计算第一预测特征信息与原始训练特征信息之间的距离的函数, 例如可 以为欧式距离计算函数。 如 图 4 所示, 神经网络结构与特征重建网络结构之间可设置有梯度反转层 (GRL, Gradient Reversal Layer), 在反向传播过程中, 被动参与方可将第一梯度信息经过梯度反转 层处理之后的梯度信息确定为对抗重建梯度信息, 并将对抗重建梯度信息回传给神经网络 结构。 示例地, 梯度反转层可将第一梯度信息乘以 - A, 被动参与方可将第一梯度信息乘以 - A之后的梯度信息确定为对抗重建梯度信息, 其中, A为大于 0的数,其取值可预先设置。 其 中, 对抗重建损失函数表征第一预测特征信息与原始训练特征信息之间的距离, 使 得该对抗重建损失函数越小, 即使得第一预测特征信息与原始训练特征信息之间的相似度 越大,说明特征重建网络结构预测的原始训练特征信息与实际的原始训练特征信息越相似, 如此便表征可以较为容易地根据目标训练特征信息反推出实际的原始训练特征信息, 那么 目标训练特征信息与原始训练特征信息之间的耦合度越大。 而训练神经网络结构的目的是 降低目标训练特征信息与原始训练特征信息之间的耦合度, 因此, 在将梯度信息回传给神 经网络结构时, 经过梯度反转层的处理, 这样神经网络结构可根据对抗重建梯度信息、 采 用梯度下降法对其参数进行更新, 对于神经网络结构的训练的目标实际是在逐渐增大对抗 重建损失函数的函数值, 达到尽可能增大根据目标训练特征信息反推出实际的原始训练特 征信息的难度的目的,从而逐渐降低目标训练特征信息与原始训练特征信息之间的耦合度。 另外 需要说明的是, 在正向传播过程中, 如果目标特征信息经过梯度反转层之后再传 输给特征重建网络结构, 此时梯度反转层不对目标特征信息做任何处理, 直接将目标特征 信息传输给特征重建网络结构。
(c)根据第二预测特征信息、 噪声信息、 噪声正则化损失函数, 确定噪声正则化梯度 信息。 其 中, 第二预测特征信息是根据目标训练特征信息进行重建得到的, 第一预测特征信 息与第二预测特征信息相同或不同。 在一示例中, 如图 4所示, 特征重建网络结构可将输 出的第一预测特征信息传输给噪声正则化损失函数值计算模块, 该第一预测特征信息可作 为确定噪声正则化梯度信息的第二预测梯度信息, 即第一预测特征信息与第二预测特征信 息相同。 在另一示例中, 该第二预测特征信息也可是由被动参与方中其他的重建模块根据 目标训练特征信息进行重建得到的, 并与第一预测特征信息不同。 图 4所示的传输方式仅 为示例性的, 不构成对本公开实施方式的限制。 噪声信息可 以为随机噪声信息, 例如随机高斯噪声信息。 噪声正则化损失函数可以为 表征第二预测特征信息与噪声信息之间误差的函数, 第二预测特征信息与噪声信息之间误 差越小, 表征根据目标训练特征信息重建出的原始训练特征信息越像噪声信息, 即目标训 练特征信息与原始训练特征信息之间的耦合度越低。 示例地, 该噪声正则化损失函数可如 下表达式 (3) 所示:
Ln =PR2(F(X))-X ⑶ 其 中, Ln表示噪声正则化损失函数, R2(F(X))表示第二预测特征信息, Xnoise表示噪 声信息。 噪声正则化损失函数值计算模块可根据第二预测特征信息、 噪声信息、 噪声正则化损 失函数, 确定噪声正则化损失函数的函数值, 被动参与方可根据该函数值计算噪声正则化 梯度信息, 并通过反向传播将该噪声正则化梯度信息回传给神经网络结构, 神经网络结构 可采用梯度下降法对其参数进行更新。 这样, 使得第二预测特征信息与噪声信息越接近, 即根据目标训练特征信息重建出的原始训练特征信息越来越像噪声信息, 使得目标训练特 征信息与原始训练特征信息之间的耦合度逐渐降低。 需要说 明的是, 可采用 (a)、 (b)、 (c) 这三种方式中的至少一者确定神经网络结构的 参数对应的目标梯度信息, 若采用这三种方式中的多者, 即目标梯度信息包括距离相关性 梯度信息、 对抗重建梯度信息、 噪声正则化梯度信息中的多者的情况下, 神经网络结构分 别根据这多个梯度信息更新自身的参数。 另外, 图 4所示的特征重建网络结构、 梯度反转 层、 距离相关性损失函数值计算模块、 对抗重建损失函数值计算模块、 噪声正则化损失函 数值计算模块仅在训练神经网络结构时使用, 在神经网络结构训练完成得到目标特征处理 网络结构后, 在实际训练联合训练模型的过程中, 这些模块是不参与的。 通过上述方案 , 距离相关性损失函数、 对抗重建损失函数、 噪声正则化损失函数均可 表征原始训练特征信息与目标训练特征信息之间的耦合度, 神经网络结构根据距离相关性 梯度信息、 对抗重建梯度信息、 噪声正则化梯度信息中的至少一者更新自身参数, 可以实 现以最小化被动参与方的训练样本的原始训练特征信息与目标训练特征信息之间的耦合度 为目标, 对神经网络结构进行训练的目的。 在一个实施例 中, 在目标梯度信息包括对抗重建梯度信息, 预设损失函数包括对抗重 建损失函数的情况下, 目标特征处理网络结构的训练过程还可包括: 根据原始 训练特征信息、 第一预测特征信息、 对抗重建损失函数, 确定特征重建网络 结构的参数对应的第二梯度信息; 将第二梯度信 息回传至特征重建网络结构, 以由特征重建网络结构根据第二梯度信息 对特征重建网络结构的参数进行更新。 其 中, 第一预测特征信息、 对抗重建损失函数己在上文介绍, 对抗重建损失函数为表 征第一预测特征信息与原始训练特征信息之间的距离的函数, 该第二梯度信息用于更新图 4 所示的特征重建网络结构的参数, 特征重建网络结构可采用梯度下降法对自身的参数进 行更新。 这样, 根据对抗重建损失函数的函数值可确定出两个梯度信息, 一个是用于更新特征 重建网络结构的参数的第二梯度信息, 即使得特征重建网络重建出的第一预测特征信息与 实际的原始训练特征信息越接近, 另一个是用于更新神经网络结构的参数的对抗重建梯度 信息, 即尽可能增大根据目标训练特征信息反推出实际的原始训练特征信息的难度, 如此 达到对抗训练的目的。 并且 , 对特征重建网络结构进行训练, 使得特征重建网络结构的重建效果越来越好, 则对神经网络结构进行训练的目的, 还包括使得目标训练特征信息经过重建效果较好的特 征重建网络结构之后, 预测出的原始训练特征信息与实际的原始训练特征信息之间的相似 度降低。 本 公开中, 除了以最小化被动参与方的训练样本的原始训练特征信息与目标训练特征 信息之间的耦合度为目标, 对神经网络结构进行训练之外, 还可以最小化标签数据预测差 异为目标, 对神经网络结构进行训练。 目标梯度信息还可包括交叉熵梯度信息, 预设损失函数还可包括交叉熵损失函数;
S302 中获取神经网络结构的参数对应的目标梯度信息, 还可包括: 将 目标训练特征信息发送至联合训练模型的主动参与方, 以使主动参与方根据目标训 练特征信息进行标签数据预测, 并根据标签数据预测结果和交叉熵损失函数确定交叉熵梯 度信息, 其中, 交叉熵损失函数为表征标签数据预测结果与真实标签数据之间的交叉熵的 函数; 接收主动参与方发送的交叉熵梯度信息。 如 图 4所示, 被动参与方可将目标训练特征信息发送至主动参与方, 主动参与方可将 目标训练特征信息输入到标签数据预测网络结构中, 得到标签数据预测网络结构输出的标 签数据预测结果, 交叉熵损失函数值计算模块可根据标签数据预测结果和交叉熵损失函数 (Cross Entropy Loss) 确定交叉熵损失函数的函数值, 主动参与方可根据该函数值计算交 叉熵梯度信息。 该交叉熵损失函数为表征标签数据预测结果与真实标签数据之间的交叉熵 的函数, 主动参与方可将交叉熵梯度信息发送至被动参与方, 被动参与方的神经网络结构 可采用梯度下降法、 根据交叉熵梯度信息更新神经网络结构的参数。 这样, 不仅考虑到保护被动参与方的原始数据的需求, 还考虑到联合训练模型的精度 的问题, 神经网络结构也可根据交叉熵梯度信息更新自身的参数, 以保证主动参与方根据 神经网络结构输出的目标训练特征信息进行标签预测的准确度, 从而保证联合训练模型的 精度。 本公开 中, S304中确定神经网络结构是否训练完成, 可包括: 在交叉熵损失函数的 函数值以及目标函数值与对应权重的乘积之和最小的情况下, 确 定神经网络结构训练完成, 其中, 目标函数值包括距离相关性损失函数的函数值、 对抗重 建损失函数的函数值、 噪声正则化损失函数的函数值中的至少一者。 示例地 , 以预设损失函数同时包括距离相关性损失函数、 对抗重建损失函数、 噪声正 则化损失函数三者为例, 在确定 L最小的情况下, 可确定神经网络结构训练完成, 其中,
L = Lc + adLd + anLn + ar Lr f LC 表示交叉熵损失函数的函数值, ^表示距离相关性 损失函数的函数值对应的权重,
Figure imgf000013_0001
表示噪声正则化损失函数的函数值对应的权重, 表 示对抗重建损失函数的函数值对应的权重, 各个权重的取值均可预先设置。 需要说明的是, 该示例仅为解释说明, 不构成对本公开实施方式的限制。 其 中, 使得交叉熵损失函数的函数值最小的目的, 为最小化标签数据预测结果与真实 标签数据之间的差异, 保证联合训练模型的精度, 使得目标函数值与对应权重的乘积最小 的目的, 为最小化被动参与方的训练样本的原始训练特征信息与目标训练特征信息之间的 耦合度。 由此, 既能保护被动参与方的原始数据, 又能保证联合训练模型的精度。 本公开提供的数据保护方法还可包括: 将 目标特征信息发送至联合训练模型的主动参与方, 以使主动参与方根据目标特征信 息确定联合训练模型的参数的梯度传递信息; 接收主动参与方发送的梯度传递信息,并根据梯度传递信息更新联合训练模型的参数。 该梯度传递信息可用于表征联合训练模型的主动参与方向被动参与方传递的、 用于调 整联合训练模型的参数的依据, 作为示例, 该梯度传递信息可以包括被动参与方的目标批 次的参考样本对应的、 利用交叉熵损失函数对联合训练模型的被动参与方所训练的模型的 输出层中各神经元对应的梯度。 由此, 通过目标特征处理网络结构对目标批次的参考样本的原始特征信息进行处理, 得到对应的目标特征信息, 使得目标特征信息与原始特征信息之间的耦合度降低, 降低主 动参与方能够从目标特征信息反推出被动参与方的原始特征信息的可能性, 从而降低被动 参与方的原始数据发生泄露的风险, 实现对被动参与方的原始数据的保护。 本公开还提供一种特征处理网络结构训练方法,该训练方法的具体过程己在上文说明, 该训练方法主要解决的技术问题在于如何提高数据安全性。 通过该训练方法训练得到的目 标特征处理网络结构, 可以对被动参与方的原始数据进行处理, 使得处理后得到的数据与 原始数据之间的耦合度降低, 降低被动参与方的原始数据发生泄漏的风险, 实现对被动参 与方的原始数据的保护, 提高数据安全性。 基于 同一发明构思, 本公开还提供一种数据保护装置, 图 5是根据一示例性实施例示 出的一种数据保护装置的框图, 如图 5所示, 该装置 500可包括: 原始特征信 息获取模块 501, 用于获取联合训练模型的被动参与方的目标批次的参考 样本的原始特征信息; 目标特征信息确定模块 502, 用于通过目标特征处理网络结构对所述原始特征信息进 行处理, 得到所述原始特征信息对应的目标特征信息; 其 中, 至少以最小化所述被动参与方的训练样本的原始训练特征信息与目标训练特征 信息之间的耦合度为目标, 对神经网络结构进行训练, 以得到所述目标特征处理网络结构, 所述目标训练特征信息为将所述原始训练特征信息作为所述神经网络结构的输入、 得到的 所述神经网络结构输出的与所述原始训练特征信息对应的特征信息。 在一个实施例 中, 所述目标特征处理网络结构是通过特征处理网络结构训练装置训练 得到的, 图 6是根据一示例性实施例示出的一种特征处理网络结构训练装置的框图, 如图 6所示, 该装置 600可包括: 训练特征信息获取模块 601, 用于获取联合训练模型的被动参与方的指定批次的训练 样本的原始训练特征信息, 以及神经网络结构对所述原始训练特征信息进行处理之后输出 的目标训练特征信息; 目标梯度信息获取模块 602, 用于获取所述神经网络结构的参数对应的目标梯度信息, 其中, 所述目标梯度信息是根据预设损失函数以及所述目标训练特征信息确定的, 所述预 设损失函数包括表征所述原始训练特征信息与所述目标训练特征信息之间的耦合度的损失 函数; 参数更新模块 603, 用于根据所述目标梯度信息对所述神经网络结构的参数进行更新, 其中,至少以最小化所述原始训练特征信息与所述目标训练特征信息之间的耦合度为目标, 对所述神经网络结构进行训练; 判断模块 604, 用于确定所述神经网络结构是否训练完成; 网络结构获得模块 605, 用于响应于所述神经网络结构训练完成, 得到所述目标特征 处理网络结构。 在一个实施例 中, 所述目标梯度信息包括距离相关性梯度信息、 对抗重建梯度信息、 噪声正则化梯度信息中的至少一者, 相应地, 所述预设损失函数包括距离相关性损失函数、 对抗重建损失函数、 噪声正则化损失函数中的至少一者; 相应地, 所述目标梯度信息获取模块 602, 包括以下中的至少一者: 距离相关性梯度信息确定模块 , 用于根据所述原始训练特征信息、 所述目标训练特征 信息、 所述距离相关性损失函数, 确定所述距离相关性梯度信息, 其中, 所述距离相关性 损失函数为表征所述原始 训练特征信息与所述目标训练特征信息之间的距离相关性 的函 数; 对抗重建梯度信息确定模块 , 用于根据所述原始训练特征信息、 第一预测特征信息、 所述对抗重建损失函数, 确定所述神经网络结构的参数对应的第一梯度信息, 并将所述第 一梯度信息经过梯度反转层处理之后的梯度信息确定为所述对抗重建梯度信息, 其中, 所 述第一预测特征信息是根据所述目标训练特征信息进行重建得到的, 所述对抗重建损失函 数为表征所述第一预测特征信息与所述原始训练特征信息之间的距离的函数; 噪声正则化梯度信息确定模块 , 用于根据第二预测特征信息、 噪声信息、 所述噪声正 则化损失函数, 确定所述噪声正则化梯度信息, 其中, 所述第二预测特征信息是根据所述 目标训练特征信息进行重建得到的, 所述第一预测特征信息与所述第二预测特征信息相同 或不同, 所述噪声正则化损失函数为表征所述第二预测特征信息与所述噪声信息之间误差 的函数。 在一个实施例 中, 所述第一预测特征信息为将所述目标训练特征信息输入到特征重建 网络结构中、 得到的所述特征重建网络结构输出的特征信息; 在所述 目标梯度信息包括所述对抗重建梯度信息, 所述预设损失函数包括所述对抗重 建损失函数的情况下, 所述装置 600还包括: 梯度确定模块 , 用于根据所述原始训练特征信息、 第一预测特征信息、 所述对抗重建 损失函数, 确定所述特征重建网络结构的参数对应的第二梯度信息; 梯度 回传模块, 用于将所述第二梯度信息回传至所述特征重建网络结构, 以由所述特 征重建网络结构根据所述第二梯度信息对所述特征重建网络结构的参数进行更新。 在一个实施例 中, 所述目标梯度信息还包括交叉熵梯度信息, 所述预设损失函数还包 括交叉熵损失函数; 所述 目标梯度信息获取模块 602, 还包括: 第一发送模块,用于将所述目标训练特征信息发送至所述联合训练模型的主动参与方, 以使所述主动参与方根据所述目标训练特征信息进行标签数据预测, 并根据标签数据预测 结果和所述交叉熵损失函数确定所述交叉熵梯度信息, 其中, 所述交叉熵损失函数为表征 所述标签数据预测结果与真实标签数据之间的交叉熵的函数; 第一接收模块 , 用于接收所述主动参与方发送的所述交叉熵梯度信息。 在一个实施例 中, 所述判断模块 604用于: 在所 述交叉熵损失函数的函数值以及 目标函数值与对应权重的乘积之和最小的情况 下, 确定所述神经网络结构训练完成, 其中, 所述目标函数值包括所述距离相关性损失函 数的函数值、 所述对抗重建损失函数的函数值、 所述噪声正则化损失函数的函数值中的至 少一者。 在一个实施例 中, 所述装置 500还包括: 第二发送模块 , 用于将所述目标特征信息发送至所述联合训练模型的主动参与方, 以 使所述主动参与方根据所述目标特征信息确定所述联合训练模型的参数的梯度传递信息; 第二接 收模块, 用于接收所述主动参与方发送的所述梯度传递信息, 并根据所述梯度 传递信息更新所述联合训练模型的参数。 关于上述实施例 中的装置, 其中各个模块执行操作的具体方式己经在有关该方法的实 施例中进行了详细描述, 此处将不做详细阐述说明。 下面参考 图 7, 其示出了适于用来实现本公开实施例的电子设备 700的结构示意图。 本公开实施例中的终端设备可以包括但不限于诸如移动电话、 笔记本电脑、 数字广播接收 器、 PDA(个人数字助理)、 PAD(平板电脑)、 PMP(便携式多媒体播放器)、 车载终端(例 如车载导航终端)等等的移动终端以及诸如数字 TV、 台式计算机等等的固定终端。 图 7示 出的电子设备仅仅是一个示例, 不应对本公开实施例的功能和使用范围带来任何限制。 如 图 7所示, 电子设备 700可以包括处理装置(例如中央处理器、 图形处理器等) 701, 其可以根据存储在只读存储器 (ROM) 702中的程序或者从存储装置 708加载到随机访问 存储器 (RAM) 703中的程序而执行各种适当的动作和处理。 在 RAM 703中, 还存储有电 子设备 700操作所需的各种程序和数据。处理装置 701、 ROM 702以及 RAM 703通过总线 704彼此相连。 输入 /输出 (I/O) 接口 705也连接至总线 704。 通常 , 以下装置可以连接至 I/O接口 705: 包括例如触摸屏、 触摸板、 键盘、 鼠标、 摄 像头、 麦克风、 加速度计、 陀螺仪等的输入装置 706; 包括例如液晶显示器 (LCD)、 扬声 器、 振动器等的输出装置 707; 包括例如磁带、硬盘等的存储装置 708; 以及通信装置 709。 通信装置 709可以允许电子设备 700与其他设备进行无线或有线通信以交换数据。 虽然图 7示 出了具有各种装置的电子设备 700, 但是应理解的是, 并不要求实施或具备所有示出的 装置。 可以替代地实施或具备更多或更少的装置。 特别地 , 根据本公开的实施例, 上文参考流程图描述的过程可以被实现为计算机软件 程序。 例如, 本公开的实施例包括一种计算机程序产品, 其包括承载在非暂态计算机可读 介质上的计算机程序, 该计算机程序包含用于执行流程图所示的方法的程序代码。 在这样 的实施例中, 该计算机程序可以通过通信装置 709从网络上被下载和安装, 或者从存储装 置 708被安装, 或者从 ROM 702被安装。在该计算机程序被处理装置 701执行时, 执行本 公开实施例的方法中限定的上述功能。 需要说明的是, 本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机 可读存储介质或者是上述两者的任意组合。 计算机可读存储介质例如可以是一 但不限于 — 电、 磁、 光、 电磁、 红外线、 或半导体的系统、 装置或器件, 或者任意以上的组合。 计算机可读存储介质的更具体的例子可以包括但不限于: 具有一个或多个导线的电连接、 便携式计算机磁盘、 硬盘、 随机访问存储器(RAM)、 只读存储器(ROM)、 可擦式可编程 只读存储器 (EPROM或闪存)、 光纤、 便携式紧凑磁盘只读存储器(CD-ROM)、 光存储器 件、 磁存储器件、 或者上述的任意合适的组合。 在本公开中, 计算机可读存储介质可以是 任何包含或存储程序的有形介质, 该程序可以被指令执行系统、 装置或者器件使用或者与 其结合使用。 而在本公开中, 计算机可读信号介质可以包括在基带中或者作为载波一部分 传播的数据信号, 其中承载了计算机可读的程序代码。 这种传播的数据信号可以采用多种 形式, 包括但不限于电磁信号、 光信号或上述的任意合适的组合。 计算机可读信号介质还 可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、 传播或者传输用于由指令执行系统、 装置或者器件使用或者与其结合使用的程序。 计算机 可读介质上包含的程序代码可以用任何适当的介质传输, 包括但不限于: 电线、 光缆、 RF (射频) 等等, 或者上述的任意合适的组合。 在一些实施方式 中, 客户端、服务器可以利用诸如 HTTP(HyperText Transfer Protocol, 超文本传输协议) 之类的任何当前己知或未来研发的网络协议进行通信, 并且可以与任意 形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”), 广域网 (“WAN”), 网际网 (例如, 互联网) 以及端对端网络(例如, ad hoc端对端网络), 以及任何当前己知或未来研发的网络。 上述计算机 可读介质可以是上述电子设备中所包含的; 也可以是单独存在, 而未装配 入该电子设备中。 上述计算机 可读介质承载有一个或者多个程序, 当上述一个或者多个程序被该电子设 备执行时, 使得该电子设备: 获取联合训练模型的被动参与方的目标批次的参考样本的原 始特征信息; 通过目标特征处理网络结构对所述原始特征信息进行处理, 得到所述原始特 征信息对应的目标特征信息; 其中, 至少以最小化所述被动参与方的训练样本的原始训练 特征信息与 目标训练特征信息之间的耦合度为目标, 对神经网络结构进行训练, 以得到所 述目标特征处理网络结构, 所述目标训练特征信息为将所述原始训练特征信息作为所述神 经网络结构的输入、 得到的所述神经网络结构输出的与所述原始训练特征信息对应的特征 或者 , 上述计算机可读介质承载有一个或者多个程序, 当上述一个或者多个程序被该 电子设备执行时, 使得该电子设备: 获取联合训练模型的被动参与方的指定批次的训练样 本的原始训练特征信息, 以及神经网络结构对所述原始训练特征信息进行处理之后输出的 目标训练特征信息; 获取所述神经网络结构的参数对应的目标梯度信息, 其中, 所述目标 梯度信息是根据预设损失函数以及所述目标训练特征信息确定的, 所述预设损失函数包括 表征所述原始训练特征信息与所述目标训练特征信息之间的耦合度的损失函数; 根据所述 目标梯度信息对所述神经网络结构的参数进行更新, 其中, 至少以最小化所述原始训练特 征信息与所述目标训练特征信息之间的耦合度为目标, 对所述神经网络结构进行训练; 确 定所述神经网络结构是否训练完成; 响应于所述神经网络结构训练完成, 得到目标特征处 理网络结构。 可 以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序 代码, 上述程序设计语言包括但不限于面向对象的程序设计语言一诸如 Java、 Smalltalk、 C++, 还包括常规的过程式程序设计语言 —诸如 “C”语言或类似的程序设计语言。 程序代 码可以完全地在用户计算机上执行、 部分地在用户计算机上执行、 作为一个独立的软件包 执行、 部分在用户计算机上部分在远程计算机上执行、 或者完全在远程计算机或服务器上 执行。 在涉及远程计算机的情形中, 远程计算机可以通过任意种类的网络一包括局域网 (LAN) 或广域网 (WAN) —连接到用户计算机, 或者, 可以连接到外部计算机 (例如 利用因特网服务提供商来通过因特网连接)。 附图中的流程图和框图, 图示了按照本公开各种实施例的系统、 方法和计算机程序产 品的可能实现的体系架构、 功能和操作。 在这点上, 流程图或框图中的每个方框可以代表 一个模块、 程序段、 或代码的一部分, 该模块、 程序段、 或代码的一部分包含一个或多个 用于实现规定的逻辑功能的可执行指令。 也应当注意, 在有些作为替换的实现中, 方框中 所标注的功能也可以以不同于附图中所标注的顺序发生。 例如, 两个接连地表示的方框实 际上可以基本并行地执行, 它们有时也可以按相反的顺序执行, 这依所涉及的功能而定。 也要注意的是, 框图和 /或流程图中的每个方框、 以及框图和 /或流程图中的方框的组合, 可 以用执行规定的功能或操作的专用的基于硬件的系统来实现, 或者可以用专用硬件与计算 机指令的组合来实现。 描述于本 公开实施例中所涉及到的模块可以通过软件的方式实现, 也可以通过硬件的 方式来实现。 其中, 模块的名称在某种情况下并不构成对该模块本身的限定, 例如, 原始 特征信息获取模块还可以被描述为 “信息获取模块”。 本文 中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。 例如, 非 限制性地, 可以使用的示范类型的硬件逻辑部件包括: 现场可编程门阵列 (FPGA)、 专用 集成电路(ASIC),专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD) 等等。 在本公开 的上下文中, 机器可读介质可以是有形的介质, 其可以包含或存储以供指令 执行系统、 装置或设备使用或与指令执行系统、 装置或设备结合地使用的程序。 机器可读 介质可以是机器可读信号介质或机器可读储存介质。 机器可读介质可以包括但不限于电子 的、 磁性的、 光学的、 电磁的、 红外的、 或半导体系统、 装置或设备, 或者上述内容的任 何合适组合。 机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、 便携 式计算机盘、 硬盘、 随机存取存储器(RAM)、 只读存储器(ROM)、 可擦除可编程只读存 储器 (EPROM或快闪存储器)、 光纤、 便捷式紧凑盘只读存储器(CD-ROM)、 光学储存设 备、 磁储存设备、 或上述内容的任何合适组合。 根据本公开的一个或多个实施例, 示例 1提供了一种数据保护方法, 所述方法包括: 获取联合训练模型的被动参与方的目标批次的参考样本的原始特征信息; 通过目标特征处 理网络结构对所述原始特征信息进行处理, 得到所述原始特征信息对应的目标特征信息; 其中, 至少以最小化所述被动参与方的训练样本的原始训练特征信息与目标训练特征信息 之间的耦合度为目标, 对神经网络结构进行训练, 以得到所述目标特征处理网络结构, 所 述目标训练特征信息为将所述原始训练特征信息作为所述神经网络结构的输入、 得到的所 述神经网络结构输出的与所述原始训练特征信息对应的特征信息。 根据本公开的一个或多个实施例, 示例 2提供了示例 1的方法, 所述目标特征处理网 络结构是通过如下方式训练得到的: 获取所述被动参与方的指定批次的训练样本的原始训 练特征信息, 以及所述神经网络结构对所述原始训练特征信息进行处理之后输出的目标训 练特征信息; 获取所述神经网络结构的参数对应的目标梯度信息, 其中, 所述目标梯度信 息是根据预设损失函数以及所述目标训练特征信息确定的, 所述预设损失函数包括表征所 述原始训练特征信息与所述目标训练特征信息之间的耦合度的损失函数; 根据所述目标梯 度信息对所述神经网络结构的参数进行更新; 确定所述神经网络结构是否训练完成; 响应 于所述神经网络结构训练完成, 得到所述目标特征处理网络结构。 根据本公开的一个或多个实施例, 示例 3提供了示例 2的方法, 所述目标梯度信息包 括距离相关性梯度信息、 对抗重建梯度信息、 噪声正则化梯度信息中的至少一者, 相应地, 所述预设损失函数包括距离相关性损失函数、 对抗重建损失函数、 噪声正则化损失函数中 的至少一者; 相应地, 所述获取所述神经网络结构的参数对应的目标梯度信息, 包括以下 中的至少一者: 根据所述原始训练特征信息、 所述目标训练特征信息、 所述距离相关性损 失函数, 确定所述距离相关性梯度信息, 其中, 所述距离相关性损失函数为表征所述原始 训练特征信息与所述目标训练特征信息之间的距离相关性的函数; 根据所述原始训练特征 信息、 第一预测特征信息、 所述对抗重建损失函数, 确定所述神经网络结构的参数对应的 第一梯度信息, 并将所述第一梯度信息经过梯度反转层处理之后的梯度信息确定为所述对 抗重建梯度信息, 其中, 所述第一预测特征信息是根据所述目标训练特征信息进行重建得 到的, 所述对抗重建损失函数为表征所述第一预测特征信息与所述原始训练特征信息之间 的距离的函数; 根据第二预测特征信息、 噪声信息、 所述噪声正则化损失函数, 确定所述 噪声正则化梯度信息, 其中, 所述第二预测特征信息是根据所述目标训练特征信息进行重 建得到的, 所述第一预测特征信息与所述第二预测特征信息相同或不同, 所述噪声正则化 损失函数为表征所述第二预测特征信息与所述噪声信息之间误差的函数。 根据本公开的一个或多个实施例, 示例 4提供了示例 3的方法, 所述第一预测特征信 息为将所述目标训练特征信息输入到特征重建网络结构中、 得到的所述特征重建网络结构 输出的特征信息; 在所述目标梯度信息包括所述对抗重建梯度信息, 所述预设损失函数包 括所述对抗重建损失函数的情况下, 所述目标特征处理网络结构的训练过程还包括: 根据 所述原始训练特征信息、 第一预测特征信息、 所述对抗重建损失函数, 确定所述特征重建 网络结构的参数对应的第二梯度信息;将所述第二梯度信息回传至所述特征重建网络结构, 以由所述特征重建网络结构根据所述第二梯度信息对所述特征重建网络结构的参数进行更 新。 根据本公开的一个或多个实施例, 示例 5提供了示例 3的方法, 所述目标梯度信息还 包括交叉熵梯度信息, 所述预设损失函数还包括交叉熵损失函数; 所述获取所述神经网络 结构的参数对应的目标梯度信息, 还包括: 将所述目标训练特征信息发送至所述联合训练 模型的主动参与方, 以使所述主动参与方根据所述目标训练特征信息进行标签数据预测, 并根据标签数据预测结果和所述交叉熵损失函数确定所述交叉熵梯度信息, 其中, 所述交 叉熵损失函数为表征所述标签数据预测结果与真实标签数据之间的交叉熵的函数; 接收所 述主动参与方发送的所述交叉熵梯度信息。 根据本公开的一个或多个实施例, 示例 6提供了示例 5的方法, 所述确定所述神经网 络结构是否训练完成, 包括: 在所述交叉熵损失函数的函数值以及目标函数值与对应权重 的乘积之和最小的情况下, 确定所述神经网络结构训练完成, 其中, 所述目标函数值包括 所述距离相关性损失函数的函数值、 所述对抗重建损失函数的函数值、 所述噪声正则化损 失函数的函数值中的至少一者。 根据本公开的一个或多个实施例, 示例 7提供了示例 1的方法, 所述方法还包括: 将 所述目标特征信息发送至所述联合训练模型的主动参与方, 以使所述主动参与方根据所述 目标特征信息确定所述联合训练模型的参数的梯度传递信息; 接收所述主动参与方发送的 所述梯度传递信息, 并根据所述梯度传递信息更新所述联合训练模型的参数。 根据本公开的一个或多个实施例, 示例 8提供了一种特征处理网络结构训练方法, 所 述方法包括:获取联合训练模型的被动参与方的指定批次的训练样本的原始训练特征信息, 以及神经网络结构对所述原始训练特征信息进行处理之后输出的目标训练特征信息; 获取 所述神经网络结构的参数对应的目标梯度信息, 其中, 所述目标梯度信息是根据预设损失 函数以及所述目标训练特征信息确定的, 所述预设损失函数包括表征所述原始训练特征信 息与所述目标训练特征信息之间的耦合度的损失函数; 根据所述目标梯度信息对所述神经 网络结构的参数进行更新, 其中, 至少以最小化所述原始训练特征信息与所述目标训练特 征信息之间的耦合度为目标, 对所述神经网络结构进行训练; 确定所述神经网络结构是否 训练完成; 响应于所述神经网络结构训练完成, 得到目标特征处理网络结构。 根据本公开的一个或多个实施例, 示例 9提供了示例 8的方法, 所述目标梯度信息包 括距离相关性梯度信息、 对抗重建梯度信息、 噪声正则化梯度信息中的至少一者, 相应地, 所述预设损失函数包括距离相关性损失函数、 对抗重建损失函数、 噪声正则化损失函数中 的至少一者; 相应地, 所述获取所述神经网络结构的参数对应的目标梯度信息, 包括以下 中的至少一者: 根据所述原始训练特征信息、 所述目标训练特征信息、 所述距离相关性损 失函数, 确定所述距离相关性梯度信息, 其中, 所述距离相关性损失函数为表征所述原始 训练特征信息与所述目标训练特征信息之间的距离相关性的函数; 根据所述原始训练特征 信息、 第一预测特征信息、 所述对抗重建损失函数, 确定所述神经网络结构的参数对应的 第一梯度信息, 并将所述第一梯度信息经过梯度反转层处理之后的梯度信息确定为所述对 抗重建梯度信息, 其中, 所述第一预测特征信息是根据所述目标训练特征信息进行重建得 到的, 所述对抗重建损失函数为表征所述第一预测特征信息与所述原始训练特征信息之间 的距离的函数; 根据第二预测特征信息、 噪声信息、 所述噪声正则化损失函数, 确定所述 噪声正则化梯度信息, 其中, 所述第二预测特征信息是根据所述目标训练特征信息进行重 建得到的, 所述第一预测特征信息与所述第二预测特征信息相同或不同, 所述噪声正则化 损失函数为表征所述第二预测特征信息与所述噪声信息之间误差的函数。 根据本公开的一个或多个实施例, 示例 10提供了示例 9的方法, 所述第一预测特征信 息为将所述目标训练特征信息输入到特征重建网络结构中、 得到的所述特征重建网络结构 输出的特征信息; 在所述目标梯度信息包括所述对抗重建梯度信息, 所述预设损失函数包 括所述对抗重建损失函数的情况下, 所述方法还包括: 根据所述原始训练特征信息、 第一 预测特征信息、 所述距离相关性损失函数, 确定所述特征重建网络结构的参数对应的第二 梯度信息; 将所述第二梯度信息回传至所述特征重建网络结构, 以由所述特征重建网络结 构根据所述第二梯度信息对所述特征重建网络结构的参数进行更新。 根据本公开的一个或多个实施例, 示例 11提供了示例 9的方法, 所述目标梯度信息还 包括交叉熵梯度信息, 所述预设损失函数还包括交叉熵损失函数; 所述获取所述神经网络 结构的参数对应的目标梯度信息, 还包括: 将所述目标训练特征信息发送至所述联合训练 模型的主动参与方, 以使所述主动参与方根据所述目标训练特征信息进行标签数据预测, 并根据标签数据预测结果和所述交叉熵损失函数确定所述交叉熵梯度信息, 其中, 所述交 叉熵损失函数为表征所述标签数据预测结果与真实标签数据之间的交叉熵的函数; 接收所 述主动参与方发送的所述交叉熵梯度信息。 根据本公开的一个或多个实施例, 示例 12提供了示例 11的方法, 所述确定所述神经 网络结构是否训练完成, 包括: 在所述交叉熵损失函数的函数值以及目标函数值与对应权 重的乘积之和最小的情况下, 确定所述神经网络结构训练完成, 其中, 所述目标函数值包 括所述距离相关性损失函数的函数值、 所述对抗重建损失函数的函数值、 所述噪声正则化 损失函数的函数值中至少一者。 根据本公开的一个或多个实施例, 示例 13提供了一种数据保护装置, 所述装置包括: 原始特征信息获取模块, 用于获取联合训练模型的被动参与方的目标批次的参考样本的原 始特征信息; 目标特征信息确定模块, 用于通过目标特征处理网络结构对所述原始特征信 息进行处理, 得到所述原始特征信息对应的目标特征信息; 其中, 至少以最小化所述被动 参与方的训练样本的原始训练特征信息与目标训练特征信息之间的耦合度为目标, 对神经 网络结构进行训练, 以得到所述目标特征处理网络结构, 所述目标训练特征信息为将所述 原始训练特征信息作为所述神经网络结构的输入、 得到的所述神经网络结构输出的与所述 原始训练特征信息对应的特征信息。 根据本公开的一个或多个实施例, 示例 14提供了一种特征处理网络结构训练装置, 所 述装置包括: 训练特征信息获取模块, 用于获取联合训练模型的被动参与方的指定批次的 训练样本的原始训练特征信息, 以及神经网络结构对所述原始训练特征信息进行处理之后 输出的目标训练特征信息; 目标梯度信息获取模块, 用于获取所述神经网络结构的参数对 应的目标梯度信息, 其中, 所述目标梯度信息是根据预设损失函数以及所述目标训练特征 信息确定的, 所述预设损失函数包括表征所述原始训练特征信息与所述目标训练特征信息 之间的耦合度的损失函数; 参数更新模块, 用于根据所述目标梯度信息对所述神经网络结 构的参数进行更新, 其中, 至少以最小化所述原始训练特征信息与所述目标训练特征信息 之间的耦合度为目标, 对所述神经网络结构进行训练; 判断模块, 用于确定所述神经网络 结构是否训练完成; 网络结构获得模块, 用于响应于所述神经网络结构训练完成, 得到所 述目标特征处理网络结构。 根据本公开的一个或多个实施例, 示例 15提供了一种计算机可读介质, 其上存储有计 算机程序, 该程序被处理装置执行时示例 1-7 中任一项所述方法的步骤, 或者, 该程序被 处理装置执行时实现示例 8-12中任一项所述方法的步骤。 根据本公开的一个或多个实施例, 示例 16提供了一种电子设备, 包括: 存储装置, 其 上存储有计算机程序; 处理装置, 用于执行所述存储装置中的所述计算机程序, 以实现示 例 1-7中任一项所述方法的步骤, 或者实现示例 8-12中任一项所述方法的步骤。 以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。 本领域技术人员应 当理解, 本公开中所涉及的公开范围, 并不限于上述技术特征的特定组合而成的技术方案, 同时也应涵盖在不脱离上述公开构思的情况下, 由上述技术特征或其等同特征进行任意组 合而形成的其它技术方案。 例如上述特征与本公开中公开的 (但不限于) 具有类似功能的 技术特征进行互相替换而形成的技术方案。 此外 , 虽然采用特定次序描绘了各操作, 但是这不应当理解为要求这些操作以所示出 的特定次序或以顺序次序执行来执行。 在一定环境下, 多任务和并行处理可能是有利的。 同样地, 虽然在上面论述中包含了若干具体实现细节, 但是这些不应当被解释为对本公开 的范围的限制。 在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施 例中。 相反地, 在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子 组合的方式实现在多个实施例中。 尽管 己经采用特定于结构特征和 /或方法逻辑动作的语言描述了本主题, 但是应当理解 所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。 相反, 上面所描 述的特定特征和动作仅仅是实现权利要求书的示例形式。 关于上述实施例中的装置, 其中 各个模块执行操作的具体方式己经在有关该方法的实施例中进行了详细描述, 此处将不做 详细阐述说明。

Claims

权利要求书
1、 一种数据保护方法, 其特征在于, 所述方法包括: 获取联合训练模型的被动参与方的目标批次的参考样本的原始特征信息; 通过 目标特征处理网络结构对所述原始特征信息进行处理, 得到所述原始特征信息对 应的目标特征信息; 其 中, 至少以最小化所述被动参与方的训练样本的原始训练特征信息与目标训练特征 信息之间的耦合度为目标, 对神经网络结构进行训练, 以得到所述目标特征处理网络结构, 所述目标训练特征信息为将所述原始训练特征信息作为所述神经网络结构的输入、 得到的 所述神经网络结构输出的与所述原始训练特征信息对应的特征信息。
2、 根据权利要求 1所述的方法, 其特征在于, 所述目标特征处理网络结构是通过如下 方式训练得到的: 获取所述被动参与方 的指定批次的训练样本的原始训练特征信息, 以及所述神经网络 结构对所述原始训练特征信息进行处理之后输出的目标训练特征信息; 获取所述神经网络结构的参数对应的 目标梯度信息, 其中, 所述目标梯度信息是根据 预设损失函数以及所述目标训练特征信息确定的, 所述预设损失函数包括表征所述原始训 练特征信息与所述目标训练特征信息之间的耦合度的损失函数; 根据所述 目标梯度信息对所述神经网络结构的参数进行更新; 确定所述神经网络结构是否训练完成; 响应于所述神经网络结构训练完成, 得到所述目标特征处理网络结构。
3、 根据权利要求 2所述的方法, 其特征在于, 所述目标梯度信息包括距离相关性梯度 信息、 对抗重建梯度信息、 噪声正则化梯度信息中的至少一者, 相应地, 所述预设损失函 数包括距离相关性损失函数、 对抗重建损失函数、 噪声正则化损失函数中的至少一者; 相应地 , 所述获取所述神经网络结构的参数对应的目标梯度信息, 包括以下中的至少 一者: 根据所述原始训练特征信息 、 所述目标训练特征信息、 所述距离相关性损失函数, 确 定所述距离相关性梯度信息, 其中, 所述距离相关性损失函数为表征所述原始训练特征信 息与所述目标训练特征信息之间的距离相关性的函数; 根据所述原始训练特征信息 、 第一预测特征信息、 所述对抗重建损失函数, 确定所述 神经网络结构的参数对应的第一梯度信息, 并将所述第一梯度信息经过梯度反转层处理之 后的梯度信息确定为所述对抗重建梯度信息, 其中, 所述第一预测特征信息是根据所述目 标训练特征信息进行重建得到的, 所述对抗重建损失函数为表征所述第一预测特征信息与 所述原始训练特征信息之间的距离的函数; 根据第二预测特征信息、 噪声信息、 所述噪声正则化损失函数, 确定所述噪声正则化 梯度信息, 其中, 所述第二预测特征信息是根据所述目标训练特征信息进行重建得到的, 所述第一预测特征信息与所述第二预测特征信息相同或不同, 所述噪声正则化损失函数为 表征所述第二预测特征信息与所述噪声信息之间误差的函数。
4、 根据权利要求 3所述的方法, 其特征在于, 所述第一预测特征信息为将所述目标训 练特征信息输入到特征重建网络结构中、 得到的所述特征重建网络结构输出的特征信息; 在所述 目标梯度信息包括所述对抗重建梯度信息, 所述预设损失函数包括所述对抗重 建损失函数的情况下, 所述目标特征处理网络结构的训练过程还包括: 根据所述原始训练特征信息 、 第一预测特征信息、 所述对抗重建损失函数, 确定所述 特征重建网络结构的参数对应的第二梯度信息; 将所述第二梯度信 息回传至所述特征重建网络结构, 以由所述特征重建网络结构根据 所述第二梯度信息对所述特征重建网络结构的参数进行更新。
5、 根据权利要求 3所述的方法, 其特征在于, 所述目标梯度信息还包括交叉熵梯度信 息, 所述预设损失函数还包括交叉熵损失函数; 所述获取所述神经网络结构的参数对应的目标梯度信息, 还包括: 将所述 目标训练特征信息发送至所述联合训练模型的主动参与方, 以使所述主动参与 方根据所述目标训练特征信息进行标签数据预测, 并根据标签数据预测结果和所述交叉熵 损失函数确定所述交叉熵梯度信息, 其中, 所述交叉熵损失函数为表征所述标签数据预测 结果与真实标签数据之间的交叉熵的函数; 接收所述主动参与方发送的所述交叉熵梯度信息。
6、 根据权利要求 5所述的方法, 其特征在于, 所述确定所述神经网络结构是否训练完 成, 包括: 在所述 交叉熵损失函数的函数值以及目标函数值与对应权重 的乘积之和最小的情况 下, 确定所述神经网络结构训练完成, 其中, 所述目标函数值包括所述距离相关性损失函 数的函数值、 所述对抗重建损失函数的函数值、 所述噪声正则化损失函数的函数值中的至 少一者。
7、 根据权利要求 1所述的方法, 其特征在于, 所述方法还包括: 将所述 目标特征信息发送至所述联合训练模型的主动参与方, 以使所述主动参与方根 据所述目标特征信息确定所述联合训练模型的参数的梯度传递信息; 接收所述主动参与方发送 的所述梯度传递信息, 并根据所述梯度传递信息更新所述联 合训练模型的参数。
8、 一种特征处理网络结构训练方法, 其特征在于, 所述方法包括: 获取联合训练模型的被动参与方的指定批次的训练样本的原始训练特征信息, 以及神 经网络结构对所述原始训练特征信息进行处理之后输出的目标训练特征信息; 获取所述神经网络结构的参数对应的 目标梯度信息, 其中, 所述目标梯度信息是根据 预设损失函数以及所述目标训练特征信息确定的, 所述预设损失函数包括表征所述原始训 练特征信息与所述目标训练特征信息之间的耦合度的损失函数; 根据所述 目标梯度信息对所述神经网络结构的参数进行更新, 其中, 至少以最小化所 述原始训练特征信息与所述目标训练特征信息之间的耦合度为目标, 对所述神经网络结构 进行训练; 确定所述神经网络结构是否训练完成; 响应于所述神经网络结构训练完成, 得到目标特征处理网络结构。
9、 根据权利要求 8所述的方法, 其特征在于, 所述目标梯度信息包括距离相关性梯度 信息、 对抗重建梯度信息、 噪声正则化梯度信息中的至少一者, 相应地, 所述预设损失函 数包括距离相关性损失函数、 对抗重建损失函数、 噪声正则化损失函数中的至少一者; 相应地 , 所述获取所述神经网络结构的参数对应的目标梯度信息, 包括以下中的至少 一者: 根据所述原始训练特征信息 、 所述目标训练特征信息、 所述距离相关性损失函数, 确 定所述距离相关性梯度信息, 其中, 所述距离相关性损失函数为表征所述原始训练特征信 息与所述目标训练特征信息之间的距离相关性的函数; 根据所述原始训练特征信息 、 第一预测特征信息、 所述对抗重建损失函数, 确定所述 神经网络结构的参数对应的第一梯度信息, 并将所述第一梯度信息经过梯度反转层处理之 后的梯度信息确定为所述对抗重建梯度信息, 其中, 所述第一预测特征信息是根据所述目 标训练特征信息进行重建得到的, 所述对抗重建损失函数为表征所述第一预测特征信息与 所述原始训练特征信息之间的距离的函数; 根据第二预测特征信息、 噪声信息、 所述噪声正则化损失函数, 确定所述噪声正则化 梯度信息, 其中, 所述第二预测特征信息是根据所述目标训练特征信息进行重建得到的, 所述第一预测特征信息与所述第二预测特征信息相同或不同, 所述噪声正则化损失函数为 表征所述第二预测特征信息与所述噪声信息之间误差的函数。
10、 根据权利要求 9所述的方法, 其特征在于, 所述第一预测特征信息为将所述目标 训练特征信息输入到特征重建网络结构中、得到的所述特征重建网络结构输出的特征信息; 在所述 目标梯度信息包括所述对抗重建梯度信息, 所述预设损失函数包括所述对抗重 建损失函数的情况下, 所述方法还包括: 根据所述原始训练特征信息 、 第一预测特征信息、 所述距离相关性损失函数, 确定所 述特征重建网络结构的参数对应的第二梯度信息; 将所述第二梯度信 息回传至所述特征重建网络结构, 以由所述特征重建网络结构根据 所述第二梯度信息对所述特征重建网络结构的参数进行更新。
11、 根据权利要求 9所述的方法, 其特征在于, 所述目标梯度信息还包括交叉熵梯度 信息, 所述预设损失函数还包括交叉熵损失函数; 所述获取所述神经网络结构的参数对应的目标梯度信息, 还包括: 将所述 目标训练特征信息发送至所述联合训练模型的主动参与方, 以使所述主动参与 方根据所述目标训练特征信息进行标签数据预测, 并根据标签数据预测结果和所述交叉熵 损失函数确定所述交叉熵梯度信息, 其中, 所述交叉熵损失函数为表征所述标签数据预测 结果与真实标签数据之间的交叉熵的函数; 接收所述主动参与方发送的所述交叉熵梯度信息。
12、 根据权利要求 11所述的方法, 其特征在于, 所述确定所述神经网络结构是否训练 完成, 包括: 在所述 交叉熵损失函数的函数值以及目标函数值与对应权重 的乘积之和最小的情况 下, 确定所述神经网络结构训练完成, 其中, 所述目标函数值包括所述距离相关性损失函 数的函数值、 所述对抗重建损失函数的函数值、 所述噪声正则化损失函数的函数值中至少 一者。
13、 一种数据保护装置, 其特征在于, 所述装置包括: 原始特征信 息获取模块, 用于获取联合训练模型的被动参与方的目标批次的参考样本 的原始特征信息; 目标特征信息确定模块, 用于通过目标特征处理网络结构对所述原始特征信息进行处 理, 得到所述原始特征信息对应的目标特征信息; 其 中, 至少以最小化所述被动参与方的训练样本的原始训练特征信息与目标训练特征 信息之间的耦合度为目标, 对神经网络结构进行训练, 以得到所述目标特征处理网络结构, 所述目标训练特征信息为将所述原始训练特征信息作为所述神经网络结构的输入、 得到的 所述神经网络结构输出的与所述原始训练特征信息对应的特征信息。
14、 一种特征处理网络结构训练装置, 其特征在于, 所述装置包括: 训练特征信息获取模块, 用于获取联合训练模型的被动参与方的指定批次的训练样本 的原始训练特征信息, 以及神经网络结构对所述原始训练特征信息进行处理之后输出的目 标训练特征信息; 目标梯度信息获取模块, 用于获取所述神经网络结构的参数对应的目标梯度信息, 其 中, 所述目标梯度信息是根据预设损失函数以及所述目标训练特征信息确定的, 所述预设 损失函数包括表征所述原始训练特征信息与所述目标训练特征信息之间的耦合度的损失函 数; 参数更新模块 , 用于根据所述目标梯度信息对所述神经网络结构的参数进行更新, 其 中, 至少以最小化所述原始训练特征信息与所述目标训练特征信息之间的耦合度为目标, 对所述神经网络结构进行训练; 判断模块, 用于确定所述神经网络结构是否训练完成; 网络结构获得模块, 用于响应于所述神经网络结构训练完成, 得到所述目标特征处理 网络结构。
15、 一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装置 执行时实现权利要求 1-7 中任一项所述方法的步骤, 或者, 该程序被处理装置执行时实现 权利要求 8-12中任一项所述方法的步骤。
16、 一种电子设备, 其特征在于, 包括: 存储装置, 其上存储有计算机程序; 处理装置, 用于执行所述存储装置中的所述计算机程序, 以实现权利要求 1-7 中任一 项所述方法的步骤, 或者实现权利要求 8-12中任一项所述方法的步骤。
PCT/SG2022/050261 2021-05-28 2022-04-28 数据保护方法、网络结构训练方法、装置、介质及设备 WO2022250609A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110593862.XA CN113190872A (zh) 2021-05-28 2021-05-28 数据保护方法、网络结构训练方法、装置、介质及设备
CN202110593862.X 2021-05-28

Publications (1)

Publication Number Publication Date
WO2022250609A1 true WO2022250609A1 (zh) 2022-12-01

Family

ID=76986229

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/SG2022/050261 WO2022250609A1 (zh) 2021-05-28 2022-04-28 数据保护方法、网络结构训练方法、装置、介质及设备

Country Status (2)

Country Link
CN (1) CN113190872A (zh)
WO (1) WO2022250609A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739038A (zh) * 2023-03-24 2023-09-12 中国科学技术大学 数据处理方法及装置、电子设备、计算机可读存储介质
CN118035389A (zh) * 2024-04-11 2024-05-14 电子科技大学 一种联邦学习系统中的大语言模型训练数据恢复方法
CN118035389B (zh) * 2024-04-11 2024-06-07 电子科技大学 一种联邦学习系统中的大语言模型训练数据恢复方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722738B (zh) * 2021-09-02 2023-08-08 脸萌有限公司 数据保护方法、装置、介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766142A (zh) * 2019-10-30 2020-02-07 北京百度网讯科技有限公司 模型生成方法和装置
CN111488995A (zh) * 2020-04-08 2020-08-04 北京字节跳动网络技术有限公司 用于评估联合训练模型的方法和装置
CN111783142A (zh) * 2020-07-06 2020-10-16 北京字节跳动网络技术有限公司 数据保护方法、装置、服务器和介质
CN112347476A (zh) * 2020-11-13 2021-02-09 脸萌有限公司 数据保护方法、装置、介质及设备
CN112446544A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 交通流预测模型训练方法、装置、电子设备及存储介质
CN112818374A (zh) * 2021-03-02 2021-05-18 深圳前海微众银行股份有限公司 一种模型的联合训练方法、设备、存储介质及程序产品

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3033014A1 (en) * 2018-02-07 2019-08-07 Royal Bank Of Canada Robust pruned neural networks via adversarial training
US20210192357A1 (en) * 2018-05-17 2021-06-24 Magic Leap, Inc. Gradient adversarial training of neural networks
CN111310897A (zh) * 2020-02-13 2020-06-19 杭州国芯科技股份有限公司 一种神经网络终端部署微调训练方法
CN111797976B (zh) * 2020-06-30 2024-04-12 北京灵汐科技有限公司 神经网络的训练方法、图像识别方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766142A (zh) * 2019-10-30 2020-02-07 北京百度网讯科技有限公司 模型生成方法和装置
CN111488995A (zh) * 2020-04-08 2020-08-04 北京字节跳动网络技术有限公司 用于评估联合训练模型的方法和装置
CN111783142A (zh) * 2020-07-06 2020-10-16 北京字节跳动网络技术有限公司 数据保护方法、装置、服务器和介质
CN112347476A (zh) * 2020-11-13 2021-02-09 脸萌有限公司 数据保护方法、装置、介质及设备
CN112446544A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 交通流预测模型训练方法、装置、电子设备及存储介质
CN112818374A (zh) * 2021-03-02 2021-05-18 深圳前海微众银行股份有限公司 一种模型的联合训练方法、设备、存储介质及程序产品

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739038A (zh) * 2023-03-24 2023-09-12 中国科学技术大学 数据处理方法及装置、电子设备、计算机可读存储介质
CN116739038B (zh) * 2023-03-24 2024-04-05 中国科学技术大学 数据处理方法及装置、电子设备、计算机可读存储介质
CN118035389A (zh) * 2024-04-11 2024-05-14 电子科技大学 一种联邦学习系统中的大语言模型训练数据恢复方法
CN118035389B (zh) * 2024-04-11 2024-06-07 电子科技大学 一种联邦学习系统中的大语言模型训练数据恢复方法

Also Published As

Publication number Publication date
CN113190872A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
WO2022250609A1 (zh) 数据保护方法、网络结构训练方法、装置、介质及设备
US20240005210A1 (en) Data protection method, apparatus, medium and device
CN110413812B (zh) 神经网络模型的训练方法、装置、电子设备及存储介质
CN113327598B (zh) 模型的训练方法、语音识别方法、装置、介质及设备
WO2022227886A1 (zh) 超分修复网络模型生成方法、图像超分修复方法及装置
WO2020207174A1 (zh) 用于生成量化神经网络的方法和装置
WO2023273611A1 (zh) 语音识别模型的训练方法、语音识别方法、装置、介质及设备
CN112434620B (zh) 场景文字识别方法、装置、设备和计算机可读介质
CN113505206B (zh) 基于自然语言推理的信息处理方法、装置和电子设备
WO2023185515A1 (zh) 特征提取方法、装置、存储介质及电子设备
CN113449070A (zh) 多模态数据检索方法、装置、介质及电子设备
WO2023033717A2 (zh) 数据保护方法、装置、介质及电子设备
CN116310582A (zh) 分类模型训练方法、图像分类方法、装置、介质及设备
CN111858381B (zh) 应用程序容错能力测试方法、电子设备及介质
CN111967584A (zh) 生成对抗样本的方法、装置、电子设备及计算机存储介质
CN112380883A (zh) 模型训练方法、机器翻译方法、装置、设备及存储介质
CN111915689A (zh) 用于生成目标函数的方法、装置、电子设备和计算机可读介质
CN116129440A (zh) 异常用户端告警方法、装置、电子设备和介质
WO2023014298A2 (zh) 神经网络模型的构建方法及装置
WO2023096570A2 (zh) 故障gpu的预测方法、装置、电子设备及存储介质
CN115830001A (zh) 肠道图像处理方法、装置、存储介质及电子设备
CN111680754B (zh) 图像分类方法、装置、电子设备及计算机可读存储介质
CN112766190B (zh) 对抗样本生成方法、装置、存储介质及电子设备
CN114764627A (zh) 基于横向联合学习参与方的数据贡献力确定方法和装置
CN113240108A (zh) 模型训练方法、装置和电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22811742

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18565015

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22811742

Country of ref document: EP

Kind code of ref document: A1