WO2023093229A1 - 一种联合学习参数聚合方法、装置及系统 - Google Patents

一种联合学习参数聚合方法、装置及系统 Download PDF

Info

Publication number
WO2023093229A1
WO2023093229A1 PCT/CN2022/119138 CN2022119138W WO2023093229A1 WO 2023093229 A1 WO2023093229 A1 WO 2023093229A1 CN 2022119138 W CN2022119138 W CN 2022119138W WO 2023093229 A1 WO2023093229 A1 WO 2023093229A1
Authority
WO
WIPO (PCT)
Prior art keywords
aggregation
batch
parameters
parameter
participant
Prior art date
Application number
PCT/CN2022/119138
Other languages
English (en)
French (fr)
Inventor
杜炎
王瑞杨
Original Assignee
新智我来网络科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 新智我来网络科技有限公司 filed Critical 新智我来网络科技有限公司
Publication of WO2023093229A1 publication Critical patent/WO2023093229A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning

Definitions

  • the present disclosure relates to the technical field of machine learning, and in particular to a joint learning parameter aggregation method, device and system.
  • Batch Normalization batch normalization, hereinafter referred to as "BN"
  • BN Batch Normalization
  • Horizontal joint learning based on deep learning network model usually includes multiple participants, each participant will upload the parameters obtained by their own training to the server (central node), and then the server will send each participant The parameters of each party are aggregated, and the aggregated parameters are returned to each participant, so that each participant adjusts its parameters according to the returned aggregated parameters, thereby optimizing its model.
  • the parameters of each party are aggregated by means of an aggregation method in which the server directly averages or weights the parameters uploaded by each participant, and then returns the aggregated parameters to each participant.
  • this aggregation method does not take into account the characteristics of different network layers of each participant's network model, and each participant adjusts its algorithm model according to the aggregation parameters returned by the server, which cannot achieve the expected convergence of the accelerated algorithm model Speed, and the effect of improving the generalization ability of the algorithm model.
  • the embodiments of the present disclosure provide a joint learning parameter aggregation method, device and system to solve the problem that the existing joint learning parameter aggregation method cannot help each participant to accelerate the convergence speed of its algorithm model and The problem of generalization ability.
  • the first aspect of the embodiments of the present disclosure provides a joint learning parameter aggregation method, including:
  • the batch normalization layer parameters include mean value, variance, minimum batch number, first scaling change parameter and second scaling change parameter, and N is a positive integer ⁇ 2 ;
  • the first aggregation parameter and the second aggregation parameter are returned to each participant, so that each participant adjusts and optimizes its algorithm model according to the first aggregation parameter and the second aggregation parameter.
  • an apparatus for aggregating joint learning parameters including:
  • the parameter acquisition module is configured to acquire hidden layer parameters and batch normalization layer parameters uploaded by N participants, wherein the batch normalization layer parameters include mean value, variance, minimum batch number, first scaling change parameter and second scaling change parameter, N is a positive integer ⁇ 2;
  • the first aggregation module is configured to aggregate the hidden layer parameters uploaded by each participant to obtain the first aggregation parameters
  • the second aggregation module is configured to aggregate the batch normalization layer parameters uploaded by each participant to obtain a second aggregation parameter
  • the parameter returning module is configured to return the first aggregation parameter and the second aggregation parameter to each participant, so that each participant adjusts and optimizes its algorithm model according to the first aggregation parameter and the second aggregation parameter.
  • a third aspect of the embodiments of the present disclosure provides a joint learning parameter aggregation system, including:
  • the server includes the above-mentioned joint learning parameter aggregation device; and N participants connected in communication with the server.
  • the beneficial effects of the embodiments of the present disclosure at least include: obtaining hidden layer parameters and batch normalization layer parameters uploaded by N participants, wherein the batch normalization layer parameters include mean value, variance, minimum batch number, the first A scaling change parameter and a second scaling change parameter, where N is a positive integer ⁇ 2; the hidden layer parameters uploaded by each participant are aggregated to obtain the first aggregation parameter; the batch normalization layer parameters uploaded by each participant are aggregated Aggregation to obtain the second aggregation parameter; return the first aggregation parameter and the second aggregation parameter to each participant, so that each participant adjusts and optimizes its algorithm model according to the first aggregation parameter and the second aggregation parameter, and can comprehensively consider According to the characteristics of different network layers in the network structure of the algorithm model of each participant, the parameters of different network layers can be aggregated in a targeted manner, so that the aggregated parameters can be returned to each participant, so that each participant can The returned aggregation parameters adjust the parameters of its algorithm model to improve the convergence
  • FIG. 1 is a schematic diagram of a joint learning architecture according to an embodiment of the present disclosure
  • FIG. 2 is a schematic flowchart of a joint learning parameter aggregation method provided by an embodiment of the present disclosure
  • FIG. 3 is a schematic network structure diagram of an algorithm model of a participant in a joint learning parameter aggregation method provided by an embodiment of the present disclosure
  • FIG. 4 is a schematic structural diagram of a joint learning parameter aggregation device provided by an embodiment of the present disclosure
  • FIG. 5 is a schematic structural diagram of a joint learning parameter aggregation system provided by an embodiment of the present disclosure
  • Fig. 6 is a schematic structural diagram of an electronic device provided by an embodiment of the present disclosure.
  • Federated learning refers to the comprehensive utilization of various AI (Artificial Intelligence, artificial intelligence) technologies on the premise of ensuring data security and user privacy, and joint multi-party cooperation to jointly mine data value and generate new intelligent business models and models based on joint modeling.
  • Federated learning has at least the following characteristics:
  • Participating nodes control the weakly centralized joint training mode of their own data to ensure data privacy and security in the process of co-creating intelligence.
  • FIG. 1 is a schematic diagram of a joint learning architecture according to an embodiment of the present disclosure.
  • the architecture of joint learning may include a server (central node) 101 , and participants 102 , 103 , and 104 .
  • the basic model can be established by the server 101, and the server 101 sends the model to the participant 102, the participant 103 and the participant 104 with which a communication connection is established.
  • the basic model can also be uploaded to the server 101 after being created by any participant, and the server 101 sends the model to other participants that have established communication connections with it.
  • Participant 102, participant 103 and participant 104 build a model according to the downloaded basic structure and model parameters, use local data for model training, obtain updated model parameters, and encrypt and upload the updated model parameters to the server 101.
  • the server 101 aggregates the model parameters sent by the participant 102 , the participant 103 and the participant 104 to obtain the global model parameters, and returns the global model parameters to the participant 102 , the participant 103 and the participant 104 .
  • the participant 102, the participant 103 and the participant 104 iterate their models according to the received global model parameters until the models finally converge, thereby realizing the training of the models.
  • the data uploaded by participant 102, participant 103, and participant 104 are model parameters, local data will not be uploaded to server 101, and all participants can share the final model parameters, so data can be guaranteed Co-modeling is achieved on the basis of privacy. It should be noted that the number of participants is not limited to the above three, but can be set according to needs, which is not limited in this embodiment of the present disclosure.
  • Fig. 2 is a schematic flowchart of a joint learning parameter aggregation method provided by an embodiment of the present disclosure.
  • the joint learning parameter aggregation method in FIG. 2 may be executed by the server 101 in FIG. 1 .
  • the joint learning parameter aggregation method includes:
  • Step S201 obtaining hidden layer parameters and batch normalization layer parameters uploaded by N participants, wherein the batch normalization layer parameters include mean value, variance, minimum batch number, first scaling change parameter and second scaling change parameter, N is ⁇ 2 positive integer of .
  • the hidden layer parameters refer to the hidden layer parameters in the network structure (for example, neural network structure) of the basic model adopted by each participant, including the weight W and bias b of each hidden layer in the network structure.
  • Batch normalization layer parameters refer to the parameters of the batch normalization layer (ie BN layer) in the network structure (for example, neural network structure) of the basic model adopted by each participant, including the parameters of each BN layer in the network structure Mean E x , variance Var x , minimum number of batches m, first scaling parameter ⁇ and second scaling parameter ⁇ .
  • each participant can establish a communication connection with the server through a terminal device (such as a smart phone, a personal computer, etc.), and upload its hidden layer parameters and batch normalization layer parameters.
  • a terminal device such as a smart phone, a personal computer, etc.
  • Step S202 aggregate the hidden layer parameters uploaded by each participant to obtain the first aggregated parameters.
  • N 2
  • participant A and participant B the network structure of the basic model adopted by participants A and B is a three-layer network, followed by the input layer, ( Batch normalization layer, namely BN layer) hidden layer, output layer.
  • aggregate the hidden layer parameters of participant A and participant B specifically, calculate the hidden layer parameter weight W a and bias b a of participant A and the hidden layer parameter weight W b and bias b a of participant B
  • the average or weighted average of b b that is, to complete the aggregation of the hidden layer parameters of the two, and obtain the first aggregation parameter (that is, the average or weighted value of weight W a , bias b a and weight W b , bias b b average value).
  • Step S203 aggregate the batch normalization layer parameters uploaded by each participant to obtain a second aggregation parameter.
  • the minimum batch number m b , the first scaling change parameter ⁇ b and the second scaling change parameter ⁇ b are aggregated to obtain the second aggregation parameter.
  • Step S204 returning the first aggregation parameter and the second aggregation parameter to each participant, so that each participant adjusts and optimizes its algorithm model according to the first aggregation parameter and the second aggregation parameter.
  • the server 101 aggregates the hidden layer parameters and batch normalization layer parameters uploaded by participant A and participant B according to the above steps, and after obtaining the first aggregation parameter and the second aggregation parameter, the first aggregation parameter and the second aggregation parameter Two aggregation parameters are returned to Party A and Party B respectively.
  • participant A and participant B can use the first aggregation parameter to update and adjust the parameters of the hidden layer in their network model, and use the second aggregation parameter
  • Two aggregation parameters update and adjust the parameters of the batch normalization layer (BN layer) in its network model, and then use the updated network model to continue training, and repeat the above parameters after training the next batch of training data
  • the aggregation update step is performed until the algorithm model reaches the preset number of iterations to obtain the trained algorithm model.
  • the technical solution provided by the embodiments of the present disclosure obtains the hidden layer parameters and batch normalization layer parameters uploaded by N participants, wherein the batch normalization layer parameters include mean value, variance, minimum batch number, first scaling change parameter and second scaling Change parameters, N is a positive integer ⁇ 2; aggregate the hidden layer parameters uploaded by each participant to obtain the first aggregation parameter; aggregate the batch normalization layer parameters uploaded by each participant to obtain the second aggregation parameter; Return the first aggregation parameter and the second aggregation parameter to each participant, so that each participant adjusts and optimizes its algorithm model according to the first aggregation parameter and the second aggregation parameter, and can comprehensively consider the network of each participant's algorithm model
  • the characteristics of different network layers in the structure, and the parameters of different network layers can be aggregated separately, so that the aggregated parameters are returned to each participant, so that each participant can adjust its algorithm model according to the returned aggregated parameters parameters to improve the convergence speed and generalization ability of its algorithm model.
  • the algorithm models of the N participants have the same network structure, and the network structure includes an input layer, a batch normalization layer, a hidden layer and an output layer.
  • the above step S202 includes:
  • the hidden layer parameters of the same hidden layer of each participant are aggregated to obtain a first aggregated parameter, wherein the first aggregated parameter includes at least one hidden layer aggregated parameter.
  • the neural network structure of participant A includes input layer A, first BN layer A, first hidden layer A, second BN layer A, second hidden layer A and output layer A; participant B's neural network
  • the structure includes an input layer B, a first BN layer B, a first hidden layer B, a second BN layer B, a second hidden layer B and an output layer B.
  • the first hidden layer A and the first hidden layer B are the first hidden layers of the participant A and the participant B (both belong to the same hidden layer), and the second hidden layer A and the second hidden layer B are the participants The second hidden layer of A and party B (both belong to the same hidden layer).
  • Aggregating the hidden layer parameters of the same hidden layer of each participant specifically refers to aggregating the hidden layer parameters of the first hidden layer A of the participant A and the first hidden layer B of the participant B to obtain the hidden layer aggregation Parameter 01; aggregate the hidden layer parameters of the second hidden layer A of participant A and the second hidden layer B of participant B to obtain the hidden layer aggregation parameter 02.
  • the first aggregation parameter here includes hidden layer aggregation parameter 01 and hidden layer aggregation parameter 02.
  • the hidden layer parameters of the first hidden layer A of participant A are weight W a1 and bias b a1
  • the hidden layer parameters of the second hidden layer A are weight W a2 and bias b a2
  • participant B The hidden layer parameters of the first hidden layer B are weight W b1 and bias b b1
  • the hidden layer parameters of the second hidden layer B are weight W b2 and bias b b2 .
  • the aggregation parameters of the first hidden layer of participant A and participant B are and The aggregation parameter of the second hidden layer is and
  • the first aggregation parameter includes a first hidden layer aggregation parameter and a second hidden layer aggregation parameter.
  • N is a positive integer ⁇ 2
  • K is a positive integer ⁇ 1
  • the above step S203 includes:
  • the batch normalization layer parameters of the same batch of normalization layers of each participant are aggregated, specifically referring to the first batch of normalization layers A of participant A and the first batch of normalization layers of participant B
  • the batch normalization layer parameters of B are aggregated to obtain the batch normalization layer aggregation parameter 01
  • the batch normalization layer parameters of the second batch of normalization layer A of participant A and the second batch of normalization layer B of participant B are aggregated to obtain batch normalization Layer aggregation parameter 02.
  • the second aggregation parameter here includes batch normalization layer aggregation parameter 01 and batch normalization layer aggregation parameter 02.
  • the above steps aggregate the batch normalization layer parameters of the same batch of normalization layers of each participant to obtain the second aggregation parameters, which specifically include:
  • the variance of the same batch of normalization layers of each participant is aggregated to obtain the third batch of normalization layer aggregation parameters.
  • the above-mentioned first batch of normalization layer aggregation parameters can be calculated in the following way:
  • the first scaling change parameters of the first batch of standardized layers A of participant A and the first batch of standardized layers B of participant B are ⁇ a1 and ⁇ b1 respectively, and the second scaling change parameters are respectively are ⁇ a1 and ⁇ b1 ;
  • the first scaling parameters of the second batch of standardized layers A of participant A and the second batch of standardized layers B of participant B are ⁇ a2 and ⁇ b2 respectively, and the second scaling parameters are ⁇ a2 and beta b2 .
  • the aggregation parameters of the first batch of normalization layers of the first batch of normalization layers of participant A and participant B are: and The aggregation parameters of the first batch of normalization layers for the second batch of normalization layers are and
  • the first batch of normalization The calculation formula of the mean value of the first scaling change parameter in the layer aggregation parameter Calculate the mean value of the first scaling change parameter of each batch of normalization layers of all participants; according to the calculation formula of the mean value of the second scaling change parameter in the aggregation parameters of the first batch of normalization layers Calculate the mean value of the second scaling change parameter of each batch of normalization layers of all participants, and then obtain the aggregation parameters of the first batch of normalization layers of each batch of normalization layers of all participants.
  • the above-mentioned second batch of normalization layer aggregation parameters can be calculated in the following way:
  • the second batch of normalization Calculation formula for layer aggregation parameter Calculate the aggregation parameters of the second batch of normalization layers of each batch of normalization layers of all participants (the aggregation value of the mean values of each batch of normalization layers of all participants).
  • the above third batch of normalization layer aggregation parameters can be calculated in the following way:
  • the aggregation parameters of the third batch normalization layer of each batch normalization layer of all participants are calculated (that is, the aggregation value of the variance of each batch normalization layer of all participants).
  • the principle of the server aggregating the parameters of the batch normalization layer of all participants is as follows:
  • x i represents the output of the i-th sample in the previous layer of the BN layer
  • m represents a min_batch number of batch training (that is, the minimum batch number)
  • E x represents the mean value of min-batch
  • Var x represents the variance of min_batch
  • y i represents the final output of the BN layer, which is given by Obtained by telescopic migration, where ⁇ and ⁇ are respectively
  • the translation parameter that is, the first stretching change parameter
  • scaling parameter that is, the second stretching change parameter
  • is a minimum value (eps), in order to prevent the denominator from being zero.
  • each participant adjusts and optimizes its algorithm model according to the first aggregation parameter and the second aggregation parameter, specifically including:
  • Each participant adjusts the hidden layer parameters of the hidden layer in its network structure according to the first aggregation parameter
  • Each participant adjusts the batch normalization layer parameters of the batch normalization layer in its network structure according to the second aggregation parameter.
  • participant A and participant B respectively receive the first aggregation parameter (including the first hidden layer aggregation parameter) returned by the server 101 and Aggregation parameters of the second hidden layer and ) and the second aggregation parameters (including the first batch of normalization layer aggregation parameters The second batch of normalization layer aggregation parameters ).
  • Participant A can use the aggregation parameters of the first hidden layer to update and adjust the original parameters of its first hidden layer, use the aggregation parameters of the second hidden layer to update and adjust the original parameters of its second hidden layer, and use the first batch of standardized layer aggregation parameters to update and adjust
  • the original parameters of the first batch of normalization layers are updated and adjusted using the aggregation parameters of the second batch of normalization layers, thereby completing the update and adjustment of all parameters of the network structure of its algorithm model.
  • the algorithm model after updating the parameters can be used to perform model training on the next batch of data. After each batch of data is trained, repeat the above-mentioned updating and adjustment of the parameters of each layer of the network structure until the preset model training is achieved.
  • the trained algorithm model can be obtained until the times threshold.
  • participant B can refer to the above-mentioned update steps of participant A for updating and adjusting the parameters of each layer of the network structure of its algorithm model, which will not be repeated here.
  • Fig. 4 is a schematic diagram of an apparatus for aggregating joint learning parameters provided by an embodiment of the present disclosure.
  • the joint learning parameter aggregation device includes:
  • the parameter acquisition module 401 is configured to acquire hidden layer parameters and batch normalization layer parameters uploaded by N participants, wherein the batch normalization layer parameters include mean value, variance, minimum batch number, first scaling change parameter and second scaling change parameter , N is a positive integer ⁇ 2;
  • the first aggregation module 402 is configured to aggregate the hidden layer parameters uploaded by each participant to obtain the first aggregation parameters
  • the second aggregation module 403 is configured to aggregate the batch normalization layer parameters uploaded by each participant to obtain a second aggregation parameter
  • the parameter returning module 404 is configured to return the first aggregation parameter and the second aggregation parameter to each participant, so that each participant adjusts and optimizes its algorithm model according to the first aggregation parameter and the second aggregation parameter.
  • the hidden layer parameters and batch normalization layer parameters uploaded by N participants are obtained through the parameter acquisition module 401; the first aggregation module 402 aggregates the hidden layer parameters uploaded by each participant to obtain the second One aggregation parameter; the second aggregation module 403 aggregates the batch normalization layer parameters uploaded by each participant to obtain the second aggregation parameter; the parameter return module 404 returns the first aggregation parameter and the second aggregation parameter to each participant to Make each participant adjust and optimize its algorithm model according to the first aggregation parameter and the second aggregation parameter, can comprehensively consider the characteristics of different network layers in the network structure of each participant's algorithm model, and can target different The parameters of the network layer are aggregated separately, so that the aggregated parameters are returned to each participant, so that each participant can adjust the parameters of its algorithm model according to the returned aggregation parameters, and improve the convergence speed and generalization ability of its algorithm model.
  • the algorithm models of the N participants have the same network structure, and the network structure includes an input layer, a batch normalization layer, a hidden layer and an output layer.
  • the above-mentioned first aggregation module 402 includes:
  • the hidden layer parameter aggregation unit is configured to aggregate hidden layer parameters of the same hidden layer of each participant to obtain a first aggregated parameter, wherein the first aggregated parameter includes at least one hidden layer aggregated parameter.
  • the above-mentioned second aggregation module 403 may be specifically configured as:
  • the above-mentioned second aggregation module 403 includes:
  • the first aggregation unit is configured to aggregate the first scaling change parameters and the second scaling change parameters of the same batch of normalization layers of each participant to obtain the first batch of normalization layer aggregation parameters;
  • the second aggregation unit is configured to aggregate the mean values of the same batch of normalization layers of each participant to obtain the aggregation parameters of the second batch of normalization layers;
  • the third aggregation unit is configured to aggregate the variance of the same batch of normalization layers of each participant to obtain a third batch of aggregation parameters of the normalization layer.
  • the above-mentioned first aggregation unit can be specifically configured as:
  • the above-mentioned second polymerization unit can be specifically configured as:
  • the above-mentioned third polymerization unit can be specifically configured as:
  • each participant can be configured to:
  • Fig. 5 is a schematic structural diagram of a joint learning parameter aggregation system provided by an embodiment of the present disclosure.
  • the system for aggregating joint learning parameters includes a server 101 , the server includes the above-mentioned apparatus for aggregating joint learning parameters; and, N participants communicatively connected to the server 101 .
  • the server 101 and each participant can communicate through the network, Bluetooth, etc., each participant participates in joint learning for the purpose of optimizing a certain algorithm model or wants to build a certain algorithm model, and uses its own
  • the basic model constructed or the basic model delivered by the server is trained using its local data, and after each batch of data training is completed, the hidden layer parameters and batch normalization layer parameters obtained from the training are uploaded to the server 101, and the server 101
  • the server 101 After receiving the hidden layer parameters and batch normalization layer parameters uploaded by each participant, aggregate the hidden layer parameters uploaded by each participant to obtain the first aggregation parameter; and perform batch normalization layer parameters uploaded by each participant Aggregation to obtain the second aggregation parameter; then, return the first aggregation parameter and the second aggregation parameter to each participant, each participant, after receiving the first aggregation parameter and the second aggregation parameter returned by the server 101, according to the first aggregation parameter
  • the first aggregation parameter and the second aggregation parameter correspondingly adjust the original parameters of the
  • FIG. 6 is a schematic structural diagram of an electronic device 600 provided by an embodiment of the present disclosure.
  • an electronic device 600 in this embodiment includes: a processor 601 , a memory 602 , and a computer program 603 stored in the memory 602 and operable on the processor 601 .
  • the processor 601 executes the computer program 603
  • the steps in the foregoing method embodiments are implemented.
  • the processor 601 executes the computer program 603 the functions of the modules/units in the foregoing device embodiments are realized.
  • the computer program 603 can be divided into one or more modules/units, and one or more modules/units are stored in the memory 602 and executed by the processor 601 to complete the present disclosure.
  • One or more modules/units may be a series of computer program instruction segments capable of accomplishing specific functions, and the instruction segments are used to describe the execution process of the computer program 603 in the electronic device 600 .
  • the electronic device 600 may be an electronic device such as a desktop computer, a notebook, a palmtop computer, and a cloud server.
  • the electronic device 600 may include but not limited to a processor 601 and a memory 602 .
  • FIG. 6 is only an example of the electronic device 600, and does not constitute a limitation to the electronic device 600. It may include more or less components than those shown in the figure, or combine certain components, or different components.
  • an electronic device may also include an input and output device, a network access device, a bus, and the like.
  • the processor 601 can be a central processing unit (Central Processing Unit, CPU), and can also be other general processors, digital signal processors (Digital Signal Processor, DSP), application specific integrated circuits (Application Specific Integrated Circuit, ASIC), on-site Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • a general-purpose processor may be a microprocessor, or the processor may be any conventional processor, or the like.
  • the storage 602 may be an internal storage unit of the electronic device 600 , for example, a hard disk or a memory of the electronic device 600 .
  • the memory 602 can also be an external storage device of the electronic device 600, for example, a plug-in hard disk equipped on the electronic device 600, a smart memory card (Smart Media Card, SMC), a secure digital (Secure Digital, SD) card, a flash memory card ( Flash Card), etc.
  • the memory 602 may also include both an internal storage unit of the electronic device 600 and an external storage device.
  • the memory 602 is used to store computer programs and other programs and data required by the electronic device.
  • the memory 602 can also be used to temporarily store data that has been output or will be output.
  • the disclosed device/electronic equipment and method may be implemented in other ways.
  • the device/electronic device embodiments described above are only illustrative.
  • the division of modules or units is only a logical function division. In actual implementation, there may be other division methods. Multiple units or components can be Incorporation may either be integrated into another system, or some features may be omitted, or not implemented.
  • the mutual coupling or direct coupling or communication connection shown or discussed may be through some interfaces, and the indirect coupling or communication connection of devices or units may be in electrical, mechanical or other forms.
  • a unit described as a separate component may or may not be physically separated, and a component displayed as a unit may or may not be a physical unit, that is, it may be located in one place, or may be distributed to multiple network units. Part or all of the units can be selected according to actual needs to achieve the purpose of the solution of this embodiment.
  • each functional unit in each embodiment of the present disclosure may be integrated into one processing unit, each unit may exist separately physically, or two or more units may be integrated into one unit.
  • the above-mentioned integrated units can be implemented in the form of hardware or in the form of software functional units.
  • an integrated module/unit is realized in the form of a software function unit and sold or used as an independent product, it can be stored in a computer-readable storage medium.
  • the present disclosure realizes all or part of the processes in the methods of the above embodiments, and can also be completed by instructing related hardware through computer programs.
  • the computer programs can be stored in computer-readable storage media, and the computer programs can be processed. When executed by the controller, the steps in the above-mentioned method embodiments can be realized.
  • a computer program may include computer program code, which may be in source code form, object code form, executable file, or some intermediate form or the like.
  • the computer-readable medium may include: any entity or device capable of carrying computer program code, recording medium, U disk, removable hard disk, magnetic disk, optical disk, computer memory, read-only memory (Read-Only Memory, ROM), random access Memory (Random Access Memory, RAM), electrical carrier signal, telecommunication signal and software distribution medium, etc. It should be noted that the content contained in computer readable media may be appropriately increased or decreased according to the requirements of legislation and patent practice in the jurisdiction. For example, in some jurisdictions, computer readable media may not Including electrical carrier signals and telecommunication signals.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种联合学习参数聚合方法、装置及系统。该方法包括:获取N个参与方上传的隐层参数和批标准化层参数(S201);对每个参与方上传的隐层参数进行聚合,得到第一聚合参数(S202);对每个参与方上传的批标准化层参数进行聚合,得到第二聚合参数(S203);将第一聚合参数和第二聚合参数返回至各个参与方,以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型(S204)。该方法能够综合考虑到各参与方的算法模型的网络结构中的不同网络层的特点,并可针对性地对不同的网络层的参数进行分别聚合,使得聚合参数并返回至各参与方,使得各参与方可根据所返回的聚合参数调整其算法模型的参数,提高其算法模型的收敛速度以及泛化能力。

Description

一种联合学习参数聚合方法、装置及系统 技术领域
本公开涉及机器学习技术领域,尤其涉及一种联合学习参数聚合方法、装置及系统。
背景技术
随着深度学习网络模型的层数的增多,其隐藏层的数量也随之增加,而在训练过程中,每个隐藏层的参数会随之发生变化,所以隐藏层的输入分布总会变化,从而降低了模型学习的收敛速度,甚至会影响模型的泛化能力。据相关研究表明,通过对每一层网络的输入进行标准化,即Batch Normalization(批标准化,以下简称“BN”)能够在一定程度上减少网络内部方差偏移而导致输入分布的改变,加速模型的收敛,且模型具有较好的泛化能力。
基于深度学习的网络模型(设置有BN层)的横向联合学习,通常包括多个参与方,每个参与方会将各自训练得到的参数上传至服务器(中心节点),然后,服务器会将各参与方的参数进行聚合,并将聚合后的参数返回至各参与方,以使各参与方根据返回的聚合参数调整其参数,从而优化其模型。
但是,现有技术中是通过服务器直接对各参与方上传的参数进行求平均值或加权平均值的聚合方式来聚合各方的参数,之后将聚合的参数返回至各参与方。显然,这种聚合方式并未考虑到各参与方的网络模型的不同网络层的特点,而各参与方根据服务器返回的聚合参数来调整其算法模型,并不能够达到预期的加速算法模型的收敛速度,以及提高算法模型的泛化能力的效果。
发明内容
有鉴于此,本公开实施例提供了一种联合学习参数聚合方法、装置及系统,以解决现有的联合学习的参数聚合方式不能够很好地帮助各参与方加速其算法模型的收敛速度和泛化能力的问题。
本公开实施例的第一方面,提供了一种联合学习参数聚合方法,包括:
获取N个参与方上传的隐层参数和批标准化层参数,其中,批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数,N为≥2的正整数;
对每个参与方上传的隐层参数进行聚合,得到第一聚合参数;
对每个参与方上传的批标准化层参数进行聚合,得到第二聚合参数;
将第一聚合参数和第二聚合参数返回至各个参与方,以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型。
本公开实施例的第二方面,提供了一种联合学习参数聚合装置,包括:
参数获取模块,被配置为获取N个参与方上传的隐层参数和批标准化层参数,其中,批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数,N为≥2的正整数;
第一聚合模块,被配置为对每个参与方上传的隐层参数进行聚合,得到第一聚合参数;
第二聚合模块,被配置为对每个参与方上传的批标准化层参数进行聚合,得到第二聚合参数;
参数返回模块,被配置为将第一聚合参数和第二聚合参数返回至各个参与方,以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型。
本公开实施例的第三方面,提供了一种联合学习参数聚合系统,包括:
服务器,服务器包括上述的联合学习参数聚合装置;以及,与服务器通信连接的N个参与方。
本公开实施例与现有技术相比存在的有益效果至少包括:通过获取N个参与方上传的隐层参数和批标准化层参数,其中,批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数,N为≥2的正整数;对每个参与方上传的隐层参数进行聚合,得到第一聚合参数;对每个参与方上传的批标准化层参数进行聚合,得到第二聚合参数;将第一聚合参数和第二聚合参数返回至各个参与方,以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型,能够综合考虑到各参与方的算法模型的网络结构中的不同网络层的特点,并可针对性地对不同的网络层的参数进行分别聚合,使得聚合参数并返回至各参与方,使得各参与方可根据所返回的聚合参数调整其算法模型的参数,提高其算法模型的收敛速度以及泛化能力。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例的一种联合学习的架构示意图;
图2是本公开实施例提供的一种联合学习参数聚合方法的流程示意图;
图3是本公开实施例提供的一种联合学习参数聚合方法中的参与方的算法模型的网络结构示意图;
图4是本公开实施例提供的一种联合学习参数聚合装置的结构示意图;
图5是本公开实施例提供的一种联合学习参数聚合系统的结构示意图;
图6是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
联合学习是指在确保数据安全及用户隐私的前提下,综合利用多种AI(Artificial Intelligence,人工智能)技术,联合多方合作共同挖掘数据价值,催生基于联合建模的新的智能业态和模式。联合学习至少具有以下特点:
(1)参与节点控制自有数据的弱中心化联合训练模式,确保共创智能过程中的数据隐私安全。
(2)在不同应用场景下,利用筛选和/或组合AI算法、隐私保护计算,建立多种模型聚合优化策略,以获取高层次、高质量的模型。
(3)在确保数据安全及用户隐私的前提下,基于多种模型聚合优化策略,获取提升联合学习引擎的效能方法,其中效能方法可以是通过解决包括计算架构并行、大规模跨域网络下的信息交互、智能感知、异常处理机制等,提升联合学习引擎的整体效能。
(4)获取各场景下多方用户的需求,通过互信机制,确定合理评估各联合参与方的真实贡献度,进行分配激励。
基于上述方式,可以建立基于联合学习的AI技术生态,充分发挥行业数据价值,推动垂直领域的场景落地。
下面将结合附图详细说明根据本公开实施例的一种联合学习参数聚合方法、装置和系统。
图1是本公开实施例的一种联合学习的架构示意图。如图1所示,联合学习的架构可以包括服务器(中心节点)101以及参与方102、参与方103和参与方104。
在联合学习过程中,基本模型可以通过服务器101建立,服务器101将该模型发送至与其建立通信连接的参与方102、参与方103和参与方104。基本模型还可以是任一参与方建立后上传至服务器101,服务器101将该模型发送至与其建立通信连接的其他参与方。参与 方102、参与方103和参与方104根据下载的基本结构和模型参数构建模型,利用本地数据进行模型训练,获得更新的模型参数,并将更新的模型参数加密上传至服务器101。服务器101对参与方102、参与方103和参与方104发送的模型参数进行聚合,获得全局模型参数,并将全局模型参数传回至参与方102、参与方103和参与方104。参与方102、参与方103和参与方104根据接收的全局模型参数对各自的模型进行迭代,直到模型最终收敛,从而实现对模型的训练。在联合学习过程中,参与方102、参与方103和参与方104上传的数据为模型参数,本地数据并不会上传至服务器101,且所有参与方可以共享最终的模型参数,因此可以在保证数据隐私的基础上实现共同建模。需要说明的是,参与方的数量不限于如上的三个,而是可以根据需要进行设置,本公开实施例对此不作限制。
图2是本公开实施例提供的一种联合学习参数聚合方法的流程示意图。图2的联合学习参数聚合方法可以由图1的服务器101执行。如图2所示,该联合学习参数聚合方法包括:
步骤S201,获取N个参与方上传的隐层参数和批标准化层参数,其中,批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数,N为≥2的正整数。
其中,隐层参数,是指各参与方所采用的基本模型的网络结构(例如,神经网络结构)中的隐层的参数,包括网络结构中的每个隐层的权重W和偏置b。
批标准化层参数,则是指各参与方所采用的基本模型的网络结构(例如,神经网络结构)中的批标准化层(即BN层)的参数,包括该网络结构中的每个BN层的均值E x、方差Var x、最小批数m、第一伸缩变化参数γ和第二伸缩变化参数β。
作为一示例,每个参与方可通过终端设备(如智能手机、个人电脑等)与服务器建立通信连接,并上传其隐层参数可批标准化层参数。
步骤S202,对每个参与方上传的隐层参数进行聚合,得到第一聚合参数。
作为一示例,假设N=2,即有两个参与方,记为参与方A和参与方B,参与方A和B所采用的基本模型的网络结构为三层网络,依次为输入层、(批标准化层,即BN层)隐层、输出层。
首先,获取到参与方A上传的隐层参数(包括权重W a和偏置b a),及其BN层的批标准化层参数(包括均值
Figure PCTCN2022119138-appb-000001
方差
Figure PCTCN2022119138-appb-000002
最小批数m a、第一伸缩变化参数γ a和第二伸缩变化参数β a),以及参与方B上传的隐层参数(包括权重W b和偏置b b),及其BN层的批标准化层参数(包括均值
Figure PCTCN2022119138-appb-000003
方差
Figure PCTCN2022119138-appb-000004
最小批数m b、第一伸缩变化参数γ b和第二伸缩变化参数β b)。
接着,对参与方A和参与方B的隐层参数进行聚合,具体可以是计算参与方A的隐层 参数权重W a、偏置b a与参与方B的隐层参数权重W b、偏置b b的平均值或者加权平均值,即完成二者的隐层参数的聚合,得到第一聚合参数(即权重W a、偏置b a与权重W b、偏置b b的平均值或者加权平均值)。
步骤S203,对每个参与方上传的批标准化层参数进行聚合,得到第二聚合参数。
结合上述示例,对参与方A和参与方B的批标准化层参数进行聚合,具体是对参与方A的批标准化层参数均值
Figure PCTCN2022119138-appb-000005
方差
Figure PCTCN2022119138-appb-000006
最小批数m a、第一伸缩变化参数γ a和第二伸缩变化参数β a与参与方B的批标准化层参数均值
Figure PCTCN2022119138-appb-000007
方差
Figure PCTCN2022119138-appb-000008
最小批数m b、第一伸缩变化参数γ b和第二伸缩变化参数β b进行聚合,得到第二聚合参数。
步骤S204,将第一聚合参数和第二聚合参数返回至各个参与方,以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型。
结合上述示例,服务器101在对参与方A和参与方B上传的隐层参数和批标准化层参数按照上述步骤进行聚合,得到第一聚合参数和第二聚合参数后,将第一聚合参数和第二聚合参数分别返回给参与方A和参与方B。此时,参与方A和参与方B在接收到服务器101返回的第一聚合参数和第二聚合参数之后,可采用第一聚合参数对其网络模型中的隐层的参数进行更新调整,采用第二聚合参数对其网络模型中的批标准化层(BN层)的参数进行更新调整,然后再利用更新参数后的网络模型继续训练,并在训练完下一批次的训练数据后,重复上述参数聚合更新步骤,直至其算法模型达到预设的迭代次数为止,得到训练好的算法模型。
本公开实施例提供的技术方案,通过获取N个参与方上传的隐层参数和批标准化层参数,其中,批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数,N为≥2的正整数;对每个参与方上传的隐层参数进行聚合,得到第一聚合参数;对每个参与方上传的批标准化层参数进行聚合,得到第二聚合参数;将第一聚合参数和第二聚合参数返回至各个参与方,以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型,能够综合考虑到各参与方的算法模型的网络结构中的不同网络层的特点,并可针对性地对不同的网络层的参数进行分别聚合,使得聚合参数并返回至各参与方,使得各参与方可根据所返回的聚合参数调整其算法模型的参数,提高其算法模型的收敛速度以及泛化能力。
在一些实施例中,N个参与方的算法模型的网络结构相同,网络结构包括输入层、批标准化层、隐层和输出层。
上述步骤S202,包括:
对每个参与方的同一隐层的隐层参数进行聚合,得到第一聚合参数,其中,第一聚合参 数包括至少一个隐层聚合参数。
作为一示例,假设N=2,有两个参与方,分别为参与方A和参与方B,其中,参与方A和参与方B的算法模型的网络结构均为4层的神经网络结构,该神经网络结构的结构示意图如图3所示。参见图3,参与方A的神经网络结构包括输入层A、第一BN层A、第一隐层A、第二BN层A、第二隐层A和输出层A;参与方B的神经网络结构包括输入层B、第一BN层B、第一隐层B、第二BN层B、第二隐层B和输出层B。其中,第一隐层A与第一隐层B为参与方A与参与方B的第一个隐层(二者属于同一隐层),第二隐层A与第二隐层B为参与方A与参与方B的第二个隐层(二者属于同一个隐层)。
对每个参与方的同一隐层的隐层参数进行聚合,具体是指对参与方A的第一隐层A与参与方B的第一隐层B的隐层参数进行聚合,得到隐层聚合参数01;对参与方A的第二隐层A与参与方B的第二隐层B的隐层参数进行聚合,得到隐层聚合参数02。这里的第一聚合参数即包括隐层聚合参数01和隐层聚合参数02。
作为一示例,假设参与方A的第一隐层A的隐层参数为权重W a1、偏置b a1,第二隐层A的隐层参数为权重W a2、偏置b a2;参与方B的第一隐层B的隐层参数为权重W b1、偏置b b1,第二隐层B的隐层参数为权重W b2、偏置b b2
具体地,参与方A和参与方B的隐层参数的聚合过程如下:
首先,计算参与方A和参与方B的第一隐层的权重均值
Figure PCTCN2022119138-appb-000009
同时,计算参与方A和参与方B的第二隐层的权重均值
Figure PCTCN2022119138-appb-000010
其次,计算参与方A和参与方B的第一隐层的偏置均值
Figure PCTCN2022119138-appb-000011
同时,计算参与方A和参与方B的第二隐层的偏置均值
Figure PCTCN2022119138-appb-000012
由上述可得到,参与方A和参与方B的第一隐层聚合参数为
Figure PCTCN2022119138-appb-000013
Figure PCTCN2022119138-appb-000014
第二隐层聚合参数为
Figure PCTCN2022119138-appb-000015
Figure PCTCN2022119138-appb-000016
第一聚合参数包括第一隐层聚合参数和第二隐层聚合参数。
可以理解的,假设有N个参与方(N为≥2的正整数),每个参与方的网络结构有K层隐层(K为≥1的正整数),那么可以根据公式
Figure PCTCN2022119138-appb-000017
计算得到所有参与 方的各隐层的权重均值;根据公式
Figure PCTCN2022119138-appb-000018
计算得到所有参与方的各隐层偏置均值,进而得到所有参与方的隐层的第一聚合参数。
在一些实施例中,上述步骤S203包括:
对每个参与方的同一批标准化层的批标准化层参数进行聚合,得到第二聚合参数,其中,第二聚合参数包括至少一个批标准化层聚合参数,批标准化层聚合参数包括第一、第二和第三批标准化层聚合参数。
结合上述示例,结合图3,对每个参与方的同一批标准化层的批标准化层参数进行聚合,具体是指对参与方A的第一批标准化层A与参与方B的第一批标准化层B的批标准化层参数进行聚合,得到批标准化层聚合参数01;对参与方A的第二批标准化层A与参与方B的第二批标准化层B的批标准化层参数进行聚合,得到批标准化层聚合参数02。这里的第二聚合参数即包括批标准化层聚合参数01和批标准化层聚合参数02。
在一些实施例中,上述步骤对每个参与方的同一批标准化层的批标准化层参数进行聚合,得到第二聚合参数,具体包括:
对每个参与方的同一批标准化层的第一伸缩变化参数和第二伸缩变化参数进行聚合,得到第一批标准化层聚合参数;
对每个参与方的同一批标准化层的均值进行聚合,得到第二批标准化层聚合参数;
对每个参与方的同一批标准化层的方差进行聚合,得到第三批标准化层聚合参数。
作为一示例,上述第一批标准化层聚合参数可通过下述方式计算得到:
计算每个参与方的同一批标准化层的第一伸缩变化参数的均值,以及每个参与方的同一批标准化层的第二伸缩变化参数的均值,得到第一批标准化层聚合参数。
作为一示例,结合上述示例,假设参与方A的第一批标准化层A与参与方B的第一批标准化层B的第一伸缩变化参数分别为γ a1和γ b1,第二伸缩变化参数分别为β a1和β b1;参与方A的第二批标准化层A与参与方B的第二批标准化层B的第一伸缩变化参数分别为γ a2和γ b2,第二伸缩变化参数分别为β a2和β b2
那么,可根据公式
Figure PCTCN2022119138-appb-000019
计算出参与方A的第一批标准化层A与参与方B的第一批标准化层B的第一伸缩变化参数的均值
Figure PCTCN2022119138-appb-000020
根据公式
Figure PCTCN2022119138-appb-000021
计算出参与方A的 第二批标准化层A与参与方B的第二批标准化层B的第一伸缩变化参数的均值
Figure PCTCN2022119138-appb-000022
根据公式
Figure PCTCN2022119138-appb-000023
计算出参与方A的第一批标准化层A与参与方B的第一批标准化层B的第二伸缩变化参数均值
Figure PCTCN2022119138-appb-000024
根据公式
Figure PCTCN2022119138-appb-000025
计算出参与方A的第二批标准化层A与参与方B的第二批标准化层B的第二伸缩变化参数均值
Figure PCTCN2022119138-appb-000026
由上述可得到,参与方A和参与方B的第一批标准化层的第一批标准化层聚合参数为
Figure PCTCN2022119138-appb-000027
Figure PCTCN2022119138-appb-000028
第二批标准化层的第一批标准化层聚合参数为
Figure PCTCN2022119138-appb-000029
Figure PCTCN2022119138-appb-000030
可以理解的,假设有N个参与方(N为≥2的正整数),每个参与方的网络结构有P层批标准化层(P为≥1的正整数),那么可以根据第一批标准化层聚合参数中的第一伸缩变化参数均值的计算公式
Figure PCTCN2022119138-appb-000031
计算得到所有参与方的各批标准化层的第一伸缩变化参数均值;根据第一批标准化层聚合参数中的第二伸缩变化参数均值的计算公式
Figure PCTCN2022119138-appb-000032
计算得到所有参与方的各批标准化层的第二伸缩变化参数均值,进而得到所有参与方的各批标准化层的第一批标准化层聚合参数。
作为一示例,上述第二批标准化层聚合参数可通过下述方式计算得到:
计算每个参与方的同一批标准化层的均值与其最小批数的第一乘积,并计算各个参与方的第一乘积之和;
计算N个参与方的最小批数的总和,根据第一乘积之和、最小批数的总和,计算得到第二批标准化层聚合参数。
作为一示例,结合上述示例,当N=2,即有两个参与方,分别为参与方A和参与方B,参与方A与B所采用的网络结构如图3所示。假设参与方A的第一批标准化层A与参与方B的第一批标准化层B的均值分别为
Figure PCTCN2022119138-appb-000033
Figure PCTCN2022119138-appb-000034
最小批数分别为m a和m b;参与方A的第二批标准化层A与参与方B的第二批标准化层B的均值分别为
Figure PCTCN2022119138-appb-000035
Figure PCTCN2022119138-appb-000036
最小批数分别为m a和m b
那么,可以根据公式
Figure PCTCN2022119138-appb-000037
计算出参与方A与参与方B的第一批 标准化层的第二批标准化层聚合参数01。根据公式
Figure PCTCN2022119138-appb-000038
计算出参与方A与参与方B的第二批标准化层的第二批标准化层聚合参数02。
可以理解的,假设有N个参与方(N为≥2的正整数),每个参与方的网络结构有P层批标准化层(P为≥1的正整数),那么可以根据第二批标准化层聚合参数的计算公式
Figure PCTCN2022119138-appb-000039
计算出所有参与方的各批标准化层的第二批标准化层聚合参数(所有参与方的各批标准化层的均值的聚合值)。
作为一示例,上述第三批标准化层聚合参数可通过下述方式计算得到:
计算每个参与方的同一批标准化层的均值与其方差的平方和,并计算平方和与参与方的最小批数的第二乘积,统计各个参与方的第二乘积之和;
计算N个参与方的最小批数的总和,根据第二乘积之和、最小批数的总和、以及第二批标准化层聚合参数,计算得到第三批标准化层聚合参数。
作为一示例,结合上述示例,当N=2,即有两个参与方,分别为参与方A和参与方B,参与方A与B所采用的网络结构如图3所示。假设参与方A的第一批标准化层A与参与方B的第一批标准化层B的方差分别为
Figure PCTCN2022119138-appb-000040
Figure PCTCN2022119138-appb-000041
参与方A的第二批标准化层A与参与方B的第二批标准化层B的方差分别为
Figure PCTCN2022119138-appb-000042
Figure PCTCN2022119138-appb-000043
由于针对单个参与方而言,其每一BN层的方差=平方的期望-期望的平方,即Var=E(x 2)-E 2(x),那么可以根据公式
Figure PCTCN2022119138-appb-000044
计算出参与方A的第一批标准化层A与参与方B的第一批标准化层B的第三批标准化层聚合参数01(即聚合方差);根据公式
Figure PCTCN2022119138-appb-000045
计算出参与方A的第二批标准化层A与参与方B的第二批标准化层B的第三批标准化层聚合参数02(即聚合方差)。
可以理解的,假设有N个参与方(N为≥2的正整数),每个参与方的网络结构有P层 批标准化层(P为≥1的正整数),那么可以根据第三批标准化层聚合参数的计算公式:
Figure PCTCN2022119138-appb-000046
计算得到所有参与方的各层批标准化层的第三批标准化层聚合参数(即所有参与方的各批标准化层的方差的聚合值)。
本公开实施例提供的技术方案,服务器对所有参与方的批标准化层的参数进行聚合的原理如下:
Figure PCTCN2022119138-appb-000047
Figure PCTCN2022119138-appb-000048
Figure PCTCN2022119138-appb-000049
Figure PCTCN2022119138-appb-000050
其中,x i表示第i个样本在BN层前一层的输出,m表示批次训练一个min_batch数(即最小批数),E x表示min-batch的均值,Var x表示min_batch的方差,
Figure PCTCN2022119138-appb-000051
表示normalization过程(即对第i个样本在BN层前一层的输出进行归一标准化的过程),y i表示BN层最终的输出,其系由
Figure PCTCN2022119138-appb-000052
经过伸缩偏移得到的,其中,γ和β分别为
Figure PCTCN2022119138-appb-000053
的平移参数(即第一伸缩变化参数)和缩放参数(即第二伸缩变化参数),∈为极小值(eps),为了防止分母为零。
具体地,首先计算出此次批量数据x的均值,接着,计算出该批量数据的方差,然后,再对该批量数据的x进行归一化处理,最后,引入平移参数和缩放参数对归一化结果进行处理,这样就能够很好地将y i还原到归一化前的x,从而能够保证每一次数据经过归一化后还能保留原有学习来的特征,同时又能完成归一化的操作,进而达到加速模型收敛的效果,并且有利于提高模型的泛化能力。
在一些实施例中,上述步骤S204中,每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型,具体包括:
每个参与方,根据第一聚合参数调整其网络结构中的隐层的隐层参数;
每个参与方,根据第二聚合参数调整其网络结构中的批标准化层的批标准化层参数。
作为一示例,结合上述示例,当参与方A和参与方B分别接收到服务器101返回的第一聚合参数(包括第一隐层聚合参数
Figure PCTCN2022119138-appb-000054
Figure PCTCN2022119138-appb-000055
第二隐层聚合参数
Figure PCTCN2022119138-appb-000056
Figure PCTCN2022119138-appb-000057
)和第二聚合参数(包括第一批标准化层聚合参数
Figure PCTCN2022119138-appb-000058
第二批标准化层聚合参数
Figure PCTCN2022119138-appb-000059
Figure PCTCN2022119138-appb-000060
)。参与方A可以使用第一隐层聚合参数更新调整其第一隐层的原始参数,使用第二隐层聚合参数更新调整其第二隐层的原始参数,使用第一批标准化层聚合参数更新调整其第一批标准化层的原始参数,使用第二批标准化层聚合参数更新调整其第二批标准化层的原始参数,从而完成对其算法模型的网络结构的所有参数的更新调整。接下来,可使用更新参数后的算法模型对下一批次的数据进行模型训练,每训练完一批次数据后重复上述针对网络结构的各层参数的更新调整,直至达到预设的模型训练次数阈值为止,即可得到训练好的算法模型。
类似地,参与方B对于其算法模型的网络结构的各层参数的更新调整可参照上述参与方A的更新步骤,在此不再赘述。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图4是本公开实施例提供的一种联合学习参数聚合装置的示意图。如图4所示,该联合学习参数聚合装置包括:
参数获取模块401,被配置为获取N个参与方上传的隐层参数和批标准化层参数,其中,批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数,N为≥2的正整数;
第一聚合模块402,被配置为对每个参与方上传的隐层参数进行聚合,得到第一聚合参数;
第二聚合模块403,被配置为对每个参与方上传的批标准化层参数进行聚合,得到第二聚合参数;
参数返回模块404,被配置为将第一聚合参数和第二聚合参数返回至各个参与方,以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型。
本公开实施例提供的技术方案,通过参数获取模块401获取N个参与方上传的隐层参数 和批标准化层参数;第一聚合模块402对每个参与方上传的隐层参数进行聚合,得到第一聚合参数;第二聚合模块403对每个参与方上传的批标准化层参数进行聚合,得到第二聚合参数;参数返回模块404将第一聚合参数和第二聚合参数返回至各个参与方,以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型,能够综合考虑到各参与方的算法模型的网络结构中的不同网络层的特点,并可针对性地对不同的网络层的参数进行分别聚合,使得聚合参数并返回至各参与方,使得各参与方可根据所返回的聚合参数调整其算法模型的参数,提高其算法模型的收敛速度以及泛化能力。
在一些实施例中,N个参与方的算法模型的网络结构相同,网络结构包括输入层、批标准化层、隐层和输出层。上述第一聚合模块402包括:
隐层参数聚合单元,被配置为对每个参与方的同一隐层的隐层参数进行聚合,得到第一聚合参数,其中,第一聚合参数包括至少一个隐层聚合参数。
在一些实施例中,上述第二聚合模块403,可具体被配置为:
对每个参与方的同一批标准化层的批标准化层参数进行聚合,得到第二聚合参数,其中,第二聚合参数包括至少一个批标准化层聚合参数,批标准化层聚合参数包括第一、第二和第三批标准化层聚合参数。
在一些实施例中,上述第二聚合模块403包括:
第一聚合单元,被配置为对每个参与方的同一批标准化层的第一伸缩变化参数和第二伸缩变化参数进行聚合,得到第一批标准化层聚合参数;
第二聚合单元,被配置为对每个参与方的同一批标准化层的均值进行聚合,得到第二批标准化层聚合参数;
第三聚合单元,被配置为对每个参与方的同一批标准化层的方差进行聚合,得到第三批标准化层聚合参数。
在一些实施例中,上述第一聚合单元,可被具体配置为:
计算每个参与方的同一批标准化层的第一伸缩变化参数的均值,以及每个参与方的同一批标准化层的第二伸缩变化参数的均值,得到第一批标准化层聚合参数。
在一些实施例中,上述第二聚合单元,可被具体配置为:
计算每个参与方的同一批标准化层的均值与其最小批数的第一乘积,并计算各个参与方的第一乘积之和;
计算N个参与方的最小批数的总和,根据第一乘积之和、最小批数的总和,计算得到第二批标准化层聚合参数。
在一些实施例中,上述第三聚合单元,可被具体配置为:
计算每个参与方的同一批标准化层的均值与其方差的平方和,并计算平方和与参与方的最小批数的第二乘积,统计各个参与方的第二乘积之和;
计算N个参与方的最小批数的总和,根据第二乘积之和、最小批数的总和、以及第二批标准化层聚合参数,计算得到第三批标准化层聚合参数。
在一些实施例中,各个参与方可被配置为:
在接收到服务器返回的第一聚合参数和第二聚合参数后,根据第一聚合参数调整其网络结构中的隐层的隐层参数;根据第二聚合参数调整其网络结构中的批标准化层的批标准化层参数。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图5是本公开实施例提供的一种联合学习参数聚合系统的结构示意图。如图5所示,该联合学习参数聚合系统包括服务器101,服务器包括上述的联合学习参数聚合装置;以及,与服务器101通信连接的N个参与方。
具体地,服务器101与每个参与方可通过网络、蓝牙等方式通信,各个参与方出于优化其某个算法模型或者想要构建某个算法模型等目的而参与联合学习,并在利用其自己构建的基本模型或者服务器下发的基本模型,利用其本地数据进行训练,并在每结束一批次数据的训练后,将其训练得到的隐层参数和批标准化层参数上传至服务器101,服务器101接收到各个参与方上传的隐层参数和批标准化层参数之后,对每个参与方上传的隐层参数进行聚合,得到第一聚合参数;并对每个参与方上传的批标准化层参数进行聚合,得到第二聚合参数;然后,将第一聚合参数和第二聚合参数返回至各个参与方,各个参与方在接收到服务器101返回的第一聚合参数和第二聚合参数之后,根据该第一聚合参数和第二聚合参数对应调整其算法模型中对应的网络结构层的原始参数,并利用更新后的算法模型网络结构继续训练下一批次的数据,直至达到模型收敛为止。
图6是本公开实施例提供的电子设备600的结构示意图。如图6所示,该实施例的电子设备600包括:处理器601、存储器602以及存储在该存储器602中并且可在处理器601上运行的计算机程序603。处理器601执行计算机程序603时实现上述各个方法实施例中的步骤。或者,处理器601执行计算机程序603时实现上述各装置实施例中各模块/单元的功能。
示例性地,计算机程序603可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器602中,并由处理器601执行,以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序603在电子设备600中的执行过程。
电子设备600可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备600可以包括但不仅限于处理器601和存储器602。本领域技术人员可以理解,图6仅仅是电子设备600的示例,并不构成对电子设备600的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,电子设备还可以包括输入输出设备、网络接入设备、总线等。
处理器601可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器602可以是电子设备600的内部存储单元,例如,电子设备600的硬盘或内存。存储器602也可以是电子设备600的外部存储设备,例如,电子设备600上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器602还可以既包括电子设备600的内部存储单元也包括外部存储设备。存储器602用于存储计算机程序以及电子设备所需的其它程序和数据。存储器602还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

Claims (10)

  1. 一种联合学习参数聚合方法,其特征在于,包括:
    获取N个参与方上传的隐层参数和批标准化层参数,其中,所述批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数,N为≥2的正整数;
    对每个所述参与方上传的隐层参数进行聚合,得到第一聚合参数;
    对每个所述参与方上传的批标准化层参数进行聚合,得到第二聚合参数;
    将所述第一聚合参数和所述第二聚合参数返回至各个所述参与方,以使每个所述参与方根据所述第一聚合参数和所述第二聚合参数调整优化其算法模型。
  2. 根据权利要求1所述的联合学习参数聚合方法,其特征在于,所述N个参与方的算法模型的网络结构相同,所述网络结构包括输入层、批标准化层、隐层和输出层;
    所述对每个所述参与方上传的隐层参数进行聚合,得到第一聚合参数,包括:
    对每个所述参与方的同一隐层的隐层参数进行聚合,得到第一聚合参数,其中,所述第一聚合参数包括至少一个隐层聚合参数。
  3. 根据权利要求1所述的联合学习参数聚合方法,其特征在于,所述对每个所述参与方上传的批标准化层参数进行聚合,得到第二聚合参数,包括:
    对每个所述参与方的同一批标准化层的批标准化层参数进行聚合,得到第二聚合参数,其中,所述第二聚合参数包括至少一个批标准化层聚合参数。
  4. 根据权利要求3所述的联合学习参数聚合方法,其特征在于,所述批标准化层聚合参数包括第一批标准化层聚合参数、第二批标准化层聚合参数和第三批标准化层聚合参数;
    所述对每个所述参与方的同一批标准化层的批标准化层参数进行聚合,得到第二聚合参数,包括:
    对每个所述参与方的同一批标准化层的第一伸缩变化参数和第二伸缩变化参数进行聚合,得到第一批标准化层聚合参数;
    对每个所述参与方的同一批标准化层的均值进行聚合,得到第二批标准化层聚合参数;
    对每个所述参与方的同一批标准化层的方差进行聚合,得到第三批标准化层聚合参数。
  5. 根据权利要求4所述的联合学习参数聚合方法,其特征在于,所述对每个所述参与方的同一批标准化层的第一伸缩变化参数和第二伸缩变化参数进行聚合,得到第一批标准化层聚合参数,包括:
    计算每个所述参与方的同一批标准化层的第一伸缩变化参数的均值,以及每个所述参与方的同一批标准化层的第二伸缩变化参数的均值,得到第一批标准化层聚合参数。
  6. 根据权利要求4所述的联合学习参数聚合方法,其特征在于,所述对每个所述参与方的同一批标准化层的均值进行聚合,得到第二批标准化层聚合参数,包括:
    计算每个所述参与方的同一批标准化层的均值与其最小批数的第一乘积,并计算各个所述参与方的第一乘积之和;
    计算所述N个参与方的最小批数的总和,根据所述第一乘积之和、所述最小批数的总和,计算得到第二批标准化层聚合参数。
  7. 根据权利要求4所述的联合学习参数聚合方法,其特征在于,所述对每个所述参与方的同一批标准化层的方差进行聚合,得到第三批标准化层聚合参数,包括:
    计算每个所述参与方的同一批标准化层的均值与其方差的平方和,并计算所述平方和与所述参与方的最小批数的第二乘积,统计各个所述参与方的第二乘积之和;
    计算所述N个参与方的最小批数的总和,根据所述第二乘积之和、所述最小批数的总和、以及所述第二批标准化层聚合参数,计算得到第三批标准化层聚合参数。
  8. 根据权利要求2所述的联合学习参数聚合方法,其特征在于,所述每个所述参与方根据所述第一聚合参数和所述第二聚合参数调整优化其算法模型,包括:
    所述参与方,根据所述第一聚合参数调整其网络结构中的隐层的隐层参数;
    所述参与方,根据所述第二聚合参数调整其网络结构中的批标准化层的批标准化层参数。
  9. 一种联合学习参数聚合装置,其特征在于,包括:
    参数获取模块,被配置为获取N个参与方上传的隐层参数和批标准化层参数,其中,所述批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数,N为≥2的正整数;
    第一聚合模块,被配置为对每个所述参与方上传的隐层参数进行聚合,得到第一聚合参数;
    第二聚合模块,被配置为对每个所述参与方上传的批标准化层参数进行聚合,得到第二聚合参数;
    参数返回模块,被配置为将所述第一聚合参数和所述第二聚合参数返回至各个所述参与方,以使每个所述参与方根据所述第一聚合参数和所述第二聚合参数调整优化其算法模型。
  10. 一种联合学习参数聚合系统,其特征在于,包括:
    服务器,所述服务器包括如权利要求9所述的联合学习参数聚合装置;以及,
    与所述服务器通信连接的N个参与方。
PCT/CN2022/119138 2021-11-29 2022-09-15 一种联合学习参数聚合方法、装置及系统 WO2023093229A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111440144.5A CN116226779A (zh) 2021-11-29 2021-11-29 一种联合学习参数聚合方法、装置及系统
CN202111440144.5 2021-11-29

Publications (1)

Publication Number Publication Date
WO2023093229A1 true WO2023093229A1 (zh) 2023-06-01

Family

ID=86538814

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/119138 WO2023093229A1 (zh) 2021-11-29 2022-09-15 一种联合学习参数聚合方法、装置及系统

Country Status (2)

Country Link
CN (1) CN116226779A (zh)
WO (1) WO2023093229A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110632572A (zh) * 2019-09-30 2019-12-31 中国人民解放军战略支援部队信息工程大学 基于无意调相特性的雷达辐射源个体识别方法及装置
CN110766138A (zh) * 2019-10-21 2020-02-07 中国科学院自动化研究所 基于脑发育机制的自适应神经网络模型的构建方法及系统
CN110765704A (zh) * 2019-11-28 2020-02-07 北京工业大学 一种应用于微波器件的新型深层神经网络自动建模方法
US20200134448A1 (en) * 2018-10-31 2020-04-30 Google Llc Quantizing neural networks with batch normalization
CN113092044A (zh) * 2021-03-31 2021-07-09 东南大学 一种基于加权水平可见图的旋转机械故障诊断方法
CN113469050A (zh) * 2021-07-01 2021-10-01 安徽大学 基于图像细分类的火焰检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200134448A1 (en) * 2018-10-31 2020-04-30 Google Llc Quantizing neural networks with batch normalization
CN110632572A (zh) * 2019-09-30 2019-12-31 中国人民解放军战略支援部队信息工程大学 基于无意调相特性的雷达辐射源个体识别方法及装置
CN110766138A (zh) * 2019-10-21 2020-02-07 中国科学院自动化研究所 基于脑发育机制的自适应神经网络模型的构建方法及系统
CN110765704A (zh) * 2019-11-28 2020-02-07 北京工业大学 一种应用于微波器件的新型深层神经网络自动建模方法
CN113092044A (zh) * 2021-03-31 2021-07-09 东南大学 一种基于加权水平可见图的旋转机械故障诊断方法
CN113469050A (zh) * 2021-07-01 2021-10-01 安徽大学 基于图像细分类的火焰检测方法

Also Published As

Publication number Publication date
CN116226779A (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
WO2023124296A1 (zh) 基于知识蒸馏的联合学习训练方法、装置、设备及介质
CN112329940A (zh) 一种结合联邦学习与用户画像的个性化模型训练方法及系统
WO2021228110A1 (zh) 联邦建模方法、装置、设备及计算机可读存储介质
CN111030861A (zh) 一种边缘计算分布式模型训练方法、终端和网络侧设备
CN114626547A (zh) 一种基于区块链的群组协同学习方法
CN113469373A (zh) 基于联邦学习的模型训练方法、系统、设备及存储介质
US20240176906A1 (en) Methods, apparatuses, and systems for collaboratively updating model by multiple parties for implementing privacy protection
WO2023284387A1 (zh) 基于联邦学习的模型训练方法、装置、系统、设备和介质
CN113435534A (zh) 一种基于相似度度量的数据异构处理方法、装置、计算机设备及计算机可读存储介质
EP4320556A1 (en) Privacy-aware pruning in machine learning
CN114116705A (zh) 联合学习中确定参与方贡献值的方法及装置
CN113626866A (zh) 一种面向联邦学习的本地化差分隐私保护方法、系统、计算机设备及存储介质
CN114116707A (zh) 确定联合学习中参与方贡献度的方法及装置
WO2023109246A1 (zh) 一种面向断点隐私保护的方法、装置、设备及介质
WO2023093229A1 (zh) 一种联合学习参数聚合方法、装置及系统
WO2023124219A1 (zh) 一种联合学习模型迭代更新方法、装置、系统及存储介质
CN114116740A (zh) 用于联合学习中确定参与方贡献度的方法及装置
WO2019080844A1 (zh) 数据推理方法、装置及计算机设备
CN113487041B (zh) 横向联邦学习方法、装置及存储介质
CN114298319A (zh) 联合学习贡献值的确定方法、装置、电子设备及存储介质
WO2023082787A1 (zh) 联合学习中确定参与方贡献度的方法、联合学习训练方法及装置
CN114462573A (zh) 一种面向边缘智能的高效层次化参数传输时延优化方法
Chen et al. DWFed: A statistical-heterogeneity-based dynamic weighted model aggregation algorithm for federated learning
WO2023124312A1 (zh) 联合学习中的预测方法及装置
CN115564055A (zh) 异步联合学习训练方法、装置、计算机设备及存储介质