WO2024034077A1 - 学習システム、学習方法、およびコンピュータ可読媒体 - Google Patents

学習システム、学習方法、およびコンピュータ可読媒体 Download PDF

Info

Publication number
WO2024034077A1
WO2024034077A1 PCT/JP2022/030623 JP2022030623W WO2024034077A1 WO 2024034077 A1 WO2024034077 A1 WO 2024034077A1 JP 2022030623 W JP2022030623 W JP 2022030623W WO 2024034077 A1 WO2024034077 A1 WO 2024034077A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
learning
blurred
local model
learning system
Prior art date
Application number
PCT/JP2022/030623
Other languages
English (en)
French (fr)
Inventor
武志 赤川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/030623 priority Critical patent/WO2024034077A1/ja
Publication of WO2024034077A1 publication Critical patent/WO2024034077A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present disclosure relates to a learning system, a learning method, and a computer-readable medium.
  • Patent Document 1 discloses a system having a calculation model that performs machine learning.
  • a federated learning technology has been proposed that generates a global model by integrating local models trained on datasets owned by each organization. Federated learning technology distributes only the generated global model, making it possible to conceal the dataset used for learning. However, if there is an organization that records time-series changes in the global model, there is a risk that by reverse engineering the global model, the learning data used to learn the most recent local model may be inferred.
  • one of the objectives of the embodiments disclosed in this specification is to provide a learning system, a learning method, and a program that prevent learning data used for federated learning from being guessed. be.
  • the learning system includes: an acquisition means for acquiring blurred data for blurring predetermined data included in a dataset owned by each organization; learning means for learning a local model by machine learning using the blurred data and the dataset; and generating means for generating a global model in federated learning based on the local model.
  • a non-transitory computer-readable medium includes: to the computer, A process of obtaining blurred data for blurring predetermined data included in a dataset owned by each organization; A process of learning a local model by machine learning using the blurred data and the dataset; A program for executing a process of generating a global model in federated learning based on the local model is stored.
  • FIG. 2 is a block diagram showing the configuration of a related learning system.
  • 1 is a block diagram showing the configuration of a learning system according to a first embodiment.
  • FIG. FIG. 2 is a block diagram showing the configuration of a learning system according to a second embodiment.
  • FIG. 2 is a block diagram showing the configuration of a client terminal according to a second embodiment.
  • 3 is a flowchart showing the flow of operations of an acquisition unit.
  • FIG. 3 is a block diagram showing the configuration of a client terminal according to a third embodiment.
  • FIG. 3 is a block diagram showing the configuration of a learning system according to a fourth embodiment.
  • the learning system 1 includes a client terminal 2x, a client terminal 2y, a client terminal 2z, and a server 3.
  • the client terminal 2x generates a machine learning model (referred to as a local model 4x) from a data set owned by organization X.
  • the client terminal 2x transmits the local model 4x to the server 3.
  • the client terminal 2y generates a machine learning model (referred to as a local model 4y) from a data set owned by organization Y.
  • the client terminal 2y transmits the local model 4y to the server 3.
  • the client terminal 2z generates a machine learning model (referred to as a local model 4z) from the data set owned by the organization Z.
  • the client terminal 2z transmits the local model 4z to the server 3.
  • the server 3 generates a global model that integrates the local model 4x, local model 4y, and local model 4z.
  • the server 3 may, for example, take the arithmetic mean of the model parameters of the local models 4x, 4y, and 4z. Note that the method of integrating model parameters is not limited to arithmetic averaging.
  • the server 3 then distributes the global model to the client terminals 2x, 2y, and 2z.
  • the data set owned by each organization may include data that needs to be kept confidential from other organizations (for example, data on compounds being developed). For example, if an organization starts developing a compound that has a particular effect, it may want to keep it secret. However, because the dataset owned by that organization includes a lot of data on compounds that exhibit specific effects, by reverse engineering the global model, it can be inferred that the organization has started the development of such compounds. There is a fear.
  • the inventor of the present application came up with the invention according to Embodiment 1 based on the above study.
  • FIG. 2 is a block diagram showing the configuration of the learning system 10 according to the first embodiment.
  • the learning system 10 includes an acquisition section 11, a learning section 12, and a generation section 13.
  • the acquisition unit 11 acquires blurring data for blurring predetermined data included in datasets owned by each organization.
  • the learning unit 12 trains the local model by machine learning using the blurred data and the dataset.
  • the generation unit 13 generates a global model in federated learning based on the local model learned by the learning unit 12.
  • the learning system 10 learns a local model using blurred data, it is possible to prevent the learning data used for federated learning from being guessed.
  • the learning system 10 includes a processor, a memory, and a storage device as components not shown. Further, the storage device stores a computer program in which the processing of the learning method according to the present embodiment is implemented. Then, the processor loads a computer program from the storage device into the memory and executes the computer program. Thereby, the processor realizes the functions of the acquisition section 11, the learning section 12, and the generation section 13.
  • the acquisition unit 11, the learning unit 12, and the generation unit 13 may each be realized by dedicated hardware.
  • a part or all of each component of each device may be realized by a general-purpose or dedicated circuit, a processor, etc., or a combination thereof. These may be configured by a single chip or multiple chips connected via a bus.
  • a part or all of each component of each device may be realized by a combination of the circuits and the like described above and a program.
  • the processor a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), an FPGA (Field-programmable Gate Array), etc. can be used.
  • each component of the learning system 10 when a part or all of each component of the learning system 10 is realized by a plurality of information processing devices, circuits, etc., the plurality of information processing devices, circuits, etc. may be centrally arranged or distributed. may be placed.
  • information processing devices, circuits, etc. may be realized as a client server system, a cloud computing system, or the like, in which each is connected via a communication network.
  • the functions of the learning system 10 may be provided in a SaaS (Software as a Service) format.
  • SaaS Software as a Service
  • the learning system 100 according to the second embodiment is a specific example of the learning system 10 according to the first embodiment.
  • FIG. 3 is a block diagram showing the configuration of the learning system 100.
  • the learning system 100 includes a client terminal 20x, a client terminal 20y, a client terminal 20z, and a server 30.
  • Each client terminal is a terminal of an organization (for example, a pharmaceutical business or a chemical business) that uses the learning system 100.
  • the client terminals 20x, 20y, and 20z and the server 30 are communicably connected via the network N.
  • Network N may be wired or wireless.
  • the network N may be, for example, a VPN (Virtual Private Network).
  • client terminals 20x, 20y, and 20z are not distinguished from each other, they may be simply referred to as the client terminal 20.
  • the number of client terminals 20 is not limited to three, and may be two, or four or more.
  • the client terminal 20 includes a storage section 21, an acquisition section 22, and a learning section 23.
  • the acquisition unit 22 is a specific example of the acquisition unit 11 described above
  • the learning unit 23 is a specific example of the learning unit 12 described above.
  • the storage unit 21 is a storage that stores data sets owned by each organization.
  • the data set is, for example, a compound data set.
  • the data set includes values for the structure, properties, etc. of the compound.
  • the structure of a compound is expressed by a fixed-length bit string, and each bit of the bit string represents the presence or absence of a predetermined structure (eg, benzene ring).
  • the characteristic value eg, tensile strength value
  • the data set includes predetermined data.
  • the predetermined data is data that needs to be kept secret.
  • the predetermined data is, for example, data on a compound that exhibits a specific action.
  • the storage unit 21 may also store data that is the source of the blurred data.
  • the storage unit 21 may store, for example, experimental data, theoretical calculation data, simulation data, data used in materials informatics, and the like.
  • the acquisition unit 22 acquires blurring data for blurring predetermined data included in the data set.
  • the blurred data needs to be data that is different from predetermined data and that does not degrade the performance of the local model.
  • the predetermined data is data on a compound that exhibits a specific effect (e.g., a compound under development)
  • the blurred data is data on a compound that exhibits an effect other than the specific effect (referred to as the first compound). It's okay.
  • the compound exhibiting a specific action is a compound used as a headache medicine
  • the first compound may be a compound used as a stomach pain medicine.
  • the data set described above is not limited to a compound data set. If the dataset includes data on things related to each organization's business, the predetermined data is data on things that have a specific attribute (e.g. effect), and the blurred data is data on things that have a specific attribute (e.g. effect), and the blurred data It may also be data about things that you have. The thing is, for example, a compound or a financial product.
  • the blurred data does not need to be actual data, and may be data estimated by simulation or the like.
  • the organization can keep the purpose (aim) of the investigation or research secret.
  • a dataset contains multiple records, each record being called data.
  • the acquisition unit 22 performs the following processing on each data included in the dataset. First, the acquisition unit 22 determines whether the data is data of an object having a specific attribute (step S101). If the data does not belong to an object having a specific attribute (NO in step S101), the acquisition unit 22 does not acquire the blurred data (step S102) and moves on to processing the next data.
  • the acquisition unit 22 determines that the storage unit 21 stores data of an object (referred to as a first object) having an attribute other than the specific attribute. (Step S103). Note that the first compound is a specific example of the first thing.
  • the acquisition unit 22 extracts the data of the first thing from the data stored in the storage unit 21 (step S104).
  • the acquisition unit 22 acquires the data of the extracted first thing as blurred data, and moves on to processing the next data.
  • the acquisition unit 22 estimates the data of the first thing based on the data stored in the storage unit 21 (step S105). The acquisition unit 22 then acquires the data of the estimated first thing as blurred data, and moves on to processing the next data.
  • the acquisition unit 22 may estimate the data of the first compound based on material informatics or theoretical calculation, for example.
  • the learning unit 23 learns the local model by machine learning using the blurred data and dataset acquired by the acquisition unit 22.
  • the local model learned by the client terminal 20x is called a local model 40x
  • the local model learned by the client terminal 20y is called a local model 40y
  • the local model learned by the client terminal 20z is called a local model 40z.
  • local model 40 may be, for example, a model that infers properties from the structure of a compound.
  • the learning unit 23 transmits the learned local model 40, that is, the parameters of the local model 40, to the server 30.
  • the server 3 will be explained with reference to FIG.
  • the server 3 includes a generation section 31.
  • the generation unit 31 generates a global model that integrates the local model 40x, the local model 40y, and the local model 40z.
  • the generation unit 31 is a specific example of the generation unit 13 described above.
  • the generation unit 31 distributes a global model that integrates the local model 40x, the local model 40y, and the local model 40z to the client terminals 20x, 20y, and 20z.
  • the server 30 may store data sets owned by each organization, generate local models 40x, 40y, and 40z, and integrate the local models 40x, 40y, and 40z.
  • the acquisition unit 22 and the learning unit 23 are provided in the server 30.
  • the learning system 100 trains a local model using blur data for blurring predetermined data. Therefore, other organizations can be prevented from estimating certain data from the global model.
  • client terminals 20x, 20y, and 20z in FIG. 3 are replaced with client terminals 200x, 200y, and 200z, respectively.
  • client terminals 200x, 200y, and 200z are not distinguished from each other, they are simply referred to as client terminal 200.
  • FIG. 6 is a block diagram showing the configuration of the client terminal 200.
  • the client terminal 200 includes a storage section 21 , an acquisition section 22 , a learning section 23 , a first setting section 24 , an erasing section 25 , and a second setting section 26 .
  • the storage unit 21 stores the blurred data acquired by the acquisition unit 22 and the actual data included in the dataset. Furthermore, the storage unit 21 may store data that is the source of the blurred data.
  • the acquisition unit 22 acquires blurring data for blurring predetermined data included in the data set.
  • the acquisition unit 22 may extract the blurred data from the original data, or may estimate the blurred data using material informatics or design of experiments.
  • the acquisition unit 22 stores the acquired blurred data in the storage unit 21.
  • the acquisition unit 22 adds a flag to the blurred data in order to distinguish the blurred data from the actual data included in the data set.
  • the learning unit 23 performs machine learning by differentiating the weight of the blurred data (first weight) and the weight of actual data included in the data set (second weight), and learns a local model. Blurred data and real data can be identified using flags. There are no particular limitations on the method of varying the weights of data, and for example, the weights of data may be included in the loss function.
  • the first weight is larger than the second weight, it becomes easier to blur the predetermined data, but there is a risk that the performance of the local model will deteriorate due to blurred data that is not actual data. If the performance of the local model deteriorates, the performance of the global model that integrates the local models will also deteriorate. On the other hand, if the first weight is smaller than the second weight, deterioration in the performance of the local model can be suppressed, but predetermined data may not be sufficiently blurred.
  • the reliability of the blurred data is high, it is considered that the performance of the local model will not deteriorate, so the first weight may be increased.
  • the reliability of the blurred data is low, there is a risk that the performance of the local model will be degraded, so the first weight needs to be reduced.
  • the case where the reliability of the blurred data is low is, for example, the case where the data of the first compound is estimated from a small amount of data.
  • the learning unit 23 performs machine learning using the blurred data and data set stored in the storage unit 21. Since the blurred data is erased by the erasing unit 25 after a predetermined period of time has elapsed, the learning unit 23 suppresses deterioration in the performance of the local model by not using unnecessary blurred data for machine learning. In other words, the learning unit 23 generates a local model by machine learning using unerased blurred data and data sets.
  • the first setting unit 24 sets the first weight described above.
  • the first setting unit 24 may set the first weight based on input to the client terminal 200.
  • predetermined data can be blurred while suppressing deterioration in the performance of the local model due to blurred data.
  • the first weight may be set according to the degree of confidentiality of the blurred data. Further, the first weight may be set depending on the reliability of the blurred data.
  • the erasing unit 25 erases the blurred data stored in the storage unit 21 after a predetermined period of time has elapsed.
  • the predetermined period is set by the second setting section 26. If the blurred data is stored for a long period of time, the performance of the local model learned by the learning unit 23 during that period may deteriorate, so the blurred data is deleted after a predetermined period of time has elapsed.
  • the second setting unit 26 sets the above-mentioned predetermined period, that is, the period for storing the blurred data, based on the first weight set by the first setting unit 24. Specifically, the second setting unit 26 may set the predetermined period such that the larger the first weight, the longer the predetermined period.
  • the first weight is set according to the reliability of the first data, the less reliable the first data is erased in a shorter period of time, so the performance of the local model is less likely to deteriorate.
  • the learning system 100 can prevent deterioration in the performance of local models and global models while ensuring the confidentiality of predetermined data by setting the weight of blurred data for blurring predetermined data. .
  • FIG. 7 is a block diagram showing the configuration of the learning system 101 according to the fourth embodiment. Comparing FIG. 3 with FIG. 7, the server 30 has been replaced by a server group 300.
  • the server group 300 includes a plurality of servers 32. Note that the number of servers 32 is not limited to three. However, in order to perform secure calculation, it is preferable that the number of servers 32 is three or more.
  • the server group 300 integrates the global model through secure computation and transmits the results of the secure computation to the client terminals 20x, 20y, and 20z.
  • the client terminals 20x, 20y, and 20z learn local models 40x, 40y, and 40z by machine learning using blurred data and datasets. Then, each client terminal 20 divides each model parameter of the local model 40 into a plurality of shares (for example, three) and transmits the plurality of shares to the plurality of servers 32.
  • Each server 32 uses the received shares to perform secure computation to integrate the models.
  • Each server 32 may integrate the models at a predetermined time.
  • the local model is not known from the shares, and calculations using shares can be said to be secret calculations.
  • Multiple servers 32 may cooperate to perform multi-party computation (MPC). Since the amount of calculation required to integrate the local models is sufficiently small, it is considered that the server group 300 can perform the secret calculation in a realistic amount of time.
  • MPC multi-party computation
  • Embodiment 4 also has the same effects as Embodiment 2. Furthermore, according to the fourth embodiment, calculations for integrating local models can be concealed.
  • the above-mentioned program includes a group of instructions (or software code) for causing the computer to perform one or more functions described in the embodiments when loaded into the computer.
  • the program may be stored on a non-transitory computer readable medium or a tangible storage medium.
  • computer readable or tangible storage media may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drive (SSD) or other memory technology, CD - Including ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
  • the program may be transmitted on a transitory computer-readable medium or a communication medium.
  • transitory computer-readable or communication media includes electrical, optical, acoustic, or other forms of propagating signals.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

連合学習に使用した学習データを推測されることを防止する学習システム、学習方法、およびプログラムを提供する。学習システム(10)は、各組織が所有するデータセットに含まれる所定のデータをぼかすためのぼかしデータを取得する取得部(11)と、ぼかしデータと前記データセットとを用いた機械学習によりローカルモデルを学習させる学習部(12)と、ローカルモデルに基づいて連合学習におけるグローバルモデルを生成する生成部(13)とを備える。

Description

学習システム、学習方法、およびコンピュータ可読媒体
 本開示は、学習システム、学習方法、およびコンピュータ可読媒体に関する。
 特許文献1は、機械学習を行う計算モデルを有するシステムを開示している。
特開2019-144872号公報
 各組織が所有するデータセットで訓練したローカルモデルを統合し、グローバルモデルを生成する連合学習技術が提案されている。連合学習技術では、生成したグローバルモデルのみを配布するため、学習に使用したデータセットを秘匿化できる。しかし、グローバルモデルの時系列変化を記録する組織が存在する場合、グローバルモデルをリバースエンジニリングすることで、直近のローカルモデルを学習するために用いた学習データを推測されてしまう恐れがある。
 そこで、本明細書に開示される実施形態が達成しようとする目的の1つは、連合学習に使用した学習データを推測されることを防止する学習システム、学習方法、およびプログラムを提供することである。
 本開示の第1の態様にかかる学習システムは、
 各組織が所有するデータセットに含まれる所定のデータをぼかすためのぼかしデータを取得する取得手段と、
 前記ぼかしデータと前記データセットとを用いた機械学習によりローカルモデルを学習させる学習手段と、
 前記ローカルモデルに基づいて連合学習におけるグローバルモデルを生成する生成手段と
 を備えている。
 本開示の第2の態様にかかる学習方法では、
 各組織が所有するデータセットに含まれる所定のデータをぼかすためのぼかしデータを取得し、
 前記ぼかしデータと前記データセットとを用いた機械学習によりローカルモデルを学習させ、
 前記ローカルモデルに基づいて連合学習におけるグローバルモデルを生成する。
 本開示の第3の態様にかかる非一時的なコンピュータ可読媒体では、
 コンピュータに、
 各組織が所有するデータセットに含まれる所定のデータをぼかすためのぼかしデータを取得する処理と、
 前記ぼかしデータと前記データセットとを用いた機械学習によりローカルモデルを学習させる処理と、
 前記ローカルモデルに基づいて連合学習におけるグローバルモデルを生成する処理と
 を実行させるためのプログラムが格納される。
 本開示によれば、連合学習に使用した学習データを推測されることを防止する学習システム、学習方法、およびプログラムを提供できる。
関連する学習システムの構成を示すブロック図である。 実施形態1にかかる学習システムの構成を示すブロック図である。 実施形態2にかかる学習システムの構成を示すブロック図である。 実施形態2にかかるクライアント端末の構成を示すブロック図である。 取得部の動作の流れを示すフローチャートである。 実施形態3にかかるクライアント端末の構成を示すブロック図である。 実施形態4にかかる学習システムの構成を示すブロック図である。
<実施形態に至る経緯>
 まず、連合学習の概要について説明する。まず、図1を参照して、関連する学習システム1の構成を説明する。学習システム1は、クライアント端末2x、クライアント端末2y、クライアント端末2z、およびサーバ3を備える。
 クライアント端末2xは、組織Xが所有するデータセットから機械学習モデル(ローカルモデル4xと言う)を生成する。クライアント端末2xは、ローカルモデル4xをサーバ3に送信する。
 クライアント端末2yは、組織Yが所有するデータセットから機械学習モデル(ローカルモデル4yと言う)を生成する。クライアント端末2yはローカルモデル4yをサーバ3に送信する。
 クライアント端末2zは、組織Zが所有するデータセットから機械学習モデル(ローカルモデル4zと言う)を生成する。クライアント端末2zは、ローカルモデル4zをサーバ3に送信する。
 サーバ3は、ローカルモデル4x、ローカルモデル4y、およびローカルモデル4zを統合したグローバルモデルを生成する。サーバ3は、例えば、ローカルモデル4x、4y、および4zのモデルパラメータの算術平均をとってもよい。なお、モデルパラメータの統合方法は算術平均には限られない。そして、サーバ3は、グローバルモデルをクライアント端末2x、2y、および2zに配布する。
 ここで、各組織が所有するデータセットに、他の組織に対して秘匿化する必要のあるデータ(例:開発している化合物のデータ)が含まれる場合がある。例えば、ある組織が特定の作用を示す化合物の開発を開始した場合、そのことを秘密にしておきたい場合がある。しかし、その組織が所有するデータセットには、特定の作用を示す化合物のデータが多く含まれるため、グローバルモデルをリバースエンジニアリングすることで、そのような化合物の開発を開始したことを推測されてしまう恐れがある。本願の発明者は、以上の検討に基づき実施形態1にかかる発明に想到した。
<実施形態1>
 図2は、実施形態1にかかる学習システム10の構成を示すブロック図である。学習システム10は、取得部11、学習部12、および生成部13を備えている。
 取得部11は、各組織が所有するデータセットに含まれる所定のデータをぼかすためのぼかしデータを取得する。学習部12は、ぼかしデータとデータセットとを用いた機械学習によりローカルモデルを学習させる。生成部13は、学習部12で学習させたローカルモデルに基づいて、連合学習におけるグローバルモデルを生成する。
 実施形態1にかかる学習システム10は、ぼかしデータを用いてローカルモデルを学習するため、連合学習に使用した学習データを推測されることを防止できる。
 なお、学習システム10は、図示しない構成としてプロセッサ、メモリ、および記憶装置を備えるものである。また、当該記憶装置には、本実施形態にかかる学習方法の処理が実装されたコンピュータプログラムが記憶されている。そして、当該プロセッサは、記憶装置からコンピュータプログラムを前記メモリへ読み込ませ、当該コンピュータプログラムを実行する。これにより、前記プロセッサは、取得部11、学習部12、および生成部13の機能を実現する。
 または、取得部11、学習部12、および生成部13は、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry)、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。また、プロセッサとして、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)等を用いることができる。
 また、学習システム10の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。また、学習システム10の機能がSaaS(Software as a Service)形式で提供されてもよい。
<実施形態2>
 実施形態2にかかる学習システム100は、実施形態1にかかる学習システム10の具体例である。図3は、学習システム100の構成を示すブロック図である。学習システム100は、クライアント端末20x、クライアント端末20y、クライアント端末20z、およびサーバ30を備えている。各クライアント端末は、学習システム100を利用する組織(例えば、医薬品事業者や化学品事業者)の端末である。
 クライアント端末20x、20y、および20zとサーバ30とはネットワークNを介して通信可能に接続されている。ネットワークNは有線であっても無線であってもよい。ネットワークNは、例えば、VPN(Virtual Private Network)であってもよい。
 以下では、クライアント端末20x、20y、および20zを互いに区別しない場合には単にクライアント端末20と称する場合がある。なお、クライアント端末20の数は3つに限られるものではなく、2つであってもよく、4つ以上であってもよい。
 次に、図4を参照してクライアント端末20について説明する。クライアント端末20は、記憶部21、取得部22、および学習部23を備えている。取得部22は上述した取得部11の具体例であり、学習部23は上述した学習部12の具体例である。
 記憶部21は、各組織が所有するデータセットを記憶するストレージである。データセットは、例えば、化合物のデータセットである。この場合、データセットには、化合物の構造、特性などの値が並べられている。化合物の構造は固定長のビット列などで表現され、ビット列の各ビットは所定の構造(例:ベンゼン環)の有無などを表す。特性値(例:引張強度の値)は、実験により得られた値であってもよく、シミュレーションや理論計算により得られた値であってもよい。
 データセットは、所定のデータを含んでいる。所定のデータは、秘匿される必要のあるデータである。所定のデータは、例えば、特定の作用を示す化合物のデータである。
 記憶部21は、データセットに加えて、ぼかしデータの元となるデータを記憶していてもよい。記憶部21は、例えば、実験データ、理論計算データ、シミュレーションデータ、マテリアルズインフォマティクスに用いられるデータなどを記憶していてもよい。
 取得部22は、データセットに含まれる所定のデータをぼかすためのぼかしデータを取得する。ぼかしデータは、所定のデータとは異なるデータであり、かつ、ローカルモデルの性能を劣化させないようなデータである必要がある。
 所定のデータが、特定の作用を示す化合物(例:開発中の化合物)のデータである場合、ぼかしデータは、特定の作用以外の作用を示す化合物(第1の化合物と言う)のデータであってもよい。例えば、特定の作用を示す化合物が頭痛薬として用いられる化合物である場合、第1の化合物は腹痛薬として用いられる化合物であってもよい。
 なお、上述したデータセットは、化合物のデータセットには限定されない。データセットが各組織の事業に関連する事物のデータを含む場合、所定のデータが、特定の属性(例:作用)を有する事物に関するデータであり、ぼかしデータが、特定の属性とは異なる属性を有する事物に関するデータであってもよい。事物は、例えば、化合物や、金融商品である。ぼかしデータは、実際のデータである必要はなく、シミュレーションなどによって推定されたデータであってもよい。
 例えば、ある組織が、特定の属性を有する事物(例:化合物、金融商品)に関する調査や研究を行っている場合、その組織は、その事物に関する調査や研究を行っていることを秘密にしたい場合がある。実施形態2を用いることで、その組織は、調査や研究の目的(狙い)を秘密にすることができる。
 次に、図5を参照して、取得部22の動作の流れを説明する。データセットには複数のレコードが含まれており、各レコードをデータと言う。
 取得部22は、データセットに含まれる各データに対して以下の処理を行う。まず、取得部22は、データが、特定の属性を持つ事物のデータであるかを判定する(ステップS101)。特定の属性を持つ事物のデータでない場合(ステップS101のNO)、取得部22は、ぼかしデータを取得せず(ステップS102)、次のデータに対する処理に移る。
 特定の属性を持つ事物のデータである場合(ステップS101のYES)、取得部22は、記憶部21が、特定の属性以外の属性を持つ事物(第1の事物と言う)のデータを記憶しているかを判定する(ステップS103)。なお、第1の化合物は、第1の事物の具体例である。
 第1の事物のデータを記憶している場合(ステップS103のYES)、取得部22は、記憶部21が記憶するデータから、第1の事物のデータを抽出する(ステップS104)。取得部22は、抽出した第1の事物のデータをぼかしデータとして取得し、次のデータに対する処理に移る。
 第1の事物のデータを記憶していない場合(ステップS103のNO)、取得部22は、記憶部21が記憶するデータを基に第1の事物のデータを推定する(ステップS105)。そして、取得部22は、推定した第1の事物のデータをぼかしデータとして取得し、次のデータに対する処理に移る。取得部22は、例えば、マテリアルインフォマティクスや理論計算に基づいて、第1の化合物のデータを推定してもよい。
 図4に戻り、学習部23は、取得部22が取得したぼかしデータとデータセットとを用いた機械学習により、ローカルモデルを学習する。クライアント端末20xで学習したローカルモデルをローカルモデル40xと言い、クライアント端末20yで学習したローカルモデルをローカルモデル40yと言い、クライアント端末20zで学習したローカルモデルをローカルモデル40zと言う。ローカルモデル40x、40y、および40zを互いに区別しない場合、単にローカルモデル40と言う。ローカルモデル40は、例えば、化合物の構造から特性を推測するモデルであってもよい。学習部23は、学習したローカルモデル40、つまりローカルモデル40のパラメータをサーバ30に送信する。
 図3を参照し、サーバ3について説明する。サーバ3は、生成部31を備えている。生成部31は、ローカルモデル40x、ローカルモデル40y、およびローカルモデル40zを統合したグローバルモデルを生成する。生成部31は、上述した生成部13の具体例である。生成部31は、ローカルモデル40x、ローカルモデル40y、およびローカルモデル40zを統合したグローバルモデルを、クライアント端末20x、20y、および20zに配布する。
 なお、サーバ30が、各組織が所有するデータセットを記憶し、ローカルモデル40x、40y、および40zを生成し、ローカルモデル40x、40y、および40zを統合してもよい。この場合、取得部22および学習部23は、サーバ30に備えられる。
 実施形態2にかかる学習システム100は、所定のデータをぼかすためのぼかしデータを用いてローカルモデルを学習させる。したがって、他の組織が、グローバルモデルから所定のデータを推定することを防止できる。
<実施形態3>
 実施形態2では、ローカルモデルの生成においてぼかしデータと、データセットに含まれる実際のデータとを区別しなかった。実施形態3では、機械学習におけるぼかしデータの重み(第1の重みと言う)と実際のデータの重み(第2の重みと言う)とを異ならせる。なお、機械学習モデルのパラメータを重みと呼ぶ場合もあるため、学習データに対する重みである第1の重みや第2の重みと混同しないように注意する必要がある。
 実施形態3にかかる学習システムでは、図3のクライアント端末20x、20y、および20zが、それぞれクライアント端末200x、200y、および200zに置き換わる。クライアント端末200x、200y、および200zを互いに区別しない場合、単にクライアント端末200と言う。
 図6は、クライアント端末200の構成を示すブロック図である。クライアント端末200は、記憶部21、取得部22、学習部23、第1の設定部24、消去部25、および第2の設定部26を備えている。
 記憶部21は、取得部22によって取得されたぼかしデータ、およびデータセットに含まれる実際のデータを記憶する。また、記憶部21は、ぼかしデータの元となるデータを記憶していてもよい。
 取得部22は、データセットに含まれる所定のデータをぼかすためのぼかしデータを取得する。取得部22は、元となるデータからぼかしデータを抽出してもよく、マテリアルインフォマティクスや実験計画法を用いてぼかしデータを推定してもよい。取得部22は、取得したぼかしデータを記憶部21に格納する。取得部22は、ぼかしデータと、データセットに含まれる実際のデータとを識別するために、ぼかしデータにフラグを付与する。
 学習部23は、ぼかしデータの重み(第1の重み)と、データセットに含まれる実際のデータの重み(第2の重み)とを異ならせて機械学習を行い、ローカルモデルを学習する。ぼかしデータと実際のデータとはフラグを用いて識別され得る。データの重みを異ならせる方法は特に限定されず、例えば、損失関数にデータの重みを含めてもよい。
 第1の重みが第2の重みと比べて大きい場合、所定のデータをぼかしやすくなるが、実際のデータではないぼかしデータによりローカルモデルの性能が低下してしまうおそれがある。ローカルモデルの性能が低下すると、ローカルモデルを統合したグローバルモデルの性能も低下してしまう。一方、第1の重みが第2の重みと比べて小さい場合、ローカルモデルの性能の低下を抑制できるが、所定のデータを十分にぼかすことができない可能性がある。
 また、ぼかしデータの信頼性が高い場合には、ローカルモデルの性能を劣化させないと考えられるため、第1の重みを大きくしてもよい。一方で、ぼかしデータの信頼性が低い場合、ローカルモデルの性能を劣化させる恐れがあるため、第1の重みを小さくする必要がある。ぼかしデータの信頼性が低い場合とは、例えば、少ない量のデータから第1の化合物のデータを推定した場合などである。
 また、学習部23は、記憶部21が記憶するぼかしデータおよびデータセットを用いて機械学習を行う。ぼかしデータは、消去部25によって所定期間経過後に消去されるため、学習部23は、不要なぼかしデータを機械学習に用いないことで、ローカルモデルの性能の低下を抑える。つまり、学習部23は、消去されていないぼかしデータ、およびデータセットを用いた機械学習によりローカルモデルを生成する。
 第1の設定部24は、上述した第1の重みを設定する。第1の設定部24は、クライアント端末200への入力に基づいて第1の重みを設定してもよい。第1の重みを適切に設定することで、ぼかしデータによるローカルモデルの性能の低下を抑えつつ、所定のデータをぼかすことができる。第1の重みは、ぼかしデータの秘匿度に応じて設定されてもよい。また、第1の重みは、ぼかしデータの信頼性に応じて設定されてもよい。
 消去部25は、記憶部21が記憶するぼかしデータを所定期間経過後に消去する。所定期間は、第2の設定部26により設定される。ぼかしデータが長期間記憶されていると、その期間に学習部23で学習されるローカルモデルの性能が低下してしまう可能性があるため、所定期間経過後にぼかしデータを消去している。
 第2の設定部26は、第1の設定部24が設定した第1の重みに基づいて、上述した所定期間、つまりぼかしデータを記憶する期間を設定する。第2の設定部26は、具体的には、第1の重みが大きいほど所定期間が長くなるように所定期間を設定してもよい。第1の重みが第1のデータの信頼性に応じて設定されている場合、信頼性の低い第1のデータほど短期間で消去されるため、ローカルモデルの性能が低下しにくい。
 実施形態3にかかる学習システム100は、所定のデータをぼかすためのぼかしデータの重みを設定することで、所定のデータの秘匿性を確保しつつ、ローカルモデルやグローバルモデルの性能の低下を抑止できる。
<実施形態4>
 図7は、実施形態4にかかる学習システム101の構成を示すブロック図である。図3と図7とを比較すると、サーバ30がサーバ群300に置き換わっている。サーバ群300は、複数のサーバ32を備えている。なお、サーバ32の数は3つに限られるものではない。ただし、秘密計算を実行する上ではサーバ32の数が3つ以上であることが好ましい。
 サーバ群300は、グローバルモデルを秘密計算で統合し、秘密計算の結果をクライアント端末20x、20y、および20zに送信する。
 クライアント端末20x、20y、および20zは、実施形態2と同様に、ぼかしデータおよびデータセットを用いた機械学習によりローカルモデル40x、40y、および40zを学習する。そして、各クライアント端末20は、ローカルモデル40の各モデルパラメータを複数(例:3つ)のシェアに分け、複数のシェアを複数のサーバ32に送信する。
 各サーバ32は、受け取ったシェアを使って、モデルを統合するための秘密計算を行う。各サーバ32は、予め定められた時刻にモデルの統合を行ってもよい。シェアからはローカルモデルを知られることがなく、シェアを使った計算は秘密計算と言える。複数のサーバ32が協調してマルチパーティ計算(MPC)を行ってもよい。ローカルモデルの統合に必要な計算量は十分小さいため、サーバ群300は現実的な時間で秘密計算を実行できると考えられる。
 実施形態4も、実施形態2と同様の効果を奏する。また、実施形態4によれば、ローカルモデルを統合するための計算を秘匿化できる。
 なお、上述したプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
1、10、100、101  学習システム
2、2x、2y、2z、20、20x、20y、20z、200、200x、200y、200z  クライアント端末
4、4x、4y、4z、40、40x、40y、40z  ローカルモデル
21  記憶部
11、22  取得部
12、23  学習部
24  第1の設定部
25  消去部
26  第2の設定部
3、30、32  サーバ
13、31  生成部
300  サーバ群

Claims (10)

  1.  各組織が所有するデータセットに含まれる所定のデータをぼかすためのぼかしデータを取得する取得手段と、
     前記ぼかしデータと前記データセットとを用いた機械学習によりローカルモデルを学習させる学習手段と、
     前記ローカルモデルに基づいて連合学習におけるグローバルモデルを生成する生成手段と
     を備える学習システム。
  2.  前記所定のデータは、特定の属性を有する事物のデータであり、
     前記ぼかしデータは、前記特定の属性とは異なる属性を持つ事物のデータである
     請求項1に記載の学習システム。
  3.  前記ぼかしデータと、前記データセットに含まれる実際のデータとはフラグを用いて識別される
     請求項1または2のいずれかに記載の学習システム。
  4.  前記学習手段は、前記機械学習における前記ぼかしデータの重みと前記実際のデータの重みとを異ならせる
     請求項3に記載の学習システム。
  5.  前記ぼかしデータの重みを設定する第1の設定部
     を備える請求項4に記載の学習システム。
  6.  前記ぼかしデータおよび前記データセットを記憶する記憶部と、
     前記ぼかしデータを、所定期間経過後に消去する消去部と
     を備え、
     前記学習手段は、消去されていない前記ぼかしデータ、および前記データセットを用いた機械学習により前記ローカルモデルを学習する
     請求項5に記載の学習システム。
  7.  前記ぼかしデータの重みに基づいて前記所定期間を設定する第2の設定部
     を備える請求項6に記載の学習システム。
  8.  前記所定のデータは、特定の作用を示す化合物のデータであり、
     前記取得手段は、理論計算データ、実験データ、シミュレーションデータ、マテリアルズインフォマティクスに用いられるデータ、および実験計画法により類推されたデータの少なくともいずれかから、前記ぼかしデータを取得する
     請求項1から7のいずれか1項に記載の学習システム。
  9.  各組織が所有するデータセットに含まれる所定のデータをぼかすためのデータであるぼかしデータを取得し、
     前記ぼかしデータと前記データセットとを用いた機械学習によりローカルモデルを学習させ、
     前記ローカルモデルに基づいて連合学習におけるグローバルモデルを生成する
     学習方法。
  10.  コンピュータに、
     各組織が所有するデータセットに含まれる所定のデータをぼかすためのぼかしデータを取得する処理と、
     前記ぼかしデータと前記データセットとを用いた機械学習によりローカルモデルを学習させる処理と、
     前記ローカルモデルに基づいて連合学習におけるグローバルモデルを生成する処理と
     を実行させるためのプログラムを格納する非一時的なコンピュータ可読媒体。
PCT/JP2022/030623 2022-08-10 2022-08-10 学習システム、学習方法、およびコンピュータ可読媒体 WO2024034077A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/030623 WO2024034077A1 (ja) 2022-08-10 2022-08-10 学習システム、学習方法、およびコンピュータ可読媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/030623 WO2024034077A1 (ja) 2022-08-10 2022-08-10 学習システム、学習方法、およびコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
WO2024034077A1 true WO2024034077A1 (ja) 2024-02-15

Family

ID=89851242

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/030623 WO2024034077A1 (ja) 2022-08-10 2022-08-10 学習システム、学習方法、およびコンピュータ可読媒体

Country Status (1)

Country Link
WO (1) WO2024034077A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015155896A1 (ja) * 2014-04-11 2015-10-15 株式会社 日立製作所 サポートベクトルマシン学習システムおよびサポートベクトルマシン学習方法
US20200005133A1 (en) * 2018-06-28 2020-01-02 International Business Machines Corporation Detecting Adversarial Attacks through Decoy Training
JP2020052689A (ja) * 2018-09-26 2020-04-02 キヤノン株式会社 画像処理システム
JP2021056677A (ja) * 2019-09-27 2021-04-08 オムロン株式会社 データ生成システム、学習装置、データ生成装置、データ生成方法及びデータ生成プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015155896A1 (ja) * 2014-04-11 2015-10-15 株式会社 日立製作所 サポートベクトルマシン学習システムおよびサポートベクトルマシン学習方法
US20200005133A1 (en) * 2018-06-28 2020-01-02 International Business Machines Corporation Detecting Adversarial Attacks through Decoy Training
JP2020052689A (ja) * 2018-09-26 2020-04-02 キヤノン株式会社 画像処理システム
JP2021056677A (ja) * 2019-09-27 2021-04-08 オムロン株式会社 データ生成システム、学習装置、データ生成装置、データ生成方法及びデータ生成プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAKAI TSUNATO, DAISUKE SUZUKI, TAKESHI FUJINO: "Towards Trained Model Protection for Byzantine-Robust Federated Learning", 2022 CRYPTOGRAPHY AND INFORMATION SECURITY SYMPOSIUM PROCEEDINGS, 1 January 2022 (2022-01-01), XP093139206 *

Similar Documents

Publication Publication Date Title
US9998491B2 (en) Forecasting and classifying cyber-attacks using neural embeddings based on pattern of life data
US10867018B2 (en) Secure computation system, secure computation device, secure computation method, and program
JP6488009B2 (ja) 特徴的なサブトレースマイニングを使用する、経時的グラフにおける挙動クエリ構築のための方法及びシステム
Pananos et al. Critical dynamics in population vaccinating behavior
Rodrigues et al. Sensitivity analysis in a dengue epidemiological model
CN111898137A (zh) 一种联邦学习的隐私数据处理方法、设备及系统
US10554680B2 (en) Forecasting and classifying cyber-attacks using analytical data based neural embeddings
US20190095530A1 (en) Tag relationship modeling and prediction
US9906551B2 (en) Forecasting and classifying cyber-attacks using crossover neural embeddings
US20200104754A1 (en) Method for managing a machine learning model
US20190164056A1 (en) Processing apparatus , learning apparatus, processing method, and nonvolatile recording medium
US9866580B2 (en) Forecasting and classifying cyber-attacks using neural embeddings
US20180218650A1 (en) Secret computation apparatus, method for the same, and program
Radhika et al. Toeplitz matrices whose elements are the coefficients of functions with bounded boundary rotation
JP2017207839A (ja) ニューラルネットワークシステム、シェア計算装置、ニューラルネットワークの学習方法、プログラム
US10230751B2 (en) Forecasting and classifying cyber attacks using neural embeddings migration
WO2024034077A1 (ja) 学習システム、学習方法、およびコンピュータ可読媒体
El Koufi et al. Dynamics behaviors of a hybrid switching epidemic model with levy noise
JP7060115B2 (ja) 秘密配列アクセス装置、秘密配列アクセス方法、およびプログラム
CN112711739B (zh) 一种数据处理方法、装置及服务器、存储介质
JPWO2018135515A1 (ja) 情報処理装置、ニューラルネットワークの設計方法及びプログラム
CN110210885B (zh) 挖掘潜在客户的方法、装置、设备及可读存储介质
US20170302437A1 (en) Nondecreasing sequence determining device, method and program
Mpeshe Fractional‐Order Derivative Model of Rift Valley Fever in Urban Peridomestic Cycle
JPWO2016056503A1 (ja) 部分文字列位置検出装置、部分文字列位置検出方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22954994

Country of ref document: EP

Kind code of ref document: A1