WO2020137728A1 - 分散データ統合装置、分散データ統合方法、及びプログラム - Google Patents

分散データ統合装置、分散データ統合方法、及びプログラム Download PDF

Info

Publication number
WO2020137728A1
WO2020137728A1 PCT/JP2019/049551 JP2019049551W WO2020137728A1 WO 2020137728 A1 WO2020137728 A1 WO 2020137728A1 JP 2019049551 W JP2019049551 W JP 2019049551W WO 2020137728 A1 WO2020137728 A1 WO 2020137728A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
analysis target
anchor
analysis
function
Prior art date
Application number
PCT/JP2019/049551
Other languages
English (en)
French (fr)
Inventor
暁 今倉
鉄也 櫻井
Original Assignee
国立大学法人筑波大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人筑波大学 filed Critical 国立大学法人筑波大学
Priority to US17/309,845 priority Critical patent/US11934558B2/en
Priority to JP2020563129A priority patent/JP7209378B2/ja
Publication of WO2020137728A1 publication Critical patent/WO2020137728A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21345Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis enforcing sparsity or involving a domain transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Definitions

  • the present invention relates to a distributed data integration device, a distributed data integration method, and a program.
  • the present application claims priority based on Japanese Patent Application No. 2018-243376 filed in Japan on December 26, 2018, and the content thereof is incorporated herein.
  • the original data may not be shared and analyzed when the original data contains confidential information or when the original data is huge.
  • medical data includes personal information of a patient
  • medical institutions generally cannot provide the medical data, and thus cannot share the original data.
  • As a technique for analyzing distributed data that includes confidential information for example, while protecting confidential data such as medical information, disclosing and analyzing disclosing data, and accessing the resulting information.
  • the data analysis device described in Patent Document 1 discloses the data that can be disclosed and then analyzes the data. Therefore, only the data that can be disclosed can be analyzed.
  • the data analysis device described in Patent Document 1 cannot perform integrated analysis on a plurality of distributed and held data without sharing the data.
  • the present invention has been made in view of the above points, and a distributed data integration device, a distributed data integration method, and a program that can perform integrated analysis of a plurality of data that are distributed and held without sharing the data. I will provide a.
  • anchor data which is data commonly used in integration of a plurality of distributed analysis target data
  • An acquisition unit that acquires, for each of the analysis target data, an anchor data intermediate expression that is an intermediate expression obtained by conversion, and an analysis target intermediate expression that is an intermediate expression obtained by converting the analysis target data by the first function.
  • An anchor data conversion unit that converts the plurality of anchor data intermediate expressions acquired by the acquisition unit for each of the analysis target data by a second function, and the anchor data intermediate expression converted by the anchor data conversion unit
  • the calculation unit that calculates the second function for each of the analysis target data that minimizes the mutual difference, and the analysis target intermediate representation acquired by the acquisition unit, the second function calculated by the calculation unit.
  • an analysis target data conversion unit for converting each of the analysis target data according to the above.
  • the first function is a function for abstracting data.
  • the attributes included in the anchor data include all of the attributes included in the plurality of analysis target data.
  • an anchor data intermediate representation that is an intermediate representation obtained by converting anchor data that is data commonly used in integrating a plurality of distributed analysis target data by a first function
  • An acquisition step of acquiring an analysis target intermediate expression which is an intermediate expression obtained by converting the analysis target data by the first function, for each of the analysis target data, and the plurality of anchor data acquired by the acquisition step.
  • An anchor data conversion process for converting the intermediate representation by the second function for each of the analysis target data and the anchor data conversion process for minimizing the difference between the anchor data intermediate representations converted by the anchor data conversion process.
  • a distributed data integration method is an analysis target intermediate expression obtained by converting anchor data that is data commonly used in integrating a plurality of distributed analysis target data by a first function
  • anchor data intermediate which is an intermediate representation obtained by converting anchor data, which is data commonly used in integration of a plurality of distributed analysis target data in a computer, by a first function.
  • integrated analysis can be performed on a plurality of distributed and held data without sharing the data.
  • FIG. 1 is a diagram showing an example of an outline of an integrated data analysis system SS according to the present embodiment.
  • the original data D1 to D4 are data to be analyzed by the integrated data analysis system SS.
  • the original data D1 to D4 are examples of a plurality of analysis target data.
  • the original data D1 to D4 are distributed and held by the servers 1-1 to 1-4, respectively.
  • the servers 1-1 to 1-4 are, for example, servers of medical institutions.
  • the original data D1 to D4 are, for example, medical data including confidential information such as patient's personal information.
  • the server 1-1 abstracts the original data D1 by an original method and converts it into the original intermediate data representation IR1. Similarly, the original data D2 to D4 are converted into the original data intermediate representations IR2 to IR4 by the servers 1-2 to 1-4 by their own methods.
  • the abstraction method is not shared by the servers 1-1 to 1-4. That is, in the integrated data analysis IA, when the dispersed data is integrated and analyzed, the standardization defined in advance is not performed.
  • the original data intermediate expressions IR1 to IR4 are integrated and converted into the data collaboration expression CR.
  • the integrated data analysis IA analyzes this data collaboration expression CR. Therefore, in the integrated data analysis system SS, the original data D1 to D4 that are distributed data are converted into the original data intermediate expressions IR1 to IR4, and then integrated and analyzed as the data collaboration expression CR. D1 to D4 are not shared.
  • FIG. 2 is a diagram showing an example of the configuration of the integrated data analysis system SS according to this embodiment.
  • Common anchor data AD is supplied in advance to the servers 1-1 to 1-n.
  • the anchor data AD is supplied from the distributed data integration device 2, for example.
  • the anchor data AD is data commonly used in integrating the dispersed original data D1 to Dn.
  • the anchor data AD does not include confidential information.
  • the anchor data AD is preferably data close to the original data D1 to Dn from the viewpoint of analysis accuracy of the integrated data analysis IA.
  • the anchor data AD being data close to the original data D1 to Dn means that the numerical range of the anchor data AD and the numerical range of the original data D1 to Dn are common, for example.
  • the anchor data AD being data close to the original data D1 to Dn means that the attributes included in the anchor data AD include all the attributes included in the original data D1 to Dn, for example.
  • the value of each data of the anchor data AD is, for example, a randomly generated value.
  • the server 1-1 converts the original data D1 into the original data intermediate representation IR1 by the first function f1.
  • the first function f1 is a linear or non-linear function that abstracts the original data D1.
  • the abstraction is, for example, an unsupervised dimension reduction method such as principal component analysis (PCA), locality preserving projection (LPP), or t-distributed probabilistic neighborhood embedding method (T-distributed).
  • FDA linear discriminant analysis
  • FDA local discriminant analysis
  • LFDA local FDA
  • LFDA local FDA
  • a semi-supervised LFDA semi-supervised LFDA (semi-nonlinear) version such as these
  • a non-linear version of the semi-supervised LFDA also SELF
  • t-SNE stochastic neighbor embedding
  • SELF non-linear version of the semi-supervised LFDA
  • the server 1-1 also converts the anchor data AD supplied in advance to its own device into the anchor data intermediate representation AIR1 by the first function f1.
  • This first function f1 is the same as the function used for converting the original data D1 into the original data intermediate representation IR1.
  • the distributed data integration device 2 is a device that integrates the original data intermediate expressions IR1 to IRn into the data collaboration expression CR.
  • the distributed data integration device 2 includes an acquisition unit 20, an anchor data conversion unit 21, a calculation unit 22, and an analysis target data conversion unit 23.
  • the acquisition unit 20 acquires the anchor data intermediate representations AIR1 to AIRn from the servers 1-1 to 1-n. Further, the acquisition unit 20 acquires the original data intermediate representations IR1 to IRn from the servers 1-1 to 1-n.
  • the anchor data conversion unit 21 converts the anchor data intermediate representations AIR1 to AIRn acquired by the acquisition unit 20 using a linear or non-linear second function g1 to gn, respectively. Data obtained by converting the anchor data intermediate representations AIR1 to AIRn by the second functions g1 to gn are referred to as converted data G1 to Gn.
  • the calculation unit 22 calculates second functions g1 to gn that minimize the difference between the converted data G1 to Gn, which is the anchor data intermediate representation converted by the anchor data conversion unit 21. That is, the calculation unit 22 calculates the second functions g1 to gn so that the converted data G1 to Gn, which are the results obtained by converting the anchor data intermediate representations AIR1 to AIRn by the second functions g1 to gn, coincide with each other. ..
  • the calculation unit 22 calculates the second functions g1 to gn by solving the minimization problem, for example.
  • the minimization problem becomes a generalized Total Least Squares problem.
  • the number of the distributed original data D1 to Dn is preferably a predetermined number or more in terms of accuracy when solving the minimization problem.
  • the analysis target data conversion unit 23 converts the original data intermediate expressions IR1 to IRn acquired by the acquisition unit 20 by the second functions g1 to gn calculated by the calculation unit 22, respectively.
  • the converted results are called data collaboration expressions CR1 to CRn.
  • the analysis device 3 integrates the data collaboration expressions CR1 to CRn obtained by the distributed data integration device 2 with respect to the original data D1 to Dn and analyzes them.
  • the analysis device 3 analyzes the integrated data collaboration expressions CR1 to CRn using machine learning such as the Kernel LSPC (Least Squares Probative Classifier) method or a deep neural network, for example.
  • Kernel LSPC Least Squares Probative Classifier
  • FIG. 3 is a diagram showing an example of each data according to the present embodiment.
  • FIG. 3 shows an example in which the distributed analysis target data is the original data D1 and the original data D2.
  • the original data D1 includes five-dimensional data data11 and data data12.
  • the component of the data data11 is [2, 1, 5, 3, 2]
  • the component of the data data12 is [4, 1, 2, 1, 3].
  • the original data D2 includes five-dimensional data data21 and data data22.
  • the component of the data data21 is [1, 2, 4, 3, 2]
  • the component of the data data 22 is [3, 2, 1, 5, 2].
  • the components of the anchor data AD which is five-dimensional data, are [1, 2, 3, 4, 5].
  • the original data D1, the original data D2, and the anchor data AD are abstracted by a unique method for each of the server 1-1 and the server 1-2.
  • the data data11 and the data data12 are three-dimensional data [4.0, 4.5, 5.0] and [3.5, 2.0, 3.0] which are the original data intermediate representation IR1.
  • the anchor data AD supplied to the server 1-1 is converted into three-dimensional data [3.0, 4.5, 6.0] that is the anchor data intermediate representation AIR1.
  • the data data21 and the data data22 are three-dimensional data [1.5, 3.0, 2.5] and [2.5, 1.5, 3] that are the original data intermediate representation IR2. .5].
  • the anchor data AD supplied to the server 1-2 is converted into three-dimensional data [1.5, 2.5, 4.5] that is the anchor data intermediate representation AIR2.
  • the original data intermediate representations IR1 and IR2 and the anchor data intermediate representations AIR1 and AIR2 are converted by the distributed data integration device 2 into data collaboration representations CR1 and CR2.
  • the original data D1 (data data11 and data data12) becomes three-dimensional data [1.5, 2.5, 2.5] and “2.5, 1.0, 2.0” which is the data collaboration expression CR1.
  • the anchor data intermediate representation AIR1 is converted into three-dimensional data [1.5, 1.5, 4.5] as the converted data G1.
  • the original data D2 (data data21 and data data22) are three-dimensional data [1.5, 2.0, 2.5] and “2.5, 0.5, 3.5” that are the data collaboration expression CR2. Is converted to.
  • the anchor data intermediate representation AIR2 is converted into three-dimensional data [1.5, 1.5, 4.5] as the converted data G2.
  • the anchor data intermediate representation AIR1 abstracted and obtained in the server 1-1 and the anchor data intermediate representation AIR2 abstracted and obtained in the server 1-2 are converted in the distributed data integration device 2.
  • the post-data G1 and the post-conversion data G2 are both converted into three-dimensional data [1.5, 1.5, 4.5].
  • the anchor data intermediate representations AIR1 to AIRn calculate the second functions g1 to gn that minimize the difference between the converted data G1 to Gn. The difference from the data G2 is the smallest.
  • the integrated data analysis IA the three-dimensional data [1.5, 2.5, 2.5] and “2.5, 1.0, 2.0” which are the data collaboration expression CR1 and the data collaboration expression CR2 are used. Analysis is performed by integrating certain three-dimensional data [1.5, 2.0, 2.5] and “2.5, 0.5, 3.5”.
  • the original data D1 to Dn have a reduced data dimension as compared with the original data D1 to Dn in the original data intermediate representations IR1 to IRn as a result of conversion by abstraction.
  • the abstraction may be a transformation in which, as a result of the transformation, the data dimensions in the original data intermediate representations IR1 to IRn are the same as those of the original data D1 to Dn.
  • the conversion to obtain the original data intermediate representations IR1 to IRn is not limited to abstraction.
  • the conversion for obtaining the original data intermediate representations IR1 to IRn may be a conversion for increasing the dimensions of the original data D1 to Dn.
  • the original data intermediate representations IR1 to IRn and the anchor data intermediate representations AIR1 to AIRn may have different dimensions for each data. It is not preferable to reduce the dimension of these intermediate representations excessively, because the information of the original data D1 to Dn is excessively dropped.
  • the conversion to obtain the intermediate representations IR1 to IRn of the original data may be a trivial conversion that does not change the contents of the original data D1 to Dn.
  • the conversion for obtaining the intermediate representations IR1 to IRn of the original data is a trivial conversion, the original data D1 to Dn are directly supplied to the distributed data integration device 2, and therefore the original data D1 to Dn It is preferable that confidential information is removed before conversion.
  • FIG. 4 is a diagram showing an example of processing of the distributed data integration device 2 according to the present embodiment.
  • a class classification problem that classifies leukemia types into three classes based on gene expression data is handled.
  • 38 pieces of learning data are divided into two and are held in the server 1-1 and the server 1-2 as the original data D1 and the original data D2, respectively.
  • the learning data a plurality of types of feature amounts related to gene expression data and types of leukemia are associated with each sample.
  • the number n is 2.
  • the original data D1 to Dn are each 7129-dimensional data.
  • the original data D1 to Dn are converted into 17-dimensional original data intermediate representations IR1 to IRn in the servers 1-1 to 1-n by abstraction using the Kernel LPP (Locality Preserving projection) method. There is.
  • the Kernel LPP method different conversion is performed depending on the data to be converted. Since the original data D1 to Dn are generally different from each other, the conversion of the Kernel LPP method is different from each server 1-1 to 1-n.
  • the anchor data AD supplied to each of the servers 1-1 to 1-n is common to each of the servers 1-1 to 1-n and is randomly generated data.
  • the anchor data AD is converted into anchor data intermediate representations AIR1 to AIRn using the Kernel LPP method.
  • Step S10 The acquisition unit 20 acquires the original data intermediate expressions IR1 to IRn and the anchor data intermediate expressions AIR1 to AIRn for each of the distributed original data D1 to Dn.
  • the acquisition unit 20 supplies the acquired anchor data intermediate representations AIR1 to AIRn to the anchor data conversion unit 21. Further, the acquisition unit 20 supplies the acquired original data intermediate representations IR1 to IRn to the analysis target data conversion unit 23.
  • the anchor data intermediate expressions AIR1 to AIRn are intermediate expressions obtained by converting the anchor data AD by the first functions f1 to fn.
  • the original data intermediate expressions IR1 to IRn are analysis object intermediate expressions that are intermediate expressions obtained by converting the analysis object data (the original data D1 to Dn in this example) by the first functions f1 to fn. That is, the acquisition unit 20 uses the anchor data intermediate representation AIR1 which is the intermediate representation obtained by converting the anchor data, which is the data commonly used in the integration of the plurality of distributed analysis target data, by the first functions f1 to fn.
  • the original data D1 to Dn are intermediate expressions to be analyzed which are intermediate expressions obtained by conversion by the first functions f1 to fn (in this example, the original data intermediate expression IR1 to IRn) is acquired for each data to be analyzed.
  • Step S20 The anchor data conversion unit 21 converts the plurality of anchor data intermediate representations AIR1 to AIRn acquired by the acquisition unit 20 into the original data D1 to Dn by the second functions g1 to gn.
  • the anchor data conversion unit 21 supplies converted data G1 to Gn obtained by converting the anchor data intermediate representations AIR1 to AIRn to the calculation unit 22.
  • Step S30 The calculation unit 22 calculates the second functions g1 to gn for each of the original data D1 to Dn that minimizes the difference between the converted data G1 to Gn converted by the anchor data conversion unit 21. That is, the calculation unit 22 calculates the second functions g1 to gn for each of the original data D1 to Dn that minimizes the difference between the anchor data intermediate representations AIR1 to AIRn converted by the anchor data conversion unit 21.
  • each process of step S20 and step S30 corresponds to, for example, a process of solving a generalized Total Least Squares problem.
  • steps S20 and S30 are repeated until the second functions g1 to gn for each of the original data D1 to Dn that minimize the difference between the anchor data intermediate representations AIR1 to AIRn are calculated.
  • the calculation unit 22 supplies the calculated second functions g1 to gn to the analysis target data conversion unit 23.
  • Step S40 The analysis target data conversion unit 23 uses the original data intermediate expressions IR1 to IRn acquired by the acquisition unit 20 as a solution of the general least squares problem generalized by the calculation unit 22 to calculate a second function g1 to IRn.
  • the data collaboration expressions CR1 to CRn are converted by gn. That is, the analysis target data conversion unit 23 converts the analysis target intermediate representation acquired by the acquisition unit 20 for each analysis target data by the second functions g1 to gn calculated by the calculation unit 22.
  • the analysis target data conversion unit 23 supplies the data collaboration expressions CR1 to CRn obtained by the conversion to the analysis device 3.
  • the analysis device 3 integrates the data collaboration expressions CR1 to CRn supplied by the distributed data integration device 2 to perform integrated data analysis IA.
  • the analysis device 3 performs integrated data analysis IA using, for example, the Kernel LSPC method.
  • FIG. 5 is a diagram showing an example of the result of the integrated data analysis IA1 according to this embodiment.
  • data for each sample is shown in a three-dimensional space showing three types of characteristic amounts among a plurality of types of characteristic amounts regarding gene expression data.
  • Classes C1 to C3 correspond to leukemia types, and the data for each sample is classified according to leukemia type.
  • the data included in the classes C1 to C3 have higher analysis accuracy as they do not overlap each other.
  • the learning data distributed in two is integrated by the integrated data analysis IA according to the present embodiment and used as the learning data, and the result of the Kernel LSPC method is 94.3 ⁇ 0.70%.
  • the leukemia types could be classified into three classes C1 to C3.
  • the kernel version locality preserving projection is used as an example of the first function for data abstraction.
  • the Gaussian kernel is used as the kernel for the kernel version locality preserving projection.
  • a solution method based on singular value decomposition is used to calculate the second function that minimizes the difference between the anchor data intermediate representations.
  • LPP Locality Preserving Projection
  • LPP is an unsupervised dimension reduction method, in which a low-dimensional space that preserves local structure is constructed. Saving the local structure means that, in the original data before the LPP is executed, the data having a close distance between the data are close to each other even in the low-dimensional space constructed by the LPP. Since the LPP constructs a projection function that depends on the original data, the generated function is different for each distributed data (for example, in a medical institution).
  • the LPP is formulated as shown in equation (1).
  • x i and x j indicate the value of the original data which is the value of the feature amount.
  • the matrix B is a matrix showing LPP.
  • the weight w ij is the degree of similarity between x i and x j shown by equation (2).
  • FIG. 6 is a diagram showing an example of the integrated data analysis IA0 using the integrated data SD0 according to the conventional standardization.
  • the distributed original data D10 and original data D20 are converted in each server by standardization defined in advance.
  • the original data D10 and the original data D20 converted by standardization are integrated as integrated data SD0 by standardization.
  • the integrated data SD0 by standardization is analyzed by the integrated data analysis IA0.
  • FIG. 7 is a diagram showing an example of the analysis result when the original data is not integrated.
  • Classes C10-C30 correspond to leukemia types.
  • the leukemia type was classified into three classes C1 to C3 with an accuracy of 87.7 ⁇ 3.17%. There is. Comparing the analysis accuracy of the integrated data analysis IA1 of the present embodiment in FIG. 5 with the analysis accuracy of the Kernel LSPC method using one of the two distributed learning data, the integrated data analysis of the present embodiment is performed. It can be seen that the analysis accuracy of IA1 is higher than the analysis accuracy of the Kernel LSPC method using only one of the two distributed learning data.
  • the integrated data analysis IA is referred to as an integrated data analysis IA2.
  • the integrated data analysis IA2 the problem of dividing the space into a plurality of regions corresponding to the plurality of types of points based on the distribution of the plurality of types of points is analyzed based on machine learning.
  • This space is a space showing 10 types of feature amounts, and the dimension of the space is 10 dimensions.
  • eight kinds of the ten kinds of feature values are randomly set with random numbers, and learning data and analysis are performed on the plane corresponding to the remaining two kinds. Results are shown.
  • Machine learning is, for example, the Kernel LSPC method. Any machine learning method may be used as the machine learning as long as it is supervised learning.
  • FIG. 8 is a diagram showing an example of correct answer data and learning data used for machine learning according to the present embodiment.
  • 8A shows correct answer data
  • FIGS. 8B, 8C, and 8D show learning data.
  • the plane is divided into three areas, and a method of dividing the area that is the correct answer in the problem of dividing the plane into areas is shown.
  • the learning data shown in FIGS. 8B, 8C, and 8D the distribution of a plurality of points belonging to any one of the three areas on the plane is shown together with the closed curve indicating the boundary of the areas that are correct. There is.
  • the distribution of the plurality of points is shown in different modes depending on the region to which it belongs.
  • the number of the plurality of points is 40 in each of FIGS. 8B, 8C, and 8D.
  • the learning data shown in FIGS. 8B, 8C, and 8D corresponds to a plurality of distributed analysis target data.
  • FIG. 9 is a diagram showing an example of a result of the integrated data analysis IA2 according to this embodiment.
  • 9A, 9B, and 9C are integrated data obtained when the distributions of the plurality of points shown in FIGS. 8B, 8C, and 8D are used as learning data, respectively.
  • the result of analysis IA2 is shown.
  • the kernel version locality preserving projection is used as an example of the first function for data abstraction.
  • the Gaussian kernel is used as the kernel for the kernel version locality preserving projection.
  • a solution method based on singular value decomposition is used as an example to calculate the second function that minimizes the difference between the anchor data intermediate representations.
  • FIG. 10 shows the analysis result when the dispersed learning data are integrated and used by the conventional standardization.
  • the learning data shown in FIGS. 8B, 8C, and 8D was shared among the data holders and used as a set of learning data to execute the analysis by machine learning. This is the result of the case.
  • FIG. 11 shows an analysis result when the dispersed learning data are individually used. 11(A), (B), and (C) show the case where the learning data shown in FIGS. 8(B), (C), and (D) are individually used to perform analysis by machine learning. Is the result of.
  • the integrated data analysis IA is referred to as integrated data analysis IA3.
  • handwritten numeral recognition is executed based on machine learning.
  • Machine learning is, for example, the Kernel LSPC method. Any machine learning method may be used as the machine learning as long as it is supervised learning.
  • FIG. 12 is a diagram showing an example of the accuracy of the result of the integrated data analysis IA3 according to this embodiment.
  • a graph GR1, a graph GR10, and a graph GR20 showing the accuracy of the analysis result when the number of distributed learning data is changed from 1 to 50 are shown.
  • the graph GR1 shows the analysis result by the integrated data analysis IA3.
  • the graph GR10 and the graph GR20 are graphs about the analysis result by the conventional analysis for comparison with the integrated data analysis IA3.
  • the graph GR10 shows the accuracy of the analysis result when the distributed learning data are integrated and analyzed.
  • the graph GR20 shows the accuracy of the analysis result when the distributed learning data are individually used. In the analysis corresponding to the graph GR20, the number of distributed learning data itself used for learning is one, and the data used for learning among the distributed learning data is changed.
  • each of the distributed learning data is a set of 100 data.
  • the number of distributed learning data corresponds to the number of institutions holding the data. That is, in the integrated data analysis IA3, a situation is assumed in which the organizations holding the data each hold 100 pieces of data. In the integrated data analysis IA3, MNIST (Modified National Institute of Standards and Technology) is used as learning data.
  • the learning data includes 784 feature quantities corresponding to the number of pixels of an image composed of 28 pixels in each of the vertical and horizontal directions.
  • the kernel version locality preserving projection is used as an example of the first function for data abstraction.
  • the Gaussian kernel is used as the kernel for the kernel version locality preserving projection.
  • a solution method based on singular value decomposition is used as an example to calculate the second function that minimizes the difference between the anchor data intermediate representations.
  • the accuracy indicated by the graph GR1 is higher than the accuracy indicated by the graph GR20, and is closer to the accuracy indicated by the graph GR10 than the accuracy indicated by the graph GR20. That is, in other words, in the analysis result by the integrated data analysis IA3, higher determination accuracy is obtained than in the analysis result when the distributed learning data are individually used.
  • the distributed data integration device 2 includes the acquisition unit 20, the anchor data conversion unit 21, the calculation unit 22, and the analysis target data conversion unit 23.
  • the acquisition unit 20 obtains the anchor data AD, which is data commonly used in the integration of a plurality of distributed analysis target data (in this example, the original data D1 to Dn), by being converted by the first functions f1 to fn.
  • Anchor data intermediate representations AIR1 to AIRn which are intermediate representations to be analyzed
  • analysis target intermediate representations which are intermediate representations obtained by converting the analysis target data (the original data D1 to Dn in this example) by the first functions f1 to fn (
  • the original data intermediate representations IR1 to IRn) are acquired for each analysis target data (original data D1 to Dn in this example).
  • the distributed data integration device 2 can convert the intermediate expression into the data collaboration expression CR, so that integrated analysis can be performed on a plurality of distributed and held data without sharing the data. it can.
  • the holders of the distributed data can convert the intermediate representation changed by their own abstraction into the data collaboration representation CR.
  • the costs associated with converting to standards can be reduced.
  • the first functions f1 to fn are functions that abstract data.
  • the data is not shared by using the abstraction for a plurality of data that is distributed and held. Integrated analysis can be performed.
  • the attributes included in the anchor data AD include all the attributes included in the plurality of analysis target data (in this example, the original data D1 to Dn).
  • the attributes included in the anchor data AD do not include all the attributes included in the plurality of pieces of analysis target data (in this example, the original data D1 to Dn). The accuracy of the integrated data analysis IA can be increased as compared with the case.
  • the acquisition unit 20, the anchor data conversion unit 21, the calculation unit 22, and the analysis target data conversion unit 23 may be realized by a computer.
  • the program for realizing the control function may be recorded in a computer-readable recording medium, and the program recorded in the recording medium may be read by a computer system and executed.
  • the “computer system” referred to here is a computer system built in the acquisition unit 20, and includes an OS and hardware such as peripheral devices.
  • the “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, or a storage device such as a hard disk built in a computer system.
  • the "computer-readable recording medium” means a program that dynamically holds a program for a short time, such as a communication line when transmitting the program through a network such as the Internet or a communication line such as a telephone line.
  • a volatile memory inside the computer system that serves as a server or a client in which the program is held for a certain period of time may be included.
  • the program may be for realizing a part of the functions described above, or may be a program for realizing the functions described above in combination with a program already recorded in the computer system.
  • part or all of the distributed data integration device 2 in the above-described embodiment may be realized as an integrated circuit such as an LSI (Large Scale Integration).
  • Each functional block of the distributed data integration device 2 may be individually implemented as a processor, or part or all of the functional blocks may be integrated and implemented as a processor. Further, the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor. In addition, when a technique for forming an integrated circuit that replaces LSI appears with the progress of semiconductor technology, an integrated circuit according to the technique may be used.
  • SS... Integrated data analysis system 1-1 to 1-n... Server, 2... Distributed data integration device, 20... Acquisition unit, 21... Anchor data conversion unit, 22... Calculation unit, 23... Analysis target data conversion unit, 3 ...Analyzer, D1 to Dn...original data, AD...anchor data, f1 to fn...first function, g1 to gn...second function, IR1 to IRn...original data intermediate representation, AIR1 to AIRn...anchor data intermediate representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

分散データ統合装置は、分散している複数の解析対象データの統合において共通に用いられるデータであるアンカーデータが第1関数によって変換されて得られる中間表現であるアンカーデータ中間表現、及び解析対象データが第1関数によって変換されて得られる中間表現である解析対象中間表現を、解析対象データ毎に取得する取得部と、複数のアンカーデータ中間表現を第2関数によって解析対象データ毎に変換するアンカーデータ変換部と、アンカーデータ中間表現相互間の差を最小にする解析対象データ毎の第2関数を算出する算出部と、解析対象中間表現を第2関数によって解析対象データ毎に変換する解析対象データ変換部と、を備える。

Description

分散データ統合装置、分散データ統合方法、及びプログラム
 本発明は、分散データ統合装置、分散データ統合方法、及びプログラムに関する。
 本願は、2018年12月26日に、日本に出願された特願2018-243376号に基づき優先権を主張し、その内容をここに援用する。
 分散されたデータを統合して解析を行う場合に、元のデータに秘匿情報が含まれる場合や元データが巨大である場合などに、元のデータを共有して解析できないことがある。例えば、医療データには患者の個人情報が含まれるため、一般的には医療機関は医療データを提供できないため、元のデータを共有することができない。
 秘匿情報が含まれる分散されたデータを解析する技術として、例えば、医療情報等の秘匿対象のデータを保護しながら、開示可能なデータを開示して解析しつつ、その結果得られた情報をアクセスレベルが異なる者や組織等の間でデータ通信を行うデータ解析装置が知られている(特許文献1)。
特開2014-095931号公報
 特許文献1に記載のデータ解析装置では、開示可能なデータを開示して解析が行われるため、解析ができるのは開示可能なデータについてのみである。特許文献1に記載のデータ解析装置では、分散されて保持される複数のデータについてデータを共有せずに統合解析を行うことができない。
 本発明は上記の点に鑑みてなされたものであり、分散されて保持される複数のデータについてデータを共有せずに統合解析を行うことができる分散データ統合装置、分散データ統合方法、及びプログラムを提供する。
 本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、分散している複数の解析対象データの統合において共通に用いられるデータであるアンカーデータが第1関数によって変換されて得られる中間表現であるアンカーデータ中間表現、及び前記解析対象データが前記第1関数によって変換されて得られる中間表現である解析対象中間表現を、前記解析対象データ毎に取得する取得部と、前記取得部によって取得された前記複数の前記アンカーデータ中間表現を第2関数によって前記解析対象データ毎に変換するアンカーデータ変換部と、前記アンカーデータ変換部によって変換された前記アンカーデータ中間表現相互間の差を最小にする前記解析対象データ毎の前記第2関数を算出する算出部と、前記取得部によって取得された前記解析対象中間表現を、前記算出部によって算出された前記第2関数によって前記解析対象データ毎に変換する解析対象データ変換部と、を備える分散データ統合装置である。
 また、本発明の一態様は、上記の分散データ統合装置において、前記第1関数は、データを抽象化する関数である。
 また、本発明の一態様は、上記の分散データ統合装置において、前記アンカーデータに含まれる属性には、前記複数の前記解析対象データに含まれる属性の全てが含まれる。
 また、本発明の一態様は、分散している複数の解析対象データの統合において共通に用いられるデータであるアンカーデータが第1関数によって変換されて得られる中間表現であるアンカーデータ中間表現、及び前記解析対象データが前記第1関数によって変換されて得られる中間表現である解析対象中間表現を、前記解析対象データ毎に取得する取得過程と、前記取得過程によって取得された前記複数の前記アンカーデータ中間表現を第2関数によって前記解析対象データ毎に変換するアンカーデータ変換過程と、前記アンカーデータ変換過程によって変換された前記アンカーデータ中間表現相互間の差を最小にする前記解析対象データ毎の前記第2関数を算出する算出過程と、前記取得過程によって取得された前記解析対象中間表現を、前記算出過程によって算出された前記第2関数によって前記解析対象データ毎に変換する解析対象データ変換過程とを有する分散データ統合方法である。
 また、本発明の一態様は、コンピュータに、分散している複数の解析対象データの統合において共通に用いられるデータであるアンカーデータが第1関数によって変換されて得られる中間表現であるアンカーデータ中間表現、及び前記解析対象データが前記第1関数によって変換されて得られる中間表現である解析対象中間表現を、前記解析対象データ毎に取得する取得ステップと、前記取得ステップによって取得された前記複数の前記アンカーデータ中間表現を第2関数によって前記解析対象データ毎に変換するアンカーデータ変換ステップと、前記アンカーデータ変換ステップによって変換された前記アンカーデータ中間表現相互間の差を最小にする前記解析対象データ毎の前記第2関数を算出する算出ステップと、前記取得ステップによって取得された前記解析対象中間表現を、前記算出ステップによって算出された前記第2関数によって前記解析対象データ毎に変換する解析対象データ変換ステップとを実行させるためのプログラムである。
 本発明によれば、分散されて保持される複数のデータについてデータを共有せずに統合解析を行うことができる。
本発明の実施形態に係る統合データ解析システムの概略の一例を示す図である。 本発明の実施形態に係る統合データ解析システムの構成の一例を示す図である。 本発明の実施形態に係る各データの一例を示す図である。 本発明の実施形態に係る分散データ統合装置の処理の一例を示す図である。 本発明の実施形態に係る統合データ解析の結果の一例を示す図である。 従来の標準規格化による統合データを用いた統合データ解析の一例を示す図である。 元データを統合しない場合の解析結果の一例を示す図である。 本発明の実施形態に係る機械学習に用いられる正解データ、及び学習データの一例を示す図である。 本発明の実施形態に係る統合データ解析の結果の一例を示す図である。 従来の標準規格化による統合データを用いた統合データ解析の結果の一例を示す図である。 従来の分散している学習データを個別に用いた場合の解析の結果の一例を示す図である。 本発明の実施形態に係る統合データ解析の結果の正確度の一例を示す図である。
(実施形態)
[統合データ解析IAの概要]
 以下、図面を参照しながら本発明の実施形態について詳しく説明する。図1は、本実施形態に係る統合データ解析システムSSの概略の一例を示す図である。
 元データD1~D4は、統合データ解析システムSSにおける解析の対象となるデータである。元データD1~D4は、複数の解析対象データの一例である。元データD1~D4は、サーバ1-1~1-4に分散されてそれぞれ保持される。サーバ1-1~1-4は、例えば、医療機関のサーバである。元データD1~D4は、例えば、患者の個人情報などの秘匿情報を含む医療データである。
 サーバ1-1は、元データD1を独自の方法によって抽象化し、元データ中間表現IR1に変換する。元データD2~D4についても、同様にサーバ1-2~1-4において元データ中間表現IR2~IR4にそれぞれ独自の方法によって変換される。抽象化の方法は、サーバ1-1~1-4において共有されない。つまり、統合データ解析IAでは、分散されたデータを統合して解析する場合において、予め規定された標準規格化は行われない。
 元データ中間表現IR1~IR4は、統合されてデータコラボレーション表現CRに変換される。統合データ解析IAでは、このデータコラボレーション表現CRについて解析を行う。したがって、統合データ解析システムSSでは、分散されたデータである元データD1~D4は、元データ中間表現IR1~IR4に変換された後、データコラボレーション表現CRとして統合されて解析が行われ、元データD1~D4は共有されない。
[分散データ統合装置2の構成]
 図2は、本実施形態に係る統合データ解析システムSSの構成の一例を示す図である。
統合データ解析システムSSは、サーバ1-i(i=1、2、・・・、n:nは元データの数)と、分散データ統合装置2と、解析装置3とを備える。なお、以下では、サーバ1-i(i=1、2、・・・、n:nは元データの数)などの記載を単にサーバ1-1~1-nなどと記載することがある。
 サーバ1-1~1-nには、共通のアンカーデータADが予め供給される。このアンカーデータADは、例えば、分散データ統合装置2から供給される。アンカーデータADとは、分散している元データD1~Dnの統合において共通に用いられるデータである。アンカーデータADには、秘匿情報は含まれていない。
 アンカーデータADは、元データD1~Dnに近いデータであることが、統合データ解析IAの解析の精度の観点から好ましい。アンカーデータADが元データD1~Dnに近いデータであるとは、例えば、アンカーデータADの数値範囲と、元データD1~Dnの数値範囲とが共通であることである。また、アンカーデータADが元データD1~Dnに近いデータであるとは、例えば、アンカーデータADに含まれる属性には、元データD1~Dnに含まれる属性の全てが含まれることである。アンカーデータADの各データの値は、例えば、ランダムに生成された値である。
 ここでサーバ1-1~1-nは、互いに同様の機能を有するため、サーバ1-1~1-nの機能を、サーバ1-1に代表させて説明する。
 サーバ1-1は、元データD1を第1関数f1によって元データ中間表現IR1に変換する。第1関数f1は、元データD1を抽象化する線形もしくは非線形の関数である。ここで抽象化は、例えば、教師なし次元削減法である主成分分析(Principal Component Analysis:PCA)、局所性保存射影(Locality Preserving Projection:LPP)、t分布型確率的近傍埋め込み法(T-distributed Stochastic Neighbor Embedding:t-SNE)など、教師あり次元削減法である線形判別分析(Fisher Discriminant Analysis:FDA)、local FDA(LFDA)、semi-supervised LFDA(SELF)など、またこれらに非線形カーネル版を用いた非線形次元削減法、及びディープニューラルネットワークにおいて用いられるオートエンコーダなどによって実行される。なお、サーバ1-1は、元データD1から秘匿情報を除いた後に、秘匿情報が除かれた元データD1を元データ中間表現IR1に変換してよい。
 元データ中間表現IR1は、解析対象データが第1関数によって変換されて得られる中間表現である解析対象中間表現の一例である。
 また、サーバ1-1は、自装置に予め供給されるアンカーデータADを、第1関数f1によってアンカーデータ中間表現AIR1に変換する。この第1関数f1は、元データD1を元データ中間表現IR1に変換するのに用いられた関数と同じである。
 分散データ統合装置2は、元データ中間表現IR1~IRnをデータコラボレーション表現CRに統合する装置である。分散データ統合装置2は、取得部20と、アンカーデータ変換部21と、算出部22と、解析対象データ変換部23とを備える。
 取得部20は、サーバ1-1~1-nからアンカーデータ中間表現AIR1~AIRnを取得する。また、取得部20は、サーバ1-1~1-nから元データ中間表現IR1~IRnを取得する。
 アンカーデータ変換部21は、取得部20によって取得されたアンカーデータ中間表現AIR1~AIRnを、線形もしくは非線形の第2関数g1~gnによってそれぞれ変換する。アンカーデータ中間表現AIR1~AIRnが第2関数g1~gnによって変換されたデータを変換後データG1~Gnという。
 算出部22は、アンカーデータ変換部21によって変換されたアンカーデータ中間表現である変換後データG1~Gn相互間の差を最小にする第2関数g1~gnを算出する。
つまり、算出部22は、アンカーデータ中間表現AIR1~AIRnが第2関数g1~gnによって変換された結果である変換後データG1~Gnを相互に一致させるように第2関数g1~gnを算出する。
 ここで算出部22は、例えば、最小化問題を解くことによって第2関数g1~gnを算出する。特に第2関数g1~gnが線形関数である場合には、当該最小化問題は一般化されたTotal Least Squares問題となる。
 なお、分散された元データD1~Dnの数は、最小化問題を解く際の精度の点において、所定の数以上であることが好ましい。
 解析対象データ変換部23は、取得部20によって取得された元データ中間表現IR1~IRnを、算出部22によって算出された第2関数g1~gnによってそれぞれ変換する。変換された結果を、データコラボレーション表現CR1~CRnという。
 解析装置3は、分散データ統合装置2によって得られたデータコラボレーション表現CR1~CRnを、元データD1~Dnについて統合し解析を行う。解析装置3は、例えば、Kernel LSPC(Least Squares Probailistic Classifier)法やディープニューラルネットワークなどの機械学習を用いて、統合されたデータコラボレーション表現CR1~CRnの解析を行う。
[各データの具体例]
 図3は、本実施形態に係る各データの一例を示す図である。図3では、分散された解析対象データが元データD1、及び元データD2の2つである場合の一例である。
 元データD1は、5次元のデータdata11及びデータdata12を含む。データdata11の成分は[2、1、5、3、2]であり、データdata12の成分は[4、1、2、1、3]である。元データD2は、5次元のデータdata21及びデータdata22を含む。データdata21の成分は[1、2、4、3、2]であり、データdata22の成分は[3、2、1、5、2]である。
 5次元のデータであるアンカーデータADの成分は、[1、2、3、4、5]である。
 上述したように元データD1、元データD2、及びアンカーデータADは、サーバ1-1、及びサーバ1-2毎に独自の方法によって抽象化される。抽象化の結果、データdata11及びデータdata12は元データ中間表現IR1である3次元のデータ[4.0、4.5、5.0]、及び[3.5、2.0、3.0]に変換される。サーバ1-1に供給されるアンカーデータADは、アンカーデータ中間表現AIR1である3次元のデータ[3.0、4.5、6.0]に変換される。
 一方、抽象化の結果、データdata21及びデータdata22は、元データ中間表現IR2である3次元のデータ[1.5、3.0、2.5]、及び[2.5、1.5、3.5]に変換される。サーバ1-2に供給されるアンカーデータADは、アンカーデータ中間表現AIR2である3次元のデータ[1.5、2.5、4.5]に変換される。
 元データ中間表現IR1~IR2、及びアンカーデータ中間表現AIR1~AIR2は、分散データ統合装置2によって、データコラボレーション表現CR1~CR2に変換される。元データD1(データdata11及びデータdata12)は、データコラボレーション表現CR1である3次元のデータ[1.5、2.5、2.5]及び「2.5、1.0、2.0」に変換される。アンカーデータ中間表現AIR1は、変換後データG1として3次元のデータ[1.5、1.5、4.5]に変換される。
 一方、元データD2(データdata21及びデータdata22)は、データコラボレーション表現CR2である3次元のデータ[1.5、2.0、2.5]及び「2.5、0.5、3.5」に変換される。アンカーデータ中間表現AIR2は、変換後データG2として3次元のデータ[1.5、1.5、4.5]に変換される。
 ここで、サーバ1-1において抽象化されて得られたアンカーデータ中間表現AIR1と、サーバ1-2において抽象化されて得られたアンカーデータ中間表現AIR2とは、分散データ統合装置2において、変換後データG1、及び変換後データG2として共に3次元のデータ[1.5、1.5、4.5]に変換されている。分散データ統合装置2では、アンカーデータ中間表現AIR1~AIRnが変換後データG1~Gn相互間の差を最小にするような第2関数g1~gnが算出されるため、変換後データG1と変換後データG2との差は最小となっている。
 統合データ解析IAでは、データコラボレーション表現CR1である3次元のデータ[1.5、2.5、2.5]及び「2.5、1.0、2.0」と、データコラボレーション表現CR2である3次元のデータ[1.5、2.0、2.5]及び「2.5、0.5、3.5」とを統合して解析が行われる。
 なお、本実施形態では、元データD1~Dnは、抽象化による変換の結果、元データ中間表現IR1~IRnにおいてデータの次元が元データD1~Dnに比べて減る場合について説明するが、これに限らない。抽象化は、変換の結果、元データ中間表現IR1~IRnにおいてデータの次元は元データD1~Dnと同じである変換であってもよい。
 また、元データ中間表現IR1~IRnを得る変換とは、抽象化に限らない。例えば、元データ中間表現IR1~IRnを得る変換は、元データD1~Dnの次元を増やす変換であってもよい。
 なお、元データ中間表現IR1~IRn、及びアンカーデータ中間表現AIR1~AIRnの次元は、データ毎に異なっていてもよい。これらの中間表現の次元を過度に小さくすることは、元データD1~Dnのもつ情報が過度に落ちてしまうため好ましくない。
 またなお、元データ中間表現IR1~IRnを得る変換は、元データD1~Dnの中身を変えない自明な変換であってもよい。ただし、元データ中間表現IR1~IRnを得る変換が自明な変換である場合には、元データD1~Dnがそのまま分散データ統合装置2に供給されることになるため、元データD1~Dnからは変換前に秘匿情報が除かれることが好ましい。
[分散データ統合装置2の処理]
 図4は、本実施形態に係る分散データ統合装置2の処理の一例を示す図である。
 本実施形態では、一例として、遺伝子発現データによって白血病の種類を3クラスに分類するクラス分類問題を扱う。当該クラス分類問題では、38個の学習用データが、2つに分割されて、元データD1及び元データD2として、サーバ1-1、及びサーバ1-2にそれぞれ保持されている。ここで学習用データでは、遺伝子発現データに関する複数の種類の特徴量と、白血病の種類とが検体毎に対応づけられている。
 以下、図4の説明において、数nは2である。
 元データD1~Dnは、それぞれ7129次元のデータである。元データD1~Dnは、サーバ1-1~1-nにおいて、Kernel LPP(Locality Preserving projection)法を用いた抽象化によって、17次元のデータである元データ中間表現IR1~IRnへと変換されている。ここでKernel LPP法では、変換の対象となるデータに依存して異なる変換となる。元データD1~Dnは一般には互いに異なるため、Kernel LPP法の変換はサーバ1-1~1-n毎に互いに異なる。
 サーバ1-1~1-nにそれぞれ供給されるアンカーデータADは、サーバ1-1~1-n毎に共通であり、ランダムに生成されたデータである。サーバ1-1~1-nにおいて、アンカーデータADは、Kernel LPP法を用いてアンカーデータ中間表現AIR1~AIRnへと変換されている。
ステップS10:取得部20は、元データ中間表現IR1~IRn、及びアンカーデータ中間表現AIR1~AIRnを分散された元データD1~Dn毎に取得する。取得部20は、取得したアンカーデータ中間表現AIR1~AIRnをアンカーデータ変換部21に供給する。また、取得部20は、取得した元データ中間表現IR1~IRnを解析対象データ変換部23に供給する。
 ここで、アンカーデータ中間表現AIR1~AIRnとは、アンカーデータADが第1関数f1~fnによって変換されて得られる中間表現である。また、元データ中間表現IR1~IRnとは、解析対象データ(この一例において、元データD1~Dn)が第1関数f1~fnによって変換されて得られる中間表現である解析対象中間表現である。
 つまり、取得部20は、分散している複数の解析対象データの統合において共通に用いられるデータであるアンカーデータが第1関数f1~fnによって変換されて得られる中間表現であるアンカーデータ中間表現AIR1~AIRn、及び解析対象データ(この一例において、元データD1~Dn)が第1関数f1~fnによって変換されて得られる中間表現である解析対象中間表現(この一例において、元データ中間表現IR1~IRn)を、解析対象データ毎に取得する。
ステップS20:アンカーデータ変換部21は、取得部20によって取得された複数のアンカーデータ中間表現AIR1~AIRnを第2関数g1~gnによって元データD1~Dn毎に変換する。アンカーデータ変換部21は、アンカーデータ中間表現AIR1~AIRnを変換して得られる変換後データG1~Gnを算出部22に供給する。
ステップS30:算出部22は、アンカーデータ変換部21によって変換された変換後データG1~Gn相互間の差を最小にする元データD1~Dn毎の第2関数g1~gnを算出する。
 つまり、算出部22は、アンカーデータ変換部21によって変換されたアンカーデータ中間表現AIR1~AIRn相互間の差を最小にする元データD1~Dn毎の第2関数g1~gnを算出する。
 ここで本実施形態では、ステップS20、及びステップS30の各処理は、一例として、一般化されたTotal Least Squares問題を解く処理に対応する。当該処理においては、アンカーデータ中間表現AIR1~AIRn相互間の差を最小にする元データD1~Dn毎の第2関数g1~gnが算出されるまでステップS20、及びステップS30の各処理が繰り返される場合もある。
 算出部22は、算出した第2関数g1~gnを解析対象データ変換部23に供給する。
ステップS40:解析対象データ変換部23は、取得部20によって取得された元データ中間表現IR1~IRnを、算出部22によって一般化されたTotal Least Squares問題の解として算出された第2関数g1~gnによってデータコラボレーション表現CR1~CRnに変換する。
 つまり、解析対象データ変換部23は、取得部20によって取得された解析対象中間表現を、算出部22によって算出された第2関数g1~gnによって解析対象データ毎に変換する。
 解析対象データ変換部23は、変換して得られたデータコラボレーション表現CR1~CRnを解析装置3に供給する。
 解析装置3では、分散データ統合装置2が供給するデータコラボレーション表現CR1~CRnを統合して、統合データ解析IAを行う。解析装置3は、例えば、Kernel LSPC法を用いて統合データ解析IAを行う。
 ここで、図5を参照して統合データ解析IAの結果の第1の具体例について説明する。以下の第1の具体例の説明において統合データ解析IAを統合データ解析IA1という。
 図5は、本実施形態に係る統合データ解析IA1の結果の一例を示す図である。図5では、遺伝子発現データに関する複数種類の特徴量のうち3種類の特徴量を示す3次元空間において、検体毎のデータが示されている。クラスC1~C3は、白血病の種類に対応し、検体毎のデータが白血病の種類毎に分類されている。クラスC1~C3に含まれるデータは互いに重なっていないほど解析精度が高い。
 統合データ解析IA1では、2つに分散された学習データを本実施形態に係る統合データ解析IAによって統合し学習データとして用いて、Kernel LSPC法を行った結果、94.3±0.70パーセントの精度において、白血病の種類を3つのクラスC1~C3に分類することができた。
 図5に示す解析結果を得るために、統合データ解析IA1では、データの抽象化のための第1関数として、一例としてカーネル版局所性保存射影が用いられている。ここでカーネル版局所性保存射影のカーネルには、ガウスカーネルを使用している。統合データ解析IA1では、アンカーデータ中間表現相互間の差を最小にする第2関数を算出するために、一例として特異値分解に基づく解法が用いられている。
 ここで第1関数として用いられる局所性保存射影(Locality Preserving Projection: LPP)について説明する。LPPは、教師なし次元削減法であり、LPPでは、局所構造を保存する低次元空間が構築される。局所構造を保存するとは、LPPが実行される前の元のデータにおいて、データ間の距離が近いデータ同士は、LPPによって構築される低次元空間においてもデータ間の距離が近くなることである。LPPでは元のデータに依存した射影関数を構築するため、生成される関数は(例えば医療機関などに)分散されたデータ毎に異なる。
 LPPは、式(1)に示すように定式化される。
Figure JPOXMLDOC01-appb-M000001
 xやxは、特徴量の値である元のデータの値を示す。行列Bは、LPPを示す行列である。重みwijは、式(2)によって示されるxとxとの間の類似度である。
Figure JPOXMLDOC01-appb-M000002
 重みwijの値は、元のデータ同士においてデータ間の距離が近いほど大きい。なお、重みwijの値は、実用上はk近傍法によりスパース化し、元のデータ同士においてデータ間の距離が十分遠いデータに対してはwij=0とする。
[従来の統合データ解析IA0]
 ここで図6及び図7を参照し、本実施形態の統合データ解析IA1との比較のために、従来の標準規格化による統合データSD0を用いた統合データ解析IA0について説明する。
 図6は、従来の標準規格化による統合データSD0を用いた統合データ解析IA0の一例を示す図である。分散された元データD10及び元データD20は、各サーバにおいて、予め規定された標準規格化によって変換される。標準規格化によって変換された元データD10及び元データD20は、標準規格化による統合データSD0として統合される。標準規格化による統合データSD0が、統合データ解析IA0によって解析される。
 図7は、元データを統合しない場合の解析結果の一例を示す図である。クラスC10~C30は、白血病の種類に対応する。2つに分散された学習データのうち一方のデータを用いてKernel LSPC法を行った結果、87.7±3.17パーセントの精度において、白血病の種類は3つのクラスC1~C3に分類されている。
 図5の本実施形態の統合データ解析IA1の解析精度と、2つに分散された学習データのうち一方のデータを用いたKernel LSPC法の解析精度とを比較すると、本実施形態の統合データ解析IA1の方が解析精度の方が、2つに分散された学習データのうち一方のみのデータを用いたKernel LSPC法の解析精度に比べて高いことがわかる。
 次に図8から図9を参照し、統合データ解析IAの結果の第2の具体例について説明する。以下の第2の具体例の説明において統合データ解析IAを統合データ解析IA2という。統合データ解析IA2では、複数種類の点の分布に基づいて空間をそれらの複数種類の点に対応する複数の領域に分ける問題を機械学習に基づいて解析する。
 この空間とは、10種類の特徴量を示す空間であり、空間の次元は10次元である。なお、図8から図9に示す例では、10種類の特徴量のうち8種類は、乱数を用いてランダムに値が設定されており、残りの2種類に対応する平面上において学習データや解析結果が示されている。
 機械学習とは、一例としてKernel LSPC法である。なお、機械学習としては、教師あり学習であればいずれの機械学習の手法が用いられてもよい。
 図8は、本実施形態に係る機械学習に用いられる正解データ、及び学習データの一例を示す図である。図8(A)は、正解データを示し、図8(B)、(C)、及び(D)は、学習データを示す。
 図8(A)では、平面が3つの領域に分けられており、平面を領域に分ける問題において正解となる領域の分け方を示している。図8(B)、(C)、及び(D)に示す学習データは、平面において3つの領域のいずれかに属する複数の点の分布が、正解となる領域の境界を示す閉曲線とともに示されている。ここで複数の点の分布は、属する領域に応じて異なる態様において示されている。複数の点の数は、図8(B)、(C)、及び(D)それぞれについて40個である。図8(B)、(C)、及び(D)に示す学習データは、分散している複数の解析対象データに対応する。
 図9は、本実施形態に係る統合データ解析IA2の結果の一例を示す図である。図9(A)、(B)、及び(C)は、図8(B)、(C)、及び(D)に示した複数の点の分布を、それぞれ学習データとして用いた場合の統合データ解析IA2の結果を示す。
 図9に示す解析結果を得るために、統合データ解析IA2では、データの抽象化のための第1関数として、一例としてカーネル版局所性保存射影が用いられている。ここでカーネル版局所性保存射影のカーネルには、ガウスカーネルを使用している。統合データ解析IA2では、アンカーデータ中間表現相互間の差を最小にする第2関数を算出するために、一例として特異値分解に基づく解法が用いられている。
 統合データ解析IA2の結果と比較するために、図10に、分散している学習データを、従来の標準規格化によって統合して用いた場合の解析結果を示す。図10では、図8(B)、(C)、及び(D)に示す学習データがデータの保持者間において共有されて、1組の学習データとして用いられて機械学習による解析が実行された場合の結果である。
 また、図11に、分散している学習データを個別に用いた場合の解析結果を示す。図11(A)、(B)、及び(C)は、図8(B)、(C)、及び(D)に示す学習データがそれぞれ個別に用いられて機械学習による解析が実行された場合の結果である。
 図9に示す統合データ解析IA2による解析結果と、図10に示す学習データを統合して用いた場合の解析結果と、図11に示す分散された学習データが個別に用いられた場合の解析結果を比較すると、統合データ解析IA2による解析結果は、分散された学習データが個別に用いられた場合の解析結果に比べて、分散された学習データがデータの保持者間において共有された場合の解析結果に近い。つまり統合データ解析IA2による解析結果では、分散された学習データが個別に用いられた場合の解析結果に比べて高い判定精度が得られている。
 次に図12を参照し、統合データ解析IAの結果の第3の具体例について説明する。以下の第3の具体例の説明において統合データ解析IAを統合データ解析IA3という。統合データ解析I3Aでは、手書き数字認識を機械学習に基づいて実行する。機械学習とは、一例としてKernel LSPC法である。なお、機械学習としては、教師あり学習であればいずれの機械学習の手法が用いられてもよい。
 図12は、本実施形態に係る統合データ解析IA3の結果の正確度の一例を示す図である。図12では、分散された学習データの数を1から50まで変化させた場合の解析結果の正確度を示すグラフGR1、グラフGR10、及びグラフGR20が示されている。グラフGR1は、統合データ解析IA3による解析結果を示す。グラフGR10、及びグラフGR20は、統合データ解析IA3との比較のための従来の解析による解析結果についてのグラフである。グラフGR10は、分散された学習データを統合し解析をおこなった場合の解析結果の正確度を示す。グラフGR20は、分散された学習データが個別に用いられた場合の解析結果の正確度を示す。グラフGR20に対応する解析では、学習に用いる分散された学習データの数自体は1つであり、分散された学習データのうち学習に用いるデータを変化させている。
 分散された学習データはそれぞれ、一例として100個のデータが組になっている。分散された学習データの数は、データを保持する機関の数に対応する。つまり、統合データ解析IA3では、データを保持する機関がそれぞれ100個のデータを保持している状況が想定されている。統合データ解析IA3では、MNIST(Modified National Institute of Standards and Technology)が、学習データとして用いられている。学習データは、縦及び横についてそれぞれ28画素から構成される画像の画素数に相当する784個の特徴量を含む。
 図12に示す解析結果を得るために、統合データ解析IA3では、データの抽象化のための第1関数として、一例としてカーネル版局所性保存射影が用いられている。ここでカーネル版局所性保存射影のカーネルには、ガウスカーネルを使用している。統合データ解析IA3では、アンカーデータ中間表現相互間の差を最小にする第2関数を算出するために、一例として特異値分解に基づく解法が用いられている。
 図12に示すように、グラフGR1が示す正確度は、グラフGR20が示す正確度よりも高く、グラフGR20が示す正確度に比べてグラフGR10が示す正確度に近い。つまり、つまり統合データ解析IA3による解析結果では、分散された学習データが個別に用いられた場合の解析結果に比べて高い判定精度が得られている。
[まとめ]
 以上に説明したように、本実施形態に係る分散データ統合装置2は、取得部20と、アンカーデータ変換部21と、算出部22と、解析対象データ変換部23とを備える。
 取得部20は、分散している複数の解析対象データ(この一例において、元データD1~Dn)の統合において共通に用いられるデータであるアンカーデータADが第1関数f1~fnによって変換されて得られる中間表現であるアンカーデータ中間表現AIR1~AIRn、及び解析対象データ(この一例において、元データD1~Dn)が第1関数f1~fnによって変換されて得られる中間表現である解析対象中間表現(この一例において、元データ中間表現IR1~IRn)を、解析対象データ(この一例において、元データD1~Dn)毎に取得する。
 この構成により、本実施形態に係る分散データ統合装置2では、中間表現をデータコラボレーション表現CRに変換できるため、分散されて保持される複数のデータについてデータを共有せずに統合解析を行うことができる。
 本実施形態において一例として扱った遺伝子発現データのような医療データでは、医療機関ごとに元データを共有することが、情報秘匿の観点から困難である。また、医療データ以外にも、製造業の企業の保持する各種の開発データは、統合解析の需要が高いものの、秘密保持の観点から元データの統合は困難である。情報秘匿以外の観点においても元データが巨大である場合にはデータを統合することが困難である。本実施形態に係る分散データ統合装置2による元データを共有しない統合データ解析IAは、医療機関や製造業など様々な分野における応用が期待される。
 また、上述したように、従来、分散されたデータが秘匿情報を含む場合に、秘匿情報を削除し標準規格化を用いて、元データを統合して解析する方法がある。
 従来の標準規格化を用いた分散データの統合解析では、解析対象を考慮し必要なデータの標準規格を制定する必要がある。標準規格を制定することは、元データの種類が多い場合や解析目的が多岐に渡る場合に困難となる。また、将来、元データの種類が増加したり、新たな解析目的が生じたりすることが予想され、標準規格を制定することはますます困難となる。
 従来の標準規格化を用いた分散データの統合解析では、分散データの保持者の全てが、予め制定された標準規格に基づいて元のデータを変換する必要がある。標準規格の制定、及び元のデータの変換に伴うコストは、元データの種類や、ビッグデータなど元のデータのサイズが増加するにつれ甚大となる。
 本実施形態に係る分散データ統合装置2では、分散データの保持者がそれぞれ独自の抽象化によって変化した中間表現をデータコラボレーション表現CRに変換できるため、予め標準規格を制定することや、元データを標準規格に変換することに伴うコストを減らすことができる。
 また、本実施形態に係る分散データ統合装置2では、第1関数f1~fnは、データを抽象化する関数である。
 この構成により、本実施形態に係る分散データ統合装置2では、分散されて保持される元データを抽象化できるため、分散されて保持される複数のデータについて抽象化を用いてデータを共有せずに統合解析を行うことができる。
 また、本実施形態に係る分散データ統合装置2では、アンカーデータADに含まれる属性には、複数の解析対象データ(この一例において、元データD1~Dn)に含まれる属性の全てが含まれる。
 この構成により、本実施形態に係る分散データ統合装置2では、アンカーデータADに含まれる属性に複数の解析対象データ(この一例において、元データD1~Dn)に含まれる属性の全てが含まれない場合に比べて統合データ解析IAの精度を高くすることができる。
 なお、上述した実施形態における分散データ統合装置2の一部、例えば、取得部20、アンカーデータ変換部21、算出部22、及び解析対象データ変換部23をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、取得部20に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
 また、上述した実施形態における分散データ統合装置2の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。分散データ統合装置2の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
 以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
SS…統合データ解析システム、1-1~1-n…サーバ、2…分散データ統合装置、20…取得部、21…アンカーデータ変換部、22…算出部、23…解析対象データ変換部、3…解析装置、D1~Dn…元データ、AD…アンカーデータ、f1~fn…第1関数、g1~gn…第2関数、IR1~IRn…元データ中間表現、AIR1~AIRn…アンカーデータ中間表現

Claims (5)

  1.  分散している複数の解析対象データの統合において共通に用いられるデータであるアンカーデータが第1関数によって変換されて得られる中間表現であるアンカーデータ中間表現、及び前記解析対象データが前記第1関数によって変換されて得られる中間表現である解析対象中間表現を、前記解析対象データ毎に取得する取得部と、
     前記取得部によって取得された前記複数の前記アンカーデータ中間表現を第2関数によって前記解析対象データ毎に変換するアンカーデータ変換部と、
     前記アンカーデータ変換部によって変換された前記アンカーデータ中間表現相互間の差を最小にする前記解析対象データ毎の前記第2関数を算出する算出部と、
     前記取得部によって取得された前記解析対象中間表現を、前記算出部によって算出された前記第2関数によって前記解析対象データ毎に変換する解析対象データ変換部と、
     を備える分散データ統合装置。
  2.  前記第1関数は、データを抽象化する関数である
     請求項1に記載の分散データ統合装置。
  3.  前記アンカーデータに含まれる属性には、前記複数の前記解析対象データに含まれる属性の全てが含まれる
     請求項1または請求項2に記載の分散データ統合装置。
  4.  分散している複数の解析対象データの統合において共通に用いられるデータであるアンカーデータが第1関数によって変換されて得られる中間表現であるアンカーデータ中間表現、及び前記解析対象データが前記第1関数によって変換されて得られる中間表現である解析対象中間表現を、前記解析対象データ毎に取得する取得過程と、
     前記取得過程によって取得された前記複数の前記アンカーデータ中間表現を第2関数によって前記解析対象データ毎に変換するアンカーデータ変換過程と、
     前記アンカーデータ変換過程によって変換された前記アンカーデータ中間表現相互間の差を最小にする前記解析対象データ毎の前記第2関数を算出する算出過程と、
     前記取得過程によって取得された前記解析対象中間表現を、前記算出過程によって算出された前記第2関数によって前記解析対象データ毎に変換する解析対象データ変換過程と
     を有する分散データ統合方法。
  5.  コンピュータに、
     分散している複数の解析対象データの統合において共通に用いられるデータであるアンカーデータが第1関数によって変換されて得られる中間表現であるアンカーデータ中間表現、及び前記解析対象データが前記第1関数によって変換されて得られる中間表現である解析対象中間表現を、前記解析対象データ毎に取得する取得ステップと、
     前記取得ステップによって取得された前記複数の前記アンカーデータ中間表現を第2関数によって前記解析対象データ毎に変換するアンカーデータ変換ステップと、
     前記アンカーデータ変換ステップによって変換された前記アンカーデータ中間表現相互間の差を最小にする前記解析対象データ毎の前記第2関数を算出する算出ステップと、
     前記取得ステップによって取得された前記解析対象中間表現を、前記算出ステップによって算出された前記第2関数によって前記解析対象データ毎に変換する解析対象データ変換ステップと
     を実行させるためのプログラム。
PCT/JP2019/049551 2018-12-26 2019-12-18 分散データ統合装置、分散データ統合方法、及びプログラム WO2020137728A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/309,845 US11934558B2 (en) 2018-12-26 2019-12-18 Distributed data integration device, distributed data integration method, and program
JP2020563129A JP7209378B2 (ja) 2018-12-26 2019-12-18 分散データ統合装置、分散データ統合解析装置、分散データ統合方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-243376 2018-12-26
JP2018243376 2018-12-26

Publications (1)

Publication Number Publication Date
WO2020137728A1 true WO2020137728A1 (ja) 2020-07-02

Family

ID=71126298

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/049551 WO2020137728A1 (ja) 2018-12-26 2019-12-18 分散データ統合装置、分散データ統合方法、及びプログラム

Country Status (3)

Country Link
US (1) US11934558B2 (ja)
JP (1) JP7209378B2 (ja)
WO (1) WO2020137728A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014010202A1 (ja) * 2012-07-12 2014-01-16 日本電気株式会社 暗号化統計処理システム、復号システム、鍵生成装置、プロキシ装置、暗号化統計データ生成装置、暗号化統計処理方法、および、暗号化統計処理プログラム
JP2016027391A (ja) * 2014-06-25 2016-02-18 公立大学法人広島市立大学 秘匿ベクトル内積計算システム、データ処理装置、秘匿ベクトル内積計算方法、秘匿ベクトル内積プログラム、および、記録媒体
WO2018124104A1 (ja) * 2016-12-26 2018-07-05 国立大学法人大阪大学 データ解析方法およびデータ解析システム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030210820A1 (en) * 2002-05-07 2003-11-13 Rainer Lachner Method and device for localizing a structure in a measured data set
JP2006086568A (ja) * 2004-09-14 2006-03-30 Sony Corp 情報処理方法、復号処理方法、および情報処理装置、並びにコンピュータ・プログラム
US20090018407A1 (en) * 2007-03-30 2009-01-15 Searete Llc, A Limited Corporation Of The State Of Delaware Computational user-health testing
JP5844715B2 (ja) 2012-11-07 2016-01-20 学校法人沖縄科学技術大学院大学学園 データ通信システム、データ解析装置、データ通信方法、および、プログラム
US10956603B2 (en) * 2016-04-07 2021-03-23 Samsung Electronics Co., Ltd. Private dataaggregation framework for untrusted servers
CN109716345B (zh) * 2016-04-29 2023-09-15 普威达有限公司 计算机实现的隐私工程系统和方法
US10037437B1 (en) * 2017-06-09 2018-07-31 Microsoft Technology Licensing, Llc Identifying cohorts with anomalous confidential data submissions using matrix factorization and completion techniques
US10262154B1 (en) * 2017-06-09 2019-04-16 Microsoft Technology Licensing, Llc Computerized matrix factorization and completion to infer median/mean confidential values
WO2019207176A1 (es) * 2018-04-25 2019-10-31 Seddi, Inc. Modelado de dinámica de tejido blando no lineal para avatares interactivos
KR102035796B1 (ko) * 2018-07-26 2019-10-24 주식회사 딥핑소스 데이터를 비식별 처리하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014010202A1 (ja) * 2012-07-12 2014-01-16 日本電気株式会社 暗号化統計処理システム、復号システム、鍵生成装置、プロキシ装置、暗号化統計データ生成装置、暗号化統計処理方法、および、暗号化統計処理プログラム
JP2016027391A (ja) * 2014-06-25 2016-02-18 公立大学法人広島市立大学 秘匿ベクトル内積計算システム、データ処理装置、秘匿ベクトル内積計算方法、秘匿ベクトル内積プログラム、および、記録媒体
WO2018124104A1 (ja) * 2016-12-26 2018-07-05 国立大学法人大阪大学 データ解析方法およびデータ解析システム

Also Published As

Publication number Publication date
JPWO2020137728A1 (ja) 2021-11-18
US20220075898A1 (en) 2022-03-10
JP7209378B2 (ja) 2023-01-20
US11934558B2 (en) 2024-03-19

Similar Documents

Publication Publication Date Title
Guendel et al. Learning to recognize abnormalities in chest x-rays with location-aware dense networks
Nath et al. Automated image splicing detection using deep CNN-learned features and ANN-based classifier
Heckel et al. Dimensionality-reduced subspace clustering
Shen et al. Identity management based on PCA and SVM
US20230016044A1 (en) Techniques for creating and utilizing multidimensional embedding spaces
Lötsch et al. Optimal distribution-preserving downsampling of large biomedical data sets (opdisDownsampling)
WO2022055964A1 (en) Generating realistic counterfactuals with residual generative adversarial nets
Loperfido Finite mixtures, projection pursuit and tensor rank: a triangulation
Chattopadhyay et al. Robustness against adversarial attacks using dimensionality
Chamoso et al. Social computing for image matching
Khan et al. scAEGAN: Unification of single-cell genomics data by adversarial learning of latent space correspondences
Eshraghi et al. COV-MobNets: a mobile networks ensemble model for diagnosis of COVID-19 based on chest X-ray images
WO2020137728A1 (ja) 分散データ統合装置、分散データ統合方法、及びプログラム
Hill et al. Moment condition tests for heavy tailed time series
Omranpour et al. A heuristic supervised Euclidean data difference dimension reduction for KNN classifier and its application to visual place classification
Anibal et al. HAL-X: Scalable hierarchical clustering for rapid and tunable single-cell analysis
Diaz-Diaz et al. Mathematical modeling of local balance in signed networks and its applications to global international analysis
Milosavljević et al. Fuzzy methaheuristic model for copy-move forgery detection on images
Wang et al. Using multivariate mixed-effects selection models for analyzing batch-processed proteomics data with non-ignorable missingness
Mishra et al. Performance analysis of dimensionality reduction techniques: a comprehensive review
Spurek et al. Non-linear ica based on cramer-wold metric
Nugroho An aggregate method for thorax diseases classification
Kitazono et al. t-Distributed stochastic neighbor embedding with inhomogeneous degrees of freedom
González et al. A Comparative Study on Discrete Shmaliy Moments and Their Texture‐Based Applications
Lee et al. Application of mixture models to large datasets

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19901797

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020563129

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19901797

Country of ref document: EP

Kind code of ref document: A1