WO2020011200A1 - 跨域数据融合方法、系统以及存储介质 - Google Patents

跨域数据融合方法、系统以及存储介质 Download PDF

Info

Publication number
WO2020011200A1
WO2020011200A1 PCT/CN2019/095429 CN2019095429W WO2020011200A1 WO 2020011200 A1 WO2020011200 A1 WO 2020011200A1 CN 2019095429 W CN2019095429 W CN 2019095429W WO 2020011200 A1 WO2020011200 A1 WO 2020011200A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
feature
domain
data
information
Prior art date
Application number
PCT/CN2019/095429
Other languages
English (en)
French (fr)
Inventor
张钧波
郑宇�
梁宇轩
Original Assignee
京东数字科技控股有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京东数字科技控股有限公司 filed Critical 京东数字科技控股有限公司
Publication of WO2020011200A1 publication Critical patent/WO2020011200A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Definitions

  • the present disclosure relates to the field of data mining technology, and in particular, to a cross-domain data fusion method, system, and storage medium. Background technique
  • the inventors of the present disclosure found that the technical solution of cross-domain data fusion in the related art mentioned above has defects: the user key can be obtained by using the ciphertext of the user key to obtain the user key, causing the user's knowledge in various fields and even the original feature information to be leaked.
  • One or more embodiments of the present disclosure provide a cross-domain data fusion method, including: obtaining user feature information corresponding to user keyword information stored by a data source in a data domain; and based on a feature conversion model, The feature information is converted into hidden feature information; the user keyword information is encrypted multiple times according to a preset encryption rule; the user keyword information ciphertext is merged with the hidden feature information to generate the data Domain user fusion characteristics of the domain; Fusion processing is performed on the domain user fusion characteristics of multiple data domains according to the user keyword information ciphertext to obtain cross-domain user fusion characteristics.
  • the obtaining user characteristic information corresponding to a user keyword stored in a data source in a data domain includes: generating a query SQL statement according to the user keyword information and according to a preset association mapping rule; The query SQL statement is sent to the data source for execution, and is used to obtain the user characteristic information.
  • the encrypting the user keyword information based on a preset encryption rule includes: using a first encryption algorithm to encrypt the user keyword for the first time; using a second encryption algorithm to encrypt the first The ciphertext data encrypted once is subjected to secondary encryption to obtain the user keyword information ciphertext; wherein the first encryption algorithm includes: an MD5 algorithm; and the second encryption algorithm includes an AES algorithm.
  • the feature-based conversion model converting the user feature information into the hidden feature information includes: using the initial user feature information and the initial hidden feature information provided in advance as training samples; using a deep learning method and Training a preset deep learning model based on the training sample to obtain the feature conversion model; updating the preset deep learning model to the feature conversion model, and entering the user feature information into the feature The model is converted to obtain the implicit characteristic information corresponding to the user characteristic information.
  • the training the preset deep learning model includes: using the initial user feature information as input feature data, and using the initial hidden feature information corresponding to the initial user feature information As an initial prediction result; train the preset deep learning model based on the input feature data and the initial prediction result.
  • the user feature information includes multiple feature parameters, and the number of the feature conversion models is multiple.
  • the obtaining the implicit feature information corresponding to the user feature information includes: At least one of the plurality of feature parameters is input to each of the feature conversion models to obtain a plurality of the implicit feature information.
  • the feature conversion model includes: a three-layer neuron model; the three-layer neuron model includes: an input layer neuron model, an intermediate layer neuron model, and an output layer neuron model; each layer of neurons The output of the model is used as the input of the neuron model of the next layer; wherein the neuron of the neuron model of the input layer corresponds to at least one of the plurality of feature parameters, and the neuron of the neuron model of the output layer The element corresponds to the implicit characteristic information.
  • the three-layer neuron model is a sub-network structure of a plurality of neural network layers having a fully-connected structure; wherein the middle-layer neuron model is a fully-connected layer.
  • the implicit feature information is a multi-dimensional digital vector; wherein the fusion processing is performed on the user keyword ciphertext and the implicit feature information to generate a domain user fusion feature of the data domain.
  • the method includes: obtaining a plurality of multi-dimensional digital vectors output by a plurality of the feature conversion models; combining the user keyword information ciphertext with the plurality of multi-dimensional vectors to generate a domain user fusion feature vector.
  • the performing fusion processing on domain user fusion features of multiple data domains according to the user keyword information ciphertext to obtain cross-domain user fusion features includes: obtaining a ciphertext phase with the user keyword information Domain user fusion feature vectors of the corresponding multiple data domains; and merge the domain user fusion feature vectors of the multiple data domains To generate cross-domain user fusion feature vectors.
  • a cross-domain data fusion system including: an original information acquisition module, configured to obtain user feature information corresponding to user keyword information stored by a data source in a data domain; an implicit feature A generating module configured to convert the characteristic information with the user into hidden characteristic information based on a feature conversion model; a keyword encryption module configured to perform multiple encryption processes on the user keyword information according to a preset encryption rule; a domain A data fusion module is configured to perform fusion processing on user keyword information ciphertext and the hidden feature information to generate a domain user fusion feature of the data domain; a cross-domain data fusion module is configured to use the user keyword information according to the user keyword information The ciphertext performs fusion processing on domain user fusion features of multiple data domains to obtain cross-domain user fusion features.
  • the original information obtaining module is configured to generate a query SQL statement according to the user keyword information and according to a preset association mapping rule; send the query SQL statement to the data source for execution, To obtain the user characteristic information.
  • the keyword encryption module is configured to use a first encryption algorithm to encrypt the user keywords for the first time; and use a second encryption algorithm to perform the first encryption of the ciphertext data twice. Encrypting to obtain the ciphertext of the user keyword information; wherein the first encryption algorithm includes: an MD5 algorithm; and the second encryption algorithm includes: an AES algorithm.
  • the hidden feature generation module includes: a model training unit, configured to use previously provided initial user feature information and initial hidden feature information as training samples; using a deep learning method and based on the training samples Training a preset deep learning model to obtain the feature conversion model; a feature generation unit, configured to update the preset deep learning model to the feature conversion model, by inputting the user feature information into the feature The feature conversion model obtains the implicit feature information corresponding to the user feature information.
  • the model training unit is configured to use the initial user feature information as input feature data, and use the initial hidden feature information corresponding to the initial user feature information as an initial prediction result; based on The input feature data and the initial prediction result train the preset deep learning model.
  • the user feature information includes multiple feature parameters, and the number of feature conversion models is multiple; wherein the feature generation unit is configured to convert at least one feature of the multiple feature parameters.
  • the parameters are input to each of the feature conversion models to obtain a plurality of the hidden feature information.
  • the feature conversion model includes: a three-layer neuron model; the three-layer neuron model includes: an input layer neuron model, an intermediate layer neuron model, and an output layer neuron model; each layer of neurons The output of the model is used as the input of the neuron model of the next layer; wherein the neuron of the neuron model of the input layer corresponds to at least one of the plurality of feature parameters, and the neuron of the neuron model of the output layer Element and the implicit characteristic information Corresponding.
  • the three-layer neuron model is a sub-network structure of a plurality of neural network layers having a fully-connected structure; wherein the intermediate-layer neuron model is a fully-connected layer.
  • the hidden feature information is a multi-dimensional digital vector
  • the domain data fusion module is configured to obtain a plurality of multi-dimensional digital vectors output by a plurality of the feature conversion models
  • the text is merged with the multiple multi-dimensional vectors to generate a domain user fusion feature vector.
  • the cross-domain data fusion module is configured to obtain domain user fusion feature vectors of multiple data domains corresponding to the ciphertext of the user keyword information; and combine domain users of the multiple data domains.
  • the fusion feature vector is merged to generate a cross-domain user fusion feature vector.
  • a cross-domain data fusion system including: a memory; and a processor coupled to the memory, the processor being configured to execute based on instructions stored in the memory. The method described above.
  • a computer-readable storage medium stores computer instructions, and the instructions are executed by a processor to execute the method as described above.
  • the feature information of the user is converted into the hidden feature information, the user keyword information is encrypted for multiple times, and the user keyword information ciphertext and the hidden feature information are merged to generate a domain user fusion feature.
  • Fusion processing of domain user fusion features in multiple data domains to obtain cross-domain user fusion features; avoid leakage of user original data due to user keyword leakage, convert user feature information into hidden feature information and perform fusion processing Improve the ability to represent the data summary characteristics of various fields, can improve the accuracy and security of data mining.
  • FIG. 1 is a schematic flowchart of some embodiments of a cross-domain data fusion method provided by the present disclosure
  • FIG. 2 is a schematic diagram of data fusion in some embodiments of the cross-domain data fusion method provided by the present disclosure
  • FIG. 3 is a schematic block diagram of some embodiments of the cross-domain data fusion system provided by the present disclosure
  • FIG. 4 is a block diagram of an implicit feature generation module in some embodiments of the cross-domain data fusion system provided by the present disclosure. Intention
  • FIG. 5 is a schematic block diagram of another embodiment of a cross-domain data fusion system provided by the present disclosure. detailed description
  • the technical solution of the related technology has defects: For related cross-domain data fusion technologies, first, the user's feature fusion is performed in different storage sources, and then the user's Key (primary key) correspondence will be used to bring the All features are further fused, and finally the user's summary cross-domain features on multiple storage locations are obtained. Data in different areas of the user are privacy-sensitive. Once the encryption method of the user key is leaked, the attacker can use the cipher text of the user key to get the user key back, resulting in the leakage of the user's knowledge in various fields and even the original feature information, and various storage places. The output is composed of the user Key ciphertext and low-level original feature fusion, and the security is low.
  • FIG. 1 is a schematic flowchart of some embodiments of a cross-domain data fusion method provided in the present disclosure, as shown in FIG. 1: Step 101: Obtain user feature information corresponding to user keyword information stored by a data source in a data domain.
  • the data domain is also called the data domain, and the data domain can be divided by various rules. For example, the data domain can be divided according to different e-commerce systems, or the data domain can be divided according to the storage location of the data.
  • User keyword information can be ID number, mobile phone number, QQ number, bank account number, etc.
  • User characteristic information can be height, weight, age, salary, etc., or quantity of purchased goods, credit information, salary, consumption frequency, etc. information. The user can be pictured based on the user characteristic information, the user's consumption habits can be obtained, etc., and can be used to classify users, push advertisements, etc.
  • Step 102 Based on the feature conversion model, the feature information of the user is converted into hidden feature information.
  • the feature conversion model can be a variety of models, such as machine learning models.
  • the hidden feature information can be multiple, such as a vector.
  • the hidden feature information can be identified by the machine, but it is difficult to identify it manually.
  • Step 103 The user keyword information is encrypted for multiple times according to a preset encryption rule, which may be secondary or tertiary encryption.
  • Step 104 Fusion processing the ciphertext of the user keyword information and the hidden feature information to generate a domain user fusion feature in the data domain.
  • the domain user fusion feature may be a multi-dimensional vector or the like.
  • Step 105 Fusion processing the domain user fusion features of multiple data domains according to the ciphertext of the user keyword information to obtain cross-domain user fusion features.
  • the cross-domain user fusion features may be multi-dimensional vectors and the like.
  • a query SQL statement is generated according to user keyword information and according to a preset association mapping rule, and the query SQL statement is sent to a data source for execution, so as to obtain user characteristic information.
  • the user keyword information is an ID number
  • the data table and field to be retrieved are determined according to the data table of the database and the association mapping rule between the field and the ID number
  • a query SQL statement is generated based on the determined data table and field. The statement is sent to the database for execution, and is used to obtain the user characteristic information such as height, weight, age, and salary.
  • the user keyword information is encrypted multiple times.
  • the first encryption algorithm is used to encrypt the user keywords for the first time
  • the second encryption algorithm is used to encrypt the ciphertext data after the first encryption to obtain the user keyword information ciphertext.
  • the first encryption algorithm includes the MD5 algorithm and the like
  • the second encryption algorithm includes the AES algorithm and the like.
  • initial user feature information and initial hidden feature information provided in advance are used as training samples, and a deep learning method is used to train a preset deep learning model based on the training samples to obtain a feature conversion model.
  • the preset deep learning model is updated to a feature conversion model, and by inputting user feature information into the feature conversion model, implicit feature information corresponding to the user feature information is obtained.
  • the initial user feature information can be used as input feature data
  • the initial hidden feature information corresponding to the initial user feature information can be used as the initial prediction result
  • a preset deep learning model is trained based on the input feature data and the initial prediction result.
  • the user characteristic information includes multiple characteristic parameters, and the characteristic parameters may be height, weight, age, salary, monthly consumption amount, and the like.
  • the number of feature conversion models is multiple, and at least one feature parameter among the plurality of feature parameters is input to each feature conversion model to obtain a plurality of hidden feature information. For example, height, weight, and age are entered into a feature conversion model to obtain an implicit feature information, and salary and monthly consumption are entered into another feature conversion model to obtain another implicit feature information.
  • Deep learning models include CNN, DBN, RNN, RNTN, autoencoder, GAN, etc.
  • the feature conversion model includes a three-layer neuron model; the three-layer neuron model includes: an input-layer neuron model, an intermediate-layer neuron model, and an output-layer neuron model, and the output of each layer of the neuron model is used as the next-layer neuron model.
  • the neurons of the input layer neuron model correspond to at least one of the plurality of feature parameters, and the neurons of the output layer neuron model correspond to the implicit feature information.
  • the three-layer neuron model is a sub-network structure of multiple neural network layers with a fully-connected structure, and the middle-layer neuron model is a fully-connected layer.
  • the hidden feature information may be a multi-dimensional digital vector. Multiple multi-dimensional digital vectors output by multiple feature conversion models are obtained, and the user keyword information ciphertext is combined with multiple multi-dimensional vectors to generate a domain user fusion feature vector. The domain user fusion feature vectors of multiple data domains corresponding to the ciphertext of the user keyword information are acquired, and the domain user fusion feature vectors of multiple data domains are combined to generate a cross-domain user fusion feature vector.
  • FIG. 2 is a schematic diagram of data fusion in some embodiments of the cross-domain data fusion method provided by the present disclosure.
  • data in various fields are stored in different storage sources.
  • the storage sources are isolated from each other, and the security of data is strictly guaranteed.
  • the data source in data domain A is stored in location A
  • the data source in data domain B is stored in location B.
  • Data fusion from different storage sources needs to be matched using the user's Key (keywords).
  • the ciphertext encrypted by the user's key is used for matching.
  • the attacker can easily obtain the original characteristics of the user in each storage source by restoring the user key.
  • the single-domain feature fusion performed in each storage source only fuses some low-order original features, and does not learn the high-order representation, which greatly limits the ability to represent knowledge in this domain. Take data field A as an example for description. Data field B is processed in the same way as data field A.
  • the secondary encryption of the user key and secondary encryption of the user key in data domain A can be used to ensure the irreversibility of the encryption algorithm.
  • the ciphertext obtained after the secondary encryption of the user key is EK .
  • An index is performed in the database of the data domain A according to the user Key, and all original features corresponding to the user are obtained, denoted as A x , A ⁇ A P.
  • the user Key is the user ’s mobile phone number, and the user ’s mobile phone number is two.
  • the secondary encryption can use the MD5 algorithm and the AES encryption algorithm to perform secondary encryption on the user's mobile phone number in the data domain A to ensure the irreversibility of the encryption algorithm.
  • the secondary encrypted ciphertext of the user's mobile phone number is EK.
  • the user's mobile phone number it is indexed in the database of data domain A to obtain all the original characteristics corresponding to the user, which can be age, position, salary, working life, etc.
  • a specific combination of all original feature ages, positions, wages, etc. of the user is used as input of different feature conversion modules to obtain higher-order hidden features with stronger representation capabilities. Not only can it enhance the ability to represent features in a single domain, but because the feature learning module is irreversible, it is not possible to obtain the original features of the user through the high-order implicit features HA1 to HAm, so there is no risk of leakage of the original data.
  • the number of feature conversion modules is two.
  • the features input by the first feature conversion module are age and position combination, and the features input by the second feature conversion module are salary and work period combinations.
  • the first hidden feature output by the first feature conversion module is a first vector ⁇ 05, 25, 34 ⁇
  • the second hidden feature output by the second feature conversion module is a second vector ⁇ 08, 35, 45 ⁇ .
  • the user Key ciphertext EK is fused with all higher-order hidden features obtained in the data domain A to generate a domain user fusion feature vector ⁇ EN, 05, 25, 34, 08, 35, 45 ⁇ .
  • a domain user fusion feature vector ⁇ EN, 11, 20, 15, 30 ⁇ for this user for data domain B is generated.
  • domain user fusion feature vectors of multiple data domains corresponding to EN are obtained, and two domain user fusion feature vectors with EN elements are merged to generate a domain user fusion feature vector ⁇ EN , 05, 25, 34, 08, 35, 45, 11, 20, 15, 30 ⁇ .
  • the domain user fusion feature vector and the domain user fusion feature vector can be identified by the machine.
  • the above-mentioned cross-domain data fusion method can ensure that when the user key is leaked, the attacker cannot obtain the user's original feature information by reversing the user key, and can also perform high-level hidden feature extraction and Convergence, increase security.
  • the present disclosure provides a cross-domain data fusion system 30, including: an original information acquisition module 31, an implicit feature generation module 32, a keyword encryption module 33, and a domain data fusion module 34. And cross-domain data fusion module 35.
  • the original information obtaining module 31 obtains user characteristic information corresponding to user keyword information stored by a data source in a data domain.
  • the hidden feature generation module 32 converts the feature information of the user with the hidden feature information based on the feature conversion model.
  • the keyword encryption module 33 performs multiple times of encryption processing on user keyword information according to a preset encryption rule.
  • the domain data fusion module 34 performs fusion processing on the ciphertext of the user keyword information and the hidden feature information to generate a domain user fusion feature of the data domain.
  • the cross-domain data fusion module 35 performs fusion processing on the domain user fusion features of multiple data domains according to the ciphertext of the user keyword information to obtain cross-domain user fusion features.
  • the original information acquisition module 31 generates a query SQL statement according to the user keyword information and according to a preset association mapping rule, and sends the query SQL statement to a data source for execution to obtain user characteristic information.
  • the keyword encryption module 33 uses a first encryption algorithm to encrypt the user keywords for the first time; and uses a second encryption algorithm to encrypt the ciphertext data after the first encryption to obtain the user keyword information ciphertext.
  • the first encryption algorithm includes the MD5 algorithm and the like
  • the second encryption algorithm includes the AES algorithm and the like.
  • the hidden feature generation module 32 includes a model training unit 321 and a feature generation unit 322.
  • the model training unit 321 uses initial user feature information and initial hidden feature information provided in advance as training samples, uses a deep learning method and trains a preset deep learning model based on the training samples to obtain a feature conversion model.
  • the feature generation unit 322 updates a preset deep learning model into a feature conversion model, and inputs user feature information into features The model is transformed to obtain the implicit feature information corresponding to the user feature information.
  • the model training unit 321 uses initial user feature information as input feature data, and uses initial hidden feature information corresponding to the initial user feature information as initial prediction results, and trains a preset deep learning model based on the input feature data and the initial prediction results .
  • the user feature information includes multiple feature parameters, and the number of feature conversion models is multiple.
  • the feature generation unit 322 inputs at least one feature parameter of a plurality of feature parameters into each feature conversion model to obtain a plurality of hidden feature information.
  • the implicit characteristic information is a multi-dimensional digital vector.
  • the domain data fusion module 34 obtains multiple multi-dimensional digital vectors output from multiple feature conversion models, combines the user keyword information ciphertext with multiple multi-dimensional vectors, and generates a domain user fusion feature vector.
  • the cross-domain data fusion module 35 obtains domain user fusion feature vectors of multiple data domains corresponding to the ciphertext of the user keyword information, and combines the domain user fusion feature vectors of multiple data domains to generate a cross-domain user fusion feature vector. .
  • FIG. 5 is a schematic block diagram of another embodiment of a cross-domain data fusion system provided by the present disclosure.
  • the device may include a memory 51, a processor 52, a communication interface 53, and a bus 54.
  • the memory 51 is configured to store instructions
  • the processor 52 is coupled to the memory 51.
  • the processor 52 is configured to execute the above-mentioned cross-domain data fusion method based on the instructions stored in the memory 51.
  • the memory 51 may be a high-speed RAM memory, a non-volatile memory (non-volatile memory), or the like, and the memory 51 may also be a memory array.
  • the memory 51 may also be divided into blocks, and the blocks may be combined into a virtual volume according to a certain rule.
  • the processor 52 may be a central processing unit CPU, or an application specific integrated circuit (ASIC), or one or more integrated circuits configured to implement the cross-domain data fusion method of the present disclosure.
  • the present disclosure also provides a computer-readable storage medium, wherein the computer-readable storage medium stores computer instructions, and when the instructions are executed by a processor, the cross-domain data fusion method according to any of the foregoing embodiments is implemented.
  • the embodiments of the present disclosure may be provided as a method, an apparatus, or a computer program product. Therefore, the present disclosure may take the form of an entirely hardware embodiment, an entirely software embodiment, or an embodiment combining software and hardware aspects.
  • the present disclosure may take the form of a computer program product implemented on one or more computer-usable non-transitory storage media (including but not limited to disk storage, CD-ROM, optical storage, etc.) containing computer-usable program code therein. .

Abstract

一种跨域数据融合方法、系统以及存储介质,涉及数据挖掘技术领域,其中方法包括:获得数据域中的数据源存储的与用户关键词信息相对应的用户特征信息(101),基于特征转换模型将与用户特征信息转换为隐含特征信息(102),根据预设的加密规则对用户关键词信息进行加密处理(103),对用户关键词信息密文与隐含特征信息进行融合处理,生成所述数据域的域用户融合特征(104),根据用户关键词信息密文对多个数据域的域用户融合特征进行融合处理,获得跨域用户融合特征(105)。上述跨域数据融合方法、系统以及存储介质,可以避免由于用户关键词泄露导致的用户原始数据泄露,将用户特征信息转换为隐含特征信息并进行融合处理,提高了对于各个领域数据汇总特征的表示能力,能够提升数据挖掘准确度和安全性。

Description

跨域数据融合方法、 系统以及存储介质
相关申请的交叉引用
本申请是以 CN申请号为 201810766536. 2,申请日为 2018年 7月 13日的申请为基础, 并主张其优先权, 该 CN申请的公开内容在此作为整体引入本申请中。 技术领域
本公开涉及数据挖掘技术领域,尤其涉及一种跨域数据融合方法、系统以及存储介质。 背景技术
传统数据挖掘通常处理的是来自单一数据域的数据, 把将同一领域的多个数据集合 并成具有一致数据模式的数据库。 而在大数据时代背景下, 经常面临着来自不同领域、 不同来源的各类数据, 这些数据往往由多种形式组成, 每种形式都有着不同的表示、 分 布、 规模以及密度。 来自不同领域的多个数据集通过潜在对象进行了隐式连接, 例如, 一个用户的电商平台交易数据, 个人信用记录和人口统计特性描述了该用户的潜在消费 能力。 发明内容
本公开的发明人发现上述相关技术中的的跨域数据融合的技术方案存在缺陷: 可以 利用用户 Key的密文反推得到用户 Key, 造成用户各领域知识甚至原始特征信息的泄露。
本公开的一个或多个实施例提供一种跨域数据融合方法, 包括: 获得数据域中的数据 源存储的与用户关键词信息相对应的用户特征信息;基于特征转换模型将与所述用户特征 信息转换为隐含特征信息; 根据预设的加密规则对所述用户关键词信息进行多次加密处 理; 对用户关键词信息密文与所述隐含特征信息进行融合处理, 生成所述数据域的域用户 融合特征; 根据所述用户关键词信息密文对多个数据域的域用户融合特征进行融合处理, 获得跨域用户融合特征。
在一些实施例中,所述获得数据域中的数据源存储的与用户关键词相对应的用户特征 信息包括: 根据所述用户关键词信息并按照预设的关联映射规则生成查询 SQL语句; 将所 述查询 SQL语句发送到所述数据源中执行, 用以获取所述用户特征信息。 在一些实施例中, 所述基于预设的加密规则对所述用户关键词信息进行加密处理包 括: 采用第一加密算法将所述用户关键词进行第一次加密; 采用第二加密算法将第一次加 密后的密文数据进行二次加密, 获得所述用户关键词信息密文; 其中, 所述第一加密算法 包括: MD5算法; 所述第二加密算法包括: AES算法。
在一些实施例中, 所述基于特征转换模型将与所述用户特征信息转换为隐含特征信息 包括: 将预先提供的初始用户特征信息和初始隐含特征信息作为训练样本; 使用深度学习 方法并基于所述训练样本对预设的深度学习模型进行训练, 获得所述特征转换模型; 将所 述预设的深度学习模型更新为所述特征转换模型,通过将所述用户特征信息输入所述特征 转换模型, 获得与所述用户特征信息相对应的所述隐含特征信息。
在一些实施例中, 所述使对预设的深度学习模型进行训练包括: 将所述初始用户特征 信息作为输入特征数据, 将与所述初始用户特征信息相对应的所述初始隐含特征信息作为 初始预测结果; 基于所述输入特征数据和所述初始预测结果对所述预设的深度学习模型进 行训练。
在一些实施例中, 所述用户特征信息包括多个特征参数, 所述特征转换模型的数量为 多个; 所述获得与所述用户特征信息相对应的所述隐含特征信息包括: 将所述多个特征参 数中的至少一个特征参数输入各个所述特征转换模型, 获得多个所述隐含特征信息。
在一些实施例中, 所述特征转换模型包括: 三层神经元模型; 所述三层神经元模型包 括: 输入层神经元模型、 中间层神经元模型和输出层神经元模型; 每层神经元模型的输出 作为下一层神经元模型的输入; 其中, 所述输入层神经元模型的神经元与所述多个特征参 数中的至少一个特征参数相对应, 所述输出层神经元模型的神经元与所述隐含特征信息相 对应。
在一些实施例中, 所述三层神经元模型为具有全连接结构的多个神经网络层的子网络 结构; 其中, 所述中间层神经元模型为全连接层。
在一些实施例中, 所述隐含特征信息为多维数字向量; 其中, 所述对所述用户关键词 密文与所述隐含特征信息进行融合处理、 生成所述数据域的域用户融合特征包括: 获取多 个所述特征转换模型输出的多个多维数字向量; 将所述用户关键词信息密文与所述多个多 维向量进行合并处理, 生成域用户融合特征向量。
在一些实施例中, 所述根据所述用户关键词信息密文对多个数据域的域用户融合特征 进行融合处理、 获得跨域用户融合特征包括: 获取与所述用户关键词信息密文相对应的多 个数据域的域用户融合特征向量; 将所述多个数据域的域用户融合特征向量进行合并处 理, 生成跨域用户融合特征向量。
根据本公开的另一方面, 提供一种跨域数据融合系统, 包括: 原始信息获取模块, 用 于获得数据域中的数据源存储的与用户关键词信息相对应的用户特征信息; 隐含特征生成 模块, 用于基于特征转换模型将与所述用户特征信息转换为隐含特征信息; 关键词加密模 块,用于根据预设的加密规则对所述用户关键词信息进行多次加密处理;域数据融合模块, 用于对用户关键词信息密文与所述隐含特征信息进行融合处理,生成所述数据域的域用户 融合特征; 跨域数据融合模块, 用于根据所述用户关键词信息密文对多个数据域的域用户 融合特征进行融合处理, 获得跨域用户融合特征。
在一些实施例中, 所述原始信息获取模块, 用于根据所述用户关键词信息并按照预设 的关联映射规则生成查询 SQL语句; 将所述查询 SQL语句发送到所述数据源中执行, 用以 获取所述用户特征信息。
在一些实施例中, 所述关键词加密模块, 用于采用第一加密算法将所述用户关键词进 行第一次加密; 采用第二加密算法将第一次加密后的密文数据进行二次加密, 获得所述用 户关键词信息密文; 其中, 所述第一加密算法包括: MD5算法; 所述第二加密算法包括: AES算法。
在一些实施例中, 所述隐含特征生成模块, 包括: 模型训练单元, 用于将预先提供的 初始用户特征信息和初始隐含特征信息作为训练样本;使用深度学习方法并基于所述训练 样本对预设的深度学习模型进行训练, 获得所述特征转换模型; 特征生成单元, 用于将所 述预设的深度学习模型更新为所述特征转换模型,通过将所述用户特征信息输入所述特征 转换模型, 获得与所述用户特征信息相对应的所述隐含特征信息。
在一些实施例中, 所述模型训练单元, 用于将所述初始用户特征信息作为输入特征数 据, 将与所述初始用户特征信息相对应的所述初始隐含特征信息作为初始预测结果; 基于 所述输入特征数据和所述初始预测结果对所述预设的深度学习模型进行训练。
在一些实施例中, 所述用户特征信息包括多个特征参数, 所述特征转换模型的数量为 多个; 其中, 所述特征生成单元, 用于将所述多个特征参数中的至少一个特征参数输入各 个所述特征转换模型, 获得多个所述隐含特征信息。
在一些实施例中, 所述特征转换模型包括: 三层神经元模型; 所述三层神经元模型包 括: 输入层神经元模型、 中间层神经元模型和输出层神经元模型; 每层神经元模型的输出 作为下一层神经元模型的输入; 其中, 所述输入层神经元模型的神经元与所述多个特征参 数中的至少一个特征参数相对应,所述输出层神经元模型的神经元与所述隐含特征信息相 对应。
在一些实施例中,所述三层神经元模型为具有全连接结构的多个神经网络层的子网络 结构; 其中, 所述中间层神经元模型为全连接层。
在一些实施例中, 所述隐含特征信息为多维数字向量; 所述域数据融合模块, 用于获 取多个所述特征转换模型输出的多个多维数字向量;将所述用户关键词信息密文与所述多 个多维向量进行合并处理, 生成域用户融合特征向量。
在一些实施例中, 所述跨域数据融合模块, 用于获取与所述用户关键词信息密文相对 应的多个数据域的域用户融合特征向量;将所述多个数据域的域用户融合特征向量进行合 并处理, 生成跨域用户融合特征向量。
根据本公开的又一方面, 提供一种跨域数据融合系统, 包括: 存储器; 以及耦接至 所述存储器的处理器, 所述处理器被配置为基于存储在所述存储器中的指令, 执行如 上所述的方法。
根据本公开的再一方面, 提供一种计算机可读存储介质, 所述计算机可读存储介质存 储有计算机指令, 所述指令被处理器执行如上所述的方法。
应用本公开的技术方案, 将与用户特征信息转换为隐含特征信息, 对用户关键词信息 进行多次加密处理,对用户关键词信息密文与隐含特征信息进行融合处理生成域用户融合 特征, 对多个数据域的域用户融合特征进行融合处理, 获得跨域用户融合特征; 可以避免 由于用户关键词泄露导致的用户原始数据泄露,将用户特征信息转换为隐含特征信息并进 行融合处理, 提高了对于各个领域数据汇总特征的表示能力, 能够提升数据挖掘准确度和 安全性。 附图说明
为了更清楚地说明本公开实施例或相关技术中的技术方案,下面将对实施例或相关技 术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本公开 的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下, 还可以 根据这些附图获得其他的附图。
图 1为本公开提供的跨域数据融合方法的一些实施例的流程示意图;
图 2为本公开提供的跨域数据融合方法的一些实施例中的数据融合的示意图; 图 3为本公开提供的跨域数据融合系统的一些实施例的模块示意图;
图 4为本公开提供的跨域数据融合系统的一些实施例中的隐含特征生成模块的模块示 意图;
图 5为本公开提供的跨域数据融合系统的另一些实施例的模块示意图。 具体实施方式
下面将结合本公开实施例中的附图, 对本公开实施例中的技术方案进行清楚、完整地 描述, 显然, 所描述的实施例仅仅是本公开一部分实施例, 而不是全部的实施例。 基于本 公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实 施例, 都属于本公开保护的范围。
相关技术的技术方案存在缺陷:对于相关的跨域数据融合技术,首先在不同的存储源 当中分别进行用户的特征融合, 之后通过用户的 Key(主键) 的对应关系, 将来自多个存 储地方的所有特征进一步融合, 最后得到用户关于多个存储地方的汇总跨域特征。用户的 不同领域数据都是隐私敏感的, 一旦用户 Key的加密方式泄露, 攻击方可以利用用户 Key 的密文反推得到用户 Key, 造成用户各领域知识甚至原始特征信息的泄露, 并且各个存储 地方的输出是由用户 Key密文和低阶的原始特征融合组成, 安全性较低。
下文中的“第一” 、 “第二”等仅用于描述上相区别, 并没有其它特殊的含义。 图 1为本公开提供的跨域数据融合方法的一些实施例的流程示意图, 如图 1所示: 步骤 101, 获得数据域中的数据源存储的与用户关键词信息相对应的用户特征信息。 数据域也称为数据领域, 可以采用多种规则划分数据域, 例如可以根据不同的电商系统划 分数据域, 也可以根据数据的存储地点划分数据域等。
用户关键词信息可以为身份证号、手机号、 QQ号、银行账号等, 用户特征信息可以为 身高、 体重、 年龄、 工资等信息, 也可以为购买商品数量、 信用信息、 工资、 消费频率等 信息。 可以基于用户特征信息对用户进行画像, 获得用户的消费习惯等, 可用于对用户分 级, 推送广告等。
步骤 102, 基于特征转换模型将与用户特征信息转换为隐含特征信息。 特征转换模型 可以为多种模型, 例如机器学习模型等, 隐含特征信息可以为多种, 例如为一个向量, 隐 含特征信息可由机器识别而人工则识别困难。
步骤 103, 根据预设的加密规则对用户关键词信息进行多次加密处理, 可以为二次、 三次加密等。
步骤 104, 对用户关键词信息密文与隐含特征信息进行融合处理, 生成数据域的域用 户融合特征, 域用户融合特征可以为多维向量等。 步骤 105, 根据用户关键词信息密文对多个数据域的域用户融合特征进行融合处理, 获得跨域用户融合特征, 跨域用户融合特征可以为多维向量等。
在一些实施例中,获得数据域中的数据源存储的与用户关键词相对应的用户特征信息 可以有多种方法。例如, 根据用户关键词信息并按照预设的关联映射规则生成查询 SQL语 句, 将查询 SQL语句发送到数据源中执行, 用以获取用户特征信息。例如, 用户关键词信 息为身份证号,根据数据库的数据表以及字段与身份证号的关联映射规则确定需要检索的 数据表以及字段, 根据确定的数据表以及字段生成查询 SQL语句, 将查询 SQL语句发送到 数据库中执行, 用以获取身高、 体重、 年龄、 工资等信息用户特征信息。
加密规则可以为多种, 对用户关键词信息进行多次加密处理。例如, 采用第一加密算 法将用户关键词进行第一次加密,采用第二加密算法将第一次加密后的密文数据进行二次 加密, 获得用户关键词信息密文。 第一加密算法包括 MD5算法等, 第二加密算法包括 AES 算法等。
基于特征转换模型将与用户特征信息转换为隐含特征信息可以有多种方法。例如, 将 预先提供的初始用户特征信息和初始隐含特征信息作为训练样本,使用深度学习方法并基 于训练样本对预设的深度学习模型进行训练, 获得特征转换模型。将预设的深度学习模型 更新为特征转换模型, 通过将用户特征信息输入特征转换模型, 获得与用户特征信息相对 应的隐含特征信息。可以将初始用户特征信息作为输入特征数据, 将与初始用户特征信息 相对应的初始隐含特征信息作为初始预测结果,基于输入特征数据和初始预测结果对预设 的深度学习模型进行训练。
用户特征信息包括多个特征参数, 特征参数可以为身高、 体重、 年龄、 工资、 每月消 费额等。特征转换模型的数量为多个, 将多个特征参数中的至少一个特征参数输入各个特 征转换模型, 获得多个隐含特征信息。例如,将身高、体重、年龄输入一个特征转换模型, 获得一个隐含特征信息, 将工资、 每月消费额输入另一个特征转换模型, 获得另一个隐含 特征信息。
深度学习模型包括 CNN, DBN、 RNN、 RNTN、 自动编码器、 GAN等。 特征转换模型包括 三层神经元模型; 三层神经元模型包括: 输入层神经元模型、 中间层神经元模型和输出层 神经元模型, 每层神经元模型的输出作为下一层神经元模型的输入。输入层神经元模型的 神经元与多个特征参数中的至少一个特征参数相对应,输出层神经元模型的神经元与隐含 特征信息相对应。三层神经元模型为具有全连接结构的多个神经网络层的子网络结构, 中 间层神经元模型为全连接层。 隐含特征信息可以为多维数字向量, 获取多个特征转换模型输出的多个多维数字向 量, 将用户关键词信息密文与多个多维向量进行合并处理, 生成域用户融合特征向量。 获 取与用户关键词信息密文相对应的多个数据域的域用户融合特征向量,将多个数据域的域 用户融合特征向量进行合并处理, 生成跨域用户融合特征向量。
图 2为本公开提供的跨域数据融合方法的一些实施例中的数据融合的示意图, 如图 2 所示, 在进行多源跨域数据融合时, 各领域数据存储在不同的存储源, 这些存储源之间互 相隔离, 严格保证数据的安全性。例如数据域 A中的数据源存储在 A地, 数据域 B中的数 据源存储在 B地。
来自不同存储源的数据融合需要使用用户的 Key(关键词)进行匹配, 出于对用户的 隐私保护, 使用用户 Key加密后的密文进行匹配。 当用户 Key加密方式泄露时, 攻击方很 容易通过还原用户 Key来获得用户在各存储源的原始特征。 同时, 在各存储源进行的单领 域特征融合只是把一些低阶的原始特征进行融合, 没有进行高阶表示的学习, 很大程度上 限制了该领域知识的表示能力。 以数据域 A为例进行说明, 数据域 B与数据域 A的处理方 法相同。
对用户 Key二次加密, 对数据域 A当中的用户 Key使用进行二次加密, 可以采用 MD5 算法和 AES加密算法,保证加密算法的不可逆性,得到的用户 Key二次加密后的密文为 EK。 根据用户 Key在数据域 A的数据库当中进行索引, 得到该用户对应的所有原始特征, 记为 Ax, A^AP。 将用户的所有原始特征 ^至\进行特定的组合作为不同的特征转换模块的输 入, 得到表示能力更强的高阶隐含特征 1至 „。例如, 用户 Key为用户手机号, 对用户 手机号进行二次加密,可以对数据域 A当中的用户手机号采用 MD5算法和 AES加密算法进 行二次加密, 保证加密算法的不可逆性, 用户手机号的二次加密后的密文为 EK。
根据用户手机号在数据域 A的数据库当中进行索引,得到该用户对应的所有原始特征, 可以为年龄、 职位、 工资、 工作年限等。 将用户的所有原始特征年龄、 职位、 工资等进行 特定的组合作为不同的特征转换模块的输入, 得到表示能力更强的高阶隐含特征。不仅能 够加强单领域特征的表示能力, 而且由于特征学习模块是不可逆的, 无法通过高阶隐含特 征 HA1至 HAm反推来得到用户的原始特征, 所以没有原始数据泄露的风险。
例如,特征转换模块的数量为两个,第一特征转换模块输入的特征为年龄、职位组合, 第二特征转换模块的输入的特征为工资、 工作年限组合。第一特征转换模块输出的第一隐 含特征为第一向量{05, 25, 34},第二特征转换模块输出的第二隐含特征为第二向量{08, 35, 45}。 将用户 Key密文 EK和在各个数据域中得到的所有高阶隐含特征融合, 得到该数据域 的汇总特征, 并可以得到来自不同数据域的特征集合, 基于用户 Key密文进行跨域特征融 合, 来得到了用户的跨域特征。 例如, 将用户 Key密文 EK和在数据域 A中得到的所有高 阶隐含特征融合, 生成域用户融合特征向量{EN, 05, 25, 34, 08, 35, 45}。 基于相同 的方法生成对于数据域 B的对于此用户的域用户融合特征向量{EN, 11, 20, 15, 30}。 根据 EN进行的跨域特征融合, 获取与 EN相对应的多个数据域的域用户融合特征向量, 将 具有 EN元素的两个域用户融合特征向量进行合并处理, 生成域用户融合特征向量{EN, 05, 25, 34, 08, 35, 45, 11, 20, 15, 30}。 域用户融合特征向量、 域用户融合特征向 量可以由机器进行识别。
上述的跨域数据融合方法,可以保证在用户 Key泄露时,攻击方不能通过反推用户 Key 来获取用户的原始特征信息, 也能在进行单领域特征融合的时候, 进行高阶隐含特征的提 取及融合, 增加安全性。
在一些实施例中, 如图 3所示, 本公开提供一种跨域数据融合系统 30, 包括: 原始信 息获取模块 31、隐含特征生成模块 32、关键词加密模块 33、域数据融合模块 34和跨域数 据融合模块 35。
原始信息获取模块 31获得数据域中的数据源存储的与用户关键词信息相对应的用户 特征信息。 隐含特征生成模块 32基于特征转换模型将与用户特征信息转换为隐含特征信 息。 关键词加密模块 33根据预设的加密规则对用户关键词信息进行多次加密处理。 域数 据融合模块 34对用户关键词信息密文与隐含特征信息进行融合处理, 生成数据域的域用 户融合特征。 跨域数据融合模块 35根据用户关键词信息密文对多个数据域的域用户融合 特征进行融合处理, 获得跨域用户融合特征。
在一些实施例中, 原始信息获取模块 31根据用户关键词信息并按照预设的关联映射 规则生成查询 SQL语句, 将查询 SQL语句发送到数据源中执行, 用以获取用户特征信息。
关键词加密模块 33采用第一加密算法将用户关键词进行第一次加密; 采用第二加密 算法将第一次加密后的密文数据进行二次加密, 获得用户关键词信息密文。第一加密算法 包括 MD5算法等, 第二加密算法包括 AES算法等。
如图 4所示, 隐含特征生成模块 32包括:模型训练单元 321和特征生成单元 322。模 型训练单元 321将预先提供的初始用户特征信息和初始隐含特征信息作为训练样本,使用 深度学习方法并基于训练样本对预设的深度学习模型进行训练, 获得特征转换模型。特征 生成单元 322将预设的深度学习模型更新为特征转换模型,通过将用户特征信息输入特征 转换模型, 获得与用户特征信息相对应的隐含特征信息。
模型训练单元 321将初始用户特征信息作为输入特征数据,将与初始用户特征信息相 对应的初始隐含特征信息作为初始预测结果,基于输入特征数据和初始预测结果对预设的 深度学习模型进行训练。 用户特征信息包括多个特征参数, 特征转换模型的数量为多个。 特征生成单元 322将多个特征参数中的至少一个特征参数输入各个特征转换模型, 获得多 个隐含特征信息。
隐含特征信息为多维数字向量。 域数据融合模块 34获取多个特征转换模型输出的多 个多维数字向量, 将用户关键词信息密文与多个多维向量进行合并处理, 生成域用户融合 特征向量。 跨域数据融合模块 35获取与用户关键词信息密文相对应的多个数据域的域用 户融合特征向量, 将多个数据域的域用户融合特征向量进行合并处理, 生成跨域用户融合 特征向量。
图 5为本公开提供的跨域数据融合系统的另一些实施例的模块示意图。 如图 5所示, 该装置可包括存储器 51、处理器 52、通信接口 53以及总线 54。存储器 51用于存储指令, 处理器 52耦合到存储器 51 , 处理器 52被配置为基于存储器 51存储的指令执行实现上述 的跨域数据融合方法。
存储器 51可以为高速 RAM存储器、 非易失性存储器 (non-volatile memory)等, 存储 器 51也可以是存储器阵列。存储器 51还可能被分块, 并且块可按一定的规则组合成虚拟 卷。 处理器 52 可以为中央处理器 CPU, 或专用集成电路 ASIC (Application Specific Integrated Circuit), 或者是被配置成实施本公开的跨域数据融合方法的一个或多个集 成电路。
在一些实施例中, 本公开还提供一种计算机可读存储介质, 其中计算机可读存储 介质存储有计算机指令, 指令被处理器执行时实现如上任一实施例涉及的跨域数据融 合方法。 本领域内的技术人员应明白, 本公开的实施例可提供为方法、 装置、 或计算 机程序产品。 因此, 本公开可采用完全硬件实施例、 完全软件实施例、 或结合软件和 硬件方面的实施例的形式。 而且, 本公开可采用在一个或多个其中包含有计算机可用 程序代码的计算机可用非瞬时性存储介质 (包括但不限于磁盘存储器、 CD-ROM、 光学 存储器等) 上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、 设备 (系统) 和计算机程序产品的流程 图和 /或方框图来描述的。 应理解可由计算机程序指令实现流程图和 /或方框图中的 每一流程和 /或方框以及流程图和 /或方框图中的流程和 /或方框的结合。 可提供这

Claims

些计算机程序指令到通用计算机、 专用计算机、 嵌入式处理机或其他可编程数据处理 设备的处理器以产生一个机器, 使得通过计算机或其他可编程数据处理设备的处理器 执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多 个方框中指定的功能的装置。 上述实施例中的跨域数据融合方法、 系统以及存储介质, 获得数据域中的与用户关键 词信息相对应的用户特征信息, 将与用户特征信息转换为隐含特征信息, 对用户关键词信 息进行多次加密处理,对用户关键词信息密文与隐含特征信息进行融合处理生成域用户融 合特征, 根据用户关键词信息密文对多个数据域的域用户融合特征进行融合处理, 获得跨 域用户融合特征; 可以避免由于用户关键词泄露导致的用户原始数据泄露, 将用户特征信 息转换为隐含特征信息并进行融合处理, 提高了对于各个领域数据汇总特征的表示能力, 能够提升数据挖掘准确度和安全性。 可能以许多方式来实现本公开的方法和系统。 例如, 可通过软件、 硬件、 固件或 者软件、 硬件、 固件的任何组合来实现本公开的方法和系统。 用于方法的步骤的上述 顺序仅是为了进行说明, 本公开的方法的步骤不限于以上具体描述的顺序, 除非以其 它方式特别说明。 此外, 在一些实施例中, 还可将本公开实施为记录在记录介质中的 程序, 这些程序包括用于实现根据本公开的方法的机器可读指令。 因而, 本公开还覆 盖存储用于执行根据本公开的方法的程序的记录介质。 本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于 所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实 施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本 公开从而设计适于特定用途的带有各种修改的各种实施例。 权 利 要 求
1.一种跨域数据融合方法, 包括:
获得数据域中的数据源存储的与用户关键词信息相对应的用户特征信息;
基于特征转换模型将与所述用户特征信息转换为隐含特征信息;
根据预设的加密规则对所述用户关键词信息进行多次加密处理;
对用户关键词信息密文与所述隐含特征信息进行融合处理,生成所述数据域的域用户 融合特征;
根据所述用户关键词信息密文对多个数据域的域用户融合特征进行融合处理,获得跨 域用户融合特征。
2.如权利要求 1所述的方法,所述获得数据域中的数据源存储的与用户关键词相对应 的用户特征信息包括:
根据所述用户关键词信息并按照预设的关联映射规则生成查询 SQL语句;
将所述查询 SQL语句发送到所述数据源中执行, 用以获取所述用户特征信息。
3.如权利要求 1所述的方法,所述基于预设的加密规则对所述用户关键词信息进行多 次加密处理包括:
采用第一加密算法将所述用户关键词进行第一次加密;
采用第二加密算法将第一次加密后的密文数据进行二次加密,获得所述用户关键词信 息密文;
其中, 所述第一加密算法包括: MD5算法; 所述第二加密算法包括: AES算法。
4.如权利要求 1所述的方法,所述基于特征转换模型将与所述用户特征信息转换为隐 含特征信息包括:
将预先提供的初始用户特征信息和初始隐含特征信息作为训练样本;
使用深度学习方法并基于所述训练样本对预设的深度学习模型进行训练,获得所述特 征转换模型;
将所述预设的深度学习模型更新为所述特征转换模型,通过将所述用户特征信息输入 所述特征转换模型, 获得与所述用户特征信息相对应的所述隐含特征信息。
5.如权利要求 4所述的方法, 所述使对预设的深度学习模型进行训练包括: 将所述初始用户特征信息作为输入特征数据,将与所述初始用户特征信息相对应的所 述初始隐含特征信息作为初始预测结果; 基于所述输入特征数据和所述初始预测结果对所述预设的深度学习模型进行训练。
6.如权利要求 4所述的方法, 所述用户特征信息包括多个特征参数, 所述特征转换模 型的数量为多个; 所述获得与所述用户特征信息相对应的所述隐含特征信息包括:
将所述多个特征参数中的至少一个特征参数输入各个所述特征转换模型,获得多个所 述隐含特征信息。
7.如权利要求 6所述的方法, 其中,
所述特征转换模型包括: 三层神经元模型; 所述三层神经元模型包括: 输入层神经元 模型、 中间层神经元模型和输出层神经元模型; 每层神经元模型的输出作为下一层神经元 模型的输入;
其中,所述输入层神经元模型的神经元与所述多个特征参数中的至少一个特征参数相 对应, 所述输出层神经元模型的神经元与所述隐含特征信息相对应。
8.如权利要求 7所述的方法, 其中,
所述三层神经元模型为具有全连接结构的多个神经网络层的子网络结构; 其中, 所述 中间层神经元模型为全连接层。
9.如权利要求 6所述的方法, 所述隐含特征信息为多维数字向量; 其中, 所述对所述 用户关键词密文与所述隐含特征信息进行融合处理、生成所述数据域的域用户融合特征包 括:
获取多个所述特征转换模型输出的多个多维数字向量;
将所述用户关键词信息密文与所述多个多维向量进行合并处理, 生成域用户融合特征 向量。
10.如权利要求 9所述的方法, 所述根据所述用户关键词信息密文对多个数据域的域 用户融合特征进行融合处理、 获得跨域用户融合特征包括:
获取与所述用户关键词信息密文相对应的多个数据域的域用户融合特征向量; 将所述多个数据域的域用户融合特征向量进行合并处理, 生成跨域用户融合特征向
11.一种跨域数据融合系统, 包括:
原始信息获取模块,用于获得数据域中的数据源存储的与用户关键词信息相对应的用 户特征信息;
隐含特征生成模块,用于基于特征转换模型将与所述用户特征信息转换为隐含特征信 息; 关键词加密模块, 用于根据预设的加密规则对所述用户关键词信息进行多次加密处 理;
域数据融合模块, 用于对用户关键词信息密文与所述隐含特征信息进行融合处理, 生 成所述数据域的域用户融合特征;
跨域数据融合模块,用于根据所述用户关键词信息密文对多个数据域的域用户融合特 征进行融合处理, 获得跨域用户融合特征。
12.如权利要求 11所述的系统, 其中,
所述原始信息获取模块,用于根据所述用户关键词信息并按照预设的关联映射规则生 成查询 SQL语句; 将所述查询 SQL语句发送到所述数据源中执行, 用以获取所述用户特征 信息。
13.如权利要求 11所述的系统, 其中,
所述关键词加密模块, 用于采用第一加密算法将所述用户关键词进行第一次加密; 采 用第二加密算法将第一次加密后的密文数据进行二次加密, 获得所述用户关键词信息密 文; 其中, 所述第一加密算法包括: MD5算法; 所述第二加密算法包括: AES算法。
14.如权利要求 11所述的系统, 其中,
所述隐含特征生成模块, 包括:
模型训练单元,用于将预先提供的初始用户特征信息和初始隐含特征信息作为训练样 本; 使用深度学习方法并基于所述训练样本对预设的深度学习模型进行训练, 获得所述特 征转换模型;
特征生成单元, 用于将所述预设的深度学习模型更新为所述特征转换模型, 通过将所 述用户特征信息输入所述特征转换模型, 获得与所述用户特征信息相对应的所述隐含特征 信息。
15.如权利要求 14所述的系统, 其中,
所述模型训练单元, 用于将所述初始用户特征信息作为输入特征数据, 将与所述初始 用户特征信息相对应的所述初始隐含特征信息作为初始预测结果;基于所述输入特征数据 和所述初始预测结果对所述预设的深度学习模型进行训练。
16.如权利要求 14所述的系统, 所述用户特征信息包括多个特征参数, 所述特征转换 模型的数量为多个; 其中,
所述特征生成单元,用于将所述多个特征参数中的至少一个特征参数输入各个所述特 征转换模型, 获得多个所述隐含特征信息。
17.如权利要求 16所述的系统, 其中,
所述特征转换模型包括: 三层神经元模型; 所述三层神经元模型包括: 输入层神经元 模型、 中间层神经元模型和输出层神经元模型; 每层神经元模型的输出作为下一层神经元 模型的输入;
其中,所述输入层神经元模型的神经元与所述多个特征参数中的至少一个特征参数相 对应, 所述输出层神经元模型的神经元与所述隐含特征信息相对应。
18.如权利要求 17所述的系统, 其中,
所述三层神经元模型为具有全连接结构的多个神经网络层的子网络结构; 其中, 所述 中间层神经元模型为全连接层。
19.如权利要求 16所述的系统, 其中, 所述隐含特征信息为多维数字向量; 所述域数据融合模块, 用于获取多个所述特征转换模型输出的多个多维数字向量; 将 所述用户关键词信息密文与所述多个多维向量进行合并处理, 生成域用户融合特征向量。
20.如权利要求 19所述的系统, 其中,
所述跨域数据融合模块,用于获取与所述用户关键词信息密文相对应的多个数据域的 域用户融合特征向量; 将所述多个数据域的域用户融合特征向量进行合并处理, 生成跨域 用户融合特征向量。
21.—种跨域数据融合系统, 包括:
存储器; 以及耦接至所述存储器的处理器, 所述处理器被配置为基于存储在所述 存储器中的指令, 执行如权利要求 1至 10中任一项所述的方法。
22.—种计算机可读存储介质, 所述计算机可读存储介质存储有计算机指令, 所述指 令被处理器执行如权利要求 1至 10中任一项所述的方法。
PCT/CN2019/095429 2018-07-13 2019-07-10 跨域数据融合方法、系统以及存储介质 WO2020011200A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810766536.2 2018-07-13
CN201810766536.2A CN108984733B (zh) 2018-07-13 2018-07-13 跨域数据融合方法、系统以及存储介质

Publications (1)

Publication Number Publication Date
WO2020011200A1 true WO2020011200A1 (zh) 2020-01-16

Family

ID=64537206

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/095429 WO2020011200A1 (zh) 2018-07-13 2019-07-10 跨域数据融合方法、系统以及存储介质

Country Status (2)

Country Link
CN (1) CN108984733B (zh)
WO (1) WO2020011200A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984733B (zh) * 2018-07-13 2020-07-31 京东数字科技控股有限公司 跨域数据融合方法、系统以及存储介质
CN110149326A (zh) * 2019-05-14 2019-08-20 中国农业银行股份有限公司 数据引入方法、装置及系统
CN110569663A (zh) * 2019-08-15 2019-12-13 深圳市莱法照明通信科技有限公司 一种教育数据共享的方法、装置、系统和存储介质
CN110968892A (zh) * 2019-11-18 2020-04-07 广东卓维网络有限公司 一种基于电量数据查询的数据加密系统
CN111475532B (zh) * 2020-03-05 2023-11-03 拉扎斯网络科技(上海)有限公司 数据处理的优化方法及装置、存储介质、终端
CN111324911B (zh) * 2020-05-15 2021-01-01 支付宝(杭州)信息技术有限公司 一种隐私数据保护方法、系统及装置
CN113312644B (zh) * 2021-06-15 2022-05-24 杭州金智塔科技有限公司 基于隐私保护的跨域推荐模型训练方法及训练系统
CN114707488B (zh) * 2022-02-25 2024-02-09 马上消费金融股份有限公司 数据处理方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110295783A1 (en) * 2008-03-05 2011-12-01 Quantum Intelligence, Inc. Multiple Domain Anomaly Detection System and Method Using Fusion Rule and Visualization
CN106203491A (zh) * 2016-07-01 2016-12-07 交通运输部路网监测与应急处置中心 一种公路矢量数据的融合更新方法
CN107609116A (zh) * 2017-09-13 2018-01-19 星环信息科技(上海)有限公司 一种创建跨域迁移深度网络的方法及设备
CN108092768A (zh) * 2017-12-21 2018-05-29 中国联合网络通信集团有限公司 数据融合方法与系统
CN108984733A (zh) * 2018-07-13 2018-12-11 北京京东金融科技控股有限公司 跨域数据融合方法、系统以及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110295722A1 (en) * 2010-06-09 2011-12-01 Reisman Richard R Methods, Apparatus, and Systems for Enabling Feedback-Dependent Transactions
CN102176709B (zh) * 2010-12-13 2013-11-13 北京交通大学 一种带隐私保护的数据共享与发布的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110295783A1 (en) * 2008-03-05 2011-12-01 Quantum Intelligence, Inc. Multiple Domain Anomaly Detection System and Method Using Fusion Rule and Visualization
CN106203491A (zh) * 2016-07-01 2016-12-07 交通运输部路网监测与应急处置中心 一种公路矢量数据的融合更新方法
CN107609116A (zh) * 2017-09-13 2018-01-19 星环信息科技(上海)有限公司 一种创建跨域迁移深度网络的方法及设备
CN108092768A (zh) * 2017-12-21 2018-05-29 中国联合网络通信集团有限公司 数据融合方法与系统
CN108984733A (zh) * 2018-07-13 2018-12-11 北京京东金融科技控股有限公司 跨域数据融合方法、系统以及存储介质

Also Published As

Publication number Publication date
CN108984733B (zh) 2020-07-31
CN108984733A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
WO2020011200A1 (zh) 跨域数据融合方法、系统以及存储介质
CN109165725B (zh) 基于迁移学习的神经网络联邦建模方法、设备及存储介质
CN112149171B (zh) 联邦神经网络模型的训练方法、装置、设备及存储介质
CN109002861B (zh) 联邦建模方法、设备及存储介质
US20230078061A1 (en) Model training method and apparatus for federated learning, device, and storage medium
US9825758B2 (en) Secure computer evaluation of k-nearest neighbor models
CN104715187B (zh) 用于认证电子通信系统中的节点的方法和装置
CN111784001B (zh) 一种模型训练方法、设备及计算机可读存储介质
CN112541593B (zh) 基于隐私保护的联合训练业务模型的方法及装置
CN107807991A (zh) 用于处理区块链数据的方法及装置
WO2021114585A1 (zh) 模型训练方法、装置和电子设备
CN110969264B (zh) 模型训练方法、分布式预测方法及其系统
WO2022126909A1 (zh) 一种代码补全方法、装置以及相关设备
JP2021117487A (ja) 秘密計算用変換装置、秘密計算システム、秘密計算用変換方法、および秘密計算用変換プログラム
CN113537633A (zh) 基于纵向联邦学习的预测方法、装置、设备、介质和系统
CN111985921B (zh) 基于区块链离线支付的验证处理方法及数字金融服务平台
CN113221153B (zh) 图神经网络训练方法、装置、计算设备及存储介质
US11829468B2 (en) Neural network confidentiality
CN111859440B (zh) 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法
CN112948883A (zh) 保护隐私数据的多方联合建模的方法、装置和系统
Wang et al. Federated cf: Privacy-preserving collaborative filtering cross multiple datasets
CN114547684A (zh) 一种保护隐私数据的多方联合训练树模型的方法及装置
CN114003744A (zh) 基于卷积神经网络和向量同态加密的图像检索方法及系统
CN111008236A (zh) 一种数据查询的方法和系统
US20230325527A1 (en) System and method to secure data pipelines using asymmetric encryption

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19834599

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19834599

Country of ref document: EP

Kind code of ref document: A1