WO2020020088A1 - 神经网络模型的训练方法和系统以及预测方法和系统 - Google Patents

神经网络模型的训练方法和系统以及预测方法和系统 Download PDF

Info

Publication number
WO2020020088A1
WO2020020088A1 PCT/CN2019/096971 CN2019096971W WO2020020088A1 WO 2020020088 A1 WO2020020088 A1 WO 2020020088A1 CN 2019096971 W CN2019096971 W CN 2019096971W WO 2020020088 A1 WO2020020088 A1 WO 2020020088A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural network
layer
model
network model
training
Prior art date
Application number
PCT/CN2019/096971
Other languages
English (en)
French (fr)
Inventor
罗远飞
涂威威
曹睿
陈雨强
Original Assignee
第四范式(北京)技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201910618144.6A external-priority patent/CN110751261B/zh
Application filed by 第四范式(北京)技术有限公司 filed Critical 第四范式(北京)技术有限公司
Priority to US17/262,974 priority Critical patent/US20210264272A1/en
Publication of WO2020020088A1 publication Critical patent/WO2020020088A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Definitions

  • the present application relates to deep learning, and more particularly, to a method and system for training a neural network model including a three-layer network model, and a prediction method and system.
  • Machine learning including deep learning
  • mining valuable potential information from a large amount of data by means of calculation is an inevitable product of the development of artificial intelligence to a certain stage. It is committed to mining valuable potential information from a large amount of data by means of calculation.
  • the neural network model is usually trained by providing training data records to the neural network model to determine the ideal parameters of the neural network model, and the trained neural network model It can be applied to provide corresponding prediction results in the face of new prediction data records.
  • DNN Deep Neural Network
  • a method for training a neural network model including a three-level model includes: obtaining training data records; generating characteristics of training samples based on attribute information of the training data records, and The marks of the training data records are used as the marks of the training samples; and a set of training samples is used to train the neural network model, wherein during the training of the neural network model, a plurality of underlying nerves included in the first-level model of the neural network model are used.
  • the network model is used to separately learn the feature information representation of each feature, and the multiple representations included in the second-level model of the neural network model are used to separately learn the interactive representations between the corresponding inputs, where the corresponding inputs
  • the term includes at least one of the feature information representations output by the first-level model, and the prediction result is learned based on at least the interactive representation of the second-level model output through the top-level neural network model as the third-level model of the neural network model, and Based at least on the prediction and the marker Adjusting the
  • a training system for a neural network model including a three-level model includes: a data acquisition device for acquiring training data records; and a sample generation device for training-based The attribute information of the data records to generate the characteristics of the training samples, and use the marks of the training data records as the marks of the training samples; and a training device for training a neural network model using a set of training samples, wherein, in training the neural network model,
  • the training device separately learns the feature information representation of each feature by using multiple underlying neural network models included in the first level model of the neural network model, and through the multiple included in the second level model of the neural network model. Intermediate models are used to learn the interactive representations between the corresponding inputs.
  • the top-level neural network model that is the third-level model of the neural network model is used to learn the prediction results based on at least the interactive representations output by the second-level model.
  • the difference between the predicted result and the marker Adjusting said neural network comprises a three-level model, wherein said corresponding entry comprises at least one among a first feature represented by a hierarchical information model output.
  • a computer-readable medium in which recorded thereon a computer-readable medium for executing the aforementioned neural network model including a three-level model by one or more computing devices.
  • Computer program for training methods are provided.
  • a system including one or more computing devices and one or more storage devices, wherein instructions are recorded on the one or more storage devices, and the instructions are in When executed by the one or more computing devices, the one or more computing devices enable the one or more computing devices to implement the aforementioned method for training a neural network model including a three-level model.
  • a method for performing prediction using a neural network model includes: obtaining a prediction data record; generating characteristics of a prediction sample based on attribute information of the prediction data record; and using the foregoing
  • the neural network model trained by the neural network model training method including a three-level model provides corresponding prediction results for the prediction samples.
  • a prediction system for performing prediction using a neural network model.
  • the prediction system includes: a data acquisition device that acquires a prediction data record; and a sample generation device that is based on attribute information of the prediction data record. To generate the characteristics of the prediction sample; and the prediction device, using the neural network model trained by the aforementioned neural network model training method including the three-level model, to provide corresponding prediction results for the prediction sample.
  • a computer-readable medium wherein the computer-readable medium is recorded with one or more computing devices for performing the foregoing method for performing prediction using a neural network model.
  • Computer program
  • a system including one or more computing devices and one or more storage devices.
  • the one or more storage devices have instructions recorded thereon, and the instructions are
  • the execution of the one or more computing devices causes the one or more computing devices to implement the foregoing method of performing prediction using a neural network model.
  • FIG. 1 is a diagram illustrating a neural network model including a three-level model according to an exemplary embodiment of the present disclosure
  • FIG. 2 is a training system illustrating a neural network model according to an exemplary embodiment of the present disclosure
  • FIG. 3 is a flowchart illustrating a method for training a neural network model according to an exemplary embodiment of the present disclosure
  • FIG. 4 is a diagram illustrating a first-level model according to another exemplary embodiment of the present disclosure.
  • FIG. 5 is a schematic diagram illustrating a neural network model having a plurality of neural network layers according to an exemplary embodiment of the present disclosure
  • FIG. 6 is a prediction system showing a neural network model according to an embodiment of the present disclosure
  • FIG. 7 is a flowchart illustrating a prediction method of a neural network model according to an embodiment of the present disclosure.
  • “including A and / or B” means including at least one of A and B, that is, including the following three cases in parallel: (1) including A; (2) including B; (3) including A and B.
  • "execute step one and / or step two” means to execute at least one of step one and step two, that is, to indicate the following three cases in parallel: (1) execute step one; (2) execute step two; (3) Perform steps 1 and 2.
  • "including A, B, and / or C” means including at least one of A, B, and C, which means the following seven cases: (1) including A; (2) including B; (3) including C; (4) includes A and B; (5) includes A and C; (6) includes B and C; (7) includes A, B, and C.
  • Machine learning including neural networks
  • experience usually exists in the form of "data”.
  • models can be generated from data. That is, by providing empirical data to machine learning algorithms, they can be generated based on these empirical data. The model, when faced with a new situation, the model will provide the corresponding judgment, that is, the prediction result.
  • relevant personnel are required not only to be proficient in artificial intelligence technology (especially machine learning technology), but also to be very familiar with the specific scenarios (such as image processing, voice processing, and automatic control) to which machine learning technology is applied. , Financial business, internet advertising, etc.).
  • relevant personnel do not know enough about the business or lack of modeling experience, it can easily lead to poor modeling results.
  • this phenomenon can be mitigated from two aspects. One is to reduce the threshold of machine learning, which makes machine learning algorithms easy to use. The other is to improve the accuracy of the model, so that the algorithm is highly versatile and can produce better results. It should be understood that these two aspects are not opposite.
  • the improvement of the algorithm effect in the second aspect can help the first point.
  • relevant personnel when expecting a corresponding target prediction using a neural network model, relevant personnel not only need to be familiar with various complex technical details about the neural network, but also need to understand the business logic behind the data involved in the predicted target. For example, if you want to use a machine Learning models to identify criminal suspects, relevant personnel must also understand which characteristics criminal suspects may have; if you want to use machine learning models to identify fraudulent transactions in the financial industry, relevant personnel must also understand the financial industry's transaction habits and a series of corresponding experts Rules, etc. All of the above have brought great difficulties to the application prospects of machine learning technology.
  • any scheme for training a model or a scheme for making predictions with a model must be subject to objective data restrictions and computing resource constraints.
  • FIG. 1 is a diagram illustrating a neural network model 100 including a three-level model according to an exemplary embodiment of the present disclosure.
  • a neural network model 100 including a three-level model may include a first-level model 110, a second-level model 120, and a third-level model 130.
  • the first-level model 110 may include one or more low-level neural network models 112 that are designed to separately learn features of each feature itself.
  • Information representation as an example, the first-level model 110 may further include one or more embedding layers 111 based on an embedding function, and each embedding layer 111 may be connected to a corresponding underlying neural network model 112.
  • the second-level model 120 may include a plurality of intermediate models 120-1 to 120-N, which are designed to separately learn interactive representations between corresponding input items, wherein the corresponding input items may include a first-level model. At least one of the feature information representations output by the model.
  • the third-level model 130 may be a single neural network model, which is designed to learn a prediction result based on at least an interactive representation output by the second-level model.
  • the neural network model 100 including the three-level model in the embodiment of the present disclosure may be used to predict image categories, text categories, voice sentiment, fraudulent transactions, advertisement click rates, and the like.
  • the scenarios in which the neural network model 100 including the three-level model in the embodiment of the present disclosure can be used include, but are not limited to, the following scenarios:
  • Image processing scenarios including: optical character recognition OCR, face recognition, object recognition, and picture classification; more specifically, for example, OCR can be used for bill (such as invoice) recognition, handwriting recognition, etc., face recognition can be applied for security
  • OCR optical character recognition
  • face recognition can be applied for security
  • object recognition can be applied to traffic sign recognition in autonomous driving scenarios
  • picture classification can be applied to "photograph purchase” and "find the same paragraph” on e-commerce platforms.
  • Voice recognition scenarios including products that can be used for human-computer interaction through voice, such as voice assistants for mobile phones (such as Siri for Apple phones), smart speakers, etc .;
  • Natural language processing scenarios including: reviewing text (such as contracts, legal documents, and customer service records, etc.), spam identification (such as spam text recognition), and text classification (emotions, intentions, topics, etc.);
  • Automatic control scenarios including: mine group adjustment operation prediction, wind turbine adjustment operation prediction, and air conditioning system adjustment operation prediction; specifically, for a mine group, a group of adjustment operations with a high predictable mining rate, and for a wind turbine, a predictable power generation efficiency
  • a set of adjustment operations for the air conditioning system which can predict the set of adjustment operations that meet the demand while saving energy consumption;
  • Intelligent question and answer scenarios including: chatbots and intelligent customer service;
  • Fintech fields include: marketing (e.g., coupon usage prediction, advertising click behavior prediction, user portrait mining, etc.) and customer acquisition, anti-fraud, anti-money laundering, underwriting and credit scoring, and commodity price prediction;
  • Medical fields include: disease screening and prevention, personalized health management and auxiliary diagnosis;
  • the municipal area includes: social governance and regulatory enforcement, resource environment and facility management, industrial development and economic analysis, public services and livelihood security, and smart cities (the allocation and management of various urban resources such as public transportation, Internet-ride, shared bicycles, etc.);
  • Search scenarios including: web search, image search, text search, video search, etc.
  • Scenarios for abnormal behavior detection including detection of abnormal behaviors of power consumption by customers of the State Grid, detection of malicious network traffic, and detection of abnormal behaviors in operation logs.
  • the term “level” is different from the layers constituting the neural network, and one level may cover a series of operation sets performed by a single neural network structure as a whole, which may include multiple layers.
  • FIG. 2 is a training system 200 illustrating a neural network model 100 including a three-level model according to an exemplary embodiment of the present disclosure.
  • the training system 200 may include a data acquisition device 210, a sample generation device 220, and a training device 230.
  • the data acquisition device 210 may be configured to acquire a training data record.
  • the acquired training data records are different according to different scenarios in which the neural network model 100 including a three-level model is applied.
  • the obtained data record is image data
  • the mark of the data record is the text in the image
  • the obtained training data It is the transaction data of the bank user and the data related to the user itself.
  • the mark of the data record is a mark about whether a particular transaction is money laundering or fraud.
  • the neural network model 100 including the three-level model is obtained by training based on a training sample data set corresponding to the scene.
  • the corresponding training sample data set is the historical data of the product (for example, its own attributes, seasons, inventory, etc. when the product was sold in the history of the product as the sample characteristics, and the price at which it was sold (As a label).
  • the forecast data is composed of the current relevant information of the product, and a forecast sample is constructed based on the forecast data.
  • the prediction sample is input to a neural network model 100 including a three-level model to obtain a predicted price of the model output. Other scenes are similar, so I won't repeat them here.
  • the training data record may be data generated online, data generated in advance and stored, or data received externally through an input device or a transmission medium.
  • This data may relate to the attribute information of individuals, businesses or organizations, such as identity, education, occupation, assets, contact information, liabilities, income, profit, taxation and other information.
  • these data may also be related to the attribute information of the business-related items, for example, information on the transaction value of the sales contract, the parties to the transaction, the subject matter, the transaction location, and so on.
  • the content of the attribute information mentioned in the exemplary embodiments of the present disclosure may relate to the performance or nature of any object or transaction in a certain aspect, and is not limited to the performance of individuals, objects, organizations, units, institutions, projects, events, etc. Define or describe.
  • structured or unstructured data can be obtained from different sources, such as text data or numerical data. These data can come from within the entity that expects to obtain the prediction results of the model, for example, from banks, enterprises, schools, etc. that expect to obtain the prediction results; these data can also originate from other entities, such as from data providers, the Internet ( For example, social networking sites), mobile operators, APP operators, courier companies, credit agencies, etc.
  • the above-mentioned internal data and external data may be used in combination to form a training data record carrying more information.
  • the above data can be input to the data acquisition device through an input device, or can be automatically generated by the data acquisition device based on the existing data, or can be obtained by the data acquisition device from a network (for example, a storage medium on the network (for example, a data warehouse)).
  • an intermediate data exchange device such as a server, can help the data acquisition device obtain corresponding data from an external data source.
  • the acquired data can be converted into a format that can be easily processed by a data conversion module such as a text analysis module in the data acquisition device.
  • a data conversion module such as a text analysis module in the data acquisition device.
  • the data acquisition device may be configured as various modules composed of software, hardware, and / or firmware, and some or all of these modules may be integrated into one or cooperate together to accomplish a specific function.
  • the sample generating device 220 may generate features of the training samples based on the attribute information of the training data records acquired by the data obtaining device 210, and use the marks of the training data records as the marks of the training samples. Then, the training device 230 may train the neural network model 100 based on the training samples generated by the sample generating device 220.
  • the training device 230 may learn each of the plurality of underlying neural network models 112 included in the first-level model 110 of the neural network model 100 separately.
  • the feature information of the feature itself indicates that the corresponding input items are respectively learned through a plurality of intermediate models 120-1 to 120-N included in the second-level model 120 of the neural network model 100 (here, the corresponding input items include
  • At least one of the feature information representations learned by the neural network model 112 is an interactive representation, and is based on at least the output of the second hierarchical model 120 through the top neural network model that is the third hierarchical model 130 of the neural network model 100.
  • Interaction means learning to predict results.
  • the training device 230 may adjust the neural network model 100 including a three-level model based on at least a difference between the prediction result and a label of a training sample.
  • the neural network model 100 including a three-level model aims to predict problems related to objects or events in related scenes. For example, it can be used to predict image categories, predict Chinese text, predict text categories, predict speech emotion categories, predict fraud transactions, predict ad click rates, predict product prices, etc., so that the prediction result can be used directly as a decision basis or further combined with other rules It becomes the basis for decision-making.
  • FIG. 3 is a flowchart illustrating a training method of a neural network model 100 including a three-level model according to an exemplary embodiment of the present disclosure.
  • a training data record may be acquired by the data acquisition device 210.
  • the training data record may be a collection of historical data records used to train the neural network model 100, and the historical data records have a true result regarding the prediction target of the neural network model, that is, a label ( label).
  • the feature of the training sample may be generated by the sample generating device 220 based on the attribute information of the training data record obtained in step 320, and the mark of the training data record is used as the mark of the training sample.
  • the sample generation device 220 may perform corresponding feature engineering processing on the training data records.
  • the sample generation device 220 may directly use some attribute fields of the training data records as corresponding features, or may process the attribute fields by (Including processing of the fields themselves or various operations between fields) to obtain corresponding characteristics.
  • the features of the training sample can be divided into discrete features (which have a set of discrete possible values, for example, living city, etc., for example, features 1 and 2 shown in Figure 1) and Continuous features (the range of possible values is not limited, as opposed to discrete features, such as feature 3 shown in Figure 1).
  • the neural network model 100 may be trained by the training device 230 based on the training samples.
  • the training device 230 may separately learn the feature information representation of each feature by using the multiple lower-level neural network models 112 included in the first-level model 110 of the neural network model 100.
  • each feature of the training sample can be directly input or transformed into the corresponding underlying neural network model 112, and the corresponding feature information representation can be obtained based on at least the output of the underlying neural network model 112.
  • features usually enter directly into the neural network (eg, after entering the embedding layer) for learning.
  • different features have different prediction capabilities for the target, so it is difficult to make full use of more important features, which has a certain impact on the accuracy of the prediction results.
  • by setting the underlying neural network model to specifically learn the information expression of the respective corresponding features it will help provide the overall prediction effect of the model.
  • the training device 230 may first pass at least one feature of the training sample through the corresponding embedding layer 111 respectively, so as to obtain at least one feature embedding vector corresponding to the at least one feature.
  • the at least one feature may be a discrete feature, or the at least one feature may be a discretized feature obtained by discretizing an input continuous feature.
  • the training device 230 may pass the discrete features among the features of the training samples through the corresponding embedding layer 111 to obtain corresponding feature embedding vectors, and discretize at least one continuous feature among the features of the training samples, and then The discretized features pass through the corresponding embedding layer 111 to obtain corresponding feature embedding vectors.
  • the training device 230 passes the discrete features among the features of the training sample and the discretized continuous features through the corresponding embedding layer 111, and passes the feature embedding vectors output by each embedding layer 111 through the corresponding
  • the underlying neural network model 112 learns feature information representations of corresponding features through the corresponding underlying neural network model 112.
  • the training device 230 may only pass discrete features among the features of the training samples through the corresponding embedding layer 111 to obtain corresponding feature embedding vectors, and use continuous features among the features of the training samples as one-dimensional
  • the feature embedding vector is input to the underlying neural network model 112 without going through the embedding layer 111.
  • the training device 230 may pass the discrete features among the features of the training samples through the corresponding embedding layer 111, and the feature embedding vectors output by each embedding layer 111 through the corresponding underlying neural network model 112, respectively.
  • the corresponding underlying neural network model 112 learns the feature information representation of the corresponding discrete features, and passes the continuous features among the features of the training sample directly through the corresponding underlying neural network model 112, and learns the corresponding continuous through the corresponding underlying neural network model 112. Feature information representation of features.
  • the feature embedding dimensions of the input model are usually specified manually, and the embedding layer dimensions for each feature are generally the same.
  • the model effect of the neural network model is highly correlated with the dimensions of the embedding layer, using the same embedding layer dimension will increase the cost of using the model.
  • using the same embedding layer dimension for all features will make the output dimension of some features after the embedding layer too large, and some features after the embedding layer The output dimension of is too small.
  • the training device 230 may determine the dimensions of each embedding layer 111, that is, each embedding layer 111 does not have to be With the same dimensions, the dimensions of the embedded layer 111 for different features can be adaptively determined, so that the neural network model can be trained more effectively.
  • the training device 230 may determine the dimensions of each embedded layer 111 based on at least the features input to each embedded layer 111.
  • the training device 230 may also determine the dimensions of each embedded layer 111 based on the information entropy of the features input to each embedded layer 111. Specifically, the information entropy s corresponding to the features input to the embedded layer 111 may be determined based on the following formula (1):
  • the training device 230 may determine the proportion of the embedded layer corresponding to each feature based on the magnitude of the information entropy s of these features. Dimension d.
  • the training device 230 may assign a dimension to each embedded layer 111 in proportion to the size of the information entropy s corresponding to the feature input to each embedded layer 111.
  • the training device 230 can also fully consider factors such as computing resources, the amount of data recorded in the training data, and the application scenario of the neural network model, combined with the pre-set dimensional allocation constraints, so that the allocated embedding layer dimensions Between a preset minimum dimension a and a maximum dimension b, where a is less than b, both are natural numbers.
  • the allocation may be considered valid. If the preset condition is not satisfied, for example, if the sum of the allocated dimensions of all the embedded layers 111 is greater than a preset total dimension, the training device 230 needs to perform dimension allocation again.
  • the preset total dimension may be determined based on at least one of a computing resource, a data amount of a training data record, and an application scenario of a neural network model.
  • the training device 230 redistributes the dimensions of the embedded layer 111
  • the maximum dimension b and the minimum dimension a to be allocated to each embedded layer 111 may be set first.
  • the training device 230 may determine the embedding layer 111 corresponding to the first predetermined number of features with the lowest information entropy as the allocation of the minimum dimension a and the second with the highest information entropy.
  • the embedding layer 111 corresponding to a predetermined number of features is determined to allocate the maximum dimension b.
  • the training device 230 may follow the remaining The size of the information entropy of the feature is proportionally allocated to the remaining dimensions (i.e., the preset total dimension minus the value of the embedded layer 111 that is allocated to the first predetermined number of features and the second predetermined number of features respectively). Dimensions remaining after the dimensions), so as to determine the dimensions assigned to the embedded layer 111 respectively corresponding to the remaining features.
  • the training device 230 may determine an optimal dimension allocation scheme among the multiple dimension allocation schemes according to a predetermined rule. For example only, in the exemplary embodiment of the present disclosure, the training device 230 may determine the scheme corresponding to the minimum or maximum variance value of the dimensions of the embedding layer 111 as the optimal dimension allocation scheme, that is, the optimal The solution corresponds to minimizing or maximizing the variance value of the dimensions assigned to each embedded layer. However, it should be understood that the present application is not limited thereto, and the training device 230 may also determine the optimal dimension allocation scheme according to various other rules.
  • the training device 230 may also learn the dimensions of each embedded layer 111 based on the dimensional learning model.
  • the dimensional learning model may be designed to pass a candidate dimension of each embedding layer 111 and a model effect of a neural network model corresponding to the candidate dimension (for example, a model AUC (Area Under the the Curve ROC (receiver operating characteristic) is used to iteratively learn the best dimensions of each embedding layer, and determine the best dimensions of each learned embedding layer 111 as the dimensions of each embedding layer 111.
  • the dimensional learning model may be based on reinforcement learning or Bayesian optimization.
  • the present disclosure is not limited thereto, and the dimensional learning model may also be any other available machine learning model.
  • the plurality of embedded layers 111 since the dimensions of each of the embedded layers 111 in the plurality of embedded layers 111 are determined separately during the training of the neural network model 100, the plurality of embedded layers 111 The dimensions of the embedded layer 111 may be adaptively determined without necessarily having the same dimensions as each other.
  • the training device 230 may further pass the feature embedding vector output by each embedding layer 111 through the corresponding underlying neural network model 112, and learn through the corresponding underlying neural network model 112.
  • Feature information representation of corresponding features may be a DNN model.
  • the amount of information input to the neural network model can be automatically controlled based on the information corresponding to the feature itself, thereby further improving the prediction effect of the neural network model.
  • the training device 230 may directly pass at least one continuous feature of the training sample through the corresponding underlying neural network model 112, and through the corresponding underlying neural network model 112 Learn the feature information representation corresponding to continuous features.
  • the training device 230 may further embed the feature embedding vector output by the embedding layer 111 with the feature embedding vector, respectively.
  • the output of the corresponding underlying neural network model 112 performs a function operation, and the function operation result is used as the feature information learned by the corresponding underlying neural network model 112 (for example, as shown in FIG. 4 for feature 1 and feature 2). Processing).
  • the training device 230 may perform a function operation on the continuous features and the output of the corresponding underlying neural network model 112, and use the result of the function operation as the The feature information representation output by the corresponding underlying neural network model 112 is described (for example, processing on feature 3 as shown in FIG. 4).
  • the prediction ability of each feature can be effectively used, so that more important features can play a greater role in the prediction result, and less important features. It plays a small role in predicting the results, and even does not work.
  • the output of the underlying neural network model 112 can be regarded as a certain amount of information representation of the feature. By using it and the feature embedding vector to adjust the actual content of the feature and finally enter the second level model 120, it can further ensure the neural network model. Learning effect.
  • the function operation may be a bitwise addition or a bitwise multiplication operation.
  • f (E, O) represents an operation relationship of E and O bitwise multiplication
  • O is regarded as a switch for controlling the amount of information flowing into E.
  • the function operation may also have other different function expression forms specified in advance, and is not limited to the above-mentioned bitwise addition or bitwise multiplication operation, such as
  • f, f e, and f o can be any operation function.
  • parameters of the function operation (for example, a and b described above) may be learned during the process of training the neural network model based on training samples.
  • the feature embedding vector input from the embedding layer 111 to the underlying neural network model 112 and the output of the corresponding underlying neural network structure 112 may have different dimensions, In other words, it will further bring flexibility to the model through the change of feature dimensions.
  • the feature embedding vector output by the embedding layer 111 and the output of the corresponding underlying neural network model 112 have different dimensions
  • the feature embedding vector output by the embedding layer 111 and the corresponding The output of the underlying neural network model 112 is dimensionally unified, and then the feature embedding vector with the unified dimensions is functionally calculated with the output of the corresponding underlying neural network structure 112.
  • At least one of the feature embedding vector output by the embedding layer 111 and the output of the corresponding underlying neural network model 112 may be place-filled so that the feature embedding vector output by the embedding layer 111 and the corresponding underlying neural network model
  • the output dimensions of 112 are the same.
  • At least one of the feature embedding vector output by the embedding layer 111 and the output of the corresponding underlying neural network structure 112 may also be multiplied by the transformation matrix, so that the feature embedding vector output by the embedding layer 111 and the corresponding underlying nerve
  • the output dimensions of the network model 112 are the same.
  • such a transformation matrix may be learned during the training device 230 training the neural network model 100 based on training samples.
  • the feature information output from the first-level model 110 indicates that it can be used as at least one input item of the second-level model 120.
  • the second hierarchy model 120 may include a plurality of intermediate models 120-1 to 120-N. Accordingly, the training device 230 may learn the interactive representations between the corresponding input items through the multiple intermediate models 120-1 to 120-N included in the second-level model 120, respectively.
  • the corresponding input item includes at least one of the feature information representations output by the first-level model 110.
  • the input items of the second-level model 120 may further include at least one feature embedding vector and / or at least one output from each embedding layer 111 of the first-level model 110.
  • Original features ie, original discrete features or original continuous features themselves.
  • the training device 230 may learn the corresponding at least one feature information representation, at least one feature through a plurality of intermediate models 120-1 to 120-N included in the second hierarchical model 120. An interactive representation between the embedding vector and / or at least one original feature.
  • the characteristics corresponding to the features may correspond to The characteristics of the feature embedding vector and / or the characteristics represented by the feature information corresponding to the original features), the combination of the features, and / or the learning ability characteristics of various types of models to determine the type of the intermediate model and its corresponding Inputs (ie, at least one feature embedding vector, at least one feature information representation, and / or at least one original feature).
  • an input item corresponding to the intermediate model (that is, at least one feature information representation corresponding to each intermediate model, at least one feature embedding vector, and / or at least one original feature may also be used. At least one of) is transformed, spliced, and / or operated to obtain at least a part of the input of each of the intermediate models.
  • the operation may include performing a summation operation, a mean operation, a maximum pooling operation, and / or a weighting operation based on an attention mechanism on at least one of the original or transformed input terms corresponding to each intermediate model.
  • the attention mechanism-based weighting operation may be performed via a specialized attention mechanism network, that is, the original or transformed learning may be learned via the specialized attention mechanism network.
  • the plurality of intermediate models 120-1 to 120 -N may be a full-input neural network model (for example, a deep neural network (DNN) model), a combined feature At least one of a neural network model (ie, a Crossfeature neural network model), a model based on a factor decomposition mechanism (eg, a DNN model based on FM features), and the like.
  • a neural network model ie, a Crossfeature neural network model
  • a model based on a factor decomposition mechanism eg, a DNN model based on FM features
  • the input of the full-input neural network model may be the stitching result of all the input items
  • the input of the combined feature neural network model may be the stitching result of the input items corresponding to the features that can be combined among all the input items
  • the combined feature neural network model may include a logistic regression model, that is, the logistic regression model may be regarded as a single-layer combined feature neural network model), and the input of the model based on the factor decomposition mechanism may be among all the input items.
  • the result of the operation is obtained by bitwise addition of the multiplication result.
  • each intermediate model is not limited to the feature information representation, and may also include the feature embedding vector and / or the original feature itself output by the embedding layer 111, so that it respectively learns the corresponding at least a part of the feature information representation.
  • the interactive representation of the image further learn the interactive representation between the feature embedding vector and / or the original feature and the feature information representation.
  • the training device 230 may learn the prediction result based on at least the interactive representation output by the second-level model 120 through the top-level neural network model of the third-level model 130 of the neural network model 100.
  • the third-level model 130 may include a single top-level neural network model.
  • the single top-level neural network model may be any common ordinary neural network model, or may also be any variation of the ordinary neural network structure.
  • the input of the third-level model 130 may further include at least one feature information representation output by the first-level model 110, by the one or more At least one feature embedding vector, at least one original discrete feature, and / or at least one original continuous feature output from the embedding layers 111. That is, in the exemplary embodiment of the present disclosure, the training device 230 may use the top-level neural network model as the third-level model 130 of the neural network model 100 to base on at least one interactive representation, The at least one feature information output by the one-level model 110 represents the at least one feature embedding vector output by the one or more embedding layers 111 and / or the at least one original feature learning prediction result.
  • At least one interactive representation output by the second-level model 120, at least one feature information representation output by the first-level model 110, and at least one output by the one or more embedded layers 111 may also be used.
  • the feature embedding vector and / or at least one original feature are stitched and / or operated to obtain at least a part of the input of the top-level neural network model.
  • the training device 230 may adjust the neural network model 100 including the three-level model based on at least the difference between the prediction result output by the third-level model 130 and the labels of the training samples.
  • the prediction result y pred is usually obtained at the output layer of the model. Then, the prediction result y pred of the neural network model and the training sample can be obtained.
  • the value of the true label y true (that is, the true result of the predicted target of the neural network model), calculates the loss according to the specified loss function, and then backpropagates, thereby completing the parameter update of the neural network model .
  • the performance of neural networks may be difficult to improve as expected.
  • the training device 230 may obtain a layer prediction result corresponding to the output of each layer for at least a part of the layers of the subject neural network structure in the neural network model 100, respectively.
  • the main neural network structure does not include an output layer.
  • supervising information can be introduced at each layer of the neural network to build a deep neural network supervised layer by layer, which can further improve the prediction effect of the neural network model.
  • the subject neural network structure may include all layers except the output layer of the neural network model 100, or the subject neural network structure may include each of the main prediction functions in addition to the output layer of the neural network model 100 Floor.
  • the neural network model 100 is a composite neural network including three hierarchical structures.
  • the main neural network structure can be determined according to the artificial designation made by the user based on the understanding of the model algorithm, data situation and / or model application scenario, and the main predictive part of the neural network can also be determined by testing means.
  • the host neural network structure may include at least a portion of layers other than the output layer in the entire neural network model 100, and these layers may be at the same or different levels.
  • the output layer of the neural network model 100 may refer to the output layer of the third-level model 130, and at least one or more of the other neural network layers of the neural network model 100 may be Considered to be included in the main neural network structure.
  • the training device 130 may obtain a layer prediction corresponding to each layer by respectively transforming the output of each layer in at least a part of the layer of the subject's neural network structure at least once. result. For example only, during the conversion process, the training device 130 may multiply the layer weight matrix of each layer in at least a part of the layer of the main neural network structure with the output of each layer and offset the corresponding layer. Terms are added to perform a conversion. As an example, the above-mentioned layer weight matrix and the bias term can both be used as parameters of a loss function to learn parameter values during training, or the bias term can be set to a constant (or even 0) without having to learn .
  • the above conversion result may be directly used as a layer prediction result, or may be used as an input of an activation function, and an output of the activation function may be used as a layer prediction result.
  • the output of the i-th layer of the neural network structure body is the size of the matrix H b ⁇ h i of i (i.e., ),
  • b is the size of the batch (batch size)
  • h i is the number of neurons in the network of the i-th layer
  • b i can be a constant or even 0.
  • the output H i of the i-th layer (i is a natural number) is obtained by one conversion to obtain the prediction result of the layer is shown here, the disclosure is not limited thereto, and the output H i of the i-th layer is also Can go through multiple conversions.
  • the result obtained from the first transformation may be used as an input variable, and the second transformation is performed again, and so on, to finally obtain the layer prediction result y i .
  • each activation of a function f conversion type and its parameters may be the same or different, where
  • the layer weight matrix W i and the bias term b i can be learned in the process of training the neural network model.
  • the training device 230 may based on the difference between the prediction result y out output from the output layer of the neural network model 100 and the label y true of the training sample and each The layer prediction difference between the layer prediction result and the label y true of the training sample is used to construct a model loss function, and the neural network model is adjusted according to the model loss function.
  • FIG. 5 is a schematic diagram illustrating a neural network model having a plurality of neural network layers according to an exemplary embodiment of the present disclosure.
  • the neural network model 500 is a simplified diagram of the neural network model 100, and the hierarchical structure therein is weakened.
  • the neural network model 500 may include a main neural network structure 510 and an output layer 520.
  • the main neural network structure 510 may include a plurality of intermediate layers h 0 511 and h 1 512 and the like, and the output layer h 2 520
  • the output y out is the prediction result of the neural network model 500.
  • the multiple intermediate layers h 0 511 and h 1 512 and the like may cover at least a part of a network layer among a bottom layer neural network model, an intermediate model, and / or a top layer neural network model located in each layer.
  • the training device 230 may obtain the layer prediction results corresponding to at least one intermediate layer h 0 511 and h 1 512 of the subject neural network structure 510, for example, the layer prediction result y 0 for the intermediate layer h 0 511. And the layer prediction result y 1 for the intermediate layer h 1 512 and so on. Then, based on the difference between the prediction result y out output from the output layer h 2 520 of the neural network model 500 and the label y true of the training samples and the prediction results y 0 and y 1 of each layer and the label y true The difference between the layer predictions is used to build the model loss function L.
  • model loss function L may be constructed according to the following equation (2):
  • l out represents the output layer loss function
  • l 0 and l 1 represent the layer loss functions of the intermediate layers h 0 511 and h 1 512, respectively
  • w 0 and w 1 represent the corresponding layers of the intermediate layer h 0 511 and h 1 512, respectively.
  • Loss function weights may be constructed based on the difference between the prediction result output by the output layer 520 of the neural network model and the label y true , and based on the difference between the prediction result of each layer and the label y true , respectively.
  • the layer prediction difference is used to construct the layer loss function of each layer
  • the model loss function is constructed by weighted summing the output layer loss function and each layer loss function.
  • the values of w 0 and w 1 may be changed according to a predetermined rule, for example, the values of w 0 and w 1 may be set to be changed regularly (for example, in training a neural network model In the process, it is attenuated according to each round of iterations), or it can be learned during the training of the neural network model (for example, learned through a special attention mechanism network).
  • various variables that can be learned in the neural network model can be learned through methods such as gradient descent, such as a layer weight matrix, a bias term, and an attention Operation-related weights, etc.
  • L may be the derivative of the weight matrix W i layer, in order to update W i.
  • the main neural network structure 510 includes two intermediate layers h 0 511 and h 1 512, and a prediction result for the intermediate layer h 0 511 is used in the process of calculating the loss function L. y 0 and the prediction result y 1 for the intermediate layer h 1 512, but the present disclosure is not limited thereto, the main neural network structure 510 may include more intermediate layers due to the specific structure of the neural network model, and when there are multiple In the middle layer, only the layer prediction results for a part of the plurality of middle layers may be used.
  • the function type of each layer loss function may be dynamically set, and / or
  • the specific layers in the main neural network structure 510 that participate in the above-mentioned loss calculation process can also be dynamically set.
  • l out , l 0 , and l 1 may be different, thereby further increasing randomness.
  • l 0 may be a cross entropy (cross entropy) loss function.
  • l 1 can be a hinge loss function.
  • l out and l 0 exist for the first batch of training samples, while all three exist for the second batch of training samples.
  • the layer loss function can be selected for each batch of data in the following ways.
  • a specific distribution For example, if a sequence consisting of k 0s or 1s is sampled in a binomial distribution), and the sequence is multiplied by a loss function composed of the output layer loss function or each layer loss function, the part multiplied by 0 is discarded. , Does not calculate its corresponding loss.
  • the neural network model 100 can be better trained, and thus a higher prediction effect can be obtained.
  • the trained neural network model 100 can be used to make predictions using the prediction data records.
  • FIG. 6 is a prediction system 600 illustrating a neural network model according to an embodiment of the present disclosure.
  • the prediction system 600 may include: a data acquisition device 610 for acquiring a prediction data record; and a sample generation device 620 for generating characteristics of a prediction sample based on attribute information of the prediction data record obtained by the data acquisition device 610. And a prediction device 630, which is configured to provide a corresponding prediction result for a prediction sample generated by the sample generation device 620 by using a trained neural network model.
  • the data acquisition device 610 may obtain prediction data records from any data source based on a manual, automatic, or semi-automatic manner; accordingly, the sample generation device 620 may generate predictions in a manner corresponding to the sample generation device 220 in the training system 200 The characteristics of the sample are just that there are no labels in the predicted sample.
  • the neural network model used by the prediction device 630 may be the neural network model 100 trained by the neural network model training system 200 and the training method as described above.
  • the mechanism of model execution processing will not be described in more detail here.
  • FIG. 7 is a flowchart illustrating a prediction method 700 of a neural network model according to an embodiment of the present disclosure.
  • a prediction data record may be acquired through the data acquisition device 610.
  • the prediction data record and the training data record are data records of the same type. That is, what kind of data is used for training the neural network model 100 trained by the neural network model training system 200 and the training method as described above, what kind of data is the prediction data when the prediction is performed.
  • the training data is image data and its mark (the mark is text in the image), then the prediction data is also image data containing text.
  • the predicted data records can be collected manually, semi-automatically, or fully automatically, or the collected raw data can be processed so that the processed data records have an appropriate format or form.
  • data can be collected in batches.
  • a data record manually input by a user may be received through an input device (for example, a workstation).
  • data records can be systematically fetched from the data source in a fully automatic manner, for example, through a timer mechanism implemented in software, firmware, hardware, or a combination thereof, to systematically request the data source and obtain the requested data from the response.
  • the data source may include one or more databases or other servers.
  • the fully automatic data acquisition method can be implemented via an internal network and / or an external network, which may include transmitting encrypted data via the Internet.
  • the server, database, network, etc. are configured to communicate with each other, data collection can be performed automatically without manual intervention, but it should be noted that there may still be some user input operations in this way.
  • the semi-automatic mode is between manual mode and fully automatic mode.
  • the difference between the semi-automatic method and the fully-automatic method is that a trigger mechanism activated by a user replaces, for example, a timer mechanism.
  • a request to extract data is generated only when a specific user input is received.
  • Each time data is acquired, preferably, the captured data may be stored in a non-volatile memory.
  • a data warehouse can be utilized to store raw data collected during acquisition and processed data.
  • the data records obtained above may come from the same or different data sources, that is, each data record may also be a result of the splicing of different data records.
  • information data records which include attribute information fields such as income, education, job title, and asset information
  • other data records of the customer at the bank can also be obtained
  • loan records, daily transaction data, etc. these acquired data records can be spliced into complete data records.
  • data from other private or public sources can also be obtained, such as data from data providers, data from the Internet (e.g., social networking sites), data from mobile operators, and APP operations Data from suppliers, data from courier companies, data from credit agencies, and so on.
  • the collected data may be stored and / or processed by means of a hardware cluster (such as a Hadoop cluster, a Spark cluster, etc.), for example, storage, classification, and other offline operations.
  • a hardware cluster such as a Hadoop cluster, a Spark cluster, etc.
  • the collected data can also be streamed online.
  • unstructured data such as text can be converted into structured data that is easier to use for further processing or reference later.
  • Text-based data can include email, documents, web pages, graphics, spreadsheets, call center logs, transaction reports, and more.
  • step 720 the characteristics of the prediction sample can be generated by the sample generation device 620 based on the attribute information of the prediction data record obtained in step 710.
  • the prediction device 630 may use the trained neural network model to provide corresponding prediction results for the prediction samples generated in step 720.
  • the neural network model used in step 730 may be the neural network model 100 trained by the neural network model training system 200 and the training method as described above. The mechanism by which the network model performs processing will not be described in more detail here.
  • FIG. 1 to FIG. 7 may be respectively configured as software, hardware, firmware or any combination of the above to perform specific functions.
  • these systems, devices, or units may correspond to dedicated integrated circuits, may also correspond to pure software codes, and may also correspond to modules that combine software and hardware.
  • one or more functions implemented by these systems, devices, or units may also be uniformly performed by components in a physical entity device (for example, a processor, a client, or a server).
  • the above method may be implemented by a program recorded on a computer-readable medium.
  • a computer-readable medium may be provided in which useful information is recorded on the computer-readable medium.
  • the feature information of each feature is separately learned through multiple underlying neural network models included in the first-level model of the neural network model.
  • Interactive representations between corresponding input items are respectively learned through multiple intermediate models included in the second-level model of the neural network model, where the corresponding input items are represented by feature information output by the first-level model.
  • At least one of the A top-level neural network model of the hierarchical model to learn a prediction result based on at least the interactive representation of the output of the second-level model, and adjust the neural network model including the three-level model based on at least the difference between the prediction result and the marker .
  • a computer-readable medium in which a computer program for performing the following method steps by one or more computing devices is recorded on the computer-readable medium: Obtain prediction data records; generate the characteristics of prediction samples based on the attribute information of the prediction data records; and use the neural network model trained by the aforementioned training method to provide corresponding prediction results for the prediction samples.
  • the present disclosure provides a computer-readable storage medium storing instructions, wherein when the instructions are executed by at least one computing device, the at least one computing device is caused to execute a method including a three-level model in any embodiment of the present disclosure. Training method of neural network model.
  • the present disclosure also provides a computer-readable storage medium storing instructions, wherein when the instructions are executed by at least one computing device, the at least one computing device is caused to perform the use of a nerve according to any embodiment of the present disclosure.
  • the network model performs predictions.
  • the computer program in the computer-readable medium described above can be run in an environment deployed in a computer device such as a client, host, proxy device, server, etc. It should be noted that the computer program can also be used to perform additional steps in addition to the above steps or More specific processing is performed when the above steps are performed. The content of these additional steps and further processing has been mentioned in the description of the related method with reference to FIG. 1 to FIG. 7, so it will not be repeated here in order to avoid repetition.
  • the method and system for training a neural network model may completely rely on the operation of a computer program to achieve corresponding functions, that is, each unit or device corresponds to each step in the functional architecture of the computer program , So that the entire device or system is called through a special software package (for example, a lib library) to achieve the corresponding function.
  • a special software package for example, a lib library
  • the program code or code segment for performing the corresponding operation may be stored in a computer such as a storage medium
  • the readable medium enables the processor to perform corresponding operations by reading and running corresponding program code or code segments.
  • a system implementing a method for training a neural network model may include one or more computing devices and one or more storage devices, where instructions are recorded on the one or more storage devices , When the instruction is executed by the one or more computing devices, causes the one or more computing devices to perform the following steps: acquiring a training data record; generating characteristics of training samples based on attribute information of the training data records, And use the labels of the training data records as the labels of the training samples; and use the set of training samples to train the neural network model, wherein during the process of training the neural network model, a plurality of The underlying neural network model is used to separately learn the feature information representation of each feature itself, and the multiple intermediate models included in the second-level model of the neural network model are respectively used to learn the interactive representations between the corresponding input items, wherein, the Corresponding input items are included in the feature information output by the first-level model At least one, the prediction result is learned based on at least the interactive representation of the output of the second-level model
  • a system implementing a prediction method of a neural network model may include one or more computing devices and one or more storage devices, wherein the one or Instructions are recorded on the multiple storage devices, and when the instructions are executed by the one or more computing devices, cause the one or more computing devices to perform the following steps: obtaining a prediction data record; based on the attributes of the prediction data record Information to generate the characteristics of the prediction samples; and using the neural network model trained as described above to provide corresponding prediction results for the prediction samples.
  • the present disclosure includes a system for training at least one computing device and at least one storage device storing instructions including a three-level model of a neural network model, and the instructions, when executed by the at least one computing device, cause the at least one computing device to execute A method for training a neural network model including a three-level model in any embodiment of the present disclosure.
  • the present disclosure provides a prediction system including at least one computing device and at least one storage device that stores instructions that, when executed by the at least one computing device, cause the at least one computing device to perform the following steps: obtaining prediction data Records; generating characteristics of prediction samples based on attribute information recorded by the prediction data; and a neural network model trained using a neural network model training method including a three-level model in any embodiment of the present disclosure, provided for the prediction samples Corresponding forecast results.
  • the above system can be deployed in a server or on a node device in a distributed network environment.
  • the system device may further include a video display (such as a liquid crystal display) and a user interaction interface (such as a keyboard, a mouse, a touch input device, etc.). All components of the system device may be connected to each other via a bus and / or a network.
  • the system does not have to be a single device, but can also be an assembly of any device or circuit capable of executing the above-mentioned instructions (or instruction sets) individually or jointly.
  • the system may also be part of an integrated control system or system manager, or may be configured as a portable electronic device that is interconnected with a local or remote (e.g., via wireless transmission) interface.
  • a computing device for performing a training method or a prediction method of a neural network model may be a processor, and such a processor may include a central processing unit (CPU), graphics processing Processor (GPU), programmable logic device, special-purpose processor system, microcontroller or microprocessor.
  • the processor may further include an analog processor, a digital processor, a microprocessor, a multi-core processor, a processor array, a network processor, and the like.
  • the processor may execute instructions or code stored in one of the storage devices, wherein the storage device may also store data. Instructions and data can also be sent and received over a network via a network interface device, which can employ any known transmission protocol.
  • the storage device may be integrated with the processor, for example, the RAM or the flash memory is arranged in an integrated circuit microprocessor or the like.
  • the storage device may include a stand-alone device, such as an external disk drive, a storage array, or other storage device usable by any database system.
  • the storage device and the processor may be operatively coupled, or may communicate with each other, for example, through an I / O port, a network connection, or the like, so that the processor can read a file stored in the storage device.
  • the exemplary implementation of this disclosure focuses on solving the problems of low generality and low accuracy of current algorithms.
  • the implementation of the exemplary embodiments of the present disclosure does not rely on any restrictions on specific business logic, but focuses on a more general scenario.
  • the exemplary embodiments of the present disclosure are not focused on one specific scenario, but can be applied to many different scenarios, such as recommendation systems, advertising systems, and so on.
  • the modeler can continue to add his own business experience and the like to further improve the effect. Therefore, the exemplary embodiment of the present disclosure considers the abstraction of the application scenario, and does not target a specific scenario, but is applicable to each scenario.
  • the training data or prediction data may be image data, voice data, data used to describe an engineering control object, data used to describe a user (or its behavior), and
  • the model is designed to predict problems related to the above objects or events.
  • the model can be used to predict image categories, text categories, voice sentiment, fraudulent transactions, ad click rates, etc., so that the prediction result can be used directly as a decision basis or further combined with other rules to become a decision basis.
  • the exemplary embodiments of the present disclosure do not limit the specific technical field involved in the prediction purpose of the model, but the reason is that the model is fully applicable to any specific field or scenario capable of providing corresponding training data or prediction data, and it does not mean in any way This model cannot be applied to related technical fields.
  • the scenarios in which the neural network model 100 including the three-level model in this application can be applied include, but are not limited to, the following scenarios: image processing scenarios, speech recognition scenarios, natural language processing scenarios, automatic control scenarios, intelligent question answering scenarios , Business decision scenarios, recommended business scenarios, search scenarios, and abnormal behavior detection scenarios.
  • image processing scenarios speech recognition scenarios
  • natural language processing scenarios natural language processing scenarios
  • automatic control scenarios intelligent question answering scenarios
  • Business decision scenarios recommended business scenarios
  • search scenarios search scenarios
  • abnormal behavior detection scenarios For more specific application scenarios under the above scenarios, see the previous description.
  • the training method and system and prediction method and system of the neural network model of the present application can also be applied to any of the above scenarios, and the training method and system and prediction method and system of the neural network model of the present application are applied in In different scenarios, there is no difference in the overall execution scheme, but the data targeted in different scenarios is different. Therefore, those skilled in the art can apply the scheme of this application to different scenarios without any obstacle based on the foregoing scheme disclosure. There is no need to explain each scenario one by one.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种包括三层级模型的神经网络模型的训练方法和系统以及预测方法和系统。所述训练方法包括:获取训练数据记录;基于训练数据记录的属性信息来生成训练样本的特征,并将训练数据记录的标记作为训练样本的标记;利用训练样本的集合来训练神经网络模型,其中,在训练神经网络模型的过程中,通过神经网络模型的第一层级模型(110)所包括的多个底层神经网络模型(112)来分别学习出每个特征自身的特征信息表示,通过神经网络模型的第二层级模型(120)所包括的多个中间模型来分别学习出对应输入项之间的交互表示,通过神经网络模型的第三层级模型(130)来至少基于第二层级模型(120)输出的交互表示学习出预测结果,并至少基于预测结果与标记之间的差异来调整所述神经网络模型。

Description

神经网络模型的训练方法和系统以及预测方法和系统 技术领域
本申请要求两件中国专利申请的优先权:(1)申请号为201810813359.9,申请日为2018年07月23日,名称为“神经网络模型的训练方法和系统以及预测方法和系统”的中国专利申请;(2)申请号为201910618144.6,申请日为2019年07月10日,名称为“神经网络模型的训练方法和系统以及预测方法和系统”的中国专利申请。
本申请涉及深度学习,更具体地讲,涉及一种包括三层网络模型的神经网络模型的训练方法和训练系统以及预测方法和预测系统。
背景技术
随着海量数据的出现,人工智能技术迅速发展。机器学习(包括深度学习)等是人工智能发展到一定阶段的必然产物,其致力于通过计算的手段,从大量数据中挖掘有价值的潜在信息。
例如,在深度学习领域所常使用的神经网络模型中,通常是通过将训练数据记录提供给神经网络模型来训练该神经网络模型以确定该神经网络模型的理想参数,而训练好的神经网络模型可被应用于在面对新的预测数据记录时提供相应的预测结果。
目前,深度学习已经在很多领域取得了突破性进展,如计算机视觉,语音识别等。然而,如何将深度学习应用于工业界常见的大规模离散特征数据上,仍有待探索。工业界和学术界提出了十余个基于深度神经网络(Deep Neural Network,DNN)的模型,如Google的Wide&Deep、Microsoft的Deep Crossing、阿里巴巴的DIN等,相对于传统的深度学习算法,取得了不错的效果。但上述算法对应的模型结构均依赖自身业务和数据类型,通用性不够。
发明内容
根据本申请示例性实施例,提供了一种包括三层级模型的神经网络模型的训练方法,所述方法包括:获取训练数据记录;基于训练数据记录的属性信息来生成训练样本的特征,并将训练数据记录的标记作为训练样本的标记;以及利用训练样本的集合来训练神经网络模型,其中,在训练神经网络模型的过程中,通过神经网络模型的第一层级模型所包括的多个底层神经网络模型来分别学习出每个特征自身的特征信息表示,通过神经网络模型的第二层级模型所包括的多个中间模型来分别学习出对应输入项之间的交互表示,其中,所述对应输入项包括由第一层级模型输出的特征信息表示之中的至少一个,通过作为神经网络模型的第三层级模型的顶层神经网络模型来至少基于第二层级模型输出的交互表示学习出预测结果,并至少基于所述预测结果与所述标记之间的差异来调整所述包括三层级模型的神经网络模型。
根据本申请另一示例性实施例,提供了一种包括三层级模型的神经网络模型的训练系统,所述系统包括:数据获取装置,用于获取训练数据记录;样本生成装置,用于基于训练数据记录的属性信息来生成训练样本的特征,并将训练数据记录的标记作为训练样本的标记;以及训练装置,用于利用训练样本的集合来训练神经网络模型,其中,在训练神经网络模型的过程中,训练装置通过神经网络模型的第一层级模型所包括的多个底层神经网络模型来分别学习出每个特征自身的特征信息表示,通过神经网络模型的第二层级模型所包括的多个中间模型来分别学习出对应输入项之间的交互表示,通过作为神经网络模型的第三层级模型的顶层神经网络模型来至少基于第二层级模型输出的交互表示学习出预测结果,并至少基于所述预测结果与所述标记之间的差异来调整所述包括三层级模型的神经网络模型,其中,所述对应输入项包括由第一层级模型输出的特征信息表示之中的至少一个。
根据本申请另一示例性实施例,提供了一种计算机可读介质,其中,在所述计算机可读介质上记录有用于由一个或多个计算装置执行前述包括三层级模型的神经网络模型的训练方法的计算机程序。
根据本申请另一示例性实施例,提供了一种包括一个或多个计算装置和一个或多个存储装置的系统,其中,所述一个或多个存储装置上记录有指令,所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现前述包括三层级模型的神经网络模型的训练方法。
根据本申请另一示例性实施例,提供了一种利用神经网络模型执行预测的方法,所述方法包括:获取预测数据记录;基于预测数据记录的属性信息来生成预测样本的特征;以及利用前述包括三层级模型的神经网络模型的训练方法所训练出的神经网络模型,针对预测样本来提供相应的预测结果。
根据本申请另一示例性实施例,提供了一种利用神经网络模型执行预测的预测系统,所述预测系统包括:数据获取装置,获取预测数据记录;样本生成装置,基于预测数据记录的属性信息来生成预测样本的特征;以及预测装置,利用前述包括三层级模型的神经网络模型的训练方法所训练出的神经网络模 型,针对预测样本来提供相应的预测结果。
根据本申请另一示例性实施例,提供了一种计算机可读介质,其中,在所述计算机可读介质上记录有用于由一个或多个计算装置执行前述利用神经网络模型执行预测的方法的计算机程序。
根据本申请另一示例性实施例,提供了一种包括一个或多个计算装置和一个或多个存储装置的系统,所述一个或多个存储装置上记录有指令,所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现前述利用神经网络模型执行预测的方法。
通过应用根据本公开的示例性实施例的神经网络模型的训练方法和系统以及预测方法和系统,能够更为有效地提取特征本身和特征之间的信息,并进而基于这些信息来学习预测目标,提高了模型的预测效果。
将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本公开总体构思的实施而得知。
附图说明
从下面结合附图对本申请实施例的详细描述中,本申请的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1是示出根据本公开的示例性实施例的包括三层级模型的神经网络模型的示图;
图2是示出根据本公开的示例性实施例的神经网络模型的训练系统;
图3是示出根据本公开的示例性实施例的神经网络模型的训练方法的流程图;
图4是示出根据本公开的另一示例性实施例的第一层级模型的示图;
图5是示出根据本公开的示例性实施例的具有多个神经网络层的神经网络模型的示意性示图;
图6是示出根据本公开的实施例的神经网络模型的预测系统;
图7是示出根据本公开的实施例的神经网络模型的预测方法的流程图。
在下文中,将结合附图详细描述本公开,贯穿附图,相同或相似的元件将用相同或相似的标号来指示。
具体实施方式
提供以下参照附图进行的描述,以帮助全面理解由权利要求及其等同物限定的本公开的示例性实施例。所述描述包括各种特定细节以帮助理解,但这些细节被认为仅是示例性的。因此,本领域的普通技术人员将认识到:在不脱离本公开的范围和精神的情况下,可对这里描述的实施例进行各种改变和修改。此外,为了清楚和简明,可省略已知功能和构造的描述。在此需要说明的是,在本公开中出现的“并且/或者”、“和/或”均表示涉及所列项中的至少一个的情况。例如“包括A和/或B”表示包括A和B中的至少一个,即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一并且/或者步骤二”表示执行步骤一和步骤二中的至少一个,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。又例如,“包括A、B和\或C”表示包括A、B和C中的至少一个,即表示如下七种情况:(1)包括A;(2)包括B;(3)包括C;(4)包括A和B;(5)包括A和C;(6)包括B和C;(7)包括A、B和C。
随着海量数据的出现,人工智能技术得到了迅速发展,机器学习(包括神经网络)是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。
而为了从大量数据中挖掘出价值,则要求相关人员不仅需要精通人工智能技术(特别是机器学习技术),还需要非常熟悉应用机器学习技术的具体场景(例如,图像处理、语音处理、自动控制、金融业务、互联网广告等)。例如,若相关人员对业务了解不够,或建模经验不足,很容易导致较差的建模效果。目前可从两个方面缓解该现象,一是降低机器学习的门槛,使得机器学习算法易于上手;二是提高模型精度,使得算法通用性高,能够产生更好的结果。应理解,这两个方面并非对立,比如第二个方面中算法效果的提升,可以帮助第一点。此外,在期望利用神经网络模型进行相应的目标预测时,相关人员不仅需要熟悉关于神经网络的各种复杂技术细节,还需要理解所预测目标涉及的数据背后的业务逻辑,比如,如果想利用机器学习模型判别犯罪嫌疑犯,相关人员还必须理解哪些特性是犯罪嫌疑犯可能所具有的;如果想利用机器学习模型判别金融行业的欺诈交易,相关人员还必须了解金融行业的交易习惯以及一系列相应的专家规则等。上述种种都给机器学习技术的应用前景带来非常大的困难。
为此,技术人员希望通过技术的手段来解决上述问题,在有效提高神经网络模型效果的同时,降低模型训练和应用的门槛。在此过程中涉及诸多技术问题,例如,要想得到切实有效的模型,不仅要面对 训练数据本身的不理想(例如,训练数据不足、训练数据存在缺失、训练数据稀疏、训练数据与预测数据的分布差异等),还需要解决海量数据的运算效率问题。也就是说,现实中不可能依靠无限复杂的理想模型,利用完美的训练数据集来解决执行机器学习过程。作为针对预测目的的数据处理系统或方法,任何用于训练模型的方案或利用模型进行预测的方案均必须受制于客观存在的数据限制和运算资源限制,通过在计算机中利用特定的数据处理机制来解决上述技术问题。这些数据处理机制所依托的是计算机的处理能力、处理方式和处理数据,并非是纯粹的数学或统计计算。
图1是示出根据本公开的示例性实施例的包括三层级模型的神经网络模型100的示图。
参照图1,根据本公开的示例性实施例的包括三层级模型的神经网络模型100可包括第一层级模型110、第二层级模型120以及第三层级模型130。
如图1中所示,在本公开的示例性实施例中,所述第一层级模型110可包括一个或更多个底层神经网络模型112,其被设计为分别学习出每个特征自身的特征信息表示;作为示例,所述第一层级模型110可还包括一个或更多个基于嵌入(embedding)函数的嵌入层111,每个嵌入层111可连接到对应的底层神经网络模型112。所述第二层级模型120可包括多个中间模型120-1至120-N,其被设计为分别学习出对应输入项之间的交互表示,其中,所述对应输入项可包括由第一层级模型输出的特征信息表示之中的至少一个。所述第三层级模型130可以是单个神经网络模型,其被设计为至少基于第二层级模型输出的交互表示学习出预测结果。
本公开实施例中的包括三层级模型的神经网络模型100可被用于预测图像类别、文本类别、语音情感、欺诈交易、广告点击率等。
更进一步来说,本公开实施例中的包括三层级模型的神经网络模型100可被用于的场景包括但不限于以下场景:
图像处理场景,包括:光学字符识别OCR、人脸识别、物体识别和图片分类;更具体地举例来说,OCR可应用于票据(如发票)识别、手写字识别等,人脸识别可应用安防等领域,物体识别可应用于自动驾驶场景中的交通标志识别,图片分类可应用于电商平台的“拍照购”、“找同款”等。
语音识别场景,包括可通过语音进行人机交互的产品,如手机的语音助手(如苹果手机的Siri)、智能音箱等;
自然语言处理场景,包括:审查文本(如合同、法律文书和客服记录等)、垃圾内容识别(如垃圾短信识别)和文本分类(情感、意图和主题等);
自动控制场景,包括:矿井组调节操作预测、风力发电机组调节操作预测和空调系统调节操作预测;具体的对于矿井组可预测开采率高的一组调节操作,对于风力发电机组可预测发电效率高的一组调节操作,对于空调系统,可以预测满足需求的同时节省能耗的一组调节操作;
智能问答场景,包括:聊天机器人和智能客服;
业务决策场景,包括:金融科技领域、医疗领域和市政领域的场景,其中:
金融科技领域包括:营销(如优惠券使用预测、广告点击行为预测、用户画像挖掘等)与获客、反欺诈、反洗钱、承保和信用评分、商品价格预测;
医疗领域包括:疾病筛查和预防、个性化健康管理和辅助诊断;
市政领域包括:社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障、智慧城市(公交、网约车、共享单车等各类城市资源的调配和管理);
推荐业务场景,包括:新闻、广告、音乐、咨询、视频和金融产品(如理财、保险等)的推荐;
搜索场景,包括:网页搜索、图像搜索、文本搜索、视频搜索等;
异常行为检测场景,包括:国家电网客户用电异常行为检测、网络恶意流量检测、操作日志中的异常行为检测等。
应注意。在本公开的示例性实施例中,术语“层级”不同于构成神经网络的层,一个层级可涵盖单一的神经网络结构整体所执行的一系列运算集合,其可包含多个层。
在下文中,将结合图2至图5来详细解释包括三层级模型的神经网络模型100的训练过程。
图2是示出根据本公开的示例性实施例的包括三层级模型的神经网络模型100的训练系统200。
如图2中所示,所述训练系统200可包括数据获取装置210、样本生成装置220以及训练装置230。
所述数据获取装置210可用于获取训练数据记录。
在本公开的实施例中,所获取的训练数据记录根据包括三层级模型的神经网络模型100应用的场景的不同而不同。例如,在图像处理的OCR场景中,所获取的数据记录是图像数据,数据记录的标记是图像中的文字;而在金融科技领域的反洗钱、反欺诈相关的场景中,所获取的训练数据是银行用户的交易流水数据以及该用户本身相关的数据,数据记录的标记是关于特定交易是洗钱或欺诈的标记。本领域的技术人员能够理解不同场景下的训练数据的不同。
即本领域的技术人员可以理解,当包括三层级模型的神经网络模型100应用于某个特定场景时,该 包括三层级模型的神经网络模型100是基于该场景对应的训练样本数据集训练而得的。例如,对于商品价格预测,对应的训练样本数据集是该商品的历史数据(例如以商品历史上被售出时其自身的属性、季节、库存量等作为样本的特征,以被售出的价格作为标签),相应地,商品价格预测场景下,预测数据由商品当前的相关信息构成,基于预测数据构造预测样本,例如以商品当前的自身属性、季节和库存量等作为预测样本的特征,将预测样本输入包括三层级模型的神经网络模型100后得到模型输出的预测价格。其他场景类似,这里不再一一赘述。
这里,训练数据记录可以是在线产生的数据、预先生成并存储的数据、也可以是通过输入装置或传输媒介而从外部接收的数据。这些数据可涉及个人、企业或组织的属性信息,例如,身份、学历、职业、资产、联系方式、负债、收入、盈利、纳税等信息。或者,这些数据也可涉及业务相关项目的属性信息,例如,关于买卖合同的交易额、交易双方、标的物、交易地点等信息。应注意,本公开的示例性实施例中提到的属性信息内容可涉及任何对象或事务在某方面的表现或性质,而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。
作为示例,可获取不同来源的结构化或非结构化数据,例如,文本数据或数值数据等。这些数据可来源于期望获取模型预测结果的实体内部,例如,来源于期望获取预测结果的银行、企业、学校等;这些数据也可来源于上述实体以外,例如,来源于数据提供商、互联网(例如,社交网站)、移动运营商、APP运营商、快递公司、信用机构等。可选地,上述内部数据和外部数据可组合使用,以形成携带更多信息的训练数据记录。
上述数据可通过输入装置输入到数据获取装置,或者由数据获取装置根据已有的数据来自动生成,或者可由数据获取装置从网络上(例如,网络上的存储介质(例如,数据仓库))获得,此外,诸如服务器的中间数据交换装置可有助于数据获取装置从外部数据源获取相应的数据。这里,获取的数据可被数据获取装置中的文本分析模块等数据转换模块转换为容易处理的格式。应注意,数据获取装置可被配置为由软件、硬件和/或固件组成的各个模块,这些模块中的某些模块或全部模块可被集成为一体或共同协作以完成特定功能。
样本生成装置220可基于数据获取装置210获取的训练数据记录的属性信息来生成训练样本的特征,并将训练数据记录的标记作为训练样本的标记。然后,训练装置230可基于样本生成装置220所生成的训练样本来训练所述神经网络模型100。
在本公开的示例中实施例中,在训练神经网络模型的过程中,训练装置230可通过神经网络模型100的第一层级模型110所包括的多个底层神经网络模型112来分别学习出每个特征自身的特征信息表示,通过神经网络模型100的第二层级模型120所包括的多个中间模型120-1至120-N来分别学习出对应输入项(这里,所述对应输入项包括由底层神经网络模型112学习出的特征信息表示之中的至少一个)之间的交互表示,并通过作为神经网络模型100的第三层级模型130的顶层神经网络模型来至少基于第二层级模型120输出的交互表示学习出预测结果。这里,训练装置230可至少基于所述预测结果与训练样本的标记之间的差异来调整所述包括三层级模型的神经网络模型100。
所述包括三层级模型的神经网络模型100旨在针对相关场景中的对象或事件有关的问题进行预测。例如,可用于预测图像类别、预测图像中文字、预测文本类别、预测语音情感类别、预测欺诈交易、预测广告点击率、预测商品价格等等,使得预测结果可直接作为决策依据或进一步结合其他规则而成为决策依据。
以下,结合图3来详细说明所述训练系统200训练包括三层级模型的神经网络模型100的方法。
图3是示出根据本公开的示例性实施例的包括三层级模型的神经网络模型100的训练方法的流程图。
参照图3,在步骤310,可通过数据获取装置210获取训练数据记录。在本公开的示例性实施例中,训练数据记录可以是用于训练神经网络模型100的历史数据记录的集合,并且该历史数据记录具有关于神经网络模型的预测目标的真实结果,即,标记(label)。
在步骤320,可由样本生成装置220基于在步骤320获取的训练数据记录的属性信息来生成训练样本的特征,并将训练数据记录的标记作为训练样本的标记。作为示例,样本生成装置220可对训练数据记录执行相应的特征工程处理,这里,样本生成装置220既可以将训练数据记录的某些属性字段直接作为相应的特征,也可通过对属性字段进行处理(包括字段本身或字段之间的各种运算等处理)来得到相应的特征。从特征取值的特点来看,训练样本的特征可被划分为离散特征(其拥有一组离散的可能值,例如,居住城市等,例如,图1中示出的特征1和特征2)和连续特征(其可能值的区间不受限制,与离散特征相对,例如,图1中示出的特征3)。
然后,在步骤330,可由训练装置230基于训练样本来训练神经网络模型100。
具体地讲,在步骤330中,可由训练装置230通过神经网络模型100的第一层级模型110所包括的多个底层神经网络模型112来分别学习出每个特征自身的特征信息表示。这里,可将训练样本的各个特征分别直接输入或经过变换后输入各自对应的底层神经网络模型112,并至少基于底层神经网络模型112 的输出来得到相应的特征信息表示。
在现有的神经网络模型中,特征通常直接进入(例如,经过嵌入层之后进入)神经网络进行学习。然而,不同特征对于目标的预测能力是不一样的,因此难以充分利用更加重要的特征,这对预测结果的准确度有一定的影响。而如上所述,根据本公开的示例性实施例,通过设置底层神经网络模型来专门学习各自对应的特征的信息表达,会有助于提供模型整体的预测效果。
作为示例,训练装置230可首先将训练样本的至少一个特征分别经过对应的嵌入层111,从而得到与所述至少一个特征分别对应的至少一个特征嵌入向量。在本公开的示例性实施例中,所述至少一个特征可以是离散特征,或者所述至少一个特征可以是对输入的连续特征进行离散化处理之后得到的离散化的特征。换言之,训练装置230可将训练样本的特征之中的离散特征经过对应的嵌入层111以得到对应的特征嵌入向量,并且对训练样本的特征之中的至少一个连续特征进行离散化处理,然后将经过离散化处理的特征经过对应的嵌入层111以得到对应的特征嵌入向量。在这种情况下,训练装置230将训练样本的特征之中的离散特征以及经过离散化处理的连续特征经过对应的嵌入层111,并将每个嵌入层111输出的特征嵌入向量分别经过对应的底层神经网络模型112,通过对应的底层神经网络模型112学习出对应特征的特征信息表示。
或者,作为另一示例,训练装置230可仅将训练样本的特征之中的离散特征经过对应的嵌入层111以得到对应的特征嵌入向量,而将训练样本的特征之中的连续特征作为一维的特征嵌入向量输入到底层神经网络模型112,而不经过嵌入层111。在这种情况下,训练装置230可将训练样本的特征之中的离散特征经过对应的嵌入层111,并将每个嵌入层111输出的特征嵌入向量分别经过对应的底层神经网络模型112,通过对应的底层神经网络模型112学习出对应离散特征的特征信息表示,并且将训练样本的特征之中的连续特征直接经过对应的底层神经网络模型112,通过对应的底层神经网络模型112学习出对应连续特征的特征信息表示。
在现有的神经网络模型中,输入模型的特征嵌入(embedding)维度通常是人为指定的,并且针对各个特征的嵌入层维度一般相同。然而,由于神经网络模型的模型效果和嵌入层的维度相关度很大,因此,使用相同的嵌入层维度会增加模型的使用成本。此外,由于不同的特征所包含的信息量并不完全相同,因此针对所有特征使用相同的嵌入层维度会使得有些特征在经过嵌入层之后的输出的维度过大,而有些特征在经过嵌入层之后的输出维度过小。
在本公开的示例性实施例中,在训练装置230将训练样本的特征经过对应的嵌入层111之前,训练装置230可分别确定各个嵌入层111的维度,也就是说,每个嵌入层111不必拥有相同的维度,由此能够自适应地确定针对不同特征的嵌入层111的维度,使得能够更为有效地训练出神经网络模型。
可选地,在本公开的示例性实施例中,训练装置230可至少基于输入到各个嵌入层111的特征来分别确定各个嵌入层111的维度。
仅作为示例,训练装置230可基于输入到各个嵌入层111的特征的特征值的个数来分别确定各个嵌入层111的维度。例如,训练装置230可将一嵌入层111的维度d确定为与输入到该嵌入层111的特征的特征值的个数c成正比。例如,训练装置230可设置所述维度d=α×c β,α和β可以是根据经验、实验、或装置资源等而确定的常数,例如,α可被设置为6,β可被设置为1/4。
作为又一示例,训练装置230也可基于输入到各个嵌入层111的特征的信息熵来分别确定各个嵌入层111的维度。具体地讲,可基于以下公式(1)来确定与输入到嵌入层111的特征对应的信息熵s:
Figure PCTCN2019096971-appb-000001
其中,公式(1)中n为训练样本集中,该特征所有不同的特征值总量(如“城市”特征中,所有样本中出现的不同城市个数),p i=f i/m,f i表示输入到嵌入层111的该特征的第i个特征值在样本中的出现次数,m表示相应的样本总数。
在根据公式(1)获得与每个嵌入层111分别对应的特征各自的信息熵s之后,训练装置230可基于这些特征的信息熵s的大小来成比例地确定与各个特征对应的嵌入层的维度d。
具体地讲,在本公开的示例性实施例中,训练装置230可按照与输入到各个嵌入层111的特征对应的信息熵s的大小成正比地对每个嵌入层111分配维度。
此外,在上述分配过程中,训练装置230还可充分考虑运算资源、训练数据记录的数据量、以及神经网络模型的应用场景等因素,结合预先设置的维度分配约束,使得所分配的嵌入层维度在预设的最小维度a和最大维度b之间,其中a小于b,二者均为自然数。例如,训练装置230可设置每个嵌入层111的维度d=min(b,max(a,d)),其中,所述最小维度a和最大维度b可以是由用户根据经验而确定的,或者,也可以是基于运算资源、训练数据记录的数据量、以及神经网络模型的应用场景中的至少一个而确定的。
在按照上述方法完成维度分配之后,如果所分配的嵌入层111的维度满足预设条件(例如,所有嵌入层111的维度之和不大于预设总维度),则可认为该分配有效。如果不满足所述预设条件,例如,如果所有嵌入层111的所分配的维度之和大于预设总维度,则训练装置230需要重新进行维度分配。在本公开的示例性实施例中,所述预设总维度可以是基于运算资源、训练数据记录的数据量、以及神经网络模型的应用场景中的至少一个而确定的。
仅作为示例,当训练装置230重新分配嵌入层111的维度时,可首先设置将分配给各个嵌入层111的最大维度b和最小维度a。在确定了最小维度a和最大维度b之后,训练装置230可将信息熵最低的第一预定数量个特征所对应的嵌入层111确定为分配所述最小维度a,并将信息熵最高的第二预定数量个特征所对应的嵌入层111确定为分配所述最大维度b。之后,对于除了所述第一预定数量个特征和所述第二预定数量个特征之外的其余特征,在所述最小维度a与所述最大维度b之间,训练装置230可按照所述其余特征的信息熵的大小来成比例地分配剩余维度(即,预设总维度减去被分配给与所述第一预定数量个特征和所述第二预定数量个特征分别对应的嵌入层111的维度之后剩余的维度),从而确定分配给与所述其余特征分别对应的嵌入层111的维度。
按照这种方式,可通过枚举所述第一预定数量和所述第二预定数量而获得多种维度分配方案(即,关于第一预定数量和第二预定数量的最优解)。对此,训练装置230可按照预定规则来在所述多种维度分配方案之中确定最优维度分配方案。仅作为示例,在本公开的示例性实施例中,训练装置230可将嵌入层111的维度的方差值最小或最大时所对应的方案确定为最优维度分配方案,即,所述最优解对应于使得被分配给各个嵌入层的维度的方差值最小或最大。然而,应该理解,本申请不限于此,训练装置230还可根据各种其他规则来确定所述最优维度分配方案。
例如,除了如上所述的按照信息熵来成比例地分配各个嵌入层111的位置之外,训练装置230也可基于维度学习模型来学习出各个嵌入层111的维度。在本公开的示例性实施例中,所述维度学习模型可被设计为通过各个嵌入层111的候选维度以及与所述候选维度对应的神经网络模型的模型效果(例如,模型AUC(Area under the Curve of ROC(receiver operating characteristic curve))等)来迭代学习出各个嵌入层的最佳维度,并将学习出的各个嵌入层111的最佳维度确定为各个嵌入层111的维度。仅作为示例,所述维度学习模型可基于强化学习或贝叶斯优化。然而,本公开不限于此,所述维度学习模型还可以是任何其他可用的机器学习模型。
在本公开的示例性实施例中,由于所述多个嵌入层111中的每个嵌入层111的维度是在训练所述神经网络模型100的过程中被分别确定的,因此,所述多个嵌入层111的维度可以是自适应地确定的,而不必具有彼此相同的维度。
继续参照图1,在经过嵌入层111之后,训练装置230还可将每个嵌入层111输出的特征嵌入向量分别经过对应的底层神经网络模型112,通过所述对应的底层神经网络模型112学习出对应特征的特征信息表示。这里,作为示例,所述底层神经网络模型可以为DNN模型。通过这种方式,能够基于特征本身对应的信息自动控制输入到神经网络模型的信息量,由此能够进一步提高神经网络模型的预测效果。
此外,对于训练样本中的连续特征,由于可不经过嵌入层111,因此训练装置230还可将训练样本的至少一个连续特征直接经过对应的底层神经网络模型112,通过该对应的底层神经网络模型112学习出对应连续特征的特征信息表示。
然而,考虑到不同特征对于目标的预测能力是不一样的,为了充分提取特征本身的信息,在本公开的示例性实施例中,训练装置230还可将嵌入层111输出的特征嵌入向量分别与对应的底层神经网络模型112的输出进行函数运算,并将函数运算结果作为所述对应的底层神经网络模型112所学习的特征信息表示(例如,如图4中所示的对特征1和特征2进行的处理)。或者,对于训练样本中的连续特征(即,不经过离散化的连续特征),训练装置230可将该连续特征与对应的底层神经网络模型112的输出进行函数运算,并将函数运算结果作为所述对应的底层神经网络模型112输出的特征信息表示(例如,如图4中所示的对特征3进行的处理)。
通过上述函数运算,在对神经网络模型100进行训练的过程中,能够有效地利用各个特征的对于目标的预测能力,使得更加重要的特征对于预测结果能够起更大的作用,而不重要的特征对于预测结果起较小的作用,甚至不起作用。具体说来,底层神经网络模型112的输出可被视为特征的某种信息量表示,通过其与特征嵌入向量来共同调整特征最终进入第二层级模型120的实际内容,能够进一步确保神经网络模型的学习效果。
此外,在本公开的示例性实施例中,上述函数运算中所使用的函数可以是Out=f(E,O)的形式,E表示嵌入层111输出的特征嵌入向量或连续特征,O表示该特征嵌入向量E或连续特征经过对应的底层神经网络模型112之后的输出。仅作为示例,所述函数运算可以是按位相加或按位相乘运算,举例说来,在f(E,O)表示将E和O按位相乘的运算关系的示例中,可将O视为用于控制E的信息流入量的开关。然而,应该理解的是,在本公开的示例性实施例中,所述函数运算还可以具有预先指定的其他不同函数 表达形式,而不限于上述按位相加或按位相乘运算,例如所述运算函数也可以是例如Out=f(E,O)=a*f e(E)+b*f o(O)的复杂运算,这里,f、f e和f o均可为任意运算函数。这里,所述函数运算的参数(例如,上述a和b)可以是在基于训练样本来训练所述神经网络模型的过程中被学习出的。
此外,在通过底层神经网络模型112学习对应特征的特征信息表示的过程中,从嵌入层111输入到底层神经网络模型112的特征嵌入向量与对应底层神经网络结构112的输出可能具有不同的维度,也就是说,会通过特征维度变化进一步为模型带来灵活性。然而,如果要进行函数运算,在嵌入层111输出的特征嵌入向量与对应的底层神经网络模型112的输出具有不同的维度的情况下,则可先对嵌入层111输出的特征嵌入向量与对应的底层神经网络模型112的输出进行维度统一,然后再对维度统一后的特征嵌入向量与对应的底层神经网络结构112的输出进行函数运算。
仅作为一示例,可对嵌入层111输出的特征嵌入向量和对应的底层神经网络模型112的输出中的至少一个进行占位填充,使得嵌入层111输出的特征嵌入向量和对应的底层神经网络模型112的输出维度相同。
作为又一示例,也可将嵌入层111输出的特征嵌入向量和对应的底层神经网络结构112的输出中的至少一个与变换矩阵相乘,使得嵌入层111输出的特征嵌入向量和对应的底层神经网络模型112的输出维度相同。在本公开的示例性实施例中,这样的变换矩阵可以是在训练装置230基于训练样本来训练所述神经网络模型100的过程中被学习出的。
继续参照图1,从第一层级模型110输出的特征信息表示可作为第二层级模型120的至少一个输入项。
根据本公开的示例性实施例,第二层级模型120可包括多个中间模型120-1至120-N。相应地,训练装置230可通过第二层级模型120所包括的多个中间模型120-1至120-N来分别学习出对应输入项之间的交互表示。仅作为示例,所述对应输入项包括由第一层级模型110输出的特征信息表示之中的至少一个。
此外,可选地,在本公开的示例性实施例中,第二层级模型120的输入项还可包括从第一层级模型110的各个嵌入层111输出的至少一个特征嵌入向量和/或至少一个原始特征(即,原始的离散特征或原始的连续特征)本身。换言之,在本公开的示例性实施例中,训练装置230可通过第二层级模型120所包括的多个中间模型120-1至120-N来学习出对应的至少一个特征信息表示、至少一个特征嵌入向量和/或至少一个原始特征之间的交互表示。
优选地,在本公开的示例性实施例中,可根据特征的特性(例如,原始连续特征和/或离散特征本身的特性、原始特征(即,原始连续特征和/或离散特征)所对应的特征嵌入向量的特性和/或原始特征所对应的特征信息表示的特性)、所述特征的组合性和/或各种类型的模型的学习能力特性来确定所述中间模型的类型及其对应的输入项(即,至少一个特征嵌入向量、至少一个特征信息表示、和/或至少一个原始特征)。
在此,针对每个中间模型,还可通过对其所对应的输入项(即,与所述每个中间模型所对应的至少一个特征信息表示、至少一个特征嵌入向量和/或至少一个原始特征)之中的至少一个进行转换、拼接和/或运算而得到所述每个中间模型的至少一部分输入。所述运算可包括对每个中间模型所对应的原始或经过转换的至少一个输入项进行求和运算、均值运算、最大池化运算和/或基于注意力(attention)机制的加权运算。在本公开的示例性实施例中,所述基于注意力机制的加权运算可经由专门的注意力机制网络来执行,即,可经由所述专门的注意力机制网络来学习出针对原始或经过转换的至少一个输入项的一套或多套权重,并基于所述一套或多套权重来分别对原始或经过转换的至少一个输入项进行加权。
返回参照图1,在本公开的示例性实施例中,所述多个中间模型120-1至120-N可以是全输入的神经网络模型(例如,深度神经网络(DNN)模型)、组合特征神经网络模型(即,Crossfeature神经网络模型)、基于因子分解机制的模型(例如,基于FM feature的DNN模型)等中的至少一个。仅作为示例,全输入的神经网络模型的输入可以是全部输入项的拼接结果,组合特征神经网络模型的输入可以是全部输入项之中与能够进行组合的特征对应的输入项的拼接结果(这里,作为示例,组合特征神经网络模型可包括逻辑回归模型,即,逻辑回归模型可被视为单层组合特征神经网络模型),并且基于因子分解机制的模型的输入可以是全部输入项之中的任意两个输入项按位相乘之后,将相乘结果进行按位相加后得到的运算结果。这里,作为示例,每个中间模型的输入不限于特征信息表示,还可包括嵌入层111输出的特征嵌入向量和/或原始特征本身,使其在分别学习出对应的至少一部分特征信息表示之间的交互表示的同时,还进一步学习出特征嵌入向量和/或原始特征与这些特征信息表示之间的交互表示。
之后,训练装置230可通过作为神经网络模型100的第三层级模型130的顶层神经网络模型来至少基于第二层级模型120输出的交互表示学习出预测结果。在本公开的示例性实施例中,第三层级模型130可包括单个顶层神经网络模型。所述单个顶层神经网络模型可以是任何常见的普通神经网络模型,或者还可以是普通神经网络结构的任何变型。
此外,可选地,除了第二层级模型120输出的交互表示之外,第三层级模型130的输入还可包括由第一层级模型110输出的至少一个特征信息表示、由所述一个或更多个嵌入层111输出的至少一个特征嵌入向量、至少一个原始的离散特征和/或至少一个原始的连续特征。也就是说,在本公开的示例性实施例中,训练装置230可通过作为神经网络模型100的第三层级模型130的顶层神经网络模型来基于第二层级模型120输出的至少一个交互表示、第一层级模型110输出的至少一个特征信息表示、由所述一个或更多个嵌入层111输出的至少一个特征嵌入向量、和/或至少一个原始特征学习出预测结果。
此外,可选地,还可通过对第二层级模型120输出的至少一个交互表示、第一层级模型110输出的至少一个特征信息表示、由所述一个或更多个嵌入层111输出的至少一个特征嵌入向量、和/或至少一个原始特征进行拼接和/或运算而得到所述顶层神经网络模型的至少一部分输入。
训练装置230可至少基于第三层级模型130输出的预测结果与训练样本的标记之间的差异来调整所述包括三层级模型的神经网络模型100。
在现有的神经网络模型中,当利用训练样本来训练神经网络模型时,通常是在该模型的输出层得到预测结果y pred,然后,可基于该神经网络模型的预测结果y pred与训练样本的真实标记y true(即,关于该神经网络模型的预测目标的真实结果)的取值,根据指定的损失函数来计算损失,然后反向传播(Backpropagation),由此完成神经网络模型的参数更新。然而,随着神经网络模型层数增加,神经网络的性能可能难以如预期提高。
根据本公开的示例性实施例,训练装置230可针对神经网络模型100之中的主体神经网络结构之中的至少一部分层,分别获得与其中每层的输出对应的层预测结果。这里,主体神经网络结构不包括输出层。通过这种方式,可在神经网络的每一层引入监督信息,构建逐层监督的深度神经网络,由此能够进一步提高神经网络模型的预测效果
作为示例,所述主体神经网络结构可包括除了神经网络模型100的输出层之外的全部层,或者所述主体神经网络结构可包括除了神经网络模型100的输出层之外起主要预测作用的各个层。这里,根据本公开的示例性实施例,神经网络模型100是包括三个层级结构的复合神经网络。为此,可根据用户基于对模型算法、数据情况和/或模型应用场景的理解所做出的人为指定来确定主体神经网络结构,也可通过测试手段来确定神经网络中其主要预测作用的部分以作为主体神经网络结构。例如,主体神经网络结构可包括整个神经网络模型100中除去输出层之外的至少一部分层,这些层可位于相同或不同的层级。
在本公开的示例性实施例中,神经网络模型100的输出层可以是指第三层级模型130的输出层,而神经网络模型100的其它神经网络层之中的至少一个或多个层可被视为包括在主体神经网络结构中。
此外,在本公开的示例性实施例中,训练装置130可通过分别将主体神经网络结构之中的至少一部分层中的每层的输出经过至少一次转换来获得与所述每层对应的层预测结果。仅作为示例,在转换过程中,训练装置130可通过分别将主体神经网络结构之中的至少一部分层中的每层的层权重矩阵与所述每层的输出相乘并与相应的层偏置项相加来执行一次转换。作为示例,上述层权重矩阵和偏置项均可作为损失函数的参数以在训练过程中学习出参数值,或者,所述偏置项也可被设置为常数(甚至为0)而不必进行学习。
这里,根据实际情况,上述转换结果可直接作为层预测结果,也可作为激活函数的输入,并将激活函数的输出作为层预测结果。。
具体地讲,仅作为示例,假设主体神经网络结构的第i个层(非输出层)的输出为大小为b×h i的矩阵H i(即,
Figure PCTCN2019096971-appb-000002
),其中,b为批大小(batch size),h i为所述第i个层的网络神经元的数量,则与第i个层对应的层预测结果可以为y i=W i TH i+b i或y i=f(W i TH i+b i),其中,f为激活函数(例如,sigmoid函数、tanh函数等),参数W i为h i×1的层权重矩阵,参数b i为1×1的偏置项,这里,作为特例,b i可以为常数,甚至可以为0。
此外,尽管在此示出了第i个层(i为自然数)的输出H i经过一次转换来获得层预测结果的方式,但本公开不限于此,所述第i个层的输出H i还可经过多次转换。仅作为示例,可将第一次转换获得的结果(转换结果或转换结果经激活函数的输出结果)作为输入变量,再次执行第二次转换,以此类推,最终得到层预测结果y i。此外,应注意的是,当进行多次转换时,每次转换中所使用的激活函数f类型及其参数(例如,层权重矩阵W i和偏置项b i)可相同或不相同,这里,通过将层预测结果也引入损失函数,使得层权重矩阵W i以及偏置项b i可以是在训练神经网络模型的过程中被学习出的。
在获得了主体神经网络结构的相应层的层预测结果之后,训练装置230可基于由神经网络模型100的输出层所输出的预测结果y out与训练样本的标记y true之间的差异以及每个层预测结果与训练样本的标记y true之间的层预测差异来构建模型损失函数,并且根据所述模型损失函数来调整所述神经网络模型。
以下将结合图5的示例详细描述构建模型损失函数的处理。
图5是示出根据本公开的示例性实施例的具有多个神经网络层的神经网络模型的示意性示图。
这里,为了方便解释,假设神经网络模型500为神经网络模型100的简略图,并弱化了其中的层级 结构。如图5所示,神经网络模型500可包括主体神经网络结构510以及输出层520,所述主体神经网络结构510可包括多个中间层h 0 511和h 1 512等,并且输出层h 2 520的输出y out即为神经网络模型500的预测结果。应理解,所述多个中间层h 0 511和h 1 512等可涵盖位于各个层级之中的底层神经网络模型、中间模型和/或顶层神经网络模型之中的至少一部分网络层(layer)。
参照图5,训练装置230可针对主体神经网络结构510的至少一个中间层h 0 511和h 1 512等分别获得与其对应的层预测结果,例如,针对中间层h 0 511的层预测结果y 0和针对中间层h 1 512的层预测结果y 1等。然后,可基于由神经网络模型500的输出层h 2 520所输出的预测结果y out与训练样本的标记y true之间的差异以及各个层预测结果y 0和y 1等与所述标记y true之间的层预测差异来构建模型损失函数L。
在本公开的示例性实施例中,可按照下述等式(2)来构建模型损失函数L:
L=l out(y out,y true)+w 0*l 0(y 0,y true)+w 1*l 1(y 1,y true)......(2)
其中,l out表示输出层损失函数,l 0和l 1分别表示中间层h 0 511和h 1 512的层损失函数,w 0和w 1分别表示与中间层h 0 511和h 1 512对应的损失函数权重。即,可基于由神经网络模型的输出层520所输出的预测结果与所述标记y true之间的差异来构建输出层损失函数,分别基于每个层预测结果与所述标记y true之间的层预测差异来构建所述每层的层损失函数,通过对输出层损失函数和各个层损失函数进行加权求和来构建所述模型损失函数。
在本公开的示例性实施例中,w 0和w 1的值可按照预先指定的规则变化,例如,w 0和w 1的值可被预先设置为规则地变化(例如,在训练神经网络模型的过程中,按照每轮迭代来衰减),或者也可以是在训练神经网络模型的过程中被学习出的(例如,通过专门的注意力(attention)机制网络被学习出的)。
此外,在本公开的示例性实施例中,在获得模型损失函数L之后,可通过梯度下降等方法来学习神经网络模型中可学习的各种变量,例如,层权重矩阵、偏置项、attention操作相关的权重等。仅作为示例,在上述学习过程中,可以求L对层权重矩阵W i的导数,以此来更新W i
此外,在图5的示例中,示出了主体神经网络结构510包括两个中间层h 0 511和h 1 512,并且在计算损失函数L的过程中使用了针对中间层h 0 511的预测结果y 0和针对中间层h 1 512的预测结果y 1两者,但本公开不限于此,主体神经网络结构510可由于神经网络模型的具体结构而包括更多个中间层,并且当存在多个中间层时,可仅使用针对所述多个中间层中的一部分中间层的层预测结果。
可选地,在本公开的示例性实施例中,在训练装置230训练神经网络模型500的过程中,针对不同批次的训练样本,各个层损失函数的函数类型可被动态设置,并且/或者,针对不同批次的训练样本,主体神经网络结构510之中的参与上述损失计算过程的具体层也可被动态设置。
仅作为示例,在基于梯度下降系列算法来对模型进行优化时,l out、l 0、l 1的形式可不同,从而进一步增加随机性,例如,l 0可以是cross entropy(交叉熵)损失函数,而l 1可以为hinge损失函数。如针对第一批训练样本只有l out和l 0存在,而针对第二批训练样本三者均存在。作为示例,可通过以下方式来针对每批次数据选取层损失函数,例如,假设损失函数中总共涉及的层数量(包括输出层和各中间层)的个数为k,则可从特定分布(例如,如二项分布)中采样出由k个0或1组成的序列,将该序列和由输出层损失函数或各个层损失函数组成的损失函数相乘,则与0相乘的部分被舍弃,不计算其对应的损失。
按照上述方式,能够使得神经网络模型100得到更好的训练,由此能够得到更高的预测效果。
在基于训练数据记录完成了对神经网络模型100的训练之后,训练好的神经网络模型100可被用来使用预测数据记录进行预测。
图6是示出根据本公开的实施例的神经网络模型的预测系统600。
参照图6,所述预测系统600可包括:数据获取装置610,用于获取预测数据记录;样本生成装置620,用于基于数据获取装置610获取的预测数据记录的属性信息来生成预测样本的特征;以及预测装置630,用于利用已经过训练的神经网络模型,针对样本生成装置620生成的预测样本来提供相应的预测结果。这里,数据获取装置610可基于手动、自动或半自动的方式从任意数据源获取预测数据记录;相应地,样本生成装置620可按照与训练系统200中的样本生成装置220对应一致的方式来生成预测而样本的特征,只是预测样本中不具有标记。
在本公开的实施例中,预测装置630所使用的神经网络模型可以是通过如上所述的神经网络模型训练系统200和训练方法所训练出的神经网络模型100,由于之前已经描述了基于神经网络模型执行处理的机制,在此将不再对其进行更加详细的描述。
图7是示出根据本公开的实施例的神经网络模型的预测方法700的流程图。
参照图7,在步骤710,可通过数据获取装置610获取预测数据记录。
在本公开的实施例中,预测数据记录和训练数据记录是同类型的数据记录。即如上所述的神经网络模型训练系统200和训练方法所训练出的神经网络模型100用何种数据进行训练,则进行预测时的预测数据也是何种数据。例如在OCR场景中,训练数据是图像数据和其标记(标记是图像中的文字),则预测数据也是包含文字的图像数据。
这里,作为示例,可通过手动、半自动或全自动的方式来采集预测数据记录,或对采集的原始数据进行处理,使得处理后的数据记录具有适当的格式或形式。作为示例,可批量地采集数据。
这里,可通过输入装置(例如,工作站)接收用户手动输入的数据记录。此外,可通过全自动的方式从数据源系统地取出数据记录,例如,通过以软件、固件、硬件或其组合实现的定时器机制来系统地请求数据源并从响应中得到所请求的数据。所述数据源可包括一个或多个数据库或其他服务器。可经由内部网络和/或外部网络来实现全自动获取数据的方式,其中可包括通过互联网来传送加密的数据。在服务器、数据库、网络等被配置为彼此通信的情况下,可在没有人工干预的情况下自动进行数据采集,但应注意,在这种方式下仍旧可存在一定的用户输入操作。半自动方式介于手动方式与全自动方式之间。半自动方式与全自动方式的区别在于由用户激活的触发机制代替了例如定时器机制。在这种情况下,在接收到特定的用户输入的情况下,才产生提取数据的请求。每次获取数据时,优选地,可将捕获的数据存储在非易失性存储器中。作为示例,可利用数据仓库来存储在获取期间采集的原始数据以及处理后的数据。
上述获取的数据记录可来源于相同或不同的数据源,也就是说,每条数据记录也可以是不同数据记录的拼接结果。例如,除了获取客户向银行申请开通信用卡时填写的信息数据记录(其包括收入、学历、职务、资产情况等属性信息字段)之外,作为示例,可还获取该客户在该银行的其他数据记录,例如,贷款记录、日常交易数据等,这些获取的数据记录可拼接为完整的数据记录。此外,还可获取来源于其他私有源或公共源的数据,例如,来源于数据提供商的数据、来源于互联网(例如,社交网站)的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据、来源于信用机构的数据等等。
可选地,可借助硬件集群(诸如Hadoop集群、Spark集群等)对采集到的数据进行存储和/或处理,例如,存储、分类和其他离线操作。此外,也可对采集的数据进行在线的流处理。
作为示例,可将文本等非结构化数据转换为更易于使用的结构化数据以在后续进行进一步的处理或引用。基于文本的数据可包括电子邮件、文档、网页、图形、电子数据表、呼叫中心日志、交易报告等。
然后,在步骤720,可通过样本生成装置620基于在步骤710获取的预测数据记录的属性信息来生成预测样本的特征。
之后,在步骤730,可通过预测装置630利用已经过训练的神经网络模型,针对在步骤720所生成的预测样本来提供相应的预测结果。
在本公开的实施例中,在步骤730中所使用的神经网络模型可以是通过如上所述的神经网络模型训练系统200和训练方法所训练出的神经网络模型100,由于之前已经描述了基于神经网络模型执行处理的机制,在此将不再对其进行更加详细的描述。
以上已参照图1至图7描述了根据本公开的示例性实施例的神经网络模型的训练方法和系统以及预测方法和系统。然而,应理解的是:图1至图7中所使用的装置、系统、单元等可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些系统、装置或单元等可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些系统、装置或单元等所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
此外,上述方法可通过记录在计算可读介质上的程序来实现,例如,根据本申请的示例性实施例,可提供一种计算机可读介质,其中,在所述计算机可读介质上记录有用于由一个或多个计算装置执行以下方法步骤的计算机程序:获取训练数据记录;基于训练数据记录的属性信息来生成训练样本的特征,并将训练数据记录的标记作为训练样本的标记;以及利用训练样本的集合来训练神经网络模型,其中,在训练神经网络模型的过程中,通过神经网络模型的第一层级模型所包括的多个底层神经网络模型来分别学习出每个特征自身的特征信息表示,通过神经网络模型的第二层级模型所包括的多个中间模型来分别学习出对应输入项之间的交互表示,其中,所述对应输入项包括由第一层级模型输出的特征信息表示之中的至少一个,通过作为神经网络模型的第三层级模型的顶层神经网络模型来至少基于第二层级模型输出的交互表示学习出预测结果,并至少基于所述预测结果与所述标记之间的差异来调整所述包括三层级模型的神经网络模型。此外,根据本公开的另一示例性实施例,可提供一种计算机可读介质,其中,在所述计算机可读介质上记录有用于由一个或多个计算装置执行以下方法步骤的计算机程序:获取预测数据记录;基于预测数据记录的属性信息来生成预测样本的特征;以及利用如前述训练方法所训练出的神经网络模型,针对预测样本来提供相应的预测结果。
本公开提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行本公开中任一实施例中的包括三层级模型的神经网络模型的训练方法。
本公开还提供了一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行本公开中任一实施例所述的利用神经网络模型执行预测的方法。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图1到图7进行相关方法的描述过程中提及,因此这里为了避免重复将不再进行赘述。
应注意,根据本公开的示例性实施例的神经网络模型的训练方法和系统可完全依赖计算机程序的运行来实现相应的功能,即,各个单元或装置在计算机程序的功能架构中与各步骤相应,使得整个装置或系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,当图1至图7所提及的各个单元或装置以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,实现根据本公开的示例性实施例的神经网络模型的训练方法的系统可包括一个或多个计算装置和一个或多个存储装置,其中,所述一个或多个存储装置上记录有指令,当所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置执行下述步骤:获取训练数据记录;基于训练数据记录的属性信息来生成训练样本的特征,并将训练数据记录的标记作为训练样本的标记;以及利用训练样本的集合来训练神经网络模型,其中,在训练神经网络模型的过程中,通过神经网络模型的第一层级模型所包括的多个底层神经网络模型来分别学习出每个特征自身的特征信息表示,通过神经网络模型的第二层级模型所包括的多个中间模型来分别学习出对应输入项之间的交互表示,其中,所述对应输入项包括由第一层级模型输出的特征信息表示之中的至少一个,通过作为神经网络模型的第三层级模型的顶层神经网络模型来至少基于第二层级模型输出的交互表示学习出预测结果,并至少基于所述预测结果与所述标记之间的差异来调整所述包括三层级模型的神经网络模型。此外,根据另一示例性实施例,实现根据本公开的示例性实施例的神经网络模型的预测方法的系统可包括一个或多个计算装置和一个或多个存储装置,其中,所述一个或多个存储装置上记录有指令,当所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置执行下述步骤:获取预测数据记录;基于预测数据记录的属性信息来生成预测样本的特征;以及利用如前述训练方法所训练出的神经网络模型,针对预测样本来提供相应的预测结果。
本公开包括至少一个计算装置和至少一个存储指令的存储装置的训练包括三层级模型的神经网络模型的系统,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行本公开任一实施例中的包括三层级模型的神经网络模型的训练方法。
本公开提供一种包括至少一个计算装置和至少一个存储指令的存储装置的预测系统,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行以下步骤:获取预测数据记录;基于预测数据记录的属性信息来生成预测样本的特征;以及利用本公开任一实施例中的包括三层级模型的神经网络模型的训练方法所训练出的神经网络模型,针对预测样本来提供相应的预测结果。
具体说来,上述系统可以部署在服务器中,也可以部署在分布式网络环境中的节点装置上。此外,所述系统设备还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。系统设备的所有组件可经由总线和/或网络而彼此连接。
这里,所述系统并非必须是单个装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述系统还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述系统中,用于执行根据本公开的示例性实施例的神经网络模型的训练方法或预测方法的计算装置可以是处理器,这样的处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,所述处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。处理器可运行存储在存储装置之一中的指令或代码,其中,所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储装置可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储装置可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储装置中的文件。
应注意本公开示例性实施注重解决目前算法通用性低,精度不高的问题。具体说来,为了增加算法的易用与通用性,本公开示例性实施例的实施并未依赖于任何对具体业务逻辑的限定,而是集中精力在一个较通用的场景中。和大多现有的方案不同,本公开的示例性实施例不集中在一个具体场景上,而可应用于多种不同的场景,如推荐系统、广告系统等等。在本公开示例性实施例的基础上,建模人员可以继续加入自己的业务经验等,进一步提升效果。因此,本公开示例性实施例考虑的是应用场景的抽象, 不针对某具体场景,却适用于各场景。
也就是说,根据本公开的示例性实施例,所述训练数据或预测数据可以是图像数据、语音数据、用于描述工程控制对象的数据、用于描述用户(或其行为)的数据、用于描述行政、商业、医疗、监管、金融等各个领域内的对象和/或事件的数据等,相应地,所述模型旨在针对与上述对象或事件有关的问题进行预测。例如,所述模型可用于预测图像类别、文本类别、语音情感、欺诈交易、广告点击率等,使得预测结果可直接作为决策依据或进一步结合其他规则而成为决策依据。本公开的示例性实施例并不限制模型的预测目的所涉及的具体技术领域,但原因在于所述模型完全可适用于任何能够提供相应训练数据或预测数据的具体领域或场景,而绝不意味着所述模型无法适用于相关的技术领域。
更进一步来说,本申请中的包括三层级模型的神经网络模型100可应用于的场景包括但不限于以下场景:图像处理场景、语音识别场景、自然语言处理场景、自动控制场景、智能问答场景、业务决策场景、推荐业务场景、搜索场景和异常行为检测场景。上述各类场景下的更具体应用场景详见前面的描述。
因此,本申请的神经网络模型的训练方法和系统以及预测方法和系统,也可以应用于上述的任一场景,并且本申请的神经网络模型的训练方法和系统以及预测方法和系统,在应用于不同的场景时,总体执行方案并无差别,只是在不同场景下针对的数据不同,因此本领域的技术人员基于前述的方案公开可以毫无障碍地将本申请的方案应用于不同的场景,因此不需要对每个场景一一进行说明。
以上描述了本申请的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本申请的保护范围应该以权利要求的范围为准。

Claims (77)

  1. 一种由至少一个计算装置执行的包括三层级模型的神经网络模型的训练方法,所述方法包括:
    获取训练数据记录;
    基于训练数据记录的属性信息来生成训练样本的特征,并将训练数据记录的标记作为训练样本的标记;以及
    利用训练样本的集合来训练神经网络模型,
    其中,在训练神经网络模型的过程中,
    通过神经网络模型的第一层级模型所包括的多个底层神经网络模型来分别学习出每个特征自身的特征信息表示,
    通过神经网络模型的第二层级模型所包括的多个中间模型来分别学习出对应输入项之间的交互表示,其中,所述对应输入项包括由第一层级模型输出的特征信息表示之中的至少一个,
    通过作为神经网络模型的第三层级模型的顶层神经网络模型来至少基于第二层级模型输出的交互表示学习出预测结果,并
    至少基于所述预测结果与所述标记之间的差异来调整所述包括三层级模型的神经网络模型。
  2. 如权利要求1所述的训练方法,其中,通过神经网络模型的第一层级模型所包括的多个底层神经网络模型来分别学习出每个特征自身的特征信息表示的步骤包括:
    将训练样本的特征之中的离散特征以及经过离散化处理的连续特征经过对应的嵌入层,并将每个嵌入层输出的特征嵌入向量分别经过对应的底层神经网络模型,通过对应的底层神经网络模型学习出对应特征的特征信息表示;或者
    将训练样本的特征之中的离散特征经过对应的嵌入层,并将每个嵌入层输出的特征嵌入向量分别经过对应的底层神经网络模型,通过对应的底层神经网络模型学习出对应离散特征的特征信息表示,并且将训练样本的特征之中的连续特征直接经过对应的底层神经网络模型,通过对应的底层神经网络模型学习出对应连续特征的特征信息表示。.
  3. 如权利要求2所述的训练方法,所述方法还包括:在将训练样本的特征分别经过对应的嵌入层之前,分别确定各个嵌入层的维度。
  4. 如权利要求3所述的训练方法,其中,分别确定各个嵌入层的维度的步骤包括:
    至少基于输入各个嵌入层的特征来分别确定各个嵌入层的维度。
  5. 如权利要求4所述的训练方法,其中,至少基于输入各个嵌入层的特征来分别确定各个嵌入层的维度的步骤包括:基于输入各个嵌入层的特征的特征值的数量来分别确定各个嵌入层的维度。
  6. 如权利要求4所述的训练方法,其中,至少基于输入各个嵌入层的特征来分别确定各个嵌入层的维度的步骤包括:基于输入各个嵌入层的特征的信息熵来分别确定各个嵌入层的维度。
  7. 如权利要求6所述的训练方法,其中,基于输入各个嵌入层的特征的信息熵来分别确定各个嵌入层的维度的步骤包括:基于输入各个嵌入层的特征的信息熵的大小来成比例地确定各个嵌入层的维度。
  8. 如权利要求6所述的训练方法,其中,基于输入各个嵌入层的特征的信息熵来分别确定各个嵌入层的维度的步骤包括:
    设置最大维度和最小维度;
    将信息熵最低的第一预定数量个特征所对应的嵌入层确定为分配所述最小维度,并将信息熵最高的第二预定数量个特征所对应的嵌入层确定为分配所述最大维度;
    对于除了第一预定数量个特征和第二预定数量个特征之外的其余特征,在所述最小维度与所述最大维度之间,按照所述其余特征的信息熵的大小来成比例地确定与所述其余特征分别对应的嵌入层的维度,
    其中,通过枚举第一预定数量和第二预定数量来确定关于第一预定数量和第二预定数量的最优解。
  9. 如权利要求8所述的训练方法,其中,所述最优解对应于使得被分配给各个嵌入层的维度的方差值最小或最大。
  10. 如权利要求8所述的训练方法,其中,所述最大维度或所述最小维度基于运算资源、训练数据记录的数据量、以及所述神经网络模型的应用场景中的至少一个来确定。
  11. 如权利要求3所述的训练方法,其中,分别确定各个嵌入层的维度的步骤包括:
    基于维度学习模型来学习出各个嵌入层的维度,
    其中,所述维度学习模型被设计为通过各个嵌入层的候选维度以及与所述候选维度对应的神经网络模型的模型效果来迭代学习出各个嵌入层的最佳维度,并将学习出的各个嵌入层的最佳维度确定为各个嵌入层的维度。
  12. 如权利要求11所述的训练方法,其中,所述维度学习模型基于强化学习或贝叶斯优化。
  13. 如权利要求2所述的训练方法,其中,通过神经网络模型的第一层级模型所包括的多个底层神 经网络模型来分别学习出每个特征自身的特征信息表示的步骤还包括:将嵌入层输出的特征嵌入向量分别与对应的底层神经网络模型的输出进行函数运算,并将函数运算结果作为该对应的底层神经网络模型所学习的特征信息表示。
  14. 如权利要求13所述的训练方法,其中,通过神经网络模型的第一层级模型所包括的多个底层神经网络模型来分别学习出每个特征自身的特征信息表示的步骤还包括:
    将训练样本的特征之中的连续特征与对应的底层神经网络结构的输出进行函数运算,并将函数运算结果作为该对应的底层神经网络模型输出的特征信息表示。
  15. 如权利要求14所述的训练方法,其中,所述函数运算为按位相加或按位相乘运算。
  16. 如权利要求15所述的训练方法,其中,将嵌入层输出的特征嵌入向量分别与对应的底层神经网络模型的输出进行函数运算的步骤包括:将嵌入层输出的特征嵌入向量与对应的底层神经网络模型的输出进行维度统一,并对维度统一后的特征嵌入向量与对应的底层神经网络结构的输出进行函数运算。
  17. 如权利要求16所述的训练方法,其中,所述维度统一的步骤包括:对嵌入层输出的特征嵌入向量和对应的底层神经网络模型的输出中的至少一个进行占位填充,使得嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出维度相同。
  18. 如权利要求16所述的训练方法,其中,所述维度统一的步骤包括:将嵌入层输出的特征嵌入向量和对应的底层神经网络模型的输出中的至少一个与变换矩阵相乘,使得嵌入层输出的特征嵌入向量和对应的底层神经网络模型的输出维度相同。
  19. 如权利要求18所述的训练方法,其中,所述变换矩阵是在利用训练样本的集合来训练所述神经网络模型的过程中被学习出的。
  20. 如权利要求14所述的训练方法,其中,在所述函数运算中所使用的函数的参数是在利用训练样本的集合来训练所述神经网络模型的过程中被学习出的。
  21. 如权利要求2所述的训练方法,其中,所述对应输入项还包括:嵌入层输出的至少一个特征嵌入向量、至少一个原始的离散特征和至少一个原始的连续特征中的至少一个。
  22. 如权利要求1所述的训练方法,其中,通过神经网络模型的第二层级模型所包括的多个中间模型来分别学习出对应输入项之间的交互表示的步骤包括:针对每个中间模型,通过对其所对应的输入项之中的至少一个进行转换、拼接和运算中的至少一项处理而得到所述每个中间模型的至少一部分输入。
  23. 如权利要求22所述的训练方法,其中,所述运算包括对每个中间模型所对应的原始或经过转换的至少一个输入项进行求和运算、均值运算、最大池化运算和基于注意力机制的加权运算中的至少一项处理。
  24. 如权利要求23所述的训练方法,其中,基于注意力机制的加权运算经由专门的注意力机制网络来执行。
  25. 如权利要求24所述的训练方法,其中,基于注意力机制的加权运算包括:经由所述专门的注意力机制网络来学习出针对原始或经过转换的至少一个输入项的一套或多套权重,并基于所述一套或多套权重来分别对原始或经过转换的至少一个输入项进行加权。
  26. 如权利要求1所述的训练方法,其中,通过神经网络模型的第二层级模型所包括的多个中间模型来分别学习出对应输入项之间的交互表示的步骤还包括:根据特征的特性、特征的组合性和各种类型的模型的学习能力特性至少一个来确定中间模型的类型及其对应的至少一个输入项。
  27. 如权利要求26所述的训练方法,其中,所述中间模型包括以下项之一:
    全输入的神经网络模型,其输入为全部输入项的拼接结果;
    组合特征神经网络模型,其输入为全部输入项之中与能够进行组合的特征对应的输入项的拼接结果;以及
    基于因子分解机的模型,其输入为全部输入项之中的任意两个输入项按位相乘之后,将相乘结果进行按位相加后得到的运算结果。
  28. 如权利要求2所述的训练方法,其中,通过作为神经网络模型的第三层级模型的顶层神经网络模型来至少基于第二层级模型输出的交互表示来学习出预测结果的步骤包括:通过顶层神经网络模型来基于第二层级模型输出的至少一个交互表示、第一层级模型输出的至少一个特征信息表示、嵌入层输出的至少一个特征嵌入向量、至少一个原始的离散特征和至少一个原始的连续特征中的至少一个来学习出预测结果。
  29. 如权利要求28所述的训练方法,其中,通过顶层神经网络模型来基于第二层级模型输出的至少一个交互表示、第一层级模型输出的至少一个特征信息表示、嵌入层输出的至少一个特征嵌入向量、至少一个原始的离散特征和至少一个原始的连续特征中的至少一个来学习出预测结果的步骤还包括:通过对第二层级模型输出的至少一个交互表示、第一层级模型输出的至少一个特征信息表示、嵌入层输出的至少一个特征嵌入向量、至少一个原始的离散特征和至少一个原始的连续特征中的至少一个,进行拼接 和运算中的至少一项处理而得到所述顶层神经网络模型的至少一部分输入。
  30. 如权利要求1所述的训练方法,其中,至少基于所述预测结果与所述标记之间的差异来调整所述包括三层级模型的神经网络模型的步骤包括:
    针对所述包括三层级模型的神经网络模型之中的主体神经网络结构之中的至少一部分层,分别获得与其中每层的输出对应的层预测结果;
    基于由所述包括三层级模型的神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建模型损失函数;以及
    根据所述模型损失函数来调整所述包括三层级模型的神经网络模型。
  31. 如权利要求30所述的训练方法,其中,分别获得与其中每层的输出对应的层预测结果的步骤包括:
    分别将所述每层的输出经过至少一次转换,以获得与所述每层对应的层预测结果。
  32. 如权利要求31所述的训练方法,其中,通过分别将所述每层的层权重矩阵与所述每层的输出相乘并与相应的层偏置项相加来执行一次转换。
  33. 如权利要求32所述的训练方法,其中,
    层权重矩阵是在训练神经网络模型的过程中被学习出的。
  34. 如权利要求30所述的训练方法,其中,基于由所述包括三层级模型的神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建模型损失函数的步骤包括:
    基于由所述包括三层级模型的神经网络模型的输出层所输出的预测结果与所述标记之间的差异来构建输出层损失函数,分别基于每个层预测结果与所述标记之间的层预测差异来构建所述每层的层损失函数,通过对输出层损失函数和各个层损失函数进行加权求和来构建所述模型损失函数。
  35. 如权利要求34所述的训练方法,其中,在训练神经网络模型的过程中,针对不同批次的训练样本,各个层损失函数的函数类型被动态设置,并且/或者,针对不同批次的训练样本,主体神经网络结构之中的所述至少一部分层被动态设置。
  36. 如权利要求30所述的训练方法,其中,
    所述主体神经网络结构包括除了所述包括三层级模型的神经网络模型的输出层之外的全部层,
    或者,
    所述主体神经网络结构包括除了所述包括三层级模型的神经网络模型的输出层之外起主要预测作用的各个层。
  37. 一种包括至少一个计算装置和至少一个存储指令的存储装置的训练包括三层级模型的神经网络模型的系统,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行以下步骤:
    获取训练数据记录;
    基于训练数据记录的属性信息来生成训练样本的特征,并将训练数据记录的标记作为训练样本的标记;以及
    利用训练样本的集合来训练神经网络模型,
    其中,在训练神经网络模型的过程中,通过神经网络模型的第一层级模型所包括的多个底层神经网络模型来分别学习出每个特征自身的特征信息表示,通过神经网络模型的第二层级模型所包括的多个中间模型来分别学习出对应输入项之间的交互表示,通过作为神经网络模型的第三层级模型的顶层神经网络模型来至少基于第二层级模型输出的交互表示学习出预测结果,并至少基于所述预测结果与所述标记之间的差异来调整所述包括三层级模型的神经网络模型,其中,所述对应输入项包括由第一层级模型输出的特征信息表示之中的至少一个。
  38. 如权利要求37所述的训练系统,其中,所述通过神经网络模型的第一层级模型所包括的多个底层神经网络模型来分别学习出每个特征自身的特征信息表示的步骤包括:
    将训练样本的特征之中的离散特征以及经过离散化处理的连续特征经过对应的嵌入层,并将每个嵌入层输出的特征嵌入向量分别经过对应的底层神经网络模型,通过对应的底层神经网络模型学习出对应特征的特征信息表示;或者
    将训练样本的特征之中的离散特征经过对应的嵌入层,并将每个嵌入层输出的特征嵌入向量分别经过对应的底层神经网络模型,通过对应的底层神经网络模型学习出对应离散特征的特征信息表示,并且将训练样本的特征之中的连续特征直接经过对应的底层神经网络模型,通过对应的底层神经网络模型学习出对应连续特征的特征信息表示。
  39. 如权利要求38所述的训练系统,其中,在将训练样本的特征分别经过对应的嵌入层之前,还分别确定各个嵌入层的维度。
  40. 如权利要求39所述的训练系统,其中,所述分别确定各个嵌入层的维度的步骤包括:至少基于 输入各个嵌入层的特征来分别确定各个嵌入层的维度。
  41. 如权利要求40所述的训练系统,其中,所述至少基于输入各个嵌入层的特征来分别确定各个嵌入层的维度的步骤包括:基于输入各个嵌入层的特征的特征值的数量来分别确定各个嵌入层的维度。
  42. 如权利要求40所述的训练系统,其中,所述至少基于输入各个嵌入层的特征来分别确定各个嵌入层的维度的步骤包括:基于输入各个嵌入层的特征的信息熵来分别确定各个嵌入层的维度。
  43. 如权利要求42所述的训练系统,其中,所述基于输入各个嵌入层的特征的信息熵来分别确定各个嵌入层的维度步骤包括:基于输入各个嵌入层的特征的信息熵的大小来成比例地确定各个嵌入层的维度。
  44. 如权利要求42所述的训练系统,其中,所述基于输入各个嵌入层的特征的信息熵来分别确定各个嵌入层的维度步骤包括:通过以下操作来确定各个嵌入层的维度:
    设置最大维度和最小维度;
    将信息熵最低的第一预定数量个特征所对应的嵌入层确定为分配所述最小维度,并将信息熵最高的第二预定数量个特征所对应的嵌入层确定为分配所述最大维度;
    对于除了第一预定数量个特征和第二预定数量个特征之外的其余特征,在所述最小维度与所述最大维度之间,按照所述其余特征的信息熵的大小来成比例地确定与所述其余特征分别对应的嵌入层的维度,
    其中,通过枚举第一预定数量和第二预定数量来确定关于第一预定数量和第二预定数量的最优解。
  45. 如权利要求44所述的训练系统,其中,所述最优解对应于使得被分配给各个嵌入层的维度的方差值最小或最大。
  46. 如权利要求44所述的训练系统,其中,所述最大维度或所述最小维度基于运算资源、训练数据记录的数据量、以及所述神经网络模型的应用场景中的至少一个来确定。
  47. 如权利要求39所述的训练系统,其中,所述分别确定各个嵌入层的维度的步骤包括:
    基于维度学习模型来学习出各个嵌入层的维度,
    其中,所述维度学习模型被设计为通过各个嵌入层的候选维度以及与所述候选维度对应的神经网络模型的模型效果来迭代学习出各个嵌入层的最佳维度,并将学习出的各个嵌入层的最佳维度确定为各个嵌入层的维度。
  48. 如权利要求47所述的训练系统,其中,所述维度学习模型基于强化学习或贝叶斯优化。
  49. 如权利要求38所述的训练系统,其中,通过神经网络模型的第一层级模型所包括的多个底层神经网络模型来分别学习出每个特征自身的特征信息表示的步骤还包括:将嵌入层输出的特征嵌入向量分别与对应的底层神经网络模型的输出进行函数运算,并将函数运算结果作为该对应的底层神经网络模型所学习的特征信息表示。
  50. 如权利要求49所述的训练系统,其中,
    通过神经网络模型的第一层级模型所包括的多个底层神经网络模型来分别学习出每个特征自身的特征信息表示的步骤还包括:
    将训练样本的特征之中的连续特征与对应的底层神经网络结构的输出进行函数运算,并将函数运算结果作为该对应的底层神经网络模型输出的特征信息表示。
  51. 如权利要求50所述的训练系统,其中,所述函数运算为按位相加或按位相乘运算。
  52. 如权利要求51所述的训练系统,其中,将嵌入层输出的特征嵌入向量分别与对应的底层神经网络模型的输出进行函数运算的步骤包括:将嵌入层输出的特征嵌入向量与对应的底层神经网络模型的输出进行维度统一,并对维度统一后的特征嵌入向量与对应的底层神经网络结构的输出进行函数运算。
  53. 如权利要求52所述的训练系统,其中,所述维度统一的步骤包括:对嵌入层输出的特征嵌入向量和对应的底层神经网络模型的输出中的至少一个进行占位填充,使得嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出维度相同。
  54. 如权利要求52所述的训练系统,其中,所述维度统一的步骤包括:将嵌入层输出的特征嵌入向量和对应的底层神经网络模型的输出中的至少一个与变换矩阵相乘,使得嵌入层输出的特征嵌入向量和对应的底层神经网络模型的输出维度相同。
  55. 如权利要求54所述的训练系统,其中,所述变换矩阵是在利用训练样本的集合来训练所述神经网络模型的过程中被学习出的。
  56. 如权利要求50所述的训练系统,其中,在所述函数运算中所使用的函数的参数是在利用训练样本的集合来训练所述神经网络模型的过程中被学习出的。
  57. 如权利要求38所述的训练系统,其中,所述对应输入项还包括:嵌入层输出的至少一个特征嵌入向量、至少一个原始的离散特征和至少一个原始的连续特征中的任至少一个。
  58. 如权利要求37所述的训练系统,其中,通过神经网络模型的第二层级模型所包括的多个中间模型来分别学习出对应输入项之间的交互表示的步骤包括:针对每个中间模型,通过对其所对应的输入项 之中的至少一个进行转换、拼接和运算中的至少一项处理而得到所述每个中间模型的至少一部分输入。
  59. 如权利要求58所述的训练系统,其中,所述运算包括对每个中间模型所对应的原始或经过转换的至少一个输入项进行求和运算、均值运算、最大池化运算和基于注意力机制的加权运算中的至少一项处理。
  60. 如权利要求59所述的训练系统,其中,基于注意力机制的加权运算经由专门的注意力机制网络来执行。
  61. 如权利要求60所述的训练系统,其中,基于注意力机制的加权运算包括:经由所述专门的注意力机制网络来学习出针对原始或经过转换的至少一个输入项的一套或多套权重,并基于所述一套或多套权重来分别对原始或经过转换的至少一个输入项进行加权。
  62. 如权利要求37所述的训练系统,其中,通过神经网络模型的第二层级模型所包括的多个中间模型来分别学习出对应输入项之间的交互表示的步骤还包括:根据特征的特性、特征的组合性和各种类型的模型的学习能力特性中的至少一个来确定中间模型的类型及其对应的至少一个输入项。
  63. 如权利要求62所述的训练系统,其中,所述中间模型包括以下项之一:
    全输入的神经网络模型,其输入为全部输入项的拼接结果;
    组合特征神经网络模型,其输入为全部输入项之中与能够进行组合的特征对应的输入项的拼接结果;以及
    基于因子分解机的模型,其输入为全部输入项之中的任意两个输入项按位相乘之后,将相乘结果进行按位相加后得到的运算结果。
  64. 如权利要求38所述的训练系统,其中,通过作为神经网络模型的第三层级模型的顶层神经网络模型来至少基于第二层级模型输出的交互表示来学习出预测结果的步骤包括:通过顶层神经网络模型来基于第二层级模型输出的至少一个交互表示、第一层级模型输出的至少一个特征信息表示、嵌入层输出的至少一个特征嵌入向量、至少一个原始的离散和至少一个原始的连续特征中的至少一个来学习出预测结果。
  65. 如权利要求64所述的训练系统,其中,通过顶层神经网络模型来基于第二层级模型输出的至少一个交互表示、第一层级模型输出的至少一个特征信息表示、嵌入层输出的至少一个特征嵌入向量、至少一个原始的离散特征和至少一个原始的连续特征中的至少一个来学习出预测结果的步骤还包括:通过对第二层级模型输出的至少一个交互表示、第一层级模型输出的至少一个特征信息表示、嵌入层输出的至少一个特征嵌入向量、至少一个原始的离散特征和至少一个原始的连续特征中的至少一个,进行拼接和运算至少一项处理而得到所述顶层神经网络模型的至少一部分输入。
  66. 如权利要求37所述的训练系统,其中,至少基于所述预测结果与所述标记之间的差异来调整所述包括三层级模型的神经网络模型的步骤包括:
    针对所述包括三层级模型的神经网络模型之中的主体神经网络结构之中的至少一部分层,分别获得与其中每层的输出对应的层预测结果;
    基于由所述包括三层级模型的神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建模型损失函数;以及
    根据所述模型损失函数来调整所述包括三层级模型的神经网络模型。
  67. 如权利要求66所述的训练系统,其中,分别获得与其中每层的输出对应的层预测结果的步骤包括:
    分别将所述每层的输出经过至少一次转换,以获得与所述每层对应的层预测结果。
  68. 如权利要求67所述的训练系统,其中,通过分别将所述每层的层权重矩阵与所述每层的输出相乘并与相应的层偏置项相加来执行一次转换。
  69. 如权利要求68所述的训练系统,其中,
    层权重矩阵是在训练神经网络模型的过程中被学习出的。
  70. 如权利要求66所述的训练系统,其中
    基于由所述包括三层级模型的神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建模型损失函数的步骤包括:
    基于由所述包括三层级模型的神经网络模型的输出层所输出的预测结果与所述标记之间的差异来构建输出层损失函数,分别基于每个层预测结果与所述标记之间的层预测差异来构建所述每层的层损失函数,通过对输出层损失函数和各个层损失函数进行加权求和来构建所述模型损失函数。
  71. 如权利要求70所述的训练系统,其中,在训练神经网络模型的过程中,针对不同批次的训练样本,各个层损失函数的函数类型被动态设置,并且/或者,针对不同批次的训练样本,主体神经网络结构之中的所述至少一部分层被动态设置。
  72. 如权利要求66所述的训练系统,其中,
    所述主体神经网络结构包括除了所述包括三层级模型的神经网络模型的输出层之外的全部层,
    或者,
    所述主体神经网络结构包括除了所述包括三层级模型的神经网络模型的输出层之外起主要预测作用的各个层。
  73. 一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至36中的任一权利要求所述的方法。
  74. 一种包括三层级模型的神经网络模型的训练系统,所述系统包括:
    数据获取装置,用于获取训练数据记录;
    样本生成装置,用于基于训练数据记录的属性信息来生成训练样本的特征,并将训练数据记录的标记作为训练样本的标记;以及
    训练装置,用于利用训练样本的集合来训练神经网络模型,
    其中,在训练神经网络模型的过程中,训练装置通过神经网络模型的第一层级模型所包括的多个底层神经网络模型来分别学习出每个特征自身的特征信息表示,通过神经网络模型的第二层级模型所包括的多个中间模型来分别学习出对应输入项之间的交互表示,通过作为神经网络模型的第三层级模型的顶层神经网络模型来至少基于第二层级模型输出的交互表示学习出预测结果,并至少基于所述预测结果与所述标记之间的差异来调整所述包括三层级模型的神经网络模型,其中,所述对应输入项包括由第一层级模型输出的特征信息表示之中的至少一个。
  75. 一种利用神经网络模型执行预测的方法,所述方法包括:
    获取预测数据记录;
    基于预测数据记录的属性信息来生成预测样本的特征;以及
    利用如权利要求1至36之中的任一权利要求所训练出的神经网络模型,针对预测样本来提供相应的预测结果。
  76. 一种包括至少一个计算装置和至少一个存储指令的存储装置的预测系统,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行以下步骤:
    获取预测数据记录;
    基于预测数据记录的属性信息来生成预测样本的特征;以及
    利用如权利要求1至36之中的任一权利要求所训练出的神经网络模型,针对预测样本来提供相应的预测结果。
  77. 一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求75所述的方法。
PCT/CN2019/096971 2018-07-23 2019-07-22 神经网络模型的训练方法和系统以及预测方法和系统 WO2020020088A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/262,974 US20210264272A1 (en) 2018-07-23 2019-07-22 Training method and system of neural network model and prediction method and system

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201810813359 2018-07-23
CN201810813359.9 2018-07-23
CN201910618144.6A CN110751261B (zh) 2018-07-23 2019-07-10 神经网络模型的训练方法和系统以及预测方法和系统
CN201910618144.6 2019-07-10

Publications (1)

Publication Number Publication Date
WO2020020088A1 true WO2020020088A1 (zh) 2020-01-30

Family

ID=69180275

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/096971 WO2020020088A1 (zh) 2018-07-23 2019-07-22 神经网络模型的训练方法和系统以及预测方法和系统

Country Status (1)

Country Link
WO (1) WO2020020088A1 (zh)

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310920A (zh) * 2020-03-17 2020-06-19 无锡多纬智控科技有限公司 将深度学习神经网络技术应用于信号采集装置的方法
CN111339415A (zh) * 2020-02-25 2020-06-26 中国科学技术大学 一种基于多交互式注意力网络的点击率预测方法与装置
CN111340187A (zh) * 2020-02-18 2020-06-26 河北工业大学 基于对抗注意力机制的网络表征方法
CN111400525A (zh) * 2020-03-20 2020-07-10 中国科学技术大学 基于视觉组合关系学习的时尚服装智能搭配与推荐方法
CN111414539A (zh) * 2020-03-19 2020-07-14 清华大学 基于特征增强的推荐系统神经网络训练方法及装置
CN111539524A (zh) * 2020-03-23 2020-08-14 字节跳动有限公司 轻量级自注意力模块、神经网络模型和神经网络构架的搜索方法
CN111639465A (zh) * 2020-06-04 2020-09-08 南京工程学院 一种基于深度学习的AlGaAs光电阴极结构设计方法
CN111724000A (zh) * 2020-06-29 2020-09-29 南方电网科学研究院有限责任公司 一种用户电费回收风险预测方法、装置及系统
CN111737749A (zh) * 2020-06-28 2020-10-02 南方电网科学研究院有限责任公司 基于联邦学习的计量装置告警预测方法及设备
CN111768047A (zh) * 2020-07-04 2020-10-13 江苏工程职业技术学院 一种基于多特征数据、多模型的水流速度预测方法
CN111798934A (zh) * 2020-06-23 2020-10-20 苏州浦意智能医疗科技有限公司 一种基于图神经网络的分子性质预测方法
CN112017025A (zh) * 2020-08-26 2020-12-01 天元大数据信用管理有限公司 一种基于深度学习与逻辑回归相融合的企业信用评估方法
CN112187820A (zh) * 2020-10-09 2021-01-05 深圳供电局有限公司 基于机器学习的配电终端dtu入侵检测方法和系统
CN112183630A (zh) * 2020-09-28 2021-01-05 中国平安人寿保险股份有限公司 基于埋点层级的嵌入向量生成方法、装置、设备及介质
CN112307672A (zh) * 2020-10-29 2021-02-02 上海电机学院 基于布谷鸟算法优化的bp神经网络短期风功率预测方法
CN112561598A (zh) * 2020-12-23 2021-03-26 中国农业银行股份有限公司重庆市分行 基于客户画像的客户流失预测及挽回方法和系统
CN112668699A (zh) * 2020-12-30 2021-04-16 燕山大学 一种轧制力的预测方法及装置
CN112784912A (zh) * 2021-01-29 2021-05-11 北京百度网讯科技有限公司 图像识别方法及装置、神经网络模型的训练方法及装置
CN112884513A (zh) * 2021-02-19 2021-06-01 上海数鸣人工智能科技有限公司 基于深度因子分解机的营销活动预测模型结构和预测方法
CN112990480A (zh) * 2021-03-10 2021-06-18 北京嘀嘀无限科技发展有限公司 构建模型的方法、装置、电子设备和存储介质
CN113011639A (zh) * 2021-03-04 2021-06-22 中国石油大学(华东) 基于机器学习的射孔井产能预测方法及系统
CN113035349A (zh) * 2021-03-25 2021-06-25 浙江大学 面向遗传代谢病多中心筛查的神经网络动态融合方法
CN113051472A (zh) * 2021-03-23 2021-06-29 北京百度网讯科技有限公司 点击通过率预估模型的建模方法、装置、设备以及存储介质
CN113221984A (zh) * 2021-04-29 2021-08-06 平安科技(深圳)有限公司 用户酒驾行为分析预测方法、装置、设备及存储介质
CN113328908A (zh) * 2021-05-10 2021-08-31 广东电网有限责任公司广州供电局 异常数据的检测方法、装置、计算机设备和存储介质
CN113342969A (zh) * 2020-03-03 2021-09-03 北京沃东天骏信息技术有限公司 数据处理方法和装置
CN113344415A (zh) * 2021-06-23 2021-09-03 中国平安财产保险股份有限公司 基于深度神经网络的业务分配方法、装置、设备及介质
CN113360747A (zh) * 2020-03-04 2021-09-07 阿里巴巴集团控股有限公司 基于神经网络模型的数据处理方法及装置
CN113496304A (zh) * 2020-04-03 2021-10-12 北京达佳互联信息技术有限公司 网络媒介信息的投放控制方法、装置、设备及存储介质
CN113535800A (zh) * 2021-06-03 2021-10-22 同盾科技有限公司 信贷场景下的特征表示方法、电子设备和存储介质
CN113595770A (zh) * 2021-07-09 2021-11-02 北京百度网讯科技有限公司 群组点击率预估方法、装置、电子设备和存储介质
CN113645439A (zh) * 2021-06-22 2021-11-12 宿迁硅基智能科技有限公司 事件检测方法及系统、存储介质及电子装置
CN113688327A (zh) * 2021-08-31 2021-11-23 中国平安人寿保险股份有限公司 融合神经图协同滤波网络的数据预测方法、装置及设备
CN113763019A (zh) * 2021-01-28 2021-12-07 北京沃东天骏信息技术有限公司 一种用户信息管理方法和装置
CN113781139A (zh) * 2020-10-19 2021-12-10 北京沃东天骏信息技术有限公司 物品推荐方法、物品推荐装置、设备和介质
CN114004651A (zh) * 2021-11-02 2022-02-01 武汉市伟荣发信息科技有限公司 一种获客渠道信息统计整理系统
CN114202255A (zh) * 2022-02-15 2022-03-18 杭州杰牌传动科技有限公司 一种用于传动体系生产的异构数据交互方法和系统
CN114334041A (zh) * 2021-12-31 2022-04-12 厦门大学 一种基于Transformer的电磁超材料复杂光谱高精度预测方法
CN114520817A (zh) * 2022-02-18 2022-05-20 中国农业银行股份有限公司 数据传输方法及装置、存储介质及电子设备
CN114637466A (zh) * 2022-03-03 2022-06-17 深圳大学 一种数据读写行为推测方法、装置、存储介质及电子设备
CN114660993A (zh) * 2022-05-25 2022-06-24 中科航迈数控软件(深圳)有限公司 一种基于多源异构数据特征降维的数控机床故障预测方法
CN114688688A (zh) * 2022-03-30 2022-07-01 湖南大友恒实业有限公司 一种基于深度学习的智能制冷舒适空调
CN114791160A (zh) * 2022-01-27 2022-07-26 王艳茜 基于神经网络模型的中央空调控制方法及装置
CN115174421A (zh) * 2022-06-13 2022-10-11 湖北工业大学 基于自监督解缠绕超图注意力的网络故障预测方法及装置
CN116760727A (zh) * 2023-05-30 2023-09-15 南京南瑞信息通信科技有限公司 一种异常流量识别方法、设备、系统及存储介质
CN111814385B (zh) * 2020-05-28 2023-11-17 平安科技(深圳)有限公司 预测加工件质量的方法、装置和计算机设备
CN117196544A (zh) * 2023-11-07 2023-12-08 恒实建设管理股份有限公司 一种工程信息智能化管理方法及系统
CN117784290A (zh) * 2024-02-26 2024-03-29 南京信息工程大学 一种基于贝叶斯神经网络的骤旱预警方法及系统
CN117874633A (zh) * 2024-03-13 2024-04-12 金祺创(北京)技术有限公司 基于深度学习算法的网络数据资产画像生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787500A (zh) * 2014-12-26 2016-07-20 日本电气株式会社 基于人工神经网络的特征选择方法和装置
CN107220707A (zh) * 2017-06-19 2017-09-29 山东师范大学 基于二维数据的动态神经网络模型训练方法和装置
CN107480774A (zh) * 2017-08-11 2017-12-15 山东师范大学 基于集成学习的动态神经网络模型训练方法和装置
US20180068216A1 (en) * 2015-03-13 2018-03-08 Institute Of Acoustics, Chinese Academy Of Sciences Big data processing method based on deep learning model satisfying k-degree sparse constraint

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787500A (zh) * 2014-12-26 2016-07-20 日本电气株式会社 基于人工神经网络的特征选择方法和装置
US20180068216A1 (en) * 2015-03-13 2018-03-08 Institute Of Acoustics, Chinese Academy Of Sciences Big data processing method based on deep learning model satisfying k-degree sparse constraint
CN107220707A (zh) * 2017-06-19 2017-09-29 山东师范大学 基于二维数据的动态神经网络模型训练方法和装置
CN107480774A (zh) * 2017-08-11 2017-12-15 山东师范大学 基于集成学习的动态神经网络模型训练方法和装置

Cited By (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340187A (zh) * 2020-02-18 2020-06-26 河北工业大学 基于对抗注意力机制的网络表征方法
CN111340187B (zh) * 2020-02-18 2024-02-02 河北工业大学 基于对抗注意力机制的网络表征方法
CN111339415A (zh) * 2020-02-25 2020-06-26 中国科学技术大学 一种基于多交互式注意力网络的点击率预测方法与装置
CN111339415B (zh) * 2020-02-25 2023-06-20 中国科学技术大学 一种基于多交互式注意力网络的点击率预测方法与装置
CN113342969A (zh) * 2020-03-03 2021-09-03 北京沃东天骏信息技术有限公司 数据处理方法和装置
CN113360747B (zh) * 2020-03-04 2024-01-12 阿里巴巴集团控股有限公司 基于神经网络模型的数据处理方法及装置
CN113360747A (zh) * 2020-03-04 2021-09-07 阿里巴巴集团控股有限公司 基于神经网络模型的数据处理方法及装置
CN111310920A (zh) * 2020-03-17 2020-06-19 无锡多纬智控科技有限公司 将深度学习神经网络技术应用于信号采集装置的方法
CN111414539A (zh) * 2020-03-19 2020-07-14 清华大学 基于特征增强的推荐系统神经网络训练方法及装置
CN111414539B (zh) * 2020-03-19 2023-09-01 清华大学 基于特征增强的推荐系统神经网络训练方法及装置
CN111400525B (zh) * 2020-03-20 2023-06-16 中国科学技术大学 基于视觉组合关系学习的时尚服装智能搭配与推荐方法
CN111400525A (zh) * 2020-03-20 2020-07-10 中国科学技术大学 基于视觉组合关系学习的时尚服装智能搭配与推荐方法
CN111539524B (zh) * 2020-03-23 2023-11-28 字节跳动有限公司 轻量级自注意力模块和神经网络构架的搜索方法
CN111539524A (zh) * 2020-03-23 2020-08-14 字节跳动有限公司 轻量级自注意力模块、神经网络模型和神经网络构架的搜索方法
CN113496304B (zh) * 2020-04-03 2024-03-08 北京达佳互联信息技术有限公司 网络媒介信息的投放控制方法、装置、设备及存储介质
CN113496304A (zh) * 2020-04-03 2021-10-12 北京达佳互联信息技术有限公司 网络媒介信息的投放控制方法、装置、设备及存储介质
CN111814385B (zh) * 2020-05-28 2023-11-17 平安科技(深圳)有限公司 预测加工件质量的方法、装置和计算机设备
CN111639465B (zh) * 2020-06-04 2024-03-05 南京工程学院 一种基于深度学习的AlGaAs光电阴极结构设计方法
CN111639465A (zh) * 2020-06-04 2020-09-08 南京工程学院 一种基于深度学习的AlGaAs光电阴极结构设计方法
CN111798934B (zh) * 2020-06-23 2023-11-14 苏州浦意智能医疗科技有限公司 一种基于图神经网络的分子性质预测方法
CN111798934A (zh) * 2020-06-23 2020-10-20 苏州浦意智能医疗科技有限公司 一种基于图神经网络的分子性质预测方法
CN111737749A (zh) * 2020-06-28 2020-10-02 南方电网科学研究院有限责任公司 基于联邦学习的计量装置告警预测方法及设备
CN111724000B (zh) * 2020-06-29 2024-02-09 南方电网科学研究院有限责任公司 一种用户电费回收风险预测方法、装置及系统
CN111724000A (zh) * 2020-06-29 2020-09-29 南方电网科学研究院有限责任公司 一种用户电费回收风险预测方法、装置及系统
CN111768047A (zh) * 2020-07-04 2020-10-13 江苏工程职业技术学院 一种基于多特征数据、多模型的水流速度预测方法
CN111768047B (zh) * 2020-07-04 2022-05-27 江苏工程职业技术学院 一种基于多特征数据、多模型的水流速度预测方法
CN112017025A (zh) * 2020-08-26 2020-12-01 天元大数据信用管理有限公司 一种基于深度学习与逻辑回归相融合的企业信用评估方法
CN112017025B (zh) * 2020-08-26 2024-05-14 天元大数据信用管理有限公司 一种基于深度学习与逻辑回归相融合的企业信用评估方法
CN112183630B (zh) * 2020-09-28 2023-09-26 中国平安人寿保险股份有限公司 基于埋点层级的嵌入向量生成方法、装置、设备及介质
CN112183630A (zh) * 2020-09-28 2021-01-05 中国平安人寿保险股份有限公司 基于埋点层级的嵌入向量生成方法、装置、设备及介质
CN112187820A (zh) * 2020-10-09 2021-01-05 深圳供电局有限公司 基于机器学习的配电终端dtu入侵检测方法和系统
CN112187820B (zh) * 2020-10-09 2022-10-21 深圳供电局有限公司 基于机器学习的配电终端dtu入侵检测方法和系统
CN113781139A (zh) * 2020-10-19 2021-12-10 北京沃东天骏信息技术有限公司 物品推荐方法、物品推荐装置、设备和介质
CN112307672A (zh) * 2020-10-29 2021-02-02 上海电机学院 基于布谷鸟算法优化的bp神经网络短期风功率预测方法
CN112561598A (zh) * 2020-12-23 2021-03-26 中国农业银行股份有限公司重庆市分行 基于客户画像的客户流失预测及挽回方法和系统
CN112668699A (zh) * 2020-12-30 2021-04-16 燕山大学 一种轧制力的预测方法及装置
CN112668699B (zh) * 2020-12-30 2022-06-17 燕山大学 一种轧制力的预测方法及装置
CN113763019A (zh) * 2021-01-28 2021-12-07 北京沃东天骏信息技术有限公司 一种用户信息管理方法和装置
CN112784912A (zh) * 2021-01-29 2021-05-11 北京百度网讯科技有限公司 图像识别方法及装置、神经网络模型的训练方法及装置
CN112884513A (zh) * 2021-02-19 2021-06-01 上海数鸣人工智能科技有限公司 基于深度因子分解机的营销活动预测模型结构和预测方法
CN113011639A (zh) * 2021-03-04 2021-06-22 中国石油大学(华东) 基于机器学习的射孔井产能预测方法及系统
CN112990480A (zh) * 2021-03-10 2021-06-18 北京嘀嘀无限科技发展有限公司 构建模型的方法、装置、电子设备和存储介质
CN113051472A (zh) * 2021-03-23 2021-06-29 北京百度网讯科技有限公司 点击通过率预估模型的建模方法、装置、设备以及存储介质
CN113035349A (zh) * 2021-03-25 2021-06-25 浙江大学 面向遗传代谢病多中心筛查的神经网络动态融合方法
CN113035349B (zh) * 2021-03-25 2024-01-05 浙江大学 面向遗传代谢病多中心筛查的神经网络动态融合方法
CN113221984A (zh) * 2021-04-29 2021-08-06 平安科技(深圳)有限公司 用户酒驾行为分析预测方法、装置、设备及存储介质
CN113328908B (zh) * 2021-05-10 2022-07-26 广东电网有限责任公司广州供电局 异常数据的检测方法、装置、计算机设备和存储介质
CN113328908A (zh) * 2021-05-10 2021-08-31 广东电网有限责任公司广州供电局 异常数据的检测方法、装置、计算机设备和存储介质
CN113535800A (zh) * 2021-06-03 2021-10-22 同盾科技有限公司 信贷场景下的特征表示方法、电子设备和存储介质
CN113645439B (zh) * 2021-06-22 2022-07-29 宿迁硅基智能科技有限公司 事件检测方法及系统、存储介质及电子装置
CN113645439A (zh) * 2021-06-22 2021-11-12 宿迁硅基智能科技有限公司 事件检测方法及系统、存储介质及电子装置
CN113344415A (zh) * 2021-06-23 2021-09-03 中国平安财产保险股份有限公司 基于深度神经网络的业务分配方法、装置、设备及介质
CN113595770A (zh) * 2021-07-09 2021-11-02 北京百度网讯科技有限公司 群组点击率预估方法、装置、电子设备和存储介质
CN113595770B (zh) * 2021-07-09 2023-10-10 北京百度网讯科技有限公司 群组点击率预估方法、装置、电子设备和存储介质
CN113688327A (zh) * 2021-08-31 2021-11-23 中国平安人寿保险股份有限公司 融合神经图协同滤波网络的数据预测方法、装置及设备
CN114004651A (zh) * 2021-11-02 2022-02-01 武汉市伟荣发信息科技有限公司 一种获客渠道信息统计整理系统
CN114334041A (zh) * 2021-12-31 2022-04-12 厦门大学 一种基于Transformer的电磁超材料复杂光谱高精度预测方法
CN114791160A (zh) * 2022-01-27 2022-07-26 王艳茜 基于神经网络模型的中央空调控制方法及装置
CN114202255A (zh) * 2022-02-15 2022-03-18 杭州杰牌传动科技有限公司 一种用于传动体系生产的异构数据交互方法和系统
CN114520817B (zh) * 2022-02-18 2024-04-16 中国农业银行股份有限公司 数据传输方法及装置、存储介质及电子设备
CN114520817A (zh) * 2022-02-18 2022-05-20 中国农业银行股份有限公司 数据传输方法及装置、存储介质及电子设备
CN114637466B (zh) * 2022-03-03 2022-11-11 深圳大学 一种数据读写行为推测方法、装置、存储介质及电子设备
CN114637466A (zh) * 2022-03-03 2022-06-17 深圳大学 一种数据读写行为推测方法、装置、存储介质及电子设备
CN114688688B (zh) * 2022-03-30 2023-09-05 湖南大友恒集团有限公司 一种基于深度学习的智能制冷舒适空调
CN114688688A (zh) * 2022-03-30 2022-07-01 湖南大友恒实业有限公司 一种基于深度学习的智能制冷舒适空调
CN114660993A (zh) * 2022-05-25 2022-06-24 中科航迈数控软件(深圳)有限公司 一种基于多源异构数据特征降维的数控机床故障预测方法
CN115174421B (zh) * 2022-06-13 2023-05-23 湖北工业大学 基于自监督解缠绕超图注意力的网络故障预测方法及装置
CN115174421A (zh) * 2022-06-13 2022-10-11 湖北工业大学 基于自监督解缠绕超图注意力的网络故障预测方法及装置
CN116760727A (zh) * 2023-05-30 2023-09-15 南京南瑞信息通信科技有限公司 一种异常流量识别方法、设备、系统及存储介质
CN117196544A (zh) * 2023-11-07 2023-12-08 恒实建设管理股份有限公司 一种工程信息智能化管理方法及系统
CN117196544B (zh) * 2023-11-07 2024-01-30 恒实建设管理股份有限公司 一种工程信息智能化管理方法及系统
CN117784290A (zh) * 2024-02-26 2024-03-29 南京信息工程大学 一种基于贝叶斯神经网络的骤旱预警方法及系统
CN117784290B (zh) * 2024-02-26 2024-05-14 南京信息工程大学 一种基于贝叶斯神经网络的骤旱预警方法及系统
CN117874633A (zh) * 2024-03-13 2024-04-12 金祺创(北京)技术有限公司 基于深度学习算法的网络数据资产画像生成方法及装置
CN117874633B (zh) * 2024-03-13 2024-05-28 金祺创(北京)技术有限公司 基于深度学习算法的网络数据资产画像生成方法及装置

Similar Documents

Publication Publication Date Title
WO2020020088A1 (zh) 神经网络模型的训练方法和系统以及预测方法和系统
CN110751261B (zh) 神经网络模型的训练方法和系统以及预测方法和系统
CN110751286B (zh) 神经网络模型的训练方法和训练系统
WO2020253775A1 (zh) 机器学习建模过程的实现方法和系统
Wu et al. A graph-based CNN-LSTM stock price prediction algorithm with leading indicators
Souma et al. Enhanced news sentiment analysis using deep learning methods
WO2020249125A1 (zh) 用于自动训练机器学习模型的方法和系统
Zhu et al. Comparison of individual, ensemble and integrated ensemble machine learning methods to predict China’s SME credit risk in supply chain finance
Kahraman et al. An integrated intuitionistic fuzzy AHP and TOPSIS approach to evaluation of outsource manufacturers
CN110751285B (zh) 神经网络模型的训练方法和系统以及预测方法和系统
Wang et al. Predicting construction cost and schedule success using artificial neural networks ensemble and support vector machines classification models
CN110751287B (zh) 神经网络模型的训练方法及系统以及预测方法及系统
CN110705719A (zh) 执行自动机器学习的方法和装置
CN112184012B (zh) 一种企业风险预警方法、装置、设备及可读存储介质
US20230023630A1 (en) Creating predictor variables for prediction models from unstructured data using natural language processing
WO2020035075A1 (zh) 在数据隐私保护下执行机器学习的方法和系统
CN116468460B (zh) 基于人工智能的消费金融客户画像识别系统及其方法
US20230049817A1 (en) Performance-adaptive sampling strategy towards fast and accurate graph neural networks
Li et al. A data-driven explainable case-based reasoning approach for financial risk detection
CN117235811A (zh) 基于互联网金融的支付大数据分析方法及大数据分析系统
Sánchez et al. Improving debt collection via contact center information: A predictive analytics framework
WO2022169770A1 (en) Systems and methods for managing, distributing and deploying a recursive decisioning system based on continuously updating machine learning models
CN110858253A (zh) 在数据隐私保护下执行机器学习的方法和系统
Qasem et al. Extreme learning machine for credit risk analysis
Bari et al. Ensembles of text and time-series models for automatic generation of financial trading signals from social media content

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19841370

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19841370

Country of ref document: EP

Kind code of ref document: A1