WO2021000362A1 - 一种基于深度神经网络模型的地址信息特征抽取方法 - Google Patents

一种基于深度神经网络模型的地址信息特征抽取方法 Download PDF

Info

Publication number
WO2021000362A1
WO2021000362A1 PCT/CN2019/097375 CN2019097375W WO2021000362A1 WO 2021000362 A1 WO2021000362 A1 WO 2021000362A1 CN 2019097375 W CN2019097375 W CN 2019097375W WO 2021000362 A1 WO2021000362 A1 WO 2021000362A1
Authority
WO
WIPO (PCT)
Prior art keywords
address
model
semantic
module
feature
Prior art date
Application number
PCT/CN2019/097375
Other languages
English (en)
French (fr)
Inventor
张丰
毛瑞琛
杜震洪
徐流畅
叶华鑫
Original Assignee
浙江大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 浙江大学 filed Critical 浙江大学
Priority to JP2020556939A priority Critical patent/JP7041281B2/ja
Priority to US17/033,988 priority patent/US11941522B2/en
Publication of WO2021000362A1 publication Critical patent/WO2021000362A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Definitions

  • the invention relates to the field of address information mining of GIS (Geographical Information System), in particular to an address information feature extraction method based on a deep neural network model.
  • GIS Global Information System
  • Deep learning methods represented by deep neural networks can make full use of computer processing performance and have super-strong parameter calculation and fitting capabilities for nonlinear problems.
  • neural network language models are based on deep neural networks, which can express the semantic features of characters, words, sentences and even articles in the form of high-dimensional vectors.
  • place-name address can be well combined with the current language model to construct a place-name address language model that conforms to the grammatical rules and meaning of place-name address, which is an effective way to realize the semantic feature expression of address text.
  • Place-name addresses have the characteristics of large amount of data and dense spatial distribution within the city, and the semantic feature vector dimension of address text is very high.
  • the improved K-means algorithm is an unsupervised clustering method, which has the characteristics of simple logic, high operating efficiency, fast convergence speed, strong algorithm interpretability, few adjustment parameters, and suitable for big data and high-dimensional clustering.
  • the number of clusters can be set with reference to the distribution of functional areas within the scope, so that the result is more in line with human logic, and is suitable for the application of semantic-spatial fusion clustering of address text.
  • the current neural network language model has begun to support the development of fine-tuning tasks from the design of the neural network structure, which is convenient for users to carry out the neural network transformation of downstream tasks based on its general model examples.
  • the core is Migrate the neural network nodes in the trained model to a new network structure. Compared with the traditional method of retraining the model, this method has significant advantages in terms of data requirements, training time, and practical effects.
  • the result information output by the model includes the fusion weight of the fine-tuned target and achieves the solution of the target task.
  • the purpose of the present invention is to overcome the problems existing in the prior art and provide a deep neural network model for feature extraction of address information.
  • a method for feature extraction of address information based on a deep neural network model which includes the following steps:
  • S1 Construct a word embedding module with position order weighting, which is used to express each address character in the input address text in the form of a unique value vector through the position coding algorithm and built-in matrix variables, so as to realize the conversion of address information from text to code;
  • S2 Construct a feature extraction module for character encoding, and obtain comprehensive semantic output of character elements in different semantic spaces through the semantic extraction method of the multi-head self-attention mechanism;
  • S3 Construct a target task module that predicts unknown characters based on context, and output the conditional probability distribution of predicted characters required by the training task under the condition that the mapping relationship between address characters and context representation is satisfied;
  • S4 Connect the word embedding module in S1, the feature extraction module in S2, and the target task module in S3 in sequence to form a place name address language model, and use a natural language training program based on a random shielding strategy to perform the place name address language model Training to enable the model to output the semantic feature vector of each character in the address text;
  • S6 Transplant the word embedding module and feature extraction module in the place name address language model trained in S4 to form an encoder; reconstruct the target task module based on the neural network fine-tuning theory to form a decoder, which is used to cluster the S5 The result is used as an address text label, and a semantic-spatial fusion weight is assigned to the neural network parameter variable in the encoder;
  • S7 Combine the encoder and decoder to construct an address semantics-space fusion model, and train the address semantics-space fusion model, so that the model can output semantic and spatial feature fusion vector expressions for address text.
  • each step can be implemented in the following specific ways.
  • the specific execution process in the word embedding module includes:
  • the position weight of even-numbered dimensions is:
  • the position weight of odd dimensions is:
  • d model represents the dimension of word embedding embedding 0
  • i represents the i-th dimension of calculation
  • the specific execution process in the feature extraction module includes:
  • S21 Input the character vectorized expression content output by the word embedding module in S1 into the neural network formed by the multi-layer self-converter sub-modules in series; in each layer of the self-converter sub-module, the input data is first substituted into the self-attention neural network , Its output is calculated by residual and normalization, and then substituted into the feedforward network layer, and after residual and normalization calculation, it is used as the output of the self-converter sub-module;
  • the output of the self-converter sub-module of the upper layer is used as the input of the self-converter sub-module of the next layer, and is transferred layer by layer until Obtain the output SA N from the converter sub-module of the last layer.
  • the specific execution process in the target task module includes:
  • S31 Use the output of the feature extraction module in S2 as the input of the feedforward network layer, and transform it into the "corrected word embedding" information prob_embedding after each character is affected by the context through nonlinear transformation.
  • the nonlinear transformation formula is:
  • g() represents the ReLu function
  • W represents the weight matrix
  • b represents the linear offset
  • the weight matrix C T is the transposition of the dictionary-vector conversion matrix C, and b′ represents the offset of the linear transformation;
  • step S4 includes:
  • S42 Construct a geographical name address language model training framework.
  • the training framework first defines a natural language training program based on a random shielding strategy, then constructs a dictionary and model input of training data, and then defines the loss function and constructs a neural network optimizer to determine the model parameter variables optimize;
  • step S42
  • the natural language training scheme based on the random shielding strategy is specifically: randomly shielding some characters in the input address text sentence, which is represented by shielding symbols; then replacing part of the shielding symbols in the address text sentence with real characters, and then replacing the address text Part of the shielding symbols in the sentence are replaced with wrong characters, and the remaining shielding symbols remain unchanged; during the training process of the place name address language model, the target task module is executed only for the three characters replaced by the shielding symbols;
  • the neural network optimizer adopts three gradient update optimization strategies, learning rate attenuation, global gradient clipping, and adaptive moment estimation algorithm.
  • step S5 includes:
  • S51 Obtain the output SA N , SA N-1 , SA N-2 , and SA N-3 of the last four self-converter sub-modules of the address text in the feature extraction module, respectively, to SA N , SA N-1 , SA N-2 and SA N-3 perform average pooling and maximum pooling, and then add all the pooling results to obtain the final semantic feature expression sentEmbed 0 of the address text;
  • semantic feature vector sentEmbed 0 and spatial feature vector coorEmbed 0 of each address text are de-dimensionalized, and the de-dimensional feature vector is weighted by setting the weight ⁇ to obtain the processed semantic feature vector sentEmbed and Spatial feature vector coorEmbed:
  • the two processed feature vectors are directly spliced to form a fusion feature vector:
  • step 6 includes:
  • S61 Transplant the word embedding module and feature extraction module in the place name address language model trained in S4, and connect the two to form an encoder;
  • S62 Re-construct the target task module used to classify address text as a decoder for generating a probability distribution on the output of the encoder through a neural network; in the decoder, first extract the feature from the encoder The last layer of the self-converter sub-module outputs SA N for average pooling, and the pooled result is used as the semantic feature of the address sentence; then the semantic feature of the address sentence is nonlinearly transformed through the feedforward network layer to convert the semantic feature into a classification problem The activation function uses tanh; finally, the probability distribution feature obtained is converted into the probability score distribution of the address text through the fully connected layer, and the predicted probability distribution of the address text belonging to each cluster obtained in S5 is obtained by the softmax function .
  • step S7 includes:
  • S72 Construct a training framework for the address semantics-space fusion model, and train the address semantics-space fusion model based on the training framework, so that the model can output semantic and spatial feature fusion vector expressions for the address text.
  • Another object of the present invention is to provide a geographic location prediction method of address text, the steps of which are as follows:
  • the address space coordinate prediction model includes three consecutive fully connected layers and a linear transformation layer, and the address semantic-space fusion model is obtained by training according to the method of claims 1-9, And after the output SA N of the last layer of the self-converter sub-module of the feature extraction module is pooled by the pooling layer, it is sequentially input into three consecutive fully connected layers and a linear transformation layer, and the output address text described The predicted coordinates of the spatial entity;
  • the address text of the geographic location to be predicted is input into the trained address space coordinate prediction model to obtain the predicted coordinates of the spatial entity described by the address text.
  • the present invention has beneficial effects:
  • the present invention uses the superior fitting and calculation capabilities of modern artificial intelligence methods to transform the feature expression task of address text into the structural design and training problem of deep neural networks, which innovates the research method of address information, and is used for address data. Processing and application provide new ideas. However, there is no relevant research on address text feature extraction in the prior art.
  • the present invention combines the multi-head self-attention mechanism, the position weighting algorithm, and the unknown character prediction task to design the place name address language model ALM.
  • the model structure and training framework are complete and self-adjusting, which can realize accurate fitting and efficient calculation of model parameter variables, and efficiently extract the semantic features of place names and addresses.
  • the present invention reuses the ALM structure and related neural network output, designs address text sentence vector expression, introduces K-Means clustering theory, and proposes a high-dimensional clustering fusion method for address information, which improves traditional spatial clustering that cannot generalize address semantics Disadvantages, to achieve semantic-spatial weighted address element segmentation; at the same time, referring to the deep neural network model fine-tuning theory, design the address semantics-spatial fusion model GSAM, and implement the target task of the model based on the clustering result, so that it has the characteristics of both Comprehensive generalization ability.
  • Fig. 1 is a flowchart of the method for extracting features of address information based on a deep neural network model of the present invention
  • Figure 2 is a structural diagram of the feature extraction module
  • FIG. 3 is a structural diagram of the geographical name address language model (ALM) of the present invention.
  • Figure 4 is a structural diagram of the address semantics-spatial fusion model (GSAM) of the present invention.
  • Figure 5 shows the semantic-spatial weighted clustering results of address elements of the present invention (semantic weight 0.4/spatial weight 0.6);
  • Figure 6 is a structural diagram of the address space coordinate prediction model.
  • Address text and its corresponding spatial location are the basis of urban construction.
  • the unified modeling of address information and output of numerical results will help the unified development of downstream tasks and reduce the complexity of business.
  • address text is a specialized natural language text, which cannot be directly understood by a computer. It is necessary to use language models to extract useful feature information.
  • the essence of a language model is to measure the likelihood of a sentence. The core idea is to predict the probability distribution of which word will follow based on a series of leading words in the sentence.
  • the idea of the present invention is to comprehensively utilize the deep neural network architecture of artificial intelligence methods to extract text features and address Tasks such as standardization construction and semantic space fusion are transformed into quantifiable deep neural network model construction and training optimization problems.
  • a language model is designed to express it in vectors.
  • the key technology of the standardized construction of place names and addresses is realized through neural network target tasks.
  • the address semantic-spatial feature fusion scheme is proposed, and the weighted clustering method and feature fusion model are designed.
  • the purpose of this model is to extract the fusion of semantic features and spatial features from natural language address text Fusion vector.
  • the present invention will specifically describe the technical solution below.
  • an address information feature extraction method based on a deep neural network model includes the following steps:
  • S1 Construct a word embedding module with position order weighting, which is used to express each address character in the input address text in the form of a unique value vector through the position coding algorithm and built-in matrix variables, so as to realize the conversion of address information from text to code;
  • S2 Construct a feature extraction module for character encoding, and obtain comprehensive semantic output of character elements in different semantic spaces through the semantic extraction method of the multi-head self-attention mechanism;
  • S3 Construct a target task module that predicts unknown characters based on context, and output the conditional probability distribution of predicted characters required by the training task under the condition that the mapping relationship between address characters and context representation is satisfied;
  • S4 Connect the word embedding module in S1, the feature extraction module in S2, and the target task module in S3 in sequence to form a place name address language model (ALM), and use a natural language training scheme based on a random shielding strategy for place name addresses
  • the language model is trained to enable the model to output the semantic feature vector of each character in the address text;
  • S6 Transplant the word embedding module and feature extraction module in the place name address language model trained in S4 to form an encoder; reconstruct the target task module based on the neural network fine-tuning theory to form a decoder, which is used to cluster the S5 The result is used as an address text label, and a semantic-spatial fusion weight is assigned to the neural network parameter variable in the encoder;
  • S7 Combine the encoder and decoder to construct an address semantic-spatial fusion model (GSAM), and train the address semantic-spatial fusion model, so that the model can output semantic and spatial feature fusion vector expressions for address text.
  • GSAM address semantic-spatial fusion model
  • the character vectorized expression is the basis of the model.
  • the information covered by the initial character expression determines the effect of subsequent network development.
  • the traditional word embedding does not have the weight of the position information, which will cause the impact of each word on the target character during the semantic feature extraction.
  • the position-independent result is inconsistent with the human brain's understanding of the text, so position information needs to be embedded.
  • the present invention is implemented by the word embedding module in step S1, and the specific execution process in the word embedding module in step S1 is described in detail below:
  • the position weight of even-numbered dimensions is:
  • the position weight of odd dimensions is:
  • d model represents the dimension of word embedding embedding 0
  • i represents the calculated i-th dimension.
  • the PW dimension of each character is consistent with the embedding 0 dimension.
  • the word embedding module constructed in step S1 can not only implement the weighting of the character position sequence, but also consider the relative positions between the characters, which is more conducive to subsequent network development.
  • the character vectorized expression information extracted by the word embedding module needs to be extracted in the feature extraction module of S2.
  • the feature extraction module can deeply dig into the language environment where the characters are located, realize the refining of the character semantics, and output the semantic features in the form of numerical vectors.
  • the feature extraction module constructs the semantic feature deep neural network structure of the language model based on the multi-head self-attention mechanism, so as to realize the precise semantic expression of the address text.
  • step S2 the specific execution process in the feature extraction module is as follows:
  • S21 Input the character vectorized expression content output by the word embedding module in S1 into a neural network formed by a series of multi-layer self-transformer sub-modules.
  • the input data is first substituted into the self-attention neural network, and its output is subjected to residual and normalization calculations, and then substituted into the feedforward network layer, and after residual and normalization calculations, As the output of the self-converter sub-module.
  • the output of the self-converter sub-module of the upper layer is used as the input of the self-converter sub-module of the next layer, and is transferred layer by layer until Get the output SA N from the converter sub-module of the last layer.
  • each self-converter sub-module actually contains a multi-head self-attention neural network framework layer, a residual network-batch normalization layer, a feedforward network layer, and a residual network-batch normalization layer. Explained one by one below.
  • the essence of self-attention comes from the attention mechanism of human visual observation of text. Taking a specific character in the text as an example, humans need to refer to its interaction with other characters to understand its semantics. Therefore, the specific realization of the self-attention mechanism can be It is expressed as: give weight to the influence of all characters in the sentence on the word, and combine the weight with the content of the character itself to comprehensively determine the semantic characteristics of the word.
  • the essence of address text is a sentence describing the address.
  • Each character in the sentence is represented by 3 feature vectors, namely Query(Q), Key(K), Value(V), which are multiplied by the word embedding vector X of the character
  • the three weight matrices W Q , W K , and W V are calculated, and the weight matrix is obtained through neural network training.
  • the calculation process of the attention content of the character l is as follows:
  • the word embedding module in step S1 can obtain all the character word embedding vectors of the input sentence, and calculate the Q, K, V vectors q, k, v for each character.
  • the score value is normalized, where d k is the dimension of the vector k:
  • V W V ⁇ embedding
  • Mutli-head self-attention is to map the feature vector that was originally only mapped once. , Get Q, K, V in multiple semantic subspaces, and then perform attention value operation on them respectively, and splice the results, and finally get the self-attention expression in the character comprehensive semantic space.
  • the above multi-head self-attention method is encapsulated into a single neural network layer, which is called the multi-head self-attention neural network frame layer (MSA layer).
  • MSA layer multi-head self-attention neural network frame layer
  • the present invention uses multiple MSA layers to layer by layer.
  • the address semantics are extracted in the form of superposition.
  • SA l-1 represents the output of the previous layer
  • the F function represents the processing method of multi-head attention
  • SA 0 is the initial incoming word embedding information.
  • the MSA layer-residual network-batch normalization layer-feedforward network layer-residual network-batch normalization layer is combined into a self-transformer sub-module (Self-Transformer Moudule).
  • the final neural network structure is composed of multiple Self-Transformers and Moudules in sequence.
  • the overall structure is shown in Figure 2.
  • the target task module (Target Module) is immediately after the semantic feature extraction module.
  • the input of this module is the output of Self-Transformer Module superimposed, and it is known that the input contains every character in the sentence Semantic feature information.
  • the present invention proposes a target task of predicting unknown characters based on context.
  • the specific content is:
  • W ⁇ w 1 ,w 2 ,...,w i-1 ,w i (unknow),w i+1 ,...,w n ⁇
  • w j represents the j-th character in the sentence of the address text (j ⁇ i)
  • w i (unknow) represents the i-th character in the sentence of the address text is an unknown character.
  • sa i expresses the weight of the context on the character x i .
  • sa i can be used to express the influence of the full text on the character.
  • the conditional probability expression can be approximated as follows:
  • the present invention designs a target task neural network structure based on context prediction characters.
  • the specific execution process in the target task module is as follows:
  • S31 Use the output of the feature extraction module in S2 as the input of the feedforward network layer (Feed Forward), and use nonlinear transformation to transform it into the "corrected word embedding" information prob_embedding of each character affected by the context, which is based on Lookup. Table prepares for calculating character probability.
  • the nonlinear transformation formula is:
  • g() represents the ReLu function
  • W represents the weight matrix
  • b represents the linear offset
  • the weight matrix C T is the transposition of the dictionary-vector conversion matrix C, and b′ represents the offset of the linear transformation;
  • the advantage of the target task module is that it takes into account the contextual semantics of characters and conforms to the word-contextual mapping relationship realized by the semantic feature extraction module.
  • step S4 the address language model (Address Language Model, ALM) can be constructed and trained.
  • ALM Address Language Model
  • the specific implementation process of step S4 includes:
  • S42 Construct a geographical name address language model training framework.
  • the training framework first defines a natural language training program based on a random shielding strategy, then constructs a dictionary and model input of training data, and then defines the loss function and constructs a neural network optimizer to determine the model parameter variables optimize.
  • the training framework of the neural network can be adjusted according to actual needs.
  • the natural language training scheme based on the random shielding strategy is designed to randomly shield some characters in the input address text sentence, which is represented by shielding symbols.
  • Shield symbols refer to characters that do not normally appear in the place name address text, and can be selected as needed. Then replace part of the shielding symbols in the address text sentence with real characters, and then replace some of the shielding symbols in the address text sentence with wrong characters, and the remaining shielding symbols remain unchanged. However, the shielding symbol characters will have an impact on other characters. If too many characters are shielded, the effect of the shielding symbol during the semantic feature extraction will cause the attention calculation deviation of other content; and if only one character is shielded per sentence, the model will be The number of steps required for training has increased sharply, causing a serious waste of time. Therefore, the specific number of shielding symbols needs to be adjusted and optimized according to actual conditions.
  • the language model target task module does not calculate all the information output by the semantic feature extraction module during training, but only extracts the output of the neuron at the character position that needs to be calculated for conditional probability. Therefore, during the training of the place name address language model, the target task module is executed only for the three characters replaced by the mask symbol (including the characters that are still mask symbols, and the characters replaced by other characters after being replaced by mask symbols). .
  • 10% of the masks in the masked characters are replaced with real characters, and 10% of the mask content is replaced with incorrect characters, such as:
  • the probability statistical calculation of the target task is not performed for all the character self-attention semantic information SA, and the target task operation is performed only for the above three types of characters to be replaced.
  • Model input is divided into dictionary construction and input data construction.
  • the dictionary provides a search basis for all characters involved in the model, and its structure is a sequence of key-value pairs from ⁇ index number (key)> to ⁇ character (value)>, which can be obtained by traversing the text content of all addresses.
  • two new key-value pairs need to be constructed, the values of which are mask and OOV (out of vocabulary) respectively, to represent spaces in the text and characters outside the dictionary.
  • the address text data set needs to be collected in advance as the basis for constructing training data.
  • the training data is the input that can be recognized by the training framework after the original place name address text is processed.
  • the characters are directly converted into the corresponding dictionary index number, and the sentence is expressed in the form of an integer vector, and its shape can be expressed as:
  • batch_size represents the sample size for performing mini-batch gradient descent during each training
  • sentence_size is the length of the sentence
  • embedding_size is the length of the word embedding vector.
  • the padding method is adopted. First, the maximum sentence length in the data is obtained. If the sentence constructing the training sample is less than the maximum length, the index number 0 is added at the end.
  • the position information of the masked characters, the content of the masked characters, and the sequence of all characters are also constructed by the above-mentioned method, and the vectors are also passed in as input data during training.
  • SA i ) of the predicted characters of the mask position context semantics is obtained.
  • the training goal is to make the conditional probability of the corresponding character dictionary index number close to 1, which is P(x i
  • the output is in matrix form, and its shape is prob(batch_size, max_mask_size, voc_size), and the input of model training also contains the corresponding sentence
  • true_ids contains 0 elements, the value of its corresponding true_prob element is also set to 0.
  • the objective function under the training framework is to add all the non-zero elements in true_prob and take the average value so that the result is as close to 0 as possible:
  • the hyperparameters include training sample size batch_size, learning rate ⁇ , number of training rounds epoch, dictionary size voc_size, maximum sentence length max_sentence_size, maximum number of masked words max_mask_size, word embedding length embedding_size, number of semantic feature extraction modules num_self_transformer_module, self The number of attention heads attention_head_size and so on. It is necessary to comprehensively determine the value of hyperparameters during model training according to data content, volume, and hardware resources.
  • the neural network optimizer is a concrete realization of the gradient descent method and gradient update operation. It is used to update the neural network parameter variables inside the model to approximate or reach the optimal value, thereby minimizing the loss function result.
  • three gradient update optimization strategies can be introduced: learning rate decay (learning rate decay), global gradient clipping (clip by global norm), and adaptive moment estimation algorithm (adaptive moment estimation, Adam).
  • the place-name address language model can be trained based on the framework and corresponding training data, so that the model can output the semantic feature vector expression of each character in the address text.
  • the output of the feature extraction module is the semantic feature vector of each character, which is the place name to be obtained in the present invention. Address semantic feature expression.
  • the semantic vector of each character of any address data can be obtained through the trained ALM model.
  • the sentence semantic vector is a comprehensive expression of the semantic features of the entire sentence.
  • the present invention defines it as follows:
  • the semantic feature of an address sentence is the semantics of all characters in the address text
  • the sum of the vectors is averaged.
  • the semantic features of address sentences can be expressed as the following formula:
  • n is the total number of characters in the address text.
  • the human brain has spatial feature associations for address text, that is, when answering address-related questions, it will have a general impression of the location of the address, which is essentially different from traditional natural language thinking.
  • the aforementioned ALM semantic feature output can capture the semantic relationship of characters in the address text and output it in vector form, but has not yet integrated spatial semantic features. Therefore, it is necessary to further design the address space area that conforms to human thinking, and weight the address semantics and space. Clustering method.
  • step S5 weighted clustering of address semantics and space is implemented through step S5, and the specific implementation process is as follows:
  • Average pooling takes care of all the character information contained in the sentence, while maximum pooling focuses on key characters and salient representations in the sentence.
  • the present invention combines these two pooling methods, respectively The address text representations obtained by pooling and maximum pooling are added together, and finally a sentence vector expression with the same length as the word vector is obtained:
  • the ALM structure contains multiple Self-Transformer Modules.
  • the sentence vectors obtained from the output of each layer contain semantic information with different focus directions.
  • the encoder in the BERT language model The output of the semantic extraction module
  • the connection operation in the present invention will cause a dimensional disaster. Therefore, the final four-layer Self-Transformer Module pooling result sentEmbed is used to obtain the vector expression of the final address text, that is to say, in the present invention, the two pooling results (total 8 results) output by the last four layers are all the same. Add to get the final semantic feature expression sentEmbed 0 of the address text.
  • Euclidean distance is used as the unit of measurement for the difference between semantic and spatial characteristics in address information.
  • the number of text semantic features is S and the address data set is D, it can be expressed as the following equation:
  • the dimensioned feature vector can be calculated Perform weight distribution (where ⁇ represents weight) to obtain the processed semantic feature vector sentEmbed and spatial feature vector coorEmbed:
  • the weight ⁇ between the semantic feature and the spatial feature will change the application effect of the final fusion vector.
  • semantic features and spatial features have a mutually restrictive relationship: the semantic weight is set too large, and the address elements that are far away in the space still have the same category, resulting in the spatial dispersion of clustering, which will reduce the space of subsequent GSAM models.
  • Accuracy if the spatial weight is too large, the semantic information of the address will be lost, and the clustering will lose the ability to divide urban functional blocks, resulting in results that are not in line with human cognition, thereby reducing the semantics of the address text of the GSAM model Comprehension.
  • S53 Use the K-Means clustering algorithm to cluster the fusion feature vectors of all address texts to obtain a semantic-space fusion clustering result.
  • the present invention adopts Elkan's distance calculation optimization algorithm.
  • the algorithm takes the distance between cluster centers as a side of the triangle, and simplifies the calculation process of clustering through triangle inequality to reduce unnecessary Distance calculation.
  • Mini-Batch K-Means a variant of K-Means, is also used to improve the clustering speed.
  • Mini-Batch K-Means adopts the method of randomly extracting small batch data subsets to reduce the calculation time. Compared with the traditional K-Means, it needs to calculate all elements before updating the cluster center.
  • the algorithm In each iteration operation, Only randomly select a set of elements with a specified sample size, and then update the cluster centers according to the elements in the set.
  • the K-Means objective function has a local minimum point, the algorithm is easy to fall into a local optimal solution.
  • the initialization of the cluster center is particularly critical.
  • the present invention uses the K-Means++ cluster center initialization scheme proposed by Arthur and Vassilvitskii (2007) to improve the error of the clustering result.
  • the core idea of this algorithm is to make the distance between cluster centers as far as possible when initializing cluster centers.
  • a new neural network structure target task can be defined subsequently, that is, the clustering results of each address text are correctly predicted, and W and B is used as experimental data to design the migration learning model and training framework, and build a Geospatial-Semantic Address Model (GSAM) with the ability to extract fusion features.
  • GSAM Geospatial-Semantic Address Model
  • S61 Transplant the word embedding module and feature extraction module in the place name address language model trained in S4 (reuse the ALM structure), and connect the two to form an encoder. During the transplantation process, the neural network parameter variables remain unchanged.
  • the word embedding module and the feature extraction module are consistent with the ALM model, and each layer of the self-converter sub-module of the feature extraction module can output corresponding semantic feature variables.
  • the original target task module cannot achieve the goal of address text classification, so it is necessary to reconstruct the address text classifier through the following steps.
  • S62 Reconstruct the target task module used to classify the address text as a decoder for generating a probability distribution on the output of the encoder through a neural network.
  • the specific execution process in the decoder is:
  • the semantic feature of the address sentence is transformed into a non-linear transformation, the semantic feature is converted into the probability distribution feature of the classification problem, and the input semantic feature number S is retained, and the output probability distribution feature number is still S, and the activation function is used tanh.
  • the output gradient interval of this function is (-1,1). Compared with the disadvantage that the negative gradient is set to zero in ReLU, it can retain the activation state of neurons as much as possible.
  • the convergence effect is not as good as ReLU, it is because The network structure of the target task is relatively simple, and this layer is close to the final output layer of the model, so it has a better effect as the activation function.
  • the weight matrix and bias of the neuron are both training parameter variables, which are initialized and assigned in a random manner.
  • the probability score distribution score is substituted into the softmax function, and the predicted probability distribution P(B
  • an address semantic-spatial fusion model can be constructed (its structure is shown in Figure 4), and a model training framework for address text classification can be formulated in conjunction with its target tasks. It is specifically implemented through step S7, and the specific execution process is as follows:
  • S72 Construct a training framework for the address semantics-space fusion model, and train the address semantics-space fusion model based on the training framework, so that the model can output semantic and spatial feature fusion vector expressions for the address text.
  • the training framework of address semantics-space fusion model is as follows:
  • the training data input includes the address text data set and its corresponding cluster label.
  • the text data set is used for training input, and the cluster label represents the correct corresponding index value in the probability distribution of the model output, which is used to judge the quality of the model Basis for supervision.
  • the numbers in the address text are related to the spatial location, they cannot be ignored.
  • the numbers appearing in the text data need to be added to the dictionary.
  • the neural network parameters of the transplanted ALM model instance should also be the model training results that have not been replaced with NUM.
  • the hyperparameters during training are similar to the aforementioned ALM model, including training sample size batch_size, learning rate ⁇ , dictionary size, classification label number num_labels, training rounds epoch, test interval steps train_interval; in addition, it also includes the maximum sentence length max_sentence_size, word
  • the embedding length (number of features) embedding_size, the number of semantic feature extraction modules num_self_transformer_module, and the number of self-attention heads attention_head_size, these hyperparameters are all hyperparameters during ALM training, here are strictly consistent with the ALM model instance where the transplanted parameter variables are located .
  • the number of address texts for each training is batch_size
  • the probability output of the model is prob(batch_size,num_labels)
  • the sample's true label sequence B(batch_size) the true label probability of each sample is obtained:
  • the loss function expression of the training task By adding the log values of the probability and taking the average negative value, the loss function expression of the training task can be obtained:
  • the address text can be input into the model to output a semantic-spatial feature fusion vector expression.
  • the output fusion vector contains both semantic features and spatial features, and has semantic-space fusion attributes. This type of fusion vector has a wide range of application scenarios and can be used to construct various types of address space downstream tasks.
  • Embodiment 1 based on the above-mentioned method, it is applied to Embodiment 1 to visually demonstrate its technical effect.
  • the hyperparameters of the model are set through the hype-para.config configuration file.
  • the specific content mainly includes the following categories:
  • Training sample size batch_size 64; 2) Initial learning rate ⁇ : 0.00005; 3) Number of training rounds epoch: 3; 4) Dictionary size voc_size: 4587; 5) Maximum sentence length max_sentence_size: 52; 6) Maximum number of masked words max_mask_size: 7; 7) Word embedding length embedding_size: 768; 8) Number of semantic feature extraction modules num_self_transformer_module: 6 to 12; 9) Number of self-attention heads attention_head_size: 12; 10) Number of classification labels num_labels: 500; 11) Test interval Number of steps train_interval: 500
  • the final verification accuracy of the four types of model instances are all around 90.5%, increasing in the order of the number of semantic modules, and the average loss value and accuracy show a negative correlation trend.
  • the loss value of the verification data set is very small, so it can be basically judged that none of the above four models have over-fitting and under-fitting.
  • the training time increases as the number of modules increases. However, even with the longest time-consuming model, the burden in actual training is still within an acceptable range.
  • the addition of semantic extraction modules can better improve the model's ability to extract semantic features of address text, and make the semantic output of each layer module more linear. Based on the above indicators, it is determined that 12 extraction modules can bring the best target task results and semantic feature extraction effects to the model;
  • clustering method carry out fusion clustering of the semantic feature sentence vector and spatial coordinate information of the address text, and set the number of clusters to 500 based on the division of urban functional blocks, and adjust the semantic feature vector and spatial feature Perform clustering experiments and comparisons on the weight of the vector, and finally found that the laboratory data is in the weight distribution mode of semantic feature vector weight 0.4 and spatial feature vector weight 0.6 (that is, ⁇ is 0.4), and the clustering result is shown in Figure 5. This result is most consistent with human cognition. Record the clustering result label of the address text at this time and establish an association with the address text.
  • the output of the Self-Transformer sub-module in the feature extraction module is the semantic-spatial fusion feature vector of the address text.
  • the loss value of the model instance has a rapid downward trend before 20k steps, and then the downward process slows down and there is a small amplitude of local oscillations until it gradually stabilizes after 100k steps, and the loss value remains It oscillates repeatedly between 0.18 and 0.01, and after smoothing, it is basically in the range of 0.08 to 0.05. Therefore, it can be considered that the GSAM instance has reached the training requirements at this time.
  • the state of the loss gradient curve of the validation set and the training set is almost the same, which is still a trend expression of "rapid decline-slow decline-steady oscillation".
  • the verification set is between 0.1293 and 0.1271, which is a certain gap from the center of the test set curve. It can be seen that the model instance has a slight overfitting phenomenon during training, and the test needs to be considered after 100k. Data evaluation index curve, so as to select the best training state point as the model generation example.
  • the curve change of the verification indicator is the negative expression of the loss curve, which shows a rapid upward trend in the early training period.
  • the accuracy rate and the classification performance of Macro-F1 reached 0.9457, 0.9308 and 0.9458 respectively at 20k steps, and then began to slow down.
  • the index ranges of the three are stable at 0.9696-0.9711, 0.9593-0.9614 and 0.9698-0.9711 respectively, which are accompanied by small fluctuations. Because the ranges of the above three intervals are already very small, Therefore, it can be considered that the model has reached the training requirements at this time, and a better step length point is taken as an example of model generation.
  • the experiment decided to reduce the overfitting gap between the model training set and the verification set as much as possible within the range of ensuring the model training effect, and the verification index curve within this range has been stable, so it will not cause the model effect Too much influence, the final experiment selects the model instance save point at 115.5k as the model generation instance GSAM_Format, the loss values of the training set and test set are 0.128 and 0.1176 respectively, the verification accuracy, macro F1 value and micro F1 value at this time They are 0.9706, 0.9607 and 0.9710 respectively.
  • GSAM_Format Judging from the classification effect of GSAM_Format on the target task, the three indicators of the verification set have reached more than 0.96, indicating that this model example can well realize the label recognition of the clustering results, so it can be considered that it has efficient and accurate classification capabilities.
  • Analyze from the model structure, and its feature extraction module can output semantic-space fusion features through training, which can provide support for address-related downstream projects.
  • GSAM can give spatial features of clustering granularity to the numbers in the address text, and the output address text can be expressed in the form of semantic-spatial fusion features, which is not available in ALM and other natural language models.
  • This embodiment provides a geographic location prediction method for address text.
  • the purpose of the method is to realize the association between the location name mentioned in the address text and its corresponding spatial coordinates, and to construct a joint expression of the two, namely " Predict the coordinates of the spatial entities mentioned in the document based on the address text content".
  • the address space coordinate prediction model includes three consecutive fully connected layers and a linear transformation layer.
  • the address semantic-space fusion model is obtained by training according to the methods described in S1 to S7, and Among them, the output SA N of the last layer of the feature extraction module from the converter sub-module is pooled by the pooling layer, and then input to the three continuous fully connected layers and one linear transformation layer in turn, and output the spatial entity described by the address text The predicted coordinates of where.
  • the overall structure of the model is shown in Figure 6.
  • the address text of the geographic location to be predicted is input into the trained address space coordinate prediction model to obtain the predicted coordinates of the spatial entity described by the address text.
  • the model sets three fully connected layers as the hidden layer of the target task module, and linearly transforms the results to achieve the binary output of the predicted coordinates.
  • the input of this module is the output of the feature extraction module in the GSAM model.
  • construct and train the GSAM model (GSAM_Format) according to the methods described in the aforementioned S1 ⁇ S7 and embodiment 1, and then pool the output SA N of the last layer of the self-converter sub-module of the feature extraction module
  • three consecutive fully connected layers are sequentially input, so that the model can retain more semantic-space to coordinate conversion related information, and use ReLU as the activation function to ensure the convergence effect during training.
  • the output result of the neuron in the last layer already has the characteristics of predicted coordinates, but the number of features does not match the dimension of the space coordinates, so it needs to go through the linear transformation layer to achieve dimensionality reduction.
  • the output result is the space entity described in the address text. Predicted coordinates
  • the address space coordinate prediction model needs to be trained before it can be used for prediction.
  • some of the encoder variables in the GSAM model that is, the neural network parameters before the task target module, need to be frozen while training, and the above parameter variables are not gradient when performing backpropagation. Descending operation.
  • the training data input includes the address text data set and its corresponding real coordinate information.
  • the text data set is used for the input during training, and the real coordinate information is used to evaluate the predicted coordinates of the model output, which is the numerical basis for guiding the gradient drop during model training. .
  • the feature extraction module in the model is migrated from the GSAM model instance obtained by training, it is necessary to obtain the GSAM instance to assign the relevant neural network parameter variables, and the dictionary during training is also consistent with the model instance.
  • the number of address texts for each training is batch_size, so the training target can be defined as the average of the sample distance error is 0, the output of the model is pred_coord(batch_size,2), combined with the sample's spatial coordinate sequence true_coord(batch_size,2 ), the objective function expression in the training framework can be obtained, where dis(x) represents the spatial distance measurement function:
  • this embodiment in addition to constructing a prediction model based on GSAM_Format, this embodiment also constructs and trains two comparative model instances.
  • the model structure of one of them is the same as this embodiment, but in terms of feature extractors, ALM_Format is used to assign values to the neural network parameter variables outside the target task module.
  • the feature expression of this model instance only contains the semantic information of the address text;
  • the Word2Vec method is used to express the address text in vector.
  • the target task module is the same as the downstream task model, and a three-layer fully connected neural network is used as the hidden layer, and finally the output is obtained by linear change.
  • the two sets of control models also only perform gradient update operations on the neural network parameters in the target task module during training.
  • the hidden layer dimensionality is a variable, which is set to 768/768/768, 1024/1024/1024, 2048/2048/2048 and 4096/4096/4096 in order to carry out the training of the downstream task model and the control model instance.
  • the prediction model based on GSAM_Format for sample address information whether from a comprehensive or partial perspective, its spatial coordinate prediction ability is far better than the other two types of models, and it is efficient and accurate.
  • the GSAM model of the present invention does have the learning ability of semantic-space fusion features, and its training examples include semantic-space fusion weights.

Abstract

一种基于深度神经网络模型的地址信息特征抽取方法。利用深度神经网络架构,将文本特征提取、地址规范化建设和语义空间融合等任务转化为可量化的深度神经网络模型构建与训练优化问题。以地址中的字符为基本输入单元,设计语言模型将其向量化表达,再将地名地址规范化建设的关键技术通过神经网络目标任务加以实现。同时考虑到地名地址空间表达特性,提出地址语义-空间的特征融合方案,设计加权聚类方法与特征融合模型,从自然语言的地址文本中抽取出融合有语义特征和空间特征的融合向量。可实现地址信息的特征内容提取,其结构具备高拓展性,能够统一地址信息任务的解决思路,对于城市建设具有重要意义。

Description

一种基于深度神经网络模型的地址信息特征抽取方法 技术领域
本发明涉及GIS(地理信息系统)的地址信息挖掘领域,具体涉及一种基于深度神经网络模型的地址信息特征抽取方法。
背景技术
随着GIS认知与应用能力的不断提升,地址信息逐步成为智慧城市时代的核心资源,其内容中所承载的语义和空间内涵,更是构建智慧城市中地理本体与时空语义框架的基础支撑。让计算机从理解地址文本的角度出发,深度提炼地名地址综合特征并形成数值形式的量化表达,对于融合和理解城市语义与空间内容具有重要的理论价值和实践意义。然而当前以非结构化文本管理或地址编码为核心的理论研究,由于无法深入挖掘文本的特征内涵,导致其在任务处理时面临信息孤岛、附加数据依赖、泛化性弱等突出问题,限制了地址数据在智慧城市领域内的使用。
以深度神经网络为代表的深度学习方法,能充分利用计算机处理性能,具有对非线性问题超强的参数计算和拟合能力。在自然语言领域的研究中,神经网络语言模型以深度神经网络为基础,能够以高维向量的形式去表达字符、词语、语句甚至文章的语义特征。而地名地址作为一种特异化的自然语言,能够很好地与当前语言模型结合,构造出一种符合地名地址语法规则与意义的地名地址语言模型,是实现地址文本语义特征表达的有效途径。
地名地址在城市范围内具有数据量大、空间分布稠密等特点,同时地址文本的语义特征向量维度很高。改进的K-means算法是一种无监督聚类方法,具有逻辑简单、运行效率高、收敛速度快、算法可解释性强、调参数目少、适合大数据和高维度的聚类等特点,聚类数量可参考范围内的功能区分布进行设定,使结果更符合人类逻辑,适合于地址文本的语义-空间融合聚类应用。
随着迁移学习在自然语言领域的深入应用,当前的神经网络语言模型已从神经网络结构设计着手开始支持微调任务的开展,方便使用者基于其通用模型实例进行下游任务的神经网络改造,核心是将已训练好的模型中的神经网络节点迁移到一个新的网络结构中去。相比于传统重新训练模型的方式,该方法在数据要求、训练时间和实践效果等方面都具有显著的优势,使模型输出的结果信息包含微调目标的融合权重,并实现目标任务的求解。
发明内容
本发明的目的是克服现有技术存在的问题,提供一种地址信息特征抽取的深度神经网络模型。
本发明的目的是通过以下技术方案来实现的:
一种基于深度神经网络模型的地址信息特征抽取方法,它包括如下步骤:
S1:构建位置顺序加权的词嵌入模块,用于通过位置编码算法与内置矩阵变量,将输入的地址文本中每个地址字符以唯一值的向量形式表达,实现地址信息从文本到编码的转换;
S2:构建字符编码的特征提取模块,通过多头自注意力机制的语义提取方法,获得字符要素在不同语义空间下的综合语义输出;
S3:构建基于上下文预测未知字符的目标任务模块,在满足地址字符与上下文表征映射关系的条件下,输出训练任务所需的预测字符条件概率分布;
S4:将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接,形成地名地址语言模型,并采用基于随机屏蔽策略的自然语言训练方案对地名地址语言模型进行训练,使模型能够输出得到地址文本中每个字符的语义特征向量;
S5:综合地址文本中所有字符的语义特征向量,通过地址语义特征的池化方法得到句向量,并结合空间位置信息进行高维加权,通过K-Means聚类方法得到语义-空间融合的聚类结果;
S6:将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植,构成编码器;基于神经网络微调理论重构目标任务模块形成解码器,用于将S5中的聚类结果作为地址文本标签,对编码器中的神经网络参数变量赋予语义-空间的融合权重;
S7:结合所述的编码器和解码器,构建地址语义-空间融合模型,并对地址语义-空间融合模型进行训练,使模型能够针对地址文本输出语义与空间特征的融合向量表达。
基于上述方案,各步骤可具体采用以下具体方式实现。
优选的,所述的步骤S1中,词嵌入模块中具体的执行流程包括:
S11:创建字典-向量转换矩阵C;
S12:获得输入的地址文本中每个地址字符位于字典中的索引char_index;
S13:根据索引获得每个字符的one-hot向量,向量长度为字典的大小;
S14:将one-hot向量与Lookup Table相乘,得到每个字符的词嵌入值embedding 0
S15:获得每个字符在地址文本中的位置position;
S16:根据位置编码算法,获得每个字符的位置权重向量;每个字符的位置权重向量PW由所有维度的位置权重值组成;
偶数维度的位置权重值为:
Figure PCTCN2019097375-appb-000001
奇数维度的位置权重值为:
Figure PCTCN2019097375-appb-000002
其中d model表示词嵌入embedding 0的维度,i表示计算的第i个维度;
S17:将每个字符的位置权重向量与词嵌入值相加,得到每个字符经过位置顺序加权的字符向量化表达内容:
embedding=embedding 0+PW。
优选的,所述的步骤S2中,特征提取模块中具体的执行流程包括:
S21:将S1中词嵌入模块输出的字符向量化表达内容输入由多层自转换器子模块串联形成的神经网络中;在每层自转换器子模块中,输入数据首先代入自注意力神经网络,其输出经过残差和归一化计算后,再代入前馈网络层,再经过残差和归一化计算后,作为该自转换器子模块的输出;
S22:除第一层自转换器子模块之外的其余自转换器子模块中,上一层的自转换器子模块的输出作下一层自转换器子模块的输入,层层传递,直至得到最后一层自转换器子模块的输出SA N
优选的,所述的步骤S3中,目标任务模块中具体的执行流程包括:
S31:将S2中特征提取模块的输出作为前馈网络层的输入,通过非线性变换将其转化为每个字符经过上下文影响后的“修正词嵌入”信息prob_embedding,非线性变换公式为:
prob_embedding=g(W×SA+b)
式中:g()表示ReLu函数,W表示权重矩阵,b表示线性偏置;
S32:将prob_embedding进行线性变换,得到其概率分布得分:
logits=C T×prob_embedding+b′
其中权重矩阵C T为字典-向量转换矩阵C的转置,b′表示线性变换的偏置;
S33:将概率分布得分logits代入到softmax激活函数,最终得到每个字符是字典中各个字的条件概率分布。
prob=softmax(logits)
优选的,所述的步骤S4的具体实现流程包括:
S41:将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接,形成地名地址语言模型;
S42:构建地名地址语言模型训练框架,训练框架中首先定义基于随机屏蔽策略的自然语言训练方案,然后构造字典以及训练数据的模型输入,再定义损失函数并通过构造神经网络优化器对模型参数变量进行优化;
S43:基于所述训练框架对地名地址语言模型进行训练,使模型能够输出地址文本中每个字符的语义特征向量表达。
进一步的,所述的步骤S42中:
所述的基于随机屏蔽策略的自然语言训练方案具体为:随机屏蔽输入的地址文本句子中部分字符,以屏蔽符号表示;然后将地址文本句子中的部分屏蔽符号替换成真实字符,再将地址文本句子中的部分屏蔽符号替换成错误字符,剩余的屏蔽符号不变;在地名地址语言模型训练过程中,只针对这3种被屏蔽符号替换的字符执行目标任务模块;
所述神经网络优化器中采用学习率衰减、全局梯度裁剪和自适应矩估计算法三种梯度更新优化策略。
优选的,所述的步骤S5的具体实现流程包括:
S51:获取地址文本在所述特征提取模块中最后四层自转换器子模块的输出SA N、SA N-1、SA N-2、SA N-3,分别对SA N、SA N-1、SA N-2、SA N-3进行平均值池化与最大值池化,然后并将池化结果全部相加,获得地址文本的最终语义特征表达sentEmbed 0
S52:分别计算所有地址文本在语义特征向量空间中的欧氏距离极差sent_range和空间特征向量空间中的欧氏距离极差coor_range;
对每个地址文本的语义特征向量sentEmbed 0和空间特征向量coorEmbed 0进行去量纲操作,并通过设置权值λ对去量纲后的特征向量进行权重分配,得到处理后的语义特征向量sentEmbed和空间特征向量coorEmbed:
Figure PCTCN2019097375-appb-000003
coorEmbed=coorEmbed 0*(1-λ)
将两种处理后的特征向量直接拼接,最终形成融合特征向量:
concatEmbed={sentEmbed,coorEmbed}
S53:通过K-Means聚类算法,结合Elkan距离计算优化算法、Mini-Batch K-means策略和K-means++聚类中心初始化方案,对所有融合特征向量进行聚类,得到语义-空间融合的聚类结果。
优选的,所述的步骤6的具体实现流程包括:
S61:将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植,两者连接构成编码器;
S62:重新构建用于对地址文本进行分类的目标任务模块作为解码器,用于通过神经网 络对所述编码器的输出生成概率分布;在解码器中,首先对所述编码器中特征提取模块的最后一层自转换器子模块输出SA N做平均值池化,池化结果作为地址句语义特征;然后通过前馈网络层对地址句语义特征进行非线性变换,将语义特征转换为分类问题的概率分布特征,激活函数使用tanh;最后将得到的概率分布特征通过全连接层转换为地址文本的概率得分分布,由softmax函数求得地址文本属于S5中得到的每一个聚类的预测概率分布。
优选的,所述的步骤S7的具体实现流程包括:
S71:将所述的编码器和解码器连接得到地址语义-空间融合模型;
S72:构建地址语义-空间融合模型的训练框架,并基于该训练框架对地址语义-空间融合模型进行训练,使模型能够针对地址文本输出语义与空间特征的融合向量表达。
本发明的另一目的在于提供一种地址文本的地理位置预测方法,其步骤如下:
首先,构建地址空间坐标预测模型;所述地址空间坐标预测模型中包括三层连续的全连接层以及一层线性变换层,按照权利要求1~9所述方法训练得到地址语义-空间融合模型,并将其中特征提取模块的最后一层自转换器子模块的输出SA N经过池化层池化后,依次输入三层连续的全连接层以及一层线性变换层中,输出地址文本所描述的空间实体所在的预测坐标;
然后将待预测地理位置的地址文本输入经过训练的地址空间坐标预测模型中,得到该地址文本所描述的空间实体所在的预测坐标。
本发明与现有技术相比具有有益效果:
(1)本发明利用现代人工智能方法优越的拟合与计算能力,将地址文本的特征表达任务转换为深度神经网络的结构设计与训练问题,革新了地址信息的研究方法,为地名地址数据的处理和应用提供新的思路。而现有技术尚未有关于地址文本特征提取的相关研究。
(2)本发明结合多头自注意力机制、位置加权算法、未知字符预测任务设计了地名地址语言模型ALM。模型结构与训练框架完善且具有自调整能力,可实现模型参数变量的精准拟合与高效计算,对地名地址语义特征进行高效提取。
(3)本发明复用ALM结构及相关神经网络输出,设计地址文本句向量表达,引入K-Means聚类理论,提出了地址信息的高维聚类融合方法,改进传统空间聚类无法概括地址语义的弊端,实现语义-空间加权的地址元素分割;同时参考深度神经网络模型微调理论,设计地址语义-空间融合模型GSAM,以聚类结果为导向开展模型的目标任务实现,使其具备两者特征的综合概括能力。
附图说明
图1为本发明的基于深度神经网络模型的地址信息特征抽取方法流程图;
图2为特征提取模块的结构图;
图3为本发明地名地址语言模型(ALM)结构图;
图4为本发明地址语义-空间融合模型(GSAM)结构图;
图5为本发明地址元素语义-空间加权聚类结果(语义权重0.4/空间权重0.6);
图6为地址空间坐标预测模型结构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
地址文本及其对应的空间位置是城市建设的基础,对地址信息进行统一建模并以数值结果输出,有助于下游任务的统一化开展,降低业务的复杂性。然而地址文本是一种特异化的自然语言文本,其无法直接被计算机所理解,需要利用语言模型抽取出其中有用的特征信息。语言模型的本质是衡量一个句子出现的可能性,核心思想是根据句子里前面的一系列前导单词预测后面跟上哪个单词的概率分布。针对现有地名地址研究中存在的信息特征表达不充分、数据建设工作不深入、应用场景局限的困境,本发明的构思是:综合利用人工智能方法的深度神经网络架构,将文本特征提取、地址规范化建设和语义空间融合等任务转化为可量化的深度神经网络模型构建与训练优化问题。以地址中的字符为基本输入单元,设计语言模型将其向量化表达。在此基础上,将地名地址规范化建设的关键技术通过神经网络目标任务加以实现。同时考虑到地名地址空间表达特性,提出地址语义-空间的特征融合方案,设计加权聚类方法与特征融合模型,该模型的目的是从自然语言的地址文本中抽取出融合有语义特征和空间特征的融合向量。下面本发明对技术方案进行具体描述。
如图1所示,一种基于深度神经网络模型的地址信息特征抽取方法,包括以下步骤:
S1:构建位置顺序加权的词嵌入模块,用于通过位置编码算法与内置矩阵变量,将输入的地址文本中每个地址字符以唯一值的向量形式表达,实现地址信息从文本到编码的转换;
S2:构建字符编码的特征提取模块,通过多头自注意力机制的语义提取方法,获得字符要素在不同语义空间下的综合语义输出;
S3:构建基于上下文预测未知字符的目标任务模块,在满足地址字符与上下文表征映射关系的条件下,输出训练任务所需的预测字符条件概率分布;
S4:将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接,形成地名地址语言模型(ALM),并采用基于随机屏蔽策略的自然语言训练方案对地名地址语言模型进行训练,使模型能够输出得到地址文本中每个字符的语义特征向量;
S5:综合地址文本中所有字符的语义特征向量,通过地址语义特征的池化方法得到句向量,并结合空间位置信息进行高维加权,通过K-Means聚类方法得到语义-空间融合的聚类结果;
S6:将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植,构成编码器;基于神经网络微调理论重构目标任务模块形成解码器,用于将S5中的聚类结果作为地址文本标签,对编码器中的神经网络参数变量赋予语义-空间的融合权重;
S7:结合所述的编码器和解码器,构建地址语义-空间融合模型(GSAM),并对地址语 义-空间融合模型进行训练,使模型能够针对地址文本输出语义与空间特征的融合向量表达。
下面对于前述步骤在本发明中的具体实现过程进行详细阐述。
字符向量化表达是模型的基础,字符初始化表达所涵盖的信息决定了后续网络开展的效果,传统的词嵌入没有位置信息的权重,会导致在语义特征提取时每个字对目标字符的影响与位置无关的结果,这与人脑对于文本的理解并不符合,因此需要嵌入位置信息。本发明通过步骤S1的词嵌入模块来实现,下面具体展开描述在步骤S1中词嵌入模块中具体的执行流程如下:
S11:创建字典-向量转换矩阵(Lookup Table)C。
S12:获得输入的地址文本中每个地址字符位于字典中的索引char_index。
S13:根据索引获得每个字符的one-hot向量,向量长度为字典的大小:
Figure PCTCN2019097375-appb-000004
S14:将one-hot向量与Lookup Table相乘,得到每个字符的词嵌入值embedding 0
embedding 0=C×one_hot
S15:获得每个字符在地址文本中的位置position;position代表了该字符在地址文本中的字符序数。
S16:根据位置编码算法,获得每个字符的位置权重向量;每个字符的位置权重向量PW由所有维度的位置权重值组成,因此需要计算每一个维度的权重值后组合形成PW。奇数维度与偶数维度的计算公式不同,分别如下:
偶数维度的位置权重值为:
Figure PCTCN2019097375-appb-000005
奇数维度的位置权重值为:
Figure PCTCN2019097375-appb-000006
其中d model表示词嵌入embedding 0的维度,i表示计算的第i个维度。每个字符的PW的维度与embedding 0维度保持一致。
S17:将每个字符的位置权重向量与词嵌入值相加,得到每个字符经过位置顺序加权的字符向量化表达内容:
embedding=embedding 0+PW。
由此可见,在步骤S1中构建的词嵌入模块,不仅可以实现字符位置顺序的加权,还考虑了字符之间的相对位置,更有利于后续的网络展开。词嵌入模块提取的字符向量化表达信 息需要在S2的特征提取模块进行特征向量提取。特征提取模块能够深入挖掘字符所处语言环境,实现字符语义的提炼,将语义特征以数值向量形式输出。本发明中,特征提取模块基于多头自注意力机制来构建语言模型的语义特征深度神经网络结构,以实现地址文本语义化精确表述。
在步骤S2中,特征提取模块中具体的执行流程如下:
S21:将S1中词嵌入模块输出的字符向量化表达内容输入由多层自转换器(Self-Transformer)子模块串联形成的神经网络中。在每层自转换器子模块中,输入数据首先代入自注意力神经网络,其输出经过残差和归一化计算后,再代入前馈网络层,再经过残差和归一化计算后,作为该自转换器子模块的输出。
S22:除第一层自转换器子模块之外的其余自转换器子模块中,上一层的自转换器子模块的输出作下一层自转换器子模块的输入,层层传递,直至得到最后一层自转换器子模块的输出SA N
由此可见,在特征提取模块中核心是自转换器子模块。为了更清楚解释每个自转换器子模块的实现,下面对其具体的结构进行详细描述。根据前述的描述,每个自转换器子模块中实际封装有多头自注意力神经网络框架层、残差网络-批归一化层、前馈网络层、残差网络-批归一化层,下面逐个进行阐述。
(1)构建文本自注意力(self-attention)神经网络框架。
自注意力的本质来源于人类视觉观察文本的注意力机制,以文本中的特定字符为例,人类理解它的语义需要参考它与其他字符的相互联系,因此自注意力机制的具体实现思路可以表示为:将句中所有字符对于该字的影响赋予权重,通过权重与字符本身内容结合,来综合确定该字的语义特征。
地址文本的本质是一个描述地址的句子,句子中每个字符表示为3个特征向量,分别为Query(Q),Key(K),Value(V),他们由字符的词嵌入向量X乘以三个权重矩阵W Q,W K,W V算得,权重矩阵则通过神经网络训练得到。字符l的attention内容的计算流程如下:
首先,由步骤S1中词嵌入模块可以获得输入句子的所有字符词嵌入向量,计算得到每个字符的Q,K,V向量q,k,v。
计算l与所有字符的得分。
score 1=q l·k 1,score 2=q l·k 2,...,score n=q l·k n
为了训练时梯度的稳定,将得分值进行归一化,其中d k是表示向量k的维度:
Figure PCTCN2019097375-appb-000007
对所有得分值进行softmax归一化输出:
score=softmax(score)
Figure PCTCN2019097375-appb-000008
将每个得分值点乘对应的v向量,得到每个字符对于该字的加权评价:
eva=score·v
将所有字符对于该字的加权评价相加,得到该字的语义特征表达:
Figure PCTCN2019097375-appb-000009
在实际过程中,上述计算过程均由矩阵操作完成,可表达为:
Q=W Q×embedding
K=W K×embedding
V=W V×embedding
Figure PCTCN2019097375-appb-000010
然而该方法只能获得一种语义空间的信息,在此基础之上发展而来的多头自注意力机制(Mutli-head self-attention)则是将原本只映射一次的特征向量进行了多次映射,得到多个语义子空间下的Q,K,V,再分别对其进行注意力取值操作,并将结果进行拼接,最终得到字符综合语义空间下的self-attention表达。
将上述多头自注意力方法封装成单个神经网络层,称之为多头自注意力神经网络框架层(MSA layer),为了更好地提升语义特征提取效果,本发明采用多个MSA layer以层层叠加的形式进行地址语义的提取。
(2)残差网络-批归一化层
由于输出的语义SA的实际意义是全文字符对于每个字符的影响,其计算过程难免存在语义提取的误差,若单以此表达字符语义,则随着网络层数的增加,低层特征传到高层时会发生信息丢失的情况,误差也会随之逐级递增,出现语义表达的退化(degradation)现象。为避免MSA layer之间信息传递的语义退化,引入残差网络层神经网络结构,MSA layer的输出需要在残差网络-批归一化层中经过残差和归一化计算。以第l层的多头注意力层的输出为例,核心思想表示为如下公式:
SA l=SA l-1+F(SA l-1)
SA 0=X
SA l-1表示上一层的输出,F函数表示多头注意力的处理方法,其中SA 0为初始传入的词嵌入信息。在每一个MSA layer输出后对上一层信息相加,融合自注意力语义和文本嵌入信 息,同时对结果进行批归一化(Batch Normailize,BN)操作,方便结果信息传递后的下一步计算,避免训练时的梯度消失(多步反向传播导致误差梯度趋于0的情况)。
(3)前馈网络层
同时由于输出结果是自注意力头计算得到的向量拼接结果,会存在数据空间无序的问题,因此需通过一个前馈网络层(全连接神经网络)并辅以激活函数ReLU对该结果进行非线性变换,使语义以顺序且有意义的形式输出。随后将输出结果再输入残差网络-批归一化层进行一次残差与归一化操作。
因此,在本发明中由MSA layer-残差网络-批归一化层-前馈网络层-残差网络-批归一化层组合成自转换器子模块(Self-Transformer Moudule)。最终神经网络结构由多个Self-Transformer Moudule顺序叠加而成,其整体结构如图2所示。
目标任务模块(Target Module)紧接在语义特征提取模块之后,在本发明中可以理解为,该模块的输入即为Self-Transformer Module叠加后的输出,已知该输入包含了句子中每一字符的语义特征信息。
基于以上条件,本发明中提出了基于上下文预测未知字符的目标任务,其具体内容为:
假设句子中的某一字符未知,其他上下文可知。
W={w 1,w 2,...,w i-1,w i(unknow),w i+1,...,w n}
式中:w j表示地址文本的句子中第j个字符(j≠i),w i(unknow)表示地址文本的句子中第i个字符为未知字符。
通过已知上下文,预测该未知字符的出现概率,写为如下条件概率表达:
P(x i|x 1,x 2,...x i-1,x i+1,...,x n)
将地址文本内容代入至前述的词嵌入模块和特征提取模块中,得到最终字符上下文语义特征信息:
SA={sa 1,sa 2,...,sa i-1,sa i,sa i+1,...sa n}
sa i表达的是上下文作用于字符x i的权重,此处可用sa i表达全文对该字符的影响,则可将条件概率表达式作如下近似:
P(x i|x 1,x 2,...x i-1,x i+1,...,x n)≈P(x i|sa i)
基于该目标任务,本发明设计了基于上下文预测字符的目标任务神经网络结构。步骤S3中,目标任务模块中具体的执行流程如下:
S31:将S2中特征提取模块的输出作为前馈网络层(Feed Forward)的输入,通过非线性变换将其转化为每个字符经过上下文影响后的“修正词嵌入”信息prob_embedding,为之后基于Lookup Table计算字符概率做准备。非线性变换公式为:
prob_embedding=g(W×SA+b)
式中:g()表示ReLu函数,W表示权重矩阵,b表示线性偏置;
S32:构建全连接层,将prob_embedding进行线性变换,实现“修正词嵌入”到概率分布得分的线性变换,得到其概率分布得分:
logits=C T×prob_embedding+b′
其中权重矩阵C T为字典-向量转换矩阵C的转置,b′表示线性变换的偏置;
S33:将概率分布得分logits代入到softmax激活函数,最终得到每个字符是字典中各个字的条件概率分布。
prob=softmax(logits)
该目标任务模块的优点在于兼顾了字符的上下文语义,且符合语义特征提取模块实现的单词-上下文表征的映射关系。
完成上述三个模块的构建后,即可进行地名地址语言模型(Address Language Model,ALM)的构建和训练。在本发明中,步骤S4的具体实现流程包括:
S41:将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接,形成地名地址语言模型ALM的完整结构,如图3所示。
S42:构建地名地址语言模型训练框架,训练框架中首先定义基于随机屏蔽策略的自然语言训练方案,然后构造字典以及训练数据的模型输入,再定义损失函数并通过构造神经网络优化器对模型参数变量进行优化。神经网络的训练框架可以根据实际需要进行调整,现有技术中也存在大量的可实现方式,为了便于理解,本发明中对其具体的实现方式进行示例性展开。
(1)定义随机屏蔽策略的自然语言训练方案
基于随机屏蔽策略的自然语言训练方案设计为:随机屏蔽输入的地址文本句子中部分字符,以屏蔽符号表示。屏蔽符号是指不会正常出现在地名地址文本中的字符,可根据需要进行选择。然后将地址文本句子中的部分屏蔽符号替换成真实字符,再将地址文本句子中的部分屏蔽符号替换成错误字符,剩余的屏蔽符号不变。然而屏蔽符号字符会对其他字符产生影响,若屏蔽太多字符,在语义特征提取时屏蔽符号的作用会造成其他内容的注意力计算偏差;而若每句文本只屏蔽一个字符,则会使模型训练所需步数急剧增加,造成严重的时间浪费。因此,屏蔽符号的具体数量需要根据实际进行调整优化。
为了方便操作且避免计算时的无用开销,训练时语言模型目标任务模块并不会对语义特征提取模块输出的所有信息进行计算,而只提取需要进行条件概率计算的字符位置处的神经元输出。因此,在地名地址语言模型训练过程中,只针对这3种被屏蔽符号替换的字符(包括依然是屏蔽符号的字符,以及被替换成屏蔽符号后由以其他字符替换的字符)执行目标任 务模块。
为了便于理解,此处以“浙江省杭州市上城区复兴南街清怡花苑6幢3单元402室”这一地址文本为例,说明具体实现过程。
首先,随机屏蔽输入句子中15%的字符,以“mask”单词表示,由于该单词不会正常出现在地名地址文本中,所以不会对真实字符产生干扰,可以理解为完形填空中的“空格”表达,替换位置以下划线表示,如:
浙江 mask杭州市上城区 mask兴南街清怡 mask苑6幢3单元402室
mask省杭州市上城区望 mask家园东苑18栋3单 mask601室
此外,考虑到后续任务的开展及模型的鲁棒性,对屏蔽字符中10%的mask替换成真实的字符,10%的mask内容替换成错误字符,如:
80%:浙江省杭州市上 mask区复兴南街清怡花苑6幢3单元402室
10%:浙江省杭州市上 区复兴南街清怡花苑6幢3单元402室
10%:浙江省杭州市上 区复兴南街清怡花苑6幢3单元402室
在ALM的实际训练过程中,不对所有的字符自注意力语义信息SA进行目标任务的概率统计计算,只针对上述3种被替换的字符执行目标任务操作。
(2)构造模型输入
模型输入分为字典构造和输入数据构造。
字典为模型涉及到的所有字符提供查找依据,其结构为<索引序号(key)>到<字符(value)>的键值对序列,可通过遍历所有地址的文本内容得到。此外,需新构造两个键值对,其value分别为mask和OOV(out of vocabulary),用以表示文本中的空格和字典外的字符。
本发明中需预先收集地址文本数据集作为构建训练数据的基础。训练数据是原始地名地址文本经过处理后,能够被训练框架识别的输入。在构造训练数据时,直接将字符转化为对应的字典索引号,将句子以整型向量的形式表示,其形状可表示为:
inputData(batch_size,setence_size,embedding_size)
其中batch_size表示每次训练时,执行小批量梯度下降的样本大小;sentence_size为句子长度,embedding_size为词嵌入向量的长度。为保证句子长度一致,采用后位补齐(padding)方法,首先求得数据中的最大句子长度,若构造训练样本的句子小于该最大长度,则在后面补上索引号0。
此外,被屏蔽字符的位置信息、被屏蔽字符内容和所有字符顺序,也通过上述方法构造向量,一并作为训练时的输入数据传入。
(3)定义损失函数
根据ALM输出,获得mask位置上下文语义的预测字符的条件概率分布P(X|SA i),训练目标是使其对应字符字典索引序号处的条件概率趋近于1,即为P(x i|SA i)→1,该函数仅针对单个mask进行表达,在实际模型训练过程中的输出是矩阵形式,其形状为 prob(batch_size,max_mask_size,voc_size),同时模型训练的输入也包含了相应句子中mask对应的正确信息true_ids(batch_size,max_mask_size),通过的gather切片操作,以true_ids的值作为prob的索引进行内容查找,获得预测正确字符的条件概率矩阵true_prob:
true_prob(batch_size,max_mask_size)=gather(prob,true_ids)
若true_ids中包含0元素,则其对应true_prob元素的值也设置为0。
将true_prob转换为对数概率,取值区间为(-∞,0]:
true_prob=log(true_prob)
训练框架下的目标函数,即将true_prob中的所有非零元素相加后取平均值,使得结果尽可能趋近于0:
Figure PCTCN2019097375-appb-000011
将true_prob中所有非零元素相加后取平均值的负数,得到损失函数定义:
Figure PCTCN2019097375-appb-000012
(4)超参数确定
本实施例中,超参数包括训练样本大小batch_size、学习率η、训练轮数epoch、字典大小voc_size、最大句子长度max_sentence_size、最大屏蔽字数量max_mask_size、词嵌入长度embedding_size、语义特征提取模块数量num_self_transformer_module、自注意力头数量attention_head_size等等。需要根据数据内容、体量、硬件资源,综合确定模型训练时的超参数取值。
(5)构造神经网络优化器(Optimizer)
神经网络优化器是对梯度下降方法和梯度更新操作的具体实现,用来更新模型内部的神经网络参数变量,使其逼近或达到最优值,从而使损失函数结果最小。本实施例中可引入学习率衰减(learning rate decay)、全局梯度裁剪(clip by global norm)和自适应矩估计算法(adaptive moment estimation,Adam)三种梯度更新优化策略。
S43:构建完上述训练框架后,即可基于该框架和相应的训练数据,对地名地址语言模型进行训练,使模型能够输出地址文本中每个字符的语义特征向量表达。
(6)ALM模型语义输出
模型经过训练后所有内部参数变量均已实现对目标函数的拟合,从前述ALM的特征提取模块构建可知,特征提取模块的输出是每个字符的语义特征向量,即为本发明所要获得的地名地址语义特征表达。
通过训练后的ALM模型能够获得任意地址数据的每一个字符的语义向量。在此基础上, 句子语义向量作为整句话语义特征的综合表达,本发明对其进行如下定义:在涉及到模型参数变量调整的优化任务中,地址句语义特征是地址文本中所有字符的语义向量的总和取平均。地址句语义特征可表示为如下公式:
Figure PCTCN2019097375-appb-000013
式中:n为地址本文中的字符总数。
人脑对于地址文本存在空间特征联想,即在回答地址相关的问题时,会对该地址的坐落区域产生大致印象,这与传统自然语言的思考方式有本质区别。前述的ALM语义特征输出,能够捕获地址文本中的字符语义关系并以向量形式输出,但尚未融合空间语义特征,因此需要进一步设计符合人类思维的地址空间区域为目标,对地址语义和空间的加权聚类方法。
在本发明中,地址语义和空间的加权聚类通过步骤S5来实现,其具体实现流程如下:
S51:获取地址文本在所述特征提取模块中最后四层自转换器子模块的输出SA N、SA N-1、SA N-2、SA N-3,分别对SA N、SA N-1、SA N-2、SA N-3进行平均值池化(average pooling)与最大值池化(max pooling)。对整句文本求值,假设句子的长度为L,字符语义特征数量为S,字符内容以L×S的二维数组存储charEmbed[L,S]:
avg_sentEmbed[i]=avg(charEmbed[0:L][i])
max_sentEmbed[i]=max(charEmbed[0:L][i])
where:i∈[0,S-1]
平均值池化照顾到了句子包含的所有字符信息,而最大值池化则重点照顾句子中的关键字符及显著表征,为了兼顾以上优点,本发明融合了这两种池化方法,分别将平均值池化和最大值池化所得的地址文本表征相加,最终得到与字向量长度相同的句向量表达:
sentEmbed=avg_sentEmbed+max_sentEmbed
同时ALM结构中包含多个Self-Transformer Module,每一层输出求得的句向量均包含不同侧重方向的语义信息,通过与ALM结构相似的BERT语言模型相关研究发现,其encoder(BERT语言模型中的语义提取模块)的输出在命名实体识别任务中具有如下表现:最后四层的向量连接>最后四层向量相加>其他,然而在本发明中连接操作会造成维度灾难。因此采用最后四层Self-Transformer Module池化结果sentEmbed相加的方式获得最终地址文本的向量表达,也就是说本发明中将最后四层输出的两种池化结果(共8个结果)全部相加,获得地址文本的最终语义特征表达sentEmbed 0
S52:将每个地址文本的语义句向量和空间作为特征信息,对两者进行融合:
为了统一标准,采用欧氏距离作为地址信息中语义与空间特征的差异度量单位。分别计 算所有地址文本在语义特征向量空间中的欧氏距离极差sent_range和空间特征向量空间中的欧氏距离极差coor_range。假设文本语义特征数量为S,地址数据集合为D,可表达为如下等式:
Figure PCTCN2019097375-appb-000014
Figure PCTCN2019097375-appb-000015
将两者极差值相除,即可近似求得其数量级之间的比值,实现两者特征的去量纲操作,且为了突出地址信息的某种特征,可对去量纲后的特征向量进行权重分配(此处λ表示权重),得到处理后的语义特征向量sentEmbed和空间特征向量coorEmbed:
Figure PCTCN2019097375-appb-000016
coorEmbed=coorEmbed*(1-λ)
将两种特征向量直接拼接,最终形成一个S+2长度的融合特征向量是:
concatEmbed={sentEmbed,coorEmbed}
语义特征和空间特征之间的权重λ,会改变最终融合向量的应用效果。总的来说,语义特征和空间特征存在相互制约的关系:语义权重设置过大会导致空间距离很远的地址元素仍具有同样的类别,造成聚类的空间离散,进而会降低后续GSAM模型的空间精确性;而空间权重过大则会丢失地址的语义信息,使聚类丧失了对城市功能区块的划分能力,从而造成不符合人类认知的结果,进而降低了GSAM模型对于地址文本的语义理解能力。
S53:通过K-Means聚类算法,对所有地址文本的融合特征向量进行聚类,得到语义-空间融合的聚类结果。为了提高聚类的性能,本发明采用了Elkan的距离计算优化算法,该算法以聚类中心之间的距离作为三角形的一条边,通过三角不等式来简化聚类的计算流程,以减少不必要的距离计算。同时,还使用了K-Means的变体Mini-Batch K-Means来提高聚类速度。Mini-Batch K-Means采用随机抽取小批量数据子集的方式以减小计算时间,相比于传统K-Means需要对所有元素进行计算后才更新聚类中心,其在每次迭代操作时,只随机选取指定样本大小的元素集合,再根据集合中的元素来更新聚类中心。除此之外,由于K-Means目标函数存在局部极小值点,算法容易陷入局部最优解,为了使聚类结果尽量接近全局最优解,聚类中心的初始化显得尤为关键。本发明使用了Arthur and Vassilvitskii(2007)提出的K-Means++聚类中心初始化方案,进行聚类结果的误差改善。该算法的核心思想是在初始化聚类中心时,让聚类中心之间的距离尽可能远。
在得到地址文本语义与空间融合的聚类结果后,将每条地名地址文本W i赋予聚类结果标签B i,分别得到地址文本与分类标签数据集W{W 1,W 2,W 3,…},B{B 1,B 2,B 3,…},在此基础 上可以后续定义新的神经网络结构目标任务,即对每条地址文本的聚类结果进行正确预测,并以W和B作为实验数据,进行迁移学习模型和训练框架的设计,构建具有融合特征提取能力的地址语义-空间融合模型(Geospatial-Semantic Address Model,GSAM)。
下面以实现ALM的语义-空间融合为目标,从神经网络语言模型的微调理论出发,在步骤S6中构建GSAM模型,具体的执行流程如下:
S61:将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植(复用ALM结构),两者连接构成编码器。移植过程中,神经网络参数变量均保持不变。
因此在该GSAM模型的编码器中,词嵌入模块和特征提取模块是与ALM模型一致的,其特征提取模块的每一层自转换器子模块均可输出对应的语义特征变量。但原来的目标任务模块无法实现地址文本分类的目标,因此需要通过下述步骤重新构建地址文本分类器。
S62:重新构建用于对地址文本进行分类的目标任务模块作为解码器,用于通过神经网络对所述编码器的输出生成概率分布。在解码器中具体的执行流程为:
首先对所述编码器中特征提取模块的最后一层自转换器子模块输出SA N做平均值池化,池化结果作为地址句语义特征。
然后通过前馈网络层对地址句语义特征进行非线性变换,将语义特征转换为分类问题的概率分布特征,并保留输入的语义特征数量S,输出的概率分布特征数量仍为S,激活函数使用tanh。该函数的输出梯度区间为(-1,1),相比于ReLU中会把负梯度置零的缺点,它可以尽可能地保留神经元的激活状态,虽然收敛效果不如ReLU,但此处由于目标任务的网络结构较为简单,且该层已靠近模型的最终输出层,因此以此为激活函数具有更好的效果。
随后将得到的概率分布特征通过全连接层将其转换为地址文本的概率得分分布。其中神经元的权值矩阵与偏置均为训练参数变量,以随机的方式进行初始化赋值。
最后将概率得分分布得分代入softmax函数,得到地址文本属于每一个聚类(聚类类别在S5中得到)的预测概率分布P(B|W)。
利用上述编码器和解码器,即可构建地址语义-空间融合模型(其结构如图4所示),并结合其目标任务制定地址文本分类的模型训练框架。其具体通过步骤S7实现,具体的执行流程如下:
S71:将上述编码器和解码器连接,得到地址语义-空间融合模型GSAM的完整结构。
S72:构建地址语义-空间融合模型的训练框架,并基于该训练框架对地址语义-空间融合模型进行训练,使模型能够针对地址文本输出语义与空间特征的融合向量表达。
地址语义-空间融合模型的训练框架如下:
(1)模型输入与超参数构造
训练数据输入包括地址文本数据集及与其对应的聚类标签,其中文本数据集用于训练时的输入,聚类标签则代表模型输出的概率分布中应正确对应的索引值,是评判模型好坏的监督依据。同时由于地址文本中数字与空间位置相关,因此不能忽略,需要将文本数据中出现 的数字加入字典,同时移植的ALM模型实例的神经网络参数也应是未替换成NUM的模型训练结果。
训练时超参数与前述的ALM模型类似,包括训练样本大小batch_size、学习率η、字典大小、分类标签数量num_labels、训练轮数epoch、测试间隔步数train_interval;另外,还包括最大句子长度max_sentence_size、词嵌入长度(特征数量)embedding_size、语义特征提取模块数量num_self_transformer_module和自注意力头数量attention_head_size,这几个超参数均是ALM训练时的超参数,此处与移植的参数变量所在ALM模型实例严格保持一致。
(2)定义最大化预测分类概率的训练方案,将地址文本通过模型输出后的正确标签概率变得尽可能大,从而使模型内部的参数变量向着正确分类结果不断拟合。
(3)定义模型训练的损失函数。
每次训练的地址文本数量为batch_size,模型的概率输出为prob(batch_size,num_labels),结合样本的真实标签序列B(batch_size),获得每一条样本的真实标签概率:
true_prob(batch_size)=gather(prob,B)
通过概率的对数值相加后取平均值,可得到训练框架中的目标函数表达:
Figure PCTCN2019097375-appb-000017
通过概率的对数值相加后取平均负值,可得到训练任务的损失函数表达:
Figure PCTCN2019097375-appb-000018
(4)结合模型训练框架与输入的训练数据,对GSAM模型展开训练。获得训练完毕的GSAM模型后,可以将地址文本输入该模型中,输出语义-空间特征的融合向量表达。在该输出的融合向量中,即含有语义特征,又含有空间特征,具有语义-空间的融合属性,此类融合向量具有广泛的应用场景,可以用于构建各类地名地址空间下游任务。
下面基于该上述方法,将其应用至实施例1中,以直观展示其技术效果。
实施例1
本实施例中,以杭州市上城区200百万条地名地址数据构建成地址文本数据集,对其进行特征向量抽取。其基本步骤如前述的S1~S7所述,不再赘述,下面主要对各步骤的一些具体实现细节和效果进行展示。
1、根据步骤S1~S7中描述的方法,使用TensorFlow深度学习框架构建ALM和GSAM,同时设置模型的保存点,保存除目标任务模块以外的神经网络参数变量,方便接下来微调任务中的移植;模型的超参数通过hype-para.config配置文件进行设定,其中具体内容主要包括如下几类:
1)训练样本大小batch_size:64;2)初始学习率η:0.00005;3)训练轮数epoch:3;4)字典大小voc_size:4587;5)最大句子长度max_sentence_size:52;6)最大屏蔽字数量max_mask_size:7;7)词嵌入长度embedding_size:768;8)语义特征提取模块数量num_self_transformer_module:6至12;9)自注意力头数量attention_head_size:12;10)分类标签数量num_labels:500;11)测试间隔步数train_interval:500
2、针对杭州市上城区地名地址的文本内容,构建相关字典,并根据ALM训练数据的构造方法生成随机屏蔽结果,将其中1%,即两万条内容作为测试集,剩余作为训练集。
3、开展杭州市上城区地址数据的ALM实例训练,每隔500步保存模型实例,并对验证集进行一次验证,同时利用TensorBoard插件绘制训练梯度曲线和测试梯度曲线,判断模型是否存在过拟合或欠拟合,最终选取验证准确率最高的保存点作为模型生成结果,其中特征提取模块中Self-Transformer子模块的输出即为地址文本的语义特征向量。以语义特征提取模块数量作为变量,分别设置为6、8、10、12进行模型实例的训练,对比指标如下表:
Figure PCTCN2019097375-appb-000019
四类模型实例最终验证的准确度均在90.5%左右,按语义模块数量的顺序依次递增,平均损失值与准确度呈现负相关趋势。从训练模型得到的损失值来看,验证数据集损失值与之相差很小,因此基本可以判断上述四个模型均未出现过拟合及欠拟合的情况。在训练耗时方面,随着模块数量的增加,训练时长也相应增加,然而即使消耗时间最长的模型,在实际训练中带来的负担也仍在可接受范围之内。同时,语义提取模块的增加能更好地提升模型对于地址文本语义特征的提取能力,使各层模块的语义输出更具线性。综合上述各指标情况,判定12个提取模块能够给模型带来最好的目标任务结果和语义特征提取效果;
4、根据前述的聚类方式,对地址文本的语义特征句向量和空间坐标信息开展融合聚类,以城市功能区块划分为依据设定聚类数量为500,通过调整语义特征向量和空间特征向量的权重进行聚类实验和对比,最终发现该实验室数据在语义特征向量权重0.4和空间特征向量权重0.6的权重分配模式下(即λ为0.4),聚类的结果如图5所示,该结果最符合人类认知。记录此时地址文本的聚类结果标签,与地址文本建立关联。
5、将第三步得到保存点中的神经网络参数变量移植到GSAM模型中,构建验证集与测试集(不屏蔽地址内容,包含文本所有字符序号的整型向量),数据集内容包含地址文本信息和聚类标签结果,比例依然保持1%(不少于1万条)与99%。
6、以最大化预测分类概率为目标,开展杭州市上城区地址数据的GSAM模型实例训练, 每隔500步保存模型实例,并对验证集进行一次验证,绘制训练梯度曲线和测试梯度曲线,判断模型是否存在过拟合或欠拟合,最终选取验证F1值最高的保存点作为模型生成结果。其中特征提取模块中Self-Transformer子模块的输出即为地址文本的语义-空间融合特征向量。从训练数据集的梯度曲线变化来看,模型实例的损失值在20k步前有着较快的下降趋势,随后下降过程变缓并存在小幅度的局部震荡,直至100k步后逐渐平稳,损失值保持在0.18到0.01之间反复震荡,经过平滑后基本在0.08到0.05的区间内,因此可以认为GSAM实例此时已达到训练要求。验证集与训练集的损失梯度曲线状态几乎保持一致,仍是“快速下降-缓慢下降-平稳震荡”的趋势表达。然而在稳定后的损失值方面,验证集则是在0.1293到0.1271之间,与测试集曲线中心有着一定差距,可知模型实例在训练时存在轻微的过拟合现象,需要在100k之后综合考虑测试数据的评价指标曲线,从而选取最优的训练状态点作为模型的生成实例。验证指标的曲线变化是损失曲线的负相关表达,其在训练早期呈快速上升趋势,精确率、宏F1(Macro-F1)分类性能在20k步时分别达到了0.9457,0.9308和0.9458,随后开始缓慢上升,直到100k到120k之间时,三者的指标区间分别稳定在0.9696-0.9711,0.9593-0.9614和0.9698-0.9711之间,其中伴随着小幅度震荡,由于上述三个区间的范围已经很小,因此可认为此时模型已经达到了训练要求,从中取一个较好的步长点作为模型的生成实例。综合以上情况,实验决定在保证模型训练效果的范围内,尽可能降低模型训练集与验证集的过拟合差距,且在该段范围内的验证指标曲线已经稳定,因此不会对模型效果造成太大影响,最终实验选取115.5k时的模型实例保存点作为模型的生成实例GSAM_Format,训练集和测试集的损失值分别为0.128和0.1176,此时的验证精确率、宏F1值及微F1值分别为0.9706,0.9607和0.9710。从GSAM_Format对目标任务的分类效果来看,验证集的三项指标均达到了0.96以上,说明该模型实例能够很好地实现聚类结果的标签识别,因此可认为其已具备高效精确的分类能力;从模型结构上进行分析,其特征提取模块通过训练,能够输出包含语义-空间的融合特征,可为地址相关的下游工程提供支撑。而且,GSAM能对地址文本中的数字赋予聚类粒度的空间特征,其输出的地址文本能够以语义-空间融合特征的形式进行表达,这是ALM及其他自然语言模型所不具备的。
下面通过另一实施例,给出基于该方法提取的融合向量开展的一种下游任务实现方式,以便于本领域技术人员更好地理解。
实施例2
本实施例中提供了一种地址文本的地理位置预测方法,该方法的目的是实现地址文本中提到的地点名称与其对应的空间坐标之间的关联,构建两者的联合表达方式,即“基于地址文本内容预测文档中提及的空间实体的坐标”。
本实施例中地址文本的地理位置预测方法的具体步骤如下:
首先,构建地址空间坐标预测模型;所述地址空间坐标预测模型中包括三层连续的全连接层以及一层线性变换层,按照S1~S7所述方法训练得到地址语义-空间融合模型,并将其 中特征提取模块的最后一层自转换器子模块的输出SA N经过池化层池化后,依次输入三层连续的全连接层以及一层线性变换层中,输出地址文本所描述的空间实体所在的预测坐标。模型整体结构如图6所示。
然后将待预测地理位置的地址文本输入经过训练的地址空间坐标预测模型中,得到该地址文本所描述的空间实体所在的预测坐标。
该模型通过设置三个全连接层作为目标任务模块的隐藏层,并将结果经过线性变换,实现预测坐标的二值输出,该模块的输入则为GSAM模型中的特征提取模块输出。实现过程中,按照前述的S1~S7及实施例1中描述的方法,构建并训练GSAM模型(GSAM_Format),然后将其中特征提取模块的最后一层自转换器子模块的输出SA N经过池化层池化后,依次输入三层连续的全连接层,使模型能够保留更多语义-空间到坐标转换时的关联信息,使用ReLU作为激活函数以保证在训练时的收敛效果。最后一层的神经元输出结果已具有预测坐标的特征,但特征数量与空间坐标的维度并不匹配,因此需经过线性变换层实现降维操作,输出结果即为地址文本所描述的空间实体所在的预测坐标
该地址空间坐标预测模型需要进行训练后,才能够用于预测工作。但需要注意的是,在训练时需要对GSAM模型中的编码器部分变量参数,即任务目标模块之前的神经网络参数Frozen While Training,即进行冻结,在执行反向传播时不对上述参数变量进行梯度下降操作。
模型输入与超参数构造:
训练数据输入包括地址文本数据集及与其对应的真实坐标信息,其中文本数据集用于训练时的输入,真实坐标信息则用于评价模型输出的预测坐标,是指导模型训练时梯度下降的数值依据。同时由于模型中的特征提取模块迁移自训练得到的GSAM模型实例,因此需获取GSAM实例对相关神经网络参数变量进行赋值,训练时的字典也与该模型实例保持一致。
训练时超参数的定义与赋值如下:
(1)训练样本大小batch_size:64。
(2)学习率η:1×10 -4(初始学习率)。
(3)字典大小:与地址语义-空间融合模型实例使用的词典大小保持一致,此处字典应包含地址文本中的所有数字枚举。
(4)训练轮数epoch:5。
(5)测试间隔步数train_interval:500。
(6)其他ALM训练的相关超参数(max_sentence_size、embedding_size),与GSAM实例所设值保持一致。
定义训练方案的具体内容:使地址文本通过模型输出后的坐标预测值与真实值尽可能接近,从而使目标任务模块内部的参数变量向着正确结果不断拟合。
每次训练的地址文本数量为batch_size,因此可将训练目标定义为使该样本距离误差的平均值为0,模型的输出为pred_coord(batch_size,2),结合样本的空间坐标序列true_coord(batch_size,2),可得到训练框架中的目标函数表达,其中dis(x)表示空间距离量算函数:
Figure PCTCN2019097375-appb-000020
由此可得模型训练的损失函数:
Figure PCTCN2019097375-appb-000021
为了对比本发明的效果,除了基于GSAM_Format构建预测模型之外,本实施例还构建和训练了两个对照模型实例。其中一个的模型结构与本实施例一致,但在特征提取器方面,采用ALM_Format对目标任务模块外的神经网络参数变量进行赋值,此时该模型实例的特征表达仅包含地址文本语义信息;另一个则使用Word2Vec方法对地址文本进行向量表达,其目标任务模块与下游任务模型相同,也以三层全连接神经网络作为隐藏层,最后进行线性变化得到输出。两组对照模型在训练时同样仅对目标任务模块中的神经网络参数执行梯度更新操作。隐藏层维度大小为变量,依次设置为768/768/768,1024/1024/1024,2048/2048/2048和4096/4096/4096开展下游任务模型及对照模型实例的训练。
对训练模型取收敛后最优效果的步长点作为模型最终实例保存,此时模型评价指标概括如下表所示:
Figure PCTCN2019097375-appb-000022
从上述三个指标以及曲线变化的分析来看,基于GSAM_Format的预测模型针对 样本地址信息,无论从全面还是局部来看,其空间坐标的预测能力都远胜于其他两类模型,能高效且精准地完成类似人脑从“地址文本认知”到“空间区域感知”的过程。这也从侧面论证了本发明的GSAM模型确实具有语义-空间融合特征的学习能力,其训练实例包含语义-空间的融合权重。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

  1. 一种基于深度神经网络模型的地址信息特征抽取方法,其特征在于,包括如下步骤:
    S1:构建位置顺序加权的词嵌入模块,用于通过位置编码算法与内置矩阵变量,将输入的地址文本中每个地址字符以唯一值的向量形式表达,实现地址信息从文本到编码的转换;
    S2:构建字符编码的特征提取模块,通过多头自注意力机制的语义提取方法,获得字符要素在不同语义空间下的综合语义输出;
    S3:构建基于上下文预测未知字符的目标任务模块,在满足地址字符与上下文表征映射关系的条件下,输出训练任务所需的预测字符条件概率分布;
    S4:将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接,形成地名地址语言模型,并采用基于随机屏蔽策略的自然语言训练方案对地名地址语言模型进行训练,使模型能够输出得到地址文本中每个字符的语义特征向量;
    S5:综合地址文本中所有字符的语义特征向量,通过地址语义特征的池化方法得到句向量,并结合空间位置信息进行高维加权,通过K-Means聚类方法得到语义-空间融合的聚类结果;
    S6:将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植,构成编码器;基于神经网络微调理论重构目标任务模块形成解码器,用于将S5中的聚类结果作为地址文本标签,对编码器中的神经网络参数变量赋予语义-空间的融合权重;
    S7:结合所述的编码器和解码器,构建地址语义-空间融合模型,并对地址语义-空间融合模型进行训练,使模型能够针对地址文本输出语义与空间特征的融合向量表达。
  2. 根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤S1中,词嵌入模块中具体的执行流程包括:
    S11:创建字典-向量转换矩阵C;
    S12:获得输入的地址文本中每个地址字符位于字典中的索引char_index;
    S13:根据索引获得每个字符的one-hot向量,向量长度为字典的大小;
    S14:将one-hot向量与Lookup Table相乘,得到每个字符的词嵌入值embedding 0
    S15:获得每个字符在地址文本中的位置position;
    S16:根据位置编码算法,获得每个字符的位置权重向量;每个字符的位置权重向量PW由所有维度的位置权重值组成;
    偶数维度的位置权重值为:
    Figure PCTCN2019097375-appb-100001
    奇数维度的位置权重值为:
    Figure PCTCN2019097375-appb-100002
    其中d model表示词嵌入embedding 0的维度,i表示计算的第i个维度;
    S17:将每个字符的位置权重向量与词嵌入值相加,得到每个字符经过位置顺序加权的字符向量化表达内容:
    embedding=embedding 0+PW。
  3. 根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤S2中,特征提取模块中具体的执行流程包括:
    S21:将S1中词嵌入模块输出的字符向量化表达内容输入由多层自转换器子模块串联形成的神经网络中;在每层自转换器子模块中,输入数据首先代入自注意力神经网络,其输出经过残差和归一化计算后,再代入前馈网络层,再经过残差和归一化计算后,作为该自转换器子模块的输出;
    S22:除第一层自转换器子模块之外的其余自转换器子模块中,上一层的自转换器子模块的输出作下一层自转换器子模块的输入,层层传递,直至得到最后一层自转换器子模块的输出SA N
  4. 根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤S3中,目标任务模块中具体的执行流程包括:
    S31:将S2中特征提取模块的输出作为前馈网络层的输入,通过非线性变换将其转化为每个字符经过上下文影响后的“修正词嵌入”信息prob_embedding,非线性变换公式为:
    prob_embedding=g(W×SA+b)
    式中:g()表示ReLu函数,W表示权重矩阵,b表示线性偏置;
    S32:将prob_embedding进行线性变换,得到其概率分布得分:
    logits=C T×prob_embedding+b′
    其中权重矩阵C T为字典-向量转换矩阵C的转置,b′表示线性变换的偏置;
    S33:将概率分布得分logits代入到softmax激活函数,最终得到每个字符是字典中各个字的条件概率分布。
    prob=softmax(logits)
  5. 根据权利要求1所述的一种地址信息特征抽取的深度神经网络模型,其特征在于,所述的步骤S4的具体实现流程包括:
    S41:将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接,形成地名地址语言模型;
    S42:构建地名地址语言模型训练框架,训练框架中首先定义基于随机屏蔽策略的自然语言训练方案,然后构造字典以及训练数据的模型输入,再定义损失函数并通过构造神经网络优化器对模型参数变量进行优化;
    S43:基于所述训练框架对地名地址语言模型进行训练,使模型能够输出地址文本中每个字符的语义特征向量表达。
  6. 根据权利要求5所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤S42中:
    所述的基于随机屏蔽策略的自然语言训练方案具体为:随机屏蔽输入的地址文本句子中部分字符,以屏蔽符号表示;然后将地址文本句子中的部分屏蔽符号替换成真实字符,再将地址文本句子中的部分屏蔽符号替换成错误字符,剩余的屏蔽符号不变;在地名地址语言模型训练过程中,只针对这3种被屏蔽符号替换的字符执行目标任务模块;
    所述神经网络优化器中采用学习率衰减、全局梯度裁剪和自适应矩估计算法三种梯度更新优化策略。
  7. 根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤S5的具体实现流程包括:
    S51:获取地址文本在所述特征提取模块中最后四层自转换器子模块的输出SA N、SA N-1、SA N-2、SA N-3,分别对SA N、SA N-1、SA N-2、SA N-3进行平均值池化与最大值池化,然后并将池化结果全部相加,获得地址文本的最终语义特征表达sentEmbed 0
    S52:分别计算所有地址文本在语义特征向量空间中的欧氏距离极差sent_range和空间特征向量空间中的欧氏距离极差coor_range;
    对每个地址文本的语义特征向量sentEmbed 0和空间特征向量coorEmbed 0进行去量纲操作,并通过设置权值λ对去量纲后的特征向量进行权重分配,得到处理后的语义特征向量sentEmbed和空间特征向量coorEmbed:
    Figure PCTCN2019097375-appb-100003
    coorEmbed=coorEmbed 0*(1-λ)
    将两种处理后的特征向量直接拼接,最终形成融合特征向量:
    concatEmbed={sentEmbed,coorEmbed};
    S53:通过K-Means聚类算法,结合Elkan距离计算优化算法、Mini-Batch K-means策略和K-means++聚类中心初始化方案,对所有融合特征向量进行聚类,得到语义-空间融合的聚类结果。
  8. 根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤6的具体实现流程包括:
    S61:将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植,两者连接构成编码器;
    S62:重新构建用于对地址文本进行分类的目标任务模块作为解码器,用于通过神经网络对所述编码器的输出生成概率分布;在解码器中,首先对所述编码器中特征提取模块的最后一层自转换器子模块输出SA N做平均值池化,池化结果作为地址句语义特征;然后通过前馈网络层对地址句语义特征进行非线性变换,将语义特征转换为分类问题的概率分布特征,激活函数使用tanh;最后将得到的概率分布特征通过全连接层转换为地址文本的概率得分分布,由softmax函数求得地址文本属于S5中得到的每一个聚类的预测概率分布。
  9. 根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤S7的具体实现流程包括:
    S71:将所述的编码器和解码器连接得到地址语义-空间融合模型;
    S72:构建地址语义-空间融合模型的训练框架,并基于该训练框架对地址语义-空间融合模型进行训练,使模型能够针对地址文本输出语义与空间特征的融合向量表达。
  10. 一种地址文本的地理位置预测方法,其特征在于,步骤如下:
    首先,构建地址空间坐标预测模型;所述地址空间坐标预测模型中包括三层连续的全连接层以及一层线性变换层,按照权利要求1~9所述方法训练得到地址语义-空间融合模型,并将其中特征提取模块的最后一层自转换器子模块的输出SA N经过池化层池化后,依次输入三层连续的全连接层以及一层线性变换层中,输出地址文本所描述的空间实体所在的预测坐标;
    然后将待预测地理位置的地址文本输入经过训练的地址空间坐标预测模型中,得到该地址文本所描述的空间实体所在的预测坐标。
PCT/CN2019/097375 2019-07-04 2019-07-23 一种基于深度神经网络模型的地址信息特征抽取方法 WO2021000362A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020556939A JP7041281B2 (ja) 2019-07-04 2019-07-23 ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法
US17/033,988 US11941522B2 (en) 2019-07-04 2020-09-28 Address information feature extraction method based on deep neural network model

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910600447.5 2019-07-04
CN201910600447 2019-07-04

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/033,988 Continuation US11941522B2 (en) 2019-07-04 2020-09-28 Address information feature extraction method based on deep neural network model

Publications (1)

Publication Number Publication Date
WO2021000362A1 true WO2021000362A1 (zh) 2021-01-07

Family

ID=68255063

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/097375 WO2021000362A1 (zh) 2019-07-04 2019-07-23 一种基于深度神经网络模型的地址信息特征抽取方法

Country Status (4)

Country Link
US (1) US11941522B2 (zh)
JP (1) JP7041281B2 (zh)
CN (1) CN110377686B (zh)
WO (1) WO2021000362A1 (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836496A (zh) * 2021-01-25 2021-05-25 之江实验室 一种基于bert和前馈神经网络的文本纠错方法
CN112861648A (zh) * 2021-01-19 2021-05-28 平安科技(深圳)有限公司 文字识别方法、装置、电子设备及存储介质
CN112860992A (zh) * 2021-01-25 2021-05-28 西安博达软件股份有限公司 基于网站内容数据推荐的特征优化预训练方法
CN112949318A (zh) * 2021-03-03 2021-06-11 电子科技大学 基于文本和用户表示学习的文本立场检测方法
CN113345574A (zh) * 2021-05-26 2021-09-03 复旦大学 基于bert语言模型与cnn模型的中医胃痛养生方案获取装置
CN113434667A (zh) * 2021-04-20 2021-09-24 国网浙江省电力有限公司杭州供电公司 基于配网自动化终端文本分类模型的文本分类方法
CN113468877A (zh) * 2021-07-09 2021-10-01 浙江大学 语言模型的微调方法、装置、计算设备和存储介质
CN113505190A (zh) * 2021-09-10 2021-10-15 南方电网数字电网研究院有限公司 地址信息修正方法、装置、计算机设备和存储介质
CN113537345A (zh) * 2021-07-15 2021-10-22 中国南方电网有限责任公司 一种通信网设备数据关联的方法及系统
CN113536804A (zh) * 2021-06-29 2021-10-22 北京理工大学 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法
CN113569558A (zh) * 2021-07-06 2021-10-29 上海交通大学 一种电力设备局部放电实体关系抽取方法及系统
CN113591459A (zh) * 2021-08-10 2021-11-02 平安银行股份有限公司 地址标准化处理方法、装置、电子设备及可读存储介质
CN113609304A (zh) * 2021-07-20 2021-11-05 广州大学 一种实体匹配方法和装置
CN113673219A (zh) * 2021-08-20 2021-11-19 合肥中科类脑智能技术有限公司 一种停电计划文本解析方法
CN113743118A (zh) * 2021-07-22 2021-12-03 武汉工程大学 基于融合关系信息编码的法律文书中的实体关系抽取方法
CN113760778A (zh) * 2021-11-09 2021-12-07 浙江大学滨海产业技术研究院 一种基于词向量模型的微服务接口划分评价方法
CN113971407A (zh) * 2021-12-23 2022-01-25 深圳佑驾创新科技有限公司 语义特征提取方法及计算机可读存储介质
CN114035098A (zh) * 2021-12-14 2022-02-11 北京航空航天大学 一种融合未来工况信息和历史状态信息的锂电池健康状态预测方法
CN114049508A (zh) * 2022-01-12 2022-02-15 成都无糖信息技术有限公司 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
CN114329472A (zh) * 2021-12-31 2022-04-12 淮阴工学院 基于双重嵌入与模型剪枝的bios恶意程序检测方法及装置
CN114358014A (zh) * 2021-12-23 2022-04-15 佳源科技股份有限公司 基于自然语言的工单智能诊断方法、装置、设备及介质
CN114386334A (zh) * 2022-01-19 2022-04-22 浙江大学 一种基于分布式水文径流模拟替代模型的径流滚动预报方法
CN114582443A (zh) * 2022-02-23 2022-06-03 西北大学 一种基于知识图谱的药物关系抽取方法
CN114661968A (zh) * 2022-05-26 2022-06-24 卡奥斯工业智能研究院(青岛)有限公司 产品数据处理方法、装置及存储介质
CN114791886A (zh) * 2022-06-21 2022-07-26 纬创软件(武汉)有限公司 一种软件问题跟踪方法和系统
CN116758562A (zh) * 2023-08-22 2023-09-15 杭州实在智能科技有限公司 通用文本验证码识别方法及系统
CN116913383A (zh) * 2023-09-13 2023-10-20 鲁东大学 一种基于多模态的t细胞受体序列分类方法
CN117371299A (zh) * 2023-12-08 2024-01-09 安徽大学 一种托卡马克新经典环向粘滞力矩的机器学习方法
CN117875268A (zh) * 2024-03-13 2024-04-12 山东科技大学 一种基于分句编码的抽取式文本摘要生成方法

Families Citing this family (148)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048933B2 (en) 2019-07-31 2021-06-29 Intuit Inc. Generating structured representations of forms using machine learning
CN112800737A (zh) * 2019-10-29 2021-05-14 京东数字科技控股有限公司 自然语言文本生成方法和装置以及对话系统
CN110837733B (zh) * 2019-10-31 2023-12-29 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、系统及电子设备
CN110874392B (zh) * 2019-11-20 2023-10-24 中山大学 基于深度双向注意力机制的文本网络信息融合嵌入方法
CN110929017B (zh) * 2019-11-25 2023-07-14 腾讯科技(深圳)有限公司 文本的推荐方法及装置
CN112949284B (zh) * 2019-12-11 2022-11-04 上海大学 一种基于Transformer模型的文本语义相似度预测方法
CN111104802B (zh) * 2019-12-11 2023-03-28 中国平安财产保险股份有限公司 一种地址信息文本的提取方法及相关设备
CN111177289A (zh) * 2019-12-12 2020-05-19 山东省国土测绘院 众源网络数据空间相关信息提取校验方法与系统
CN111178074B (zh) * 2019-12-12 2023-08-25 天津大学 一种基于深度学习的中文命名实体识别方法
CN111178046A (zh) * 2019-12-16 2020-05-19 山东众阳健康科技集团有限公司 一种基于排序的字向量训练方法
CN111222320B (zh) * 2019-12-17 2020-10-20 共道网络科技有限公司 一种字符预测模型训练方法及装置
CN111178041B (zh) * 2019-12-31 2023-04-07 北京妙笔智能科技有限公司 一种智能的文本复述系统和方法
CN111209362A (zh) * 2020-01-07 2020-05-29 苏州城方信息技术有限公司 基于深度学习的地址数据解析方法
CN111553363B (zh) * 2020-04-20 2023-08-04 北京易道博识科技有限公司 一种端到端的图章识别方法及系统
CN111666292B (zh) 2020-04-24 2023-05-26 百度在线网络技术(北京)有限公司 用于检索地理位置的相似度模型建立方法和装置
CN111666461B (zh) * 2020-04-24 2023-05-26 百度在线网络技术(北京)有限公司 检索地理位置的方法、装置、设备和计算机存储介质
EP4150875A4 (en) * 2020-05-11 2024-01-17 Paypal Inc DETERMINING GEOGRAPHICAL COORDINATES USING MACHINE LEARNING TECHNIQUES
US11928429B2 (en) * 2020-05-22 2024-03-12 Microsoft Technology Licensing, Llc Token packing for sequence models
CN111737995B (zh) * 2020-05-29 2024-04-05 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
US11393233B2 (en) * 2020-06-02 2022-07-19 Google Llc System for information extraction from form-like documents
CN111680169A (zh) * 2020-06-03 2020-09-18 国网内蒙古东部电力有限公司 一种基于bert模型技术的电力科技成果数据抽取方法
CN111711629A (zh) * 2020-06-16 2020-09-25 荆门汇易佳信息科技有限公司 背景知识引导的特征化定位隐私防泄露方法
US11782685B2 (en) * 2020-06-17 2023-10-10 Bank Of America Corporation Software code vectorization converter
CN111814448B (zh) * 2020-07-03 2024-01-16 思必驰科技股份有限公司 预训练语言模型量化方法和装置
CN111753802A (zh) * 2020-07-06 2020-10-09 北京猿力未来科技有限公司 识别方法及装置
CN111814468B (zh) * 2020-07-09 2021-02-26 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及系统
CN112507074A (zh) * 2020-07-31 2021-03-16 支付宝(杭州)信息技术有限公司 机器阅读理解中的数值推理方法和装置
CN112133304B (zh) * 2020-09-18 2022-05-06 中科极限元(杭州)智能科技股份有限公司 基于前馈神经网络的低延时语音识别模型及训练方法
CN112288806A (zh) * 2020-09-28 2021-01-29 北京沃东天骏信息技术有限公司 物体空间关系的识别方法、装置和训练方法、装置
CN112257413B (zh) * 2020-10-30 2022-05-17 深圳壹账通智能科技有限公司 地址参数处理方法及相关设备
CN112329470A (zh) * 2020-11-09 2021-02-05 北京中科闻歌科技股份有限公司 一种基于端到端模型训练的智能地址识别方法及装置
US20220156297A1 (en) * 2020-11-13 2022-05-19 Tencent America LLC Efficient and compact text matching system for sentence pairs
CN112328844A (zh) * 2020-11-18 2021-02-05 恩亿科(北京)数据科技有限公司 一种处理多类型数据的方法及系统
CN112651227A (zh) * 2020-11-24 2021-04-13 中国科学院信息工程研究所 一种基于向量空间下语言建模的IPv6目标生成方法和装置
CN113342970B (zh) * 2020-11-24 2023-01-03 中电万维信息技术有限责任公司 一种多标签复杂文本分类方法
CN112488200A (zh) * 2020-11-30 2021-03-12 上海寻梦信息技术有限公司 物流地址特征提取方法、系统、设备及存储介质
CN112528643A (zh) * 2020-12-14 2021-03-19 上海栖盟科技有限公司 一种基于神经网络的文本信息提取方法及装置
CN112527938A (zh) * 2020-12-17 2021-03-19 安徽迪科数金科技有限公司 基于自然语言理解的中文poi匹配方法
CN112612940A (zh) * 2020-12-23 2021-04-06 深圳壹账通智能科技有限公司 地址信息解析方法、装置、设备及存储介质
CN112633003A (zh) * 2020-12-30 2021-04-09 平安科技(深圳)有限公司 一种地址识别方法、装置、计算机设备及存储介质
CN112766359B (zh) * 2021-01-14 2023-07-25 北京工商大学 一种面向食品安全舆情的字词双维度微博谣言识别方法
CN112765339B (zh) * 2021-01-21 2022-10-04 山东师范大学 一种基于强化学习的个性化图书推荐方法及系统
CN112818118A (zh) * 2021-01-22 2021-05-18 大连民族大学 基于反向翻译的中文幽默分类模型
CN112818666A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址识别方法、装置、电子设备和存储介质
CN112784831B (zh) * 2021-02-02 2022-06-28 电子科技大学 融合多层特征增强注意力机制的文字识别方法
CN112507628B (zh) * 2021-02-03 2021-07-02 北京淇瑀信息科技有限公司 基于深度双向语言模型的风险预测方法、装置和电子设备
CN112818086A (zh) * 2021-02-04 2021-05-18 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN113011580B (zh) * 2021-02-10 2022-12-27 华为技术有限公司 一种嵌入表征的处理方法以及相关设备
CN113011126B (zh) * 2021-03-11 2023-06-30 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN112884354B (zh) * 2021-03-15 2023-07-11 北京工商大学 一种字词双维度的化妆品安全监管领域事件信息抽取方法
CN112989790B (zh) * 2021-03-17 2023-02-28 中国科学院深圳先进技术研究院 基于深度学习的文献表征方法及装置、设备、存储介质
CN113032672A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 多模态poi特征的提取方法和装置
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
US20220327489A1 (en) * 2021-04-08 2022-10-13 Nec Laboratories America, Inc. Hierarchical word embedding system
CN113139054B (zh) * 2021-04-21 2023-11-24 南通大学 一种基于Transformer的代码编程语言分类方法
CN113011443B (zh) * 2021-04-23 2022-06-03 电子科技大学 一种基于关键点的目标检测的特征融合方法
CN113128600B (zh) * 2021-04-23 2024-02-23 湖北珞珈环创科技有限公司 一种结构化深度非完整多视角聚类方法
CN113076750B (zh) * 2021-04-26 2022-12-16 华南理工大学 一种基于新词发现的跨领域中文分词系统及方法
CN113132410B (zh) * 2021-04-29 2023-12-08 深圳信息职业技术学院 一种用于检测钓鱼网址的方法
CN113343638B (zh) * 2021-05-10 2023-10-13 武汉大学 面向精细化内容重组的服务内容多重语义自动编码方法
CN113221568B (zh) * 2021-05-10 2022-05-17 天津大学 一种基于神经网络的改进分层序列标注联合关系抽取方法
CN113190655B (zh) * 2021-05-10 2023-08-11 南京大学 一种基于语义依赖的空间关系抽取方法及装置
CN113590814A (zh) * 2021-05-13 2021-11-02 上海大学 一种融合文本解释特征的文本分类方法
CN112990388B (zh) * 2021-05-17 2021-08-24 成都数联铭品科技有限公司 基于概念词的文本聚类方法
CN113157927B (zh) * 2021-05-27 2023-10-31 中国平安人寿保险股份有限公司 文本分类方法、装置、电子设备及可读存储介质
CN113256145B (zh) * 2021-06-09 2021-09-21 深圳万顺叫车云信息技术有限公司 安全中心中台系统
CN113313197B (zh) * 2021-06-17 2022-06-10 哈尔滨工业大学 一种全连接神经网络训练方法
CN113420571A (zh) * 2021-06-22 2021-09-21 康键信息技术(深圳)有限公司 基于深度学习的文本翻译方法、装置、设备及存储介质
CN113420689B (zh) * 2021-06-30 2024-03-22 平安科技(深圳)有限公司 基于概率校准的文字识别方法、装置、计算机设备及介质
CN113378574B (zh) * 2021-06-30 2023-10-24 武汉大学 一种基于kgann的命名实体识别方法
CN113255346B (zh) * 2021-07-01 2021-09-14 湖南工商大学 一种基于图嵌入与crf知识融入的地址要素识别方法
CN113538475B (zh) * 2021-07-19 2022-03-25 中国科学院自动化研究所 基于多任务算法的实时多器械分割方法和系统
CN113672726A (zh) * 2021-07-20 2021-11-19 贵州电网有限责任公司 一种基于重采样的多轮对话分类方法
CN113297410A (zh) * 2021-07-26 2021-08-24 广东众聚人工智能科技有限公司 一种图像检索方法、装置、计算机设备及存储介质
CN113591971B (zh) * 2021-07-28 2024-05-07 上海数鸣人工智能科技有限公司 基于dpi时间序列词嵌入向量的用户个性行为预测方法
CN113568845B (zh) * 2021-07-29 2023-07-25 北京大学 一种基于强化学习的内存地址映射方法
CN113392191B (zh) * 2021-08-18 2022-01-21 中关村科学城城市大脑股份有限公司 一种基于多维度语义联合学习的文本匹配方法和装置
CN113823292B (zh) * 2021-08-19 2023-07-21 华南理工大学 基于通道注意力深度可分卷积网络的小样本话者辨认方法
CN113626603B (zh) * 2021-08-19 2024-03-29 支付宝(杭州)信息技术有限公司 文本分类的方法和装置
CN113656607A (zh) * 2021-08-19 2021-11-16 郑州轻工业大学 一种文本挖掘装置及储存介质
CN113807102B (zh) * 2021-08-20 2022-11-01 北京百度网讯科技有限公司 建立语义表示模型的方法、装置、设备和计算机存储介质
CN113723072A (zh) * 2021-08-25 2021-11-30 北京来也网络科技有限公司 Rpa结合ai的模型融合结果获取方法、装置及电子设备
CN113592037B (zh) * 2021-08-26 2023-11-24 吉奥时空信息技术股份有限公司 一种基于自然语言推断的地址匹配方法
CN113723278B (zh) * 2021-08-27 2023-11-03 上海云从汇临人工智能科技有限公司 表格信息提取模型的训练方法及装置
CN113837240A (zh) * 2021-09-03 2021-12-24 南京昆虫软件有限公司 一种针对教育部的分类系统和分类方法
CN113948066B (zh) * 2021-09-06 2022-07-12 北京数美时代科技有限公司 一种实时转译文本的纠错方法、系统、存储介质和装置
CN113761131A (zh) * 2021-09-07 2021-12-07 上海快确信息科技有限公司 一种将文本结构化为表格的深度学习模型装置
CN113869052B (zh) * 2021-09-26 2023-05-05 杭州中房信息科技有限公司 基于ai的房屋地址匹配方法、存储介质及设备
CN113836928B (zh) * 2021-09-28 2024-02-27 平安科技(深圳)有限公司 文本实体生成方法、装置、设备及存储介质
CN114528368B (zh) * 2021-11-12 2023-08-25 南京师范大学 基于预训练语言模型与文本特征融合的空间关系抽取方法
US11514370B1 (en) * 2021-12-03 2022-11-29 FriendliAI Inc. Selective batching for inference system for transformer-based generation tasks
US11442775B1 (en) 2021-12-03 2022-09-13 FriendliAI Inc. Dynamic batching for inference system for transformer-based generation tasks
CN113920989B (zh) * 2021-12-13 2022-04-01 中国科学院自动化研究所 一种语音识别与语音翻译端到端系统及设备
CN114003698B (zh) * 2021-12-27 2022-04-01 成都晓多科技有限公司 一种文本检索方法、系统、设备及存储介质
CN114492463B (zh) * 2021-12-30 2023-12-12 永中软件股份有限公司 一种基于对抗多任务学习的统一语义性中文文本润色方法
CN114443845A (zh) * 2022-01-20 2022-05-06 序跋网络科技(上海)有限公司 一种基于bert的多特征细粒度中文短文本情感分类方法
CN114510968B (zh) * 2022-01-21 2022-09-16 石家庄铁道大学 一种基于Transformer的故障诊断方法
CN114816909B (zh) * 2022-04-13 2024-03-26 北京计算机技术及应用研究所 一种基于机器学习的实时日志检测预警方法及系统
CN114782791B (zh) * 2022-04-14 2024-03-22 华南理工大学 基于transformer模型和类别关联的场景图生成方法
CN114897004B (zh) * 2022-04-15 2023-05-02 成都理工大学 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法
US11615247B1 (en) * 2022-04-24 2023-03-28 Zhejiang Lab Labeling method and apparatus for named entity recognition of legal instrument
CN114580424B (zh) * 2022-04-24 2022-08-05 之江实验室 一种用于法律文书的命名实体识别的标注方法和装置
CN114818698B (zh) * 2022-04-28 2024-04-16 华中师范大学 一种自然语言文本和数学语言文本的混合词嵌入方法
CN114579688A (zh) * 2022-04-29 2022-06-03 中国地质科学院地质力学研究所 一种基于gis的地质数据呈现方法及系统
CN115114433B (zh) * 2022-05-19 2024-04-02 腾讯科技(深圳)有限公司 语言模型的训练方法、装置、设备及存储介质
CN114926655B (zh) * 2022-05-20 2023-09-26 北京百度网讯科技有限公司 地理与视觉跨模态预训练模型的训练方法、位置确定方法
CN114911909B (zh) * 2022-06-08 2023-01-10 北京青萌数海科技有限公司 结合深度卷积网络和注意力机制的地址匹配方法以及装置
WO2023244648A1 (en) * 2022-06-14 2023-12-21 The Regents Of The University Of California Residual and attentional architectures for vector-symbols
CN115081439B (zh) * 2022-07-01 2024-02-27 淮阴工学院 一种基于多特征自适应增强的化学药品分类方法及系统
CN114841293B (zh) * 2022-07-04 2022-10-25 国网信息通信产业集团有限公司 一种面向电力物联网的多模态数据融合分析方法与系统
CN115344693B (zh) * 2022-07-11 2023-05-12 北京容联易通信息技术有限公司 一种基于传统算法和神经网络算法融合的聚类方法
CN115242868A (zh) * 2022-07-13 2022-10-25 郑州埃文计算机科技有限公司 一种基于图神经网络的街道级ip地址定位方法
CN115081428B (zh) * 2022-07-22 2022-11-29 粤港澳大湾区数字经济研究院(福田) 一种处理自然语言的方法、自然语言处理模型、设备
CN115168856B (zh) * 2022-07-29 2023-04-21 山东省计算中心(国家超级计算济南中心) 二进制代码相似性检测方法及物联网固件漏洞检测方法
CN115277626B (zh) * 2022-07-29 2023-07-25 平安科技(深圳)有限公司 地址信息转换方法、电子设备和计算机可读存储介质
CN115065567B (zh) * 2022-08-19 2022-11-11 北京金睛云华科技有限公司 用于dga域名研判推理机的插件化执行方法
CN115329766B (zh) * 2022-08-23 2023-04-18 中国人民解放军国防科技大学 一种基于动态词信息融合的命名实体识别方法
CN115099242B (zh) * 2022-08-29 2022-11-15 江西电信信息产业有限公司 意图识别方法、系统、计算机及可读存储介质
CN115410158B (zh) * 2022-09-13 2023-06-30 北京交通大学 一种基于监控摄像头的地标提取方法
CN115422477B (zh) * 2022-09-16 2023-09-05 哈尔滨理工大学 一种轨迹近邻查询系统、方法、计算机及存储介质
CN115658886A (zh) * 2022-09-20 2023-01-31 广东技术师范大学 基于语义文本的智能肝癌分期方法、系统及介质
CN115439921A (zh) * 2022-09-22 2022-12-06 徐州华讯科技有限公司 一种基于眼动图推理的图像偏好预测方法
CN115545098B (zh) * 2022-09-23 2023-09-08 青海师范大学 一种基于注意力机制的三通道图神经网络的节点分类方法
CN115470354B (zh) * 2022-11-03 2023-08-22 杭州实在智能科技有限公司 基于多标签分类识别嵌套和重叠风险点的方法及系统
CN116704537B (zh) * 2022-12-02 2023-11-03 大连理工大学 一种轻量的药典图片文字提取方法
CN115983274B (zh) * 2022-12-20 2023-11-28 东南大学 一种基于两阶段标签校正的噪声事件抽取方法
CN116452241B (zh) * 2023-04-17 2023-10-20 广西财经学院 一种基于多模态融合神经网络的用户流失概率计算方法
CN116431711B (zh) * 2023-06-13 2024-03-15 北京长河数智科技有限责任公司 基于数据特征实现的数据智能采集方法及系统
CN116719936B (zh) * 2023-06-15 2023-12-26 湖北大学 一种基于集成学习的网络不可靠信息早期检测方法
CN116611131B (zh) * 2023-07-05 2023-12-26 大家智合(北京)网络科技股份有限公司 一种包装图形自动生成方法、装置、介质及设备
CN116610791B (zh) * 2023-07-20 2023-09-29 中国人民解放军国防科技大学 针对结构化信息的基于语义分析的问答方法、系统及设备
CN116824305A (zh) * 2023-08-09 2023-09-29 中国气象服务协会 应用于云计算的生态环境监测数据处理方法及系统
CN116958825B (zh) * 2023-08-28 2024-03-22 中国公路工程咨询集团有限公司 一种移动式遥感图像采集方法及公路维护监测方法
CN116910186B (zh) * 2023-09-12 2023-11-21 南京信息工程大学 一种文本索引模型构建方法、索引方法、系统和终端
CN116915746B (zh) * 2023-09-14 2023-11-21 北京国旭网络科技有限公司 一种基于物联网的IPv6寻址方法
CN117033394B (zh) * 2023-10-08 2023-12-08 卓世科技(海南)有限公司 一种大语言模型驱动的向量数据库构建方法及系统
CN117033393B (zh) * 2023-10-08 2023-12-12 四川酷赛科技有限公司 一种基于人工智能的信息存储管理系统
CN117236323B (zh) * 2023-10-09 2024-03-29 京闽数科(北京)有限公司 一种基于大数据的信息处理方法及系统
CN117454873B (zh) * 2023-10-23 2024-04-23 广东外语外贸大学 一种基于知识增强神经网络模型的讽刺检测方法及系统
CN117538910B (zh) * 2023-12-20 2024-04-30 广东邦盛北斗科技股份公司 基于ai的北斗定位信号测试分析方法及系统
CN117457135B (zh) * 2023-12-22 2024-04-09 四川互慧软件有限公司 一种地址数据治理方法和循环神经网络模型构建方法
CN117436460B (zh) * 2023-12-22 2024-03-12 武汉大学 一种翻译质量评估方法、装置、设备及存储介质
CN117540009B (zh) * 2024-01-09 2024-03-26 江西省科学院能源研究所 一种基于增强预训练文本匹配模型的文本匹配方法
CN117556064B (zh) * 2024-01-11 2024-03-26 北京邮电大学 基于大数据分析的信息分类存储方法与系统
CN117688611A (zh) * 2024-01-30 2024-03-12 深圳昂楷科技有限公司 电子病历脱敏方法及系统、电子设备、存储介质
CN117743698A (zh) * 2024-02-05 2024-03-22 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统
CN117729176B (zh) * 2024-02-18 2024-04-26 闪捷信息科技有限公司 基于网络地址和响应体的应用程序接口聚合方法及装置
CN117763361B (zh) * 2024-02-22 2024-04-30 泰山学院 一种基于人工智能的学生成绩预测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140434A1 (en) * 2013-06-21 2016-05-19 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for pseudo-recurrent processing of data using a feedforward neural network architecture
CN107729311A (zh) * 2017-08-28 2018-02-23 云南大学 一种融合文本语气的中文文本特征提取方法
CN108399421A (zh) * 2018-01-31 2018-08-14 南京邮电大学 一种基于词嵌入的深度零样本分类方法
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714081B (zh) * 2012-09-29 2018-10-16 北京百度网讯科技有限公司 一种专有地名的识别方法和装置
US10621216B2 (en) * 2017-02-28 2020-04-14 International Business Machines Corporation Generating a ranked list of best fitting place names
CN109145171B (zh) * 2018-07-23 2020-09-08 广州市城市规划勘测设计研究院 一种多尺度地图数据更新方法
CN109902646A (zh) * 2019-03-08 2019-06-18 中南大学 一种基于长短时记忆网络的步态识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140434A1 (en) * 2013-06-21 2016-05-19 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for pseudo-recurrent processing of data using a feedforward neural network architecture
CN107729311A (zh) * 2017-08-28 2018-02-23 云南大学 一种融合文本语气的中文文本特征提取方法
CN108399421A (zh) * 2018-01-31 2018-08-14 南京邮电大学 一种基于词嵌入的深度零样本分类方法
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861648B (zh) * 2021-01-19 2023-09-26 平安科技(深圳)有限公司 文字识别方法、装置、电子设备及存储介质
CN112861648A (zh) * 2021-01-19 2021-05-28 平安科技(深圳)有限公司 文字识别方法、装置、电子设备及存储介质
CN112860992A (zh) * 2021-01-25 2021-05-28 西安博达软件股份有限公司 基于网站内容数据推荐的特征优化预训练方法
CN112836496B (zh) * 2021-01-25 2024-02-13 之江实验室 一种基于bert和前馈神经网络的文本纠错方法
CN112860992B (zh) * 2021-01-25 2023-03-24 西安博达软件股份有限公司 基于网站内容数据推荐的特征优化预训练方法
CN112836496A (zh) * 2021-01-25 2021-05-25 之江实验室 一种基于bert和前馈神经网络的文本纠错方法
CN112949318A (zh) * 2021-03-03 2021-06-11 电子科技大学 基于文本和用户表示学习的文本立场检测方法
CN112949318B (zh) * 2021-03-03 2022-03-25 电子科技大学 基于文本和用户表示学习的文本立场检测方法
CN113434667A (zh) * 2021-04-20 2021-09-24 国网浙江省电力有限公司杭州供电公司 基于配网自动化终端文本分类模型的文本分类方法
CN113434667B (zh) * 2021-04-20 2024-01-23 国网浙江省电力有限公司杭州供电公司 基于配网自动化终端文本分类模型的文本分类方法
CN113345574A (zh) * 2021-05-26 2021-09-03 复旦大学 基于bert语言模型与cnn模型的中医胃痛养生方案获取装置
CN113345574B (zh) * 2021-05-26 2022-03-22 复旦大学 基于bert语言模型与cnn模型的中医胃痛养生方案获取装置
CN113536804B (zh) * 2021-06-29 2022-05-03 北京理工大学 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法
CN113536804A (zh) * 2021-06-29 2021-10-22 北京理工大学 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法
CN113569558A (zh) * 2021-07-06 2021-10-29 上海交通大学 一种电力设备局部放电实体关系抽取方法及系统
CN113569558B (zh) * 2021-07-06 2023-09-26 上海交通大学 一种实体关系抽取方法及系统
CN113468877A (zh) * 2021-07-09 2021-10-01 浙江大学 语言模型的微调方法、装置、计算设备和存储介质
CN113537345A (zh) * 2021-07-15 2021-10-22 中国南方电网有限责任公司 一种通信网设备数据关联的方法及系统
CN113537345B (zh) * 2021-07-15 2023-01-24 中国南方电网有限责任公司 一种通信网设备数据关联的方法及系统
CN113609304A (zh) * 2021-07-20 2021-11-05 广州大学 一种实体匹配方法和装置
CN113609304B (zh) * 2021-07-20 2023-05-23 广州大学 一种实体匹配方法和装置
CN113743118A (zh) * 2021-07-22 2021-12-03 武汉工程大学 基于融合关系信息编码的法律文书中的实体关系抽取方法
CN113591459B (zh) * 2021-08-10 2023-09-15 平安银行股份有限公司 地址标准化处理方法、装置、电子设备及可读存储介质
CN113591459A (zh) * 2021-08-10 2021-11-02 平安银行股份有限公司 地址标准化处理方法、装置、电子设备及可读存储介质
CN113673219A (zh) * 2021-08-20 2021-11-19 合肥中科类脑智能技术有限公司 一种停电计划文本解析方法
CN113505190B (zh) * 2021-09-10 2021-12-17 南方电网数字电网研究院有限公司 地址信息修正方法、装置、计算机设备和存储介质
CN113505190A (zh) * 2021-09-10 2021-10-15 南方电网数字电网研究院有限公司 地址信息修正方法、装置、计算机设备和存储介质
CN113760778A (zh) * 2021-11-09 2021-12-07 浙江大学滨海产业技术研究院 一种基于词向量模型的微服务接口划分评价方法
CN114035098A (zh) * 2021-12-14 2022-02-11 北京航空航天大学 一种融合未来工况信息和历史状态信息的锂电池健康状态预测方法
CN114358014A (zh) * 2021-12-23 2022-04-15 佳源科技股份有限公司 基于自然语言的工单智能诊断方法、装置、设备及介质
CN113971407B (zh) * 2021-12-23 2022-03-18 深圳佑驾创新科技有限公司 语义特征提取方法及计算机可读存储介质
CN114358014B (zh) * 2021-12-23 2023-08-04 佳源科技股份有限公司 基于自然语言的工单智能诊断方法、装置、设备及介质
CN113971407A (zh) * 2021-12-23 2022-01-25 深圳佑驾创新科技有限公司 语义特征提取方法及计算机可读存储介质
CN114329472A (zh) * 2021-12-31 2022-04-12 淮阴工学院 基于双重嵌入与模型剪枝的bios恶意程序检测方法及装置
CN114049508B (zh) * 2022-01-12 2022-04-01 成都无糖信息技术有限公司 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
CN114049508A (zh) * 2022-01-12 2022-02-15 成都无糖信息技术有限公司 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
CN114386334A (zh) * 2022-01-19 2022-04-22 浙江大学 一种基于分布式水文径流模拟替代模型的径流滚动预报方法
CN114582443B (zh) * 2022-02-23 2023-08-18 西北大学 一种基于知识图谱的药物关系抽取方法
CN114582443A (zh) * 2022-02-23 2022-06-03 西北大学 一种基于知识图谱的药物关系抽取方法
CN114661968A (zh) * 2022-05-26 2022-06-24 卡奥斯工业智能研究院(青岛)有限公司 产品数据处理方法、装置及存储介质
CN114791886A (zh) * 2022-06-21 2022-07-26 纬创软件(武汉)有限公司 一种软件问题跟踪方法和系统
CN116758562A (zh) * 2023-08-22 2023-09-15 杭州实在智能科技有限公司 通用文本验证码识别方法及系统
CN116758562B (zh) * 2023-08-22 2023-12-08 杭州实在智能科技有限公司 通用文本验证码识别方法及系统
CN116913383A (zh) * 2023-09-13 2023-10-20 鲁东大学 一种基于多模态的t细胞受体序列分类方法
CN116913383B (zh) * 2023-09-13 2023-11-28 鲁东大学 一种基于多模态的t细胞受体序列分类方法
CN117371299A (zh) * 2023-12-08 2024-01-09 安徽大学 一种托卡马克新经典环向粘滞力矩的机器学习方法
CN117371299B (zh) * 2023-12-08 2024-02-27 安徽大学 一种托卡马克新经典环向粘滞力矩的机器学习方法
CN117875268A (zh) * 2024-03-13 2024-04-12 山东科技大学 一种基于分句编码的抽取式文本摘要生成方法

Also Published As

Publication number Publication date
JP2021532432A (ja) 2021-11-25
JP7041281B2 (ja) 2022-03-23
US20210012199A1 (en) 2021-01-14
CN110377686A (zh) 2019-10-25
US11941522B2 (en) 2024-03-26
CN110377686B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
WO2021000362A1 (zh) 一种基于深度神经网络模型的地址信息特征抽取方法
Fu et al. Core: Automatic molecule optimization using copy & refine strategy
WO2022057669A1 (zh) 基于结构化上下文信息的知识图谱预训练方法
CN112015868B (zh) 基于知识图谱补全的问答方法
CN113312411B (zh) 一种基于知识图谱和规则约束的装备故障原因诊断方法
CN111782961B (zh) 一种面向机器阅读理解的答案推荐方法
CN112069199B (zh) 一种基于中间语法树的多轮自然语言转sql方法
CN113779211A (zh) 一种基于自然语言实体关系的智能问答推理方法和系统
CN114020862A (zh) 一种面向煤矿安全规程的检索式智能问答系统及方法
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
Li et al. Dual CNN for relation extraction with knowledge-based attention and word embeddings
CN114969278A (zh) 一种基于知识增强图神经网络的文本问答模型
Cao et al. Relmkg: reasoning with pre-trained language models and knowledge graphs for complex question answering
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
Sharath et al. Question answering over knowledge base using language model embeddings
Aghaei et al. Question answering over knowledge graphs: A case study in tourism
CN111444316B (zh) 一种面向知识图谱问答的复合问句解析方法
KR102277787B1 (ko) 신경망 기반 자연어로부터 sql 질의 번역 시 사용되는 컬럼 및 테이블을 예측하는 방법
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
CN114239575B (zh) 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN117408247B (zh) 一种基于关系指针网络的智能制造三元组抽取方法
Cao et al. Predict, pretrained, select and answer: Interpretable and scalable complex question answering over knowledge bases
CN114996407B (zh) 基于包重构的远程监督关系抽取方法及系统
Varsha et al. Translating natural language sentences into database query

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020556939

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19935914

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19935914

Country of ref document: EP

Kind code of ref document: A1