WO2018028077A1 - 一种基于深度学习的中文语义分析的方法及装置 - Google Patents

一种基于深度学习的中文语义分析的方法及装置 Download PDF

Info

Publication number
WO2018028077A1
WO2018028077A1 PCT/CN2016/105977 CN2016105977W WO2018028077A1 WO 2018028077 A1 WO2018028077 A1 WO 2018028077A1 CN 2016105977 W CN2016105977 W CN 2016105977W WO 2018028077 A1 WO2018028077 A1 WO 2018028077A1
Authority
WO
WIPO (PCT)
Prior art keywords
chinese
chinese text
recognition
text
speech
Prior art date
Application number
PCT/CN2016/105977
Other languages
English (en)
French (fr)
Inventor
郑骁庆
陈军
吕永
尚国强
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Publication of WO2018028077A1 publication Critical patent/WO2018028077A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to the field of natural language processing technologies, and in particular, to a method and apparatus for Chinese semantic analysis based on deep learning.
  • Deep learning is a breakthrough in the recent research on artificial intelligence. It ended the situation that artificial intelligence failed to make breakthroughs for ten years and quickly affected the industry. Deep learning is different from a narrow artificial intelligence system (a task-oriented functional simulation) that can only perform specific tasks. As a general-purpose artificial intelligence technology, it can cope with various situations and problems, and has been obtained in the fields of image recognition and speech recognition. Extremely successful applications have also achieved results in the field of natural language processing (mainly in English).
  • the technical problem solved by the solution provided by the embodiment of the present invention is that the automated analysis of Chinese semantics is inaccurate.
  • a method for Chinese semantic analysis based on deep learning include:
  • the mobile terminal obtains the standardized Chinese text by normalizing the obtained Chinese text
  • the mobile terminal performs specified type vocabulary recognition and/or custom vocabulary recognition and/or Chinese naming recognition on the Chinese text of the specification, and uses the recognition result as a constraint condition;
  • the mobile terminal obtains the Chinese word segmentation and the part-of-speech tagging model according to the constraint condition and the deep learning, and performs Chinese word segmentation and part of speech analysis on the standardized Chinese text, and obtains the word segmentation and part of speech of the standardized Chinese text;
  • the mobile terminal performs Chinese semantic analysis on the standardized Chinese text by using the word segmentation, part of speech and/or naming recognition type of the Chinese text of the specification.
  • the mobile terminal performs specified type vocabulary recognition and/or custom vocabulary recognition and/or Chinese naming recognition on the standardized Chinese text, and the recognition result is included as a constraint condition:
  • the mobile terminal performs the specified type vocabulary recognition on the normal Chinese text by using the specified type vocabulary template, obtains the specified type vocabulary recognition result of the standardized Chinese text, and takes the obtained specified type vocabulary recognition result as the first constraint condition.
  • the mobile terminal performs specified type vocabulary recognition and/or custom vocabulary recognition and/or Chinese naming recognition on the standardized Chinese text, and the recognition result is included as a constraint condition:
  • the mobile terminal uses a custom dictionary to perform custom vocabulary recognition on the canonical Chinese text, obtains a customized vocabulary recognition result of the canonical Chinese text, and uses the obtained customized vocabulary recognition result as a second constraint condition.
  • the mobile terminal performs specified type vocabulary recognition and/or custom vocabulary recognition and/or Chinese naming recognition on the standardized Chinese text, and the recognition result is included as a constraint condition:
  • the mobile terminal uses the deep learning to obtain a Chinese naming recognition model to perform Chinese naming recognition on the Chinese text, obtain the Chinese naming recognition result of the Chinese text, and use the obtained Chinese naming recognition result as the third constraint.
  • the constraint condition includes at least one of a first constraint condition, a second constraint condition, and a third constraint condition, or a combination thereof.
  • the mobile terminal uses the word segmentation, part of speech, and/or naming recognition type of the Chinese text to perform Chinese semantic analysis on the standardized Chinese text, including:
  • the mobile terminal classifies the Chinese text of the specification according to the characters of the Chinese text and the Chinese sentence model based on the convolutional neural network with dynamic k-max pooling, and obtains the sentence classification of the Chinese text of the specification. result.
  • the mobile terminal uses the word segmentation, part of speech, and/or naming recognition type of the Chinese text to perform Chinese semantic analysis on the standardized Chinese text, including:
  • the mobile terminal determines a Chinese semantic role labeling model of a bidirectional LSTM (Long-Short Term Memory) according to the sentence classification result, and then according to the word segmentation, part of speech and/or naming type of the Chinese text, and the two-way
  • the Chinese semantic role labeling model of LSTM performs semantic role labeling for each participle and symbol of the Chinese text of the specification, and obtains the semantic role labeling result of the Chinese text of the specification.
  • the mobile terminal uses the word segmentation, part of speech, and/or naming recognition type of the Chinese text to perform Chinese semantic analysis on the standardized Chinese text, including:
  • the mobile terminal performs a structured processing on the Chinese text of the specification according to the semantic role labeling result and the event model of the Chinese text of the specification, and extracts key information of the Chinese text of the specification.
  • the key information of the Chinese text of the specification includes an event name, a key attribute, and an attribute value.
  • the normalization processing module is configured to obtain a standardized Chinese text by normalizing the obtained Chinese text
  • the identification module is configured to perform specified type vocabulary recognition and/or custom vocabulary recognition and/or Chinese naming recognition on the Chinese text of the specification, and use the recognition result as a constraint condition;
  • the analysis module is configured to obtain a Chinese word segmentation and a part-of-speech tagging model according to the constraint condition and using deep learning, perform Chinese word segmentation and part of speech analysis on the standardized Chinese text, obtain a word segmentation and part of speech of the standardized Chinese text, and use the normative Chinese text.
  • the normalization processing module, the identification module, and the analysis module may use a central processing unit (CPU), a digital signal processor (DSP), or a programmable logic array when performing processing.
  • CPU central processing unit
  • DSP digital signal processor
  • FPGA Field-Programmable Gate Array
  • the structured analysis result is output, and the structured analysis result is used to complete the event analysis, the information extraction and the sentiment analysis, etc., which require high-level semantic analysis. Supported tasks.
  • FIG. 1 is a flowchart of a method for Chinese semantic analysis based on deep learning according to an embodiment of the present invention
  • FIG. 2 is a schematic diagram of an apparatus for semantic analysis based on deep learning according to an embodiment of the present invention
  • FIG. 3 is a schematic block diagram of Chinese semantic analysis provided by an embodiment of the present invention.
  • FIG. 4 is a structural diagram of a Chinese sequence labeling network model according to an embodiment of the present invention.
  • FIG. 5 is a structural diagram of a convolutional neural network based on dynamic k-max pooling according to an embodiment of the present invention
  • FIG. 6 is a schematic diagram of semantic role labeling of a bidirectional LSTM according to an embodiment of the present invention.
  • FIG. 1 is a flowchart of a method for semantic analysis based on deep learning according to an embodiment of the present invention. As shown in FIG. 1 , the method includes:
  • Step S101 The mobile terminal obtains a standardized Chinese text by normalizing the obtained Chinese text.
  • Step S102 The mobile terminal performs specified type vocabulary recognition and/or custom vocabulary recognition and/or Chinese naming recognition on the standard Chinese text, and uses the recognition result as a constraint condition;
  • Step S103 The mobile terminal obtains a Chinese word segmentation and a part-of-speech tagging model according to the constraint condition and using deep learning, and performs Chinese word segmentation and part-of-speech analysis on the standardized Chinese text to obtain a word segmentation and part of speech of the standardized Chinese text;
  • Step S104 The mobile terminal performs Chinese semantic analysis on the standardized Chinese text by using the word segmentation, part of speech and/or naming recognition type of the Chinese text of the specification.
  • the mobile terminal performs specified type vocabulary recognition and/or custom vocabulary recognition and/or Chinese naming recognition on the standard Chinese text, and the recognition result is used as a constraint condition: the mobile terminal uses the specified type vocabulary template to standardize Chinese
  • the text performs vocabulary recognition of the specified type, obtains the vocabulary recognition result of the specified type of the Chinese text of the specification, and takes the obtained vocabulary recognition result of the specified type as the first constraint condition.
  • the mobile terminal performs specified type vocabulary recognition and/or custom vocabulary recognition and/or Chinese naming recognition on the standard Chinese text, and includes the recognition result as a constraint condition: the shifting
  • the mobile terminal uses the custom dictionary to perform custom vocabulary recognition on the Chinese text of the specification, obtains the customized vocabulary recognition result of the Chinese text of the specification, and takes the obtained custom vocabulary recognition result as the second constraint condition.
  • the mobile terminal performs the specified type vocabulary recognition and/or the custom vocabulary recognition and/or the Chinese naming recognition on the standard Chinese text, and the recognition result is used as a constraint condition: the mobile terminal uses the deep learning to obtain the Chinese naming recognition model.
  • Chinese naming and recognition of the Chinese text of the specification is obtained, and the Chinese naming recognition result of the Chinese text of the specification is obtained, and the obtained Chinese naming recognition result is taken as the third constraint condition.
  • the constraint condition includes at least one of a first constraint condition, a second constraint condition, and a third constraint condition, or a combination thereof.
  • the specified type vocabulary recognition and/or custom vocabulary recognition and/or Chinese naming recognition is a pre-separation and part-of-speech annotation, that is, the specified type vocabulary and/or custom vocabulary and/or Chinese naming identified in this step, under The word segmentation and part-of-speech tagging are no longer repeated in the participle and part-of-speech tagging steps, thus forming a constraint.
  • the mobile terminal uses the word segmentation, part of speech and/or naming recognition type of the Chinese text of the specification to perform Chinese semantic analysis on the standardized Chinese text, including: the mobile terminal according to the standard Chinese text characters and based on the band dynamics
  • the Chinese sentence model of the k-max pooled convolutional neural network classifies the Chinese text of the specification to obtain the sentence classification result of the Chinese text of the specification.
  • the mobile terminal uses the word segmentation, part of speech and/or naming recognition type of the Chinese text of the specification to perform Chinese semantic analysis on the standardized Chinese text, including: the mobile terminal determines the two-way long-term memory LSTM according to the sentence classification result.
  • the Chinese semantic role labeling model, and according to the word segmentation, part of speech and/or naming type of the Chinese text, and the Chinese semantic role labeling model of the two-way long-term memory LSTM, each word segmentation and symbol of the Chinese text of the specification is performed.
  • the semantic role labeling results in the semantic role labeling result of the Chinese text of the specification.
  • the mobile terminal uses the word segmentation, part of speech and/or naming recognition type of the Chinese text of the specification to perform Chinese semantic analysis on the standardized Chinese text, including: the mobile terminal labels the result according to the semantic role of the standard Chinese text and
  • the event model performs structured processing on the Chinese text of the specification to extract key information of the Chinese text of the specification.
  • the key information of the specification Chinese text includes an event name, a key attribute, and an attribute value.
  • FIG. 2 is a schematic diagram of an apparatus for semantic analysis based on deep learning according to an embodiment of the present invention.
  • the method includes: a normalization processing module 201 configured to perform normalization processing on the obtained Chinese text to obtain a specification.
  • the Chinese text is configured to perform specified type vocabulary recognition and/or custom vocabulary recognition and/or Chinese naming recognition on the specification Chinese text, and use the recognition result as a constraint condition;
  • the analysis module 203 is configured to be according to the constraint Conditions and deep learning to obtain Chinese word segmentation and part-of-speech tagging model, Chinese word segmentation and part of speech analysis of the Chinese text, get the Chinese word segmentation and part of speech, and use the Chinese word segmentation, part of speech and/or naming recognition Type, Chinese semantic analysis of the Chinese text of the specification.
  • the analysis module 203 includes: a sentence classification unit configured to perform a sentence on the Chinese text according to the Chinese text of the specification and the Chinese sentence model based on a convolutional neural network with dynamic k-max pooling Classification, the sentence classification result of the Chinese text of the specification is obtained.
  • the analysis module 203 further includes: a semantic role labeling unit configured to determine a Chinese semantic role labeling model of the two-way length-time memory LSTM according to the sentence classification result, according to the word segmentation, part of speech, and/or the name recognition type of the Chinese text. And the Chinese semantic role labeling model of the two-way long-term memory LSTM, the semantic character labeling of the single word, the word segment, the specified type vocabulary and the like in the Chinese text of the specification, and the semantic character labeling result of the standard Chinese text is obtained.
  • a semantic role labeling unit configured to determine a Chinese semantic role labeling model of the two-way length-time memory LSTM according to the sentence classification result, according to the word segmentation, part of speech, and/or the name recognition type of the Chinese text.
  • the analysis module 203 further includes: a structured processing unit configured to move the The terminal performs a structured processing on the Chinese text of the specification according to the semantic role labeling result and the event model of the Chinese text of the specification, and extracts key information of the Chinese text of the specification.
  • the key information of the specification Chinese text includes an event name, a key attribute, and an attribute value.
  • the event name can correspond to the sentence classification result.
  • the sentence classification model is divided into bank bills, flight trains, appointments, weather forecasts, and the like.
  • the result type of the sentence classification can be used as the event name.
  • the key attribute is the semantic role labeling result.
  • the bank billing text message it is marked as billing date, consumption amount, repayment date, repayment amount, etc.
  • the attribute value is marked as the specific value in the original text message corresponding to the above category, such as the specific date and specific Amount, etc.
  • FIG. 3 is a schematic diagram of a Chinese semantic analysis module according to an embodiment of the present invention.
  • the input Chinese sentences are semantically analyzed, and the structured analysis results are output, and the structured analysis is utilized.
  • tasks such as event analysis, information extraction, and sentiment analysis that require high-level semantic analysis are completed, including:
  • Text normalization normalize the input Chinese sentence, including: unified coding, traditional to simplified, full-width half-width, specified character conversion, non-standard term replacement (such as: replace the network term with a canonical representation).
  • Custom vocabulary recognition Use custom vocabulary to identify custom vocabulary, including: application domain vocabulary, idioms, food, location, work, equipment, person name, place name and institution name.
  • ⁇ Specified type vocabulary recognition by defining the email, URL, date, time, percentage, quantifier, currency, phone number, number, foreign language word template for the input statement containing the email address, URL, date, time, percentage, quantifier , currency, phone number, number, foreign words are recognized and replaced with the specified characters.
  • ⁇ Chinese naming recognition By preparing the corpus of Chinese naming recognition, the Chinese model is used to mark the network model, and the Chinese naming recognition model for Chinese naming recognition is trained, and the name, place name, and institution name in the input sentence are used. Identify, that is, identify the The name of the person, the name of the place, the name of the organization and the corresponding naming type (for example, "Person”, “Location”, “Organization” can be used respectively).
  • Chinese word segmentation and part-of-speech tagging the results of the specified type of vocabulary recognition and / or custom vocabulary recognition, and / or Chinese naming recognition as constraints, and preparation of joint Chinese word segmentation and part-of-speech tagging corpus, using the Chinese sequence shown in Figure 4
  • the network model is used to perform the Chinese word segmentation and part-of-speech tagging model for Chinese word segmentation and part-of-speech analysis.
  • the Chinese sentence segmentation and part of speech analysis are performed on the input sentence.
  • Sentence classification Before the semantic role labeling, the sentence semantics generated by the convolutional neural network with dynamic k-max pool shown in Fig. 5 are used to classify the sentences, and the input sentences that are not of interest are filtered. That is, using the sentence classification corpus including various types of balanced sentences and negative sample sentences (using Chinese sentences that are not of interest), the Chinese sentence classification model of the convolutional neural network with dynamic k-max pooling is trained, and the model is used to input sentences. Classify and filter input sentences that are not of interest to the application.
  • Semantic role labeling Determine the semantic annotation network model of bidirectional LSTM according to the sentence classification result (that is, different sentence classification categories adopt different analytical models), and then use the word segmentation, part of speech and/or naming type in the canonical text.
  • the semantic annotation network of the two-way LSTM is used to perform semantic role labeling on sentences. That is, according to the word segmentation, part of speech and/or naming type, the semantic role labeling corpus of the same sentence category is prepared, and the Chinese semantic role labeling model of the two-way LSTM is trained, and the semantic role labeling of the sentence is performed by the model.
  • Event analysis According to the semantic role labeling result, combined with the event template is encapsulated into a structured representation after semantic analysis, extracting the name, key attributes and attribute values of the event.
  • the format of the training corpus of the semantic role annotation is a vocabulary line in the order of the words in the sentence, and each row has 5 columns, which in turn represent the participle itself (email, web address, date, time, percentage, quantifier, currency, phone number). , numbers, foreign words, etc. are replaced with English labels, single words or punctuation marks are also treated as separate participles), semantic labels ("O" means nothing related to tasks), Part of speech tags, naming identification tags, and the original word form of the participle in the sentence. Each sentence is separated by a blank line.
  • the decoding result of the specified type vocabulary recognition and/or the custom vocabulary recognition is used as a constraint (for Chinese word segmentation and part-of-speech tagging)
  • the constraints can also increase the Chinese naming recognition result), including:
  • FIG. 4 is a structural diagram of a Chinese sequence annotation network model provided by an embodiment of the present invention, which can be used for Chinese naming recognition, Chinese word segmentation, and part-of-speech tagging (Note: the training corpus is different, the trained model data is different, and the constraint conditions are different).
  • the deep learning Chinese sequence annotation network model model receives a Chinese sentence as an input, and outputs a sequence labeling result in units of characters (including: Chinese characters, punctuation marks, and other characters in possible sentences).
  • the tag collection uses a word segmentation tag plus a tag that is extended by a specific task tag. Take the Chinese name recognition as an example. If the name tag is represented by "PER", the following sentence:
  • a character's label is generally associated with its surrounding characters, and thus uses a window model that takes this character and surrounding characters as input when estimating the likelihood that the current character belongs to a certain tag (see Figure 4). If the window size is set to 5, it means that this character and its two characters to the left and right are used as input windows. If the number of characters on the left and right is less than the size specified by the window, use a filler instead.
  • Each input character will be converted to a corresponding vector representation by looking up the word vector table.
  • the representation of each character can be randomly generated or pre-trained using an unsupervised method. These vectors are then stitched together to represent the feature representation of a particular window. After a linear network layer (intermediate hidden layer), the Sigmoid function is used for nonlinear transformation, and finally a linear layer is used to output a vector equal to the number of task labels. Each element of the vector represents the possibility of the corresponding label.
  • the network Given a Chinese sentence, the network outputs a matrix. Each element f ⁇ (t
  • the introduction matrix Aij represents the possibility of jumping from the label i to the label j (also included in the parameter set ⁇ ).
  • the Viterbi decoding algorithm can be used to obtain a label sequence with the highest score as the labeling result.
  • the training method is on the training set, and the probability that the correct label sequence of each sample occurs is the greatest:
  • (s, t) represents a sample in the training set.
  • the training uses the gradient descent method, and all parameters of the network are updated using the following formula:
  • represents the learning step size.
  • the Chinese sequence annotation network and learning algorithm based on deep learning are characterized by:
  • FIG. 5 is a structural diagram of a convolutional neural network based on dynamic k-max pooling according to an embodiment of the present invention. As shown in FIG. 5, a Chinese sentence is used as an input, and a semantic representation of a full sentence is generated by the network, and a prediction is performed according to the representation. The task-related category to which the sentence belongs.
  • the network first converts each character in the input sentence into a corresponding vector representation by looking up the word vector table.
  • the representation of each character can be randomly generated or pre-trained using an unsupervised method.
  • the sentences are transformed to form a feature matrix.
  • the windows slide sequentially from left to right on the feature matrix, resulting in a higher level feature representation of the same number of feature matrix columns.
  • Different dimensions use different convolution kernels to produce a feature map of the input feature matrix.
  • a set of different convolution kernels can be used simultaneously to generate multiple feature maps.
  • the k-max pooling method is used on each feature map to extract the k most significant features, that is, extracting the k largest eigenvalues in each dimension, but the order of these eigenvalues remains in the input feature map. order.
  • the feature transformation is performed using a hardTanh nonlinear function on the resulting matrix after k-max pooling.
  • the second step above can be superimposed on multiple layers, and the new layer is advanced on the result of the previous layer. Row.
  • the k-max of the last layer is fixed (the superparameter of the model), and the k value of each layer before is taken from the k value of the last layer and the value calculated by the formula (Hh/H) ⁇ L is passed up. The larger of the two is rounded.
  • the third step splicing all the eigenvalues obtained in the last layer to produce a semantic representation of the whole sentence. Based on the semantic representation, a linear layer and a Softmax layer are used to predict the type of the sentence.
  • the network output can be viewed as a probability distribution of different categories.
  • the training uses the gradient descent method.
  • the goal of network training is to increase the probability of correct prediction on the training set and reduce the probability of false prediction.
  • the Chinese sentence classification model based on convolutional neural network with dynamic k-max pooling is characterized by:
  • the network adopts two layers of convolution, wherein: the first layer window size is 5, the feature map number is 2, the second layer window size is 3, and the feature map number is 3.
  • the k-max pooling k of the last layer takes a value of 5.
  • FIG. 6 is a schematic diagram of semantic role labeling of a bidirectional LSTM according to an embodiment of the present invention.
  • different semantic role labeling models are used for different sentence classification results, and word segmentation, part of speech, and/or naming are used in semantic role labeling.
  • the input of each moment of the network is the current vocabulary, part of speech and/or naming recognition type (ie, the category in Chinese naming recognition, such as "Person”, “Location”, “Organization”
  • the spliced vector representation after the vector name, the place name, and the organization name respectively converted into vectors.
  • the input sentences are processed from left to right (forward) and from right to left (backward) using two LSTMs.
  • LSTM will output a vector representation, splicing the forward and backward LSTM output as a vector representation of the vocabulary (incorporating itself and its context information), using this as an input, using a linear layer To predict the label to which the word belongs.
  • the dependency between the predicted vocabulary tags can be further utilized. That is, given a Chinese sentence, the network outputs a matrix, and each element f ⁇ (t
  • the introduction matrix Aij represents the possibility of jumping from the label i to the label j (also included in the parameter set ⁇ ).
  • the Viterbi decoding algorithm can be used to obtain a label sequence with the highest score as the labeling result.
  • the training method is on the training set, and the correct semantic annotation sequence corresponding to each sample is required to have the highest probability of occurrence. If the current network parameters produce an erroneous prediction, the gradient descent method is used to calculate the gradient of each parameter for the objective function, and the parameters are updated accordingly.
  • Each moment of the LSTM network (corresponding to each vocabulary of the input sentence) is input as a splicing of the vector corresponding to the word segmentation, part of speech, and/or the naming type.
  • the bidirectional LSTM is used to generate a feature representation of each Chinese vocabulary.
  • the model adopts the following key parameters: the lexical feature vector dimension is 30, the part-of-speech feature vector dimension is 10, the type feature vector dimension is 10, the number of blocks per LSTM is 50, and each block contains 1 Cell unit.
  • the mobile phone received a text message "Your account number 5714 completed an existing transaction at 11:15 on July 16 with an amount of 1300.00 yuan and a balance of 3456.03 yuan. [Agricultural Bank of China]”.
  • the naming recognition unit or the custom dictionary (usually the specific vocabulary that the naming recognition unit cannot recognize can be added to the custom dictionary, for example, the bank class keyword is pre-added in the custom dictionary), it can also recognize:
  • the two numbers in the first column above are the starting position of the specified vocabulary in the original text (the first character is counted from 0).
  • the above identified word segmentation constitutes the next step constraint (that is, these words are no longer re-word segmentation and part-of-speech tagging), and the constraint condition can be represented by a string indicating the word segmentation and part of speech of each character, such as "
  • each word in the text can be distinguished ("/" is the original word, followed by the part of speech), such as:
  • Another example is the participle "5714”, whose part of speech is a number, represented by "D”, the participle "transaction”, and part of speech is a verb, denoted by "V”.
  • the normalized text is separated by the word segmentation (single word, punctuation is also used as a separate word segment structure), and the participle is marked in the text.
  • the vocabulary of the specified type can be uniformly represented, that is, replaced with a label symbol, so that:
  • words that are of interest to the user can be extracted, such as text notification to the bank, and key information such as date, time, account number, deposit and withdrawal amount, balance and bank name can be extracted.
  • key information is the semantic role label, marked after the corresponding word, separated by "/”. "/" is followed by "O", that is, no need to extract.
  • the Chinese sequence labeling network based on deep learning and Learning algorithm
  • Chinese sentence classification model based on convolutional neural network with dynamic k-max pooling
  • Chinese semantic role labeling model with bidirectional LSTM with transition probability
  • integration and integration of these key technologies Using the developed system, it can be deployed on a mobile computing platform with relatively limited computing resources such as mobile phones. It can complete complex Chinese semantic analysis tasks without additional computing resources and equipment, and can greatly improve the response speed of related applications. customer satisfaction.
  • the embodiment of the present invention outputs the structured analysis result after the semantic analysis of the input Chinese sentence, and uses the structured analysis result to complete tasks such as event analysis, information extraction and sentiment analysis that require high-level semantic analysis support.

Abstract

一种基于深度学习的中文语义分析的方法及装置,涉及自然语言处理技术领域,其方法包括:移动终端通过对所获取的中文文本进行规范化处理,得到规范中文文本(S101);移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件(S101);移动终端根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性(S103);移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析(S104)。

Description

一种基于深度学习的中文语义分析的方法及装置 技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于深度学习的中文语义分析的方法及装置。
背景技术
中文自然语言理解目前已经取得长足进步,特别是在中文分词和词性分析方面产生了大量的研究成果。虽然较英语和日语而言,中文自动化分析技术仍然比较落后,但是之前的研究积累使得研发能够进行高层次语义分析和理解的系统,并且将其应用于实际成为可能。运用语义分析技术的系统将极大地提高系统的智能水平和应对能力。语义分析技术是文本信息分析与处理的关键和难点,也是信息抽取、用户意图分析、信息融合、问题回答、智能推理等基础。
另一方面,深度学习是近期人工智能研究取得突破性的进展,它结束了人工智能长达十年未能有突破性进展的局面,并迅速在工业界产生影响。深度学习有别于仅可以完成特定任务的狭隘的人工智能系统(面向特定任务的功能模拟),作为通用的人工智能技术,可以应对各种情况和问题,已在图像识别、语音识别等领域得到极其成功的应用,在自然语言处理领域(主要是英文)也取得成效。
发明内容
根据本发明实施例提供的方案解决的技术问题是中文语义的自动化分析不准确。
根据本发明实施例提供的一种基于深度学习的中文语义分析的方法, 包括:
移动终端通过对所获取的中文文本进行规范化处理,得到规范中文文本;
移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;
移动终端根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性;
移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
在本发明实施例一实施方式中,所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:
所述移动终端利用指定类型词汇模板对规范中文文本进行指定类型词汇识别,得到所述规范中文文本的指定类型词汇识别结果,并将得到的指定类型词汇识别结果作为第一约束条件。
在本发明实施例一实施方式中,所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:
所述移动终端利用自定义词典对规范中文文本进行自定义词汇识别,得到所述规范中文文本的自定义词汇识别结果,并将得到的自定义词汇识别结果作为第二约束条件。
在本发明实施例一实施方式中,所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:
所述移动终端利用深度学习得到中文命名识别模型对规范中文文本进行中文命名识别,得到所述规范中文文本的中文命名识别结果,并将所得到的中文命名识别结果作为第三约束条件。
在本发明实施例一实施方式中,所述约束条件包括第一约束条件、第二约束条件以及第三约束条件中的至少一种或其组合。
在本发明实施例一实施方式中,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:
所述移动终端根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型,对所述规范中文文本进行句子分类,得到所述规范中文文本的句子分类结果。
在本发明实施例一实施方式中,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:
所述移动终端根据句子分类结果确定双向LSTM(Long-Short Term Memory,长短时记忆)的中文语义角色标注模型,再根据所述规范中文文本的分词、词性和/或命名类型,以及所述双向LSTM的中文语义角色标注模型,对所述规范中文文本的每个分词和符号进行语义角色标注,得到所述规范中文文本的语义角色标注结果。
在本发明实施例一实施方式中,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:
所述移动终端根据所述规范中文文本的语义角色标注结果和事件模型,对所述规范中文文本进行结构化处理,提取出所述规范中文文本的关键信息。
在本发明实施例一实施方式中,所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。
根据本发明实施例提供的一种基于深度学习的中文语义分析的装置,包括:
规范化处理模块,配置为通过对所获取的中文文本进行规范化处理,得到规范中文文本;
识别模块,配置为对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;
分析模块,配置为根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性,并利用所述规范中文文本的分词和词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
所述规范化处理模块、所述识别模块、所述分析模块在执行处理时,可以采用中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital Singnal Processor)或可编程逻辑阵列(FPGA,Field-Programmable Gate Array)实现。
根据本发明实施例提供的方案,对所输入的中文句子,经过语义分析后,输出结构化的分析结果,并利用结构化的分析结果,完成事件分析、信息抽取和情感分析等需要高层语义分析支持的任务。
附图说明
图1是本发明实施例提供的一种基于深度学习的中文语义分析的方法流程图;
图2是本发明实施例提供的一种基于深度学习的中文语义分析的装置示意图;
图3是本发明实施例提供的中文语义分析的模块示意图;
图4是本发明实施例提供的中文序列标注网络模型结构图;
图5是本发明实施例提供的基于带动态k-max池化的卷积神经网络结构图;
图6是本发明实施例提供的双向LSTM的语义角色标注示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1是本发明实施例提供的一种基于深度学习的中文语义分析的方法流程图,如图1所示,包括:
步骤S101:移动终端通过对所获取的中文文本进行规范化处理,得到规范中文文本;
步骤S102:移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;
步骤S103:移动终端根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性;
步骤S104:移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
其中,所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:所述移动终端利用指定类型词汇模板对规范中文文本进行指定类型词汇识别,得到所述规范中文文本的指定类型词汇识别结果,并将得到的指定类型词汇识别结果作为第一约束条件。
其中,所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:所述移 动终端利用自定义词典对规范中文文本进行自定义词汇识别,得到所述规范中文文本的自定义词汇识别结果,并将得到的自定义词汇识别结果作为第二约束条件。
其中,所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:所述移动终端利用深度学习得到中文命名识别模型对规范中文文本进行中文命名识别,得到所述规范中文文本的中文命名识别结果,并将所得到的中文命名识别结果作为第三约束条件。
其中,所述约束条件包括第一约束条件、第二约束条件以及第三约束条件中的至少一种或其组合。
其中,指定类型词汇识别和/或自定义词汇识别和/或中文命名识别是一种预分词和词性标注,即这个步骤识别出的指定类型词汇和/或自定义词汇和/或中文命名,在下个分词和词性标注步骤中不再重新进行分词和词性标注,因此就构成了一种约束条件。
其中,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:所述移动终端根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型,对所述规范中文文本进行句子分类,得到所述规范中文文本的句子分类结果。
其中,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:所述移动终端根据所述句子分类结果确定双向长短时记忆LSTM的中文语义角色标注模型,再根据规范中文文本的分词、词性和/或命名类型,以及所述双向长短时记忆LSTM的中文语义角色标注模型,对所述规范中文文本的每个分词和符号进行语义角色标注,得到所述规范中文文本的语义角色标注结果。
其中,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:所述移动终端根据所述规范中文文本的语义角色标注结果和事件模型,对所述规范中文文本进行结构化处理,提取出所述规范中文文本的关键信息。具体地说,所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。
图2是本发明实施例提供的一种基于深度学习的中文语义分析的装置示意图,如图2所示,包括:规范化处理模块201,配置为通过对所获取的中文文本进行规范化处理,得到规范中文文本;识别模块202,配置为对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;分析模块203,配置为根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性,并利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
其中,所述分析模块203包括:句子分类单元,配置为根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型,对所述规范中文文本进行句子分类,得到所述规范中文文本的句子分类结果。
其中,所述分析模块203还包括:语义角色标注单元,配置为根据所述句子分类结果确定双向长短时记忆LSTM的中文语义角色标注模型,根据规范中文文本的分词、词性和/或命名识别类型,以及所述双向长短时记忆LSTM的中文语义角色标注模型,对所述规范中文文本中的单字、分词、指定类型词汇等元素进行语义角色标注,得到所述规范中文文本的语义角色标注结果。
其中,所述分析模块203还包括:结构化处理单元,配置为所述移动 终端根据所述规范中文文本的语义角色标注结果和事件模型,对所述规范中文文本进行结构化处理,提取出所述规范中文文本的关键信息。具体地说,所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。其中,事件名称可对应为句子分类结果。比如对终端接收的短信文本来说,句子分类模型分为银行账单、航班火车、约会、天气预报及其他等。那么可把句子分类的结果类型作为事件名称。关键属性即语义角色标注结果。比如在银行账单短信中,标注为账单日、消费金额、还款日期、还款金额等几种类别,属性值即标注为上述类别所对应的原始短信文本中的具体值,如具体日期、具体金额等。
图3是本发明实施例提供的中文语义分析的模块示意图,如图3所示,利用深度学习技术对于所输入的中文句子经过语义分析后,输出结构化的分析结果,并利用结构化的分析结果,完成事件分析、信息抽取以及情感分析等需要高层语义分析支持的任务,具体包括:
·文本规范化处理:对输入中文语句进行规范化处理,包括:统一编码、繁体转简体、全角转半角、指定字符转换、不规范用语替换(如:将网络用语替换成规范表示)。
·自定义词汇识别:利用自定义词典对自定义的词汇进行识别,包括:应用领域词汇、成语、食物、地点、作品、设备、人名、地名和机构名。
·指定类型词汇识别:通过定义识别电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词的模板对输入语句包含的电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词进行识别,并且用指定的字符进行替换。
·中文命名识别:通过准备中文命名识别的语料,采用图4所示的中文序列标注网络模型,并且训练用于进行中文命名识别的中文命名识别模型,对输入语句中的人名、地名、机构名进行识别,即识别出句子中的具 体人名、地名、机构名并同时保存对应的命名类型(比如可用“Person”、“Location”、“Organization”分别表示)。
·中文分词和词性标注:以指定类型词汇识别和/或自定义词汇识别、和/或中文命名识别的结果作为约束,并准备联合中文分词和词性标注语料,采用图4所示的中文序列标注网络模型,训练用于进行中文分词和词性分析联合注标的中文分词和词性标注模型,对输入语句进行联合中文分词和词性分析。
·句子分类:在进行语义角色标注之前,采用所图5所示的带动态k-max池化的卷积神经网络所产生的句子语义表示对句子进行分类,同时过滤应用不感兴趣的输入句子。即采用包括各类型平衡的句子和负样本句子(应用不感兴趣的中文句子)的句子分类语料,训练带动态k-max池化的卷积神经网络的中文句子分类模型,以此模型对输入句子进行分类,同时过滤应用不感兴趣的输入句子。
·语义角色标注:根据句子分类结果确定双向LSTM的语义标注网络模型(即不同的句子分类类别采用不同的解析模型),再对规范文本中的分词、词性和/或命名类型采用所图6所示的双向LSTM的语义标注网络对句子进行语义角色标注。即根据分词、词性和/或命名类型,准备同一个句子类别的语义角色标注语料,并且训练双向LSTM的中文语义角色标注模型,以此模型对句子进行语义角色标注。
·事件分析:根据语义角色标注结果,结合事件模板封装成语义分析后的结构化表示,提取事件的名称、关键属性和属性值。
其中,语义角色标注的训练语料的格式为句子中按词的顺序一个词汇一行,每行共5列,依次分别表示分词本身(电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词等用英文标签替换,单字或标点符号等也当成独立的分词)、语义标签(“O”表示与任务无关类)、 词性标签、命名识别标签、分词在句子中的原词形式。每一句样本之间由一空行隔开。
其中,在进行中文分词和词性标注、中文命名识别等基于深度学习的序列标注任务时,将指定类型词汇识别和/或自定义词汇识别的结果作为约束进行解码算法(进行中文分词和词性标注时的约束条件还可以增加中文命名识别结果),包括:
(1)通过模板预先对电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词等类型进行识别。
(2)支持对包括领域词汇、成语、食物、地点、作品、设备、人名、地名和机构名等词汇进行自定义。
(3)结合深度学习网络预测输出,将指定类型词汇识别和/或自定义词汇识别的结果作为约束进行维特比解码的算法。
图4是本发明实施例提供的中文序列标注网络模型结构图,可以用于中文命名识别、中文分词及词性标注(注:训练语料不同,训练出的模型数据不同,约束条件也不同)。如图4所示,深度学习的中文序列标注网络模型模型接收一个中文句子作为输入,输出以字符(包括:汉字、标点符号和其它可能出现的句子中的字符)为单位的序列标注结果。标签集合采用分词标签加特定任务标签扩展后的标签。以中文命名识别为例,如果以“PER”表示人名标签,则以下句子:
“诸葛亮是刘备军事集团的军师。”
所相应的标注结果为:
“B_PER I_PER E_PER O B_PER E_PER O O O O O O O O”。
其中:“B”表示词汇的开始字符,“I”表示词汇的中间字符,“E”表示词汇的结束字符,“O”表示与任务无关的字符。另外还有“S”表示能够单独成词的字符(如单字或标点符号)。
一个字符的标签一般与其周围字符相关,因而采用窗口模型,即在估计当前字符属于某个标签的可能性时,将这个字符以及周围的字符作为输入(见图4所示)。如果窗口大小设置成5,则表示将这个字符及其左边和右边各两个字符作为输入窗口。如果左边和右边的字符数量不足于窗口规定的大小,则使用填充符代替。
每一个输入的字符将通过查找字向量表的方式转换成相应的向量表示。每一个字符的表示可以随机生成或者采用无监督的方法进行预训练。之后将这些向量进行拼接,表示某一个窗口的特征表示。经过一个线性网络层后(中间隐层),使用Sigmoid函数进行非线性转换,最后再使用一个线性层,输出与任务标签数量相等的向量,向量每一元素表示对应标签的可能性。
给定一个中文句子,网络会输出一个矩阵,矩阵中的每一个元素fθ(t|i)表示句子中第i个字符属于标签t的可能性的估计,其中θ表示网络的参数。在序列标注任务中,由于前后标签之间有很强的依赖关系,引入矩阵Aij表示从标签i跳转到标签j的可能性(也包含在参数集合θ内)。给定一个含有n个字符的句子s[1:n],可以为某个等长的标签序列t[1:n]进行估分:
Figure PCTCN2016105977-appb-000001
在参数给定的情况下,可以采用维特比解码算法得到一个分值最高的标签序列作为标注结果。
训练的方法是在训练集上,要求每一个样本的正确标注序列发生的概率最大:
Figure PCTCN2016105977-appb-000002
其中:(s,t)表示训练集中的一个样本。训练采用梯度下降法,网络所有参数使用以下公式进行更新:
Figure PCTCN2016105977-appb-000003
其中:λ表示学习步长。
其中,基于深度学习的中文序列标注网络和学习算法的特征在于:
(1)对于输入的中文语句进行了必要的预处理,包括:统一编码、繁体转简体、全角转半角、指定字符转换、不规范用语替换、将识别到的电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词进行识别统一转换成指定字符。
(2)使用维特比解码时,将自定义词汇识别、指定类型词汇识别和中文命名识别的结果作为约束。
(3)使用字向量100维、窗口大小为3或5、中间隐层神经元数量300的网络配置(具体参数依赖语料样本集大小)。
图5是本发明实施例提供的基于带动态k-max池化的卷积神经网络结构图,如图5所示,以中文句子为输入,由网络产生全句的语义表示,根据该表示预测句子所属的与任务相关的类别。
网络首先将输入句子中每个字符通过查找字向量表的方式转换成相应的向量表示。每一个字符的表示可以随机生成或者采用无监督的方法进行预训练。句子经转换后形成一个特征矩阵。第二步:在特征矩阵的每一维度上,根据设定的窗口大小,采用卷积的方法将窗口特征输入转换成新的特征。窗口在特征矩阵上从左至右依次滑动,产生与特征矩阵列数相同的更高一层的特征表示。不同维度采用不同的卷积核,从而产生输入特征矩阵的一个特征地图。可以同时使用一组不同的卷积核来产生多个特征地图。每一个特征地图上采用k-max池化的方法采出k个最为显著的特征,即在每一维度上提取k个最大的特征值,但这些特征值的顺序保持其在输入特征地图中的顺序。在k-max池化后的结果矩阵上使用hardTanh非线性函数进行特征转换。上述第二步可以叠加多层,新的一层在上一层的结果上进 行。最后一层的k-max池化的k值固定(模型的超参数),而之前每一层的k值取最后一层的k值和公式(H-h/H)×L计算得到的值经过向上取整后两者中的较大值。第三步将最后一层获得的所有特征值进行拼接,来产生全句的语义表示。在语义表示的基础上,通过一个线性层和Softmax层来对句子所属类型进行预测。
由于使用了Softmax层,网络输出可以看成不同类别的概率分布。训练采用梯度下降法,网络训练的目标是在训练集上增大正确预测的概率,同时降低错误预测的概率。
其中,基于带动态k-max池化的卷积神经网络的中文句子分类模型的特征在于:
(1)对于输入的中文语句进行了必要的预处理,包括:统一编码、繁体转简体、全角转半角、指定字符转换、不规范用语替换、将识别到的电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词进行识别统一转换成指定字符。
(2)以字符(包括:汉字、标点和其它可能出现的句子中的字符)级别作为输入,非常适合于中文的情况,避免因中文分词的错误扩展到句子分类任务。
(3)使用单维度的卷积,并且卷积层输出的特征地图的列数与输入特征矩阵列数相同,用于增加网络处理的速度。
(4)网络采用两层的卷积,其中:第一层窗口大小为5、特征地图数量为2,第二层窗口大小为3、特征地图数量为3。最后一层的k-max池化的k取值为5。
图6是本发明实施例提供的双向LSTM的语义角色标注示意图,如图6所示,对不同的句子分类结果采用不同的语义角色标注模型,在语义角色标注时以分词、词性和/或命名识别类型,经整理后作为输入,使用句子类 别所关联的语义标签集合,对句子以分词为单位进行语义角色标注。
网络的每个时刻(对应输入句子的每一个词汇)的输入为当前词汇、词性和/或命名识别类型(即在中文命名识别时的类别,如用“Person”、“Location”、“Organization”分别表示的人名、地名、机构名)转换成向量后的拼接向量表示。使用两个LSTM分别从左至右(前向)和从右至左(后向)处理输入句子。对于每一个词汇,LSTM会输出一个向量表示,拼接前向和后向LSTM所产生的输出作为词汇的向量表示(融合了本身及其左右的上下文信息),以此表示作为输入,使用一个线性层来预测词汇所属的标签。
在双向LSTM模型基础上还可以进一步利用所预测词汇标签之间的依赖关系,即带转移概率的双向LSTM。即给定一个中文句子,网络会输出一个矩阵,矩阵中的每一个元素fθ(t|i)表示句子中第i个词汇属于标签t的可能性的估计,其中θ表示网络的参数。在语义标注任务中,由于前后标签之间也有一定的依赖关系,引入矩阵Aij表示从标签i跳转到标签j的可能性(也包含在参数集合θ内)。给定含有n个词汇的句子s[1:n],可以为某个等长的标签序列t[1:n]进行估分:
在网络参数给定的情况下,可以采用维特比解码算法得到一个分值最高的标签序列作为标注结果。训练的方法是在训练集上,要求每一个样本所对应的正确语义标注序列发生的概率最大。若当前网络参数产生错误预测时,使用梯度下降法计算各参数对于目标函数的梯度,据此更新参数。
双向LSTM的中文语义角色标注模型的特征在于:
(1)LSTM网络的每一时刻(对应输入句子的每一个词汇)以分词、词性和/或命名类型所对应向量的拼接作为输入。
(2)对于输入的中文语句进行了必要的预处理,包括:统一编码、繁体 转简体、全角转半角、指定字符转换、不规范用语替换、将识别到的电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词进行识别统一转换成指定字符。
(3)采用双向LSTM来产生每一个中文词汇的特征表示。
(4)模型采用如下关键参数:词汇特征向量维度为30、词性特征向量维度为10、类型特征向量维度为10,每个LSTM的Block数量为50,每个Block包含1个Cell单元。
(5)对于带转移概率的双向LSTM,同时引入语义标签之间的转移概率,然后采用维特比解码来进行中文句子的语义角色标注。
下面以具体实施例来说明本发明实施例的具体内容:
比如手机收到一条短信“您尾号5714的账户于07月16日11时15分完成一笔现存交易,金额为1300.00元,余额3456.03元。[中国农业银行]”。
首先对原始文本进行规范处理,比如有的短信中“[”写成“【”,这就要求进行规范化,全角半角,各种符号的不同形式,统一后便于后续处理。
再对指定类型的词汇进行识别,主要采用正则表达式的方式在文本字符串中搜索识别,这样就能识别出:
3-6:DIGIT 5714
11-16:DATE 07月16日
17-22:TIME 11时15分
35-42:CURRENCY 1300.00元
46-53:CURRENCY 3456.03元
同时还能识别出文本中标点符号“,,。[]”的位置。
根据命名识别单元或自定义词典(通常命名识别单元不能识别出的特定词汇可以添加到自定义词典中,比如在自定义词典中预先添加了银行类的关键词)还能识别出:
56-61:BANK中国农业银行
注:上述第一列的两个数字是指定词汇在原始文本中的起始位置(首字符从0计数)。
那么经过预处理,上述已经识别出的分词就构成下一步的约束(即这些词汇不再被重新分词和词性标注),约束条件可用一个字符串表示,表示每一个字符的分词及词性,比如“
O O O B_D I_D I_D E_D O O O O B_NT I_NT I_NT I_NT I_NT E_NT B_NT I_NT I_NT I_NT I_NT E_NT O O O O O O O O S_PU O O O B_D I_D I_D I_D I_D I_D I_D E_D S_PU O O B_D I_D I_D I_D I_D I_D I_D E_D S_PU S_PU B_NR I_NR I_NR I_NR I_NR E_NR S_PU”
上述“O”表示其他字符,在下一个步骤进行分词和词性识别。诸如“B_D”表示一个数字词的开始,“I_D”表示数字词的中间,“E_D”表示数字词的结尾。下划线“_”前面表示字符在词中的位置,后面表示词性,这就是进行联合分词和词性标注。“B”、“I”、“E”分别表示字符在分词中的开始、中间、结尾处。“S”符号表示单独的字词,例如标点符号就用“S_PU”表示。“NT”表示时间名词,“NR”表示指定名词,还有诸如其他动词、形容词等等各种词性可以预先规定好。
经过分词和词性标注后,就能将文本中每个字词分辨开来(“/”前是原始字词,后面表示词性),如:
“您/PN尾号/NN 5714/D的/U账户/NN于/P 07月16日/NT 11时15分/NT完成/V一/D笔/M现存/V交易/V,/PU金额/NN为/V 1300.00元/D,/PU余额/NN 3456.03元/D。/PU[/PU中国农业银行/NR]/PU”。
上述例子中,比如分词“尾号”,其词性是普通名词,用“NN”表示。又如分词“5714”,其词性是数字,用“D”表示,分词“交易”,词性是动词,用“V”表示。分词“[”,其词性是标点符号,以“PU”表示。以此类推,把规范化的文本按照分词为单元切分开来(单字、标点符号也作为单独的分词结构),并且标记出该分词在文本中词性。
进行语义分析时,指定类型的词汇可以统一表示,即用一个标签符号替换,这样就有:
“您/PN尾号/NN DIGIT/D的/U账户/NN于/P DATE/NT TIME/NT完成/V一/D笔/M现存/V交易/V,/PU金额/NN为/V CURRENCY/D,/PU余额/NN CURRENCY/D。/PU[/PU BANK/NR]/PU”
根据分词、词性和/或命名识别类型通过语义分析,就可以抽取出用户感兴趣的词,比如对银行通知短信,可以抽取日期、时间、帐号、出入金额、余额及银行名称等关键信息,这些关键信息即语义角色标注,标记在对应词后面,用“/”隔开。“/”后面为“O”即不需抽取的内容。
本例的语义分析结果:“您/O尾号/O 5714/ACCOUNT的/O账户/O于/O 07月16日/DATE 11时15分/TIME完成/O一/O笔/O现存/O交易/O,/O金额/O为/O 1300.00元/INCOME,/O余额/O 3456.03元/BALANCE。/O[/O中国农业银行/BANK]/O”。
其中“ACCOUNT”,“DATE”,“TIME”,“INCOME”,“BALANCE”,“BANK”就是语义角色标签并标注在对应的分词上。
最终,根据抽取的关键信息,在界面或应用中进行提示、交互等等。比如,收到上文的短信,可以提示用户:
事件:入账
账号:5714
日期:07月16日
时间:11时15分
入账:1300.00元
余额:3456.03元
银行:中国农业银行
根据本发明实施例提供的方案,基于深度学习的中文序列标注网络和 学习算法、基于带动态k-max池化的卷积神经网络的中文句子分类模型、带转移概率的双向LSTM的中文语义角色标注模型,以及这些关键技术的整合和集成方式。使用所开发的系统,可以部署在手机等计算资源相对有限的移动计算平台上,不需要借助额外的计算资源和设备就能够完成复杂的中文语义分析任务,能够较大地提高相关应用的响应速度和用户满意度。
尽管上文对本发明进行了详细说明,但是本发明不限于此,本技术领域技术人员可以根据本发明的原理进行各种修改。因此,凡按照本发明原理所作的修改,都应当理解为落入本发明的保护范围。
工业实用性
本发明实施例是对所输入的中文句子,经过语义分析后,输出结构化的分析结果,并利用结构化的分析结果,完成事件分析、信息抽取和情感分析等需要高层语义分析支持的任务。

Claims (18)

  1. 一种基于深度学习的中文语义分析的方法,包括:
    移动终端通过对所获取的中文文本进行规范化处理,得到规范中文文本;
    移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;
    移动终端根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性;
    移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
  2. 根据权利要求1所述的方法,其中,所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:
    所述移动终端利用指定类型词汇模板对规范中文文本进行指定类型词汇识别,得到所述规范中文文本的指定类型词汇识别结果,并将得到的指定类型词汇识别结果作为第一约束条件。
  3. 根据权利要求1所述的方法,其中,所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:
    所述移动终端利用自定义词典对规范中文文本进行自定义词汇识别,得到所述规范中文文本的自定义词汇识别结果,并将得到的自定义词汇识别结果作为第二约束条件。
  4. 根据权利要求1所述的方法,其中,所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别 结果作为约束条件包括:
    所述移动终端利用深度学习得到中文命名识别模型对规范中文文本进行中文命名识别,得到所述规范中文文本的中文命名识别结果,并将所得到的中文命名识别结果作为第三约束条件。
  5. 根据权利要求2-4任一所述的方法,其中,所述约束条件包括第一约束条件、第二约束条件以及第三约束条件中的至少一种或其组合。
  6. 根据权利要求1-4任一所述的方法,其中,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:
    所述移动终端根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型,对所述规范中文文本进行句子分类,得到所述规范中文文本的句子分类结果。
  7. 根据权利要求6所述的方法,其中,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:
    所述移动终端根据句子分类结果确定双向长短时记忆LSTM的中文语义角色标注模型,再根据所述规范中文文本的分词、词性和/或命名识别类型以及所述双向长短时记忆LSTM的中文语义角色标注模型,对所述规范中文文本的每个分词和符号进行语义角色标注,得到所述规范中文文本的语义角色标注结果。
  8. 根据权利要求7所述的方法,其中,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:
    所述移动终端根据所述规范中文文本的语义角色标注结果和事件模型,对所述规范中文文本进行结构化处理,提取出所述规范中文文本的关 键信息。
  9. 根据权利要求8所述的方法,其中,所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。
  10. 一种基于深度学习的中文语义分析的装置,包括:
    规范化处理模块,配置为通过对所获取的中文文本进行规范化处理,得到规范中文文本;
    识别模块,配置为对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;
    分析模块,配置为根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性,并利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
  11. 根据权利要求10所述的装置,其中,所述识别模块,进一步用于:
    利用指定类型词汇模板对规范中文文本进行指定类型词汇识别,得到所述规范中文文本的指定类型词汇识别结果,并将得到的指定类型词汇识别结果作为第一约束条件。
  12. 根据权利要求10所述的装置,其中,所述识别模块,进一步用于:
    利用自定义词典对规范中文文本进行自定义词汇识别,得到所述规范中文文本的自定义词汇识别结果,并将得到的自定义词汇识别结果作为第二约束条件。
  13. 根据权利要求10所述的装置,其中,所述识别模块,进一步用于:
    利用深度学习得到中文命名识别模型对规范中文文本进行中文命名识别,得到所述规范中文文本的中文命名识别结果,并将所得到的中文命名识别结果作为第三约束条件。
  14. 根据权利要求11-13任一所述的装置,其中,所述约束条件包括第 一约束条件、第二约束条件以及第三约束条件中的至少一种或其组合。
  15. 根据权利要求11-13任一所述的装置,其中,所述分析模块,进一步用于:
    根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型,对所述规范中文文本进行句子分类,得到所述规范中文文本的句子分类结果。
  16. 根据权利要求15所述的装置,其中,所述分析模块,进一步用于:
    根据句子分类结果确定双向长短时记忆LSTM的中文语义角色标注模型,再根据所述规范中文文本的分词、词性和/或命名识别类型以及所述双向长短时记忆LSTM的中文语义角色标注模型,对所述规范中文文本的每个分词和符号进行语义角色标注,得到所述规范中文文本的语义角色标注结果。
  17. 根据权利要求16所述的装置,其中,所述分析模块,进一步用于:
    根据所述规范中文文本的语义角色标注结果和事件模型,对所述规范中文文本进行结构化处理,提取出所述规范中文文本的关键信息。
  18. 根据权利要求17所述的装置,其中,所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。
PCT/CN2016/105977 2016-08-11 2016-11-15 一种基于深度学习的中文语义分析的方法及装置 WO2018028077A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610658579.X 2016-08-11
CN201610658579.XA CN107729309B (zh) 2016-08-11 2016-08-11 一种基于深度学习的中文语义分析的方法及装置

Publications (1)

Publication Number Publication Date
WO2018028077A1 true WO2018028077A1 (zh) 2018-02-15

Family

ID=61161388

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/105977 WO2018028077A1 (zh) 2016-08-11 2016-11-15 一种基于深度学习的中文语义分析的方法及装置

Country Status (2)

Country Link
CN (1) CN107729309B (zh)
WO (1) WO2018028077A1 (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874776A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种垃圾文本的识别方法及装置
CN109145296A (zh) * 2018-08-09 2019-01-04 新华智云科技有限公司 一种基于监督模型的泛词识别方法及装置
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN109710924A (zh) * 2018-12-07 2019-05-03 平安科技(深圳)有限公司 文本模型训练方法、文本识别方法、装置、设备及介质
CN109740160A (zh) * 2018-12-31 2019-05-10 浙江成功软件开发有限公司 一种基于人工智能语义分析的任务发布方法
CN109918506A (zh) * 2019-03-07 2019-06-21 安徽省泰岳祥升软件有限公司 一种文本分类方法及装置
CN110032634A (zh) * 2019-04-17 2019-07-19 北京理工大学 一种基于多类型深度特征的中文命名实体识别方法
CN110134954A (zh) * 2019-05-06 2019-08-16 北京工业大学 一种基于Attention机制的命名实体识别方法
CN110222338A (zh) * 2019-05-28 2019-09-10 浙江邦盛科技有限公司 一种机构名实体识别方法
CN110321565A (zh) * 2019-07-09 2019-10-11 广东工业大学 基于深度学习的实时文本情感分析方法、装置及设备
CN110427615A (zh) * 2019-07-17 2019-11-08 宁波深擎信息科技有限公司 一种基于注意力机制的金融事件修饰时态的分析方法
CN110443291A (zh) * 2019-07-24 2019-11-12 阿里巴巴集团控股有限公司 一种模型训练方法、装置及设备
CN110674639A (zh) * 2019-09-24 2020-01-10 拾音智能科技有限公司 一种基于预训练模型的自然语言理解方法
CN110826330A (zh) * 2019-10-12 2020-02-21 上海数禾信息科技有限公司 人名识别方法及装置、计算机设备及可读存储介质
CN110837735A (zh) * 2019-11-17 2020-02-25 太原蓝知科技有限公司 一种数据智能分析识别方法及系统
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及系统
CN110990532A (zh) * 2019-11-28 2020-04-10 中国银行股份有限公司 一种处理文本的方法和装置
CN111144127A (zh) * 2019-12-25 2020-05-12 科大讯飞股份有限公司 文本语义识别方法及其模型的获取方法及相关装置
CN111507104A (zh) * 2020-03-19 2020-08-07 北京百度网讯科技有限公司 建立标签标注模型的方法、装置、电子设备和可读存储介质
CN111563161A (zh) * 2020-04-26 2020-08-21 深圳市优必选科技股份有限公司 一种语句识别方法、语句识别装置及智能设备
CN111597350A (zh) * 2020-04-30 2020-08-28 西安理工大学 基于深度学习的轨道交通事件知识图谱构建方法
CN111666381A (zh) * 2020-06-17 2020-09-15 中国电子科技集团公司第二十八研究所 一种面向智能管制的任务型问答交互系统
CN111709241A (zh) * 2020-05-27 2020-09-25 西安交通大学 一种面向网络安全领域的命名实体识别方法
CN111859858A (zh) * 2020-07-22 2020-10-30 智者四海(北京)技术有限公司 从文本中提取关系的方法及装置
CN111914538A (zh) * 2020-07-31 2020-11-10 长江航道测量中心 一种航道通告信息智能空间匹配方法及系统
CN112052670A (zh) * 2020-08-28 2020-12-08 丰图科技(深圳)有限公司 地址文本分词方法、装置、计算机设备和存储介质
CN112069814A (zh) * 2020-09-01 2020-12-11 应急管理部沈阳消防研究所 一种基于深度学习的消防预案分类方法
CN112101014A (zh) * 2020-08-20 2020-12-18 淮阴工学院 一种混合特征融合的中文化工文献分词方法
CN112269862A (zh) * 2020-10-14 2021-01-26 北京百度网讯科技有限公司 文本角色标注方法、装置、电子设备和存储介质
CN112528653A (zh) * 2020-12-02 2021-03-19 支付宝(杭州)信息技术有限公司 短文本实体识别方法和系统
CN112749561A (zh) * 2020-04-17 2021-05-04 腾讯科技(深圳)有限公司 一种实体识别方法及设备
CN112966525A (zh) * 2021-03-31 2021-06-15 上海大学 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN113052544A (zh) * 2019-12-26 2021-06-29 东软集团(上海)有限公司 工作流依用户行为智能适配方法、装置以及存储介质
CN114613516A (zh) * 2020-12-29 2022-06-10 医渡云(北京)技术有限公司 文本的标准化处理方法、装置、电子设备及计算机介质
CN114706942A (zh) * 2022-03-16 2022-07-05 马上消费金融股份有限公司 文本转换模型训练方法、文本转换方法、装置及电子设备
CN115048940A (zh) * 2022-06-23 2022-09-13 之江实验室 基于实体词属性特征和回译的中文金融文本数据增强方法
CN111368506B (zh) * 2018-12-24 2023-04-28 阿里巴巴集团控股有限公司 文本处理方法及装置
CN112269862B (zh) * 2020-10-14 2024-04-26 北京百度网讯科技有限公司 文本角色标注方法、装置、电子设备和存储介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232182B (zh) * 2018-04-10 2023-05-16 蔚来控股有限公司 语义识别方法、装置和语音对话系统
CN110413983B (zh) * 2018-04-27 2022-09-27 北京海马轻帆娱乐科技有限公司 一种识别人名的方法及装置
CN108806671B (zh) * 2018-05-29 2019-06-28 杭州认识科技有限公司 语义分析方法、装置及电子设备
CN108764194A (zh) * 2018-06-04 2018-11-06 科大讯飞股份有限公司 一种文本校验方法、装置、设备及可读存储介质
CN109101584B (zh) * 2018-07-23 2020-11-03 湖南大学 一种将深度学习与数学分析相结合的句子分类改进方法
CN109344406B (zh) * 2018-09-30 2023-06-20 创新先进技术有限公司 词性标注方法、装置和电子设备
CN109543187B (zh) * 2018-11-23 2021-09-17 中山大学 电子病历特征的生成方法、装置及存储介质
CN109657207B (zh) * 2018-11-29 2023-11-03 爱保科技有限公司 条款的格式化处理方法和处理装置
CN109615006B (zh) * 2018-12-10 2021-08-17 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质
CN109753564A (zh) * 2018-12-13 2019-05-14 四川大学 基于机器学习的中文rct智能分类器的构建方法
CN111078947B (zh) * 2019-11-19 2023-06-02 太极计算机股份有限公司 基于xml的领域要素提取配置语言系统
CN111310468B (zh) * 2020-01-15 2023-05-05 同济大学 一种利用不确定分词信息实现中文命名实体识别方法
CN111460831B (zh) * 2020-03-27 2024-04-19 科大讯飞股份有限公司 事件确定方法、相关设备及可读存储介质
CN111931481A (zh) * 2020-07-03 2020-11-13 北京新联财通咨询有限公司 文本情感识别方法、装置、存储介质及计算机设备
CN111966579A (zh) * 2020-07-24 2020-11-20 复旦大学 基于自然语言处理与机器学习的自适应文本输入生成方法
CN112965909B (zh) * 2021-03-19 2024-04-09 湖南大学 测试数据、测试用例生成方法及系统、存储介质
CN113177108A (zh) * 2021-05-27 2021-07-27 中国平安人寿保险股份有限公司 语义角色标注方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047183B2 (en) * 2001-08-21 2006-05-16 Microsoft Corporation Method and apparatus for using wildcards in semantic parsing
US8326809B2 (en) * 2008-10-27 2012-12-04 Sas Institute Inc. Systems and methods for defining and processing text segmentation rules
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN104965822A (zh) * 2015-07-29 2015-10-07 中南大学 一种基于计算机信息处理技术的中文文本情感分析方法
CN105243055A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 基于多语言的分词方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221B (zh) * 2009-02-17 2012-05-30 北京大学 一种用于信息检索的查询语句分析方法与系统
WO2014087506A1 (ja) * 2012-12-05 2014-06-12 三菱電機株式会社 語義推定装置、語義推定方法及び語義推定プログラム
CN104915386B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN105677802A (zh) * 2015-12-31 2016-06-15 宁波公众信息产业有限公司 一种互联网信息分析系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047183B2 (en) * 2001-08-21 2006-05-16 Microsoft Corporation Method and apparatus for using wildcards in semantic parsing
US8326809B2 (en) * 2008-10-27 2012-12-04 Sas Institute Inc. Systems and methods for defining and processing text segmentation rules
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN104965822A (zh) * 2015-07-29 2015-10-07 中南大学 一种基于计算机信息处理技术的中文文本情感分析方法
CN105243055A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 基于多语言的分词方法和装置

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874776A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种垃圾文本的识别方法及装置
CN108874776B (zh) * 2018-06-11 2022-06-03 北京奇艺世纪科技有限公司 一种垃圾文本的识别方法及装置
CN109145296A (zh) * 2018-08-09 2019-01-04 新华智云科技有限公司 一种基于监督模型的泛词识别方法及装置
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN109710924B (zh) * 2018-12-07 2022-04-12 平安科技(深圳)有限公司 文本模型训练方法、文本识别方法、装置、设备及介质
CN109710924A (zh) * 2018-12-07 2019-05-03 平安科技(深圳)有限公司 文本模型训练方法、文本识别方法、装置、设备及介质
CN111368506B (zh) * 2018-12-24 2023-04-28 阿里巴巴集团控股有限公司 文本处理方法及装置
CN109740160A (zh) * 2018-12-31 2019-05-10 浙江成功软件开发有限公司 一种基于人工智能语义分析的任务发布方法
CN109918506A (zh) * 2019-03-07 2019-06-21 安徽省泰岳祥升软件有限公司 一种文本分类方法及装置
CN109918506B (zh) * 2019-03-07 2022-12-16 安徽省泰岳祥升软件有限公司 一种文本分类方法及装置
CN110032634A (zh) * 2019-04-17 2019-07-19 北京理工大学 一种基于多类型深度特征的中文命名实体识别方法
CN110134954B (zh) * 2019-05-06 2023-12-22 北京工业大学 一种基于Attention机制的命名实体识别方法
CN110134954A (zh) * 2019-05-06 2019-08-16 北京工业大学 一种基于Attention机制的命名实体识别方法
CN110222338A (zh) * 2019-05-28 2019-09-10 浙江邦盛科技有限公司 一种机构名实体识别方法
CN110321565B (zh) * 2019-07-09 2024-02-23 广东工业大学 基于深度学习的实时文本情感分析方法、装置及设备
CN110321565A (zh) * 2019-07-09 2019-10-11 广东工业大学 基于深度学习的实时文本情感分析方法、装置及设备
CN110427615A (zh) * 2019-07-17 2019-11-08 宁波深擎信息科技有限公司 一种基于注意力机制的金融事件修饰时态的分析方法
CN110443291A (zh) * 2019-07-24 2019-11-12 阿里巴巴集团控股有限公司 一种模型训练方法、装置及设备
CN110443291B (zh) * 2019-07-24 2023-04-14 创新先进技术有限公司 一种模型训练方法、装置及设备
CN110674639B (zh) * 2019-09-24 2022-12-09 识因智能科技有限公司 一种基于预训练模型的自然语言理解方法
CN110674639A (zh) * 2019-09-24 2020-01-10 拾音智能科技有限公司 一种基于预训练模型的自然语言理解方法
CN110826330A (zh) * 2019-10-12 2020-02-21 上海数禾信息科技有限公司 人名识别方法及装置、计算机设备及可读存储介质
CN110826330B (zh) * 2019-10-12 2023-11-07 上海数禾信息科技有限公司 人名识别方法及装置、计算机设备及可读存储介质
CN110837735A (zh) * 2019-11-17 2020-02-25 太原蓝知科技有限公司 一种数据智能分析识别方法及系统
CN110837735B (zh) * 2019-11-17 2023-11-03 内蒙古中媒互动科技有限公司 一种数据智能分析识别方法及系统
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及系统
CN110990532A (zh) * 2019-11-28 2020-04-10 中国银行股份有限公司 一种处理文本的方法和装置
CN111144127A (zh) * 2019-12-25 2020-05-12 科大讯飞股份有限公司 文本语义识别方法及其模型的获取方法及相关装置
CN113052544A (zh) * 2019-12-26 2021-06-29 东软集团(上海)有限公司 工作流依用户行为智能适配方法、装置以及存储介质
US11531813B2 (en) 2020-03-19 2022-12-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, electronic device and readable storage medium for creating a label marking model
CN111507104B (zh) * 2020-03-19 2022-03-25 北京百度网讯科技有限公司 建立标签标注模型的方法、装置、电子设备和可读存储介质
CN111507104A (zh) * 2020-03-19 2020-08-07 北京百度网讯科技有限公司 建立标签标注模型的方法、装置、电子设备和可读存储介质
CN112749561B (zh) * 2020-04-17 2023-11-03 腾讯科技(深圳)有限公司 一种实体识别方法及设备
CN112749561A (zh) * 2020-04-17 2021-05-04 腾讯科技(深圳)有限公司 一种实体识别方法及设备
CN111563161A (zh) * 2020-04-26 2020-08-21 深圳市优必选科技股份有限公司 一种语句识别方法、语句识别装置及智能设备
CN111563161B (zh) * 2020-04-26 2023-05-23 深圳市优必选科技股份有限公司 一种语句识别方法、语句识别装置及智能设备
CN111597350A (zh) * 2020-04-30 2020-08-28 西安理工大学 基于深度学习的轨道交通事件知识图谱构建方法
CN111709241B (zh) * 2020-05-27 2023-03-28 西安交通大学 一种面向网络安全领域的命名实体识别方法
CN111709241A (zh) * 2020-05-27 2020-09-25 西安交通大学 一种面向网络安全领域的命名实体识别方法
CN111666381A (zh) * 2020-06-17 2020-09-15 中国电子科技集团公司第二十八研究所 一种面向智能管制的任务型问答交互系统
CN111666381B (zh) * 2020-06-17 2022-11-18 中国电子科技集团公司第二十八研究所 一种面向智能管制的任务型问答交互系统
CN111859858A (zh) * 2020-07-22 2020-10-30 智者四海(北京)技术有限公司 从文本中提取关系的方法及装置
CN111859858B (zh) * 2020-07-22 2024-03-01 智者四海(北京)技术有限公司 从文本中提取关系的方法及装置
CN111914538A (zh) * 2020-07-31 2020-11-10 长江航道测量中心 一种航道通告信息智能空间匹配方法及系统
CN112101014A (zh) * 2020-08-20 2020-12-18 淮阴工学院 一种混合特征融合的中文化工文献分词方法
CN112052670A (zh) * 2020-08-28 2020-12-08 丰图科技(深圳)有限公司 地址文本分词方法、装置、计算机设备和存储介质
CN112052670B (zh) * 2020-08-28 2024-04-02 丰图科技(深圳)有限公司 地址文本分词方法、装置、计算机设备和存储介质
CN112069814A (zh) * 2020-09-01 2020-12-11 应急管理部沈阳消防研究所 一种基于深度学习的消防预案分类方法
CN112269862B (zh) * 2020-10-14 2024-04-26 北京百度网讯科技有限公司 文本角色标注方法、装置、电子设备和存储介质
CN112269862A (zh) * 2020-10-14 2021-01-26 北京百度网讯科技有限公司 文本角色标注方法、装置、电子设备和存储介质
CN112528653B (zh) * 2020-12-02 2023-11-28 支付宝(杭州)信息技术有限公司 短文本实体识别方法和系统
CN112528653A (zh) * 2020-12-02 2021-03-19 支付宝(杭州)信息技术有限公司 短文本实体识别方法和系统
CN114613516A (zh) * 2020-12-29 2022-06-10 医渡云(北京)技术有限公司 文本的标准化处理方法、装置、电子设备及计算机介质
CN112966525B (zh) * 2021-03-31 2023-02-10 上海大学 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN112966525A (zh) * 2021-03-31 2021-06-15 上海大学 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN114706942A (zh) * 2022-03-16 2022-07-05 马上消费金融股份有限公司 文本转换模型训练方法、文本转换方法、装置及电子设备
CN114706942B (zh) * 2022-03-16 2023-11-24 马上消费金融股份有限公司 文本转换模型训练方法、文本转换方法、装置及电子设备
CN115048940B (zh) * 2022-06-23 2024-04-09 之江实验室 基于实体词属性特征和回译的中文金融文本数据增强方法
CN115048940A (zh) * 2022-06-23 2022-09-13 之江实验室 基于实体词属性特征和回译的中文金融文本数据增强方法

Also Published As

Publication number Publication date
CN107729309A (zh) 2018-02-23
CN107729309B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN109684642B (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN110633577B (zh) 文本脱敏方法以及装置
US20220147814A1 (en) Task specific processing of regulatory content
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN110704890A (zh) 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
Bokka et al. Deep Learning for Natural Language Processing: Solve your natural language processing problems with smart deep neural networks
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN115080750B (zh) 基于融合提示序列的弱监督文本分类方法、系统和装置
Banik et al. Gru based named entity recognition system for bangla online newspapers
Singh et al. HINDIA: a deep-learning-based model for spell-checking of Hindi language
CN110633467A (zh) 一种基于改进特征融合的语义关系抽取方法
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN115659981A (zh) 一种基于神经网络模型的命名实体识别方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16912531

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16912531

Country of ref document: EP

Kind code of ref document: A1