WO2020232861A1 - 命名实体识别方法、电子装置及存储介质 - Google Patents

命名实体识别方法、电子装置及存储介质 Download PDF

Info

Publication number
WO2020232861A1
WO2020232861A1 PCT/CN2019/102206 CN2019102206W WO2020232861A1 WO 2020232861 A1 WO2020232861 A1 WO 2020232861A1 CN 2019102206 W CN2019102206 W CN 2019102206W WO 2020232861 A1 WO2020232861 A1 WO 2020232861A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
word
model
recognized
word vector
Prior art date
Application number
PCT/CN2019/102206
Other languages
English (en)
French (fr)
Inventor
韦峰
徐国强
邱寒
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020232861A1 publication Critical patent/WO2020232861A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • This application relates to the field of computer information technology, in particular to a named entity identification method, electronic device and storage medium.
  • NER Named Entity Recognition
  • conditional random field algorithm Conditional Random Field, CRF
  • RNN Recurrent Neural Network
  • this application provides a named entity identification method, electronic device and storage medium. Its purpose is to use the ELMO model to fully consider the upper and lower semantic expressions and contextual expressions of the text to be recognized, thereby improving the accuracy of named entity recognition.
  • this application provides a named entity identification method applied to an electronic device, and the method includes:
  • Receiving step receiving the text to be recognized
  • the first processing step input the text to be recognized into the word2vec model to obtain the first word vector of the text to be recognized;
  • the second processing step perform word segmentation processing on the text to be recognized to obtain the first word segmentation set corresponding to each sentence/segment in the text to be recognized, input the first word segmentation set into the pre-trained ELMO model, and output it with the ELMO model A word vector as the second word vector of the text to be recognized;
  • Weighting step performing a weighted summation of the first word vector and the second word vector to obtain a weighted sum result
  • Sequence generation step input the weighted sum result into a two-way LSTM model for processing to obtain a text feature sequence;
  • Name recognition step input the text feature sequence into a conditional random field CRF model for processing to obtain a named entity recognition result of the text to be recognized.
  • the present application also provides an electronic device that is communicatively connected to a client and a storage node.
  • the electronic device includes a memory and a processor.
  • the memory stores a named entity recognition program, and the named entity recognition
  • the program is executed by the processor and can implement the following steps:
  • Receiving step receiving the text to be recognized
  • the first processing step input the text to be recognized into the word2vec model to obtain the first word vector of the text to be recognized;
  • the second processing step perform word segmentation processing on the text to be recognized to obtain the first word segmentation set corresponding to each sentence/segment in the text to be recognized, input the first word segmentation set into the pre-trained ELMO model, and output it with the ELMO model A word vector as the second word vector of the text to be recognized;
  • Weighting step performing a weighted summation of the first word vector and the second word vector to obtain a weighted sum result
  • Sequence generation step input the weighted sum result into a two-way LSTM model for processing to obtain a text feature sequence;
  • Name recognition step input the text feature sequence into a conditional random field CRF model for processing to obtain a named entity recognition result of the text to be recognized.
  • the present application also provides a computer-readable storage medium, the computer-readable storage medium includes a named entity recognition program, when the named entity recognition program is executed by a processor, the named entity as described above can be realized Identify any step in the method.
  • the first word vector is obtained by inputting the received text to be recognized into the word2vec model, and the text to be recognized is segmented into the ELMO model to obtain the second word vector , Performing a weighted summation of the first word vector and the second word vector, using a two-way LSTM model to process the result of the weighted summation, converting it into a text feature sequence, and inputting the text feature to the CRF
  • the model is processed, and the named entity recognition result is obtained.
  • This application uses the ELMO model to fully consider the upper and lower semantics and language environment of the text to be recognized, and obtain semantic information closer to the text to be recognized. Through the two-way LSTM model and CRF model processing, the accuracy of the obtained named entity recognition is improved.
  • FIG. 1 is a diagram of the operating environment of a preferred embodiment of the named entity identification method of this application;
  • FIG. 2 is a schematic diagram of performing ELMO model training when the named entity recognition program in FIG. 1 is running;
  • Figure 3 is a schematic diagram of the cooperative operation of various models applied in the named entity recognition method of this application;
  • FIG. 4 is a program module diagram of an embodiment of a named entity recognition program of this application.
  • FIG. 5 is a flowchart of a preferred embodiment of the named entity identification method of this application.
  • the application provides an electronic device 1.
  • FIG. 1 it is a schematic diagram of a preferred embodiment of the electronic device 1 of this application.
  • the electronic device 1 includes but is not limited to a memory 11, a processor 12 and a network interface 13.
  • the memory 11 includes at least one type of readable storage medium, and the readable storage medium includes flash memory, hard disk, multimedia card, card-type memory (for example, SD or DX memory, etc.), random access memory (RAM) , Static random access memory (SRAM), read only memory (ROM), electrically erasable programmable read only memory (EEPROM), programmable read only memory (PROM), magnetic memory, magnetic disks, optical disks, etc.
  • the memory 11 may be an internal storage unit of the electronic device 1, such as a hard disk or a memory of the electronic device 1.
  • the memory 11 may also be an external storage device of the electronic device 1, such as a plug-in hard disk equipped with the electronic device 1, a smart media card (SMC), a secure digital ( Secure Digital, SD card, Flash Card, etc.
  • the memory 11 may also include both the internal storage unit of the electronic device 1 and its external storage device.
  • the memory 11 is generally used to store an operating system and various application software installed in the electronic device 1, such as the program code of the named entity recognition program 10.
  • the memory 11 can also be used to temporarily store various types of data that have been output or will be output.
  • the processor 12 may be a central processing unit (Central Processing Unit, CPU), controller, microcontroller, microprocessor, or other data processing chip in some embodiments.
  • the processor 12 is generally used to control the overall operation of the electronic device 1, such as performing data interaction or communication-related control and processing.
  • the processor 12 is configured to run the program code or process data stored in the memory 11, for example, run the program code of the named entity recognition program 10, and so on.
  • the network interface 14 may optionally include a standard wired interface and a wireless interface (such as a WI-FI interface), and is usually used to establish a communication connection between the device 1 and other electronic devices.
  • FIG. 1 only shows the electronic device 1 with the components 11-13 and the named entity recognition program 10. However, it should be understood that it is not required to implement all the illustrated components, and more or fewer components may be implemented instead.
  • the electronic device 1 may further include a user interface.
  • the user interface may include a display (Display) and an input unit such as a keyboard (Keyboard).
  • the optional user interface may also include a standard wired interface and a wireless interface.
  • the display may be an LED display, a liquid crystal display, a touch liquid crystal display, an organic light-emitting diode (OLED) touch device, and the like.
  • the display can also be appropriately called a display screen or a display unit, which is used to display the information processed in the electronic device 1 and to display a visualized user interface.
  • the electronic device 1 may also include a radio frequency (RF) circuit, a sensor, an audio circuit, etc., which will not be repeated here.
  • RF radio frequency
  • the electronic device 1 is any electronic device in a distributed storage system electronic device cluster.
  • a distributed storage system usually includes multiple electronic devices, clients communicating with the electronic devices, and a series of storage nodes.
  • Each storage node may be a storage device, such as a hard disk, a magnetic disk, or other network storage devices, or an electronic device that provides storage space, such as a personal computer, an electronic device, and so on.
  • data is evenly distributed across storage nodes in the form of multiple copies. When the data of a storage node is damaged, data recovery is performed through the backup copies of other storage nodes.
  • the processor 12 can implement the following steps when executing the named entity recognition program 10 stored in the memory 11:
  • Receiving step receiving the text to be recognized.
  • the user can start a client application for named entity recognition, and obtain the text to be recognized through the client.
  • named entity recognition can be performed for a novel text.
  • the named entity recognition instruction is obtained, and the selected paragraph in the novel text is triggered according to the named entity recognition instruction.
  • the content is the acquired text to be recognized.
  • the terminal obtains the text to be recognized, it is sent to the server, and the server obtains the text to be recognized.
  • the first processing step input the text to be recognized into the word2vec model to obtain the first word vector of the text to be recognized.
  • the deep learning model accepts digital input instead of character strings, after obtaining the text to be recognized, it needs to convert the text to be recognized into the form of word vectors.
  • Common word vector training and representation methods include word2vec and glove, and this embodiment adopts the word2vec model to implement.
  • word2vec is a common distributed word vector representation method. By learning the text to use word vectors to represent the semantic information of words, the distance between similar words can be drawn very close.
  • the second processing step perform word segmentation processing on the text to be recognized to obtain the first word segmentation set corresponding to each sentence/segment in the text to be recognized, input the first word segmentation set into the pre-trained ELMO model, and output it with the ELMO model
  • the word vector is used as the second word vector of the text to be recognized.
  • the accuracy of the word vector corresponding to a single word needs to be further improved.
  • the training process of the ELMO model includes the following steps:
  • A1 Obtain a preset number of specified texts from a preset corpus, and perform sentence and word segmentation processing on the specified text to obtain a second set of word segmentation corresponding to each sentence in the specified text;
  • A2 Determine the word vector corresponding to each word segment in the second word segmentation set, and use each word segment in the second word segmentation set and the word vector corresponding to the word segmentation as sample data;
  • A3. Use the sample data to train the bidirectional LSTM model to obtain the ELMO model.
  • FIG. 2 it is a schematic diagram of ELMO model training performed when the named entity recognition program in FIG. 1 is running.
  • an L-layer two-way LSTM model can have 2L+1 word vectors representing:
  • R k represents the word vector of the L-th bidirectional LSTM model
  • X LM represents the initial word vector of the text to be recognized
  • a word has a multi-layer word vector representation in the two-way LSTM model, and the multi-layer combination of the two-way LSTM model is expressed as an ELMO model.
  • the ELMO model as a new way of expression of word vectors, can fully consider different expressions of upper and lower semantic expression and contextual changes of the text to be recognized, thereby improving the accuracy of named entity recognition.
  • vocabulary w "apple" for a word with multiple meanings
  • Weighting step performing a weighted summation of the first word vector and the second word vector to obtain a weighted sum result.
  • the dynamic weight information of the word vector can be better utilized, and the effect of the named entity recognition for the text to be recognized can be more accurately reflected.
  • the second word vector can be directly placed after the first word vector to jointly represent the meaning of a word
  • the first word vector is processed according to its corresponding weight to obtain the processed first word vector
  • the second word vector is processed according to its corresponding weight to obtain the processed second word vector.
  • the processed The first word vector and the processed second word vector are summed to obtain a weighted sum result.
  • the weighting step includes:
  • the first word vector and the second word vector are input into a pre-trained Attention model to perform a weighted summation to obtain a weighted summation result.
  • the Attention model is an attention model that simulates the human brain by deep learning.
  • the Attention model can be used to dynamically train the weight of the word vector, and perform data weighting transformation on the word vector.
  • Sequence generation step input the weighted sum result into a two-way LSTM model for processing to obtain a text feature sequence.
  • the two-way LSTM model is different from the front and the back when processing the words and sentences. To avoid the impact of only receiving the data from the previous moment when processing sequence data, to ensure the accuracy of the named entity recognition of the text to be recognized.
  • a two-way LSTM model is used to construct a context-related dynamic word vector representation.
  • Name recognition step input the text feature sequence into a conditional random field CRF model for processing to obtain a named entity recognition result of the text to be recognized.
  • CRF extracts sufficient features of different dimensions based on massive feature engineering, and then performs sequence annotations based on these features.
  • the CRF model is an end-to-end deep learning model, which calculates the joint probability distribution of the entire tag sequence under the condition of a given observation sequence (word, sentence value, etc.) that needs to be tagged.
  • the local optimal solution can be used to calculate the probability of the possible sequence K (such as K1, K2...Kn) of the text feature sequence Distribution, which is the final text label, which is the result of named entity recognition.
  • FIG. 3 it is a schematic diagram of the cooperative operation of various models applied in the named entity recognition method of this application.
  • this solution adopts a combination of multiple models: use word2vec to train the first word vector, use the ELMO model to train the second word vector that combines context and semantics, and compare the first word vector and the second word
  • the vector is weighted and summed through the Attention mechanism, and then input to the two-way LSTM model for processing.
  • the two-way LSTM model is used to propagate the word vector in both directions.
  • the obtained feature text sequence is input into the CRF model, and the probability distribution of the feature text sequence is optimized through the CRF model. Get the label of each word output, and get the result of named entity recognition.
  • the training process of the bidirectional LSTM model in the sequence generation step and the CRF model in the naming recognition step includes:
  • test set is used to test the verified two-way LSTM model and CRF model, and the target two-way LSTM model and the target CRF model are obtained after the test passes.
  • the text resource includes:
  • Sort the words in the word sequence according to the word frequency determine the label information corresponding to each word, obtain a combination of multiple words and label information, and use the combination of the word and label information as the final text resource.
  • the preprocessing of the initial text resource includes:
  • preprocessing the initial text resources can further reduce interference and improve the accuracy of recognition.
  • the initial text resource is preprocessed, and when the frequency of use of the words and/or characters obtained by text recognition of the initial text resource is lower than a preset value, it will be lower than the preset value.
  • Words and/or characters are filtered to obtain sentence sequences, where word filtering can be to filter some stop words, words whose word frequency is less than a certain value, etc., and characters can be stop characters, meaningless characters, etc.
  • performing word filtering and special character filtering on the initial text resource includes, but is not limited to, filtering words and/or characters in the initial text resource, and may also be special characters.
  • FIG. 4 is a program module diagram of an embodiment of the named entity recognition program of this application.
  • the named entity recognition program 10 includes: a receiving module 101, a processing module 102, a sequence module 103, and a naming module 104.
  • the functions or operation steps implemented by the modules 101-104 are similar to the above, and will not be described in detail here. For example, for example:
  • the receiving module 101 is used to receive the text to be recognized.
  • the processing module 102 is configured to input the text to be recognized into a word2vec model to obtain the first word vector of the text to be recognized;
  • the sequence module 103 is configured to input the weighted sum result into a two-way LSTM model for processing to obtain a text feature sequence.
  • the naming module 104 is configured to input the text feature sequence into a conditional random field CRF model for processing to obtain a named entity recognition result of the text to be recognized.
  • FIG. 5 it is a flowchart of a preferred embodiment of the named entity recognition method of this application.
  • This embodiment is a method for identifying named entities, and the method includes:
  • Receiving step receiving the text to be recognized.
  • the user can start a client application for named entity recognition, and obtain the text to be recognized through the client.
  • named entity recognition can be performed for a novel text.
  • the named entity recognition instruction is obtained, and the selected paragraph in the novel text is triggered according to the named entity recognition instruction.
  • the content is the acquired text to be recognized.
  • the terminal obtains the text to be recognized, it is sent to the server, and the server obtains the text to be recognized.
  • the first processing step input the text to be recognized into the word2vec model to obtain the first word vector of the text to be recognized.
  • the deep learning model accepts digital input instead of character strings, after obtaining the text to be recognized, it needs to convert the text to be recognized into the form of word vectors.
  • Common word vector training and representation methods include word2vec and glove, and this embodiment adopts the word2vec model to implement.
  • word2vec is a common distributed word vector representation method. By learning the text to use word vectors to represent the semantic information of words, the distance between similar words can be drawn very close.
  • the second processing step perform word segmentation processing on the text to be recognized to obtain the first word segmentation set corresponding to each sentence/segment in the text to be recognized, input the first word segmentation set into the pre-trained ELMO model, and output it with the ELMO model
  • the word vector is used as the second word vector of the text to be recognized.
  • the accuracy of the word vector corresponding to a single word needs to be further improved.
  • the training process of the ELMO model includes the following steps:
  • A1 Obtain a preset number of specified texts from a preset corpus, and perform sentence and word segmentation processing on the specified text to obtain a second set of word segmentation corresponding to each sentence in the specified text;
  • A2. Determine the word vector corresponding to each word segment in the second word segmentation set, and use each word segment in the second word segmentation set and the word vector corresponding to the word segmentation as sample data;
  • A3. Use the sample data to train the bidirectional LSTM model to obtain the ELMO model.
  • FIG. 2 it is a schematic diagram of ELMO model training performed when the named entity recognition program in FIG. 1 is running.
  • an L-layer two-way LSTM model can have 2L+1 word vectors representing:
  • R k represents the word vector of the L-th bidirectional LSTM model
  • X LM represents the initial word vector of the text to be recognized
  • a word has a multi-layer word vector representation in the two-way LSTM model, and the multi-layer combination of the two-way LSTM model is expressed as an ELMO model.
  • the ELMO model as a new way of expression of word vectors, can fully consider different expressions of upper and lower semantic expression and contextual changes of the text to be recognized, thereby improving the accuracy of named entity recognition.
  • vocabulary w "apple" for a word with multiple meanings
  • Weighting step performing a weighted summation of the first word vector and the second word vector to obtain a weighted sum result.
  • the dynamic weight information of the word vector can be better utilized, and the effect of the named entity recognition for the text to be recognized can be more accurately reflected.
  • the second word vector can be directly placed after the first word vector to jointly represent the meaning of a word
  • the first word vector is processed according to its corresponding weight to obtain the processed first word vector
  • the second word vector is processed according to its corresponding weight to obtain the processed second word vector.
  • the processed The first word vector and the processed second word vector are summed to obtain a weighted sum result.
  • the weighting step includes:
  • the first word vector and the second word vector are input into a pre-trained Attention model to perform a weighted summation to obtain a weighted summation result.
  • the Attention model is an attention model that simulates the human brain by deep learning.
  • the Attention model can be used to dynamically train the weight of the word vector, and perform data weighting transformation on the word vector.
  • Sequence generation step input the weighted sum result into a two-way LSTM model for processing to obtain a text feature sequence.
  • the two-way LSTM model is different from the front and the back when processing the words and sentences. To avoid the impact of only receiving the data from the previous moment when processing sequence data, to ensure the accuracy of the named entity recognition of the text to be recognized.
  • a two-way LSTM model is used to construct a context-related dynamic word vector representation.
  • Name recognition step input the text feature sequence into a conditional random field CRF model for processing to obtain a named entity recognition result of the text to be recognized.
  • CRF extracts sufficient features of different dimensions based on massive feature engineering, and then performs sequence annotations based on these features.
  • the CRF model is an end-to-end deep learning model, which calculates the joint probability distribution of the entire tag sequence under the condition of a given observation sequence (word, sentence value, etc.) that needs to be tagged.
  • the local optimal solution can be used to calculate the probability of the possible sequence K (such as K1, K2...Kn) of the text feature sequence Distribution, which is the final text label, which is the result of named entity recognition.
  • FIG. 3 it is a schematic diagram of the cooperative operation of various models applied in the named entity recognition method of this application.
  • this solution adopts a combination of multiple models: use word2vec to train the first word vector, use the ELMO model to train the second word vector that combines context and semantics, and compare the first word vector and the second word
  • the vector is weighted and summed through the Attention mechanism, and then input to the two-way LSTM model for processing.
  • the two-way LSTM model is used to propagate the word vector in both directions.
  • the obtained feature text sequence is input into the CRF model, and the probability distribution of the feature text sequence is optimized through the CRF model. Get the label of each word output, and get the result of named entity recognition.
  • the training process of the bidirectional LSTM model in the sequence generation step and the CRF model in the naming recognition step includes:
  • test set is used to test the verified two-way LSTM model and CRF model, and the target two-way LSTM model and the target CRF model are obtained after the test passes.
  • the text resource includes:
  • Sort the words in the word sequence according to the word frequency determine the label information corresponding to each word, obtain a combination of multiple words and label information, and use the combination of the word and label information as the final text resource.
  • the preprocessing of the initial text resource includes:
  • preprocessing the initial text resources can further reduce interference and improve the accuracy of recognition.
  • the initial text resource is preprocessed, and when the frequency of use of the words and/or characters obtained by text recognition of the initial text resource is lower than a preset value, it will be lower than the preset value.
  • Words and/or characters are filtered to obtain sentence sequences, where word filtering can be to filter some stop words, words whose word frequency is less than a certain value, etc., and characters can be stop characters, meaningless characters, etc.
  • performing word filtering and special character filtering on the initial text resource includes, but is not limited to, filtering words and/or characters in the initial text resource, and may also be special characters.
  • the naming recognition step includes:
  • a CRF model is used to identify word tags corresponding to the feature annotations of the words from a pre-trained corpus tag library, and the information of the recognized word tags is used as the named entity recognition result.
  • the recognition result may be displayed separately, or the recognition result may be displayed on the basis of the text to be recognized.
  • the embodiment of the present application also proposes a computer-readable storage medium.
  • the computer-readable storage medium may be a hard disk, a multimedia card, an SD card, a flash memory card, an SMC, a read-only memory (ROM), an erasable programmable only Any one or any combination of EPROM, CD-ROM, USB memory, etc.
  • the computer-readable storage medium includes a named entity recognition program 10, and the named entity recognition program 10 implements the following operations when executed by a processor:
  • Receiving step receiving the text to be recognized
  • the first processing step input the text to be recognized into the word2vec model to obtain the first word vector of the text to be recognized;
  • the second processing step perform word segmentation processing on the text to be recognized to obtain the first word segmentation set corresponding to each sentence/segment in the text to be recognized, input the first word segmentation set into the pre-trained ELMO model, and output it with the ELMO model A word vector as the second word vector of the text to be recognized;
  • Weighting step performing a weighted summation of the first word vector and the second word vector to obtain a weighted sum result
  • Sequence generation step input the weighted sum result into a two-way LSTM model for processing to obtain a text feature sequence;
  • Name recognition step input the text feature sequence into a conditional random field CRF model for processing to obtain a named entity recognition result of the text to be recognized.
  • the method of the above embodiments can be implemented by means of software plus the necessary general hardware platform. Of course, it can also be implemented by hardware, but in many cases the former is better. ⁇
  • the technical solution of this application essentially or the part that contributes to the existing technology can be embodied in the form of a software product, and the computer software product is stored in a storage medium (such as ROM/RAM) as described above. , Magnetic disk, optical disk), including several instructions to make a terminal device (which can be a mobile phone, a computer, an electronic device, or a network device, etc.) execute the method described in each embodiment of the present application.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及计算机信息技术领域,提供了一种命名实体识别方法、电子装置及计算机存储介质,该方法包括:将接收到的待识别文本输入word2vec模型得到第一词向量,对所述待识别文本进行分词处理后输入ELMO模型,得到第二词向量,将所述第一词向量和所述第二词向量进行加权求和,利用双向LSTM模型对所述加权求和得到的结果进行处理,转换成文本特征序列,将所述文本特征输入至CRF模型处理,即得到命名实体识别结果。本申请利用ELMO模型深度考虑待识别文本在上下语义语法的不同表达以及在不同语言环境的表达意思,通过多个模型以不同层次处理待识别文本的信息,从而提高命名实体识别的准确率。

Description

命名实体识别方法、电子装置及存储介质
本申请基于巴黎公约申明享有2019年5月20日递交的申请号为CN201910419895.5、名称为“命名实体识别方法、电子装置及存储介质”的中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。
技术领域
本申请涉及计算机信息技术领域,尤其涉及一种命名实体识别方法、电子装置及存储介质。
背景技术
在信息抽取、实体链接等自然语言处理任务的场景中,常常需要进行命名实体识别(NamedEntity Recognition,NER)。其中,NER是指在文档集合中识别出特定类型的事物名称或符号的过程。
相关技术在进行命名实体识别时,一般采用条件随机场算法(Conditional Random Field,CRF)或单向循环神经网络(Recurrent Neural Network,RNN)等模型对待识别文本进行识别。
然而,由于无论采用CRF还是采用单向RNN进行识别,得到的语义信息比较有限,因此,识别的准确率不高。
发明内容
鉴于以上内容,本申请提供一种命名实体识别方法、电子装置及存储介质。其目的在于利用ELMO模型充分考虑待识别文本上下语义表达及语境变化表达,从而提高命名实体识别的准确率。
为实现上述目的,本申请提供一种命名实体识别方法,应用于电子装置,该方法包括:
接收步骤:接收待识别文本;
第一处理步骤:将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量;
第二处理步骤:对所述待识别文本进行分词处理,得到待识别文本中每 一句/段对应的第一分词集合,将所述第一分词集合输入预先训练的ELMO模型,以ELMO模型输出的词向量作为所述待识别文本的第二词向量;
加权步骤:将所述第一词向量和所述第二词向量进行加权求和,得到加权求和结果;
序列生成步骤:将所述加权求和结果输入双向LSTM模型处理,得到文本特征序列;
命名识别步骤:将所述文本特征序列输入条件随机场CRF模型处理,得到所述待识别文本的命名实体识别结果。
为实现上述目的,本申请还提供一种电子装置,该电子装置通信连接客户端及存储节点,该电子装置包括:存储器及处理器,所述存储器上存储命名实体识别程序,所述命名实体识别程序被所述处理器执行,可实现如下步骤:
接收步骤:接收待识别文本;
第一处理步骤:将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量;
第二处理步骤:对所述待识别文本进行分词处理,得到待识别文本中每一句/段对应的第一分词集合,将所述第一分词集合输入预先训练的ELMO模型,以ELMO模型输出的词向量作为所述待识别文本的第二词向量;
加权步骤:将所述第一词向量和所述第二词向量进行加权求和,得到加权求和结果;
序列生成步骤:将所述加权求和结果输入双向LSTM模型处理,得到文本特征序列;
命名识别步骤:将所述文本特征序列输入条件随机场CRF模型处理,得到所述待识别文本的命名实体识别结果。
为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中包括命名实体识别程序,所述命名实体识别程序被处理器执行时,可实现如上所述命名实体识别方法中的任意步骤。
本申请提出的命名实体识别方法、电子装置及存储介质,通过接收到的待识别文本输入word2vec模型得到第一词向量,对所述待识别文本进行分词处理后输入ELMO模型,得到第二词向量,将所述第一词向量和所述第二词 向量进行加权求和,利用双向LSTM模型对所述加权求和得到的结果进行处理,转换成文本特征序列,将所述文本特征输入至CRF模型处理,即得到得到命名实体识别结果。本申请利用ELMO模型,使待识别文本被充分考虑上下语义及语言环境,得到更为贴近待识别文本的语义信息,通过双向LSTM模型及CRF模型处理,使得到的命名实体识别准确率提高。
附图说明
图1为本申请命名实体识别方法较佳实施例的运行环境图;
图2为图1中的命名实体识别程序运行时执行ELMO模型训练的示意图;
图3为本申请命名实体识别方法应用的各模型协同运作的示意图;
图4为本申请命名实体识别程序实施例的程序模块图;
图5为本申请命名实体识别方法较佳施例的流程图;
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供一种电子装置1。参照图1所示,为本申请电子装置1较佳实施例的示意图。
所述电子装置1包括但不限于存储器11、处理器12以及网络接口13。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。在另一些实施例中, 所述存储器11也可以是所述电子装置1的外部存储设备,例如该电子装置1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述电子装置1的操作系统和各类应用软件,例如命名实体识别程序10的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行命名实体识别程序10的程序代码等。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
图1仅示出了具有组件11-13以及命名实体识别程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,所述电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
该电子装置1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在本实施例中,所述电子装置1为分布式存储系统电子装置集群中的任意一台电子装置。分布式存储系统通常包括多台电子装置,与电子装置通信连接的客户端,以及一系列的存储节点。每个存储节点可能是一个存储设备,例如硬盘、磁盘或其他网络存储装置,也可能为提供存储空间的电子装置, 例如个人电脑、电子装置等等。在分布式存储系统,数据以多副本的形式均匀地分布在各个存储节点。当某个存储节点的数据发生损毁时,通过其他存储节点的备份副本执行数据恢复。
在上述实施例中,处理器12执行存储器11中存储的命名实体识别程序10时可以实现如下步骤:
接收步骤:接收待识别文本。
当有命名实体识别需求时,用户可以开启命名实体识别的客户端应用程序,通过该客户端获取待识别文本。
例如,可以针对某小说文本进行命名实体识别,根据用户的选择操作,当用户选择小说文本中的一段内容后,获取命名实体识别指令,根据该命名实体识别指令触发将小说文本中被选择的一段内容作为获取到的待识别文本,当终端获取到待识别文本后,将其发送至服务器,服务器由此获取到待识别文本。
第一处理步骤:将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量。
由于深度学习模型接受数字的输入,而不是字符串,因而在获取到待识别文本后,需要将待识别文本转换成词向量的形式。常见的词向量训练表示方法有word2vec和glove,本实施例采用word2vec模型来实现。
word2vec是一个常见的分布式词向量表示方法,通过学习文本用词向量的方式表征词的语义信息,可将相似的词的距离拉的很近。
第二处理步骤:对所述待识别文本进行分词处理,得到待识别文本中每一句/段对应的第一分词集合,将所述第一分词集合输入预先训练的ELMO模型,以ELMO模型输出的词向量作为所述待识别文本的第二词向量。
由于第一词向量不能完全体现出某一个词在具体语境中所代表的意思,为了提高命名实体识别的准确性,需进一步提高单个词对应的词向量的准确性。
进一步地,所述ELMO模型的训练过程包括如下步骤:
A1,从预设语料库中获取预设数量的指定文本,对所述指定文本进行分句及分词处理,得到所述指定文本中每一句对应的第二分词集合;
A2,确定所述第二分词集合中各分词对应的词向量,将所述第二分词集 合中各分词及所述分词对应的词向量作为样本数据;
A3,利用所述样本数据对双向LSTM模型进行训练,得到所述ELMO模型。
应当理解的是,本申请所述双向LSTM模型,即通常说的Bi-LSTM模型。参照图2所示,为图1中的命名实体识别程序运行时执行ELMO模型训练的示意图。在所述ELMO模型训练中,对于所述样本数据中某一个词语P,一个L层的双向LSTM模型能够有2L+1个词向量表示:
Figure PCTCN2019102206-appb-000001
其中,
Figure PCTCN2019102206-appb-000002
R k表示第L层双向LSTM模型的词向量;
X LM表示待识别文本的初始词向量;
Figure PCTCN2019102206-appb-000003
表示第L层前后词向量;
由此,一个词语在双向LSTM模型中有多层词向量的表示,将双向LSTM模型的多层组合表示为ELMO模型。
在本实施例中,ELMO模型作为一种新的词向量的表达方式,能够充分考虑待识别文本在上下语义表达及语境变化的不同表达,从而提高命名实体识别的准确率。
例如:针对某一词多义的词汇w=“苹果”
文本序列1=“我买了六斤苹果。”
文本序列2=“我买了一个苹果7。”
上面两个文本序列中都出现了“苹果”这个词汇,但是在不同的句子中,它们的含义显示是不同的,第一个属于水果领域,第二个属于电子产品领域。
通过使用ELMO模型,能够准确的辨别词语在语境中的表达意思,提高命名实体的准确性。
加权步骤:将所述第一词向量和所述第二词向量进行加权求和,得到加权求和结果。
通过加权求和的方式,能够更好的利用词向量的动态权重信息,更准确的体现出对待识别文本所要命名实体识别的效果。
在一种实现方式中,可直接将第二词向量放在第一词向量后面,用以共同表征一个词的词义;或者
将第一词向量按照其对应的权重进行处理,得到处理后的第一词向量,将第二词向量按照其对应的权重进行处理,得到处理后的第二词向量,最后,将处理后的第一词向量与处理后的第二词向量进行求和,得到加权求和结果。
进一步地,所述加权步骤包括:
将所述第一词向量和所述第二词向量输入预先训练的Attention模型进行加权求和,得到加权求和结果。
所述Attention模型是深度学习模拟人脑的注意力模型。在一种实施方式中,采用Attention模型可动态地训练词向量的权重,对词向量进行数据加权变换。
例如,当观赏一幅画时,虽然看到整幅画的全貌,但是深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候大脑主要关注在这一小块图案上,也就是说这个时候人脑对整幅图的关注并不是均衡的,是有一定的权重区分的。
序列生成步骤:将所述加权求和结果输入双向LSTM模型处理,得到文本特征序列。
由于,日常生活中所说的语句存在前后关联关系,排列在后面的词语可能影响前面词语的意思表达,所以,为更好的处理词向量,双向LSTM模型在处理词句时分别从前后两个不同的方向进行传播,避免了在处理序列数据时只收到前时刻数据的影响,确保待识别文本命名实体识别的准确性。
本申请实施例利用双向LSTM模型构建与上下文相关的动态词向量表示。
命名识别步骤:将所述文本特征序列输入条件随机场CRF模型处理,得到所述待识别文本的命名实体识别结果。
在传统的机器学习任务中,CRF是根据海量的特征工程提取足够的不同维度的特征,然后根据这些特征做序列标注。实际应用中,CRF模型是一种端到端的深度学习模型,它是在给定需要标记的观察序列(词、句子数值等)的条件下,计算整个标记序列的联合概率分布。
在一种实现方式中,根据双向LSTM得到的文本特征序列M(如M1、M2…Mn),可以采用局部最优解,算出文本特征序列可能的序列K(如K1、K2…Kn)的概率分布,也就是最终的文本标签,即命名实体识别结果。
参照图3所示,为本申请命名实体识别方法应用的各模型协同运作的示 意图。基于上述过程,本方案采用了多个模型组合的方式:利用word2vec训练出第一词向量,利用ELMO模型训练出结合上下文语义语境的第二词向量,并对第一词向量和第二词向量通过Attention机制进行加权求和,然后输入到双向LSTM模型中处理,利用双向LSTM模型对词向量进行双向传播,得到的特征文本序列输入CRF模型,通过CRF模型对特征文本序列进行概率分布优化,得到输出每个词的标签,即得到命名实体识别结果。
进一步地,所述序列生成步骤中的双向LSTM模型及命名识别步骤中的CRF模型的训练过程包括:
获取数据集,将数据集划分为训练集、验证集和测试集,其中,所述数据集包括文本资源、已标注命名实体及词向量;
根据所述训练集对初始双向LSTM模型及初始CRF模型进行训练,得到训练后的双向LSTM模型及CRF模型;
根据所述验证集对训练后的双向LSTM模型及CRF模型进行验证;
当验证通过后,采用测试集对验证通过的双向LSTM模型及CRF模型进行测试,测试通过得到目标双向LSTM模型及目标CRF模型。
进一步地,所述文本资源包括:
获取初始文本资源,对初始文本资源进行预处理,得到语句序列;
对语句序列进行分词处理,得到至少一个词序列;
按照词频对词序列中的词进行排序,确定每个词对应的标签信息,得到多个词与标签信息的组合,将词与标签信息的组合作为最终的文本资源。
例如,对于初始文本“我很高兴,明天我要去北京出差,顺便参观北京人民大会堂,北京故宫博物馆。”,进行分词处理得到“我”、“明天”、“北京”、“出差”,对每一个分词进行序列标注,如:“B1”、“B2”、“B3”、“B4”,按照词出现的频率对分词进行标记,如“1”、“2”、“3”、“4”,得到词与标签信息的组合,即得到最终的文本资源。如下表格所示:
Figure PCTCN2019102206-appb-000004
进一步地,所述对初始文本资源进行预处理包括:
对获取到的所述初始文本资源进行文本识别,当识别得到的词及/或字符的使用频率低于预设值时,将低于预设值的词及/或字符进行过滤,得到语句序列。
本实施例中,对初始文本资源进行预处理,可以进一步减少干扰,提高识别的准确性。
在一个实施方式中,对初始文本资源进行预处理,所述预处理以对初始文本资源进行文本识别得到的词及/或字符的使用频率低于预设值时,将低于预设值的词及/或字符进行过滤,得到语句序列,其中,词过滤可以是过滤一些停用词、词频小于一定值的词等等,字符可以是停用字符、无意义字符等。
需要说明的是,本实施例中,对初始文本资源进行词过滤及特殊字符过滤包括但不限于过滤初始文本资源中的词及/或字符,还可以是特殊字符等。
参照图4所示,为本申请命名实体识别程序实施例的程序模块图。
在一个实施例中,命名实体识别程序10包括:接收模块101、处理模块102、序列模块103、命名模块104。所述模块101-104所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
接收模块101,用于接收待识别文本。
处理模块102,用于将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量;
对所述待识别文本进行分词处理,得到待识别文本中每一句/段对应的第一分词集合,将所述第一分词集合输入预先训练的ELMO模型,以ELMO模型输出的词向量作为所述待识别文本的第二词向量;及
将所述第一词向量和所述第二词向量进行加权求和,得到加权求和结果。
序列模块103,用于将所述加权求和结果输入双向LSTM模型处理,得到文本特征序列。
命名模块104,用于将所述文本特征序列输入条件随机场CRF模型处理,得到所述待识别文本的命名实体识别结果。
参照图5所示,为本申请命名实体识别方法较佳施例的流程图。本实施例为一种命名实体识别方法,该方法包括:
接收步骤:接收待识别文本。
当有命名实体识别需求时,用户可以开启命名实体识别的客户端应用程序,通过该客户端获取待识别文本。
例如,可以针对某小说文本进行命名实体识别,根据用户的选择操作,当用户选择小说文本中的一段内容后,获取命名实体识别指令,根据该命名实体识别指令触发将小说文本中被选择的一段内容作为获取到的待识别文本,当终端获取到待识别文本后,将其发送至服务器,服务器由此获取到待识别文本。
第一处理步骤:将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量。
由于深度学习模型接受数字的输入,而不是字符串,因而在获取到待识别文本后,需要将待识别文本转换成词向量的形式。常见的词向量训练表示方法有word2vec和glove,本实施例采用word2vec模型来实现。
word2vec是一个常见的分布式词向量表示方法,通过学习文本用词向量的方式表征词的语义信息,可将相似的词的距离拉的很近。
第二处理步骤:对所述待识别文本进行分词处理,得到待识别文本中每一句/段对应的第一分词集合,将所述第一分词集合输入预先训练的ELMO模型,以ELMO模型输出的词向量作为所述待识别文本的第二词向量。
由于第一词向量不能完全体现出某一个词在具体语境中所代表的意思,为了提高命名实体识别的准确性,需进一步提高单个词对应的词向量的准确性。
进一步地,所述ELMO模型的训练过程包括如下步骤:
A1,从预设语料库中获取预设数量的指定文本,对所述指定文本进行分句及分词处理,得到所述指定文本中每一句对应的第二分词集合;
A2,确定所述第二分词集合中各分词对应的词向量,将所述第二分词集合中各分词及所述分词对应的词向量作为样本数据;
A3,利用所述样本数据对双向LSTM模型进行训练,得到所述ELMO模型。
应当理解的是,本申请所述双向LSTM模型,即通常说的Bi-LSTM模型。参照图2所示,为图1中的命名实体识别程序运行时执行ELMO模型训练的示意图。在所述ELMO模型训练中,对于所述样本数据中某一个词语P,一 个L层的双向LSTM模型能够有2L+1个词向量表示:
Figure PCTCN2019102206-appb-000005
其中,
Figure PCTCN2019102206-appb-000006
R k表示第L层双向LSTM模型的词向量;
X LM表示待识别文本的初始词向量;
Figure PCTCN2019102206-appb-000007
表示第L层前后词向量;
由此,一个词语在双向LSTM模型中有多层词向量的表示,将双向LSTM模型的多层组合表示为ELMO模型。
在本实施例中,ELMO模型作为一种新的词向量的表达方式,能够充分考虑待识别文本在上下语义表达及语境变化的不同表达,从而提高命名实体识别的准确率。
例如:针对某一词多义的词汇w=“苹果”
文本序列1=“我买了六斤苹果。”
文本序列2=“我买了一个苹果7。”
上面两个文本序列中都出现了“苹果”这个词汇,但是在不同的句子中,它们的含义显示是不同的,第一个属于水果领域,第二个属于电子产品领域。
通过使用ELMO模型,能够准确的辨别词语在语境中的表达意思,提高命名实体的准确性。
加权步骤:将所述第一词向量和所述第二词向量进行加权求和,得到加权求和结果。
通过加权求和的方式,能够更好的利用词向量的动态权重信息,更准确的体现出对待识别文本所要命名实体识别的效果。
在一种实现方式中,可直接将第二词向量放在第一词向量后面,用以共同表征一个词的词义;或者
将第一词向量按照其对应的权重进行处理,得到处理后的第一词向量,将第二词向量按照其对应的权重进行处理,得到处理后的第二词向量,最后,将处理后的第一词向量与处理后的第二词向量进行求和,得到加权求和结果。
进一步地,所述加权步骤包括:
将所述第一词向量和所述第二词向量输入预先训练的Attention模型进行加权求和,得到加权求和结果。
所述Attention模型是深度学习模拟人脑的注意力模型。在一种实施方式中,采用Attention模型可动态地训练词向量的权重,对词向量进行数据加权变换。
例如,当观赏一幅画时,虽然看到整幅画的全貌,但是深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候大脑主要关注在这一小块图案上,也就是说这个时候人脑对整幅图的关注并不是均衡的,是有一定的权重区分的。
序列生成步骤:将所述加权求和结果输入双向LSTM模型处理,得到文本特征序列。
由于,日常生活中所说的语句存在前后关联关系,排列在后面的词语可能影响前面词语的意思表达,所以,为更好的处理词向量,双向LSTM模型在处理词句时分别从前后两个不同的方向进行传播,避免了在处理序列数据时只收到前时刻数据的影响,确保待识别文本命名实体识别的准确性。
本申请实施例利用双向LSTM模型构建与上下文相关的动态词向量表示。
命名识别步骤:将所述文本特征序列输入条件随机场CRF模型处理,得到所述待识别文本的命名实体识别结果。
在传统的机器学习任务中,CRF是根据海量的特征工程提取足够的不同维度的特征,然后根据这些特征做序列标注。实际应用中,CRF模型是一种端到端的深度学习模型,它是在给定需要标记的观察序列(词、句子数值等)的条件下,计算整个标记序列的联合概率分布。
在一种实现方式中,根据双向LSTM得到的文本特征序列M(如M1、M2…Mn),可以采用局部最优解,算出文本特征序列可能的序列K(如K1、K2…Kn)的概率分布,也就是最终的文本标签,即命名实体识别结果。
参照图3所示,为本申请命名实体识别方法应用的各模型协同运作的示意图。基于上述过程,本方案采用了多个模型组合的方式:利用word2vec训练出第一词向量,利用ELMO模型训练出结合上下文语义语境的第二词向量,并对第一词向量和第二词向量通过Attention机制进行加权求和,然后输入到双向LSTM模型中处理,利用双向LSTM模型对词向量进行双向传播,得到的特征文本序列输入CRF模型,通过CRF模型对特征文本序列进行概率分布优化,得到输出每个词的标签,即得到命名实体识别结果。
进一步地,所述序列生成步骤中的双向LSTM模型及命名识别步骤中的CRF模型的训练过程包括:
获取数据集,将数据集划分为训练集、验证集和测试集,其中,所述数据集包括文本资源、已标注命名实体及词向量;
根据所述训练集对初始双向LSTM模型及初始CRF模型进行训练,得到训练后的双向LSTM模型及CRF模型;
根据所述验证集对训练后的双向LSTM模型及CRF模型进行验证;
当验证通过后,采用测试集对验证通过的双向LSTM模型及CRF模型进行测试,测试通过得到目标双向LSTM模型及目标CRF模型。
进一步地,所述文本资源包括:
获取初始文本资源,对初始文本资源进行预处理,得到语句序列;
对语句序列进行分词处理,得到至少一个词序列;
按照词频对词序列中的词进行排序,确定每个词对应的标签信息,得到多个词与标签信息的组合,将词与标签信息的组合作为最终的文本资源。
例如,对于初始文本“我很高兴,明天我要去北京出差,顺便参观北京人民大会堂,北京故宫博物馆。”,进行分词处理得到“我”、“明天”、“北京”、“出差”,对每一个分词进行序列标注,如:“B1”、“B2”、“B3”、“B4”,按照词出现的频率对分词进行标记,如“1”、“2”、“3”、“4”,得到词与标签信息的组合,即得到最终的文本资源。如下表格所示:
Figure PCTCN2019102206-appb-000008
进一步地,所述对初始文本资源进行预处理包括:
对获取到的所述初始文本资源进行文本识别,当识别得到的词及/或字符的使用频率低于预设值时,将低于预设值的词及/或字符进行过滤,得到语句序列。
本实施例中,对初始文本资源进行预处理,可以进一步减少干扰,提高识别的准确性。
在一个实施方式中,对初始文本资源进行预处理,所述预处理以对初始文本资源进行文本识别得到的词及/或字符的使用频率低于预设值时,将低于预设值的词及/或字符进行过滤,得到语句序列,其中,词过滤可以是过滤一些停用词、词频小于一定值的词等等,字符可以是停用字符、无意义字符等。
需要说明的是,本实施例中,对初始文本资源进行词过滤及特殊字符过滤包括但不限于过滤初始文本资源中的词及/或字符,还可以是特殊字符等。
进一步地,所述命名识别步骤包括:
对所述文本特征序列中的每一个词语进行特征标注;
利用CRF模型从预先训练的语料标签库识别与所述词语的特征标注相对应的词标签,将识别到的词标签的信息作为所述命名实体识别结果。
可选地,得到命名实体识别结果后,可以单独显示识别结果,也可以在所述待识别文本的基础上显示识别结果。
例如,对于待识别文本“小明,你不是喜欢爬山吗?这周六天气不错,咱们一起去爬泰山吧,约上其他几个好朋友一起出发。”,应用本方案进行命名实体识别后,识别出的命名实体“小明”、“周六”、“泰山”被标注显示出来。
此外,本申请实施例还提出一种计算机可读存储介质,该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括命名实体识别程序10,所述命名实体识别程序10被处理器执行时实现如下操作:
接收步骤:接收待识别文本;
第一处理步骤:将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量;
第二处理步骤:对所述待识别文本进行分词处理,得到待识别文本中每一句/段对应的第一分词集合,将所述第一分词集合输入预先训练的ELMO模型,以ELMO模型输出的词向量作为所述待识别文本的第二词向量;
加权步骤:将所述第一词向量和所述第二词向量进行加权求和,得到加权求和结果;
序列生成步骤:将所述加权求和结果输入双向LSTM模型处理,得到文 本特征序列;
命名识别步骤:将所述文本特征序列输入条件随机场CRF模型处理,得到所述待识别文本的命名实体识别结果。
本申请之计算机可读存储介质的具体实施方式与上述命名实体识别方法的具体实施方式大致相同,在此不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种命名实体识别方法,应用于电子装置,该方法包括:
    接收步骤:接收待识别文本;
    第一处理步骤:将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量;
    第二处理步骤:对所述待识别文本进行分词处理,得到待识别文本中每一句/段对应的第一分词集合,将所述第一分词集合输入预先训练的ELMO模型,以ELMO模型输出的词向量作为所述待识别文本的第二词向量;
    加权步骤:将所述第一词向量和所述第二词向量进行加权求和,得到加权求和结果;
    序列生成步骤:将所述加权求和结果输入双向LSTM模型处理,得到文本特征序列;
    命名识别步骤:将所述文本特征序列输入条件随机场CRF模型处理,得到所述待识别文本的命名实体识别结果。
  2. 如权利要求1所述的命名实体识别方法,其特征在于,所述ELMO模型的训练过程包括:
    A1,从预设语料库中获取预设数量的指定文本,对所述指定文本进行分句及分词处理,得到所述指定文本中每一句对应的第二分词集合;
    A2,确定所述第二分词集合中各分词对应的词向量,将所述第二分词集合中各分词及所述分词对应的词向量作为样本数据;
    A3,利用所述样本数据对双向LSTM模型进行训练,得到所述ELMO模型。
  3. 如权利要求1所述的命名实体识别方法,其特征在于,所述加权步骤包括:
    将所述第一词向量和所述第二词向量输入预先训练的Attention模型进行加权求和,得到加权求和结果。
  4. 如权利要求1所述的命名实体识别方法,其特征在于,所述序列生成步骤中的双向LSTM模型及命名识别步骤中的CRF模型的训练过程包括:
    获取数据集,将数据集划分为训练集、验证集和测试集,其中,所述数据集包括文本资源、已标注命名实体及词向量;
    根据所述训练集对初始双向LSTM模型及初始CRF模型进行训练,得到训练后的双向LSTM模型及CRF模型;
    根据所述验证集对训练后的双向LSTM模型及CRF模型进行验证;
    当验证通过后,采用测试集对验证通过的双向LSTM模型及CRF模型进行测试,测试通过得到目标双向LSTM模型及目标CRF模型。
  5. 如权利要求4所述的命名实体识别方法,其特征在于,所述文本资源包括:
    获取初始文本资源,对初始文本资源进行预处理,得到语句序列;
    对语句序列进行分词处理,得到至少一个词序列;
    按照词频对词序列中的词进行排序,确定每个词对应的标签信息,得到多个词与标签信息的组合,将词与标签信息的组合作为最终的文本资源。
  6. 如权利要求5所述的命名实体识别方法,其特征在于,所述对初始文本资源进行预处理包括:
    对获取到的所述初始文本资源进行文本识别,当识别得到的词及/或字符的使用频率低于预设值时,将低于预设值的词及/或字符进行过滤,得到语句序列。
  7. 如权利要求1-6任意一项所述的命名实体识别方法,其特征在于,所述命名识别步骤包括:
    对所述文本特征序列中的每一个词语进行特征标注;
    利用CRF模型从预先训练的语料标签库识别与所述词语的特征标注相对应的词标签,将识别到的词标签的信息作为所述命名实体识别结果。
  8. 一种电子装置,该电子装置通信连接客户端及存储节点,其特征在于,所述电子装置包括:存储器及处理器,所述存储器上存储命名实体识别程序,所述命名实体识别程序被所述处理器执行,可实现如下步骤:
    接收步骤:接收待识别文本;
    第一处理步骤:将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量;
    第二处理步骤:对所述待识别文本进行分词处理,得到待识别文本中每一句/段对应的第一分词集合,将所述第一分词集合输入预先训练的ELMO模型,以ELMO模型输出的词向量作为所述待识别文本的第二词向量;
    加权步骤:将所述第一词向量和所述第二词向量进行加权求和,得到加权求和结果;
    序列生成步骤:将所述加权求和结果输入双向LSTM模型处理,得到文本特征序列;
    命名识别步骤:将所述文本特征序列输入条件随机场CRF模型处理,得到所述待识别文本的命名实体识别结果。
  9. 如权利要求8所述的电子装置,其特征在于,所述ELMO模型的训练过程包括:
    A1,从预设语料库中获取预设数量的指定文本,对所述指定文本进行分句及分词处理,得到所述指定文本中每一句对应的第二分词集合;
    A2,确定所述第二分词集合中各分词对应的词向量,将所述第二分词集合中各分词及所述分词对应的词向量作为样本数据;
    A3,利用所述样本数据对双向LSTM模型进行训练,得到所述ELMO模型。
  10. 如权利要求8所述的电子装置,其特征在于,所述加权步骤包括:
    将所述第一词向量和所述第二词向量输入预先训练的Attention模型进行加权求和,得到加权求和结果。
  11. 如权利要求8所述的电子装置,其特征在于,所述序列生成步骤中的双向LSTM模型及命名识别步骤中的CRF模型的训练过程包括:
    获取数据集,将数据集划分为训练集、验证集和测试集,其中,所述数据集包括文本资源、已标注命名实体及词向量;
    根据所述训练集对初始双向LSTM模型及初始CRF模型进行训练,得到训练后的双向LSTM模型及CRF模型;
    根据所述验证集对训练后的双向LSTM模型及CRF模型进行验证;
    当验证通过后,采用测试集对验证通过的双向LSTM模型及CRF模型进行测试,测试通过得到目标双向LSTM模型及目标CRF模型。
  12. 如权利要求11所述的电子装置,其特征在于,所述文本资源包括:
    获取初始文本资源,对初始文本资源进行预处理,得到语句序列;
    对语句序列进行分词处理,得到至少一个词序列;
    按照词频对词序列中的词进行排序,确定每个词对应的标签信息,得到 多个词与标签信息的组合,将词与标签信息的组合作为最终的文本资源。
  13. 如权利要求12所述的电子装置,其特征在于,所述对初始文本资源进行预处理包括:
    对获取到的所述初始文本资源进行文本识别,当识别得到的词及/或字符的使用频率低于预设值时,将低于预设值的词及/或字符进行过滤,得到语句序列。
  14. 如权利要求8-13任意一项所述的电子装置,其特征在于,所述命名识别步骤包括:
    对所述文本特征序列中的每一个词语进行特征标注;
    利用CRF模型从预先训练的语料标签库识别与所述词语的特征标注相对应的词标签,将识别到的词标签的信息作为所述命名实体识别结果。
  15. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括命名实体识别程序,所述命名实体识别程序被处理器执行时,可实现如下步骤:
    接收步骤:接收待识别文本;
    第一处理步骤:将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量;
    第二处理步骤:对所述待识别文本进行分词处理,得到待识别文本中每一句/段对应的第一分词集合,将所述第一分词集合输入预先训练的ELMO模型,以ELMO模型输出的词向量作为所述待识别文本的第二词向量;
    加权步骤:将所述第一词向量和所述第二词向量进行加权求和,得到加权求和结果;
    序列生成步骤:将所述加权求和结果输入双向LSTM模型处理,得到文本特征序列;
    命名识别步骤:将所述文本特征序列输入条件随机场CRF模型处理,得到所述待识别文本的命名实体识别结果。
  16. 如权利要求15所述的计算机可读存储介质,其特征在于,所述ELMO模型的训练过程包括:
    A1,从预设语料库中获取预设数量的指定文本,对所述指定文本进行分句及分词处理,得到所述指定文本中每一句对应的第二分词集合;
    A2,确定所述第二分词集合中各分词对应的词向量,将所述第二分词集合中各分词及所述分词对应的词向量作为样本数据;
    A3,利用所述样本数据对双向LSTM模型进行训练,得到所述ELMO模型。
  17. 如权利要求15所述的计算机可读存储介质,其特征在于,所述加权步骤包括:
    将所述第一词向量和所述第二词向量输入预先训练的Attention模型进行加权求和,得到加权求和结果。
  18. 如权利要求15所述的计算机可读存储介质,其特征在于,所述序列生成步骤中的双向LSTM模型及命名识别步骤中的CRF模型的训练过程包括:
    获取数据集,将数据集划分为训练集、验证集和测试集,其中,所述数据集包括文本资源、已标注命名实体及词向量;
    根据所述训练集对初始双向LSTM模型及初始CRF模型进行训练,得到训练后的双向LSTM模型及CRF模型;
    根据所述验证集对训练后的双向LSTM模型及CRF模型进行验证;
    当验证通过后,采用测试集对验证通过的双向LSTM模型及CRF模型进行测试,测试通过得到目标双向LSTM模型及目标CRF模型。
  19. 如权利要求18所述的计算机可读存储介质,其特征在于,所述文本资源包括:
    获取初始文本资源,对初始文本资源进行预处理,得到语句序列;
    对语句序列进行分词处理,得到至少一个词序列;
    按照词频对词序列中的词进行排序,确定每个词对应的标签信息,得到多个词与标签信息的组合,将词与标签信息的组合作为最终的文本资源。
  20. 如权利要求15-19任意一项所述的计算机可读存储介质,其特征在于,所述命名识别步骤包括:
    对所述文本特征序列中的每一个词语进行特征标注;
    利用CRF模型从预先训练的语料标签库识别与所述词语的特征标注相对应的词标签,将识别到的词标签的信息作为所述命名实体识别结果。
PCT/CN2019/102206 2019-05-20 2019-08-23 命名实体识别方法、电子装置及存储介质 WO2020232861A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910419895.5A CN110287479B (zh) 2019-05-20 2019-05-20 命名实体识别方法、电子装置及存储介质
CN201910419895.5 2019-05-20

Publications (1)

Publication Number Publication Date
WO2020232861A1 true WO2020232861A1 (zh) 2020-11-26

Family

ID=68002417

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/102206 WO2020232861A1 (zh) 2019-05-20 2019-08-23 命名实体识别方法、电子装置及存储介质

Country Status (2)

Country Link
CN (1) CN110287479B (zh)
WO (1) WO2020232861A1 (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463928A (zh) * 2020-12-10 2021-03-09 毛彬 一种面向领域评估预测的技术清单生成方法和系统
CN112487817A (zh) * 2020-12-14 2021-03-12 北京明略软件系统有限公司 命名实体识别模型训练方法、样本标注方法、装置及设备
CN112507716A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 医学命名实体识别方法、装置、电子设备和存储介质
CN112528659A (zh) * 2020-11-30 2021-03-19 京东方科技集团股份有限公司 实体识别方法、实体识别装置、电子设备和存储介质
CN112633003A (zh) * 2020-12-30 2021-04-09 平安科技(深圳)有限公司 一种地址识别方法、装置、计算机设备及存储介质
CN112699685A (zh) * 2021-01-08 2021-04-23 北京工业大学 基于标签引导的字词融合的命名实体识别方法
CN112699684A (zh) * 2020-12-30 2021-04-23 北京明朝万达科技股份有限公司 命名实体识别方法和装置、计算机可读存储介质及处理器
CN112765330A (zh) * 2020-12-31 2021-05-07 科沃斯商用机器人有限公司 文本数据处理方法、装置、电子设备和存储介质
CN112765959A (zh) * 2020-12-31 2021-05-07 康佳集团股份有限公司 意图识别方法、装置、设备及计算机可读存储介质
CN112818691A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 命名实体识别模型训练方法及装置
CN112836482A (zh) * 2021-02-09 2021-05-25 浙江工商大学 一种基于模板的序列生成模型生成问题的方法及装置
CN113128196A (zh) * 2021-05-19 2021-07-16 腾讯科技(深圳)有限公司 文本信息处理方法及其装置、存储介质
CN113158677A (zh) * 2021-05-13 2021-07-23 竹间智能科技(上海)有限公司 一种命名实体识别方法和系统
CN113239659A (zh) * 2021-04-21 2021-08-10 上海快确信息科技有限公司 一种融合规则的文本数字抽取装置
CN113268452A (zh) * 2021-05-25 2021-08-17 联仁健康医疗大数据科技股份有限公司 一种实体抽取的方法、装置、设备和存储介质
CN113297851A (zh) * 2021-06-21 2021-08-24 北京富通东方科技有限公司 一种针对易混淆运动损伤实体词的识别方法
CN113361253A (zh) * 2021-05-28 2021-09-07 北京金山数字娱乐科技有限公司 识别模型训练方法及装置
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113408291A (zh) * 2021-07-09 2021-09-17 平安国际智慧城市科技股份有限公司 中文实体识别模型的训练方法、装置、设备及存储介质
CN113468892A (zh) * 2021-06-21 2021-10-01 北京搜狗科技发展有限公司 一种模型测试方法、装置和用于模型测试的装置
CN113486173A (zh) * 2021-06-11 2021-10-08 南京邮电大学 文本标注神经网络模型及其标注方法
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置
CN113627187A (zh) * 2021-08-12 2021-11-09 平安国际智慧城市科技股份有限公司 命名实体识别方法、装置、电子设备及可读存储介质
CN113870052A (zh) * 2021-09-28 2021-12-31 国网福建省电力有限公司 基于多输入lstm-cnn的工作票安全措施识别方法及终端
CN114048748A (zh) * 2021-11-17 2022-02-15 上海勃池信息技术有限公司 命名实体识别系统、方法、电子设备及介质
CN114417873A (zh) * 2022-01-17 2022-04-29 软通动力信息技术(集团)股份有限公司 一种少样本实体识别方法、装置、介质及设备
CN115169350A (zh) * 2022-07-14 2022-10-11 中国电信股份有限公司 情报信息的处理方法、装置、设备、介质及程序
CN116070001A (zh) * 2023-02-03 2023-05-05 深圳市艾莉诗科技有限公司 基于互联网的信息定向抓取方法及装置
CN116341552A (zh) * 2023-04-11 2023-06-27 国网河南省电力公司电力科学研究院 基于Bert-CRF的变电站防汛命名实体识别方法
CN116561588A (zh) * 2023-07-07 2023-08-08 北京国电通网络技术有限公司 电力文本识别模型构建方法、电力设备维修方法和装置
CN112633003B (zh) * 2020-12-30 2024-05-31 平安科技(深圳)有限公司 一种地址识别方法、装置、计算机设备及存储介质

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909548B (zh) * 2019-10-10 2024-03-12 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
CN110705302B (zh) * 2019-10-11 2023-12-12 掌阅科技股份有限公司 命名实体的识别方法、电子设备及计算机存储介质
CN111026851B (zh) * 2019-10-18 2023-09-15 平安科技(深圳)有限公司 模型预测能力优化方法、装置、设备及可读存储介质
CN112989828A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 命名实体识别模型的训练方法、装置、介质及电子设备
CN111222327B (zh) * 2019-12-23 2023-04-28 东软集团股份有限公司 一种词嵌入表示方法、装置及设备
CN111144118B (zh) * 2019-12-26 2023-05-12 携程计算机技术(上海)有限公司 口语化文本中命名实体的识别方法、系统、设备和介质
CN111310456B (zh) * 2020-02-13 2023-06-20 支付宝(杭州)信息技术有限公司 一种实体名称匹配方法、装置及设备
CN111368526B (zh) * 2020-03-03 2023-04-25 支付宝(杭州)信息技术有限公司 一种序列标注方法和系统
CN111444723B (zh) * 2020-03-06 2023-07-28 深圳追一科技有限公司 信息抽取方法、计算机设备和存储介质
CN111553157A (zh) * 2020-04-08 2020-08-18 南通大学 一种基于实体替换的对话意图识别方法
CN111859933B (zh) * 2020-05-11 2023-08-22 广东外语外贸大学 马来语识别模型的训练方法、识别方法、装置、设备
CN111597814B (zh) * 2020-05-22 2023-05-26 北京慧闻科技(集团)有限公司 一种人机交互命名实体识别方法、装置、设备及存储介质
CN111506722B (zh) * 2020-06-16 2024-03-08 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备
CN111737999A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种序列标注方法、装置、设备及可读存储介质
CN111881692B (zh) * 2020-07-28 2023-01-13 平安科技(深圳)有限公司 基于多训练目标的机构实体抽取方法、系统及装置
CN111950286A (zh) * 2020-08-10 2020-11-17 云南电网有限责任公司信息中心 一种人工智能法务评审引擎系统开发方法
CN114330341A (zh) * 2020-10-09 2022-04-12 阿里巴巴集团控股有限公司 命名实体识别方法和命名实体识别装置
CN112329476A (zh) * 2020-11-11 2021-02-05 北京京东尚科信息技术有限公司 一种文本纠错方法及装置、设备、存储介质
CN112651224A (zh) * 2020-12-24 2021-04-13 天津大学 工程施工安全管理文档文本智能检索方法及装置
CN114036935A (zh) * 2021-07-13 2022-02-11 北京金山数字娱乐科技有限公司 一种实体识别方法、模型训练方法及装置
CN113807099B (zh) * 2021-09-22 2024-02-13 北京百度网讯科技有限公司 实体信息识别方法、装置、电子设备以及存储介质
CN114722822B (zh) * 2022-03-22 2024-01-19 平安科技(深圳)有限公司 命名实体识别方法、装置、设备和计算机可读存储介质
CN115114924A (zh) * 2022-06-17 2022-09-27 珠海格力电器股份有限公司 命名实体识别方法、装置、计算设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109766424A (zh) * 2018-12-29 2019-05-17 安徽省泰岳祥升软件有限公司 一种阅读理解模型训练数据的过滤方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10169315B1 (en) * 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
CN109101481B (zh) * 2018-06-25 2022-07-22 北京奇艺世纪科技有限公司 一种命名实体识别方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109766424A (zh) * 2018-12-29 2019-05-17 安徽省泰岳祥升软件有限公司 一种阅读理解模型训练数据的过滤方法及装置

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507716A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 医学命名实体识别方法、装置、电子设备和存储介质
CN112528659A (zh) * 2020-11-30 2021-03-19 京东方科技集团股份有限公司 实体识别方法、实体识别装置、电子设备和存储介质
CN112507716B (zh) * 2020-11-30 2023-07-21 北京百度网讯科技有限公司 医学命名实体识别方法、装置、电子设备和存储介质
CN112463928B (zh) * 2020-12-10 2024-06-07 中国人民解放军军事科学院军事科学信息研究中心 一种面向领域评估预测的技术清单生成方法和系统
CN112463928A (zh) * 2020-12-10 2021-03-09 毛彬 一种面向领域评估预测的技术清单生成方法和系统
CN112487817A (zh) * 2020-12-14 2021-03-12 北京明略软件系统有限公司 命名实体识别模型训练方法、样本标注方法、装置及设备
CN112633003A (zh) * 2020-12-30 2021-04-09 平安科技(深圳)有限公司 一种地址识别方法、装置、计算机设备及存储介质
CN112699684A (zh) * 2020-12-30 2021-04-23 北京明朝万达科技股份有限公司 命名实体识别方法和装置、计算机可读存储介质及处理器
CN112633003B (zh) * 2020-12-30 2024-05-31 平安科技(深圳)有限公司 一种地址识别方法、装置、计算机设备及存储介质
CN112765959B (zh) * 2020-12-31 2024-05-28 康佳集团股份有限公司 意图识别方法、装置、设备及计算机可读存储介质
CN112765959A (zh) * 2020-12-31 2021-05-07 康佳集团股份有限公司 意图识别方法、装置、设备及计算机可读存储介质
CN112765330A (zh) * 2020-12-31 2021-05-07 科沃斯商用机器人有限公司 文本数据处理方法、装置、电子设备和存储介质
CN112699685B (zh) * 2021-01-08 2024-03-29 北京工业大学 基于标签引导的字词融合的命名实体识别方法
CN112699685A (zh) * 2021-01-08 2021-04-23 北京工业大学 基于标签引导的字词融合的命名实体识别方法
CN112818691A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 命名实体识别模型训练方法及装置
CN112836482A (zh) * 2021-02-09 2021-05-25 浙江工商大学 一种基于模板的序列生成模型生成问题的方法及装置
CN112836482B (zh) * 2021-02-09 2024-02-23 浙江工商大学 一种基于模板的序列生成模型生成问题的方法及装置
CN113239659A (zh) * 2021-04-21 2021-08-10 上海快确信息科技有限公司 一种融合规则的文本数字抽取装置
CN113158677B (zh) * 2021-05-13 2023-04-07 竹间智能科技(上海)有限公司 一种命名实体识别方法和系统
CN113158677A (zh) * 2021-05-13 2021-07-23 竹间智能科技(上海)有限公司 一种命名实体识别方法和系统
CN113128196A (zh) * 2021-05-19 2021-07-16 腾讯科技(深圳)有限公司 文本信息处理方法及其装置、存储介质
CN113268452A (zh) * 2021-05-25 2021-08-17 联仁健康医疗大数据科技股份有限公司 一种实体抽取的方法、装置、设备和存储介质
CN113268452B (zh) * 2021-05-25 2024-02-02 联仁健康医疗大数据科技股份有限公司 一种实体抽取的方法、装置、设备和存储介质
CN113361253A (zh) * 2021-05-28 2021-09-07 北京金山数字娱乐科技有限公司 识别模型训练方法及装置
CN113361253B (zh) * 2021-05-28 2024-04-09 北京金山数字娱乐科技有限公司 识别模型训练方法及装置
CN113486173B (zh) * 2021-06-11 2023-09-12 南京邮电大学 文本标注神经网络模型及其标注方法
CN113486173A (zh) * 2021-06-11 2021-10-08 南京邮电大学 文本标注神经网络模型及其标注方法
CN113297851A (zh) * 2021-06-21 2021-08-24 北京富通东方科技有限公司 一种针对易混淆运动损伤实体词的识别方法
CN113468892A (zh) * 2021-06-21 2021-10-01 北京搜狗科技发展有限公司 一种模型测试方法、装置和用于模型测试的装置
CN113297851B (zh) * 2021-06-21 2024-03-05 北京富通东方科技有限公司 一种针对易混淆运动损伤实体词的识别方法
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113377965B (zh) * 2021-06-30 2024-02-23 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113408291A (zh) * 2021-07-09 2021-09-17 平安国际智慧城市科技股份有限公司 中文实体识别模型的训练方法、装置、设备及存储介质
CN113408291B (zh) * 2021-07-09 2023-06-30 平安国际智慧城市科技股份有限公司 中文实体识别模型的训练方法、装置、设备及存储介质
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置
CN113627187A (zh) * 2021-08-12 2021-11-09 平安国际智慧城市科技股份有限公司 命名实体识别方法、装置、电子设备及可读存储介质
CN113870052A (zh) * 2021-09-28 2021-12-31 国网福建省电力有限公司 基于多输入lstm-cnn的工作票安全措施识别方法及终端
CN114048748B (zh) * 2021-11-17 2024-04-05 上海勃池信息技术有限公司 命名实体识别系统、方法、电子设备及介质
CN114048748A (zh) * 2021-11-17 2022-02-15 上海勃池信息技术有限公司 命名实体识别系统、方法、电子设备及介质
CN114417873A (zh) * 2022-01-17 2022-04-29 软通动力信息技术(集团)股份有限公司 一种少样本实体识别方法、装置、介质及设备
CN115169350A (zh) * 2022-07-14 2022-10-11 中国电信股份有限公司 情报信息的处理方法、装置、设备、介质及程序
CN115169350B (zh) * 2022-07-14 2024-03-12 中国电信股份有限公司 情报信息的处理方法、装置、设备、介质及程序
CN116070001B (zh) * 2023-02-03 2023-12-19 深圳市艾莉诗科技有限公司 基于互联网的信息定向抓取方法及装置
CN116070001A (zh) * 2023-02-03 2023-05-05 深圳市艾莉诗科技有限公司 基于互联网的信息定向抓取方法及装置
CN116341552A (zh) * 2023-04-11 2023-06-27 国网河南省电力公司电力科学研究院 基于Bert-CRF的变电站防汛命名实体识别方法
CN116561588B (zh) * 2023-07-07 2023-10-20 北京国电通网络技术有限公司 电力文本识别模型构建方法、电力设备维修方法和装置
CN116561588A (zh) * 2023-07-07 2023-08-08 北京国电通网络技术有限公司 电力文本识别模型构建方法、电力设备维修方法和装置

Also Published As

Publication number Publication date
CN110287479B (zh) 2022-07-22
CN110287479A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
US11347782B2 (en) Internet text mining-based method and apparatus for judging validity of point of interest
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN107679039B (zh) 用于确定语句意图的方法和装置
US11113323B2 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
US10678786B2 (en) Translating search queries on online social networks
US20190108282A1 (en) Parsing and Classifying Search Queries on Online Social Networks
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN107807968B (zh) 基于贝叶斯网络的问答装置、方法及存储介质
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN114595686A (zh) 知识抽取方法、知识抽取模型的训练方法及装置
JP2022145623A (ja) ヒント情報を提示する方法及び装置並びにコンピュータプログラム
CN111931488A (zh) 用于验证判断结果准确性的方法、装置、电子设备及介质
CN107766498A (zh) 用于生成信息的方法和装置
US11822590B2 (en) Method and system for detection of misinformation
CN112836019B (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN112837466B (zh) 票据识别方法、装置、设备以及存储介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN117313138A (zh) 基于nlp的社交网络隐私感知系统及方法
CN112131884B (zh) 用于实体分类的方法和装置、用于实体呈现的方法和装置
CN113609833B (zh) 文件的动态生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19929757

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19929757

Country of ref document: EP

Kind code of ref document: A1