RU2722571C1 - Method of recognizing named entities in network text based on elimination of probability ambiguity in neural network - Google Patents
Method of recognizing named entities in network text based on elimination of probability ambiguity in neural network Download PDFInfo
- Publication number
- RU2722571C1 RU2722571C1 RU2019117529A RU2019117529A RU2722571C1 RU 2722571 C1 RU2722571 C1 RU 2722571C1 RU 2019117529 A RU2019117529 A RU 2019117529A RU 2019117529 A RU2019117529 A RU 2019117529A RU 2722571 C1 RU2722571 C1 RU 2722571C1
- Authority
- RU
- Russia
- Prior art keywords
- neural network
- word
- text
- probability
- named entities
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY
Настоящее изобретение относится к обработке и анализу сетевого текста, в частности, к способу распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети.The present invention relates to processing and analysis of network text, in particular, to a method for recognizing named entities of network text based on the elimination of probability ambiguity in a neural network.
УРОВЕНЬ ТЕХНИКИBACKGROUND
Сети подняли скорость и масштаб сбора и распространения информации на беспрецедентный уровень, сделали реальным глобальное распространение и обмен информацией и стали незаменимой инфраструктурой в информационном сообществе. Современные технологии коммуникации и распространения значительно повысили скорость и широту распространения информации. Однако существуют сопутствующие проблемы и «побочные эффекты»: иногда люди путаются в хаотичной информации, и бывает очень сложно быстро и точно выделить конкретную требуемую информацию из огромного объема информации. Это является предпосылкой для анализа и получения именованных сущностей, таких как люди, места, организации и т.д., интересующих пользователей Интернета, из массива сетевого текста для предоставления важной справочной информации для различных приложений верхнего уровня, таких как интернет-маркетинг, анализ эмоций группы и т.д. Соответственно, распознавание именованных сущностей сетевого текста стало важной базовой технологией обработки и анализа сетевых данных.Networks have increased the speed and scale of the collection and dissemination of information to an unprecedented level, have made the global dissemination and exchange of information real, and have become an indispensable infrastructure in the information community. Modern communication and dissemination technologies have significantly increased the speed and breadth of information dissemination. However, there are concomitant problems and “side effects”: sometimes people get confused in chaotic information, and it is very difficult to quickly and accurately extract specific information from a huge amount of information. This is a prerequisite for the analysis and retrieval of named entities, such as people, places, organizations, etc., of interest to Internet users, from an array of network text to provide important reference information for various top-level applications, such as Internet marketing, analysis of emotions groups etc. Accordingly, the recognition of named entities of network text has become an important basic technology for processing and analyzing network data.
В исследовании рассматриваются два способа распознавания именованных сущностей, а именно, способ на основе правил и способ на основе статистики. Поскольку теория машинного обучения постоянно совершенствуется и скорость вычислений значительно улучшается, способу на основе статистики отдается все большее предпочтение.The study considers two ways of recognizing named entities, namely, a rule-based method and a statistics-based method. Since the theory of machine learning is constantly being improved and the speed of computation is significantly improved, a method based on statistics is increasingly preferred.
В настоящее время статистические модели и способы, применяемые в распознавании именованных сущностей, в основном включают: скрытую марковскую модель, решающее дерево, модель максимальной энтропии, модель опорных векторов, условное случайное поле и искусственную нейронную сеть. Искусственная нейронная сеть может достичь лучшего результата в распознавании именованных сущностей, чем условное случайное поле, модель максимальной энтропии и другие модели, но модель условного случайного поля и максимальной энтропии по-прежнему являются доминирующими практическими моделями. Например, в Патентном документе № CN 201310182978.X предложен способ распознавания именованных сущностей и устройство для микроблогового текста на основе условного случайного поля и библиотеки именованных сущностей. В Патентном документе № CN 200710098635.X предложен способ распознавания именованных сущностей, который использует признаки слова и применяет модель максимальной энтропии для моделирования. Искусственную нейронную сеть сложно использовать на практике, поскольку она часто требует преобразования слов в векторы в пространстве векторов слов в области распознавания именованных сущностей. Вследствие этого, искусственная нейронная сеть не может применяться в крупномасштабных практических приложениях, потому что она не способна получать соответствующие векторы для новых слов.Currently, statistical models and methods used in the recognition of named entities mainly include a hidden Markov model, a decision tree, a model of maximum entropy, a model of support vectors, a conditional random field, and an artificial neural network. An artificial neural network can achieve a better result in the recognition of named entities than the conditional random field, the maximum entropy model and other models, but the conditional random field and maximum entropy model are still the dominant practical models. For example, Patent Document No. CN 201310182978.X proposes a method for recognizing named entities and a device for microblogging text based on a conditional random field and a library of named entities. Patent Document No. CN 200710098635.X proposes a method for recognizing named entities that uses the features of a word and applies a maximum entropy model for modeling. An artificial neural network is difficult to use in practice, because it often requires the conversion of words into vectors in the space of word vectors in the field of recognition of named entities. As a result, an artificial neural network cannot be used in large-scale practical applications, because it is not able to obtain the corresponding vectors for new words.
Вследствие вышеупомянутой существующей ситуации при распознавании именованных сущностей для сетевого текста в основном существуют следующие проблемы: во-первых, невозможно обучить пространство векторов слов, содержащее все слова, чтобы обучить нейронную сеть, потому что в сетевом тексте существует много сетевых слов, новых слов и неправильно написанных или искаженных символов; во-вторых, точность распознавания именованных сущностей для сетевых текстов ухудшается в результате существующих в сетевом тексте явлений, таких как произвольные языковые формы, нестандартные грамматические конструкции, неправильно написанные или искаженные символы и т.д.Due to the aforementioned existing situation, when recognizing named entities for network text, there are basically the following problems: firstly, it is impossible to train a word vector space containing all words in order to train a neural network, because there are many network words, new words and incorrect words in network text written or distorted characters; secondly, the recognition accuracy of named entities for network texts is deteriorated as a result of phenomena existing in the network text, such as arbitrary language forms, non-standard grammatical constructions, misspelled or distorted characters, etc.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION
Задача изобретения состоит в преодолении недостатков предшествующего уровня техники, настоящее изобретение предоставляет способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети, который выделяет признаки слова в пошаговом режиме без переобучения нейронной сети и выполняет распознавание путем устранения неоднозначности вероятности. Способ получает матрицу прогнозирования вероятности для названной категории именованной сущности слова из нейронной сети посредством обучения нейронной сети и выполняет устранение неоднозначностей на матрице прогнозирования, выведенной из нейронной сети в вероятностной модели, и тем самым повышает точность и правильность распознавания именованных сущностей сетевого текста.The objective of the invention is to overcome the disadvantages of the prior art, the present invention provides a method for recognizing named entities of network text based on the elimination of the probability of ambiguity in a neural network, which identifies the signs of a word in a step-by-step mode without retraining the neural network and performs recognition by eliminating the probability of ambiguity. The method obtains a probability prediction matrix for the named category of the named entity of the word from the neural network by training the neural network and performs disambiguation on the forecast matrix derived from the neural network in the probabilistic model, and thereby improves the accuracy and accuracy of recognition of named entities of the network text.
Техническая схема: для достижения задачи, описанной выше, техническая схема, используемая настоящим изобретением, является следующей:Technical scheme: to achieve the task described above, the technical scheme used by the present invention is as follows:
Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети выполняет разбиение на слова на неразмеченном корпусе текстов, используя Word2Vec для выделения вектора слова, преобразует эталонные корпуса текстов в матрицу признаков слова и выполняет обработку методом окна, выполняет построение глубокой нейронной сети для обучения, добавляет функцию Softmax в выходной слой нейронной сети и выполняет нормализацию для получения матрицы вероятностей категории именованных сущностей, соответствующих каждому слову; выполняет повторную обработку матрицы вероятностей методом окна и применяет модель условных случайных полей для устранения неоднозначностей для получения окончательного тега именованной сущности.A method for recognizing named entities of network text based on the elimination of probability ambiguity in a neural network performs word breaking on an unallocated body of texts, using Word2Vec to select a word vector, converts the reference body of texts into a matrix of word attributes and performs window processing, constructs a deep neural network for training, adds the Softmax function to the output layer of the neural network and performs normalization to obtain a probability matrix of the category of named entities corresponding to each word; performs reprocessing of the probability matrix by the window method and applies the conditional random field model to eliminate ambiguities to obtain the final tag of the named entity.
В частности, способ включает следующие этапы:In particular, the method includes the following steps:
этап 1: получение неразмеченного корпуса текстов при помощи поискового робота, получение эталонных корпусов текстов с тегами именованных сущностей из базы данных корпусов текстов и выполнение разбиения на слова на неразмеченном корпусе текстов при помощи естественно-языкового инструмента;stage 1: obtaining an unallocated body of texts with the help of a search robot, obtaining reference body of texts with tags of named entities from the database of body of texts and performing word splitting on an unallocated body of texts using a natural language tool;
этап 2: выполнение обучения пространства векторов слов на сегментированном неразмеченном корпусе текстов и эталонных корпусах текстов при помощи инструмента Word2Vec;stage 2: performing training of the space of word vectors on a segmented unallocated case of texts and reference cases of texts using the Word2Vec tool;
этап 3: преобразование текста в эталонных корпусах текстов в вектор слова, представляющий признаки слова в соответствии с обученной моделью Word2Vec (векторного представления слов), выполнение обработки вектора слова методом окна и использование двумерной матрицы, полученной умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; преобразование тегов в эталонных корпусах текстов в форму для быстрого доступа (с одним активным состоянием) и использование их в качестве выходных данных нейронной сети; выполнение нормализации на выходном слое нейронной сети с помощью функции Softmax (многопеременная логистическая функция), так что результат категоризации, выдаваемый нейронной сетью, соответствует вероятности того, относится ли слово к неименованной сущности или именованной сущности, выполнение корректировки структуры, глубины, количества узлов, длины шага, функции активации и параметров начальных значений в нейронной сети и выбор функции активации для обучения нейронной сети;stage 3: converting the text in the reference text cases into a word vector representing the word attributes in accordance with the trained Word2Vec model (vector representation of words), performing the processing of the word vector by the window method and using a two-dimensional matrix obtained by multiplying the window w by the length d of the word vector, in quality of data input into the neural network; conversion of tags in the reference text bodies into a form for quick access (with one active state) and their use as output data of a neural network; performing normalization on the output layer of the neural network using the Softmax function (multi-variable logistic function), so that the categorization result generated by the neural network corresponds to the probability of whether the word refers to an unnamed entity or a named entity, adjusting the structure, depth, number of nodes, length steps, activation functions and parameters of initial values in the neural network and selection of the activation function for training the neural network;
этап 4: выполнение повторной обработки методом окна матрицы прогнозирования, выведенной из нейронной сети, с использованием информации, прогнозирующей контекст слова, подлежащего тегированию, в качестве точки корреляции с фактической категорией слова, подлежащего тегированию, в модели условных случайных полей, использование алгоритма максимизации оценивания для расчета ожидаемых значений по всем сторонам в соответствии с обучающими корпусами текстов и обучение соответствующей модели условных случайных полей;stage 4: performing repeated processing by the method of the window of the prediction matrix derived from the neural network, using information predicting the context of the word to be tagged as a correlation point with the actual category of the word to be tagged in the conditional random field model, using the estimation maximization algorithm for calculating expected values on all sides in accordance with the training corps of texts and training the corresponding model of conditional random fields;
этап 5: в процессе распознавания вначале выполняют преобразование текста, подлежащего распознаванию, в вектор слова, который отображает признаки слова в соответствии с обученной моделью Word2Vec, и если модель Word2Vec не содержит соответствующего обучающего слова, выполняется преобразование слова в вектор слова посредством пошагового обучения, извлечение вектора слова и обратное отслеживание пространства векторов слов и т.д., выполняют обработку вектора слова методом окна и используют двумерную матрицу, полученную умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; затем выполняют повторную обработку методом окна матрицы прогнозирования, полученной из нейронной сети, выполняют устранение неоднозначностей на матрице прогнозирования в обученной модели условных случайных полей и получают окончательный тег именованной сущности текста, подлежащего распознаванию.step 5: in the recognition process, first, the text to be recognized is converted to a word vector that displays the features of the word in accordance with the trained Word2Vec model, and if the Word2Vec model does not contain the corresponding learning word, the word is converted into a word vector by step-by-step learning, extraction word vectors and inverse tracking of the space of word vectors, etc., perform word vector processing by the window method and use a two-dimensional matrix obtained by multiplying the window w by the length d of the word vector as data input into the neural network; then, repeated processing by the window prediction matrix method obtained from the neural network is performed, disambiguation on the forecast matrix in the trained model of conditional random fields is performed, and the final tag of the named entity of the text to be recognized is obtained.
Предпочтительно, параметры инструмента Word2Vec являются следующими: длина вектора слова: 200, число итераций: 25, начальная длина шага: 0,025, минимальная длина шага: 0,0001 и выбрана модель CBOW.Preferably, the parameters of the Word2Vec tool are: word vector length: 200, number of iterations: 25, initial step length: 0.025, minimum step length: 0.0001, and the CBOW model is selected.
Предпочтительно, параметры нейронной сети являются следующими: количество скрытых слоев: 2, количество скрытых узлов: 150, длина шага: 0,01, размер пакета (batchSize): 40, функция активации: сигмоидальная функция.Preferably, the parameters of the neural network are as follows: number of hidden layers: 2, number of hidden nodes: 150, step length: 0.01, packet size (batchSize): 40, activation function: sigmoid function.
Предпочтительно, преобразование тегов в эталонных корпусах текстов в форму для быстрого доступа выполняют следующим способом: выполняют преобразование тегов "/о", "/n" и "/р" в эталонных корпусах текстов в теги именованной сущности "/Org-B", "Org-I", "/Per-B", "/Per-I", "/Loc-B" и "/Loc-I", соответственно, и последующее выполняют преобразование тегов именованной сущности в форму для быстрого доступа.Preferably, the conversion of tags in the reference text bodies to a quick access form is performed in the following way: converting the tags "/ o", "/ n" and "/ p" in the reference text bodies to tags of the named entity "/ Org-B", " Org-I "," / Per-B "," / Per-I "," / Loc-B "and" / Loc-I ", respectively, and the subsequent ones convert the tags of the named entity into a form for quick access.
Предпочтительно, размер окна для выполнения обработки вектора слова методом окна равен 5.Preferably, the window size for performing word vector processing by the window method is 5.
Предпочтительно, при обучении нейронной сети, одна десятая слов выделяется из эталонных данных и исключается из обучения нейронной сети, но используется в качестве критерия оценки для нейронной сети.Preferably, when training a neural network, one tenth of the words are extracted from the reference data and excluded from the training of the neural network, but is used as an evaluation criterion for the neural network.
По сравнению с предшествующим уровнем техники настоящее изобретение обеспечивает следующие полезные эффекты:Compared with the prior art, the present invention provides the following beneficial effects:
Векторы слов без переобучения нейронной сети можно выделять в пошаговом режиме, прогнозирование можно выполнять с помощью нейронной сети и устранение неоднозначностей можно выполнять с помощью вероятностной модели, так что способ достигает лучшей выполнимости, точности и правильности при распознавании именованных сущностей сетевого текста. В задаче распознавания именованных сущностей сетевого текста настоящее изобретение предусматривает способ пошагового обучения вектора слова без изменения структуры нейронной сети в соответствии с особенностью существования сетевых слов и новых слов, и использует модель устранения неоднозначности вероятности для решения проблем, заключающихся в том, что сетевые тексты имеют нестандартную грамматическую конструкцию и содержат много неправильно написанных или искаженных символов. Таким образом, способ, предоставленный в настоящем изобретении, обеспечивает высокую точность в задачах распознавания именованных сущностей сетевого текста.Word vectors without retraining a neural network can be selected in a step-by-step mode, forecasting can be performed using a neural network, and disambiguation can be performed using a probabilistic model, so that the method achieves better feasibility, accuracy and correctness when recognizing named entities of network text. In the task of recognizing named entities of network text, the present invention provides a method for step-by-step learning of a word vector without changing the structure of a neural network in accordance with the peculiarity of the existence of network words and new words, and uses a probability disambiguation model to solve the problems that network texts have non-standard grammatical construction and contain a lot of misspelled or distorted characters. Thus, the method provided in the present invention provides high accuracy in recognition tasks of named entities of network text.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS
На фиг. 1 представлена блок-схема обучения устройства для распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети согласно настоящему изобретению;In FIG. 1 is a block diagram of a training device for recognizing named entities of network text based on disambiguation of probability in a neural network according to the present invention;
На фиг. 2 представлена блок-схема преобразования слова в признаки слова согласно настоящему изобретению;In FIG. 2 is a flowchart of converting a word into a word attribute according to the present invention;
На фиг. 3 представлена принципиальная схема обработки текста и архитектуры нейронной сети согласно настоящему изобретению.In FIG. 3 is a schematic diagram of text processing and neural network architecture according to the present invention.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION
Далее настоящее изобретение будет дополнительно подробно описано в соответствии с вариантами осуществления со ссылкой на прилагаемые чертежи. Следует понимать, что данные варианты осуществления представлены только для описания настоящего изобретения и не должны рассматриваться как создающие какое-либо ограничение объема настоящего изобретения. После прочтения данного раскрытия модификации настоящего изобретения в различных эквивалентных формах, сделанные специалистами в данной области техники, будут считаться входящими в защищаемый объем, как определено прилагаемой формулой изобретения в данной заявке.The invention will now be further described in detail in accordance with embodiments with reference to the accompanying drawings. It should be understood that these options for implementation are presented only to describe the present invention and should not be construed as creating any limitation of the scope of the present invention. After reading this disclosure, modifications of the present invention in various equivalent forms made by those skilled in the art will be deemed to be within the protected scope as defined by the appended claims in this application.
Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети выполняет разбиение на слова на неразмеченном корпусе текстов, используя модель Word2Vec для выделения вектора слова, преобразует эталонные корпуса текстов в матрицу признаков слова и выполняет обработку методом окна (windowing), создает глубокую нейронную сеть для обучения, добавляет функцию Softmax в выходной слой нейронной сети и выполняет нормализацию для получения матрицы вероятностей категории именованных сущностей, соответствующих каждому слову; выполняет повторную обработку матрицы вероятностей методом окна и применяет модель условных случайных полей для устранения неоднозначности для получения окончательного тега именованной сущности.A method for recognizing named entities of network text based on the elimination of probability ambiguity in a neural network performs word breaking on an unallocated body of texts, using the Word2Vec model to highlight a word vector, converts the reference text bodies into a word feature matrix and performs windowing processing, creates a deep a neural network for training, adds the Softmax function to the output layer of a neural network and performs normalization to obtain a probability matrix of the category of named entities corresponding to each word; performs reprocessing of the probability matrix by the window method and applies the conditional random field model to eliminate the ambiguity to obtain the final tag of the named entity.
В частности, способ включает следующие этапы:In particular, the method includes the following steps:
этап 1: Получение неразмеченного корпуса текстов при помощи поискового робота, загрузка корпуса текстов с тегами именованной сущности в качестве эталонных корпусов текстов из базы данных корпусов текстов, и выполнение разбиения на слова на неразмеченном корпусе текстов при помощи естественно-языкового инструмента;Stage 1: Obtaining an unallocated body of texts using a search robot, loading a body of texts with tags of a named entity as reference text bodies from the database of body of texts, and breaking into words on an unallocated body of texts using a natural language tool;
этап 2: Выполнение обучения пространства векторов слов на сегментированном неразмеченном корпусе текстов и эталонных корпусах текстов при помощи инструмента Word2Vec;stage 2: Performing training of the space of word vectors on a segmented unallocated body of texts and reference text bodies using the Word2Vec tool;
этап 3: Преобразование текста в эталонных корпусах текстов в вектор слова, представляющий признаки слова в соответствии с обученной моделью Word2Vec, и использование вектора слова в качестве данных, вводимых в нейронную сеть; преобразование тегов в эталонных корпусах текстов в форму для быстрого доступа и использование их в качестве выходных данных нейронной сети. Ввиду того, что в задаче обработки текста именованная сущность может быть разделена на несколько слов, тегирование выполняют в шаблоне 10 В, чтобы гарантировать, что распознанная именованная сущность имеет целостность.stage 3: Converting the text in the reference text bodies into a word vector representing the characteristics of the word in accordance with the trained Word2Vec model, and using the word vector as data input into the neural network; conversion of tags in reference text cases into a form for quick access and their use as output from a neural network. Due to the fact that in a text processing task a named entity can be divided into several words, tagging is performed in a 10 V template to ensure that the recognized named entity has integrity.
К какой названной категории сущности относится слово, следует оценивать не только на основе самого слова, но и дополнительно оценивать в соответствии с контекстной информацией о слове. Таким образом, при построении нейронной сети вводится понятие «окна», то есть при оценке слова, как слово, так и характерная информация контента в виде его фиксированной длины принимаются в качестве входных данных для нейронной сети; таким образом, входной информацией в нейронную сеть больше не является длина d вектора признака слова, а вместо этого представляет собой двумерную матрицу, полученную умножением окна w на длину d вектора признака слова.Which named category of entity the word belongs to, should be evaluated not only on the basis of the word itself, but also additionally evaluated in accordance with the contextual information about the word. Thus, when constructing a neural network, the concept of “window” is introduced, that is, when evaluating a word, both the word and the characteristic content information in the form of its fixed length are taken as input to the neural network; thus, the input information to the neural network is no longer the length d of the word attribute vector, but instead is a two-dimensional matrix obtained by multiplying the window w by the length d of the word attribute vector.
Выходной слой нейронной сети нормализируется при помощи функции Softmax, так что результат категоризации, выдаваемый нейронной сетью, соответствует вероятности того, относится ли слово к неименованной сущности или именованной сущности. Структура, глубина, количество узлов, длина шага, функция активации, параметры начальных значений в нейронной сети настраиваются и для обучения нейронной сети выбирается функция активации.The output layer of the neural network is normalized using the Softmax function, so the categorization result generated by the neural network corresponds to the probability of whether the word refers to an unnamed entity or a named entity. The structure, depth, number of nodes, step length, activation function, initial values in the neural network are configured and the activation function is selected to train the neural network.
этап 4: Выполнение повторной обработки методом окна матрицы прогнозирования, выведенной из нейронной сети, с использованием информации, прогнозирующей контекст слова, подлежащего тегированию в качестве точки корреляции с фактической категорией слова, подлежащего тегированию, в модели условных случайных полей, использование алгоритма максимизации оценивания (ЕМ algorithm) для расчета ожидаемых значений по всем сторонам в соответствии с обучающими корпусами текстов и обучение соответствующей модели условных случайных полей;stage 4: Performing repeated processing by the method of the window of the prediction matrix derived from the neural network using information predicting the context of the word to be tagged as a correlation point with the actual category of the word to be tagged in the model of conditional random fields, using the estimation maximization algorithm (EM algorithm) for calculating expected values on all sides in accordance with the training corps of texts and training the corresponding model of conditional random fields;
этап 5: В процессе распознавания вначале выполняют преобразование текста, подлежащего распознаванию, в вектор слова, который отображает признаки слова в соответствии с обученной моделью Word2Vec, и если модель Word2Vec не содержит соответствующего обучающего слова, выполняют преобразование слова в вектор слова посредством пошагового обучения, извлечение вектора слова и обратное отслеживание пространства векторов слов и т.д.step 5: In the recognition process, first, the text to be recognized is converted to a word vector that displays the features of the word in accordance with the trained Word2Vec model, and if the Word2Vec model does not contain the corresponding learning word, the word is converted to a word vector by step-by-step learning, extraction word vectors and inverse tracking of the space of word vectors, etc.
(1) сопоставление с эталоном слова, подлежащего преобразованию, в пространстве векторов слов;(1) comparison with the standard of the word to be transformed in the space of word vectors;
(2) преобразование слова, подлежащего преобразованию, непосредственно в соответствующий вектор слова, если слову найдено соответствие в пространстве векторов слов;(2) the conversion of the word to be converted directly into the corresponding vector of the word if a word is found in the space of the word vectors;
(3) если модель Word2Vec не содержит соответствующего слова, выполняется резервное копирование пространства векторов слов для предотвращения снижения точности модели нейронной сети, вызванного отклонением пространства слов, созданного при пошаговом обучении, загрузка модели Word2Vec, получение предложения, в котором существует несоответствующее слово, ввод предложения в модель Word2Vec и выполнение пошагового обучения, получение вектора слова данного слова и использование резервного пространства векторов слов для выполнения обратного отслеживания модели;(3) if the Word2Vec model does not contain the corresponding word, the word vector space is backed up to prevent a decrease in the accuracy of the neural network model caused by the deviation of the word space created by step-by-step training, loading the Word2Vec model, receiving a sentence in which an inappropriate word exists, entering a sentence into the Word2Vec model and performing step-by-step training, obtaining the word vector of a given word and using the reserve space of word vectors to perform reverse tracking of the model;
выполнение обработки вектора слова методом окна, и использование двумерной матрицы, полученной умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; последующее выполнение повторной обработки методом окна матрицы прогнозирования, полученной из нейронной сети, выполнение устранения неоднозначностей на матрице прогнозирования в обученной модели условных случайных полей и получение окончательного тега именованной сущности текста, подлежащего распознаванию.execution of the processing of the word vector by the window method, and the use of a two-dimensional matrix obtained by multiplying the window w by the length d of the word vector as data input into the neural network; subsequent reprocessing by the method of the prediction matrix window obtained from the neural network, disambiguation on the forecast matrix in the trained model of conditional random fields, and obtaining the final tag of the named entity of the text to be recognized.
ПримерExample
Сетевой текст получен при помощи поискового робота на веб-сайте Sogou News (http://news.sogou.com/), корпуса текстов с тегами именованной сущности загружены из базы данных корпусов текстов Datatang (http://www.datatang.com/) в качестве эталонных корпусов текстов, разбиение на слова выполнено на полученном сетевом тексте при помощи естественно-языкового инструмента, обучение векторного пространства слов выполнено на сегментированном корпусе текстов и эталонном корпусе текстов при помощи пакета genism-библиотек Питон с использованием модели Word2Vec, использующей следующие параметры: длина вектора слова: 200, число итераций: 25, начальная длина шага: 0,025, и минимальная длина шага: 0,0001, и выбрана модель CBOW.Web text was obtained using a search robot on the Sogou News website (http://news.sogou.com/), text bodies with tags of a named entity were downloaded from the Datatang text database (http://www.datatang.com/ ) as reference text bodies, word breaks are performed on the resulting network text using a natural language tool, vector word space training is performed on a segmented text body and reference text body using the Python genism library package using the Word2Vec model using the following parameters : word vector length: 200, iteration number: 25, initial step length: 0.025, and minimum step length: 0.0001, and the CBOW model is selected.
Текст в эталонных корпусах текстов преобразован в вектор слов, представляющий признаки слов в соответствии с обученной моделью Word2Vec, и в случае, если модель Word2Vec не содержит соответствующего обучающего слова, слово преобразуется в вектор слова посредством пошагового обучения, извлечения вектора слова и обратного отслеживания пространства векторов слов и т.д., в качестве признаков слова. Теги "/о", "/n" и "/р" в эталонных корпусах текстов, полученных из Datatang, преобразованы в теги именованной сущности "/Org-B", "/Org-I", "/Per-B", "/Per-I", "/Loc-B" и "/Loc-I" и т.д. соответственно, и последующие теги именованной сущности преобразованы в форму для быстрого доступа в качестве выходных данных нейронной сети.The text in the reference text bodies is converted into a vector of words representing the characteristics of words in accordance with the trained Word2Vec model, and if the Word2Vec model does not contain the corresponding training word, the word is converted into a word vector by step-by-step learning, extracting the word vector and reverse tracking the vector space words, etc., as signs of a word. The tags "/ o", "/ n" and "/ p" in the reference cases of texts obtained from Datatang are converted to tags of the named entity "/ Org-B", "/ Org-I", "/ Per-B", "/ Per-I", "/ Loc-B" and "/ Loc-I", etc. accordingly, the subsequent tags of the named entity are converted into a form for quick access as output from a neural network.
Размер окна установлен равным 5, то есть при рассмотрении категории именованных сущностей текущего слова признаки слова данного слова, и двух слов перед словом и двух слов после слова, используются в качестве входных данных для нейронной сети; информацией, вводимой в нейронную сеть является вектор с размером пакета*1000; одна десятая слов извлечена из эталонных данных и исключена из обучения нейронной сети, но использована в качестве критерия оценки для нейронной сети; выходной слой нейронной сети нормализован при помощи функции Softmax, так что результат категоризации, выдаваемый нейронной сетью, соответствует вероятности того, относится ли слово к неименованной сущности или именованной сущности; максимальное значение вероятности временно принимается в качестве окончательного результата категоризации. Параметры в нейронной сети, такие как структура, глубина, количество узлов, длина шага, функция активации и начальное значение и т.д. настроены для обеспечения высокой точности нейронной сети; окончательные параметры являются следующими: количество скрытых слоев: 2, количество скрытых узлов: 150, длина шага: 0,01, размер пакета: 40, функция активации: сигмоидальная; таким образом может быть получен хороший эффект категоризации, точность может достигать 99,83%, а значения F наиболее типичных личных имен, географических названий и названий организаций могут составлять 93,4%, 84,2% и 80,4% соответственно.The window size is set equal to 5, that is, when considering the category of named entities of the current word, the signs of the word of the given word, and two words before the word and two words after the word, are used as input for a neural network; the information entered into the neural network is a vector with a packet size * 1000; one tenth of the words extracted from the reference data and excluded from the training of the neural network, but used as an evaluation criterion for the neural network; the output layer of the neural network is normalized using the Softmax function, so that the categorization result generated by the neural network corresponds to the probability of whether the word refers to an unnamed entity or a named entity; the maximum probability value is temporarily taken as the final result of categorization. Parameters in the neural network, such as structure, depth, number of nodes, step length, activation function and initial value, etc. tuned for high accuracy neural network; final parameters are as follows: number of hidden layers: 2, number of hidden nodes: 150, step length: 0.01, packet size: 40, activation function: sigmoidal; in this way, a good categorization effect can be obtained, accuracy can reach 99.83%, and F values of the most typical personal names, geographical names and company names can be 93.4%, 84.2% and 80.4%, respectively.
Этап получения максимального значения матрицы прогнозирования, выведенной из нейронной сети в виде конечного результата категоризации, удален, выполнена прямая обработка матрицы вероятностей методом окна, информация, прогнозирующая контекст слова, подлежащего тегированию, использована в качестве точки корреляции с фактической категорией слова, подлежащего тегированию, в модели условных случайных полей, для расчета ожидаемых значений использован алгоритм максимизации оценивания на всех сторонах условного случайного поля в соответствии с обучающими корпусами текстов, и выполнено обучение соответствующей модели условных случайных полей; после устранения неоднозначностей с использованием условного случайного поля, значения F личных имен, географических названий и названий организаций могут быть улучшены до 94,8%, 85,0% и 82,0% соответственно.The step of obtaining the maximum value of the prediction matrix derived from the neural network as the final categorization result is deleted, the probability matrix is directly processed by the window method, information predicting the context of the word to be tagged is used as a correlation point with the actual category of the word to be tagged in models of conditional random fields, to calculate the expected values, an algorithm for maximizing estimates on all sides of the conditional random field in accordance with the training corps of texts was used, and the corresponding model of conditional random fields was trained; after disambiguation using a conditional random field, the F values of personal names, geographical names and company names can be improved to 94.8%, 85.0% and 82.0%, respectively.
Из описанного выше варианта осуществления видно, что по сравнению с обычным контролируемым способом распознавания именованных сущностей, в способе распознавания в тексте именованных сущностей на основе устранения неоднозначности вероятности в нейронной сети, представленном в настоящем изобретении, используется способ преобразования векторов слов, который можно использовать для выделения признаков слов в пошаговом режиме, не вызывая отклонения пространства векторов слов; таким образом, нейронная сеть может применяться к сетевому тексту, который содержит много новых слов и неправильно написанных или искаженных символов. Кроме того, в настоящем изобретении выполняется повторная обработка методом окна матрицы вероятностей, выводимой из нейронной сети, и выполняется устранение неоднозначностей контекста с применением модели условных случайных полей, чтобы решить проблему, когда сетевой текст содержит много неправильно написанных или искаженных символов и нестандартные грамматические конструкции.From the embodiment described above, it can be seen that, compared to the conventional controlled method for recognizing named entities, the method for recognizing named entities in the text based on disambiguation of probability in a neural network of the present invention uses a method of transforming word vectors that can be used to extract signs of words in a step-by-step mode, without causing a deviation of the space of word vectors; thus, a neural network can be applied to network text that contains many new words and misspelled or distorted characters. In addition, in the present invention, the window matrix is reprocessed by a probability matrix derived from a neural network, and context ambiguities are applied using a conditional random field model to solve the problem when the network text contains many incorrectly written or distorted characters and non-standard grammatical constructions.
Хотя настоящее изобретение описано выше в виде некоторых предпочтительных вариантов осуществления, следует отметить, что специалисты в данной области техники могут вносить различные улучшения и модификации, не отступая от принципа настоящего изобретения, и эти улучшения и модификации следует рассматривать как подпадающие под объем защиты настоящего изобретения.Although the present invention has been described above in the form of some preferred embodiments, it should be noted that those skilled in the art can make various improvements and modifications without departing from the principle of the present invention, and these improvements and modifications should be considered as falling within the protection scope of the present invention.
Claims (12)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710390409.2 | 2017-05-27 | ||
CN201710390409.2A CN107203511B (en) | 2017-05-27 | 2017-05-27 | Network text named entity identification method based on neural network probability disambiguation |
PCT/CN2017/089135 WO2018218705A1 (en) | 2017-05-27 | 2017-06-20 | Method for recognizing network text named entity based on neural network probability disambiguation |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2722571C1 true RU2722571C1 (en) | 2020-06-01 |
Family
ID=59905476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2019117529A RU2722571C1 (en) | 2017-05-27 | 2017-06-20 | Method of recognizing named entities in network text based on elimination of probability ambiguity in neural network |
Country Status (5)
Country | Link |
---|---|
CN (1) | CN107203511B (en) |
AU (1) | AU2017416649A1 (en) |
CA (1) | CA3039280C (en) |
RU (1) | RU2722571C1 (en) |
WO (1) | WO2018218705A1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2760637C1 (en) * | 2020-08-31 | 2021-11-29 | Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) | Method and system for retrieving named entities |
WO2023204724A1 (en) * | 2022-04-20 | 2023-10-26 | Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") | Method for analyzing a legal document |
RU2823914C2 (en) * | 2021-08-03 | 2024-07-30 | Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) | Method and system for extracting named entities |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203511B (en) * | 2017-05-27 | 2020-07-17 | 中国矿业大学 | Network text named entity identification method based on neural network probability disambiguation |
CN107665252B (en) * | 2017-09-27 | 2020-08-25 | 深圳证券信息有限公司 | Method and device for creating knowledge graph |
CN107832289A (en) * | 2017-10-12 | 2018-03-23 | 北京知道未来信息技术有限公司 | A kind of name entity recognition method based on LSTM CNN |
CN107908614A (en) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | A kind of name entity recognition method based on Bi LSTM |
CN107885721A (en) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | A kind of name entity recognition method based on LSTM |
CN107967251A (en) * | 2017-10-12 | 2018-04-27 | 北京知道未来信息技术有限公司 | A kind of name entity recognition method based on Bi-LSTM-CNN |
CN107797989A (en) * | 2017-10-16 | 2018-03-13 | 平安科技(深圳)有限公司 | Enterprise name recognition methods, electronic equipment and computer-readable recording medium |
CN107943788B (en) * | 2017-11-17 | 2021-04-06 | 平安科技(深圳)有限公司 | Enterprise abbreviation generation method and device and storage medium |
CN110019648B (en) * | 2017-12-05 | 2021-02-02 | 深圳市腾讯计算机系统有限公司 | Method and device for training data and storage medium |
CN108052504B (en) * | 2017-12-26 | 2020-11-20 | 浙江讯飞智能科技有限公司 | Structure analysis method and system for mathematic subjective question answer result |
CN108121702B (en) * | 2017-12-26 | 2020-11-24 | 浙江讯飞智能科技有限公司 | Method and system for evaluating and reading mathematical subjective questions |
CN108280062A (en) * | 2018-01-19 | 2018-07-13 | 北京邮电大学 | Entity based on deep learning and entity-relationship recognition method and device |
CN108563626B (en) * | 2018-01-22 | 2022-01-25 | 北京颐圣智能科技有限公司 | Medical text named entity recognition method and device |
CN108388559B (en) * | 2018-02-26 | 2021-11-19 | 中译语通科技股份有限公司 | Named entity identification method and system under geographic space application and computer program |
CN108763192B (en) * | 2018-04-18 | 2022-04-19 | 达而观信息科技(上海)有限公司 | Entity relation extraction method and device for text processing |
CN108805196B (en) * | 2018-06-05 | 2022-02-18 | 西安交通大学 | Automatic incremental learning method for image recognition |
RU2699687C1 (en) * | 2018-06-18 | 2019-09-09 | Общество с ограниченной ответственностью "Аби Продакшн" | Detecting text fields using neural networks |
CN109062983A (en) * | 2018-07-02 | 2018-12-21 | 北京妙医佳信息技术有限公司 | Name entity recognition method and system for medical health knowledge mapping |
CN109241520B (en) * | 2018-07-18 | 2023-05-23 | 五邑大学 | Sentence trunk analysis method and system based on multi-layer error feedback neural network for word segmentation and named entity recognition |
CN109255119B (en) * | 2018-07-18 | 2023-04-25 | 五邑大学 | Sentence trunk analysis method and system of multi-task deep neural network based on word segmentation and named entity recognition |
CN109299458B (en) * | 2018-09-12 | 2023-03-28 | 广州多益网络股份有限公司 | Entity identification method, device, equipment and storage medium |
CN109446514B (en) * | 2018-09-18 | 2024-08-20 | 平安科技(深圳)有限公司 | News entity identification model construction method and device and computer equipment |
CN109657238B (en) * | 2018-12-10 | 2023-10-13 | 宁波深擎信息科技有限公司 | Knowledge graph-based context identification completion method, system, terminal and medium |
CN109710927B (en) * | 2018-12-12 | 2022-12-20 | 东软集团股份有限公司 | Named entity identification method and device, readable storage medium and electronic equipment |
CN109670177A (en) * | 2018-12-20 | 2019-04-23 | 翼健(上海)信息科技有限公司 | One kind realizing the semantic normalized control method of medicine and control device based on LSTM |
CN109858025B (en) * | 2019-01-07 | 2023-06-13 | 鼎富智能科技有限公司 | Word segmentation method and system for address standardized corpus |
CN109767817B (en) * | 2019-01-16 | 2023-05-30 | 南通大学 | Drug potential adverse reaction discovery method based on neural network language model |
CN111563380A (en) * | 2019-01-25 | 2020-08-21 | 浙江大学 | Named entity identification method and device |
CN109800437B (en) * | 2019-01-31 | 2023-11-14 | 北京工业大学 | Named entity recognition method based on feature fusion |
CN109992629B (en) * | 2019-02-28 | 2021-08-06 | 中国科学院计算技术研究所 | Neural network relation extraction method and system fusing entity type constraints |
CN109858041B (en) * | 2019-03-07 | 2023-02-17 | 北京百分点科技集团股份有限公司 | Named entity recognition method combining semi-supervised learning with user-defined dictionary |
CN109933801B (en) * | 2019-03-25 | 2022-03-29 | 北京理工大学 | Bidirectional LSTM named entity identification method based on predicted position attention |
CN111858838A (en) * | 2019-04-04 | 2020-10-30 | 拉扎斯网络科技(上海)有限公司 | Menu calibration method and device, electronic equipment and nonvolatile storage medium |
CN110083778A (en) * | 2019-04-08 | 2019-08-02 | 清华大学 | The figure convolutional neural networks construction method and device of study separation characterization |
CN110334110A (en) * | 2019-05-28 | 2019-10-15 | 平安科技(深圳)有限公司 | Natural language classification method, device, computer equipment and storage medium |
CN110245242B (en) * | 2019-06-20 | 2022-01-18 | 北京百度网讯科技有限公司 | Medical knowledge graph construction method and device and terminal |
CN110298043B (en) * | 2019-07-03 | 2023-04-07 | 吉林大学 | Vehicle named entity identification method and system |
CN110750992B (en) * | 2019-10-09 | 2023-07-04 | 吉林大学 | Named entity recognition method, named entity recognition device, electronic equipment and named entity recognition medium |
CN110781646B (en) * | 2019-10-15 | 2023-08-22 | 泰康保险集团股份有限公司 | Name standardization method, device, medium and electronic equipment |
CN111008271B (en) * | 2019-11-20 | 2022-06-24 | 佰聆数据股份有限公司 | Neural network-based key information extraction method and system |
CN110993081B (en) * | 2019-12-03 | 2023-08-11 | 济南大学 | Doctor online recommendation method and system |
CN111091003B (en) * | 2019-12-05 | 2023-10-10 | 电子科技大学广东电子信息工程研究院 | Parallel extraction method based on knowledge graph query |
CN111209748B (en) * | 2019-12-16 | 2023-10-24 | 合肥讯飞数码科技有限公司 | Error word recognition method, related device and readable storage medium |
CN113139382A (en) * | 2020-01-20 | 2021-07-20 | 北京国双科技有限公司 | Named entity identification method and device |
CN111368545B (en) * | 2020-02-28 | 2024-04-30 | 北京明略软件系统有限公司 | Named entity recognition method and device based on multitask learning |
CN111477320B (en) * | 2020-03-11 | 2023-05-30 | 北京大学第三医院(北京大学第三临床医学院) | Treatment effect prediction model construction system, treatment effect prediction system and terminal |
CN111523323B (en) * | 2020-04-26 | 2022-08-12 | 梁华智能科技(上海)有限公司 | Disambiguation processing method and system for Chinese word segmentation |
CN111581957B (en) * | 2020-05-06 | 2022-04-12 | 浙江大学 | Nested entity detection method based on pyramid hierarchical network |
CN111476022B (en) * | 2020-05-15 | 2023-07-07 | 湖南工商大学 | Character embedding and mixed LSTM entity identification method, system and medium for entity characteristics |
CN111859937B (en) * | 2020-07-20 | 2024-07-30 | 上海汽车集团股份有限公司 | Entity identification method and device |
CN112199953B (en) * | 2020-08-24 | 2024-06-28 | 广州九四智能科技有限公司 | Method and device for extracting information in telephone call and computer equipment |
CN112101041B (en) * | 2020-09-08 | 2022-02-15 | 平安科技(深圳)有限公司 | Entity relationship extraction method, device, equipment and medium based on semantic similarity |
CN112765983A (en) * | 2020-12-14 | 2021-05-07 | 四川长虹电器股份有限公司 | Entity disambiguation method based on neural network combined with knowledge description |
CN112487816B (en) * | 2020-12-14 | 2024-02-13 | 安徽大学 | Named entity identification method based on network classification |
CN112905742B (en) * | 2021-02-20 | 2022-07-29 | 厦门吉比特网络技术股份有限公司 | Method and device for recognizing new vocabulary based on semantic model neural network |
CN113343690B (en) * | 2021-06-22 | 2024-03-12 | 北京语言大学 | Text readability automatic evaluation method and device |
CN114218924A (en) * | 2021-07-27 | 2022-03-22 | 广东电力信息科技有限公司 | Text intention and entity combined identification method based on BERT model |
CN114519355A (en) * | 2021-08-25 | 2022-05-20 | 浙江万里学院 | Medicine named entity recognition and entity standardization method |
CN113849597B (en) * | 2021-08-31 | 2024-04-30 | 艾迪恩(山东)科技有限公司 | Illegal advertisement word detection method based on named entity recognition |
CN113934815A (en) * | 2021-09-18 | 2022-01-14 | 有米科技股份有限公司 | Advertisement and pattern characteristic information identification method and device based on neural network |
CN114036948B (en) * | 2021-10-26 | 2024-05-31 | 天津大学 | Named entity identification method based on uncertainty quantification |
CN114048749B (en) * | 2021-11-19 | 2024-02-02 | 北京第一因科技有限公司 | Chinese named entity recognition method suitable for multiple fields |
CN114510943B (en) * | 2022-02-18 | 2024-05-28 | 北京大学 | Incremental named entity recognition method based on pseudo sample replay |
CN115587594B (en) * | 2022-09-20 | 2023-06-30 | 广东财经大学 | Unstructured text data extraction model training method and system for network security |
CN115905456B (en) * | 2023-01-06 | 2023-06-02 | 浪潮电子信息产业股份有限公司 | Data identification method, system, equipment and computer readable storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2399959C2 (en) * | 2008-10-29 | 2010-09-20 | Закрытое акционерное общество "Авикомп Сервисез" | Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media |
US20120089620A1 (en) * | 2010-10-07 | 2012-04-12 | Castellanos Maria G | Extracting data |
CN105404632A (en) * | 2014-09-15 | 2016-03-16 | 深港产学研基地 | Deep neural network based biomedical text serialization labeling system and method |
CN106202044A (en) * | 2016-07-07 | 2016-12-07 | 武汉理工大学 | A kind of entity relation extraction method based on deep neural network |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7502971B2 (en) * | 2005-10-12 | 2009-03-10 | Hewlett-Packard Development Company, L.P. | Determining a recurrent problem of a computer resource using signatures |
US8583416B2 (en) * | 2007-12-27 | 2013-11-12 | Fluential, Llc | Robust information extraction from utterances |
CN103455581B (en) * | 2013-08-26 | 2016-05-04 | 北京理工大学 | This information filtering method of Massive short documents based on semantic extension |
CN104809176B (en) * | 2015-04-13 | 2018-08-07 | 中央民族大学 | Tibetan language entity relation extraction method |
CN105740349B (en) * | 2016-01-25 | 2019-03-08 | 重庆邮电大学 | A kind of sensibility classification method of combination Doc2vec and convolutional neural networks |
CN105868184B (en) * | 2016-05-10 | 2018-06-08 | 大连理工大学 | A kind of Chinese personal name recognition method based on Recognition with Recurrent Neural Network |
CN106202032B (en) * | 2016-06-24 | 2018-08-28 | 广州数说故事信息科技有限公司 | A kind of sentiment analysis method and its system towards microblogging short text |
CN107203511B (en) * | 2017-05-27 | 2020-07-17 | 中国矿业大学 | Network text named entity identification method based on neural network probability disambiguation |
-
2017
- 2017-05-27 CN CN201710390409.2A patent/CN107203511B/en active Active
- 2017-06-20 AU AU2017416649A patent/AU2017416649A1/en not_active Abandoned
- 2017-06-20 CA CA3039280A patent/CA3039280C/en active Active
- 2017-06-20 RU RU2019117529A patent/RU2722571C1/en active
- 2017-06-20 WO PCT/CN2017/089135 patent/WO2018218705A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2399959C2 (en) * | 2008-10-29 | 2010-09-20 | Закрытое акционерное общество "Авикомп Сервисез" | Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media |
US20120089620A1 (en) * | 2010-10-07 | 2012-04-12 | Castellanos Maria G | Extracting data |
CN105404632A (en) * | 2014-09-15 | 2016-03-16 | 深港产学研基地 | Deep neural network based biomedical text serialization labeling system and method |
CN106202044A (en) * | 2016-07-07 | 2016-12-07 | 武汉理工大学 | A kind of entity relation extraction method based on deep neural network |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2760637C1 (en) * | 2020-08-31 | 2021-11-29 | Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) | Method and system for retrieving named entities |
RU2823914C2 (en) * | 2021-08-03 | 2024-07-30 | Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) | Method and system for extracting named entities |
WO2023204724A1 (en) * | 2022-04-20 | 2023-10-26 | Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") | Method for analyzing a legal document |
Also Published As
Publication number | Publication date |
---|---|
WO2018218705A1 (en) | 2018-12-06 |
CA3039280A1 (en) | 2018-12-06 |
CA3039280C (en) | 2021-07-20 |
CN107203511B (en) | 2020-07-17 |
CN107203511A (en) | 2017-09-26 |
AU2017416649A1 (en) | 2019-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2722571C1 (en) | Method of recognizing named entities in network text based on elimination of probability ambiguity in neural network | |
CN110162749B (en) | Information extraction method, information extraction device, computer equipment and computer readable storage medium | |
CN110781276B (en) | Text extraction method, device, equipment and storage medium | |
CN108073677B (en) | Multi-level text multi-label classification method and system based on artificial intelligence | |
CN107679039B (en) | Method and device for determining statement intention | |
CN104834747B (en) | Short text classification method based on convolutional neural networks | |
CN109376222B (en) | Question-answer matching degree calculation method, question-answer automatic matching method and device | |
CN109948160B (en) | Short text classification method and device | |
CN112860919B (en) | Data labeling method, device, equipment and storage medium based on generation model | |
US11551114B2 (en) | Method and apparatus for recommending test question, and intelligent device | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN112528654A (en) | Natural language processing method and device and electronic equipment | |
CN112818091A (en) | Object query method, device, medium and equipment based on keyword extraction | |
CN112528658A (en) | Hierarchical classification method and device, electronic equipment and storage medium | |
CN116402630B (en) | Financial risk prediction method and system based on characterization learning | |
CN112100377A (en) | Text classification method and device, computer equipment and storage medium | |
CN114647713A (en) | Knowledge graph question-answering method, device and storage medium based on virtual confrontation | |
CN111597816A (en) | Self-attention named entity recognition method, device, equipment and storage medium | |
JP7121819B2 (en) | Image processing method and apparatus, electronic device, computer-readable storage medium, and computer program | |
CN111241273A (en) | Text data classification method and device, electronic equipment and computer readable medium | |
CN114417891A (en) | Reply sentence determination method and device based on rough semantics and electronic equipment | |
CN114491030A (en) | Skill label extraction and candidate phrase classification model training method and device | |
Odumuyiwa et al. | A systematic review on hidden markov models for sentiment analysis | |
JP2017102599A (en) | Estimation device, parameter learning device, method, and program | |
Wang | Prospect of Intelligent English Translation Algorithm based on Neural Machine Translation and Internal Chain Network Modeling |