RU2722571C1 - Method of recognizing named entities in network text based on elimination of probability ambiguity in neural network - Google Patents

Method of recognizing named entities in network text based on elimination of probability ambiguity in neural network Download PDF

Info

Publication number
RU2722571C1
RU2722571C1 RU2019117529A RU2019117529A RU2722571C1 RU 2722571 C1 RU2722571 C1 RU 2722571C1 RU 2019117529 A RU2019117529 A RU 2019117529A RU 2019117529 A RU2019117529 A RU 2019117529A RU 2722571 C1 RU2722571 C1 RU 2722571C1
Authority
RU
Russia
Prior art keywords
neural network
word
text
probability
named entities
Prior art date
Application number
RU2019117529A
Other languages
Russian (ru)
Inventor
Ян ЧЖОУ
Бин ЛЮ
Чжаою ХАНЬ
Чжонцю ВАН
Original Assignee
Чайна Юниверсити Оф Майнинг Энд Текнолоджи
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Чайна Юниверсити Оф Майнинг Энд Текнолоджи filed Critical Чайна Юниверсити Оф Майнинг Энд Текнолоджи
Application granted granted Critical
Publication of RU2722571C1 publication Critical patent/RU2722571C1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

FIELD: computer equipment.
SUBSTANCE: invention relates to computer engineering. Disclosed is a method of recognizing named entities of network text based on eliminating ambiguity of probability in a neural network, involving: performing word decomposition on unmapped text body using Word2Vec model to extract word vector, converting reference text bodies into a word feature matrix, performing window processing, constructing a deep neural network for training, adding a Softmax function to the output layer of the neural network and performing normalization to obtain a matrix of probabilities of the category of named entities corresponding to each word; performing repeated processing of the probability matrix by the window method and using the model of conditional random fields to eliminate ambiguity to obtain the final tag of the named entity.
EFFECT: enabling recognition of named entities of network text based on elimination of probability ambiguity in a neural network.
7 cl, 3 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Настоящее изобретение относится к обработке и анализу сетевого текста, в частности, к способу распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети.The present invention relates to processing and analysis of network text, in particular, to a method for recognizing named entities of network text based on the elimination of probability ambiguity in a neural network.

УРОВЕНЬ ТЕХНИКИBACKGROUND

Сети подняли скорость и масштаб сбора и распространения информации на беспрецедентный уровень, сделали реальным глобальное распространение и обмен информацией и стали незаменимой инфраструктурой в информационном сообществе. Современные технологии коммуникации и распространения значительно повысили скорость и широту распространения информации. Однако существуют сопутствующие проблемы и «побочные эффекты»: иногда люди путаются в хаотичной информации, и бывает очень сложно быстро и точно выделить конкретную требуемую информацию из огромного объема информации. Это является предпосылкой для анализа и получения именованных сущностей, таких как люди, места, организации и т.д., интересующих пользователей Интернета, из массива сетевого текста для предоставления важной справочной информации для различных приложений верхнего уровня, таких как интернет-маркетинг, анализ эмоций группы и т.д. Соответственно, распознавание именованных сущностей сетевого текста стало важной базовой технологией обработки и анализа сетевых данных.Networks have increased the speed and scale of the collection and dissemination of information to an unprecedented level, have made the global dissemination and exchange of information real, and have become an indispensable infrastructure in the information community. Modern communication and dissemination technologies have significantly increased the speed and breadth of information dissemination. However, there are concomitant problems and “side effects”: sometimes people get confused in chaotic information, and it is very difficult to quickly and accurately extract specific information from a huge amount of information. This is a prerequisite for the analysis and retrieval of named entities, such as people, places, organizations, etc., of interest to Internet users, from an array of network text to provide important reference information for various top-level applications, such as Internet marketing, analysis of emotions groups etc. Accordingly, the recognition of named entities of network text has become an important basic technology for processing and analyzing network data.

В исследовании рассматриваются два способа распознавания именованных сущностей, а именно, способ на основе правил и способ на основе статистики. Поскольку теория машинного обучения постоянно совершенствуется и скорость вычислений значительно улучшается, способу на основе статистики отдается все большее предпочтение.The study considers two ways of recognizing named entities, namely, a rule-based method and a statistics-based method. Since the theory of machine learning is constantly being improved and the speed of computation is significantly improved, a method based on statistics is increasingly preferred.

В настоящее время статистические модели и способы, применяемые в распознавании именованных сущностей, в основном включают: скрытую марковскую модель, решающее дерево, модель максимальной энтропии, модель опорных векторов, условное случайное поле и искусственную нейронную сеть. Искусственная нейронная сеть может достичь лучшего результата в распознавании именованных сущностей, чем условное случайное поле, модель максимальной энтропии и другие модели, но модель условного случайного поля и максимальной энтропии по-прежнему являются доминирующими практическими моделями. Например, в Патентном документе № CN 201310182978.X предложен способ распознавания именованных сущностей и устройство для микроблогового текста на основе условного случайного поля и библиотеки именованных сущностей. В Патентном документе № CN 200710098635.X предложен способ распознавания именованных сущностей, который использует признаки слова и применяет модель максимальной энтропии для моделирования. Искусственную нейронную сеть сложно использовать на практике, поскольку она часто требует преобразования слов в векторы в пространстве векторов слов в области распознавания именованных сущностей. Вследствие этого, искусственная нейронная сеть не может применяться в крупномасштабных практических приложениях, потому что она не способна получать соответствующие векторы для новых слов.Currently, statistical models and methods used in the recognition of named entities mainly include a hidden Markov model, a decision tree, a model of maximum entropy, a model of support vectors, a conditional random field, and an artificial neural network. An artificial neural network can achieve a better result in the recognition of named entities than the conditional random field, the maximum entropy model and other models, but the conditional random field and maximum entropy model are still the dominant practical models. For example, Patent Document No. CN 201310182978.X proposes a method for recognizing named entities and a device for microblogging text based on a conditional random field and a library of named entities. Patent Document No. CN 200710098635.X proposes a method for recognizing named entities that uses the features of a word and applies a maximum entropy model for modeling. An artificial neural network is difficult to use in practice, because it often requires the conversion of words into vectors in the space of word vectors in the field of recognition of named entities. As a result, an artificial neural network cannot be used in large-scale practical applications, because it is not able to obtain the corresponding vectors for new words.

Вследствие вышеупомянутой существующей ситуации при распознавании именованных сущностей для сетевого текста в основном существуют следующие проблемы: во-первых, невозможно обучить пространство векторов слов, содержащее все слова, чтобы обучить нейронную сеть, потому что в сетевом тексте существует много сетевых слов, новых слов и неправильно написанных или искаженных символов; во-вторых, точность распознавания именованных сущностей для сетевых текстов ухудшается в результате существующих в сетевом тексте явлений, таких как произвольные языковые формы, нестандартные грамматические конструкции, неправильно написанные или искаженные символы и т.д.Due to the aforementioned existing situation, when recognizing named entities for network text, there are basically the following problems: firstly, it is impossible to train a word vector space containing all words in order to train a neural network, because there are many network words, new words and incorrect words in network text written or distorted characters; secondly, the recognition accuracy of named entities for network texts is deteriorated as a result of phenomena existing in the network text, such as arbitrary language forms, non-standard grammatical constructions, misspelled or distorted characters, etc.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Задача изобретения состоит в преодолении недостатков предшествующего уровня техники, настоящее изобретение предоставляет способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети, который выделяет признаки слова в пошаговом режиме без переобучения нейронной сети и выполняет распознавание путем устранения неоднозначности вероятности. Способ получает матрицу прогнозирования вероятности для названной категории именованной сущности слова из нейронной сети посредством обучения нейронной сети и выполняет устранение неоднозначностей на матрице прогнозирования, выведенной из нейронной сети в вероятностной модели, и тем самым повышает точность и правильность распознавания именованных сущностей сетевого текста.The objective of the invention is to overcome the disadvantages of the prior art, the present invention provides a method for recognizing named entities of network text based on the elimination of the probability of ambiguity in a neural network, which identifies the signs of a word in a step-by-step mode without retraining the neural network and performs recognition by eliminating the probability of ambiguity. The method obtains a probability prediction matrix for the named category of the named entity of the word from the neural network by training the neural network and performs disambiguation on the forecast matrix derived from the neural network in the probabilistic model, and thereby improves the accuracy and accuracy of recognition of named entities of the network text.

Техническая схема: для достижения задачи, описанной выше, техническая схема, используемая настоящим изобретением, является следующей:Technical scheme: to achieve the task described above, the technical scheme used by the present invention is as follows:

Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети выполняет разбиение на слова на неразмеченном корпусе текстов, используя Word2Vec для выделения вектора слова, преобразует эталонные корпуса текстов в матрицу признаков слова и выполняет обработку методом окна, выполняет построение глубокой нейронной сети для обучения, добавляет функцию Softmax в выходной слой нейронной сети и выполняет нормализацию для получения матрицы вероятностей категории именованных сущностей, соответствующих каждому слову; выполняет повторную обработку матрицы вероятностей методом окна и применяет модель условных случайных полей для устранения неоднозначностей для получения окончательного тега именованной сущности.A method for recognizing named entities of network text based on the elimination of probability ambiguity in a neural network performs word breaking on an unallocated body of texts, using Word2Vec to select a word vector, converts the reference body of texts into a matrix of word attributes and performs window processing, constructs a deep neural network for training, adds the Softmax function to the output layer of the neural network and performs normalization to obtain a probability matrix of the category of named entities corresponding to each word; performs reprocessing of the probability matrix by the window method and applies the conditional random field model to eliminate ambiguities to obtain the final tag of the named entity.

В частности, способ включает следующие этапы:In particular, the method includes the following steps:

этап 1: получение неразмеченного корпуса текстов при помощи поискового робота, получение эталонных корпусов текстов с тегами именованных сущностей из базы данных корпусов текстов и выполнение разбиения на слова на неразмеченном корпусе текстов при помощи естественно-языкового инструмента;stage 1: obtaining an unallocated body of texts with the help of a search robot, obtaining reference body of texts with tags of named entities from the database of body of texts and performing word splitting on an unallocated body of texts using a natural language tool;

этап 2: выполнение обучения пространства векторов слов на сегментированном неразмеченном корпусе текстов и эталонных корпусах текстов при помощи инструмента Word2Vec;stage 2: performing training of the space of word vectors on a segmented unallocated case of texts and reference cases of texts using the Word2Vec tool;

этап 3: преобразование текста в эталонных корпусах текстов в вектор слова, представляющий признаки слова в соответствии с обученной моделью Word2Vec (векторного представления слов), выполнение обработки вектора слова методом окна и использование двумерной матрицы, полученной умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; преобразование тегов в эталонных корпусах текстов в форму для быстрого доступа (с одним активным состоянием) и использование их в качестве выходных данных нейронной сети; выполнение нормализации на выходном слое нейронной сети с помощью функции Softmax (многопеременная логистическая функция), так что результат категоризации, выдаваемый нейронной сетью, соответствует вероятности того, относится ли слово к неименованной сущности или именованной сущности, выполнение корректировки структуры, глубины, количества узлов, длины шага, функции активации и параметров начальных значений в нейронной сети и выбор функции активации для обучения нейронной сети;stage 3: converting the text in the reference text cases into a word vector representing the word attributes in accordance with the trained Word2Vec model (vector representation of words), performing the processing of the word vector by the window method and using a two-dimensional matrix obtained by multiplying the window w by the length d of the word vector, in quality of data input into the neural network; conversion of tags in the reference text bodies into a form for quick access (with one active state) and their use as output data of a neural network; performing normalization on the output layer of the neural network using the Softmax function (multi-variable logistic function), so that the categorization result generated by the neural network corresponds to the probability of whether the word refers to an unnamed entity or a named entity, adjusting the structure, depth, number of nodes, length steps, activation functions and parameters of initial values in the neural network and selection of the activation function for training the neural network;

этап 4: выполнение повторной обработки методом окна матрицы прогнозирования, выведенной из нейронной сети, с использованием информации, прогнозирующей контекст слова, подлежащего тегированию, в качестве точки корреляции с фактической категорией слова, подлежащего тегированию, в модели условных случайных полей, использование алгоритма максимизации оценивания для расчета ожидаемых значений по всем сторонам в соответствии с обучающими корпусами текстов и обучение соответствующей модели условных случайных полей;stage 4: performing repeated processing by the method of the window of the prediction matrix derived from the neural network, using information predicting the context of the word to be tagged as a correlation point with the actual category of the word to be tagged in the conditional random field model, using the estimation maximization algorithm for calculating expected values on all sides in accordance with the training corps of texts and training the corresponding model of conditional random fields;

этап 5: в процессе распознавания вначале выполняют преобразование текста, подлежащего распознаванию, в вектор слова, который отображает признаки слова в соответствии с обученной моделью Word2Vec, и если модель Word2Vec не содержит соответствующего обучающего слова, выполняется преобразование слова в вектор слова посредством пошагового обучения, извлечение вектора слова и обратное отслеживание пространства векторов слов и т.д., выполняют обработку вектора слова методом окна и используют двумерную матрицу, полученную умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; затем выполняют повторную обработку методом окна матрицы прогнозирования, полученной из нейронной сети, выполняют устранение неоднозначностей на матрице прогнозирования в обученной модели условных случайных полей и получают окончательный тег именованной сущности текста, подлежащего распознаванию.step 5: in the recognition process, first, the text to be recognized is converted to a word vector that displays the features of the word in accordance with the trained Word2Vec model, and if the Word2Vec model does not contain the corresponding learning word, the word is converted into a word vector by step-by-step learning, extraction word vectors and inverse tracking of the space of word vectors, etc., perform word vector processing by the window method and use a two-dimensional matrix obtained by multiplying the window w by the length d of the word vector as data input into the neural network; then, repeated processing by the window prediction matrix method obtained from the neural network is performed, disambiguation on the forecast matrix in the trained model of conditional random fields is performed, and the final tag of the named entity of the text to be recognized is obtained.

Предпочтительно, параметры инструмента Word2Vec являются следующими: длина вектора слова: 200, число итераций: 25, начальная длина шага: 0,025, минимальная длина шага: 0,0001 и выбрана модель CBOW.Preferably, the parameters of the Word2Vec tool are: word vector length: 200, number of iterations: 25, initial step length: 0.025, minimum step length: 0.0001, and the CBOW model is selected.

Предпочтительно, параметры нейронной сети являются следующими: количество скрытых слоев: 2, количество скрытых узлов: 150, длина шага: 0,01, размер пакета (batchSize): 40, функция активации: сигмоидальная функция.Preferably, the parameters of the neural network are as follows: number of hidden layers: 2, number of hidden nodes: 150, step length: 0.01, packet size (batchSize): 40, activation function: sigmoid function.

Предпочтительно, преобразование тегов в эталонных корпусах текстов в форму для быстрого доступа выполняют следующим способом: выполняют преобразование тегов "/о", "/n" и "/р" в эталонных корпусах текстов в теги именованной сущности "/Org-B", "Org-I", "/Per-B", "/Per-I", "/Loc-B" и "/Loc-I", соответственно, и последующее выполняют преобразование тегов именованной сущности в форму для быстрого доступа.Preferably, the conversion of tags in the reference text bodies to a quick access form is performed in the following way: converting the tags "/ o", "/ n" and "/ p" in the reference text bodies to tags of the named entity "/ Org-B", " Org-I "," / Per-B "," / Per-I "," / Loc-B "and" / Loc-I ", respectively, and the subsequent ones convert the tags of the named entity into a form for quick access.

Предпочтительно, размер окна для выполнения обработки вектора слова методом окна равен 5.Preferably, the window size for performing word vector processing by the window method is 5.

Предпочтительно, при обучении нейронной сети, одна десятая слов выделяется из эталонных данных и исключается из обучения нейронной сети, но используется в качестве критерия оценки для нейронной сети.Preferably, when training a neural network, one tenth of the words are extracted from the reference data and excluded from the training of the neural network, but is used as an evaluation criterion for the neural network.

По сравнению с предшествующим уровнем техники настоящее изобретение обеспечивает следующие полезные эффекты:Compared with the prior art, the present invention provides the following beneficial effects:

Векторы слов без переобучения нейронной сети можно выделять в пошаговом режиме, прогнозирование можно выполнять с помощью нейронной сети и устранение неоднозначностей можно выполнять с помощью вероятностной модели, так что способ достигает лучшей выполнимости, точности и правильности при распознавании именованных сущностей сетевого текста. В задаче распознавания именованных сущностей сетевого текста настоящее изобретение предусматривает способ пошагового обучения вектора слова без изменения структуры нейронной сети в соответствии с особенностью существования сетевых слов и новых слов, и использует модель устранения неоднозначности вероятности для решения проблем, заключающихся в том, что сетевые тексты имеют нестандартную грамматическую конструкцию и содержат много неправильно написанных или искаженных символов. Таким образом, способ, предоставленный в настоящем изобретении, обеспечивает высокую точность в задачах распознавания именованных сущностей сетевого текста.Word vectors without retraining a neural network can be selected in a step-by-step mode, forecasting can be performed using a neural network, and disambiguation can be performed using a probabilistic model, so that the method achieves better feasibility, accuracy and correctness when recognizing named entities of network text. In the task of recognizing named entities of network text, the present invention provides a method for step-by-step learning of a word vector without changing the structure of a neural network in accordance with the peculiarity of the existence of network words and new words, and uses a probability disambiguation model to solve the problems that network texts have non-standard grammatical construction and contain a lot of misspelled or distorted characters. Thus, the method provided in the present invention provides high accuracy in recognition tasks of named entities of network text.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

На фиг. 1 представлена блок-схема обучения устройства для распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети согласно настоящему изобретению;In FIG. 1 is a block diagram of a training device for recognizing named entities of network text based on disambiguation of probability in a neural network according to the present invention;

На фиг. 2 представлена блок-схема преобразования слова в признаки слова согласно настоящему изобретению;In FIG. 2 is a flowchart of converting a word into a word attribute according to the present invention;

На фиг. 3 представлена принципиальная схема обработки текста и архитектуры нейронной сети согласно настоящему изобретению.In FIG. 3 is a schematic diagram of text processing and neural network architecture according to the present invention.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

Далее настоящее изобретение будет дополнительно подробно описано в соответствии с вариантами осуществления со ссылкой на прилагаемые чертежи. Следует понимать, что данные варианты осуществления представлены только для описания настоящего изобретения и не должны рассматриваться как создающие какое-либо ограничение объема настоящего изобретения. После прочтения данного раскрытия модификации настоящего изобретения в различных эквивалентных формах, сделанные специалистами в данной области техники, будут считаться входящими в защищаемый объем, как определено прилагаемой формулой изобретения в данной заявке.The invention will now be further described in detail in accordance with embodiments with reference to the accompanying drawings. It should be understood that these options for implementation are presented only to describe the present invention and should not be construed as creating any limitation of the scope of the present invention. After reading this disclosure, modifications of the present invention in various equivalent forms made by those skilled in the art will be deemed to be within the protected scope as defined by the appended claims in this application.

Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети выполняет разбиение на слова на неразмеченном корпусе текстов, используя модель Word2Vec для выделения вектора слова, преобразует эталонные корпуса текстов в матрицу признаков слова и выполняет обработку методом окна (windowing), создает глубокую нейронную сеть для обучения, добавляет функцию Softmax в выходной слой нейронной сети и выполняет нормализацию для получения матрицы вероятностей категории именованных сущностей, соответствующих каждому слову; выполняет повторную обработку матрицы вероятностей методом окна и применяет модель условных случайных полей для устранения неоднозначности для получения окончательного тега именованной сущности.A method for recognizing named entities of network text based on the elimination of probability ambiguity in a neural network performs word breaking on an unallocated body of texts, using the Word2Vec model to highlight a word vector, converts the reference text bodies into a word feature matrix and performs windowing processing, creates a deep a neural network for training, adds the Softmax function to the output layer of a neural network and performs normalization to obtain a probability matrix of the category of named entities corresponding to each word; performs reprocessing of the probability matrix by the window method and applies the conditional random field model to eliminate the ambiguity to obtain the final tag of the named entity.

В частности, способ включает следующие этапы:In particular, the method includes the following steps:

этап 1: Получение неразмеченного корпуса текстов при помощи поискового робота, загрузка корпуса текстов с тегами именованной сущности в качестве эталонных корпусов текстов из базы данных корпусов текстов, и выполнение разбиения на слова на неразмеченном корпусе текстов при помощи естественно-языкового инструмента;Stage 1: Obtaining an unallocated body of texts using a search robot, loading a body of texts with tags of a named entity as reference text bodies from the database of body of texts, and breaking into words on an unallocated body of texts using a natural language tool;

этап 2: Выполнение обучения пространства векторов слов на сегментированном неразмеченном корпусе текстов и эталонных корпусах текстов при помощи инструмента Word2Vec;stage 2: Performing training of the space of word vectors on a segmented unallocated body of texts and reference text bodies using the Word2Vec tool;

этап 3: Преобразование текста в эталонных корпусах текстов в вектор слова, представляющий признаки слова в соответствии с обученной моделью Word2Vec, и использование вектора слова в качестве данных, вводимых в нейронную сеть; преобразование тегов в эталонных корпусах текстов в форму для быстрого доступа и использование их в качестве выходных данных нейронной сети. Ввиду того, что в задаче обработки текста именованная сущность может быть разделена на несколько слов, тегирование выполняют в шаблоне 10 В, чтобы гарантировать, что распознанная именованная сущность имеет целостность.stage 3: Converting the text in the reference text bodies into a word vector representing the characteristics of the word in accordance with the trained Word2Vec model, and using the word vector as data input into the neural network; conversion of tags in reference text cases into a form for quick access and their use as output from a neural network. Due to the fact that in a text processing task a named entity can be divided into several words, tagging is performed in a 10 V template to ensure that the recognized named entity has integrity.

К какой названной категории сущности относится слово, следует оценивать не только на основе самого слова, но и дополнительно оценивать в соответствии с контекстной информацией о слове. Таким образом, при построении нейронной сети вводится понятие «окна», то есть при оценке слова, как слово, так и характерная информация контента в виде его фиксированной длины принимаются в качестве входных данных для нейронной сети; таким образом, входной информацией в нейронную сеть больше не является длина d вектора признака слова, а вместо этого представляет собой двумерную матрицу, полученную умножением окна w на длину d вектора признака слова.Which named category of entity the word belongs to, should be evaluated not only on the basis of the word itself, but also additionally evaluated in accordance with the contextual information about the word. Thus, when constructing a neural network, the concept of “window” is introduced, that is, when evaluating a word, both the word and the characteristic content information in the form of its fixed length are taken as input to the neural network; thus, the input information to the neural network is no longer the length d of the word attribute vector, but instead is a two-dimensional matrix obtained by multiplying the window w by the length d of the word attribute vector.

Выходной слой нейронной сети нормализируется при помощи функции Softmax, так что результат категоризации, выдаваемый нейронной сетью, соответствует вероятности того, относится ли слово к неименованной сущности или именованной сущности. Структура, глубина, количество узлов, длина шага, функция активации, параметры начальных значений в нейронной сети настраиваются и для обучения нейронной сети выбирается функция активации.The output layer of the neural network is normalized using the Softmax function, so the categorization result generated by the neural network corresponds to the probability of whether the word refers to an unnamed entity or a named entity. The structure, depth, number of nodes, step length, activation function, initial values in the neural network are configured and the activation function is selected to train the neural network.

этап 4: Выполнение повторной обработки методом окна матрицы прогнозирования, выведенной из нейронной сети, с использованием информации, прогнозирующей контекст слова, подлежащего тегированию в качестве точки корреляции с фактической категорией слова, подлежащего тегированию, в модели условных случайных полей, использование алгоритма максимизации оценивания (ЕМ algorithm) для расчета ожидаемых значений по всем сторонам в соответствии с обучающими корпусами текстов и обучение соответствующей модели условных случайных полей;stage 4: Performing repeated processing by the method of the window of the prediction matrix derived from the neural network using information predicting the context of the word to be tagged as a correlation point with the actual category of the word to be tagged in the model of conditional random fields, using the estimation maximization algorithm (EM algorithm) for calculating expected values on all sides in accordance with the training corps of texts and training the corresponding model of conditional random fields;

этап 5: В процессе распознавания вначале выполняют преобразование текста, подлежащего распознаванию, в вектор слова, который отображает признаки слова в соответствии с обученной моделью Word2Vec, и если модель Word2Vec не содержит соответствующего обучающего слова, выполняют преобразование слова в вектор слова посредством пошагового обучения, извлечение вектора слова и обратное отслеживание пространства векторов слов и т.д.step 5: In the recognition process, first, the text to be recognized is converted to a word vector that displays the features of the word in accordance with the trained Word2Vec model, and if the Word2Vec model does not contain the corresponding learning word, the word is converted to a word vector by step-by-step learning, extraction word vectors and inverse tracking of the space of word vectors, etc.

(1) сопоставление с эталоном слова, подлежащего преобразованию, в пространстве векторов слов;(1) comparison with the standard of the word to be transformed in the space of word vectors;

(2) преобразование слова, подлежащего преобразованию, непосредственно в соответствующий вектор слова, если слову найдено соответствие в пространстве векторов слов;(2) the conversion of the word to be converted directly into the corresponding vector of the word if a word is found in the space of the word vectors;

(3) если модель Word2Vec не содержит соответствующего слова, выполняется резервное копирование пространства векторов слов для предотвращения снижения точности модели нейронной сети, вызванного отклонением пространства слов, созданного при пошаговом обучении, загрузка модели Word2Vec, получение предложения, в котором существует несоответствующее слово, ввод предложения в модель Word2Vec и выполнение пошагового обучения, получение вектора слова данного слова и использование резервного пространства векторов слов для выполнения обратного отслеживания модели;(3) if the Word2Vec model does not contain the corresponding word, the word vector space is backed up to prevent a decrease in the accuracy of the neural network model caused by the deviation of the word space created by step-by-step training, loading the Word2Vec model, receiving a sentence in which an inappropriate word exists, entering a sentence into the Word2Vec model and performing step-by-step training, obtaining the word vector of a given word and using the reserve space of word vectors to perform reverse tracking of the model;

выполнение обработки вектора слова методом окна, и использование двумерной матрицы, полученной умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; последующее выполнение повторной обработки методом окна матрицы прогнозирования, полученной из нейронной сети, выполнение устранения неоднозначностей на матрице прогнозирования в обученной модели условных случайных полей и получение окончательного тега именованной сущности текста, подлежащего распознаванию.execution of the processing of the word vector by the window method, and the use of a two-dimensional matrix obtained by multiplying the window w by the length d of the word vector as data input into the neural network; subsequent reprocessing by the method of the prediction matrix window obtained from the neural network, disambiguation on the forecast matrix in the trained model of conditional random fields, and obtaining the final tag of the named entity of the text to be recognized.

ПримерExample

Сетевой текст получен при помощи поискового робота на веб-сайте Sogou News (http://news.sogou.com/), корпуса текстов с тегами именованной сущности загружены из базы данных корпусов текстов Datatang (http://www.datatang.com/) в качестве эталонных корпусов текстов, разбиение на слова выполнено на полученном сетевом тексте при помощи естественно-языкового инструмента, обучение векторного пространства слов выполнено на сегментированном корпусе текстов и эталонном корпусе текстов при помощи пакета genism-библиотек Питон с использованием модели Word2Vec, использующей следующие параметры: длина вектора слова: 200, число итераций: 25, начальная длина шага: 0,025, и минимальная длина шага: 0,0001, и выбрана модель CBOW.Web text was obtained using a search robot on the Sogou News website (http://news.sogou.com/), text bodies with tags of a named entity were downloaded from the Datatang text database (http://www.datatang.com/ ) as reference text bodies, word breaks are performed on the resulting network text using a natural language tool, vector word space training is performed on a segmented text body and reference text body using the Python genism library package using the Word2Vec model using the following parameters : word vector length: 200, iteration number: 25, initial step length: 0.025, and minimum step length: 0.0001, and the CBOW model is selected.

Текст в эталонных корпусах текстов преобразован в вектор слов, представляющий признаки слов в соответствии с обученной моделью Word2Vec, и в случае, если модель Word2Vec не содержит соответствующего обучающего слова, слово преобразуется в вектор слова посредством пошагового обучения, извлечения вектора слова и обратного отслеживания пространства векторов слов и т.д., в качестве признаков слова. Теги "/о", "/n" и "/р" в эталонных корпусах текстов, полученных из Datatang, преобразованы в теги именованной сущности "/Org-B", "/Org-I", "/Per-B", "/Per-I", "/Loc-B" и "/Loc-I" и т.д. соответственно, и последующие теги именованной сущности преобразованы в форму для быстрого доступа в качестве выходных данных нейронной сети.The text in the reference text bodies is converted into a vector of words representing the characteristics of words in accordance with the trained Word2Vec model, and if the Word2Vec model does not contain the corresponding training word, the word is converted into a word vector by step-by-step learning, extracting the word vector and reverse tracking the vector space words, etc., as signs of a word. The tags "/ o", "/ n" and "/ p" in the reference cases of texts obtained from Datatang are converted to tags of the named entity "/ Org-B", "/ Org-I", "/ Per-B", "/ Per-I", "/ Loc-B" and "/ Loc-I", etc. accordingly, the subsequent tags of the named entity are converted into a form for quick access as output from a neural network.

Размер окна установлен равным 5, то есть при рассмотрении категории именованных сущностей текущего слова признаки слова данного слова, и двух слов перед словом и двух слов после слова, используются в качестве входных данных для нейронной сети; информацией, вводимой в нейронную сеть является вектор с размером пакета*1000; одна десятая слов извлечена из эталонных данных и исключена из обучения нейронной сети, но использована в качестве критерия оценки для нейронной сети; выходной слой нейронной сети нормализован при помощи функции Softmax, так что результат категоризации, выдаваемый нейронной сетью, соответствует вероятности того, относится ли слово к неименованной сущности или именованной сущности; максимальное значение вероятности временно принимается в качестве окончательного результата категоризации. Параметры в нейронной сети, такие как структура, глубина, количество узлов, длина шага, функция активации и начальное значение и т.д. настроены для обеспечения высокой точности нейронной сети; окончательные параметры являются следующими: количество скрытых слоев: 2, количество скрытых узлов: 150, длина шага: 0,01, размер пакета: 40, функция активации: сигмоидальная; таким образом может быть получен хороший эффект категоризации, точность может достигать 99,83%, а значения F наиболее типичных личных имен, географических названий и названий организаций могут составлять 93,4%, 84,2% и 80,4% соответственно.The window size is set equal to 5, that is, when considering the category of named entities of the current word, the signs of the word of the given word, and two words before the word and two words after the word, are used as input for a neural network; the information entered into the neural network is a vector with a packet size * 1000; one tenth of the words extracted from the reference data and excluded from the training of the neural network, but used as an evaluation criterion for the neural network; the output layer of the neural network is normalized using the Softmax function, so that the categorization result generated by the neural network corresponds to the probability of whether the word refers to an unnamed entity or a named entity; the maximum probability value is temporarily taken as the final result of categorization. Parameters in the neural network, such as structure, depth, number of nodes, step length, activation function and initial value, etc. tuned for high accuracy neural network; final parameters are as follows: number of hidden layers: 2, number of hidden nodes: 150, step length: 0.01, packet size: 40, activation function: sigmoidal; in this way, a good categorization effect can be obtained, accuracy can reach 99.83%, and F values of the most typical personal names, geographical names and company names can be 93.4%, 84.2% and 80.4%, respectively.

Этап получения максимального значения матрицы прогнозирования, выведенной из нейронной сети в виде конечного результата категоризации, удален, выполнена прямая обработка матрицы вероятностей методом окна, информация, прогнозирующая контекст слова, подлежащего тегированию, использована в качестве точки корреляции с фактической категорией слова, подлежащего тегированию, в модели условных случайных полей, для расчета ожидаемых значений использован алгоритм максимизации оценивания на всех сторонах условного случайного поля в соответствии с обучающими корпусами текстов, и выполнено обучение соответствующей модели условных случайных полей; после устранения неоднозначностей с использованием условного случайного поля, значения F личных имен, географических названий и названий организаций могут быть улучшены до 94,8%, 85,0% и 82,0% соответственно.The step of obtaining the maximum value of the prediction matrix derived from the neural network as the final categorization result is deleted, the probability matrix is directly processed by the window method, information predicting the context of the word to be tagged is used as a correlation point with the actual category of the word to be tagged in models of conditional random fields, to calculate the expected values, an algorithm for maximizing estimates on all sides of the conditional random field in accordance with the training corps of texts was used, and the corresponding model of conditional random fields was trained; after disambiguation using a conditional random field, the F values of personal names, geographical names and company names can be improved to 94.8%, 85.0% and 82.0%, respectively.

Из описанного выше варианта осуществления видно, что по сравнению с обычным контролируемым способом распознавания именованных сущностей, в способе распознавания в тексте именованных сущностей на основе устранения неоднозначности вероятности в нейронной сети, представленном в настоящем изобретении, используется способ преобразования векторов слов, который можно использовать для выделения признаков слов в пошаговом режиме, не вызывая отклонения пространства векторов слов; таким образом, нейронная сеть может применяться к сетевому тексту, который содержит много новых слов и неправильно написанных или искаженных символов. Кроме того, в настоящем изобретении выполняется повторная обработка методом окна матрицы вероятностей, выводимой из нейронной сети, и выполняется устранение неоднозначностей контекста с применением модели условных случайных полей, чтобы решить проблему, когда сетевой текст содержит много неправильно написанных или искаженных символов и нестандартные грамматические конструкции.From the embodiment described above, it can be seen that, compared to the conventional controlled method for recognizing named entities, the method for recognizing named entities in the text based on disambiguation of probability in a neural network of the present invention uses a method of transforming word vectors that can be used to extract signs of words in a step-by-step mode, without causing a deviation of the space of word vectors; thus, a neural network can be applied to network text that contains many new words and misspelled or distorted characters. In addition, in the present invention, the window matrix is reprocessed by a probability matrix derived from a neural network, and context ambiguities are applied using a conditional random field model to solve the problem when the network text contains many incorrectly written or distorted characters and non-standard grammatical constructions.

Хотя настоящее изобретение описано выше в виде некоторых предпочтительных вариантов осуществления, следует отметить, что специалисты в данной области техники могут вносить различные улучшения и модификации, не отступая от принципа настоящего изобретения, и эти улучшения и модификации следует рассматривать как подпадающие под объем защиты настоящего изобретения.Although the present invention has been described above in the form of some preferred embodiments, it should be noted that those skilled in the art can make various improvements and modifications without departing from the principle of the present invention, and these improvements and modifications should be considered as falling within the protection scope of the present invention.

Claims (12)

1. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети, включающий: выполнение разбиения на слова на неразмеченном корпусе текстов с использованием модели Word2Vec для выделения вектора слова, преобразование эталонных корпусов текстов в матрицу признаков слова, выполнение обработки методом окна, построение глубокой нейронной сети для обучения, добавление функции Softmax в выходной слой нейронной сети и выполнение нормализации для получения матрицы вероятностей категории именованных сущностей, соответствующей каждому слову; выполнение повторной обработки матрицы вероятностей методом окна и использование модели условных случайных полей для устранения неоднозначности для получения окончательного тега именованной сущности.1. A method for recognizing named entities of network text based on the elimination of probability ambiguity in a neural network, including: performing word splitting on an unallocated body of texts using the Word2Vec model to select a word vector, converting standard text bodies into a word feature matrix, processing by window method, building a deep neural network for training, adding the Softmax function to the output layer of the neural network and performing normalization to obtain a probability matrix of the category of named entities corresponding to each word; reprocessing the probability matrix by the window method and using the conditional random field model to eliminate the ambiguity to obtain the final tag of the named entity. 2. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети по п. 1, включающий следующие этапы:2. A method for recognizing named entities of network text based on the elimination of the ambiguity of probability in a neural network according to claim 1, comprising the following steps: этап 1: получение неразмеченного корпуса текстов при помощи поискового робота, получение эталонных корпусов текстов с тегами именованных сущностей из базы данных корпусов текстов и выполнение разбиения на слова на неразмеченном корпусе текстов при помощи естественно-языкового инструмента;stage 1: obtaining an unallocated body of texts with the help of a search robot, obtaining reference body of texts with tags of named entities from the database of body of texts and performing word splitting on an unallocated body of texts using a natural language tool; этап 2: выполнение обучения пространства векторов слов на сегментированном неразмеченном корпусе текстов и эталонных корпусах текстов при помощи инструмента Word2Vec;stage 2: performing training of the space of word vectors on a segmented unallocated case of texts and reference cases of texts using the Word2Vec tool; этап 3: преобразование текста в эталонных корпусах текстов в вектор слова, представляющий признаки слова в соответствии с обученной моделью Word2Vec, выполнение обработки вектора слова методом окна и использование двумерной матрицы, полученной умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; преобразование тегов в эталонных корпусах текстов в форму для быстрого доступа и использование их в качестве выходных данных нейронной сети; выполнение нормализации на выходном слое нейронной сети при помощи функции Softmax, так что результат категоризации, выдаваемый нейронной сетью, соответствует вероятности того, относится ли слово к неименованной сущности или именованной сущности, корректировка структуры, глубины, количества узлов, длины шага, функции активации и параметров начальных значений в нейронной сети и выбор функции активации для обучения нейронной сети;stage 3: converting the text in the reference text bodies into a word vector representing the word attributes in accordance with the trained Word2Vec model, performing the processing of the word vector by the window method and using a two-dimensional matrix obtained by multiplying the window w by the length d of the word vector as the data input into neural network; conversion of tags in the reference text cases into a form for quick access and their use as output from a neural network; performing normalization on the output layer of the neural network using the Softmax function, so that the categorization result generated by the neural network corresponds to the probability of whether the word refers to an unnamed entity or named entity, adjusting the structure, depth, number of nodes, step length, activation function and parameters initial values in the neural network and the selection of the activation function for training the neural network; этап 4: выполнение повторной обработки методом окна матрицы прогнозирования, выведенной из нейронной сети, с использованием информации, прогнозирующей контекст слова, подлежащего тегированию, в качестве точки корреляции с фактической категорией слова, подлежащего тегированию, в модели условных случайных полей, использование алгоритма максимизации оценивания для расчета ожидаемых значений по всем сторонам в соответствии с обучающими корпусами текстов и обучение соответствующей модели условных случайных полей;stage 4: performing repeated processing by the method of the window of the prediction matrix derived from the neural network, using information predicting the context of the word to be tagged as a correlation point with the actual category of the word to be tagged in the conditional random field model, using the estimation maximization algorithm for calculating expected values on all sides in accordance with the training corps of texts and training the corresponding model of conditional random fields; этап 5: в процессе распознавания вначале выполняют преобразование текста, подлежащего распознаванию, в вектор слова, который отображает признаки слова в соответствии с обученной моделью Word2Vec, и, если модель Word2Vec не содержит соответствующего слова, выполняется преобразование слова в вектор слова посредством пошагового обучения, извлечение вектора слова и обратное отслеживание пространства векторов слов и т.д., выполняют обработку вектора слова методом окна и используют двумерную матрицу, полученную умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; затем выполняют повторную обработку методом окна матрицы прогнозирования, полученной из нейронной сети, выполняют устранение неоднозначностей на матрице прогнозирования в обученной модели условных случайных полей и получают окончательный тег именованной сущности текста, подлежащего распознаванию.step 5: in the recognition process, the text to be recognized is first converted to a word vector that displays the features of the word in accordance with the trained Word2Vec model, and if the Word2Vec model does not contain the corresponding word, the word is converted to a word vector by step-by-step learning, extraction word vectors and inverse tracking of the space of word vectors, etc., perform word vector processing by the window method and use a two-dimensional matrix obtained by multiplying the window w by the length d of the word vector as data input into the neural network; then, repeated processing by the window prediction matrix method obtained from the neural network is performed, disambiguation on the forecast matrix in the trained model of conditional random fields is performed, and the final tag of the named entity of the text to be recognized is obtained. 3. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети по п. 1, в котором параметры инструмента Word2Vec являются следующими: длина вектора слова: 200, число итераций: 25, начальная длина шага: 0,025, минимальная длина шага: 0,0001 и выбрана модель CBOW.3. A method for recognizing named entities of network text based on the elimination of probability ambiguity in a neural network according to claim 1, wherein the parameters of the Word2Vec tool are as follows: word vector length: 200, number of iterations: 25, initial step length: 0,025, minimum step length: 0.0001 and the CBOW model is selected. 4. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети по п. 1, в котором параметры нейронной сети являются следующими: количество скрытых слоев: 2, количество скрытых узлов: 150, длина шага: 0,01, размер пакета: 40, функция активации: сигмоидальная функция.4. A method for recognizing named entities of network text based on the elimination of probability ambiguity in a neural network according to claim 1, wherein the parameters of the neural network are as follows: number of hidden layers: 2, number of hidden nodes: 150, step length: 0.01, packet size : 40, activation function: sigmoid function. 5. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети по п. 1, в котором теги в эталонных корпусах текстов преобразуются в форму для быстрого доступа следующим способом: преобразование тегов "/о", "/n" и "/р" в эталонных корпусах текстов в теги именованной сущности "/Org-B", "/Org-I", "/Per-B", "/Per-I", "/Loc-B" и "/Loc-I", соответственно, и последующее преобразование тегов именованных сущностей в форму для быстрого доступа.5. A method for recognizing named entities of network text based on the elimination of probability ambiguity in a neural network according to claim 1, in which the tags in the reference text bodies are converted into a form for quick access in the following way: conversion of the "/ о", "/ n" and "tags / p "in the reference text bodies in the tags of the named entity" / Org-B "," / Org-I "," / Per-B "," / Per-I "," / Loc-B "and" / Loc- I ", respectively, and the subsequent conversion of tags of named entities into a form for quick access. 6. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети по п. 1, в котором размер окна для выполнения обработки вектора слова методом окна равен 5.6. A method for recognizing named entities of network text based on the elimination of probability ambiguity in a neural network according to claim 1, wherein the window size for processing a word vector by the window method is 5. 7. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети по п. 1, в котором при обучении нейронной сети одна десятая слов выделяется из эталонных данных и исключается из обучения нейронной сети, но используется в качестве критерия оценки для нейронной сети.7. A method for recognizing named entities of a network text based on the elimination of probability ambiguity in a neural network according to claim 1, in which, when training a neural network, one tenth of the words are extracted from the reference data and excluded from the training of the neural network, but used as an evaluation criterion for the neural network .
RU2019117529A 2017-05-27 2017-06-20 Method of recognizing named entities in network text based on elimination of probability ambiguity in neural network RU2722571C1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710390409.2 2017-05-27
CN201710390409.2A CN107203511B (en) 2017-05-27 2017-05-27 Network text named entity identification method based on neural network probability disambiguation
PCT/CN2017/089135 WO2018218705A1 (en) 2017-05-27 2017-06-20 Method for recognizing network text named entity based on neural network probability disambiguation

Publications (1)

Publication Number Publication Date
RU2722571C1 true RU2722571C1 (en) 2020-06-01

Family

ID=59905476

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019117529A RU2722571C1 (en) 2017-05-27 2017-06-20 Method of recognizing named entities in network text based on elimination of probability ambiguity in neural network

Country Status (5)

Country Link
CN (1) CN107203511B (en)
AU (1) AU2017416649A1 (en)
CA (1) CA3039280C (en)
RU (1) RU2722571C1 (en)
WO (1) WO2018218705A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2760637C1 (en) * 2020-08-31 2021-11-29 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Method and system for retrieving named entities
WO2023204724A1 (en) * 2022-04-20 2023-10-26 Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") Method for analyzing a legal document
RU2823914C2 (en) * 2021-08-03 2024-07-30 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Method and system for extracting named entities

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203511B (en) * 2017-05-27 2020-07-17 中国矿业大学 Network text named entity identification method based on neural network probability disambiguation
CN107665252B (en) * 2017-09-27 2020-08-25 深圳证券信息有限公司 Method and device for creating knowledge graph
CN107832289A (en) * 2017-10-12 2018-03-23 北京知道未来信息技术有限公司 A kind of name entity recognition method based on LSTM CNN
CN107908614A (en) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 A kind of name entity recognition method based on Bi LSTM
CN107885721A (en) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 A kind of name entity recognition method based on LSTM
CN107967251A (en) * 2017-10-12 2018-04-27 北京知道未来信息技术有限公司 A kind of name entity recognition method based on Bi-LSTM-CNN
CN107797989A (en) * 2017-10-16 2018-03-13 平安科技(深圳)有限公司 Enterprise name recognition methods, electronic equipment and computer-readable recording medium
CN107943788B (en) * 2017-11-17 2021-04-06 平安科技(深圳)有限公司 Enterprise abbreviation generation method and device and storage medium
CN110019648B (en) * 2017-12-05 2021-02-02 深圳市腾讯计算机系统有限公司 Method and device for training data and storage medium
CN108052504B (en) * 2017-12-26 2020-11-20 浙江讯飞智能科技有限公司 Structure analysis method and system for mathematic subjective question answer result
CN108121702B (en) * 2017-12-26 2020-11-24 浙江讯飞智能科技有限公司 Method and system for evaluating and reading mathematical subjective questions
CN108280062A (en) * 2018-01-19 2018-07-13 北京邮电大学 Entity based on deep learning and entity-relationship recognition method and device
CN108563626B (en) * 2018-01-22 2022-01-25 北京颐圣智能科技有限公司 Medical text named entity recognition method and device
CN108388559B (en) * 2018-02-26 2021-11-19 中译语通科技股份有限公司 Named entity identification method and system under geographic space application and computer program
CN108763192B (en) * 2018-04-18 2022-04-19 达而观信息科技(上海)有限公司 Entity relation extraction method and device for text processing
CN108805196B (en) * 2018-06-05 2022-02-18 西安交通大学 Automatic incremental learning method for image recognition
RU2699687C1 (en) * 2018-06-18 2019-09-09 Общество с ограниченной ответственностью "Аби Продакшн" Detecting text fields using neural networks
CN109062983A (en) * 2018-07-02 2018-12-21 北京妙医佳信息技术有限公司 Name entity recognition method and system for medical health knowledge mapping
CN109241520B (en) * 2018-07-18 2023-05-23 五邑大学 Sentence trunk analysis method and system based on multi-layer error feedback neural network for word segmentation and named entity recognition
CN109255119B (en) * 2018-07-18 2023-04-25 五邑大学 Sentence trunk analysis method and system of multi-task deep neural network based on word segmentation and named entity recognition
CN109299458B (en) * 2018-09-12 2023-03-28 广州多益网络股份有限公司 Entity identification method, device, equipment and storage medium
CN109446514B (en) * 2018-09-18 2024-08-20 平安科技(深圳)有限公司 News entity identification model construction method and device and computer equipment
CN109657238B (en) * 2018-12-10 2023-10-13 宁波深擎信息科技有限公司 Knowledge graph-based context identification completion method, system, terminal and medium
CN109710927B (en) * 2018-12-12 2022-12-20 东软集团股份有限公司 Named entity identification method and device, readable storage medium and electronic equipment
CN109670177A (en) * 2018-12-20 2019-04-23 翼健(上海)信息科技有限公司 One kind realizing the semantic normalized control method of medicine and control device based on LSTM
CN109858025B (en) * 2019-01-07 2023-06-13 鼎富智能科技有限公司 Word segmentation method and system for address standardized corpus
CN109767817B (en) * 2019-01-16 2023-05-30 南通大学 Drug potential adverse reaction discovery method based on neural network language model
CN111563380A (en) * 2019-01-25 2020-08-21 浙江大学 Named entity identification method and device
CN109800437B (en) * 2019-01-31 2023-11-14 北京工业大学 Named entity recognition method based on feature fusion
CN109992629B (en) * 2019-02-28 2021-08-06 中国科学院计算技术研究所 Neural network relation extraction method and system fusing entity type constraints
CN109858041B (en) * 2019-03-07 2023-02-17 北京百分点科技集团股份有限公司 Named entity recognition method combining semi-supervised learning with user-defined dictionary
CN109933801B (en) * 2019-03-25 2022-03-29 北京理工大学 Bidirectional LSTM named entity identification method based on predicted position attention
CN111858838A (en) * 2019-04-04 2020-10-30 拉扎斯网络科技(上海)有限公司 Menu calibration method and device, electronic equipment and nonvolatile storage medium
CN110083778A (en) * 2019-04-08 2019-08-02 清华大学 The figure convolutional neural networks construction method and device of study separation characterization
CN110334110A (en) * 2019-05-28 2019-10-15 平安科技(深圳)有限公司 Natural language classification method, device, computer equipment and storage medium
CN110245242B (en) * 2019-06-20 2022-01-18 北京百度网讯科技有限公司 Medical knowledge graph construction method and device and terminal
CN110298043B (en) * 2019-07-03 2023-04-07 吉林大学 Vehicle named entity identification method and system
CN110750992B (en) * 2019-10-09 2023-07-04 吉林大学 Named entity recognition method, named entity recognition device, electronic equipment and named entity recognition medium
CN110781646B (en) * 2019-10-15 2023-08-22 泰康保险集团股份有限公司 Name standardization method, device, medium and electronic equipment
CN111008271B (en) * 2019-11-20 2022-06-24 佰聆数据股份有限公司 Neural network-based key information extraction method and system
CN110993081B (en) * 2019-12-03 2023-08-11 济南大学 Doctor online recommendation method and system
CN111091003B (en) * 2019-12-05 2023-10-10 电子科技大学广东电子信息工程研究院 Parallel extraction method based on knowledge graph query
CN111209748B (en) * 2019-12-16 2023-10-24 合肥讯飞数码科技有限公司 Error word recognition method, related device and readable storage medium
CN113139382A (en) * 2020-01-20 2021-07-20 北京国双科技有限公司 Named entity identification method and device
CN111368545B (en) * 2020-02-28 2024-04-30 北京明略软件系统有限公司 Named entity recognition method and device based on multitask learning
CN111477320B (en) * 2020-03-11 2023-05-30 北京大学第三医院(北京大学第三临床医学院) Treatment effect prediction model construction system, treatment effect prediction system and terminal
CN111523323B (en) * 2020-04-26 2022-08-12 梁华智能科技(上海)有限公司 Disambiguation processing method and system for Chinese word segmentation
CN111581957B (en) * 2020-05-06 2022-04-12 浙江大学 Nested entity detection method based on pyramid hierarchical network
CN111476022B (en) * 2020-05-15 2023-07-07 湖南工商大学 Character embedding and mixed LSTM entity identification method, system and medium for entity characteristics
CN111859937B (en) * 2020-07-20 2024-07-30 上海汽车集团股份有限公司 Entity identification method and device
CN112199953B (en) * 2020-08-24 2024-06-28 广州九四智能科技有限公司 Method and device for extracting information in telephone call and computer equipment
CN112101041B (en) * 2020-09-08 2022-02-15 平安科技(深圳)有限公司 Entity relationship extraction method, device, equipment and medium based on semantic similarity
CN112765983A (en) * 2020-12-14 2021-05-07 四川长虹电器股份有限公司 Entity disambiguation method based on neural network combined with knowledge description
CN112487816B (en) * 2020-12-14 2024-02-13 安徽大学 Named entity identification method based on network classification
CN112905742B (en) * 2021-02-20 2022-07-29 厦门吉比特网络技术股份有限公司 Method and device for recognizing new vocabulary based on semantic model neural network
CN113343690B (en) * 2021-06-22 2024-03-12 北京语言大学 Text readability automatic evaluation method and device
CN114218924A (en) * 2021-07-27 2022-03-22 广东电力信息科技有限公司 Text intention and entity combined identification method based on BERT model
CN114519355A (en) * 2021-08-25 2022-05-20 浙江万里学院 Medicine named entity recognition and entity standardization method
CN113849597B (en) * 2021-08-31 2024-04-30 艾迪恩(山东)科技有限公司 Illegal advertisement word detection method based on named entity recognition
CN113934815A (en) * 2021-09-18 2022-01-14 有米科技股份有限公司 Advertisement and pattern characteristic information identification method and device based on neural network
CN114036948B (en) * 2021-10-26 2024-05-31 天津大学 Named entity identification method based on uncertainty quantification
CN114048749B (en) * 2021-11-19 2024-02-02 北京第一因科技有限公司 Chinese named entity recognition method suitable for multiple fields
CN114510943B (en) * 2022-02-18 2024-05-28 北京大学 Incremental named entity recognition method based on pseudo sample replay
CN115587594B (en) * 2022-09-20 2023-06-30 广东财经大学 Unstructured text data extraction model training method and system for network security
CN115905456B (en) * 2023-01-06 2023-06-02 浪潮电子信息产业股份有限公司 Data identification method, system, equipment and computer readable storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2399959C2 (en) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media
US20120089620A1 (en) * 2010-10-07 2012-04-12 Castellanos Maria G Extracting data
CN105404632A (en) * 2014-09-15 2016-03-16 深港产学研基地 Deep neural network based biomedical text serialization labeling system and method
CN106202044A (en) * 2016-07-07 2016-12-07 武汉理工大学 A kind of entity relation extraction method based on deep neural network

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502971B2 (en) * 2005-10-12 2009-03-10 Hewlett-Packard Development Company, L.P. Determining a recurrent problem of a computer resource using signatures
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
CN103455581B (en) * 2013-08-26 2016-05-04 北京理工大学 This information filtering method of Massive short documents based on semantic extension
CN104809176B (en) * 2015-04-13 2018-08-07 中央民族大学 Tibetan language entity relation extraction method
CN105740349B (en) * 2016-01-25 2019-03-08 重庆邮电大学 A kind of sensibility classification method of combination Doc2vec and convolutional neural networks
CN105868184B (en) * 2016-05-10 2018-06-08 大连理工大学 A kind of Chinese personal name recognition method based on Recognition with Recurrent Neural Network
CN106202032B (en) * 2016-06-24 2018-08-28 广州数说故事信息科技有限公司 A kind of sentiment analysis method and its system towards microblogging short text
CN107203511B (en) * 2017-05-27 2020-07-17 中国矿业大学 Network text named entity identification method based on neural network probability disambiguation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2399959C2 (en) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media
US20120089620A1 (en) * 2010-10-07 2012-04-12 Castellanos Maria G Extracting data
CN105404632A (en) * 2014-09-15 2016-03-16 深港产学研基地 Deep neural network based biomedical text serialization labeling system and method
CN106202044A (en) * 2016-07-07 2016-12-07 武汉理工大学 A kind of entity relation extraction method based on deep neural network

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2760637C1 (en) * 2020-08-31 2021-11-29 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Method and system for retrieving named entities
RU2823914C2 (en) * 2021-08-03 2024-07-30 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Method and system for extracting named entities
WO2023204724A1 (en) * 2022-04-20 2023-10-26 Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") Method for analyzing a legal document

Also Published As

Publication number Publication date
WO2018218705A1 (en) 2018-12-06
CA3039280A1 (en) 2018-12-06
CA3039280C (en) 2021-07-20
CN107203511B (en) 2020-07-17
CN107203511A (en) 2017-09-26
AU2017416649A1 (en) 2019-05-02

Similar Documents

Publication Publication Date Title
RU2722571C1 (en) Method of recognizing named entities in network text based on elimination of probability ambiguity in neural network
CN110162749B (en) Information extraction method, information extraction device, computer equipment and computer readable storage medium
CN110781276B (en) Text extraction method, device, equipment and storage medium
CN108073677B (en) Multi-level text multi-label classification method and system based on artificial intelligence
CN107679039B (en) Method and device for determining statement intention
CN104834747B (en) Short text classification method based on convolutional neural networks
CN109376222B (en) Question-answer matching degree calculation method, question-answer automatic matching method and device
CN109948160B (en) Short text classification method and device
CN112860919B (en) Data labeling method, device, equipment and storage medium based on generation model
US11551114B2 (en) Method and apparatus for recommending test question, and intelligent device
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN112528654A (en) Natural language processing method and device and electronic equipment
CN112818091A (en) Object query method, device, medium and equipment based on keyword extraction
CN112528658A (en) Hierarchical classification method and device, electronic equipment and storage medium
CN116402630B (en) Financial risk prediction method and system based on characterization learning
CN112100377A (en) Text classification method and device, computer equipment and storage medium
CN114647713A (en) Knowledge graph question-answering method, device and storage medium based on virtual confrontation
CN111597816A (en) Self-attention named entity recognition method, device, equipment and storage medium
JP7121819B2 (en) Image processing method and apparatus, electronic device, computer-readable storage medium, and computer program
CN111241273A (en) Text data classification method and device, electronic equipment and computer readable medium
CN114417891A (en) Reply sentence determination method and device based on rough semantics and electronic equipment
CN114491030A (en) Skill label extraction and candidate phrase classification model training method and device
Odumuyiwa et al. A systematic review on hidden markov models for sentiment analysis
JP2017102599A (en) Estimation device, parameter learning device, method, and program
Wang Prospect of Intelligent English Translation Algorithm based on Neural Machine Translation and Internal Chain Network Modeling