RU2014101126A - Автоматическое извлечение именованных сущностей из текста - Google Patents

Автоматическое извлечение именованных сущностей из текста Download PDF

Info

Publication number
RU2014101126A
RU2014101126A RU2014101126/08A RU2014101126A RU2014101126A RU 2014101126 A RU2014101126 A RU 2014101126A RU 2014101126/08 A RU2014101126/08 A RU 2014101126/08A RU 2014101126 A RU2014101126 A RU 2014101126A RU 2014101126 A RU2014101126 A RU 2014101126A
Authority
RU
Russia
Prior art keywords
attributes
subset
token
classifier
commands
Prior art date
Application number
RU2014101126/08A
Other languages
English (en)
Other versions
RU2665239C2 (ru
Inventor
Илья Владимирович Нехай
Original Assignee
Общество с ограниченной ответственностью "Аби ИнфоПоиск"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби ИнфоПоиск" filed Critical Общество с ограниченной ответственностью "Аби ИнфоПоиск"
Priority to RU2014101126A priority Critical patent/RU2665239C2/ru
Priority to US14/508,419 priority patent/US9588960B2/en
Publication of RU2014101126A publication Critical patent/RU2014101126A/ru
Application granted granted Critical
Publication of RU2665239C2 publication Critical patent/RU2665239C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

1. Способ, включающий:извлечение процессором токенов из неразмеченного корпуса текстов;формирование процессором набора атрибутов для каждого токена на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающееся тем, что в нем набор атрибутов включает лексические, синтаксические и семантические атрибуты;выбор процессором подмножества атрибутов для каждого токена;извлечение процессором атрибутов и категорий классификатора на основании обученной модели, отличающееся тем, что атрибуты классификатора связаны с одной или несколькими категориями;сравнение процессором подмножества атрибутов для каждого токена с атрибутами классификатора;классификацию процессором каждого токена по меньшей мере в одну из категорий на основании сравнения иформирование процессором размеченного текста на основании токенов, классифицированных по категориям.2. Способ по п. 1, дополнительно включающий:определение новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, идобавление взаимосвязи между первым атрибутом и первой категорией.3. Способ по п. 1, отличающийся тем, что в нем формирование атрибутов включает:формирование лексико-морфологической структуры неразмеченного корпуса текстов;определение возможных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;выделение множества синтаксических деревьев на основании по меньшей мере возможных синтаксических связей;определение интегральной оценки каждого из множества синтаксических деревьев на основании референциаль

Claims (23)

1. Способ, включающий:
извлечение процессором токенов из неразмеченного корпуса текстов;
формирование процессором набора атрибутов для каждого токена на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающееся тем, что в нем набор атрибутов включает лексические, синтаксические и семантические атрибуты;
выбор процессором подмножества атрибутов для каждого токена;
извлечение процессором атрибутов и категорий классификатора на основании обученной модели, отличающееся тем, что атрибуты классификатора связаны с одной или несколькими категориями;
сравнение процессором подмножества атрибутов для каждого токена с атрибутами классификатора;
классификацию процессором каждого токена по меньшей мере в одну из категорий на основании сравнения и
формирование процессором размеченного текста на основании токенов, классифицированных по категориям.
2. Способ по п. 1, дополнительно включающий:
определение новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, и
добавление взаимосвязи между первым атрибутом и первой категорией.
3. Способ по п. 1, отличающийся тем, что в нем формирование атрибутов включает:
формирование лексико-морфологической структуры неразмеченного корпуса текстов;
определение возможных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;
выделение множества синтаксических деревьев на основании по меньшей мере возможных синтаксических связей;
определение интегральной оценки каждого из множества синтаксических деревьев на основании референциальных оценок;
выбор первого синтаксического дерева на основании интегральной оценки;
формирование независимой от языка семантической структуры на основании первого синтаксического дерева и
формирование атрибутов на основании независимой от языка семантической структуры.
4. Способ по п. 1, дополнительно включающий получение обученной модели путем:
сравнения атрибутов классификатора с маркерами, полученными из размеченного корпуса текстов;
присвоения весов атрибутам в соответствии с результатами этого сравнения и
максимизации точности, полноты или F-меры, оцененных по отдельному размеченному корпусу оценки.
5. Способ по п. 1, отличающийся тем, что выбор подмножества атрибутов включает:
ранжирование атрибутов на основе метрики корреляции, при котором метрика корреляции сравнивает значения атрибутов и размеченный текст и
выбор подмножества атрибутов на основании по меньшей мере ранжирования.
6. Способ по п. 5, отличающийся тем, что первое и второе ранжирование основаны по меньшей мере на оценках точности, полноты и F-меры.
7. Способ по п. 1, отличающийся тем, что выбор подмножества атрибутов включает:
определение первого подмножества атрибутов;
определение первой оценки обучающей модели, основанной по меньшей мере на первом подмножестве атрибутов;
определение второго подмножества атрибутов, в котором второе подмножество атрибутов включает первое подмножество атрибутов и по меньшей мере один дополнительный атрибут;
определение второй оценки обучающей модели, основанной по меньшей мере на втором подмножестве атрибутов, а также
выбор подмножества атрибутов из первого или из второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.
8. Способ по п. 7, отличающийся тем, что первая и вторая оценки основаны по меньшей мере на оценках точности, полноты и F-меры.
9. Способ по п. 1, отличающийся тем, что выбор подмножества атрибутов включает:
определение всех атрибутов в качестве первого подмножества атрибутов;
определение первой оценки обучающей модели, основанной по меньшей мере на первом подмножестве атрибутов;
определение второго подмножества атрибутов, в котором количество атрибутов меньше, чем в первом подмножестве атрибутов;
определение второй оценки обучающей модели, основанной по меньшей мере на втором подмножестве атрибутов, а также
выбор подмножества атрибутов из первого или из второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.
10. Способ по п. 9, отличающийся тем, что первая и вторая оценки основаны по меньшей мере на оценках точности, полноты и F-меры.
11. Способ по п. 1, отличающийся тем, что первый атрибут и второй атрибут скомбинированы для получения третьего атрибута, причем в нем первый токен классифицируется на основании по меньшей мере третьего атрибута.
12. Способ по п. 11, отличающийся тем, что первая и вторая оценки основаны по меньшей мере на оценках точности, полноты и F-меры.
13. Способ по п. 1, отличающийся тем, что атрибуты классификатора включают подмножество атрибутов обученной модели, в котором эти атрибуты классификатора выбираются по меньшей мере на основании F-меры.
14. Система, включающая:
один или несколько процессоров настроенных на:
извлечение токенов из неразмеченного корпуса текстов;
формирование набора атрибутов для каждого из этих токенов на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающееся тем, что набор атрибутов включает лексические, синтаксические и семантические атрибуты;
выбор подмножества атрибутов для каждого из этих токенов;
извлечение атрибутов классификаторов и категории на основании обученной модели, отличающееся тем, что эти атрибуты классификатора связаны с одной или несколькими категориями;
сравнение подмножество атрибутов для каждого токена с атрибутами классификатора;
классификацию каждого токена по меньшей мере в одну категорию на основании сравнения и
формирование размеченного текста на основании отнесенных к категориям токенов.
15. Система по п. 14, один или несколько процессоров которой дополнительно настроены на:
определение новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, и
добавление взаимосвязи между первым атрибутом и первой категорией.
16. Система по п. 14, отличающаяся тем, что один или несколько процессоров настроены на формирование атрибутов, которые настроены на:
формирование лексико-морфологической структуры неразмеченного корпуса текстов;
определение возможных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;
выделение множества синтаксических деревьев на основании по меньшей мере возможных синтаксических связей;
определение интегральной оценки каждого из множества синтаксических деревьев на основании референциальных оценок;
выбор первого синтаксического дерева на основании интегральной оценки;
формирование независимой от языка семантической структуры на основании первого синтаксического дерева и
формирование атрибутов на основании независимой от языка семантической структуры.
17. Система по п. 14, отличающаяся тем, что один или несколько процессоров дополнительно настроены на:
сравнение атрибутов классификатора с тегами, полученными из размеченного корпуса текстов;
присвоение весов атрибутам в соответствии с результатами этого сравнения и
максимизацию оценок точности, полноты и F-меры, оцененных на отдельном размеченном корпусе оценки для того, чтобы получить обученный классификатор.
18. Система по п. 14, отличающаяся тем, что один или несколько процессоров настроены на выбор подмножества признаков и настроены на:
определение первого подмножества атрибутов;
определение первой оценки обучающей модели, основанной по меньшей мере на первом подмножестве атрибутов;
определение второго подмножества атрибутов, в котором второе подмножество атрибутов включает первое подмножество атрибутов и по меньшей мере один дополнительный атрибут;
определение второй оценки обучающей модели, основанной по меньшей мере на втором подмножестве атрибутов, а также
выбор подмножества атрибутов из первого или из второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.
19. Машиночитаемый носитель информации, на который записаны команды, включающие:
команды для извлечения токенов из неразмеченного корпуса текста;
команды для формирования множества атрибутов для каждого токена на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающегося тем, что это множество атрибутов включает лексические, синтаксические и семантические атрибуты;
команды для выбора подмножества атрибутов для каждого токена;
команды для извлечения атрибутов классификатора и категорий на основании на обученной модели, отличающейся тем, что атрибуты классификатора связаны с одной или несколькими категориями;
команды для сравнения подмножества атрибутов для каждого токена с атрибутами классификатора;
команды для классификации каждого токена по меньшей мере в одной категории на основании сравнения, а также
команды для формирования размеченного текста на основании отнесенных к категориям токенов.
20. Машиночитаемый носитель информации по п. 19, команды в котором дополнительно включают:
команды для определения новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, а также
команды для добавления этого отношения между первым атрибутом и первой категорией.
21. Машиночитаемый носитель информации по п. 19, отличающийся тем, что в нем команды для формирования атрибутов включают:
команды для формирования лексико-морфологической структуры неразмеченного корпуса текстов;
команды для определения потенциальных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;
команды для выделения множества синтаксических деревьев на основании по меньшей мере потенциальных синтаксических связей;
команды для определения интегральной оценки для каждого из множества синтаксических деревьев на основании референциальных оценок;
команды для выбора первого синтаксического дерева на основании интегральной оценки;
команды для формирования независимой от языка семантической структуры на основании первого синтаксического дерева, а также
команды для формирования атрибутов на основании независимой от языка семантической структуры.
22. Машиночитаемый носитель информации по п. 19, отличающийся тем, что записанные в нем команды дополнительно содержат:
команды для сравнения атрибутов классификатора с маркерами, полученными из размеченного корпуса текстов;
команды для присвоения весов атрибутам в соответствии с результатами сравнения и
команды для максимизации оценок точности, полноты и F-меры, оценивающихся по отдельному размеченному корпусу, используемого для оценки для того, чтобы получить обученный классификатор.
23. Машиночитаемый носитель информации по п. 19, отличающийся тем, что записанные в нем команды для выбора подмножества атрибутов включают:
команды для определения первого подмножества атрибутов;
команды для определения первой оценки обучаемой модели, основанной по меньшей мере на первом подмножестве атрибутов;
команды для определения второго подмножества атрибутов, в котором второе подмножество атрибутов содержит первое подмножество атрибутов и по меньшей мере один дополнительный атрибут;
команды для определения второй оценки обучаемой модели, основанной по меньшей мере на втором подмножестве атрибутов, а также
команды для выбора подмножества атрибутов из первого или второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.
RU2014101126A 2014-01-15 2014-01-15 Автоматическое извлечение именованных сущностей из текста RU2665239C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2014101126A RU2665239C2 (ru) 2014-01-15 2014-01-15 Автоматическое извлечение именованных сущностей из текста
US14/508,419 US9588960B2 (en) 2014-01-15 2014-10-07 Automatic extraction of named entities from texts

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014101126A RU2665239C2 (ru) 2014-01-15 2014-01-15 Автоматическое извлечение именованных сущностей из текста

Publications (2)

Publication Number Publication Date
RU2014101126A true RU2014101126A (ru) 2015-07-20
RU2665239C2 RU2665239C2 (ru) 2018-08-28

Family

ID=53521532

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014101126A RU2665239C2 (ru) 2014-01-15 2014-01-15 Автоматическое извлечение именованных сущностей из текста

Country Status (2)

Country Link
US (1) US9588960B2 (ru)
RU (1) RU2665239C2 (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2619193C1 (ru) * 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
RU2628431C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Подбор параметров текстового классификатора на основе семантических признаков
RU2646386C1 (ru) * 2016-12-07 2018-03-02 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9348815B1 (en) 2013-06-28 2016-05-24 Digital Reasoning Systems, Inc. Systems and methods for construction, maintenance, and improvement of knowledge representations
US9665454B2 (en) * 2014-05-14 2017-05-30 International Business Machines Corporation Extracting test model from textual test suite
US9311301B1 (en) * 2014-06-27 2016-04-12 Digital Reasoning Systems, Inc. Systems and methods for large scale global entity resolution
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US20160117386A1 (en) * 2014-10-22 2016-04-28 International Business Machines Corporation Discovering terms using statistical corpus analysis
US9898773B2 (en) * 2014-11-18 2018-02-20 Microsoft Technology Licensing, Llc Multilingual content based recommendation system
US9588959B2 (en) * 2015-01-09 2017-03-07 International Business Machines Corporation Extraction of lexical kernel units from a domain-specific lexicon
WO2016163043A1 (ja) * 2015-04-10 2016-10-13 株式会社ソリトンシステムズ 電子メール誤送信判定装置、電子メール送信システム及び記録媒体
CN105653519A (zh) * 2015-12-30 2016-06-08 贺惠新 一种领域专有词的挖掘方法
US10765956B2 (en) * 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
US11263218B2 (en) * 2016-04-26 2022-03-01 Equifax Inc. Global matching system
US11449744B2 (en) 2016-06-23 2022-09-20 Microsoft Technology Licensing, Llc End-to-end memory networks for contextual language understanding
US10311092B2 (en) * 2016-06-28 2019-06-04 Microsoft Technology Licensing, Llc Leveraging corporal data for data parsing and predicting
US10366163B2 (en) * 2016-09-07 2019-07-30 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
RU2646380C1 (ru) * 2016-12-22 2018-03-02 Общество с ограниченной ответственностью "Аби Продакшн" Использование верифицированных пользователем данных для обучения моделей уверенности
RU2662688C1 (ru) * 2017-03-16 2018-07-26 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информации из смысловых блоков документов с использованием микромоделей на базе онтологии
US10467346B2 (en) * 2017-05-18 2019-11-05 Wipro Limited Method and system for generating named entities
US10534825B2 (en) 2017-05-22 2020-01-14 Microsoft Technology Licensing, Llc Named entity-based document recommendations
CN108391446B (zh) * 2017-06-20 2022-02-22 埃森哲环球解决方案有限公司 基于机器学习算法对针对数据分类器的训练语料库的自动提取
US10936952B2 (en) 2017-09-01 2021-03-02 Facebook, Inc. Detecting content items in violation of an online system policy using templates based on semantic vectors representing content items
US11195099B2 (en) 2017-09-01 2021-12-07 Facebook, Inc. Detecting content items in violation of an online system policy using semantic vectors
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
US20190182197A1 (en) * 2017-10-10 2019-06-13 Soliton Systems K.K. Warning apparatus for preventing electronic mail wrong transmission, electronic mail transmission system, and program
US10860800B2 (en) * 2017-10-30 2020-12-08 Panasonic Intellectual Property Management Co., Ltd. Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system
RU2679988C1 (ru) * 2017-12-11 2019-02-14 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информационных объектов с помощью комбинации классификаторов
US11086913B2 (en) * 2018-01-02 2021-08-10 Freshworks Inc. Named entity recognition from short unstructured text
US10999256B2 (en) * 2018-01-29 2021-05-04 Sap Se Method and system for automated text anonymization
US10599774B1 (en) * 2018-02-26 2020-03-24 Facebook, Inc. Evaluating content items based upon semantic similarity of text
CN110555131B (zh) * 2018-03-27 2023-04-07 阿里巴巴(中国)有限公司 内容推荐方法、内容推荐装置和电子设备
CN110555157B (zh) * 2018-03-27 2023-04-07 阿里巴巴(中国)有限公司 内容推荐方法、内容推荐装置和电子设备
CN110555135B (zh) * 2018-03-27 2023-04-07 阿里巴巴(中国)有限公司 内容推荐方法、内容推荐装置和电子设备
US11636287B2 (en) * 2018-03-28 2023-04-25 Intuit Inc. Learning form-based information classification
US10963273B2 (en) 2018-04-20 2021-03-30 Facebook, Inc. Generating personalized content summaries for users
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
RU2686000C1 (ru) * 2018-06-20 2019-04-23 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
CN109461039A (zh) * 2018-08-28 2019-03-12 厦门快商通信息技术有限公司 一种文本处理方法及智能客服方法
RU2691837C1 (ru) * 2018-09-20 2019-06-18 Юрий Михайлович Акаткин Способ автоматизированного проектирования приложений
WO2020091618A1 (ru) * 2018-10-30 2020-05-07 федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (государственный университет)" Система определения именованных сущностей с динамическими параметрами
US11580301B2 (en) * 2019-01-08 2023-02-14 Genpact Luxembourg S.à r.l. II Method and system for hybrid entity recognition
US11341332B2 (en) * 2019-04-29 2022-05-24 Bae Systems Information And Electronic Systems Integration Inc. System for automated generation of Q-Codes
CN110222341A (zh) * 2019-06-10 2019-09-10 北京百度网讯科技有限公司 文本分析方法及装置
CN110413756B (zh) 2019-07-29 2022-02-15 北京小米智能科技有限公司 自然语言处理的方法、装置及设备
US11520985B2 (en) 2019-07-31 2022-12-06 International Business Machines Corporation Named entity recognition
RU2755606C2 (ru) * 2019-10-16 2021-09-17 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система классификации данных для выявления конфиденциальной информации в тексте
US11481605B2 (en) 2019-10-25 2022-10-25 Servicenow Canada Inc. 2D document extractor
US11625535B1 (en) * 2019-12-05 2023-04-11 American Express Travel Related Services Company, Inc. Computer-based systems having data structures configured to execute SIC4/SIC8 machine learning embedded classification of entities and methods of use thereof
CN111062216B (zh) * 2019-12-18 2021-11-23 腾讯科技(深圳)有限公司 命名实体识别方法、装置、终端及可读介质
US11625421B1 (en) * 2020-04-20 2023-04-11 GoLaw LLC Systems and methods for generating semantic normalized search results for legal content
US11704580B2 (en) 2020-05-31 2023-07-18 International Business Machines Corporation Automated combination of predictions made by different prediction systems
CN111651994B (zh) * 2020-06-03 2023-09-19 浙江同花顺智能科技有限公司 一种信息抽取方法、装置、电子设备和存储介质
RU2751993C1 (ru) * 2020-09-09 2021-07-21 Глеб Валерьевич Данилов Способ извлечения информации из неструктурированных текстов, написанных на естественном языке
CN112347782A (zh) * 2020-09-29 2021-02-09 第四范式(北京)技术有限公司 实体识别方法和系统
RU2750852C1 (ru) * 2020-10-19 2021-07-05 Федеральное государственное бюджетное образовательное учреждение высшего образования «Национальный исследовательский Мордовский государственный университет им. Н.П. Огарёва» Способ атрибутизации частично структурированных текстов для формирования нормативно-справочной информации
CN112395881B (zh) * 2020-11-27 2022-12-13 北京筑龙信息技术有限责任公司 物料标签的构建方法、装置、可读存储介质及电子设备
CN112801010B (zh) * 2021-02-07 2023-02-14 华南理工大学 一种针对实际ocr场景下的视觉富文档信息抽取方法
RU2766821C1 (ru) * 2021-02-10 2022-03-16 Общество с ограниченной ответственностью " МЕНТАЛОГИЧЕСКИЕ ТЕХНОЛОГИИ" Способ автоматизированного извлечения смысловых компонентов из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации
RU2769427C1 (ru) * 2021-04-05 2022-03-31 Анатолий Владимирович Буров Способ автоматизированного анализа текста и подбора релевантных рекомендаций по улучшению его читабельности
RU2766060C1 (ru) * 2021-05-18 2022-02-07 Ооо "Менталогические Технологии" Способ автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации
WO2023056032A1 (en) * 2021-10-01 2023-04-06 Schneider Electric USA, Inc. Maintenance data sanitization
CN114154504A (zh) * 2021-12-06 2022-03-08 重庆邮电大学 一种基于多信息增强的中文命名实体识别算法
CN114238573B (zh) * 2021-12-15 2023-09-22 平安科技(深圳)有限公司 基于文本对抗样例的信息推送方法及装置
CN114722822B (zh) * 2022-03-22 2024-01-19 平安科技(深圳)有限公司 命名实体识别方法、装置、设备和计算机可读存储介质
WO2024073116A1 (en) * 2022-09-29 2024-04-04 Byt, Inc. Computer systems and computer-implemented methods utilizing digital resource accessing mechanism schema for digital tokens
ES2933625A1 (es) * 2022-10-29 2023-02-10 Kallisto Ai Sl Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996040604A1 (en) 1995-06-07 1996-12-19 Elcor Corporation Hydrocarbon gas processing
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6085187A (en) 1997-11-24 2000-07-04 International Business Machines Corporation Method and apparatus for navigating multiple inheritance concept hierarchies
US7711672B2 (en) 1998-05-28 2010-05-04 Lawrence Au Semantic network methods to disambiguate natural language meaning
US6512522B1 (en) 1999-04-15 2003-01-28 Avid Technology, Inc. Animation of three-dimensional characters along a path for motion video sequences
US6657625B1 (en) 1999-06-09 2003-12-02 Microsoft Corporation System and method of caching glyphs for display by a remote terminal
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6661417B1 (en) 2000-08-28 2003-12-09 Dynalab Inc. System and method for converting an outline font into a glyph-based font
US7860706B2 (en) 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US20030052749A1 (en) 2001-09-04 2003-03-20 In Kui Cho Resonator, method for manufacturing filter by using resonator and filter manufactured by the same method
US20050154690A1 (en) 2002-02-04 2005-07-14 Celestar Lexico-Sciences, Inc Document knowledge management apparatus and method
US7106905B2 (en) 2002-08-23 2006-09-12 Hewlett-Packard Development Company, L.P. Systems and methods for processing text-based electronic documents
GB0306877D0 (en) 2003-03-25 2003-04-30 British Telecomm Information retrieval
US8014997B2 (en) 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
JP2005165958A (ja) 2003-12-05 2005-06-23 Ibm Japan Ltd 情報検索システム、情報検索支援システム及びその方法並びにプログラム
US7299407B2 (en) 2004-08-24 2007-11-20 International Business Machines Corporation Marking and annotating electronic documents
US7493333B2 (en) 2004-09-03 2009-02-17 Biowisdom Limited System and method for parsing and/or exporting data from one or more multi-relational ontologies
US7496593B2 (en) 2004-09-03 2009-02-24 Biowisdom Limited Creating a multi-relational ontology having a predetermined structure
US7505989B2 (en) 2004-09-03 2009-03-17 Biowisdom Limited System and method for creating customized ontologies
US8335753B2 (en) 2004-11-03 2012-12-18 Microsoft Corporation Domain knowledge-assisted information processing
KR100682897B1 (ko) 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
NO20052215L (no) 2005-05-06 2006-11-07 Fast Search & Transfer Asa Fremgangsmate til bestemmelse av kontekstuell sammendragsinformasjon over dokumenter
US20060259442A1 (en) 2005-05-17 2006-11-16 International Business Machines Corporation System method and program product to estimate cost of integrating and utilizing heterogeneous data sources
US7739218B2 (en) 2005-08-16 2010-06-15 International Business Machines Corporation Systems and methods for building and implementing ontology-based information resources
US8225380B2 (en) 2006-05-25 2012-07-17 Celltrust Corporation Methods to authenticate access and alarm as to proximity to location
US8065655B1 (en) 2006-06-20 2011-11-22 International Business Machines Corporation System and method for the autogeneration of ontologies
US7668791B2 (en) 2006-07-31 2010-02-23 Microsoft Corporation Distinguishing facts from opinions using a multi-stage approach
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US8078450B2 (en) * 2006-10-10 2011-12-13 Abbyy Software Ltd. Method and system for analyzing various languages and constructing language-independent semantic structures
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US9069750B2 (en) 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US7877343B2 (en) * 2007-04-02 2011-01-25 University Of Washington Through Its Center For Commercialization Open information extraction from the Web
US8140557B2 (en) 2007-05-15 2012-03-20 International Business Machines Corporation Ontological translation of abstract rules
US7983902B2 (en) 2007-08-23 2011-07-19 Google Inc. Domain dictionary creation by detection of new topic words using divergence value comparison
US8239342B2 (en) 2007-10-05 2012-08-07 International Business Machines Corporation Method and apparatus for providing on-demand ontology creation and extension
US8140535B2 (en) 2007-10-23 2012-03-20 International Business Machines Corporation Ontology-based network search engine
US8041702B2 (en) 2007-10-25 2011-10-18 International Business Machines Corporation Ontology-based network search engine
US8336024B2 (en) 2007-11-08 2012-12-18 International Business Machines Corporation Extracting ontological information from software design data
JP5490010B2 (ja) 2007-11-19 2014-05-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 記述論理ファイル・システムを用いて情報を格納する方法、システムおよびコンピュータ・プログラム
CN101441561B (zh) 2007-11-23 2012-05-23 国际商业机器公司 基于上下文模型生成面向服务架构的策略的方法和装置
US20090157385A1 (en) * 2007-12-14 2009-06-18 Nokia Corporation Inverse Text Normalization
US7991760B2 (en) 2008-02-08 2011-08-02 International Business Machines Corporation Constructing a domain-specific ontology by mining the web
RU2399959C2 (ru) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители
US20110043528A1 (en) 2009-08-24 2011-02-24 Apple Inc. Cache management for glyph display
US8489390B2 (en) 2009-09-30 2013-07-16 Cisco Technology, Inc. System and method for generating vocabulary from network data
US8285711B2 (en) 2009-11-24 2012-10-09 International Business Machines Corporation Optimizing queries to hierarchically structured data
US8731901B2 (en) * 2009-12-02 2014-05-20 Content Savvy, Inc. Context aware back-transliteration and translation of names and common phrases using web resources
US8484141B2 (en) 2010-02-02 2013-07-09 International Business Machines Corporation Evaluating ontologies
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
US8250101B2 (en) 2010-05-27 2012-08-21 International Business Machines Corporation Ontology guided reference data discovery
US8316006B2 (en) 2010-06-30 2012-11-20 International Business Machines Corporation Creating an ontology using an online encyclopedia and tag cloud
US9135241B2 (en) * 2010-12-08 2015-09-15 At&T Intellectual Property I, L.P. System and method for learning latent representations for natural language tasks
WO2012113150A1 (en) 2011-02-25 2012-08-30 Empire Technology Development Llc Ontology expansion
US8909624B2 (en) 2011-05-31 2014-12-09 Cisco Technology, Inc. System and method for evaluating results of a search query in a network environment
US8918431B2 (en) 2011-09-09 2014-12-23 Sri International Adaptive ontology
USD665414S1 (en) 2011-09-12 2012-08-14 Microsoft Corporation Display screen with animated graphical user interface
US9396724B2 (en) * 2013-05-29 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2628431C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Подбор параметров текстового классификатора на основе семантических признаков
RU2619193C1 (ru) * 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
RU2646386C1 (ru) * 2016-12-07 2018-03-02 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора

Also Published As

Publication number Publication date
US20150199333A1 (en) 2015-07-16
RU2665239C2 (ru) 2018-08-28
US9588960B2 (en) 2017-03-07

Similar Documents

Publication Publication Date Title
RU2014101126A (ru) Автоматическое извлечение именованных сущностей из текста
CN106598937B (zh) 用于文本的语种识别方法、装置和电子设备
US10503828B2 (en) System and method for answering natural language question
Lui et al. Accurate language identification of twitter messages
Shutova et al. Metaphor identification using verb and noun clustering
US20180357302A1 (en) Method and device for processing a topic
CN105975458B (zh) 一种基于细粒度依存关系的中文长句相似度计算方法
Nasution New method for extracting keyword for the social actor
US9864795B1 (en) Identifying entity attributes
Lou et al. Multilabel subject-based classification of poetry
Kim et al. Diversifying query suggestions based on query documents
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
Rafiei et al. Geotagging named entities in news and online documents
Gonsior et al. Active Learning for Spreadsheet Cell Classification.
Verbeke et al. Kernel-based logical and relational learning with kLog for hedge cue detection
Mazloom et al. Few-example video event retrieval using tag propagation
CN110781297A (zh) 基于层次判别树的多标签科研论文的分类方法
Mehdad et al. Syntactic/semantic structures for textual entailment recognition
Chauhan et al. Music mood classification based on lyrical analysis of Hindi songs using Latent Dirichlet Allocation
CN109508557A (zh) 一种关联用户隐私的文件路径关键词识别方法
Wazarkar et al. Text clustering using HFRECCA and rough K-means clustering algorithm
CN116610810A (zh) 基于调控云知识图谱血缘关系的智能搜索方法及系统
KR101058895B1 (ko) 온톨로지를 이용한 문서의 주제 측정 방법 및 장치
Vlachos et al. Application-driven relation extraction with limited distant supervision
Efremova et al. A hybrid disambiguation measure for inaccurate cultural heritage data

Legal Events

Date Code Title Description
HZ9A Changing address for correspondence with an applicant
HE9A Changing address for correspondence with an applicant
QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311