RU2014101126A - Автоматическое извлечение именованных сущностей из текста - Google Patents
Автоматическое извлечение именованных сущностей из текста Download PDFInfo
- Publication number
- RU2014101126A RU2014101126A RU2014101126/08A RU2014101126A RU2014101126A RU 2014101126 A RU2014101126 A RU 2014101126A RU 2014101126/08 A RU2014101126/08 A RU 2014101126/08A RU 2014101126 A RU2014101126 A RU 2014101126A RU 2014101126 A RU2014101126 A RU 2014101126A
- Authority
- RU
- Russia
- Prior art keywords
- attributes
- subset
- token
- classifier
- commands
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
1. Способ, включающий:извлечение процессором токенов из неразмеченного корпуса текстов;формирование процессором набора атрибутов для каждого токена на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающееся тем, что в нем набор атрибутов включает лексические, синтаксические и семантические атрибуты;выбор процессором подмножества атрибутов для каждого токена;извлечение процессором атрибутов и категорий классификатора на основании обученной модели, отличающееся тем, что атрибуты классификатора связаны с одной или несколькими категориями;сравнение процессором подмножества атрибутов для каждого токена с атрибутами классификатора;классификацию процессором каждого токена по меньшей мере в одну из категорий на основании сравнения иформирование процессором размеченного текста на основании токенов, классифицированных по категориям.2. Способ по п. 1, дополнительно включающий:определение новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, идобавление взаимосвязи между первым атрибутом и первой категорией.3. Способ по п. 1, отличающийся тем, что в нем формирование атрибутов включает:формирование лексико-морфологической структуры неразмеченного корпуса текстов;определение возможных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;выделение множества синтаксических деревьев на основании по меньшей мере возможных синтаксических связей;определение интегральной оценки каждого из множества синтаксических деревьев на основании референциаль
Claims (23)
1. Способ, включающий:
извлечение процессором токенов из неразмеченного корпуса текстов;
формирование процессором набора атрибутов для каждого токена на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающееся тем, что в нем набор атрибутов включает лексические, синтаксические и семантические атрибуты;
выбор процессором подмножества атрибутов для каждого токена;
извлечение процессором атрибутов и категорий классификатора на основании обученной модели, отличающееся тем, что атрибуты классификатора связаны с одной или несколькими категориями;
сравнение процессором подмножества атрибутов для каждого токена с атрибутами классификатора;
классификацию процессором каждого токена по меньшей мере в одну из категорий на основании сравнения и
формирование процессором размеченного текста на основании токенов, классифицированных по категориям.
2. Способ по п. 1, дополнительно включающий:
определение новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, и
добавление взаимосвязи между первым атрибутом и первой категорией.
3. Способ по п. 1, отличающийся тем, что в нем формирование атрибутов включает:
формирование лексико-морфологической структуры неразмеченного корпуса текстов;
определение возможных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;
выделение множества синтаксических деревьев на основании по меньшей мере возможных синтаксических связей;
определение интегральной оценки каждого из множества синтаксических деревьев на основании референциальных оценок;
выбор первого синтаксического дерева на основании интегральной оценки;
формирование независимой от языка семантической структуры на основании первого синтаксического дерева и
формирование атрибутов на основании независимой от языка семантической структуры.
4. Способ по п. 1, дополнительно включающий получение обученной модели путем:
сравнения атрибутов классификатора с маркерами, полученными из размеченного корпуса текстов;
присвоения весов атрибутам в соответствии с результатами этого сравнения и
максимизации точности, полноты или F-меры, оцененных по отдельному размеченному корпусу оценки.
5. Способ по п. 1, отличающийся тем, что выбор подмножества атрибутов включает:
ранжирование атрибутов на основе метрики корреляции, при котором метрика корреляции сравнивает значения атрибутов и размеченный текст и
выбор подмножества атрибутов на основании по меньшей мере ранжирования.
6. Способ по п. 5, отличающийся тем, что первое и второе ранжирование основаны по меньшей мере на оценках точности, полноты и F-меры.
7. Способ по п. 1, отличающийся тем, что выбор подмножества атрибутов включает:
определение первого подмножества атрибутов;
определение первой оценки обучающей модели, основанной по меньшей мере на первом подмножестве атрибутов;
определение второго подмножества атрибутов, в котором второе подмножество атрибутов включает первое подмножество атрибутов и по меньшей мере один дополнительный атрибут;
определение второй оценки обучающей модели, основанной по меньшей мере на втором подмножестве атрибутов, а также
выбор подмножества атрибутов из первого или из второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.
8. Способ по п. 7, отличающийся тем, что первая и вторая оценки основаны по меньшей мере на оценках точности, полноты и F-меры.
9. Способ по п. 1, отличающийся тем, что выбор подмножества атрибутов включает:
определение всех атрибутов в качестве первого подмножества атрибутов;
определение первой оценки обучающей модели, основанной по меньшей мере на первом подмножестве атрибутов;
определение второго подмножества атрибутов, в котором количество атрибутов меньше, чем в первом подмножестве атрибутов;
определение второй оценки обучающей модели, основанной по меньшей мере на втором подмножестве атрибутов, а также
выбор подмножества атрибутов из первого или из второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.
10. Способ по п. 9, отличающийся тем, что первая и вторая оценки основаны по меньшей мере на оценках точности, полноты и F-меры.
11. Способ по п. 1, отличающийся тем, что первый атрибут и второй атрибут скомбинированы для получения третьего атрибута, причем в нем первый токен классифицируется на основании по меньшей мере третьего атрибута.
12. Способ по п. 11, отличающийся тем, что первая и вторая оценки основаны по меньшей мере на оценках точности, полноты и F-меры.
13. Способ по п. 1, отличающийся тем, что атрибуты классификатора включают подмножество атрибутов обученной модели, в котором эти атрибуты классификатора выбираются по меньшей мере на основании F-меры.
14. Система, включающая:
один или несколько процессоров настроенных на:
извлечение токенов из неразмеченного корпуса текстов;
формирование набора атрибутов для каждого из этих токенов на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающееся тем, что набор атрибутов включает лексические, синтаксические и семантические атрибуты;
выбор подмножества атрибутов для каждого из этих токенов;
извлечение атрибутов классификаторов и категории на основании обученной модели, отличающееся тем, что эти атрибуты классификатора связаны с одной или несколькими категориями;
сравнение подмножество атрибутов для каждого токена с атрибутами классификатора;
классификацию каждого токена по меньшей мере в одну категорию на основании сравнения и
формирование размеченного текста на основании отнесенных к категориям токенов.
15. Система по п. 14, один или несколько процессоров которой дополнительно настроены на:
определение новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, и
добавление взаимосвязи между первым атрибутом и первой категорией.
16. Система по п. 14, отличающаяся тем, что один или несколько процессоров настроены на формирование атрибутов, которые настроены на:
формирование лексико-морфологической структуры неразмеченного корпуса текстов;
определение возможных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;
выделение множества синтаксических деревьев на основании по меньшей мере возможных синтаксических связей;
определение интегральной оценки каждого из множества синтаксических деревьев на основании референциальных оценок;
выбор первого синтаксического дерева на основании интегральной оценки;
формирование независимой от языка семантической структуры на основании первого синтаксического дерева и
формирование атрибутов на основании независимой от языка семантической структуры.
17. Система по п. 14, отличающаяся тем, что один или несколько процессоров дополнительно настроены на:
сравнение атрибутов классификатора с тегами, полученными из размеченного корпуса текстов;
присвоение весов атрибутам в соответствии с результатами этого сравнения и
максимизацию оценок точности, полноты и F-меры, оцененных на отдельном размеченном корпусе оценки для того, чтобы получить обученный классификатор.
18. Система по п. 14, отличающаяся тем, что один или несколько процессоров настроены на выбор подмножества признаков и настроены на:
определение первого подмножества атрибутов;
определение первой оценки обучающей модели, основанной по меньшей мере на первом подмножестве атрибутов;
определение второго подмножества атрибутов, в котором второе подмножество атрибутов включает первое подмножество атрибутов и по меньшей мере один дополнительный атрибут;
определение второй оценки обучающей модели, основанной по меньшей мере на втором подмножестве атрибутов, а также
выбор подмножества атрибутов из первого или из второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.
19. Машиночитаемый носитель информации, на который записаны команды, включающие:
команды для извлечения токенов из неразмеченного корпуса текста;
команды для формирования множества атрибутов для каждого токена на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающегося тем, что это множество атрибутов включает лексические, синтаксические и семантические атрибуты;
команды для выбора подмножества атрибутов для каждого токена;
команды для извлечения атрибутов классификатора и категорий на основании на обученной модели, отличающейся тем, что атрибуты классификатора связаны с одной или несколькими категориями;
команды для сравнения подмножества атрибутов для каждого токена с атрибутами классификатора;
команды для классификации каждого токена по меньшей мере в одной категории на основании сравнения, а также
команды для формирования размеченного текста на основании отнесенных к категориям токенов.
20. Машиночитаемый носитель информации по п. 19, команды в котором дополнительно включают:
команды для определения новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, а также
команды для добавления этого отношения между первым атрибутом и первой категорией.
21. Машиночитаемый носитель информации по п. 19, отличающийся тем, что в нем команды для формирования атрибутов включают:
команды для формирования лексико-морфологической структуры неразмеченного корпуса текстов;
команды для определения потенциальных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;
команды для выделения множества синтаксических деревьев на основании по меньшей мере потенциальных синтаксических связей;
команды для определения интегральной оценки для каждого из множества синтаксических деревьев на основании референциальных оценок;
команды для выбора первого синтаксического дерева на основании интегральной оценки;
команды для формирования независимой от языка семантической структуры на основании первого синтаксического дерева, а также
команды для формирования атрибутов на основании независимой от языка семантической структуры.
22. Машиночитаемый носитель информации по п. 19, отличающийся тем, что записанные в нем команды дополнительно содержат:
команды для сравнения атрибутов классификатора с маркерами, полученными из размеченного корпуса текстов;
команды для присвоения весов атрибутам в соответствии с результатами сравнения и
команды для максимизации оценок точности, полноты и F-меры, оценивающихся по отдельному размеченному корпусу, используемого для оценки для того, чтобы получить обученный классификатор.
23. Машиночитаемый носитель информации по п. 19, отличающийся тем, что записанные в нем команды для выбора подмножества атрибутов включают:
команды для определения первого подмножества атрибутов;
команды для определения первой оценки обучаемой модели, основанной по меньшей мере на первом подмножестве атрибутов;
команды для определения второго подмножества атрибутов, в котором второе подмножество атрибутов содержит первое подмножество атрибутов и по меньшей мере один дополнительный атрибут;
команды для определения второй оценки обучаемой модели, основанной по меньшей мере на втором подмножестве атрибутов, а также
команды для выбора подмножества атрибутов из первого или второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2014101126A RU2665239C2 (ru) | 2014-01-15 | 2014-01-15 | Автоматическое извлечение именованных сущностей из текста |
US14/508,419 US9588960B2 (en) | 2014-01-15 | 2014-10-07 | Automatic extraction of named entities from texts |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2014101126A RU2665239C2 (ru) | 2014-01-15 | 2014-01-15 | Автоматическое извлечение именованных сущностей из текста |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2014101126A true RU2014101126A (ru) | 2015-07-20 |
RU2665239C2 RU2665239C2 (ru) | 2018-08-28 |
Family
ID=53521532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2014101126A RU2665239C2 (ru) | 2014-01-15 | 2014-01-15 | Автоматическое извлечение именованных сущностей из текста |
Country Status (2)
Country | Link |
---|---|
US (1) | US9588960B2 (ru) |
RU (1) | RU2665239C2 (ru) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2619193C1 (ru) * | 2016-06-17 | 2017-05-12 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков |
RU2628431C1 (ru) * | 2016-04-12 | 2017-08-16 | Общество с ограниченной ответственностью "Аби Продакшн" | Подбор параметров текстового классификатора на основе семантических признаков |
RU2646386C1 (ru) * | 2016-12-07 | 2018-03-02 | Общество с ограниченной ответственностью "Аби Продакшн" | Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US9348815B1 (en) | 2013-06-28 | 2016-05-24 | Digital Reasoning Systems, Inc. | Systems and methods for construction, maintenance, and improvement of knowledge representations |
US9665454B2 (en) * | 2014-05-14 | 2017-05-30 | International Business Machines Corporation | Extracting test model from textual test suite |
US9311301B1 (en) * | 2014-06-27 | 2016-04-12 | Digital Reasoning Systems, Inc. | Systems and methods for large scale global entity resolution |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US20160117386A1 (en) * | 2014-10-22 | 2016-04-28 | International Business Machines Corporation | Discovering terms using statistical corpus analysis |
US9898773B2 (en) * | 2014-11-18 | 2018-02-20 | Microsoft Technology Licensing, Llc | Multilingual content based recommendation system |
US9588959B2 (en) * | 2015-01-09 | 2017-03-07 | International Business Machines Corporation | Extraction of lexical kernel units from a domain-specific lexicon |
WO2016163043A1 (ja) * | 2015-04-10 | 2016-10-13 | 株式会社ソリトンシステムズ | 電子メール誤送信判定装置、電子メール送信システム及び記録媒体 |
CN105653519A (zh) * | 2015-12-30 | 2016-06-08 | 贺惠新 | 一种领域专有词的挖掘方法 |
US10765956B2 (en) * | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
US11263218B2 (en) * | 2016-04-26 | 2022-03-01 | Equifax Inc. | Global matching system |
US11449744B2 (en) | 2016-06-23 | 2022-09-20 | Microsoft Technology Licensing, Llc | End-to-end memory networks for contextual language understanding |
US10311092B2 (en) * | 2016-06-28 | 2019-06-04 | Microsoft Technology Licensing, Llc | Leveraging corporal data for data parsing and predicting |
US10366163B2 (en) * | 2016-09-07 | 2019-07-30 | Microsoft Technology Licensing, Llc | Knowledge-guided structural attention processing |
RU2646380C1 (ru) * | 2016-12-22 | 2018-03-02 | Общество с ограниченной ответственностью "Аби Продакшн" | Использование верифицированных пользователем данных для обучения моделей уверенности |
RU2662688C1 (ru) * | 2017-03-16 | 2018-07-26 | Общество с ограниченной ответственностью "Аби Продакшн" | Извлечение информации из смысловых блоков документов с использованием микромоделей на базе онтологии |
US10467346B2 (en) * | 2017-05-18 | 2019-11-05 | Wipro Limited | Method and system for generating named entities |
US10534825B2 (en) | 2017-05-22 | 2020-01-14 | Microsoft Technology Licensing, Llc | Named entity-based document recommendations |
CN108391446B (zh) * | 2017-06-20 | 2022-02-22 | 埃森哲环球解决方案有限公司 | 基于机器学习算法对针对数据分类器的训练语料库的自动提取 |
US10936952B2 (en) | 2017-09-01 | 2021-03-02 | Facebook, Inc. | Detecting content items in violation of an online system policy using templates based on semantic vectors representing content items |
US11195099B2 (en) | 2017-09-01 | 2021-12-07 | Facebook, Inc. | Detecting content items in violation of an online system policy using semantic vectors |
US10769387B2 (en) | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
US20190182197A1 (en) * | 2017-10-10 | 2019-06-13 | Soliton Systems K.K. | Warning apparatus for preventing electronic mail wrong transmission, electronic mail transmission system, and program |
US10860800B2 (en) * | 2017-10-30 | 2020-12-08 | Panasonic Intellectual Property Management Co., Ltd. | Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system |
RU2679988C1 (ru) * | 2017-12-11 | 2019-02-14 | Общество с ограниченной ответственностью "Аби Продакшн" | Извлечение информационных объектов с помощью комбинации классификаторов |
US11086913B2 (en) * | 2018-01-02 | 2021-08-10 | Freshworks Inc. | Named entity recognition from short unstructured text |
US10999256B2 (en) * | 2018-01-29 | 2021-05-04 | Sap Se | Method and system for automated text anonymization |
US10599774B1 (en) * | 2018-02-26 | 2020-03-24 | Facebook, Inc. | Evaluating content items based upon semantic similarity of text |
CN110555131B (zh) * | 2018-03-27 | 2023-04-07 | 阿里巴巴(中国)有限公司 | 内容推荐方法、内容推荐装置和电子设备 |
CN110555157B (zh) * | 2018-03-27 | 2023-04-07 | 阿里巴巴(中国)有限公司 | 内容推荐方法、内容推荐装置和电子设备 |
CN110555135B (zh) * | 2018-03-27 | 2023-04-07 | 阿里巴巴(中国)有限公司 | 内容推荐方法、内容推荐装置和电子设备 |
US11636287B2 (en) * | 2018-03-28 | 2023-04-25 | Intuit Inc. | Learning form-based information classification |
US10963273B2 (en) | 2018-04-20 | 2021-03-30 | Facebook, Inc. | Generating personalized content summaries for users |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
RU2686000C1 (ru) * | 2018-06-20 | 2019-04-23 | Общество с ограниченной ответственностью "Аби Продакшн" | Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки |
CN109461039A (zh) * | 2018-08-28 | 2019-03-12 | 厦门快商通信息技术有限公司 | 一种文本处理方法及智能客服方法 |
RU2691837C1 (ru) * | 2018-09-20 | 2019-06-18 | Юрий Михайлович Акаткин | Способ автоматизированного проектирования приложений |
WO2020091618A1 (ru) * | 2018-10-30 | 2020-05-07 | федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (государственный университет)" | Система определения именованных сущностей с динамическими параметрами |
US11580301B2 (en) * | 2019-01-08 | 2023-02-14 | Genpact Luxembourg S.à r.l. II | Method and system for hybrid entity recognition |
US11341332B2 (en) * | 2019-04-29 | 2022-05-24 | Bae Systems Information And Electronic Systems Integration Inc. | System for automated generation of Q-Codes |
CN110222341A (zh) * | 2019-06-10 | 2019-09-10 | 北京百度网讯科技有限公司 | 文本分析方法及装置 |
CN110413756B (zh) | 2019-07-29 | 2022-02-15 | 北京小米智能科技有限公司 | 自然语言处理的方法、装置及设备 |
US11520985B2 (en) | 2019-07-31 | 2022-12-06 | International Business Machines Corporation | Named entity recognition |
RU2755606C2 (ru) * | 2019-10-16 | 2021-09-17 | Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) | Способ и система классификации данных для выявления конфиденциальной информации в тексте |
US11481605B2 (en) | 2019-10-25 | 2022-10-25 | Servicenow Canada Inc. | 2D document extractor |
US11625535B1 (en) * | 2019-12-05 | 2023-04-11 | American Express Travel Related Services Company, Inc. | Computer-based systems having data structures configured to execute SIC4/SIC8 machine learning embedded classification of entities and methods of use thereof |
CN111062216B (zh) * | 2019-12-18 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、终端及可读介质 |
US11625421B1 (en) * | 2020-04-20 | 2023-04-11 | GoLaw LLC | Systems and methods for generating semantic normalized search results for legal content |
US11704580B2 (en) | 2020-05-31 | 2023-07-18 | International Business Machines Corporation | Automated combination of predictions made by different prediction systems |
CN111651994B (zh) * | 2020-06-03 | 2023-09-19 | 浙江同花顺智能科技有限公司 | 一种信息抽取方法、装置、电子设备和存储介质 |
RU2751993C1 (ru) * | 2020-09-09 | 2021-07-21 | Глеб Валерьевич Данилов | Способ извлечения информации из неструктурированных текстов, написанных на естественном языке |
CN112347782A (zh) * | 2020-09-29 | 2021-02-09 | 第四范式(北京)技术有限公司 | 实体识别方法和系统 |
RU2750852C1 (ru) * | 2020-10-19 | 2021-07-05 | Федеральное государственное бюджетное образовательное учреждение высшего образования «Национальный исследовательский Мордовский государственный университет им. Н.П. Огарёва» | Способ атрибутизации частично структурированных текстов для формирования нормативно-справочной информации |
CN112395881B (zh) * | 2020-11-27 | 2022-12-13 | 北京筑龙信息技术有限责任公司 | 物料标签的构建方法、装置、可读存储介质及电子设备 |
CN112801010B (zh) * | 2021-02-07 | 2023-02-14 | 华南理工大学 | 一种针对实际ocr场景下的视觉富文档信息抽取方法 |
RU2766821C1 (ru) * | 2021-02-10 | 2022-03-16 | Общество с ограниченной ответственностью " МЕНТАЛОГИЧЕСКИЕ ТЕХНОЛОГИИ" | Способ автоматизированного извлечения смысловых компонентов из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации |
RU2769427C1 (ru) * | 2021-04-05 | 2022-03-31 | Анатолий Владимирович Буров | Способ автоматизированного анализа текста и подбора релевантных рекомендаций по улучшению его читабельности |
RU2766060C1 (ru) * | 2021-05-18 | 2022-02-07 | Ооо "Менталогические Технологии" | Способ автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации |
WO2023056032A1 (en) * | 2021-10-01 | 2023-04-06 | Schneider Electric USA, Inc. | Maintenance data sanitization |
CN114154504A (zh) * | 2021-12-06 | 2022-03-08 | 重庆邮电大学 | 一种基于多信息增强的中文命名实体识别算法 |
CN114238573B (zh) * | 2021-12-15 | 2023-09-22 | 平安科技(深圳)有限公司 | 基于文本对抗样例的信息推送方法及装置 |
CN114722822B (zh) * | 2022-03-22 | 2024-01-19 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备和计算机可读存储介质 |
WO2024073116A1 (en) * | 2022-09-29 | 2024-04-04 | Byt, Inc. | Computer systems and computer-implemented methods utilizing digital resource accessing mechanism schema for digital tokens |
ES2933625A1 (es) * | 2022-10-29 | 2023-02-10 | Kallisto Ai Sl | Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios |
Family Cites Families (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996040604A1 (en) | 1995-06-07 | 1996-12-19 | Elcor Corporation | Hydrocarbon gas processing |
US6076051A (en) | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6085187A (en) | 1997-11-24 | 2000-07-04 | International Business Machines Corporation | Method and apparatus for navigating multiple inheritance concept hierarchies |
US7711672B2 (en) | 1998-05-28 | 2010-05-04 | Lawrence Au | Semantic network methods to disambiguate natural language meaning |
US6512522B1 (en) | 1999-04-15 | 2003-01-28 | Avid Technology, Inc. | Animation of three-dimensional characters along a path for motion video sequences |
US6657625B1 (en) | 1999-06-09 | 2003-12-02 | Microsoft Corporation | System and method of caching glyphs for display by a remote terminal |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6661417B1 (en) | 2000-08-28 | 2003-12-09 | Dynalab Inc. | System and method for converting an outline font into a glyph-based font |
US7860706B2 (en) | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US20030052749A1 (en) | 2001-09-04 | 2003-03-20 | In Kui Cho | Resonator, method for manufacturing filter by using resonator and filter manufactured by the same method |
US20050154690A1 (en) | 2002-02-04 | 2005-07-14 | Celestar Lexico-Sciences, Inc | Document knowledge management apparatus and method |
US7106905B2 (en) | 2002-08-23 | 2006-09-12 | Hewlett-Packard Development Company, L.P. | Systems and methods for processing text-based electronic documents |
GB0306877D0 (en) | 2003-03-25 | 2003-04-30 | British Telecomm | Information retrieval |
US8014997B2 (en) | 2003-09-20 | 2011-09-06 | International Business Machines Corporation | Method of search content enhancement |
JP2005165958A (ja) | 2003-12-05 | 2005-06-23 | Ibm Japan Ltd | 情報検索システム、情報検索支援システム及びその方法並びにプログラム |
US7299407B2 (en) | 2004-08-24 | 2007-11-20 | International Business Machines Corporation | Marking and annotating electronic documents |
US7493333B2 (en) | 2004-09-03 | 2009-02-17 | Biowisdom Limited | System and method for parsing and/or exporting data from one or more multi-relational ontologies |
US7496593B2 (en) | 2004-09-03 | 2009-02-24 | Biowisdom Limited | Creating a multi-relational ontology having a predetermined structure |
US7505989B2 (en) | 2004-09-03 | 2009-03-17 | Biowisdom Limited | System and method for creating customized ontologies |
US8335753B2 (en) | 2004-11-03 | 2012-12-18 | Microsoft Corporation | Domain knowledge-assisted information processing |
KR100682897B1 (ko) | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | 사전 업데이트 방법 및 그 장치 |
NO20052215L (no) | 2005-05-06 | 2006-11-07 | Fast Search & Transfer Asa | Fremgangsmate til bestemmelse av kontekstuell sammendragsinformasjon over dokumenter |
US20060259442A1 (en) | 2005-05-17 | 2006-11-16 | International Business Machines Corporation | System method and program product to estimate cost of integrating and utilizing heterogeneous data sources |
US7739218B2 (en) | 2005-08-16 | 2010-06-15 | International Business Machines Corporation | Systems and methods for building and implementing ontology-based information resources |
US8225380B2 (en) | 2006-05-25 | 2012-07-17 | Celltrust Corporation | Methods to authenticate access and alarm as to proximity to location |
US8065655B1 (en) | 2006-06-20 | 2011-11-22 | International Business Machines Corporation | System and method for the autogeneration of ontologies |
US7668791B2 (en) | 2006-07-31 | 2010-02-23 | Microsoft Corporation | Distinguishing facts from opinions using a multi-stage approach |
US9471562B2 (en) | 2006-10-10 | 2016-10-18 | Abbyy Infopoisk Llc | Method and system for analyzing and translating various languages with use of semantic hierarchy |
US8078450B2 (en) * | 2006-10-10 | 2011-12-13 | Abbyy Software Ltd. | Method and system for analyzing various languages and constructing language-independent semantic structures |
US9645993B2 (en) | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US9069750B2 (en) | 2006-10-10 | 2015-06-30 | Abbyy Infopoisk Llc | Method and system for semantic searching of natural language texts |
US7877343B2 (en) * | 2007-04-02 | 2011-01-25 | University Of Washington Through Its Center For Commercialization | Open information extraction from the Web |
US8140557B2 (en) | 2007-05-15 | 2012-03-20 | International Business Machines Corporation | Ontological translation of abstract rules |
US7983902B2 (en) | 2007-08-23 | 2011-07-19 | Google Inc. | Domain dictionary creation by detection of new topic words using divergence value comparison |
US8239342B2 (en) | 2007-10-05 | 2012-08-07 | International Business Machines Corporation | Method and apparatus for providing on-demand ontology creation and extension |
US8140535B2 (en) | 2007-10-23 | 2012-03-20 | International Business Machines Corporation | Ontology-based network search engine |
US8041702B2 (en) | 2007-10-25 | 2011-10-18 | International Business Machines Corporation | Ontology-based network search engine |
US8336024B2 (en) | 2007-11-08 | 2012-12-18 | International Business Machines Corporation | Extracting ontological information from software design data |
JP5490010B2 (ja) | 2007-11-19 | 2014-05-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 記述論理ファイル・システムを用いて情報を格納する方法、システムおよびコンピュータ・プログラム |
CN101441561B (zh) | 2007-11-23 | 2012-05-23 | 国际商业机器公司 | 基于上下文模型生成面向服务架构的策略的方法和装置 |
US20090157385A1 (en) * | 2007-12-14 | 2009-06-18 | Nokia Corporation | Inverse Text Normalization |
US7991760B2 (en) | 2008-02-08 | 2011-08-02 | International Business Machines Corporation | Constructing a domain-specific ontology by mining the web |
RU2399959C2 (ru) * | 2008-10-29 | 2010-09-20 | Закрытое акционерное общество "Авикомп Сервисез" | Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители |
US20110043528A1 (en) | 2009-08-24 | 2011-02-24 | Apple Inc. | Cache management for glyph display |
US8489390B2 (en) | 2009-09-30 | 2013-07-16 | Cisco Technology, Inc. | System and method for generating vocabulary from network data |
US8285711B2 (en) | 2009-11-24 | 2012-10-09 | International Business Machines Corporation | Optimizing queries to hierarchically structured data |
US8731901B2 (en) * | 2009-12-02 | 2014-05-20 | Content Savvy, Inc. | Context aware back-transliteration and translation of names and common phrases using web resources |
US8484141B2 (en) | 2010-02-02 | 2013-07-09 | International Business Machines Corporation | Evaluating ontologies |
US8874432B2 (en) * | 2010-04-28 | 2014-10-28 | Nec Laboratories America, Inc. | Systems and methods for semi-supervised relationship extraction |
US8250101B2 (en) | 2010-05-27 | 2012-08-21 | International Business Machines Corporation | Ontology guided reference data discovery |
US8316006B2 (en) | 2010-06-30 | 2012-11-20 | International Business Machines Corporation | Creating an ontology using an online encyclopedia and tag cloud |
US9135241B2 (en) * | 2010-12-08 | 2015-09-15 | At&T Intellectual Property I, L.P. | System and method for learning latent representations for natural language tasks |
WO2012113150A1 (en) | 2011-02-25 | 2012-08-30 | Empire Technology Development Llc | Ontology expansion |
US8909624B2 (en) | 2011-05-31 | 2014-12-09 | Cisco Technology, Inc. | System and method for evaluating results of a search query in a network environment |
US8918431B2 (en) | 2011-09-09 | 2014-12-23 | Sri International | Adaptive ontology |
USD665414S1 (en) | 2011-09-12 | 2012-08-14 | Microsoft Corporation | Display screen with animated graphical user interface |
US9396724B2 (en) * | 2013-05-29 | 2016-07-19 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for building a language model |
-
2014
- 2014-01-15 RU RU2014101126A patent/RU2665239C2/ru active
- 2014-10-07 US US14/508,419 patent/US9588960B2/en active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2628431C1 (ru) * | 2016-04-12 | 2017-08-16 | Общество с ограниченной ответственностью "Аби Продакшн" | Подбор параметров текстового классификатора на основе семантических признаков |
RU2619193C1 (ru) * | 2016-06-17 | 2017-05-12 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков |
RU2646386C1 (ru) * | 2016-12-07 | 2018-03-02 | Общество с ограниченной ответственностью "Аби Продакшн" | Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора |
Also Published As
Publication number | Publication date |
---|---|
US20150199333A1 (en) | 2015-07-16 |
RU2665239C2 (ru) | 2018-08-28 |
US9588960B2 (en) | 2017-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2014101126A (ru) | Автоматическое извлечение именованных сущностей из текста | |
CN106598937B (zh) | 用于文本的语种识别方法、装置和电子设备 | |
US10503828B2 (en) | System and method for answering natural language question | |
Lui et al. | Accurate language identification of twitter messages | |
Shutova et al. | Metaphor identification using verb and noun clustering | |
US20180357302A1 (en) | Method and device for processing a topic | |
CN105975458B (zh) | 一种基于细粒度依存关系的中文长句相似度计算方法 | |
Nasution | New method for extracting keyword for the social actor | |
US9864795B1 (en) | Identifying entity attributes | |
Lou et al. | Multilabel subject-based classification of poetry | |
Kim et al. | Diversifying query suggestions based on query documents | |
US9652997B2 (en) | Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme | |
Rafiei et al. | Geotagging named entities in news and online documents | |
Gonsior et al. | Active Learning for Spreadsheet Cell Classification. | |
Verbeke et al. | Kernel-based logical and relational learning with kLog for hedge cue detection | |
Mazloom et al. | Few-example video event retrieval using tag propagation | |
CN110781297A (zh) | 基于层次判别树的多标签科研论文的分类方法 | |
Mehdad et al. | Syntactic/semantic structures for textual entailment recognition | |
Chauhan et al. | Music mood classification based on lyrical analysis of Hindi songs using Latent Dirichlet Allocation | |
CN109508557A (zh) | 一种关联用户隐私的文件路径关键词识别方法 | |
Wazarkar et al. | Text clustering using HFRECCA and rough K-means clustering algorithm | |
CN116610810A (zh) | 基于调控云知识图谱血缘关系的智能搜索方法及系统 | |
KR101058895B1 (ko) | 온톨로지를 이용한 문서의 주제 측정 방법 및 장치 | |
Vlachos et al. | Application-driven relation extraction with limited distant supervision | |
Efremova et al. | A hybrid disambiguation measure for inaccurate cultural heritage data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
HZ9A | Changing address for correspondence with an applicant | ||
HE9A | Changing address for correspondence with an applicant | ||
QB4A | Licence on use of patent |
Free format text: LICENCE FORMERLY AGREED ON 20201211 Effective date: 20201211 |
|
QC41 | Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right |
Free format text: LICENCE FORMERLY AGREED ON 20201211 Effective date: 20220311 |