RU2013156493A - Разрешение семантической неоднозначности при помощи не зависящей от языка семантической структуры - Google Patents

Разрешение семантической неоднозначности при помощи не зависящей от языка семантической структуры Download PDF

Info

Publication number
RU2013156493A
RU2013156493A RU2013156493/08A RU2013156493A RU2013156493A RU 2013156493 A RU2013156493 A RU 2013156493A RU 2013156493/08 A RU2013156493/08 A RU 2013156493/08A RU 2013156493 A RU2013156493 A RU 2013156493A RU 2013156493 A RU2013156493 A RU 2013156493A
Authority
RU
Russia
Prior art keywords
unknown word
semantic
potential
semantic classes
classes
Prior art date
Application number
RU2013156493/08A
Other languages
English (en)
Other versions
RU2579699C2 (ru
Inventor
Константин Алексеевич Зуев
Дарья Николаевна Богданова
Original Assignee
ООО "Аби ИнфоПоиск"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ООО "Аби ИнфоПоиск" filed Critical ООО "Аби ИнфоПоиск"
Priority to RU2013156493/08A priority Critical patent/RU2579699C2/ru
Priority to US14/509,391 priority patent/US20150178270A1/en
Publication of RU2013156493A publication Critical patent/RU2013156493A/ru
Application granted granted Critical
Publication of RU2579699C2 publication Critical patent/RU2579699C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

1. Способ, содержащий:получение вычислительным устройством неизвестного слова;определение процессором вычислительного устройства множества потенциальных семантических классов для назначения неизвестному слову;построение процессором с использованием корпусов текстов классификатора для неизвестного слова;классификацию неизвестного слова, основанную, по меньшей мере частично, на встроенном классификаторе, с помощью по меньшей мере одного семантического класса из множества потенциальных семантических классов; идобавление неизвестного слова в семантическую иерархию в качестве экземпляра по меньшей мере одного семантического класса.2. Способ по п. 1, дополнительно содержащий упорядочение множества потенциальных семантических классов в соответствии с вероятностью того, что неизвестное слово должно быть классифицировано к каждому из множества потенциальных семантических классов.3. Способ по п. 1, дополнительно содержащий формирование гипотезы о том, что неизвестное слово является экземпляром потенциального семантического класса из числа упорядоченных потенциальных семантических классов, причем классификация неизвестного слова содержит проверку гипотезы путем статистического анализа корпусов текстов.4. Способ по п. 3, в котором гипотеза проверяется в отношении упорядоченных потенциальных семантических классов в порядке от наиболее вероятного потенциального семантического класса до наименее вероятного потенциального семантического класса, причем гипотеза проверяется до тех пор, пока она не будет принята.5. Способ по п. 2, дополнительно содержащий выбор подмножества из всех семантических классо�

Claims (21)

1. Способ, содержащий:
получение вычислительным устройством неизвестного слова;
определение процессором вычислительного устройства множества потенциальных семантических классов для назначения неизвестному слову;
построение процессором с использованием корпусов текстов классификатора для неизвестного слова;
классификацию неизвестного слова, основанную, по меньшей мере частично, на встроенном классификаторе, с помощью по меньшей мере одного семантического класса из множества потенциальных семантических классов; и
добавление неизвестного слова в семантическую иерархию в качестве экземпляра по меньшей мере одного семантического класса.
2. Способ по п. 1, дополнительно содержащий упорядочение множества потенциальных семантических классов в соответствии с вероятностью того, что неизвестное слово должно быть классифицировано к каждому из множества потенциальных семантических классов.
3. Способ по п. 1, дополнительно содержащий формирование гипотезы о том, что неизвестное слово является экземпляром потенциального семантического класса из числа упорядоченных потенциальных семантических классов, причем классификация неизвестного слова содержит проверку гипотезы путем статистического анализа корпусов текстов.
4. Способ по п. 3, в котором гипотеза проверяется в отношении упорядоченных потенциальных семантических классов в порядке от наиболее вероятного потенциального семантического класса до наименее вероятного потенциального семантического класса, причем гипотеза проверяется до тех пор, пока она не будет принята.
5. Способ по п. 2, дополнительно содержащий выбор подмножества из всех семантических классов семантической иерархии, причем множество потенциальных семантических классов содержит такое подмножество.
6. Способ по п. 5, в котором подмножество семантических классов заранее определено.
7. Способ по п. 5, дополнительно содержащий выявление подмножества семантических классов в качестве оптимального подмножества на основе статистического анализа.
8. Система, содержащая:
один или более процессоров данных; и
одно или более устройств хранения, хранящих инструкции, которые, будучи исполненными одним или более процессорами данных, воздействуют на один или более процессоров данных для выполнения операций, содержащих:
получение вычислительным устройством неизвестного слова;
определение процессором вычислительного устройства множества потенциальных семантических классов для назначения неизвестному слову;
построение процессором с использованием корпусов текстов классификатора для неизвестного слова;
классификацию неизвестного слова, основанную, по меньшей мере частично, на встроенном классификаторе, с помощью по меньшей мере одного семантического класса из множества потенциальных семантических классов; и
добавление неизвестного слова в семантическую иерархию в качестве экземпляра по меньшей мере одного семантического класса.
9. Система по п. 8, дополнительно содержащая упорядочение множества потенциальных семантических классов в соответствии с вероятностью того, что неизвестное слово должно быть классифицировано к каждому из множества потенциальных семантических классов.
10. Система по п. 8, в которой операции дополнительно содержат формирование гипотезы о том, что неизвестное слово является экземпляром потенциального семантического класса из упорядоченных потенциальных семантических классов, причем классификация неизвестного слова содержит проверку гипотезы путем статистического анализа корпусов текстов.
11. Система по п. 10, в которой гипотеза проверяется в отношении упорядоченных потенциальных семантических классов в порядке от наиболее вероятного потенциального семантического класса до наименее вероятного потенциального семантического класса, причем гипотеза проверяется до тех пор, пока она не будет принята.
12. Система по п. 9, в которой операции дополнительно содержат выбор подмножества из всех семантических классов семантической иерархии, причем множество потенциальных семантических классов содержит такое подмножество.
13. Система по п. 12, в которой подмножество семантических классов заранее определено.
14. Система по п. 12, в которой операции дополнительно содержат выявление подмножества семантических классов в качестве оптимального подмножества на основе статистического анализа.
15. Машиночитаемый носитель данных, имеющий хранящиеся на нем машинные инструкции, причем процессор исполняет инструкции для выполнения операций, содержащих:
получение вычислительным устройством неизвестного слова;
определение процессором вычислительного устройства множества потенциальных семантических классов для назначения неизвестному слову;
построение процессором с использованием корпусов текстов классификатора для неизвестного слова;
классификацию неизвестного слова, основанную по меньшей мере частично, на встроенном классификаторе, с помощью по меньшей мере одного семантического класса из множества потенциальных семантических классов; и
добавление неизвестного слова в семантическую иерархию в качестве экземпляра по меньшей мере одного семантического класса.
16. Машиночитаемый носитель данных по п. 15, в котором операции дополнительно содержат упорядочение множества потенциальных семантических классов в соответствии с вероятностью того, что неизвестное слово должно быть классифицировано к каждому из множества потенциальных семантических классов.
17. Машиночитаемый носитель данных по п. 15, в котором операции дополнительно содержат формирование гипотезы о том, что неизвестное слово является экземпляром потенциального семантического класса из упорядоченных потенциальных семантических классов, причем классификация неизвестного слова содержит проверку гипотезы путем статистического анализа корпусов текстов.
18. Машиночитаемый носитель данных по п. 17, в котором гипотеза проверяется в отношении упорядоченных потенциальных семантических классов в порядке от наиболее вероятного потенциального семантического класса до наименее вероятного потенциального семантического класса, и причем гипотеза проверяется до тех пор, пока она не будет принята.
19. Машиночитаемый носитель данных по п. 16, в котором операции дополнительно содержат выбор подмножества из всех семантических классов семантической иерархии, причем множество потенциальных семантических классов содержит такое подмножество.
20. Машиночитаемый носитель данных по п. 19, в котором подмножество семантических классов заранее определено.
21. Машиночитаемый носитель данных по п. 19, в котором операции дополнительно содержат выявление подмножества семантических классов в качестве оптимального подмножества на основе статистического анализа.
RU2013156493/08A 2013-12-19 2013-12-19 Разрешение семантической неоднозначности при помощи не зависящей от языка семантической структуры RU2579699C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2013156493/08A RU2579699C2 (ru) 2013-12-19 2013-12-19 Разрешение семантической неоднозначности при помощи не зависящей от языка семантической структуры
US14/509,391 US20150178270A1 (en) 2013-12-19 2014-10-08 Semantic disambiguation with using a language-independent semantic structure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013156493/08A RU2579699C2 (ru) 2013-12-19 2013-12-19 Разрешение семантической неоднозначности при помощи не зависящей от языка семантической структуры

Publications (2)

Publication Number Publication Date
RU2013156493A true RU2013156493A (ru) 2015-06-27
RU2579699C2 RU2579699C2 (ru) 2016-04-10

Family

ID=53400221

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013156493/08A RU2579699C2 (ru) 2013-12-19 2013-12-19 Разрешение семантической неоднозначности при помощи не зависящей от языка семантической структуры

Country Status (2)

Country Link
US (1) US20150178270A1 (ru)
RU (1) RU2579699C2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177372A (zh) * 2019-12-06 2020-05-19 绍兴市上虞区理工高等研究院 一种科技成果的分类方法、装置、设备及介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9959328B2 (en) 2015-06-30 2018-05-01 Microsoft Technology Licensing, Llc Analysis of user text
US10402435B2 (en) * 2015-06-30 2019-09-03 Microsoft Technology Licensing, Llc Utilizing semantic hierarchies to process free-form text
RU2619193C1 (ru) * 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
US10606952B2 (en) 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding
US10679008B2 (en) * 2016-12-16 2020-06-09 Microsoft Technology Licensing, Llc Knowledge base for analysis of text
RU2679988C1 (ru) * 2017-12-11 2019-02-14 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информационных объектов с помощью комбинации классификаторов
US11636376B2 (en) 2018-06-03 2023-04-25 International Business Machines Corporation Active learning for concept disambiguation
US11163952B2 (en) 2018-07-11 2021-11-02 International Business Machines Corporation Linked data seeded multi-lingual lexicon extraction
US11170770B2 (en) * 2018-08-03 2021-11-09 International Business Machines Corporation Dynamic adjustment of response thresholds in a dialogue system
US20220164678A1 (en) * 2018-09-26 2022-05-26 Entigenlogic Llc Curing a deficiency of a knowledge database
CN110276080B (zh) * 2019-06-28 2023-10-17 第四范式(北京)技术有限公司 一种语义处理方法和系统
CN112528705A (zh) * 2019-09-17 2021-03-19 同方威视技术股份有限公司 基于语义的图像识别系统及其方法
US11074411B2 (en) 2019-10-21 2021-07-27 International Business Machines Corporation Disambiguation of concept classifications using language-specific clues
CN111858848B (zh) * 2020-05-22 2024-03-15 青岛创新奇智科技集团股份有限公司 一种语义的分类方法、装置、电子设备及存储介质
CN112528670B (zh) * 2020-12-01 2022-08-30 清华大学 字词词义处理方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011133A1 (en) * 2005-06-22 2007-01-11 Sbc Knowledge Ventures, L.P. Voice search engine generating sub-topics based on recognitiion confidence
US9053090B2 (en) * 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US9262527B2 (en) * 2011-06-22 2016-02-16 New Jersey Institute Of Technology Optimized ontology based internet search systems and methods
US9135237B2 (en) * 2011-07-13 2015-09-15 Nuance Communications, Inc. System and a method for generating semantically similar sentences for building a robust SLM
CN102902665B (zh) * 2012-09-25 2015-01-07 太原理工大学 一种基于词缀的用于对未知词进行语义分类的系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177372A (zh) * 2019-12-06 2020-05-19 绍兴市上虞区理工高等研究院 一种科技成果的分类方法、装置、设备及介质

Also Published As

Publication number Publication date
US20150178270A1 (en) 2015-06-25
RU2579699C2 (ru) 2016-04-10

Similar Documents

Publication Publication Date Title
RU2013156493A (ru) Разрешение семантической неоднозначности при помощи не зависящей от языка семантической структуры
US11288444B2 (en) Optimization techniques for artificial intelligence
Lui et al. Accurate language identification of twitter messages
RU2016133850A (ru) Определение задач в сообщениях
RU2013156261A (ru) Метод построения и обнаружения тематической структуры корпуса
CN107368613B (zh) 短文本情感分析方法及装置
JP2014533407A5 (ru)
RU2018109281A (ru) Системы, способы и компьютерочитаемые носители для выявления вероятного влияния медицинского состояния на пациента
RU2013156495A (ru) Разрешение семантической неоднозначности при помощи семантического классификатора
RU2014101126A (ru) Автоматическое извлечение именованных сущностей из текста
US10839308B2 (en) Categorizing log records at run-time
RU2013156494A (ru) Разрешение семантической неоднозначности при помощи статистического анализа
RU2014150944A (ru) Система и способ использования данных предыдущего кадра для оптического распознавания символов кадров видеоматериалов
US10067983B2 (en) Analyzing tickets using discourse cues in communication logs
JP2016085697A5 (ru)
RU2017108906A (ru) Поиск в многочисленных источниках
CL2017002307A1 (es) Estilo controlado por condiciones
PE20150308A1 (es) Sistemas y metodos para el procesamiento de datos geofisicos
RU2014152872A (ru) Система и способ генерирования информации о множестве точек интереса
RU2016139613A (ru) Верификация контента собственного приложения
Wazarkar et al. Text clustering using HFRECCA and rough K-means clustering algorithm
US9792358B2 (en) Generating and using socially-curated brains
Vadehra Uwav at semeval-2017 task 7: Automated feature-based system for locating puns
US10713585B2 (en) Using template exploration for large-scale machine learning
RU2549118C2 (ru) Итеративное пополнение электронного словника

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20170630

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311