RU2016137530A - Способ и система автоматического создания тезауруса - Google Patents

Способ и система автоматического создания тезауруса Download PDF

Info

Publication number
RU2016137530A
RU2016137530A RU2016137530A RU2016137530A RU2016137530A RU 2016137530 A RU2016137530 A RU 2016137530A RU 2016137530 A RU2016137530 A RU 2016137530A RU 2016137530 A RU2016137530 A RU 2016137530A RU 2016137530 A RU2016137530 A RU 2016137530A
Authority
RU
Russia
Prior art keywords
parameter
lexical
elements
server
context
Prior art date
Application number
RU2016137530A
Other languages
English (en)
Other versions
RU2672393C2 (ru
Inventor
Юрий Григорьевич Зеленков
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2016137530A priority Critical patent/RU2672393C2/ru
Priority to US15/606,162 priority patent/US10460037B2/en
Publication of RU2016137530A publication Critical patent/RU2016137530A/ru
Application granted granted Critical
Publication of RU2672393C2 publication Critical patent/RU2672393C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Claims (80)

1. Способ автоматического создания цифрового тезауруса, способ выполняется на сервере, связанном с базой данных семантических отношений, способ включает в себя:
получение сервером указания на цифровой текст;
парсинг сервером цифрового текста и определение первого лексического элемента и второго лексического элемента;
для каждой записи о первом лексическом элементе в цифровом тексте:
выбор сервером n-ного числа последовательных элементов, соседних с первым лексическим элементом;
создание сервером первого контекстного параметра для первого лексического элмента, первый контекстный параметр включает указание на каждый элемент n-ного количества последовательных элементов и частоту совместного вхождения каждого элемента и первого лексического элемента в цифровом тексте;
для каждой записи о втором лексическом элементе в цифровом тексте:
выбор сервером n-ного числа последовательных элементов, соседних со вторым лексическим элементом;
создание сервером второго контекстного параметра для второго лексического элмента, второй контекстный параметр включает указание на каждый элемент n-ного количества последовательных элементов и частоту совместного вхождения каждого элемента и второго лексического элемента в цифровом тексте;
определение сервером параметра связи лексических элементов для первого лексического элемента и второго лексического элемента, параметр связи лексических элементов указывает на семантическую связь между первым лексическим элементом и вторым лексическим элементом, параметр связи лексических элементов определяется путем:
анализ взаимосвязи первого контекстного параметра и второго контекстного параметра;
анализ совместного вхождения записей первого лексического элемента и второго лексического элемента в цифровом тексте; и
сохранение сервером параметра связи лексических элементов в базу данных семантических отношений.
2. Способ по п. 1, который далее включает в себя присваивание грамматического типа каждому слову в цифровом тексте до определения первого лексического элемента и второго лексического элемента.
3. Способ по п. 2, в котором лексический элемент представляет собой одно из следующего:
слово, которое было определено на основе соответствующего грамматического типа; и
фразу, которая является группой из двух или более слов, определенных на основе соответствующего грамматического типа одного из двух или более слов.
4. Способ по п. 3, который далее включает в себя лемматизацию первого и второго лексических элементов и слов цифрового текста до определения частоты совместного вхождения.
5. Способ по п. 1, в котором n-ное число последовательных элементов представляет собой по меньшей мере одно из: последовательные предшествующие, последовательные следующие или последовательные предшествующие и последовательные следующие элементы для первого и второго лексических элементов соответственно.
6. Способ по п. 1, в котором анализ совместного вхождения записей включает в себя определение параметра совместного вхождения, указывающего на частоту первого лексического элемента и второго лексического элемента, которые содержатся в одном и том же предложении цифрового текста.
7. Способ по п. 6, в котором анализ взаимосвязи включает в себя определение первого параметра сходства между первым контекстным параметром и вторым контекстным параметром.
8. Способ по п. 7, в котором анализ взаимосвязи далее включает в себя:
определение первого параметра включения, указывающего на включение первого контекстного параметра во второй контекстный параметр;
определение второго параметра включения, указывающего на включение второго контекстного параметра в первый контекстный параметр;
9. Способ по п. 8, в котором при определении того, что первый параметр включения и второй параметр включения находятся ниже первого порога, параметр связи лексических элементов для первого и второго лексических элементов является:
указанием на синонимические отношения, если первый параметр сходства выше второго порога, а параметр совместного вхождения ниже третьего порога;
указанием на синонимические отношения, если первый параметр сходства выше четвертого порога, а параметр совместного вхождения ниже пятого порога;
указание на ассоциативную связь, если первый параметр сходства находится ниже шестого порога.
10. Способ по п. 8, в котором параметр связи лексических элементов для первого и второго лексических элементов указывает на связь гипероним-гипоним, если один из первого параметра включения или второго параметра включения находится выше порога.
11. Способ по п. 6, в котором анализ взаимосвязи далее включает в себя:
определение первого параметра включения первого контекстного параметра во второй контекстный параметр;
определение второго параметра включения первого контекстного параметра в третий контекстный параметр, причем третий контекстный параметр определен путем:
дальнейшего парсинга цифрового текста сервером для определения третьего лексического элемента;
для каждой записи о третьем лексическом элементе в тексте:
выбор сервером n-ного числа последовательных элементов, соседних с третьим лексическим элементом;
создание сервером третьего контекстного параметра для третьего лексического элемента, третий контекстный параметр включает указание на каждый элемент n-ного количества последовательных элементов и частоту совместного вхождения каждого слова и третьего лексического элемента в цифровом тексте; и
определение второго параметра сходства третьего контекстного параметра со вторым контекстным параметром.
12. Способ по п. 11, в котором параметр связи лексических элементов для первого, второго и третьего лексических элементов указывает на связь гипероним-гипоним, если первый параметр включения и второй параметр включения находятся выше первого порога, и второй параметр сходства находится ниже второго порога.
13. Сервер для автоматического создания цифрового тезауруса, сервер содержит:
сетевой интерфейс для коммуникативного соединения сети передачи данных;
процессор, соединенный с сетевым интерфейсом и выполненный с возможностью осуществлять:
получение сервером указания на цифровой текст;
парсинг сервером цифрового текста и определение первого лексического элемента и второго лексического элемента;
для каждой записи о первом лексическом элементе в цифровом тексте:
выбор сервером n-ного числа последовательных элементов, соседних с первым лексическим элементом;
создание сервером первого контекстного параметра для первого лексического элмента, первый контекстный параметр включает указание на каждый элемент n-ного числа последовательных элементов и частоту совместного вхождения каждого элемента и первого лексического элемента в цифровом тексте;
для каждой записи о втором лексическом элементе в цифровом тексте:
выбор сервером n-ного числа последовательных элементов, соседних со вторым лексическим элементом;
создание сервером второго контекстного параметра для второго лексического элмента, второй контекстный параметр включает указание на каждый элемент n-ного числа последовательных элементов и частоту совместного вхождения каждого элемента и второго лексического элемента в цифровом тексте;
определение сервером параметра связи лексических элементов для первого лексического элемента и второго лексического элемента, параметр связи лексических элементов указывает на семантическую связь между первым лексическим элементом и вторым лексическим элементом, параметр связи лексических элементов определяется путем:
анализа взаимосвязи первого контекстного параметра и второго контекстного параметра;
анализа совместного вхождения записей первого лексического элемента и второго лексического элемента в цифровом тексте; и
сохранения сервером параметра связи лексических элементов в базу данных семантических отношений.
14. Сервер по п. 15, который далее выполнен с возможностью осуществлять лемматизацию первого и второго лексических элементов и слов цифрового текста до определения частоты совместного вхождения.
15. Сервер по п. 13, в котором n-ное число последовательных элементов представляет собой по меньшей мере одно из: последовательные предшествующие, последовательные следующие или последовательные предшествующие и последовательные следующие элементы для первого и второго лексических элементов соответственно.
16. Сервер по п. 15, который при определении того, что n-ное число последовательных элементов, соседних для данного вхождения первого лексического элемента охватывает дополнительное предложение, соседнее с ним, создает соответствующий первый контекстный параметр, связанный с данным вхождением, который включает в себя использование подмножества n-ного числа последовательных элементов, подмножество представляет собой элементы предложения данного вхождения.
17. Сервер по п. 16, который:
до определения n-ного числа последовательных элементов, далее выполнен с возможностью назначать грамматический тип каждому слову цифрового текста; и
в котором n-ное число последовательных элементов имеет заранее определенный грамматический тип.
18. Сервер по п. 13, в котором анализ взаимосвязи включает в себя одно из:
определение первого параметра включения, указывающего на включение первого контекстного параметра во второй контекстный параметр;
определение второго параметра включения, указывающего на включение второго контекстного параметра в первый контекстный параметр;
определение третьего параметра включения первого контекстного параметра в третий контекстный параметр, причем третий контекстный параметр определен путем:
дальнейшего парсинга цифрового текста сервером для определения третьего лексического элемента;
для каждой записи о третьем лексическом элементе в тексте:
выбор сервером n-ного числа последовательных элементов, соседних с третьим лексическим элементом;
создание сервером третьего контекстного параметра для третьего лексического элемента, третий контекстный параметр включает указание на каждый элемент n-ного количества последовательных
элементов и частоту совместного вхождения каждого слова и третьего лексического элемента в цифровом тексте;
определение первого параметра сходства между первым контекстным параметром и вторым контекстным параметром; и
определение второго параметра сходства между третьим контекстным параметром и вторым контекстным параметром.
19. Сервер по п. 18, в котором анализ совместного вхождения записей включает в себя определение параметра совместного вхождения, указывающего на частоту первого лексического элемента и второго лексического элемента, которые содержатся данном одном предложении цифрового текста.
20. Сервер по п. 19, в котором:
при определении того, что первый параметр включения и второй параметр включения находятся ниже первого порога, параметр связи лексических элементов для первого и второго лексических элементов является:
синонимическим отношением, если первый параметр сходства выше второго порога, а параметр совместного вхождения ниже третьего порога;
антонимическим отношением, если первый параметр сходства выше четвертого порога, а параметр совместного вхождения выше пятого порога;
ассоциативной связью, если первый параметр сходства находится ниже пятого порога;
при определении того, что первый параметр включения находится выше первого порога, параметр связи лексических элементов для первого и второго лексических элементов является:
отношением гипероним-гипоним, если параметр включения находится выше пятого порога; и
при определении того, что первый параметр включения и третий параметр включения находятся выше шестого порога, параметр связи лексических элементов для первого, второго и третьих лексических элементов является:
отношением холоним-мероним, если второй параметр сходства находится ниже седьмого порога.
RU2016137530A 2016-09-20 2016-09-20 Способ и система автоматического создания тезауруса RU2672393C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2016137530A RU2672393C2 (ru) 2016-09-20 2016-09-20 Способ и система автоматического создания тезауруса
US15/606,162 US10460037B2 (en) 2016-09-20 2017-05-26 Method and system of automatic generation of thesaurus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2016137530A RU2672393C2 (ru) 2016-09-20 2016-09-20 Способ и система автоматического создания тезауруса

Publications (2)

Publication Number Publication Date
RU2016137530A true RU2016137530A (ru) 2018-03-23
RU2672393C2 RU2672393C2 (ru) 2018-11-14

Family

ID=61620424

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016137530A RU2672393C2 (ru) 2016-09-20 2016-09-20 Способ и система автоматического создания тезауруса

Country Status (2)

Country Link
US (1) US10460037B2 (ru)
RU (1) RU2672393C2 (ru)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789293B2 (en) * 2017-11-03 2020-09-29 Salesforce.Com, Inc. Automatic search dictionary and user interfaces
US11526565B2 (en) * 2019-04-05 2022-12-13 Ovh Method of and system for clustering search queries
US11610054B1 (en) * 2021-10-07 2023-03-21 Adobe Inc. Semantically-guided template generation from image content

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8900587A (nl) * 1989-03-10 1990-10-01 Bso Buro Voor Systeemontwikkel Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst.
US6519586B2 (en) * 1999-08-06 2003-02-11 Compaq Computer Corporation Method and apparatus for automatic construction of faceted terminological feedback for document retrieval
US7058652B2 (en) * 2002-08-15 2006-06-06 General Electric Capital Corporation Method and system for event phrase identification
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US8463806B2 (en) * 2009-01-30 2013-06-11 Lexisnexis Methods and systems for creating and using an adaptive thesaurus
US9158841B2 (en) * 2011-06-15 2015-10-13 The University Of Memphis Research Foundation Methods of evaluating semantic differences, methods of identifying related sets of items in semantic spaces, and systems and computer program products for implementing the same
RU2487403C1 (ru) * 2011-11-30 2013-07-10 Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук Способ построения семантической модели документа
US20150046152A1 (en) 2013-08-08 2015-02-12 Quryon, Inc. Determining concept blocks based on context
US9792549B2 (en) * 2014-11-21 2017-10-17 International Business Machines Corporation Extraction of semantic relations using distributional relation detection

Also Published As

Publication number Publication date
US20180081874A1 (en) 2018-03-22
RU2672393C2 (ru) 2018-11-14
US10460037B2 (en) 2019-10-29

Similar Documents

Publication Publication Date Title
KR102163549B1 (ko) 선행사의 결정방법 및 장치
Kok et al. Hitting the right paraphrases in good time
Kanerva et al. Syntactic n-gram collection from a large-scale corpus of internet finnish
WO2020108063A1 (zh) 特征词的确定方法、装置和服务器
JP7251181B2 (ja) 対訳処理方法および対訳処理プログラム
US20130061139A1 (en) Server-based spell checking on a user device
AU2016277558A1 (en) Generating a semantic network based on semantic connections between subject-verb-object units
US20160117345A1 (en) Service Requirement Analysis System, Method and Non-Transitory Computer Readable Storage Medium
CN105183923A (zh) 新词发现方法及装置
WO2018201600A1 (zh) 信息挖掘方法、系统、电子装置及可读存储介质
JP2005251206A (ja) 単語分割で使用される新単語収集方法およびシステム
RU2016104133A (ru) Способ и система обработки текста
WO2017177809A1 (zh) 语言文本的分词方法和系统
US20130060560A1 (en) Server-based spell checking
RU2016137530A (ru) Способ и система автоматического создания тезауруса
CN103995885A (zh) 实体名的识别方法和装置
RU2016137529A (ru) Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка
CN107577713B (zh) 基于电力词典的文本处理方法
US20200304447A1 (en) System and method for detecting geo-locations in social media
Yan et al. Duluth at semeval-2017 task 6: Language models in humor detection
US20200387815A1 (en) Building training data and similarity relations for semantic space
US9710450B2 (en) Recombining incorrectly separated tokens in natural language processing
Ogrodniczuk et al. Rule-based coreference resolution module for Polish
Mousselly-Sergieh et al. Tag similarity in folksonomies
Xu et al. Extractive summarisation based on keyword profile and language model