RU2016137530A

RU2016137530A - Способ и система автоматического создания тезауруса

Info

Publication number: RU2016137530A
Application number: RU2016137530A
Authority: RU
Inventors: Юрий Григорьевич Зеленков
Original assignee: Общество С Ограниченной Ответственностью "Яндекс"
Priority date: 2016-09-20
Filing date: 2016-09-20
Publication date: 2018-03-23
Also published as: US20180081874A1; RU2672393C2; US10460037B2

Claims

1. Способ автоматического создания цифрового тезауруса, способ выполняется на сервере, связанном с базой данных семантических отношений, способ включает в себя:

получение сервером указания на цифровой текст;

парсинг сервером цифрового текста и определение первого лексического элемента и второго лексического элемента;

для каждой записи о первом лексическом элементе в цифровом тексте:

выбор сервером n-ного числа последовательных элементов, соседних с первым лексическим элементом;

создание сервером первого контекстного параметра для первого лексического элмента, первый контекстный параметр включает указание на каждый элемент n-ного количества последовательных элементов и частоту совместного вхождения каждого элемента и первого лексического элемента в цифровом тексте;

для каждой записи о втором лексическом элементе в цифровом тексте:

выбор сервером n-ного числа последовательных элементов, соседних со вторым лексическим элементом;

создание сервером второго контекстного параметра для второго лексического элмента, второй контекстный параметр включает указание на каждый элемент n-ного количества последовательных элементов и частоту совместного вхождения каждого элемента и второго лексического элемента в цифровом тексте;

определение сервером параметра связи лексических элементов для первого лексического элемента и второго лексического элемента, параметр связи лексических элементов указывает на семантическую связь между первым лексическим элементом и вторым лексическим элементом, параметр связи лексических элементов определяется путем:

анализ взаимосвязи первого контекстного параметра и второго контекстного параметра;

анализ совместного вхождения записей первого лексического элемента и второго лексического элемента в цифровом тексте; и

сохранение сервером параметра связи лексических элементов в базу данных семантических отношений.

2. Способ по п. 1, который далее включает в себя присваивание грамматического типа каждому слову в цифровом тексте до определения первого лексического элемента и второго лексического элемента.

3. Способ по п. 2, в котором лексический элемент представляет собой одно из следующего:

слово, которое было определено на основе соответствующего грамматического типа; и

фразу, которая является группой из двух или более слов, определенных на основе соответствующего грамматического типа одного из двух или более слов.

4. Способ по п. 3, который далее включает в себя лемматизацию первого и второго лексических элементов и слов цифрового текста до определения частоты совместного вхождения.

5. Способ по п. 1, в котором n-ное число последовательных элементов представляет собой по меньшей мере одно из: последовательные предшествующие, последовательные следующие или последовательные предшествующие и последовательные следующие элементы для первого и второго лексических элементов соответственно.

6. Способ по п. 1, в котором анализ совместного вхождения записей включает в себя определение параметра совместного вхождения, указывающего на частоту первого лексического элемента и второго лексического элемента, которые содержатся в одном и том же предложении цифрового текста.

7. Способ по п. 6, в котором анализ взаимосвязи включает в себя определение первого параметра сходства между первым контекстным параметром и вторым контекстным параметром.

8. Способ по п. 7, в котором анализ взаимосвязи далее включает в себя:

определение первого параметра включения, указывающего на включение первого контекстного параметра во второй контекстный параметр;

определение второго параметра включения, указывающего на включение второго контекстного параметра в первый контекстный параметр;

9. Способ по п. 8, в котором при определении того, что первый параметр включения и второй параметр включения находятся ниже первого порога, параметр связи лексических элементов для первого и второго лексических элементов является:

указанием на синонимические отношения, если первый параметр сходства выше второго порога, а параметр совместного вхождения ниже третьего порога;

указанием на синонимические отношения, если первый параметр сходства выше четвертого порога, а параметр совместного вхождения ниже пятого порога;

указание на ассоциативную связь, если первый параметр сходства находится ниже шестого порога.

10. Способ по п. 8, в котором параметр связи лексических элементов для первого и второго лексических элементов указывает на связь гипероним-гипоним, если один из первого параметра включения или второго параметра включения находится выше порога.

11. Способ по п. 6, в котором анализ взаимосвязи далее включает в себя:

определение первого параметра включения первого контекстного параметра во второй контекстный параметр;

определение второго параметра включения первого контекстного параметра в третий контекстный параметр, причем третий контекстный параметр определен путем:

дальнейшего парсинга цифрового текста сервером для определения третьего лексического элемента;

для каждой записи о третьем лексическом элементе в тексте:

выбор сервером n-ного числа последовательных элементов, соседних с третьим лексическим элементом;

создание сервером третьего контекстного параметра для третьего лексического элемента, третий контекстный параметр включает указание на каждый элемент n-ного количества последовательных элементов и частоту совместного вхождения каждого слова и третьего лексического элемента в цифровом тексте; и

определение второго параметра сходства третьего контекстного параметра со вторым контекстным параметром.

12. Способ по п. 11, в котором параметр связи лексических элементов для первого, второго и третьего лексических элементов указывает на связь гипероним-гипоним, если первый параметр включения и второй параметр включения находятся выше первого порога, и второй параметр сходства находится ниже второго порога.

13. Сервер для автоматического создания цифрового тезауруса, сервер содержит:

сетевой интерфейс для коммуникативного соединения сети передачи данных;

процессор, соединенный с сетевым интерфейсом и выполненный с возможностью осуществлять:

создание сервером первого контекстного параметра для первого лексического элмента, первый контекстный параметр включает указание на каждый элемент n-ного числа последовательных элементов и частоту совместного вхождения каждого элемента и первого лексического элемента в цифровом тексте;

создание сервером второго контекстного параметра для второго лексического элмента, второй контекстный параметр включает указание на каждый элемент n-ного числа последовательных элементов и частоту совместного вхождения каждого элемента и второго лексического элемента в цифровом тексте;

анализа взаимосвязи первого контекстного параметра и второго контекстного параметра;

анализа совместного вхождения записей первого лексического элемента и второго лексического элемента в цифровом тексте; и

сохранения сервером параметра связи лексических элементов в базу данных семантических отношений.

14. Сервер по п. 15, который далее выполнен с возможностью осуществлять лемматизацию первого и второго лексических элементов и слов цифрового текста до определения частоты совместного вхождения.

15. Сервер по п. 13, в котором n-ное число последовательных элементов представляет собой по меньшей мере одно из: последовательные предшествующие, последовательные следующие или последовательные предшествующие и последовательные следующие элементы для первого и второго лексических элементов соответственно.

16. Сервер по п. 15, который при определении того, что n-ное число последовательных элементов, соседних для данного вхождения первого лексического элемента охватывает дополнительное предложение, соседнее с ним, создает соответствующий первый контекстный параметр, связанный с данным вхождением, который включает в себя использование подмножества n-ного числа последовательных элементов, подмножество представляет собой элементы предложения данного вхождения.

17. Сервер по п. 16, который:

до определения n-ного числа последовательных элементов, далее выполнен с возможностью назначать грамматический тип каждому слову цифрового текста; и

в котором n-ное число последовательных элементов имеет заранее определенный грамматический тип.

18. Сервер по п. 13, в котором анализ взаимосвязи включает в себя одно из:

определение третьего параметра включения первого контекстного параметра в третий контекстный параметр, причем третий контекстный параметр определен путем:

создание сервером третьего контекстного параметра для третьего лексического элемента, третий контекстный параметр включает указание на каждый элемент n-ного количества последовательных

элементов и частоту совместного вхождения каждого слова и третьего лексического элемента в цифровом тексте;

определение первого параметра сходства между первым контекстным параметром и вторым контекстным параметром; и

определение второго параметра сходства между третьим контекстным параметром и вторым контекстным параметром.

19. Сервер по п. 18, в котором анализ совместного вхождения записей включает в себя определение параметра совместного вхождения, указывающего на частоту первого лексического элемента и второго лексического элемента, которые содержатся данном одном предложении цифрового текста.

20. Сервер по п. 19, в котором:

при определении того, что первый параметр включения и второй параметр включения находятся ниже первого порога, параметр связи лексических элементов для первого и второго лексических элементов является:

синонимическим отношением, если первый параметр сходства выше второго порога, а параметр совместного вхождения ниже третьего порога;

антонимическим отношением, если первый параметр сходства выше четвертого порога, а параметр совместного вхождения выше пятого порога;

ассоциативной связью, если первый параметр сходства находится ниже пятого порога;

при определении того, что первый параметр включения находится выше первого порога, параметр связи лексических элементов для первого и второго лексических элементов является:

отношением гипероним-гипоним, если параметр включения находится выше пятого порога; и

при определении того, что первый параметр включения и третий параметр включения находятся выше шестого порога, параметр связи лексических элементов для первого, второго и третьих лексических элементов является:

отношением холоним-мероним, если второй параметр сходства находится ниже седьмого порога.