RU2014147904A

RU2014147904A - Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер

Info

Publication number: RU2014147904A
Application number: RU2014147904A
Authority: RU
Inventors: Егор Владимирович Ганин; Антон Игоревич Холодков
Original assignee: Общество С Ограниченной Ответственностью "Яндекс"
Priority date: 2014-11-28
Filing date: 2014-11-28
Publication date: 2016-06-20
Also published as: WO2016083908A1

Abstract

1. Способ обработки предназначенного пользователю входящего текстового сообщения, включающий:определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы посредством синтаксического анализа текстового сообщения, содержащего значащие и незначащие лексические единицы;осуществление первой проверки по меньшей мере одного кандидата в незначащие лексические единицы посредством сопоставления с незначащими лексическими единицами из первой базы данных лексических единиц, сформированной на основе синтаксического анализа предыдущих текстовых сообщений, предназначенных пользователю; осуществление второй проверки указанного по меньшей мере одного кандидата в незначащие лексические единицы посредством сопоставления с незначащими лексическими единицами из второй базы данных незначащих лексических единиц, сформированной в результате синтаксического анализа предыдущих текстовых сообщений, предназначенных группе пользователей из множества пользователей;определение кандидата в незначащие лексические единицы в качестве незначащей лексической единицы при положительном ответе первой и/или второй проверки.2. Способ по п. 1, в котором формируют реферат текстового сообщения таким образом, что незначащие лексические единицы отсутствуют в реферате текстового сообщения.3. Способ по п. 2, в котором снабжают реферат текстового сообщения по меньшей мере одной фразой, имеющей смысловое значение.4. Способ по любому из пп. 2 или 3, в котором используют для реферата текстового сообщения наиболее значимую часть текстового сообщения.5. Способ по п. 4, в котором определяют наиболее значиму

Claims

1. Способ обработки предназначенного пользователю входящего текстового сообщения, включающий:

определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы посредством синтаксического анализа текстового сообщения, содержащего значащие и незначащие лексические единицы;

осуществление первой проверки по меньшей мере одного кандидата в незначащие лексические единицы посредством сопоставления с незначащими лексическими единицами из первой базы данных лексических единиц, сформированной на основе синтаксического анализа предыдущих текстовых сообщений, предназначенных пользователю; осуществление второй проверки указанного по меньшей мере одного кандидата в незначащие лексические единицы посредством сопоставления с незначащими лексическими единицами из второй базы данных незначащих лексических единиц, сформированной в результате синтаксического анализа предыдущих текстовых сообщений, предназначенных группе пользователей из множества пользователей;

определение кандидата в незначащие лексические единицы в качестве незначащей лексической единицы при положительном ответе первой и/или второй проверки.

2. Способ по п. 1, в котором формируют реферат текстового сообщения таким образом, что незначащие лексические единицы отсутствуют в реферате текстового сообщения.

3. Способ по п. 2, в котором снабжают реферат текстового сообщения по меньшей мере одной фразой, имеющей смысловое значение.

4. Способ по любому из пп. 2 или 3, в котором используют для реферата текстового сообщения наиболее значимую часть текстового сообщения.

5. Способ по п. 4, в котором определяют наиболее значимую часть данного сообщения электронной почты как наиболее значимый логический блок HTML кода из множества логических блоков HTML кода, содержащих текст, причем в качестве текстового сообщения используют сообщение электронной почты.

6. Способ по п. 5, в котором в качестве наиболее значимого логического блока HTML кода используют блок HTML кода, содержащий текст, размер которого превышает размер текста любого другого логического блока HTML кода данного сообщения электронной почты.

7. Способ по п. 5, в котором в качестве наиболее значимого логического блока HTML кода используют блок HTML кода, содержащий текст с наибольшим количеством значащих лексических единиц по сравнению с текстами любого другого логического блока HTML кода данного сообщения электронной почты.

8. Способ по любому из пп. 2 или 3, в котором в качестве реферата текстового сообщения используют предопределенное количество абзацев в начале текстового сообщения.

9. Способ по п. 1, в котором в качестве группы пользователей используют все множество пользователей.

10. Способ по п. 1, в котором получают входящее текстовое сообщение.

11. Способ по п. 1, в котором в качестве лексической единицы используют любое из: слово, словосочетание, предложение, абзац.

12. Способ по п. 1, в котором определяют по меньшей мере одну лексическую единицу в качестве кандидата в незначащие лексические единицы посредством определения по меньшей мере одной лексической единицы, имеющей смысловое значение.

13. Способ по п. 1, в котором определяют по меньшей мере одну лексическую единицу в качестве кандидата в незначащие лексические единицы на основе синтаксического анализа одного из: всего текста, содержащегося в текстовом сообщении, и фрагмента текста, содержащегося в текстовом сообщении, причем фрагмент текста, содержащийся в тексте сообщения, включает в себя предопределенное количество абзацев.

14. Способ по п. 1, в котором при осуществлении синтаксического анализа текстового сообщения осуществляют анализ языка разметки текстового сообщения.

15. Способ по п. 14, в котором при анализе языка разметки текстового сообщения осуществляют анализ по меньшей мере одного, выбранного из: вида шрифта, размера шрифта, начертания шрифта, знаков препинания, специальных знаков.

16. Способ по п. 1, в котором определяют контрольную сумму лексической единицы.

17. Способ по п. 16, в котором в качестве контрольной суммы лексической единицы используют одно из: контрольный элемент и комбинация контрольных элементов, причем контрольным элементом является любой элемент, выбранный из: количества символов в лексической единице, количества букв в лексической единице, количества заглавных букв в лексической единице, количества прописных букв в лексической единице, количества пробелов в лексической единице, количества цифр в лексической единице, количества специальных знаков в лексической единице, количества слов в лексической единице, размера лексической единицы, выраженного в единицах обработки и хранения информации.

18. Способ по п. 1, в котором сопоставляют кандидата в незначащие лексические единицы с незначащими лексическими единицами любой из: первой базы данных лексических единиц и второй базы данных лексических единиц, по меньшей мере по одному предопределенному параметру кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы данных лексических единиц и второй базы данных лексических единиц.

19. Способ по п. 18, в котором в качестве предопределенного параметра используют одно из: контрольную сумму и комбинацию отдельных контрольных элементов, входящих в состав контрольной суммы лексической единицы.

20. Способ по п. 18, в котором определяют результат первой и/или второй проверки как положительный, при выявлении полного или частичного совпадения по указанному по меньшей мере одному параметру, причем степень совпадения превышает предустановленный порог совпадения.

21. Способ по п. 1, в котором перед осуществлением синтаксического анализа текстового сообщения создают по меньшей мере одну из: первую базу данных и вторую базу данных.

22. Компьютер для обработки предназначенного пользователю входящего текстового сообщения, включающий процессор, выполненный с возможностью:

определения по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы посредством осуществления синтаксического анализа текстового сообщения;

осуществления первой проверки по меньшей мере одного кандидата в незначащие лексические единицы путем сопоставления с незначащими лексическими единицами из первой базы данных лексических единиц, сформированной на основе синтаксического анализа предыдущих текстовых сообщений, предназначенных пользователю;

осуществления второй проверки указанного по меньшей мере одного кандидата в незначащие лексические единицы путем сопоставления с незначащими лексическими единицами из второй базы данных незначащих лексических единиц, сформированной на основе синтаксического анализа предыдущих текстовых сообщений, предназначенных группе пользователей из множества пользователей;

определения кандидата в незначащие лексические единицы в качестве незначащей лексической единицы при положительном результате любой из: первой и второй проверки.

23. Компьютер по п. 22, в котором процессор выполнен с возможностью формирования реферата текстового сообщения с отсутствием в нем незначащих лексических единиц.

24. Компьютер по п. 22, в котором реферат текстового сообщения содержит по меньшей мере одну фразу, имеющую смысловое значение.

25. Компьютер по любому из пп. 23 или 24, в котором реферат текстового сообщения является рефератом наиболее значимой части текстового сообщения.

26. Компьютер по п. 25, в котором текстовое сообщение является сообщением электронной почты, и в котором наиболее значимая часть данного сообщения электронной почты представляет собой наиболее значимый логический блок HTML кода из множества логических блоков HTML кода, содержащих текст.

27. Компьютер по п. 26, в котором наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, размер которого превышает размер текста любого другого логического блока HTML кода данного сообщения электронной почты.

28. Компьютер по п. 27, в котором наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, причем текст наиболее значимого логического блока HTML кода содержит наибольшее количество значащих лексических единиц по сравнению с текстами любого другого логического блока HTML кода данного сообщения электронной почты.

29. Компьютер по любому из пп. 23 или 24, в котором реферат текстового сообщения является рефератом предопределенного количества абзацев в начале текстового сообщения.

30. Компьютер по п. 22, в котором группа пользователей представляет собой все множество пользователей.

31. Компьютер по п. 22, в котором процессор выполнен с возможностью получения входящего текстового сообщения.

32. Компьютер по п. 22, в котором процессор выполнен с возможностью использования в качестве лексической единицы является любое из: слово и словосочетание.

33. Компьютер по п. 22, в котором процессор выполнен с возможностью определения по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы из по меньшей мере одной лексической единицы, имеющей смысловое значение.

34. Компьютер по п. 22, в котором процессор выполнен с возможностью определения по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы на основе синтаксического анализа одного из:

всего текста, содержащегося в текстовом сообщении, и

фрагмента текста, содержащегося в текстовом сообщении.

35. Компьютер по п. 22, в котором процессор выполнен с возможностью синтаксического анализа текстового сообщения, включающего анализ языка разметки текстового сообщения.

36. Компьютер по п. 35, в котором процессор выполнен с возможностью при анализе языка разметки текстового сообщения анализа по меньшей мере одного, выбранного из: вида, размера, начертания шрифта, знаков препинания и специальных знаков.

37. Компьютер по п. 22, в котором процессор выполнен с возможностью определения контрольной суммы лексической единицы.

38. Компьютер по п. 37, в котором контрольная сумма лексической единицы является одним из: контрольным элементом и комбинацией контрольных элементов, при этом контрольным элементом является любой элемент, выбранный из: количество символов, количество букв, количество заглавных букв, количество прописных букв, количество пробелов, количество цифр, количество специальных знаков, количество слов в лексической единице, размер лексической единицы, выраженный в единицах обработки и хранения информации.

39. Компьютер по п. 22, в котором процессор выполнен с возможностью сопоставления кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы данных лексических единиц и второй базы данных лексических единиц, посредством сопоставления по меньшей мере по одному предопределенному параметру кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы и второй базы данных лексических единиц.

40. Компьютер по п. 39, в котором предопределенный параметр, по которому осуществляется сопоставление, является одним из: контрольной суммой и комбинацией отдельных контрольных элементов, входящих в состав контрольной суммы лексической единицы.

41. Компьютер по п. 39, в котором процессор выполнен с возможностью определения результата любой из первой и второй проверки как положительного при выявлении при сопоставлении по меньшей мере по одному предопределенному параметру одного из: частичное совпадение по указанному по меньшей мере одному предопределенному параметру, причем степень совпадения превышает предустановленный порог совпадения, и полное совпадение по указанному по меньшей мере одному предопределенному параметру.

42. Компьютер по п. 22, в котором процессор выполнен с возможностью перед осуществлением синтаксического анализа текстового сообщения формирования по меньшей мере одной из: первой базы данных и второй базы данных.