RU2014147904A - Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер - Google Patents

Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер Download PDF

Info

Publication number
RU2014147904A
RU2014147904A RU2014147904A RU2014147904A RU2014147904A RU 2014147904 A RU2014147904 A RU 2014147904A RU 2014147904 A RU2014147904 A RU 2014147904A RU 2014147904 A RU2014147904 A RU 2014147904A RU 2014147904 A RU2014147904 A RU 2014147904A
Authority
RU
Russia
Prior art keywords
lexical
insignificant
text message
units
text
Prior art date
Application number
RU2014147904A
Other languages
English (en)
Inventor
Егор Владимирович Ганин
Антон Игоревич Холодков
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2014147904A priority Critical patent/RU2014147904A/ru
Priority to PCT/IB2015/054486 priority patent/WO2016083908A1/en
Publication of RU2014147904A publication Critical patent/RU2014147904A/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

1. Способ обработки предназначенного пользователю входящего текстового сообщения, включающий:определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы посредством синтаксического анализа текстового сообщения, содержащего значащие и незначащие лексические единицы;осуществление первой проверки по меньшей мере одного кандидата в незначащие лексические единицы посредством сопоставления с незначащими лексическими единицами из первой базы данных лексических единиц, сформированной на основе синтаксического анализа предыдущих текстовых сообщений, предназначенных пользователю; осуществление второй проверки указанного по меньшей мере одного кандидата в незначащие лексические единицы посредством сопоставления с незначащими лексическими единицами из второй базы данных незначащих лексических единиц, сформированной в результате синтаксического анализа предыдущих текстовых сообщений, предназначенных группе пользователей из множества пользователей;определение кандидата в незначащие лексические единицы в качестве незначащей лексической единицы при положительном ответе первой и/или второй проверки.2. Способ по п. 1, в котором формируют реферат текстового сообщения таким образом, что незначащие лексические единицы отсутствуют в реферате текстового сообщения.3. Способ по п. 2, в котором снабжают реферат текстового сообщения по меньшей мере одной фразой, имеющей смысловое значение.4. Способ по любому из пп. 2 или 3, в котором используют для реферата текстового сообщения наиболее значимую часть текстового сообщения.5. Способ по п. 4, в котором определяют наиболее значиму

Claims (42)

1. Способ обработки предназначенного пользователю входящего текстового сообщения, включающий:
определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы посредством синтаксического анализа текстового сообщения, содержащего значащие и незначащие лексические единицы;
осуществление первой проверки по меньшей мере одного кандидата в незначащие лексические единицы посредством сопоставления с незначащими лексическими единицами из первой базы данных лексических единиц, сформированной на основе синтаксического анализа предыдущих текстовых сообщений, предназначенных пользователю; осуществление второй проверки указанного по меньшей мере одного кандидата в незначащие лексические единицы посредством сопоставления с незначащими лексическими единицами из второй базы данных незначащих лексических единиц, сформированной в результате синтаксического анализа предыдущих текстовых сообщений, предназначенных группе пользователей из множества пользователей;
определение кандидата в незначащие лексические единицы в качестве незначащей лексической единицы при положительном ответе первой и/или второй проверки.
2. Способ по п. 1, в котором формируют реферат текстового сообщения таким образом, что незначащие лексические единицы отсутствуют в реферате текстового сообщения.
3. Способ по п. 2, в котором снабжают реферат текстового сообщения по меньшей мере одной фразой, имеющей смысловое значение.
4. Способ по любому из пп. 2 или 3, в котором используют для реферата текстового сообщения наиболее значимую часть текстового сообщения.
5. Способ по п. 4, в котором определяют наиболее значимую часть данного сообщения электронной почты как наиболее значимый логический блок HTML кода из множества логических блоков HTML кода, содержащих текст, причем в качестве текстового сообщения используют сообщение электронной почты.
6. Способ по п. 5, в котором в качестве наиболее значимого логического блока HTML кода используют блок HTML кода, содержащий текст, размер которого превышает размер текста любого другого логического блока HTML кода данного сообщения электронной почты.
7. Способ по п. 5, в котором в качестве наиболее значимого логического блока HTML кода используют блок HTML кода, содержащий текст с наибольшим количеством значащих лексических единиц по сравнению с текстами любого другого логического блока HTML кода данного сообщения электронной почты.
8. Способ по любому из пп. 2 или 3, в котором в качестве реферата текстового сообщения используют предопределенное количество абзацев в начале текстового сообщения.
9. Способ по п. 1, в котором в качестве группы пользователей используют все множество пользователей.
10. Способ по п. 1, в котором получают входящее текстовое сообщение.
11. Способ по п. 1, в котором в качестве лексической единицы используют любое из: слово, словосочетание, предложение, абзац.
12. Способ по п. 1, в котором определяют по меньшей мере одну лексическую единицу в качестве кандидата в незначащие лексические единицы посредством определения по меньшей мере одной лексической единицы, имеющей смысловое значение.
13. Способ по п. 1, в котором определяют по меньшей мере одну лексическую единицу в качестве кандидата в незначащие лексические единицы на основе синтаксического анализа одного из: всего текста, содержащегося в текстовом сообщении, и фрагмента текста, содержащегося в текстовом сообщении, причем фрагмент текста, содержащийся в тексте сообщения, включает в себя предопределенное количество абзацев.
14. Способ по п. 1, в котором при осуществлении синтаксического анализа текстового сообщения осуществляют анализ языка разметки текстового сообщения.
15. Способ по п. 14, в котором при анализе языка разметки текстового сообщения осуществляют анализ по меньшей мере одного, выбранного из: вида шрифта, размера шрифта, начертания шрифта, знаков препинания, специальных знаков.
16. Способ по п. 1, в котором определяют контрольную сумму лексической единицы.
17. Способ по п. 16, в котором в качестве контрольной суммы лексической единицы используют одно из: контрольный элемент и комбинация контрольных элементов, причем контрольным элементом является любой элемент, выбранный из: количества символов в лексической единице, количества букв в лексической единице, количества заглавных букв в лексической единице, количества прописных букв в лексической единице, количества пробелов в лексической единице, количества цифр в лексической единице, количества специальных знаков в лексической единице, количества слов в лексической единице, размера лексической единицы, выраженного в единицах обработки и хранения информации.
18. Способ по п. 1, в котором сопоставляют кандидата в незначащие лексические единицы с незначащими лексическими единицами любой из: первой базы данных лексических единиц и второй базы данных лексических единиц, по меньшей мере по одному предопределенному параметру кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы данных лексических единиц и второй базы данных лексических единиц.
19. Способ по п. 18, в котором в качестве предопределенного параметра используют одно из: контрольную сумму и комбинацию отдельных контрольных элементов, входящих в состав контрольной суммы лексической единицы.
20. Способ по п. 18, в котором определяют результат первой и/или второй проверки как положительный, при выявлении полного или частичного совпадения по указанному по меньшей мере одному параметру, причем степень совпадения превышает предустановленный порог совпадения.
21. Способ по п. 1, в котором перед осуществлением синтаксического анализа текстового сообщения создают по меньшей мере одну из: первую базу данных и вторую базу данных.
22. Компьютер для обработки предназначенного пользователю входящего текстового сообщения, включающий процессор, выполненный с возможностью:
определения по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы посредством осуществления синтаксического анализа текстового сообщения;
осуществления первой проверки по меньшей мере одного кандидата в незначащие лексические единицы путем сопоставления с незначащими лексическими единицами из первой базы данных лексических единиц, сформированной на основе синтаксического анализа предыдущих текстовых сообщений, предназначенных пользователю;
осуществления второй проверки указанного по меньшей мере одного кандидата в незначащие лексические единицы путем сопоставления с незначащими лексическими единицами из второй базы данных незначащих лексических единиц, сформированной на основе синтаксического анализа предыдущих текстовых сообщений, предназначенных группе пользователей из множества пользователей;
определения кандидата в незначащие лексические единицы в качестве незначащей лексической единицы при положительном результате любой из: первой и второй проверки.
23. Компьютер по п. 22, в котором процессор выполнен с возможностью формирования реферата текстового сообщения с отсутствием в нем незначащих лексических единиц.
24. Компьютер по п. 22, в котором реферат текстового сообщения содержит по меньшей мере одну фразу, имеющую смысловое значение.
25. Компьютер по любому из пп. 23 или 24, в котором реферат текстового сообщения является рефератом наиболее значимой части текстового сообщения.
26. Компьютер по п. 25, в котором текстовое сообщение является сообщением электронной почты, и в котором наиболее значимая часть данного сообщения электронной почты представляет собой наиболее значимый логический блок HTML кода из множества логических блоков HTML кода, содержащих текст.
27. Компьютер по п. 26, в котором наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, размер которого превышает размер текста любого другого логического блока HTML кода данного сообщения электронной почты.
28. Компьютер по п. 27, в котором наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, причем текст наиболее значимого логического блока HTML кода содержит наибольшее количество значащих лексических единиц по сравнению с текстами любого другого логического блока HTML кода данного сообщения электронной почты.
29. Компьютер по любому из пп. 23 или 24, в котором реферат текстового сообщения является рефератом предопределенного количества абзацев в начале текстового сообщения.
30. Компьютер по п. 22, в котором группа пользователей представляет собой все множество пользователей.
31. Компьютер по п. 22, в котором процессор выполнен с возможностью получения входящего текстового сообщения.
32. Компьютер по п. 22, в котором процессор выполнен с возможностью использования в качестве лексической единицы является любое из: слово и словосочетание.
33. Компьютер по п. 22, в котором процессор выполнен с возможностью определения по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы из по меньшей мере одной лексической единицы, имеющей смысловое значение.
34. Компьютер по п. 22, в котором процессор выполнен с возможностью определения по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы на основе синтаксического анализа одного из:
всего текста, содержащегося в текстовом сообщении, и
фрагмента текста, содержащегося в текстовом сообщении.
35. Компьютер по п. 22, в котором процессор выполнен с возможностью синтаксического анализа текстового сообщения, включающего анализ языка разметки текстового сообщения.
36. Компьютер по п. 35, в котором процессор выполнен с возможностью при анализе языка разметки текстового сообщения анализа по меньшей мере одного, выбранного из: вида, размера, начертания шрифта, знаков препинания и специальных знаков.
37. Компьютер по п. 22, в котором процессор выполнен с возможностью определения контрольной суммы лексической единицы.
38. Компьютер по п. 37, в котором контрольная сумма лексической единицы является одним из: контрольным элементом и комбинацией контрольных элементов, при этом контрольным элементом является любой элемент, выбранный из: количество символов, количество букв, количество заглавных букв, количество прописных букв, количество пробелов, количество цифр, количество специальных знаков, количество слов в лексической единице, размер лексической единицы, выраженный в единицах обработки и хранения информации.
39. Компьютер по п. 22, в котором процессор выполнен с возможностью сопоставления кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы данных лексических единиц и второй базы данных лексических единиц, посредством сопоставления по меньшей мере по одному предопределенному параметру кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы и второй базы данных лексических единиц.
40. Компьютер по п. 39, в котором предопределенный параметр, по которому осуществляется сопоставление, является одним из: контрольной суммой и комбинацией отдельных контрольных элементов, входящих в состав контрольной суммы лексической единицы.
41. Компьютер по п. 39, в котором процессор выполнен с возможностью определения результата любой из первой и второй проверки как положительного при выявлении при сопоставлении по меньшей мере по одному предопределенному параметру одного из: частичное совпадение по указанному по меньшей мере одному предопределенному параметру, причем степень совпадения превышает предустановленный порог совпадения, и полное совпадение по указанному по меньшей мере одному предопределенному параметру.
42. Компьютер по п. 22, в котором процессор выполнен с возможностью перед осуществлением синтаксического анализа текстового сообщения формирования по меньшей мере одной из: первой базы данных и второй базы данных.
RU2014147904A 2014-11-28 2014-11-28 Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер RU2014147904A (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2014147904A RU2014147904A (ru) 2014-11-28 2014-11-28 Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер
PCT/IB2015/054486 WO2016083908A1 (en) 2014-11-28 2015-06-12 System and method for computer processing of an e-mail message and visual representation of a message abstract

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014147904A RU2014147904A (ru) 2014-11-28 2014-11-28 Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер

Publications (1)

Publication Number Publication Date
RU2014147904A true RU2014147904A (ru) 2016-06-20

Family

ID=56073690

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014147904A RU2014147904A (ru) 2014-11-28 2014-11-28 Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер

Country Status (2)

Country Link
RU (1) RU2014147904A (ru)
WO (1) WO2016083908A1 (ru)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7051024B2 (en) * 1999-04-08 2006-05-23 Microsoft Corporation Document summarizer for word processors
AU1338201A (en) * 1999-10-20 2001-04-30 Ali Hussam System and method for location, understanding and assimilation of digital documents through abstract indicia
US7222299B1 (en) * 2003-12-19 2007-05-22 Google, Inc. Detecting quoted text
US7624151B2 (en) * 2005-03-11 2009-11-24 International Business Machines Corporation Smart size reduction of a local electronic mailbox by removing unimportant messages based on an automatically generated user interest profile
US7707027B2 (en) * 2006-04-13 2010-04-27 Nuance Communications, Inc. Identification and rejection of meaningless input during natural language classification
US20080282153A1 (en) * 2007-05-09 2008-11-13 Sony Ericsson Mobile Communications Ab Text-content features
US7836061B1 (en) * 2007-12-29 2010-11-16 Kaspersky Lab, Zao Method and system for classifying electronic text messages and spam messages
WO2009097547A1 (en) * 2008-01-31 2009-08-06 Educational Testing Service Reading level assessment method, system, and computer program product for high-stakes testing applications
US8688690B2 (en) * 2010-04-15 2014-04-01 Palo Alto Research Center Incorporated Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
KR101655876B1 (ko) * 2012-01-05 2016-09-09 삼성전자 주식회사 메시지 기반의 대화 기능 운용 방법 및 이를 지원하는 단말기
US9317500B2 (en) * 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content

Also Published As

Publication number Publication date
WO2016083908A1 (en) 2016-06-02

Similar Documents

Publication Publication Date Title
US10496928B2 (en) Non-factoid question-answering system and method
WO2019227710A1 (zh) 网络舆情的分析方法、装置及计算机可读存储介质
Swanson et al. Native language detection with tree substitution grammars
US9280536B2 (en) Synonym determination among n-grams
RU2009127102A (ru) Способ, устройство и компьютерный программный продукт для гибкой идентификации языка на базе текста
Layton et al. Recentred local profiles for authorship attribution
CN103970765A (zh) 一种改错模型训练方法、装置和文本改错方法、装置
Tschuggnall et al. Detecting plagiarism in text documents through grammar-analysis of authors
KR101944274B1 (ko) 텍스트 기반의 상황 분류 장치 및 방법
KR101364321B1 (ko) 자연 언어 처리 장치, 방법 및 프로그램
Chen et al. SinoCoreferencer: An End-to-End Chinese Event Coreference Resolver.
Tschuggnall et al. Enhancing authorship attribution by utilizing syntax tree profiles
Sapkota et al. The use of orthogonal similarity relations in the prediction of authorship
Akhtar et al. Iitp: Hybrid approach for text normalization in twitter
Tschuggnall et al. Using grammar-profiles to intrinsically expose plagiarism in text documents
Tschuggnall et al. Countering Plagiarism by Exposing Irregularities in Authors' Grammar
KR102166102B1 (ko) 개인 정보 보호를 위한 장치 및 기록 매체
US9449277B2 (en) Implication determining device, implication determining method and implication determining program determining if hypothesis is a new fact
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
CN109933775B (zh) Ugc内容处理方法及装置
Bobicev et al. Can anonymous posters on medical forums be reidentified?
RU2014147904A (ru) Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер
Yue et al. Blind recognition of text input on mobile devices via natural language processing
Nawab et al. External Plagiarism Detection using Information Retrieval and Sequence Alignment-Notebook for PAN at CLEF 2011.
Spiegler et al. Learning the morphology of Zulu with different degrees of supervision

Legal Events

Date Code Title Description
FA94 Acknowledgement of application withdrawn (non-payment of fees)

Effective date: 20161213