RU2014147904A - Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер - Google Patents
Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер Download PDFInfo
- Publication number
- RU2014147904A RU2014147904A RU2014147904A RU2014147904A RU2014147904A RU 2014147904 A RU2014147904 A RU 2014147904A RU 2014147904 A RU2014147904 A RU 2014147904A RU 2014147904 A RU2014147904 A RU 2014147904A RU 2014147904 A RU2014147904 A RU 2014147904A
- Authority
- RU
- Russia
- Prior art keywords
- lexical
- insignificant
- text message
- units
- text
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
Abstract
1. Способ обработки предназначенного пользователю входящего текстового сообщения, включающий:определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы посредством синтаксического анализа текстового сообщения, содержащего значащие и незначащие лексические единицы;осуществление первой проверки по меньшей мере одного кандидата в незначащие лексические единицы посредством сопоставления с незначащими лексическими единицами из первой базы данных лексических единиц, сформированной на основе синтаксического анализа предыдущих текстовых сообщений, предназначенных пользователю; осуществление второй проверки указанного по меньшей мере одного кандидата в незначащие лексические единицы посредством сопоставления с незначащими лексическими единицами из второй базы данных незначащих лексических единиц, сформированной в результате синтаксического анализа предыдущих текстовых сообщений, предназначенных группе пользователей из множества пользователей;определение кандидата в незначащие лексические единицы в качестве незначащей лексической единицы при положительном ответе первой и/или второй проверки.2. Способ по п. 1, в котором формируют реферат текстового сообщения таким образом, что незначащие лексические единицы отсутствуют в реферате текстового сообщения.3. Способ по п. 2, в котором снабжают реферат текстового сообщения по меньшей мере одной фразой, имеющей смысловое значение.4. Способ по любому из пп. 2 или 3, в котором используют для реферата текстового сообщения наиболее значимую часть текстового сообщения.5. Способ по п. 4, в котором определяют наиболее значиму
Claims (42)
1. Способ обработки предназначенного пользователю входящего текстового сообщения, включающий:
определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы посредством синтаксического анализа текстового сообщения, содержащего значащие и незначащие лексические единицы;
осуществление первой проверки по меньшей мере одного кандидата в незначащие лексические единицы посредством сопоставления с незначащими лексическими единицами из первой базы данных лексических единиц, сформированной на основе синтаксического анализа предыдущих текстовых сообщений, предназначенных пользователю; осуществление второй проверки указанного по меньшей мере одного кандидата в незначащие лексические единицы посредством сопоставления с незначащими лексическими единицами из второй базы данных незначащих лексических единиц, сформированной в результате синтаксического анализа предыдущих текстовых сообщений, предназначенных группе пользователей из множества пользователей;
определение кандидата в незначащие лексические единицы в качестве незначащей лексической единицы при положительном ответе первой и/или второй проверки.
2. Способ по п. 1, в котором формируют реферат текстового сообщения таким образом, что незначащие лексические единицы отсутствуют в реферате текстового сообщения.
3. Способ по п. 2, в котором снабжают реферат текстового сообщения по меньшей мере одной фразой, имеющей смысловое значение.
4. Способ по любому из пп. 2 или 3, в котором используют для реферата текстового сообщения наиболее значимую часть текстового сообщения.
5. Способ по п. 4, в котором определяют наиболее значимую часть данного сообщения электронной почты как наиболее значимый логический блок HTML кода из множества логических блоков HTML кода, содержащих текст, причем в качестве текстового сообщения используют сообщение электронной почты.
6. Способ по п. 5, в котором в качестве наиболее значимого логического блока HTML кода используют блок HTML кода, содержащий текст, размер которого превышает размер текста любого другого логического блока HTML кода данного сообщения электронной почты.
7. Способ по п. 5, в котором в качестве наиболее значимого логического блока HTML кода используют блок HTML кода, содержащий текст с наибольшим количеством значащих лексических единиц по сравнению с текстами любого другого логического блока HTML кода данного сообщения электронной почты.
8. Способ по любому из пп. 2 или 3, в котором в качестве реферата текстового сообщения используют предопределенное количество абзацев в начале текстового сообщения.
9. Способ по п. 1, в котором в качестве группы пользователей используют все множество пользователей.
10. Способ по п. 1, в котором получают входящее текстовое сообщение.
11. Способ по п. 1, в котором в качестве лексической единицы используют любое из: слово, словосочетание, предложение, абзац.
12. Способ по п. 1, в котором определяют по меньшей мере одну лексическую единицу в качестве кандидата в незначащие лексические единицы посредством определения по меньшей мере одной лексической единицы, имеющей смысловое значение.
13. Способ по п. 1, в котором определяют по меньшей мере одну лексическую единицу в качестве кандидата в незначащие лексические единицы на основе синтаксического анализа одного из: всего текста, содержащегося в текстовом сообщении, и фрагмента текста, содержащегося в текстовом сообщении, причем фрагмент текста, содержащийся в тексте сообщения, включает в себя предопределенное количество абзацев.
14. Способ по п. 1, в котором при осуществлении синтаксического анализа текстового сообщения осуществляют анализ языка разметки текстового сообщения.
15. Способ по п. 14, в котором при анализе языка разметки текстового сообщения осуществляют анализ по меньшей мере одного, выбранного из: вида шрифта, размера шрифта, начертания шрифта, знаков препинания, специальных знаков.
16. Способ по п. 1, в котором определяют контрольную сумму лексической единицы.
17. Способ по п. 16, в котором в качестве контрольной суммы лексической единицы используют одно из: контрольный элемент и комбинация контрольных элементов, причем контрольным элементом является любой элемент, выбранный из: количества символов в лексической единице, количества букв в лексической единице, количества заглавных букв в лексической единице, количества прописных букв в лексической единице, количества пробелов в лексической единице, количества цифр в лексической единице, количества специальных знаков в лексической единице, количества слов в лексической единице, размера лексической единицы, выраженного в единицах обработки и хранения информации.
18. Способ по п. 1, в котором сопоставляют кандидата в незначащие лексические единицы с незначащими лексическими единицами любой из: первой базы данных лексических единиц и второй базы данных лексических единиц, по меньшей мере по одному предопределенному параметру кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы данных лексических единиц и второй базы данных лексических единиц.
19. Способ по п. 18, в котором в качестве предопределенного параметра используют одно из: контрольную сумму и комбинацию отдельных контрольных элементов, входящих в состав контрольной суммы лексической единицы.
20. Способ по п. 18, в котором определяют результат первой и/или второй проверки как положительный, при выявлении полного или частичного совпадения по указанному по меньшей мере одному параметру, причем степень совпадения превышает предустановленный порог совпадения.
21. Способ по п. 1, в котором перед осуществлением синтаксического анализа текстового сообщения создают по меньшей мере одну из: первую базу данных и вторую базу данных.
22. Компьютер для обработки предназначенного пользователю входящего текстового сообщения, включающий процессор, выполненный с возможностью:
определения по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы посредством осуществления синтаксического анализа текстового сообщения;
осуществления первой проверки по меньшей мере одного кандидата в незначащие лексические единицы путем сопоставления с незначащими лексическими единицами из первой базы данных лексических единиц, сформированной на основе синтаксического анализа предыдущих текстовых сообщений, предназначенных пользователю;
осуществления второй проверки указанного по меньшей мере одного кандидата в незначащие лексические единицы путем сопоставления с незначащими лексическими единицами из второй базы данных незначащих лексических единиц, сформированной на основе синтаксического анализа предыдущих текстовых сообщений, предназначенных группе пользователей из множества пользователей;
определения кандидата в незначащие лексические единицы в качестве незначащей лексической единицы при положительном результате любой из: первой и второй проверки.
23. Компьютер по п. 22, в котором процессор выполнен с возможностью формирования реферата текстового сообщения с отсутствием в нем незначащих лексических единиц.
24. Компьютер по п. 22, в котором реферат текстового сообщения содержит по меньшей мере одну фразу, имеющую смысловое значение.
25. Компьютер по любому из пп. 23 или 24, в котором реферат текстового сообщения является рефератом наиболее значимой части текстового сообщения.
26. Компьютер по п. 25, в котором текстовое сообщение является сообщением электронной почты, и в котором наиболее значимая часть данного сообщения электронной почты представляет собой наиболее значимый логический блок HTML кода из множества логических блоков HTML кода, содержащих текст.
27. Компьютер по п. 26, в котором наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, размер которого превышает размер текста любого другого логического блока HTML кода данного сообщения электронной почты.
28. Компьютер по п. 27, в котором наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, причем текст наиболее значимого логического блока HTML кода содержит наибольшее количество значащих лексических единиц по сравнению с текстами любого другого логического блока HTML кода данного сообщения электронной почты.
29. Компьютер по любому из пп. 23 или 24, в котором реферат текстового сообщения является рефератом предопределенного количества абзацев в начале текстового сообщения.
30. Компьютер по п. 22, в котором группа пользователей представляет собой все множество пользователей.
31. Компьютер по п. 22, в котором процессор выполнен с возможностью получения входящего текстового сообщения.
32. Компьютер по п. 22, в котором процессор выполнен с возможностью использования в качестве лексической единицы является любое из: слово и словосочетание.
33. Компьютер по п. 22, в котором процессор выполнен с возможностью определения по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы из по меньшей мере одной лексической единицы, имеющей смысловое значение.
34. Компьютер по п. 22, в котором процессор выполнен с возможностью определения по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы на основе синтаксического анализа одного из:
всего текста, содержащегося в текстовом сообщении, и
фрагмента текста, содержащегося в текстовом сообщении.
35. Компьютер по п. 22, в котором процессор выполнен с возможностью синтаксического анализа текстового сообщения, включающего анализ языка разметки текстового сообщения.
36. Компьютер по п. 35, в котором процессор выполнен с возможностью при анализе языка разметки текстового сообщения анализа по меньшей мере одного, выбранного из: вида, размера, начертания шрифта, знаков препинания и специальных знаков.
37. Компьютер по п. 22, в котором процессор выполнен с возможностью определения контрольной суммы лексической единицы.
38. Компьютер по п. 37, в котором контрольная сумма лексической единицы является одним из: контрольным элементом и комбинацией контрольных элементов, при этом контрольным элементом является любой элемент, выбранный из: количество символов, количество букв, количество заглавных букв, количество прописных букв, количество пробелов, количество цифр, количество специальных знаков, количество слов в лексической единице, размер лексической единицы, выраженный в единицах обработки и хранения информации.
39. Компьютер по п. 22, в котором процессор выполнен с возможностью сопоставления кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы данных лексических единиц и второй базы данных лексических единиц, посредством сопоставления по меньшей мере по одному предопределенному параметру кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы и второй базы данных лексических единиц.
40. Компьютер по п. 39, в котором предопределенный параметр, по которому осуществляется сопоставление, является одним из: контрольной суммой и комбинацией отдельных контрольных элементов, входящих в состав контрольной суммы лексической единицы.
41. Компьютер по п. 39, в котором процессор выполнен с возможностью определения результата любой из первой и второй проверки как положительного при выявлении при сопоставлении по меньшей мере по одному предопределенному параметру одного из: частичное совпадение по указанному по меньшей мере одному предопределенному параметру, причем степень совпадения превышает предустановленный порог совпадения, и полное совпадение по указанному по меньшей мере одному предопределенному параметру.
42. Компьютер по п. 22, в котором процессор выполнен с возможностью перед осуществлением синтаксического анализа текстового сообщения формирования по меньшей мере одной из: первой базы данных и второй базы данных.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2014147904A RU2014147904A (ru) | 2014-11-28 | 2014-11-28 | Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер |
PCT/IB2015/054486 WO2016083908A1 (en) | 2014-11-28 | 2015-06-12 | System and method for computer processing of an e-mail message and visual representation of a message abstract |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2014147904A RU2014147904A (ru) | 2014-11-28 | 2014-11-28 | Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2014147904A true RU2014147904A (ru) | 2016-06-20 |
Family
ID=56073690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2014147904A RU2014147904A (ru) | 2014-11-28 | 2014-11-28 | Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер |
Country Status (2)
Country | Link |
---|---|
RU (1) | RU2014147904A (ru) |
WO (1) | WO2016083908A1 (ru) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7051024B2 (en) * | 1999-04-08 | 2006-05-23 | Microsoft Corporation | Document summarizer for word processors |
AU1338201A (en) * | 1999-10-20 | 2001-04-30 | Ali Hussam | System and method for location, understanding and assimilation of digital documents through abstract indicia |
US7222299B1 (en) * | 2003-12-19 | 2007-05-22 | Google, Inc. | Detecting quoted text |
US7624151B2 (en) * | 2005-03-11 | 2009-11-24 | International Business Machines Corporation | Smart size reduction of a local electronic mailbox by removing unimportant messages based on an automatically generated user interest profile |
US7707027B2 (en) * | 2006-04-13 | 2010-04-27 | Nuance Communications, Inc. | Identification and rejection of meaningless input during natural language classification |
US20080282153A1 (en) * | 2007-05-09 | 2008-11-13 | Sony Ericsson Mobile Communications Ab | Text-content features |
US7836061B1 (en) * | 2007-12-29 | 2010-11-16 | Kaspersky Lab, Zao | Method and system for classifying electronic text messages and spam messages |
WO2009097547A1 (en) * | 2008-01-31 | 2009-08-06 | Educational Testing Service | Reading level assessment method, system, and computer program product for high-stakes testing applications |
US8688690B2 (en) * | 2010-04-15 | 2014-04-01 | Palo Alto Research Center Incorporated | Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction |
KR101655876B1 (ko) * | 2012-01-05 | 2016-09-09 | 삼성전자 주식회사 | 메시지 기반의 대화 기능 운용 방법 및 이를 지원하는 단말기 |
US9317500B2 (en) * | 2012-05-30 | 2016-04-19 | Audible, Inc. | Synchronizing translated digital content |
-
2014
- 2014-11-28 RU RU2014147904A patent/RU2014147904A/ru not_active Application Discontinuation
-
2015
- 2015-06-12 WO PCT/IB2015/054486 patent/WO2016083908A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2016083908A1 (en) | 2016-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10496928B2 (en) | Non-factoid question-answering system and method | |
WO2019227710A1 (zh) | 网络舆情的分析方法、装置及计算机可读存储介质 | |
Swanson et al. | Native language detection with tree substitution grammars | |
US9280536B2 (en) | Synonym determination among n-grams | |
RU2009127102A (ru) | Способ, устройство и компьютерный программный продукт для гибкой идентификации языка на базе текста | |
Layton et al. | Recentred local profiles for authorship attribution | |
CN103970765A (zh) | 一种改错模型训练方法、装置和文本改错方法、装置 | |
Tschuggnall et al. | Detecting plagiarism in text documents through grammar-analysis of authors | |
KR101944274B1 (ko) | 텍스트 기반의 상황 분류 장치 및 방법 | |
KR101364321B1 (ko) | 자연 언어 처리 장치, 방법 및 프로그램 | |
Chen et al. | SinoCoreferencer: An End-to-End Chinese Event Coreference Resolver. | |
Tschuggnall et al. | Enhancing authorship attribution by utilizing syntax tree profiles | |
Sapkota et al. | The use of orthogonal similarity relations in the prediction of authorship | |
Akhtar et al. | Iitp: Hybrid approach for text normalization in twitter | |
Tschuggnall et al. | Using grammar-profiles to intrinsically expose plagiarism in text documents | |
Tschuggnall et al. | Countering Plagiarism by Exposing Irregularities in Authors' Grammar | |
KR102166102B1 (ko) | 개인 정보 보호를 위한 장치 및 기록 매체 | |
US9449277B2 (en) | Implication determining device, implication determining method and implication determining program determining if hypothesis is a new fact | |
JP5911931B2 (ja) | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 | |
CN109933775B (zh) | Ugc内容处理方法及装置 | |
Bobicev et al. | Can anonymous posters on medical forums be reidentified? | |
RU2014147904A (ru) | Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер | |
Yue et al. | Blind recognition of text input on mobile devices via natural language processing | |
Nawab et al. | External Plagiarism Detection using Information Retrieval and Sequence Alignment-Notebook for PAN at CLEF 2011. | |
Spiegler et al. | Learning the morphology of Zulu with different degrees of supervision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA94 | Acknowledgement of application withdrawn (non-payment of fees) |
Effective date: 20161213 |