RU2635213C1 - Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации - Google Patents

Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации Download PDF

Info

Publication number
RU2635213C1
RU2635213C1 RU2016138082A RU2016138082A RU2635213C1 RU 2635213 C1 RU2635213 C1 RU 2635213C1 RU 2016138082 A RU2016138082 A RU 2016138082A RU 2016138082 A RU2016138082 A RU 2016138082A RU 2635213 C1 RU2635213 C1 RU 2635213C1
Authority
RU
Russia
Prior art keywords
text
events
predicate
arguments
event
Prior art date
Application number
RU2016138082A
Other languages
English (en)
Inventor
Мстислав Владимирович МАСЛЕННИКОВ
Original Assignee
Самсунг Электроникс Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Самсунг Электроникс Ко., Лтд. filed Critical Самсунг Электроникс Ко., Лтд.
Priority to RU2016138082A priority Critical patent/RU2635213C1/ru
Application granted granted Critical
Publication of RU2635213C1 publication Critical patent/RU2635213C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Изобретение относится к области электронной обработки информации, а в частности - к средствам суммаризации текста на основе анализа предикатно-аргументных структур каждого предложения в тексте. Технический результат заключается в повышении эффективности суммаризации исходного текста на основе анализа предикатно-аргументных структур каждого предложения в тексте. Указанный результат достигается за счет объединения предикатно-аргументных структур, характеризующих события в тексте. Способ суммаризации текста состоит из этапов выбора текста, предварительной обработки, извлечения событий и составления реферата. 4 н. и 12 з.п. ф-лы, 13 ил.

Description

Область техники, к которой относится изобретение
Настоящее изобретение относится в целом к области электронной обработки информации, а в частности - к средствам суммаризации текста на основе анализа предикатно-аргументных структур каждого предложения в тексте.
Настоящее изобретение может быть использовано в тех случаях, когда пользователю требуется быстро и точно определить и извлечь основные идеи или события из электронных писем, новостей и других источников мультимедиа.
Уровень техники
Процесс автоматического преобразования первоначального текста электронного документа в более короткий текст (реферат), содержащий основные идеи первоначального текста, носит название суммаризации текста. Суммаризацию текста можно разделить на следующие два типа: квазиреферирование (extractive), если реферат документа составлен из предложений исходного документа; и краткое изложение (abstractive), если предложения первоначального документа перефразируются для составления реферата. Из-за требования перефразирования текста задача краткого изложения считается более трудной, чем квазиреферирование.
Существуют два типа входных данных в систему суммаризации текста: несколько документов и единственный документ. В случае нескольких входных документов их темы могут совпадать друг с другом, как в случае новостных документов одной тематики, или же их темы могут различаться между собой (в таком случае система суммаризации должна выделить наиболее важную информацию про тему каждого входного документа). В случае единственного входного документа важная информация может встретиться в документе только один раз. Проблема здесь состоит в том, что зачастую нет дополнительной статистики о том, какая информация является более важной в документе. Поэтому суммаризация единственного документа считается более сложной задачей.
Известные системы суммаризации текста можно разделить на группы, использующие (а) тематическое моделирование событий, (б) суммаризацию событий из нескольких документов, (в) квазиреферирование единственного документа и (г) краткое изложение единственного документа.
Что касается систем группы (а), то один их пример раскрыт в документе WO 2014171925 A1, в котором речь идет об использовании латентного размещения Дирихле (Latent Dirichlet Allocation, LDA) в качестве метода тематического моделирования событий в контенте социальных сетей. Сначала с помощью LDA извлекают кластеры событий, причем каждое событие описывает действие/ситуацию, произошедшую в жизни, а каждый кластер событий объединяет обобщенные события, близкие по смыслу. После этого находят кластеры событий, которые привлекли внимание людей (например, землетрясения или политические протесты). События в этих кластерах затем суммаризируются в качестве ответа на пользовательский запрос. Однако описанная система решает задачу построения суммаризации событий по запросу пользователя, либо для подбора материалов под определенного пользователя. Кроме того, в данном случае требуется обработка большого объема текстов, таких как твиты или блог-посты. Извлеченные события не могут быть перефразированы, что важно в случае суммаризации единственного текста.
Примеры систем группы (б) описаны, например, в указанных ниже документах, целью которых является суммаризация событий из потока текстовых документов.
В документе US 9020865 B2 раскрыта система, извлекающая события и мини-события из текста. С помощью мини-событий создают полное событие, позволяющее создать цепочку событий для суммаризации потока текстов. Однако в данном случае требуется хранить информацию о времени наступления события. Кроме того, требуется обработка потока текстов для суммаризации.
В документе US 20140172427 A1 описана система, извлекающая первое мини-событие из хронологически упорядоченных частей текста. Сначала разбивают сообщение на потоки, соответствующие участникам сообщения. Для каждого потока система находит мини-события, в которых участвует соответствующий участник, т.е. тот, кто участвует или упомянут в событии или связан с ним. После этого наиболее важные мини-события объединяют в глобальные рефераты из мини-событий. Однако этот подход требует наличия многочисленных мини-событий для суммаризации.
Примерами систем группы (в) являются те, что раскрыты в документах CN 201310072118 и US 20140195897 A1.
В документе CN 201310072118 описана система суммаризации единственного документа, извлекающая семантические блоки из текста. Эта система отбирает предложения с похожими терминами в соответствии с тезаурусом Hownet и группирует найденные предложения в семантический блок. Далее она использует веса терминов и сущностей в блоке для представления в виде вектора. После этого система ранжирует блоки в соответствии с косинусовой мерой близости с другими блоками. Для создания рефератов предложения ранжируют в соответствии с оценкой блока и оценкой предложения внутри блока. Однако такой подход не учитывает отношения между сущностями в блоке. Кроме того, такой подход не позволяет извлечь части предложений.
В документе US 2014/0195897 A1 описана система суммаризации текста, которая извлекает текстовые свойства, помогающие обнаружить важные части текста. Текстовые свойства состоят из предложений, параграфов и других структур, включающих в себя несколько предложений. Используя текстовые свойства, эта система создает граф со структурой микромира, отражающего содержание документа. Затем вершины графа ранжируют в соответствии с их важностью. Текстовые свойства, соответствующие наиболее важным вершинам, извлекают в качестве реферата документа. Основным недостатком такого подхода является невозможность удаления нерелевантных частей длинных предложений.
Примеры систем группы (г) раскрыты в следующих статьях: D. Pighin, M. Cornolti, E. Alfonseca and K. Filippova, Modelling Events through Memory-based, Open-IE Patterns for Abstractive Summarization, In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014 (далее - статья 1); и Y. Kikuchi, T. Hirao, H. Takamura, M. Okumura and M. Nagata, Single document summarization based on nested tree structure, In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014 (далее - статья 2).
В статье 1 описана система, извлекающая событие и генерирующая короткий реферат из единственного текста. Чтобы извлечь событие, система создает шаблоны событий с помощью эвристического подхода, подхода, базирующегося на компрессии, и подхода, базирующегося на использовании памяти. Для эффективного сохранения событий используется структура суффиксного дерева tree-trie. Однако получаемый реферат состоит только из единственного предложения. Кроме того, такой метод требует хранения 1 Гб шаблонов в оперативной памяти.
В статье 2 обсуждается комбинирование зависимостных отношений между словами с риторическими отношениями между предложениями в структуре вложенного дерева. Такой подход требует использования зависимостного и дискурсивного парсеров. Однако этот подход позволяет извлечь только части текста без их перефразирования. Кроме того, такой подход не позволяет объединять различные упоминания сущности или событий.
Раскрытие изобретения
Задача настоящего изобретения заключается в устранении или смягчении вышеупомянутых недостатков, присущих решениям, известным из уровня техники.
В частности, авторы настоящего изобретения разработали подход, работающий для всех вышеуказанных типов суммаризации текста. В то же время основное внимание в данном документе уделено краткому изложению единственного документа. В этом случае информация (новостные тексты, статьи, рекламные буклеты, электронные письма) обычно не повторяется (в отличие от случаев нескольких входных документов). Кроме того, в исходном тексте могут быть неправильно составленные предложения, содержащие важную информацию. Это усложняет задачу суммаризации текста и требует интенсивного использования лингвистического подхода для ее решения.
Основная идея настоящего изобретения состоит в моделировании текста в виде множества событий или, по-другому, действий. Примером события является следующая фраза: «Мама мыла раму», - в которой «мыла» - предикат действия, обозначаемый как Action, «мама» - 1-й аргумент (субъект действия), обозначаемый как Arg0, «раму» - 2-й аргумент (объект действия), обозначаемый как Arg1. Аргументы связаны с предикатом действия в виде следующей предикатно-аргументной структуры: <Arg0: мама; Action: мыла; Arg1: раму>, что позволяет ассоциировать предикат действия «мыла» с его аргументами «мама» и «раму». После извлечения событий из текста и их анализа выбираются наиболее релевантные события (т.е. события, отражающие наилучшим образом содержание входного/исходного текста) для формирования реферата. Такой подход требует только компонентов предварительной обработки и извлечения событий. Так как предложенный подход суммаризации не зависит от языка, то он является мультиязычным (с учетом доработки для особенностей каждого языка).
В отличие от известных систем в настоящем изобретении происходит объединение предикатно-аргументных структур, характеризующих события в тексте. Этот этап авторы настоящего изобретения называют обогащением событий. В указанных выше документах уровня техники не упоминается такое обогащение событий для получения реферата из одного текста, состоящего из нескольких предложений.
С учетом вышесказанного технический результат, достигаемый при использовании настоящего изобретения, заключается в повышении эффективности суммаризации текста на основе анализа предикатно-аргументных структур каждого предложения в тексте.
Согласно первому аспекту настоящего изобретения предложен способ суммаризации текста, который выполняют с использованием одного или более процессоров. Сначала выбирают текст, подлежащий суммаризации. Далее осуществляют предварительную обработку упомянутого текста, направленную на получение первоначальной предикатно-аргументной структуры каждого предложения в упомянутом тексте, которая состоит из аргументов и предиката действия, выражающего отношение между аргументами. При этом аргументы охарактеризованы именными группами, каждая из которых содержит главное слово и необязательно содержит одно или более дополнительных слов, синтаксически связанных с главным словом, а предикат действия охарактеризован глаголом или глагольной группой. Затем находят и объединяют предикатно-аргументные структуры с совпадающими предикатами действия и аргументами, охарактеризованными именными группами, у которых главные слова совпадают или связаны соотношением кореферентности. После этого составляют первоначальный список событий, используя объединенные предикатно-аргументные структуры, причем каждое событие соответствует одной из объединенных предикатно-аргументных структур. Первоначальный список событий впоследствии ранжируют для формирования ранжированного списка событий. Основное событие идентифицируют на основании ранжированного списка событий и первоначального списка событий. В заключение, составляют реферат на основе первоначального и ранжированного списков событий, причем основное событие указывается в начале реферата.
В одном варианте осуществления этап осуществления предварительной обработки упомянутого текста выполняют путем:
- разбиения упомянутого текста на заданные участки текста;
- нормализации заданных участков текста;
- выделения одного или более предложений в упомянутом тексте на основании нормализованных участков текста;
- осуществления синтаксического анализа каждого из выделенных предложений в упомянутом тексте; и
- осуществления семантической разметки в отношении каждого предложения, причем результатом упомянутой семантической разметки является упомянутая предикатно-аргументная структура для каждого предложения в упомянутом тексте.
Каждый заданный участок текста каждого предложения может представлять собой слово или последовательность слов. Упомянутая нормализация заданных участков текста может быть основана на по меньшей мере одном из подходов стеммирования и лемматизации. Упомянутый синтаксический анализ каждого из выделенных предложений в упомянутом тексте может быть осуществлен на основе грамматики зависимостей.
В одном варианте осуществления этап выбора текста осуществляют с помощью тактильного ввода или голосовой команды. При этом тактильный ввод можно осуществлять посредством графического пользовательского интерфейса, реализуемого посредством упомянутого одного или более процессоров и состоящего из по меньшей мере одной кнопки выбора текста.
В одном варианте осуществления этап ранжирования первоначального списка событий осуществляют с помощью графового алгоритма.
В одном варианте осуществления каждое событие из первоначального списка событий и ранжированного списка событий представляют в виде: <Argf, Action, {Argi}>, где Argi, i=0, 1, 2, 3,... - ргументы, Action - предикат действия, выражающий отношение между аргументами, f=argmin (0, 1, 2, 3,...) - минимальный индекс среди всех аргументов Argi.
В одном варианте осуществления используется текст только одного документа. При этом текст может представлять собой новость или электронное письмо. Кроме того, текст может состоять из слов разных языков.
Согласно второму аспекту настоящего изобретения предложено устройство суммаризации текста, содержащее по меньшей мере один процессор и память, соединенную с упомянутым по меньшей мере одним процессором. Память содержит машиноисполняемые инструкции, которые при исполнении упомянутым по меньшей мере одним процессором обеспечивают выполнение упомянутым по меньшей мере одним процессором этапов способа согласно первому аспекту настоящего изобретения.
Устройство согласно второму аспекту настоящего изобретения может быть выполнено в виде карманного персонального компьютера (КПК), смартфона или умных часов.
Согласно третьему аспекту настоящего изобретения предложено другое устройство суммаризации текста, содержащее модуль предварительной обработки, модуль извлечения событий и модуль составления реферата.
Модуль предварительной обработки выполнен с возможностью выбора текста, подлежащего суммаризации, и осуществления предварительной обработки упомянутого текста, направленной на получение первоначальной предикатно-аргументной структуры каждого предложения в упомянутом тексте. Первоначальная предикатно-аргументная структура каждого предложения состоит из аргументов и предиката действия, выражающего отношение между аргументами. Аргументы охарактеризованы именными группами, каждая из которых содержит главное слово и необязательно содержит одно или более дополнительных слов, синтаксически связанных с главным словом, а предикат действия охарактеризован глаголом или глагольной группой.
Модуль извлечения событий выполнен с возможностью:
- нахождения и объединения предикатно-аргументных структур с совпадающими предикатами действия и аргументами, охарактеризованными именными группами, у которых главные слова совпадают или связаны соотношением кореферентности;
- составления первоначального списка событий, используя объединенные предикатно-аргументные структуры, причем каждое событие соответствует одной из объединенных предикатно-аргументных структур;
- ранжирования первоначального списка событий для формирования ранжированного списка событий; и
- идентификации основного события на основании ранжированного списка событий и первоначального списка событий.
Модуль составления реферата выполнен с возможностью составления реферата для упомянутого текста на основе первоначального и ранжированного списков событий, причем основное событие указывается в начале реферата.
Согласно четвертому аспекту настоящего изобретения предложен машиночитаемый носитель информации, на котором хранятся машиноисполняемые инструкции, которые при их исполнении по меньшей мере одним процессором обеспечивают выполнение упомянутым по меньшей мере одним процессором этапов способа согласно первому аспекту настоящего изобретения.
Другие признаки и преимущества настоящего изобретения будут очевидны после прочтения нижеследующего подробного описания и просмотра сопроводительных чертежей.
Краткое описание чертежей
Сущность настоящего изобретения поясняется ниже со ссылкой на сопроводительные чертежи, на которых:
Фиг. 1 иллюстрирует блок-схему способа суммаризации текста в соответствии с примерным вариантом осуществления настоящего изобретения;
Фиг. 2 иллюстрирует примеры подэтапов предварительной обработки текста, а также выполняющие их модули;
Фиг. 3 показывает блок-схему алгоритма обогащения событий;
Фиг. 4 представляет собой таблицу с компонентами обработки текста, используемыми в способе с Фиг. 3;
Фиг. 5 представляет собой таблицу с информацией, собираемой о событиях в тексте;
Фиг. 6 показывает условия равенства для обогащения событий;
Фиг. 7 иллюстрирует идентификацию главного события;
Фиг. 8 иллюстрирует методику построения графа;
Фиг. 9 иллюстрирует блок-схему устройства суммаризации текста в соответствии с примерным вариантом осуществления настоящего изобретения;
Фиг. 10 иллюстрирует вариант осуществления устройства суммаризации текста, используемого для отбора контента;
Фиг. 11 иллюстрирует вариант осуществления устройства суммаризации текста, используемого для ответа на электронное письмо;
Фиг. 12 иллюстрирует вариант осуществления устройства суммаризации звукового контента;
Фиг. 13 иллюстрирует вариант осуществления устройства суммаризации текста, применяемого в отношении смс-сообщений.
Осуществление изобретения
Различные варианты осуществления настоящего изобретения описаны далее подробнее со ссылкой на сопроводительные чертежи. Однако настоящее изобретение может быть реализовано во многих других формах и не должно пониматься как ограниченное какой-либо конкретной структурой или функцией, представленной в нижеследующем описании. В отличие от этого, эти варианты осуществления предоставлены для того, чтобы сделать описание настоящего изобретения подробным и полным. Исходя из настоящего описания, специалистам в данной области техники будет очевидно, что объем настоящего изобретения охватывает любой вариант осуществления настоящего изобретения, который раскрыт в данном документе, вне зависимости от того, реализован ли этот вариант осуществления независимо или совместно с любым другим вариантом осуществления настоящего изобретения. Например, способ и устройство, раскрытые в данном документе, могут быть реализованы на практике посредством использования любого числа вариантов осуществления, описанных в данном документе. Кроме того, должно быть понятно, что любой вариант осуществления настоящего изобретения может быть реализован с использованием одного или более элементов, представленных в приложенной формуле изобретения.
Слово «примерный» используется в данном документе в значении «используемый в качестве примера или иллюстрации». Любой вариант осуществления, описанный здесь как «примерный», необязательно должен восприниматься как предпочтительный или имеющий преимущество над другими вариантами осуществления.
На Фиг. 1 показана блок-схема способа 100 суммаризации текста в соответствии с примерным вариантом осуществления настоящего изобретения. Как показано, способ 100 состоит из этапов выбора текста (S102), предварительной обработки (S104), извлечения событий (S106) и составления реферата (S108). Каждый из этапов S102-S108 будет описан далее более подробно.
Как будет очевидно специалистам в данной области техники, начальный этап S102, т.е. этап выбора текста, может быть выполнен с помощью тактильного ввода или голосовой команды. Например, тактильный ввод может быть реализован посредством графического пользовательского интерфейса, отображаемого на сенсорном экране мобильного устройства, такого как мобильный телефон, планшетный или переносной компьютер. При этом графический пользовательский интерфейс может содержать по меньшей мере одну кнопку выбора текста, в отношении которого необходимо выполнить способ 100 суммаризации. Что касается голосовой команды, то она может быть введена упомянутое мобильное устройство через встроенный или внешний микрофон для выполнения способа 100 суммаризации необходимого текста.
Этап S104, т.е. этап предварительной обработки выбранного текста, направлен на получение первоначальной предикатно-аргументной структуры каждого предложения в упомянутом тексте, которая состоит из аргументов и предиката действия, выражающего отношение между аргументами. По сути, одна предикатно-аргументная структура характеризует одно событие, упоминаемое в тексте (в частности, в одном предложении из упомянутого текста). Следует отметить, что термины «предикатно-аргументная структура», «аргумент» и «предикат действия» являются широко известными в данной области техники, вследствие чего их подробное описание будет опущено. Необходимо напомнить, что аргументы характеризуются именными группами, каждая из которых содержит главное слово и необязательно содержит одно или более дополнительных слов, синтаксически связанных с главным словом. Как хорошо известно в лингвистике, главные и дополнительные слова именных групп могут быть любыми частями речи, за исключением глагола. Глагол или глагольная группа характеризует предикат действия, при этом глагольная группа представляет собой комбинацию глагола и по меньшей мере одной именной группы, идущей после него в предложении.
В зависимости от необходимости этап S104 может состоять из различных подэтапов. В одном варианте осуществления он включает в себя: разбиение упомянутого (выбранного для суммаризации) текста на заданные участки текста (токенизация); нормализацию заданных участков текста; выделение одного или более предложений в упомянутом тексте на основании нормализованных участков текста; синтаксический анализ каждого из выделенных предложений в упомянутом тексте; и осуществление семантической разметки в отношении каждого предложения. Как было указано ранее, результатом этапа S104 является упомянутая предикатно-аргументная структура для каждого предложения в упомянутом тексте. Примеры возможных подэтапов предварительной обработки текста, а также выполняющие их модули, изображены на Фиг. 2. И вновь следует отметить, что указанные подэтапы являются общеизвестными в данной области техники, вследствие чего их подробное описание будет опущено. Специалист в данной области техники без труда сможет реализовать каждый из указанных подэтапов для надлежащей предварительной обработки выбранного текста.
На этапе S106 происходит извлечение событий. Для этого сначала находят и объединяют первоначальные предикатно-аргументные структуры с совпадающими предикатами действия и аргументами, охарактеризованными именными группами, у которых главные слова совпадают или связаны соотношением кореферентности. Такое объединение авторы настоящего изобретения называют обогащением событий. Далее составляют первоначальный список событий, используя объединенные предикатно-аргументные структуры. После этого ранжируют первоначальный список событий для формирования ранжированного списка событий. Ранжированный список событий используется вместе с первоначальным списком событий для идентификации основного события в тексте, которое должно быть указано первым в реферате. Каждый из упомянутых подэтапов этапа S106 будет описан далее более подробно.
Следует отметить, что упомянутое обогащение событий, по сути, представляет собой обогащение действий и аргументов, которые характеризуют сами события. Аргумент зависит от действия, т.е. все (кроме действия) может быть упомянуто внутри документа несколько раз. Иногда эти упоминания повторяются, например: [ʺObamaʺ, ʺMr Obamaʺ, ʺBarack Obamaʺ] в политических текстах. В других случаях упоминания могут пересекаться: <ʺdoctor Phamʺ, ʺnurse Nina Phamʺ>. В этом случае ориентируются на главное существительное и обобщают упоминания этого существительного. Разница между обобщением и обогащением состоит в том, что здесь обобщение представляет собой более общую сущность, а обогащение представляет собой добавление новой информации.
Согласно наблюдениям авторов в большинстве случаев кореферентность аргументов возникает при упоминании людей или организаций. Увязка местоимений с существительным при упоминании людей или организаций в виде «он», «она», «оно» и т.д. может быть при условии его одноразового упоминания в начале предложения/новости. Поэтому достаточно извлечь именные группы из аргументов в предикатно-аргументной структуре текста и проанализировать их главные существительные на предмет их типа. Если множество гиперонимов главного существительного содержит тип «person» (одушевленная персона), то необходимо рассматривать такую именную группу, как именованную сущность с типом «person». В то же время, если гипоним содержит понятие ʺmaleʺ (мужской) или ʺfemaleʺ (женский), то присваивается соответствующий пол для именной сущности.
Предложенный алгоритм обогащения событий представлен на Фиг. 3. Начальные строки 2-7 описывают этапы построения и обновления очереди предложений в тексте. Длина очереди Nq задается заранее (в своих экспериментах авторы устанавливали Nq=2). В строке 9 проверяют, связаны ли два аргумента (т.е. главные слова в двух именных группах) соотношением кореферентности. Для этой цели адаптируют задачу анализа кореферентности так, чтобы обеспечивался высокий уровень точности обогащения сущностей (т.е. именованных сущностей - Nina Pham, или неодушевленных сущностей - стол, стул). Для адаптации мотивирующими соображениями являются (а) эвристика ʺone sense per discourseʺ (см. D. Yarowsky, Unsupervised word sense disambiguation rivaling supervised methods, Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, Cambridge, Massachusetts, USA, June, 1995; статья доступна по адресу: http://www.aclweb.org/anthology/P95-1026); и (б) необходимость установления кореферентных связей только для тех сущностей текста, которые являются аргументами событий. Другими словами, можно извлекать кореферентные связи с высокой точностью без потери полноты при обогащении событий.
Сначала анализируют главное (единственное) существительное в именной группе каждого аргумента. Если главного существительного не обнаружено и отсутствует кореферентность, то считают, что такие именные группы не могут быть упоминанием одной сущности. Другими словами, если нет существительного перед действием, значит, нельзя сказать, что «он», «она», «оно» это действие совершает. В противном случае, извлекают род и число главного существительного, как изображено на Фиг. 4. Эти параметры используют для проверки, могут ли главные существительные быть связаны соотношением кореферентности. Например, чтобы связать упоминания человека с характеризующим его местоимением, таким как «он», «она», необходимо учитывать его пол/род. Также требуется учитывать единственное/множественное число синонимов, например в случаях ʺvesselsʺ (мн. ч.) и ʺboatʺ (ед. ч.), ʺSouth and North Koreaʺ (мн. ч.) и ʺNorth Koreaʺ (ед. ч.). Также осуществляют проверку, является ли сущность местоимением. В этом случае предложенный алгоритм старается найти предыдущую (идущую до текущей в тексте) именную группу в очереди предложений (так необходимо для точности, поскольку последующие именные группы могут быть менее релевантными). Если ближайшая предыдущая именная группа также является местоимением, то алгоритм не обобщает сущности.
Далее показан пример обогащения событий. События в тексте могут повторяться, хотя их аргументы в повторениях могут быть перефразированы. Например, одно из предложений может содержать событие ʺ[Nurse Nina Pham], 33, [became] [infected] [while treating the first Ebola patient Eric Duncan]ʺ, тогда как другое предложение, связанное с этим событием ʺDirector of the Disease Center apologized that [a health care worker] [became] [infected] [while helping Ebola patient]ʺ, содержится в конце документа. В этом случае необходимо объединить информацию (аргументы, предикаты действия) из обоих упоминаний повторившегося события. События представляют в виде: <Arg0, Action, {Argi}>, при этом Argi обозначают дополнительные аргументы (т.е. все те аргументы, которые не являются первыми). Примеры извлеченных событий проиллюстрированы на Фиг. 5 справа. Для объединения событий проверяют совпадение предикатов действий и аргументов, характеризующих события, как показано на Фиг. 6, путем приведения глаголов в нормальную форму. После этого проверяют совпадения стеммированной формы (Фиг. 6) последнего слова в каждой глагольной группе. При совпадении упомянутых стеммированных форм глагольные группы считаются совпадающими (в том числе, глагольные группы событий).
Авторы настоящего изобретения также добавляют еще исключение для случая обстоятельственного придаточного предложения (adverbial clause), такого как ʺwhile treating Xʺ или ʺwhile helping Xʺ. События считают равными, если их предикат действия не является производной формой глагола ʺbeʺ (ʺamʺ, ʺwasʺ и т.д.), устанавливающего отношение принадлежности между сущностями события. Глагол «to be» исключается, поскольку при несовпадении событий/явления вещи (например, «this is a table», «dog is an animal») этот глагол мешает правильно понять, какое именно действие совершается. Также авторы рекомендуют добавлять условие, что аргументы времени должны ссылаться на одинаковое время. Из-за этого условия событие типа ʺan airplane arrived yesterdayʺ не является равным событию ʺan airplane arrived in 2001ʺ. Установлено, что разные упоминания события могут возникать из-за разных аргументов. Например, в событиях ʺNina Pham treated the first Ebola patientʺ и ʺPham treated Thomas Eric Duncanʺ не совпадает аргумент Arg1. Pham здесь является главным аргументом Arg0, он совпадает для обоих событий, а the first Ebola patient и Thomas Eric Duncan являются дополнительными аргументами Arg1 и они не совпадают. Похожим образом, в событиях ʺNina Pham treated Duncanʺ и ʺthe nurse treated Duncanʺ не совпадает аргумент Arg0. Поэтому для отождествления событий достаточно, чтобы только один из аргументов этих событий совпал.
После этого необходимо выполнить обогащение события путем объединения первоначальных предикатно-аргументных структур, характеризующих события, для получения одного окончательного события. Например, если совпал предикат действия и по меньшей мере один аргумент (а также при частичном совпадении остальных аргументов) в двух событиях, то такие события считаются одинаковыми, и поэтому они объединяются в одно событие.
Для последующего составления реферата (S108) необходимо выбрать и использовать наиболее перспективные события с учетом уже обогащенных событий. События в выбранном тексте имеют тенденцию повторяться и влиять друг на друга в повествовательной цепочке согласно статье N. Chambers and D. Jurafsky, Unsupervised Learning of Narrative Event Chains, In Proceedings of ACL, 2008. Зависимости между событиями должны быть отражены в реферате. Для моделирования зависимостей между событиями используют графы и используют эту модель для отбора подходящих событий в реферате. После извлечения событий находят основное событие, строя граф событий и используя построенный граф для ранжирования событий. Этот этап проиллюстрирован на Фиг. 7, и он критичен для отбора события, описывающего весь текст целиком. Так как логично начать реферат с этого события, авторы называют его основным. Основное событие зачастую может повторяться в реферате. В настоящем изобретении используется первое извлеченное событие в качестве основного. Однако это не должно рассматриваться как ограничение настоящего изобретения.
На Фиг. 7 левая колонка - ранжирование по порядку встречи, т.е. порядку, в котором события встретились (проявили себя, обнаружились) в тексте (не следует путать с количеством повторений или частотой повторений сверху-вниз). Другими словами, чем выше находится событие, тем оно встречается раньше в тексте. Правая колонка - ранжирование по важности снизу-вверх: чем выше находится событие, тем оно важнее. Отсюда следует вывод, что E1 - основное событие, поскольку оно по степени важности находится вверху, а по порядку встречи в начале текста. Структура колонок приведена только в качестве примера и никак не ограничивает настоящее изобретение.
Далее выполняется ранжирование событий. Подход авторов настоящего изобретения к ранжированию событий состоит в организации событий в граф и дальнейшем применении графового алгоритма. Методика построения графа изображена на Фиг. 8, на которой Arg0n - первые аргументы событий, Arg1n - вторые аргументы событий, Eventn - события, при этом n=1, 2, 3,... Вершины V графа (от английского слова «vertex» - вершина) представляют собой точки в круге на графе и являются событиями или аргументами событий. Ребра E - это ребра (черты), соединяющие вершины V между собой, т.е. они в данном случае соединяют события с их аргументами. Основываясь на допущении, что события могут повлиять друг на друга, добавляют дополнительные ребра для их соединения. В данном случае каждое ребро соединяет вершины в двух направлениях. После построения ребер вычисляют наиболее перспективные (наиболее важные) вершины событий. Для этой цели применяют «модель случайного блуждания» (random surfing model), используя алгоритм PageRank (S. Brin and L. Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine, In WWW, 1998). Пусть V, E обозначают множество вершин и ребер между вершинами соответственно; пусть G=(V, E) обозначает направленный граф. Для каждой вершины Vi определим in(Vi) и out(Vi) как множество входящих и выходящих ребер соответственно. Оценку PageRank для вершины получают, используя следующую формулу:
Figure 00000001
Так же, как и в вышеуказанной статье S. Brin и L. Page, устанавливают коэффициент d в 0.85, где d - damping factor - оценочная величина, позволяющая установить веса более 0, близкая к 1 - исключительная стартовая величина для примерной оценки, например, отдельной страницы текста. Эта формула рассчитывается в несколько итераций (для повышения важности). Кроме того, в вышеприведенной формуле Vk - индекс по всем вершинам (количество всех вершин), in(Vi), out(Vi) - в графе у каждой вершины есть входящие и выходящие ребра, т.е. в формуле используется количество входящих/или выходящих ребер.
Когда события отсортированы согласно их оценке PageRank, их можно снова переупорядочить для соблюдения первоначального порядка их появления. Последующее переупорядочивание необходимо для соблюдения целостности первоначального текста с уже примененной (посредством описанных выше этапов) суммаризацией, т.е. отсекается часть неактуальной в данный момент информации. Согласно наблюдениям авторов настоящего изобретения хороший реферат сохраняет первоначальный порядок событий, даже если события оказываются разъединены по теме. Поэтому сохраняется первоначальный порядок событий входного текста и события сортируются в соответствии с их первоначальным порядком.
На последнем этапе S106 выполняется составление краткого изложения (т.е. реферата). Авторы настоящего изобретения заметили, что рефераты с пассивным залогом или с временными (описывающими время) аргументами в предложении оказываются менее связанными. Например, реферат вида ʺMary brought apples. John ate them yesterdayʺ является ясным, складным, звучным, в то время как реферат вида ʺMary brought apples. Yesterday, they were eaten by Johnʺ читается намного сложнее. Поэтому, чтобы сгенерировать связанный реферат, необходимо модифицировать порядок аргументов в каждом событии. С этой целью при генерации краткого изложения следует придерживаться порядка <Argf; Action; Argi>, в котором f=argmin (0, 1, 2) обозначает минимальный индекс (самый первый из аргументов) среди всех аргументов Argi. Оставшиеся аргументы добавляют в первоначальном порядке. Иногда временной аргумент ArgTmp возникает в начале события, как в случае предложения ʺ[ArgTmp:Yesterday] Pham became infectedʺ. Чтобы улучшить ясность, необходимо переставить ArgTmp в событии. Установлено, что действие и его последующий аргумент могут быть тесно связаны, если аргумент состоит из небольшого количества слов. Например, предложение ʺPham became infected yesterdayʺ является ясным, звучным, однако предложение ʺPham became yesterday infectedʺ читается плохо. Поэтому в этих случаях целесообразно поставить ArgTmp после Action («became infected») и перед первым аргументом, имеющим большую длину.
Настоящее изобретение предпочтительно реализовывать в персональном цифровом помощнике (personal digit assistant, PDA), таком как смартфон. На Фиг. 9 проиллюстрирована упрощенная блок-схема устройства 900 суммаризации текста в соответствии с примерным вариантом осуществления настоящего изобретения. Как показано, устройство 900 содержит три основных модуля: модуль 902 предварительной обработки, модуль 904 извлечения событий и модуль 906 составления реферата. Каждый из модулей 902-906 выполняет соответствующие этапы 102-108 способа 100, показанного на Фиг. 1. В частности, модуль 902 выполнен с возможностью осуществления этапов S102 и S104 и, если потребуется, может быть реализован в виде комбинации модулей, показанных на Фиг. 2. Модуль 904 выполнен с возможностью осуществления этапа S106. Модуль 906 выполнен с возможностью осуществления этапа S108.
Фиг. 10 изображает возможную прикладную программу, с помощью которой пользователь печатает текст про Сингапур и решает, что ему нужно добавить дополнительную информацию из Интернета. Он нажимает кнопку «W» для поиска в Википедии, после чего устройство 900 находит релевантные страницы про Сингапур. Пользователь выбирает интересную часть текста, нажимает кнопку «Cite» (цитировать), и затем устройство 900 добавляет краткое изложение в электронное письмо. В этом сценарии пользователю нужно только 2 клика и единственное движение пальца, чтобы напечатать относительно большой текст. Похожим образом пользователь может добавить контент мультимедиа. Поэтому создание контента с помощью устройства 900 приводит к ускорению набора текста. Этот сценарий также применим к многочисленным приложениям набора текста, например, для ведения блогов или общения в чатах.
Другой возможный похожий сценарий изображен на Фиг. 11, на которой квазиреферирование используется для выделения важных предложений в электронном письме. Когда пользователь решает ответить на письмо, выделенные посредством способа 100 суммаризации, предложения автоматически цитируются в качестве возможных аргументов, на которые пользователю нужно/можно/требуется ответить/прокомментировать, т.е. использовать итог работы способа 100 суммаризации (см. на Фиг. 10 справа поле для ввода комментария/ответа). В этом сценарии пользователю не нужно копировать важные процитированные предложения, поэтому набор текста значительно ускоряется.
Альтернативный сценарий приведен на Фиг. 12, на которой часофон (вариант осуществления устройства 900) генерирует аудиорефераты новостей. Пользователь при этом может управлять автомобилем или готовить еду, из-за чего обе его руки заняты. Для выбора интересных новостей он может использовать голосовые команды, позволяющие запросить короткий реферат новостных категорий или краткое изложение новостей в определенной категории. Если реферат новостей слишком длинный или слишком короткий, он может использовать голосовые команды для изменения длины реферата. Для пользователя появляется возможность выбирать темы новостей, их длину и содержание без использования рук.
Другой сценарий на Фиг. 13 показывает суммаризацию смс-сообщений на устройстве 900, также реализованном в виде часофона. Если пользователь с кем-то разговаривает, находится на деловой встрече или едет в автобусе, ему может быть неудобно использовать смартфон. Однако он по-прежнему может видеть краткое изложение наиболее важных смс-сообщений или электронных писем. Этот сценарий также применим к электронным очкам или устройствам для отображения информации в автомобиле. Для пользователя появляется возможность получить быстрый доступ к важной информации без использования рук.
С точки зрения удобства использования, описанный способ суммаризации имеет следующие преимущества. Во-первых, становится возможным генерировать рефераты на нескольких языках из событий посредством добавления различных синтаксических/семантических парсеров (средств синтаксического разбора и анализа) для каждого языка, что может быть реализовано дополнительным (но необязательным) модулем. Во-вторых, так как извлекаются события, даже одного текста достаточно для краткого изложения или для нахождения важных событий в исходном тексте. В-третьих, можно изменять рефераты в зависимости от интересов пользователя, таким образом экономя время пользователя (например, при выделении тематик, более интересных пользователю, используя тематическое моделирование, выполняемое дополнительным (но необязательным) модулем).
Применение изобретения
Предложенный авторами способ суммаризации может работать на каждом устройстве, имеющем процессор с частотой более 1 ГГц, оперативной памятью не менее 15 Мб и размером жесткого диска более 50 Мб. Алгоритм возможно реализовать в автомобиле, часофоне, планшете или телевизоре.
Составление реферата различных документов осуществляется, например, путем объединения этих нескольких документов, последовательно друг за другом. Далее вышеописанный способ суммаризации просто применяется в отношении объединенного текста.
Различные примерные модули, описанные в сочетании с раскрытыми в данном документе вариантами осуществления, могут быть реализованы или выполнены с помощью процессора общего назначения, процессора специального назначения, специализированной интегральной схемой (ASIC), программируемой пользователем вентильной матрицы (FPGA) или другого программируемого логического устройства, схемы на дискретных компонентах или транзисторной логики, дискретных компонентов аппаратного обеспечения или любой их комбинации, выполненных с возможностью осуществлять описанные в данном документе этапы.
Каждый из упомянутых выше процессоров может быть микропроцессором или, в качестве альтернативы, может быть любым традиционным процессором, контроллером, микроконтроллером или машиной состояний. Каждый процессор может быть также реализован в виде комбинации вычислительных устройств, например комбинации процессора общего назначения и микропроцессора, множества микропроцессоров, одного или более микропроцессоров или в виде любой другой подобной конфигурации.
Следует также отметить, что множество различных модулей устройства и этапов способа, описанные в сочетании с вариантами осуществления, раскрытыми в данном документе, могут быть реализованы в виде электронного аппаратного обеспечения, компьютерного программного обеспечения или их комбинации. Чтобы ясно проиллюстрировать эту взаимозаменяемость аппаратного и программного обеспечения, различные примерные модули и этапы были описаны выше, как правило, на основании их функциональных возможностей. Выбор реализации таких функциональных возможностей в виде аппаратного или программного обеспечения зависит от конкретного применения и ограничений конструкции, накладываемых на всю систему. Специалисты в данной области техники могут реализовать описанные функциональные возможности различными способами для каждого конкретного применения, но такие решения по реализации не должны истолковываться как выходящие за рамки объема охраны настоящего изобретения.
В одном или более примерных вариантах осуществления этапы способа, описанные в данном документе, могут быть реализованы в аппаратном обеспечении, программном обеспечении, аппаратно-программном обеспечении или любой их комбинации. Будучи реализованными в программном обеспечении, упомянутые функции могут храниться на или передаваться в виде одной или более инструкций или кода на машиночитаемом носителе. Машиночитаемые носители включают в себя любой носитель информации, который обеспечивает перенос компьютерной программы из одного места в другое. Носитель информации может быть любым доступным носителем, доступ к которому осуществляется посредством компьютера. В качестве примера, но не ограничения, такие машиночитаемые носители могут представлять собой RAM, ROM, EEPROM, CD-ROM или другой накопитель на оптических дисках, накопитель на магнитных дисках или другие магнитные запоминающие устройства, или любой другой носитель информации, который может использоваться для переноса или хранения требуемого программного кода в виде инструкций или структур данных и доступ к которому можно осуществлять с помощью компьютера. Кроме того, если программное обеспечение передается из веб-сайта, сервера или другого удаленного источника с использованием коаксиальных кабелей, оптоволоконных кабелей, витой пары, цифровой абонентской линии связи (DSL) или с использованием беспроводных технологий, таких как инфракрасные, радио- и микроволны, то такие проводные и беспроводные средства подпадают под определение носителя. Термин диск, используемый в данном документе, включает в себя компакт-диск (CD), лазерные диски, оптические диски, универсальные цифровые диски (DVD), флоппи-диски и диски blu-ray. Комбинации вышеозвученных носителей информации должны также попадать в объем охраны настоящего изобретения.
Хотя в настоящем описании показаны примерные варианты осуществления изобретения, следует понимать, что различные изменения и модификации могут быть выполнены, не выходя за рамки объема охраны настоящего изобретения, определяемого прилагаемой формулой изобретения. Функции, этапы и/или действия, упоминаемые в пунктах формулы изобретения, характеризующих способ, в соответствии с вариантами осуществления настоящего изобретения, описанными в данном документе, необязательно должны выполняться в каком-то конкретном порядке, если не отмечено или не оговорено иное. Более того, упоминание компонентов устройства в единственном числе не исключает множества таких элементов, если в явном виде не указано иное.

Claims (38)

1. Способ суммаризации текста, содержащий этапы, на которых:
посредством одного или более процессоров:
выбирают текст, подлежащий суммаризации;
осуществляют предварительную обработку упомянутого текста, направленную на получение первоначальной предикатно-аргументной структуры каждого предложения в упомянутом тексте, причем первоначальная предикатно-аргументная структура каждого предложения состоит из аргументов и предиката действия, выражающего отношение между аргументами, при этом аргументы охарактеризованы именными группами, каждая из которых содержит главное слово и необязательно содержит одно или более дополнительных слов, синтаксически связанных с главным словом, а предикат действия охарактеризован глаголом или глагольной группой;
находят и объединяют первоначальные предикатно-аргументные структуры с совпадающими предикатами действия и аргументами, охарактеризованными именными группами, у которых главные слова совпадают или связаны соотношением кореферентности;
составляют первоначальный список событий, используя объединенные предикатно-аргументные структуры, причем каждое событие соответствует одной из объединенных предикатно-аргументных структур;
ранжируют первоначальный список событий для формирования ранжированного списка событий;
идентифицируют основное событие на основании ранжированного списка событий и первоначального списка событий; и
составляют реферат на основе первоначального и ранжированного списков событий, причем основное событие указывается в начале реферата.
2. Способ по п. 1, в котором этап осуществления предварительной обработки упомянутого текста выполняют путем:
- разбиения упомянутого текста на заданные участки текста;
- нормализации заданных участков текста;
- выделения одного или более предложений в упомянутом тексте на основании нормализованных участков текста;
- осуществления синтаксического анализа каждого из выделенных предложений в упомянутом тексте; и
- осуществления семантической разметки в отношении каждого предложения, причем результатом упомянутой семантической разметки является упомянутая предикатно-аргументная структура для каждого предложения в упомянутом тексте.
3. Способ по п. 1, в котором этап выбора текста осуществляют с помощью тактильного ввода или голосовой команды.
4. Способ по п. 3, в котором тактильный ввод осуществляют посредством графического пользовательского интерфейса, реализуемого посредством упомянутого одного или более процессоров и состоящего из по меньшей мере одной кнопки выбора текста.
5. Способ по п. 2, в котором каждый заданный участок текста каждого предложения представляет собой слово или последовательность слов.
6. Способ по п. 2, в котором упомянутая нормализация заданных участков текста основана на по меньшей мере одном из подходов стеммирования и лемматизации.
7. Способ по п. 2, в котором упомянутый синтаксический анализ каждого из выделенных предложений в упомянутом тексте осуществляют на основе грамматики зависимостей.
8. Способ по п. 1, в котором этап ранжирования превоначального списка событий осуществляют с помощью графового алгоритма.
9. Способ по п. 1, в котором каждое событие из первоначального списка событий и ранжированного списка событий представляют в виде: <Argf, Action, {Argi}>, где Argi, i=0, 1, 2, 3,... - аргументы, Action - предикат действия, выражающий отношение между упомянутыми аргументами, f=argmin(0,1,2,3,...) - минимальный индекс среди всех аргументов Argi.
10. Способ по п. 1, в котором используется текст только одного документа.
11. Способ по п. 1, в котором текст представляет собой новость или электронное письмо.
12. Способ по п. 1, в котором текст состоит из слов разных языков.
13. Устройство суммаризации текста, содержащее:
по меньшей мере один процессор, и
память, соединенную с упомянутым по меньшей мере одним процессором и содержащую машиноисполняемые инструкции, которые при исполнении упомянутым по меньшей мере одним процессором обеспечивают выполнение упомянутым по меньшей мере одним процессором этапов способа по любому из пп. 1-12.
14. Устройство по п. 13, выполненное в виде карманного персонального компьютера (КПК), смартфона или умных часов.
15. Устройство суммаризации текста, содержащее:
модуль предварительной обработки, выполненный с возможностью выбора текста, подлежащего суммаризации, и осуществления предварительной обработки упомянутого текста, направленной на получение первоначальной предикатно-аргументной структуры каждого предложения в упомянутом тексте, причем первоначальная предикатно-аргументная структура каждого предложения состоит из аргументов и предиката действия, выражающего отношение между аргументами, при этом аргументы охарактеризованы именными группами, каждая из которых содержит главное слово и необязательно содержит одно или более дополнительных слов, синтаксически связанных с главным словом, а предикат действия охарактеризован глаголом или глагольной группой;
модуль извлечения событий, выполненный с возможностью:
- нахождения и объединения первоначальных предикатно-аргументных структур с совпадающими предикатами действия и аргументами, охарактеризованными именными группами, у которых главные слова совпадают или связаны соотношением кореферентности;
- составления первоначального списка событий, используя объединенные предикатно-аргументные структуры, причем каждое событие соответствует одной из объединенных предикатно-аргументных структур;
- ранжирования первоначального списка событий для формирования ранжированного списка событий; и
- идентификации основного события на основании ранжированного списка событий и первоначального списка событий; и
модуль составления реферата, выполненный с возможностью составления реферата для упомянутого текста на основе первоначального и ранжированного списков событий, причем основное событие указывается в начале реферата.
16. Машиночитаемый носитель информации, на котором хранятся машиноисполняемые инструкции, которые при их исполнении по меньшей мере одним процессором обеспечивают выполнение упомянутым по меньшей мере одним процессором этапов способа по любому из пп. 1-12.
RU2016138082A 2016-09-26 2016-09-26 Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации RU2635213C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2016138082A RU2635213C1 (ru) 2016-09-26 2016-09-26 Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2016138082A RU2635213C1 (ru) 2016-09-26 2016-09-26 Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации

Publications (1)

Publication Number Publication Date
RU2635213C1 true RU2635213C1 (ru) 2017-11-09

Family

ID=60263836

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016138082A RU2635213C1 (ru) 2016-09-26 2016-09-26 Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации

Country Status (1)

Country Link
RU (1) RU2635213C1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2769427C1 (ru) * 2021-04-05 2022-03-31 Анатолий Владимирович Буров Способ автоматизированного анализа текста и подбора релевантных рекомендаций по улучшению его читабельности

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1064606B1 (de) * 1998-03-17 2001-11-21 USU Softwarehaus Unternehmensberatung AG Datenverarbeitungssystem und verfahren zum automatischen erstellen von inhaltsangaben von textdokumenten
JP2005251211A (ja) * 2000-12-12 2005-09-15 Nec Corp 文書の一般テキストサマリを作成する方法およびシステム
RU2377645C2 (ru) * 2004-04-30 2009-12-27 Майкрософт Корпорейшн Способ и система для классификации дисплейных страниц с помощью рефератов
RU2392660C2 (ru) * 2008-04-15 2010-06-20 Государственное образовательное учреждение высшего профессионального образования "Мордовский государственный университет им. Н.П. Огарева" Способ поиска информации в массиве текстов
RU2538304C1 (ru) * 2013-08-22 2015-01-10 Александр Александрович Харламов Способ автоматизированной семантической классификации текстов на естественном языке
RU2580424C1 (ru) * 2014-11-28 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1064606B1 (de) * 1998-03-17 2001-11-21 USU Softwarehaus Unternehmensberatung AG Datenverarbeitungssystem und verfahren zum automatischen erstellen von inhaltsangaben von textdokumenten
JP2005251211A (ja) * 2000-12-12 2005-09-15 Nec Corp 文書の一般テキストサマリを作成する方法およびシステム
RU2377645C2 (ru) * 2004-04-30 2009-12-27 Майкрософт Корпорейшн Способ и система для классификации дисплейных страниц с помощью рефератов
RU2392660C2 (ru) * 2008-04-15 2010-06-20 Государственное образовательное учреждение высшего профессионального образования "Мордовский государственный университет им. Н.П. Огарева" Способ поиска информации в массиве текстов
RU2538304C1 (ru) * 2013-08-22 2015-01-10 Александр Александрович Харламов Способ автоматизированной семантической классификации текстов на естественном языке
RU2580424C1 (ru) * 2014-11-28 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2769427C1 (ru) * 2021-04-05 2022-03-31 Анатолий Владимирович Буров Способ автоматизированного анализа текста и подбора релевантных рекомендаций по улучшению его читабельности

Similar Documents

Publication Publication Date Title
CN109314660B (zh) 在自动聊天中提供新闻推荐的方法和装置
Montejo-Ráez et al. Ranked wordnet graph for sentiment polarity classification in twitter
Moussa et al. A survey on opinion summarization techniques for social media
Pustejovsky et al. Natural Language Annotation for Machine Learning: A guide to corpus-building for applications
Hajar Using YouTube comments for text-based emotion recognition
US10496756B2 (en) Sentence creation system
US10013450B2 (en) Using knowledge graphs to identify potential inconsistencies in works of authorship
JP6676109B2 (ja) 発話文生成装置とその方法とプログラム
US10013404B2 (en) Targeted story summarization using natural language processing
US8818795B1 (en) Method and system for using natural language techniques to process inputs
Mills et al. Graph-based methods for natural language processing and understanding—A survey and analysis
US10037321B1 (en) Calculating a maturity level of a text string
Bellot et al. INEX Tweet Contextualization task: Evaluation, results and lesson learned
Rabbimov et al. Investigating the effect of emoji in opinion classification of uzbek movie review comments
Vandeghinste et al. Linking Pictographs to Synsets: Sclera2Cornetto.
Singh et al. Words are not equal: Graded weighting model for building composite document vectors
RU2635213C1 (ru) Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации
Noah et al. Evaluation of lexical-based approaches to the semantic similarity of Malay sentences
Maxwell et al. Natural language processing and query expansion in legal information retrieval: Challenges and a response
US11386273B2 (en) System and method for negation aware sentiment detection
Diamantini et al. Semantic disambiguation in a social information discovery system
Colruyt et al. EventDNA: a dataset for Dutch news event extraction as a basis for news diversification
Sicilia et al. ISABEL: An Inclusive and Collaborative Task-Oriented Dialogue System
Tonkin A day at work (with text): A brief introduction
Chali et al. Multi-document summarization based on atomic semantic events and their temporal relationships