RU2595594C2 - Способ и устройство для автоматического аннотирования содержимого электронных документов - Google Patents

Способ и устройство для автоматического аннотирования содержимого электронных документов Download PDF

Info

Publication number
RU2595594C2
RU2595594C2 RU2014119239/08A RU2014119239A RU2595594C2 RU 2595594 C2 RU2595594 C2 RU 2595594C2 RU 2014119239/08 A RU2014119239/08 A RU 2014119239/08A RU 2014119239 A RU2014119239 A RU 2014119239A RU 2595594 C2 RU2595594 C2 RU 2595594C2
Authority
RU
Russia
Prior art keywords
electronic document
subset
score
parts
annotation
Prior art date
Application number
RU2014119239/08A
Other languages
English (en)
Other versions
RU2014119239A (ru
Inventor
Индерджит МАНИ
Эудженио СИУРАНА
Николас Д'АЛОЙСИО-МОНТИЛЛА
Барт К. СУОНСОН
Original Assignee
Йаху! Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB1117848.0A external-priority patent/GB201117848D0/en
Priority claimed from GBGB1121033.3A external-priority patent/GB201121033D0/en
Application filed by Йаху! Инк. filed Critical Йаху! Инк.
Publication of RU2014119239A publication Critical patent/RU2014119239A/ru
Application granted granted Critical
Publication of RU2595594C2 publication Critical patent/RU2595594C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

Изобретение относится к средствам аннотирования электронного документа. Технический результат заключается в повышении релевантности нахождения документов. Генерируют вектор признаков для электронного документа, при этом вектор признаков содержит множество признаков электронного документа. Присваивают весовой коэффициент каждому из множества признаков. Назначают балл аннотируемости электронному документу в соответствии с весовым коэффициентом, присвоенным каждому из множества признаков, при этом балл аннотируемости указывает, является ли электронный документ аннотируемым. Определяют, что электронный документ является аннотируемым. Разбивают электронный документ на множество частей, при этом каждая из множества частей связана с соответствующей длиной, соответствующим баллом информативности и соответствующим баллом согласованности. Автоматически выбирают подмножество из множества частей таким образом, что совокупный балл информативности этого подмножества является максимальным, тогда как совокупная длина данного подмножества меньше или равна максимальной длине. Компонуют упомянутое подмножество в качестве аннотации к электронному документу. 3 н. и 20 з.п. ф-лы, 7 ил.

Description

По данной заявке испрашивается приоритет патентной заявки Великобритании №1121033.3, поданной 07 декабря 2011 г., и предварительной патентной заявки США №61/568188, поданной 08 декабря 2011 г., при этом обе из них во всей своей полноте включены в настоящее описание посредством ссылки.
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение, в целом, относится к области электронных документов и, в частности, относится к аннотированию электронных документов.
ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ
Типичный поиск, осуществляемый посредством использования поисковой машины по «Всемирной Паутине» (Web) создает множество результатов поиска (например, электронные документы, включающие в себя новостные текстовые блоки, web-страницы, содержимое социальных средств общения и подобное). Тем не менее, по меньшей мере, часть результатов поиска часто не имеет отношения к поиску. Более того, содержимое даже релевантных результатов поиска может отличаться от документа к документу.
Дополнительно, социальные средства общения позволяют пользователям рекомендовать различные электронные документы другим пользователям. Тем не менее, сталкиваясь лишь с унифицированным указателем ресурса (URL) или названием, может быть сложным сказать, является ли вероятнее всего связанный электронный документ интересующим.
Таким образом, нахождение документа, чье содержимое действительно является релевантным или интересующим, приводит к некоторым попыткам и ошибкам, поскольку пользователь должен отсортировать множество документов по очереди при небольших предварительных знаниях об их содержимом. Это может быть трудоемким заданием, в частности, если какой-либо из документов обширный (например, как в случае с книгами или некоторыми новостными статьями). При исполнении на мобильном устройстве (например, смартфоне) просмотр различных документов по очереди может занимать еще больше времени, поскольку документам может потребоваться больше времени для считывания и загрузки на устройство.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Один вариант осуществления способа аннотирования электронного документа включает в себя этапы, на которых: разбивают электронный документ на множество частей, при этом каждая из множества частей связан с соответствующей длиной, соответствующим баллом информативности, и соответствующим баллом согласованности; автоматически выбирают подмножество из множества частей таким образом, что совокупный балл информативности этого подмножества является максимальным, тогда как совокупная длина данного подмножества меньше или равна максимальной длине; и компонуют упомянутое подмножество в качестве аннотации к электронному документу.
В дополнительных вариантах осуществления: упомянутое подмножество содержит меньше чем все из множества частей; по меньшей мере, одна из частей содержит предложение; соответствующий балл информативности для заданной части из множества частей присваивается в соответствии с методикой выставления баллов, которая является независимой от языка; методика выставления баллов присваивает весовые коэффициенты множеству признаков заданной части в соответствии с набором программируемых вручную правил; соответствующий балл информативности для заданной части из множества частей присваивается в соответствии с методикой выставления баллов, которая является зависимой от языка; методика выставления баллов является методикой контролируемого машинного обучения, которая использует статистический классификатор; статистический классификатор соответствует методу опорных векторов; методика выставления баллов является методикой неконтролируемого машинного обучения, которая представляет заданную часть в качестве взвешенного узла в ориентированном графе; соответствующий балл информативности для каждой из множества частей является, по меньшей мере, равным пороговому значению; соответствующие баллы согласованности каждой из множества частей являются, по меньшей мере, равными пороговому значению; способ дополнительно содержит этап, на котором: усекают каждую из множества частей вслед за разбиением, но перед этапом, на котором выполняют автоматический выбор; при этом этап, на котором выполняют автоматический выбор, выполняется при помощи блока комбинаторной оптимизации; этап, на котором выполняют автоматический выбор, содержит этап, на котором оценивают каждую из множества частей по отдельности для включения в упомянутое подмножество; этап, на котором оценивают, содержит этап, на котором исключают из включения в подмножество тех из множества частей, чьи соответствующие длины превышают текущую совокупную длину подмножества; этап, на котором оценивают, содержит, для заданной части из множества частей, этапы, на которых: вычисляют первую сумму, при этом первая сумма является суммой соответствующих баллов информативности, связанных с наиболее информативным подмножеством из множества частей, которое исключает заданную часть, и имеет совокупную длину меньше или равную максимальной длине; вычисляют вторую сумму, при этом вторая сумма является суммой первого значения и второго значения, при этом первое значение равно первой сумме минус соответствующая длина заданной части, а второе значение является соответствующим баллом информативности заданной части; и определяют, включить ли заданную часть в упомянутое подмножество, на основании сравнения первой суммы и второй суммы; этап, на котором определяют, содержит этапы, на которых: включают заданную часть в подмножество, когда вторая сумма больше первой суммы, и исключают заданную часть из подмножества, когда первая сумма больше второй суммы; множество частей компонуется в соответствии с очередностью, в которой каждая из множества частей появляется в электронном документе; способ дополнительно содержит этап, на котором определяют, перед этапом, на котором разбивают, автоматически выбирают, и компонуют, что электронный документ может быть представлен в виде аннотации; этап, на котором определяют, содержит этапы, на которых: генерируют вектор признаков для электронного документа, при этом вектор признаков содержит множество признаков электронного документа; присваивают весовой коэффициент каждому из множества признаков; и назначают балл электронному документу в соответствии с весовым коэффициентом, присвоенным каждому из множества признаков, при этом балл указывает на то, является ли электронный документ документом, который допускает аннотирование; весовой коэффициент изучается автоматически; этап, на котором присваивают весовой коэффициент, содержит, для заданного признака из множества признаков, этапы, на которых: повышают весовой коэффициент, когда заданный признак возникает, по меньшей мере, с определенной частотой в наборе обучающих примеров, содержащих документы, которые допускают аннотирование, и понижают весовой коэффициент, когда заданный признак возникает, по меньшей мере, с определенной частотой в наборе обучающих примеров, содержащих документы, которые не могут быть аннотированы; и этапы, на которых присваивают весовой коэффициент и присваивают балл, выполняются таким образом, который является специфичным для языка, на котором написан электронный документ.
Один вариант осуществления вещественного машиночитаемого носителя информации, содержащего исполняемую программу для аннотирования электронного документа, включает в себя программу, которая выполняет операции, включающие в себя: разбиение электронного документа на множество частей, при этом каждая из множества частей связана с соответствующей длиной, соответствующим баллом информативности и соответствующем баллом согласованности; автоматический выбор подмножества из множества частей таким образом, что совокупный балл информативности этого подмножества является максимальным, в то время как совокупная длина данного подмножества меньше или равна максимальной длине; и компонование упомянутого подмножества в качестве аннотации к электронному документу.
Один вариант осуществления системы для аннотирования электронного документа включает в себя процессор и машиночитаемый носитель информации, содержащий исполняемую программу, которая предписывает процессору выполнять операции, включающие в себя: разбиение электронного документа на множество частей, при этом каждая из множества частей связана с соответствующей длиной, соответствующим баллом информативности и соответствующем баллом согласованности; автоматический выбор подмножества из множества частей таким образом, что совокупный балл информативности этого подмножества является максимальным, в то время как совокупная длина данного подмножества меньше или равна максимальной длине; и компонование упомянутого подмножества в качестве аннотации к электронному документу.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Идеи настоящего изобретения могут быть легко поняты посредством рассмотрения нижеследующего подробного описания совместно с сопроводительными чертежами, на которых:
Фиг. 1 является структурной схемой, изображающей один пример сети связи, внутри которой могут быть развернуты варианты осуществления настоящего изобретения;
Фиг. 2 является структурной схемой, изображающей более подробно вариант осуществления сервера приложений, иллюстрируемого на Фиг. 1;
Фиг. 3 является логической блок-схемой, иллюстрирующей один вариант осуществления способа извлечения содержимого из электронного документа, в соответствии с настоящим изобретением;
Фиг. 4 является логической блок-схемой, иллюстрирующей один вариант осуществления способа определения того, может ли электронный документ быть аннотирован, в соответствии с настоящим изобретением;
Фиг. 5 является логической блок-схемой, иллюстрирующей один вариант осуществления способа аннотирования электронного документа, в соответствии с настоящим изобретением;
Фиг. 6 является логической блок-схемой, иллюстрирующей один вариант осуществления способа выбора набора предложений для формирования аннотации к документу, в соответствии с настоящим изобретением; и
Фиг. 7 является высокоуровневой структурной схемой настоящего изобретения, реализованного при помощи вычислительного устройства общего назначения.
ПОДРОБНОЕ ОПИСАНИЕ
В одном варианте осуществления, настоящее изобретение является способом и устройством для автоматического аннотирования содержимого электронных документов. Варианты осуществления изобретения способствуют согласованному и эффективному потреблению содержимого посредством аннотирования содержимого электронных документов, не требуя загрузки электронных документов на устройство. В одном варианте осуществления, изобретение реализовано в качестве приложения для мобильного устройства, такого как смартфон или планшетный компьютер, где мобильное устройство взаимодействует с удаленным сервером через сеть.
Фиг. 1 является структурной схемой, изображающей один пример сети 100 связи, внутри которой могут быть развернуты варианты осуществления настоящего изобретения. Сеть 100 связи может быть любым типом сети связи, такой как, например, традиционная сеть с коммутацией каналов (например, телефонная коммутируемая сеть общего пользования (PSTN)) или сеть Интернет Протокола (IP) (например, сеть Мультимедийной Подсистемы на Базе Протокола IP (IMS), сеть режима асинхронной передачи (ATM), беспроводная сеть, сотовая сеть (например, 2G, 3G и подобная), сеть долгосрочного развития (LTE), и подобная), относящейся к текущему раскрытию. Следует отметить, что IP сеть в широком смысле определяется как сеть, которая использует Интернет Протокол для осуществления обмена пакетами данных. Дополнительные примерные IP сети включают в себя сети передачи Голоса по IP (VoIP), сети Услуги по IP (SoIP) и подобные.
В одном варианте осуществления сеть 100 может содержать базовую сеть 102. Базовая сеть 102 может осуществлять связь с одной или более сетями 120 и 122 доступа. Сети 120 и 122 доступа могут включать в себя сеть беспроводного доступа (например, сеть WiFi и подобную), сеть сотового доступа, сеть PSTN доступа, сеть кабельного доступа, сеть проводного доступа и подобную. В одном варианте осуществления сети 120 и 122 доступа все могут быть сетями доступа разных типов, все могут быть сетью доступа одного типа, или некоторые сети доступа могут быть сетью доступ одного типа, а другие могут быть сетями доступа других типов. Базовая сеть 102 и сети 120 и 122 доступа могут эксплуатироваться разными поставщиками услуг, одним и тем же поставщиком услуг или их сочетанием.
В одном варианте осуществления базовая сеть 102 может включать в себя сервер 104 приложений (AS) и базу 106 данных (DB). Несмотря на то, что проиллюстрирован только один AS 104 и одна DB 106, следует отметить, что любое количество серверов 104 приложений и баз 106 данных может быть развернуто. Например, базовая сеть 102 может содержать часть облачной среды, в которой услуги и приложения поддерживаются высоко распределенным образом.
В одном варианте осуществления AS 104 может быть выполнен в виде компьютера общего назначения, как иллюстрируется на Фиг. 7 и рассматривается ниже. В одном варианте осуществления AS 104 может выполнять способы и алгоритмы, рассматриваемые ниже в отношении аннотирования содержимого электронных документов.
В одном варианте осуществления DB 106 хранит аннотации к электронным документам, которые были собраны и аннотированы посредством AS 104. В дополнительном варианте осуществления, DB 106 опционально может хранить профили для пользователей сети 100. Например, DB 106 может хранить номера сотовых телефонов, адреса электронной почты, профили социальных средств общения, и подобное для каждого пользователя. Данная персональная информация может храниться в зашифрованном виде для того, чтобы защитить конфиденциальность пользователя. Кроме того, может потребоваться авторизация пользователя для того, чтобы DB 106 сохранила любую персональную информацию. В дополнение, DB 106 может хранить предпочтения пользователя в отношении типов содержимого, в которых они заинтересованы (например, новостные статьи, связанные с развлечением, спортом, наукой и т.д.).
В одном варианте осуществления сеть 120 доступа может осуществлять связь с одним или более оконечными устройствами 108 и 110 пользователя (также именуемыми как «оконечные устройства» или «UE»). В одном варианте осуществления, сеть 122 доступа может осуществлять связь с одним или более оконечными устройствами 112 и 114 пользователя.
В одном варианте осуществления оконечные устройства 108, 110, 112 и 114 пользователя могут быть любым типом оконечного устройства, таким как настольный компьютер или мобильное оконечное устройство, такое как сотовый телефон, интеллектуальный телефон, планшетный компьютер, компьютер класса лэптоп, нетбук, ультрабук, портативное мультимедийное устройство (например, проигрыватель МРЗ), игровая консоль, портативное игровое устройство, и подобное. Следует отметить, что, несмотря на то, что лишь четыре оконечных устройства пользователя иллюстрируются на Фиг. 1, любое количество оконечных устройств пользователя может быть развернуто. В одном варианте осуществления, любое из оконечных устройств пользователя может иметь один или более встроенные в них датчики. Эти датчики могут включать в себя, например, датчики местоположения, климатические датчики, акустические датчики, датчики положения, оптические датчики, датчики давления, датчики близости и им подобные. AS 104 может подписаться на выходные данные с этих датчиков, как более подробно рассматривается ниже.
Следует отметить, что сеть 100 была упрощена. Например, сеть 100 может включать в себя другие сетевые элементы (не показаны), такие как элементы границы, маршрутизаторы, коммутаторы, серверы политики, устройства безопасности, сеть распространения информационного наполнения (CDN) и подобное.
Фиг. 2 является структурной схемой, изображающей более подробно вариант осуществления сервера 104 приложений, иллюстрируемого на Фиг. 1. Как иллюстрируется, AS 104 в целом содержит систему 200 обработки данных на естественном языке (NLP) и шину 204.
Шина 204 получает электронные документы от множества источников 2061-206n (далее вместе именуемых как «источники 206»). В одном варианте осуществления, шина 204 вытягивает эти документы из источников 206. Таким образом, документы могут включать в себя, например, web-каналы (например, каналы исчерпывающей аннотации сайта (RSS), каналы Atom и т.д.) и Web-страницы (например, новостные сайты, сайты социальных средств общения и т.д.). Шина 204 переадресует полученные документы системе 200 NLP для дальнейшей обработки и аннотирования, как рассматривается более подробно ниже. В одном примерном варианте осуществления, шина 206 является сервисной шиной предприятия (ESB) Mule.
Система 200 NLP в целом содержит блок 208 извлечения, блок 210 классификации и блок 212 аннотирования. Блок 208 извлечения содержит первый фильтр, который принимает полученные документы от шины 204 и извлекает содержимое из документов. В одном варианте осуществления извлеченное содержимое содержит одно или более из следующего: текст, изображения, видео. Извлеченное содержимое может быть представлено на любом языке. В одном варианте осуществления блок 208 извлечения использует эвристический подход для извлечения содержимого.
Блок 210 классификации содержит второй фильтр, который принимает, по меньшей мере, некоторое из извлеченного содержимого от блока 208 извлечения и определяет, на основании извлеченного содержимого, может ли быть исходный документ представлен в виде аннотации. В одном варианте осуществления блок 210 классификации является блоком статистической классификации, который использует полученные в результате обучения (например, контролируемые) модели языка. Например, в одном конкретном варианте осуществления, блок 210 классификации является классификатором на основе линейной регрессии.
Блок 212 аннотирования принимает исходные документы, которые определены блоком классификации как документы, которые допускают аннотирование, и аннотирует эти документы. В одном варианте осуществления блок 212 аннотирования создает, по меньшей мере, две аннотации разных длин. Например, блок 212 аннотирования может создавать «короткую аннотацию и «длинную аннотацию, где длинная аннотация приблизительно от тридцати трех до пятидесяти процентов длиннее короткой аннотации (например, короткая аннотация может быть ограничена приблизительно 390 знаками, тогда как длинная аннотация ограничивается приблизительно 590 знаками). Блок 212 аннотирования выводит аннотацию или аннотации в базу 106 данных для сохранения. База 106 данных может, в свою очередь, без запроса рассылать аннотации одному или более оконечным устройствам 108, 110, 112 и 114 пользователя, как рассматривается более подробно ниже.
Фиг. 3 является блок-схемой, иллюстрирующей один вариант осуществления способа 300 извлечения содержимого из электронного документа, в соответствии с настоящим изобретением. Способ 300 может быть реализован, например, на сервере 104 приложений, иллюстрируемом на Фиг. 1 и 2. По существу, при рассмотрении способа 300 упоминаются различные элементы, иллюстрируемые на Фиг. 2. Тем не менее, следует иметь в виду, что способ 300 не ограничивается реализацией с помощью конфигурации сервера, иллюстрируемой на Фиг. 2, и что такое упоминание главным образом выполняется, чтобы способствовать объяснению.
Способ 300 начинается на этапе 302. На этапе 304 шина 205 получает электронный документ с URL и названием. Как рассмотрено выше, шина 204 может получать документ из сети 100 по запросу. В одном варианте осуществления, документ является web-каналом или web-страницей.
На этапе 306 блок 208 извлечения определяет, является ли URL хорошим (т.е. содержит содержимое, которое подходит для аннотирования). Например, некоторые документы, такие как письма, дискуссии, рекламные объявления, адреса контактов или подобное, могу не подходить для аннотирования. В одном варианте осуществления, данное определение выполняется в соответствии с одним или более предварительно указанными шаблонами. Например, шаблоны, такие как текстовый блок|запись|страница|содержимое| текст|тело или подобное могут указывать содержимое, которое подходит для аннотирования, тогда как шаблоны, такие как виртуальная визитка|рекламирование|баннерная лента|титульные данные или подобное, может указывать содержимое, которое не подходит для аннотирования. Если блок 208 извлечения решает на этапе 306, что URL не является хорошим, тогда блок 208 извлечения игнорирует документ на этапе 308 перед тем, как способ 300 завершается на этапе 320.
В качестве альтернативы, если блок 208 извлечения решает на этапе 306, что URL хороший, тогда способ 300 переходит к этапу 310. На этапе 310, блок 208 извлечения анализирует исходный код документа (например, код языка гипертекстовой разметки (HTTP)). В одном варианте осуществления, анализ исходного кода включает в себя сбор списка всех абзацев в дереве объектной модели документа (DOM), где абзацы включают в себя любые элементы, которые размечены тэгом абзаца (т.е. <p>) или тэгом заголовка (например, <h1>). Каждому такому абзацу присваивается исходный (по умолчанию) балл, и наиболее близкому релевантному структурному тэгу присваивается балл, который является суммой баллов абзацев, связанных с тэгом. В одном варианте осуществления, структурный тэг рассматривается как релевантный абзацу, если структурный тэг является тегом <div> с атрибутом класса или ID, указывающим на то, что он имеет текстовое содержимое.
На этапе 312 блок 208 извлечения идентифицирует тэг в исходном коде с наивысшим баллом, где балл основан на вышеописанной схеме приращения. Данный тэг представляет собой узел DOM, содержащий наиболее релевантное содержимое.
На этапе 314 блок 208 извлечения извлекает текст из идентифицированного исходного кода тэга. В одном варианте осуществления блок 208 извлечения использует методику извлечения, которая исключает текст в узлах, которые вероятно содержат нерелевантный материал (например, подписи изображений, навигационные ссылки, авторские строки и ссылки на сайты социальных средств общения).
На этапе 316 блок 208 извлечения выставляет баллы набору всех изображений, упоминаемых в документе. Выставление баллов идентифицирует изображения, которые наиболее вероятно будут релевантными (т.е. непосредственно относятся к содержимому, которое аннотируется). Релевантные изображения могут включать в себя, например: изображения, которые имеют признаки, такие как располагаются непосредственно в основном содержимом документа; изображения, которые больше определенного минимального размера (например, большие изображения наиболее вероятно являются релевантными для документа); изображения формата Объединенной группы экспертов в области фотографии (JPEG) (например, нерелевантные изображения, такие как пиктограммы и логотипы имеют тенденцию быть представленными в других форматах, таких как форматы переносимой сетевой графики (PNG) и формата обмена графическими данными (GIF)); и изображения, которые проистекают из того же источника, что и документ (например, рекламные изображения часто импортируются из внешних источников). Нерелевантные изображения, могут включать в себя, например, пиктограммы, логотипы, элементы навигации, рекламные изображения, или подобное.
В одном варианте осуществления, методика выставления баллов является взвешенной методикой, где весовые коэффициенты основаны на различных признаках изображения. Эти признаки могут включать в себя метаданные, касающиеся изображений, как впрочем, и содержимое изображения (например, полученное посредством методики обработки изображения). Например, признаки могут включать в себя: является ли заданное изображение правильного размера, или в каком типе формата сохранено изображение. Затем линейная комбинация весовых коэффициентов суммируется и масштабируется (например, в масштабе от 0 до единицы). Например, один взвешенный алгоритм для выставления баллов изображению может быть определен следующим образом:
Figure 00000001
В случае Уравнения 1, признак изображения обозначается как j (j={1,…,n}), и балл изображения равен постоянному весовому коэффициенту, β0, добавленному к сумме произведения каждого весового коэффициента признака, βj, и значения. В целом, блок 208 извлечения рассматривает каждый признак либо как присутствующий (и в этом случае значение равно единице), либо как отсутствующий (и в этом случае значение равно 0). Тем не менее, в одном варианте осуществления, где Уравнение 1 используется при аннотировании содержимого, значением признака является число, отражающее то, сколько раз признак возникает в документе.
На этапе 318 блок 208 извлечения выводит (например, на блок 210 классификации) извлеченный текст и x изображений с наибольшим баллом (в одном варианте осуществления, x=3). В одном варианте осуществления x изображений с наибольшим баллом должны иметь баллы выше определенного порогового значения, θ (в одном варианте осуществления, θ=0,67), для того чтобы быть выведенными блоком 208 извлечения. В одном варианте осуществления, баллы для x изображений с наибольшим баллом также выводятся блоком 208 извлечения.
Затем способ 300 завершается на этапе 320.
Фиг. 4 является блок-схемой, иллюстрирующей один вариант осуществления способа 400 определения того, может ли электронный документ быть аннотирован, в соответствии с настоящим изобретением. Способ 400 может быть реализован, например, на сервере 104 приложений, иллюстрируемом на Фиг. 1 и 2. По существу, при рассмотрении способа 400 упоминаются различные элементы, иллюстрируемые на Фиг. 2. Тем не менее, следует иметь в виду, что способ 400 не ограничивается реализацией с помощью конфигурации сервера, иллюстрируемой на Фиг. 2, и что такое упоминание главным образом выполняется, чтобы способствовать объяснению.
Способ 400 начинается с этапа 402. На этапе 404 блок 210 классификации получает электронный документ (например, от шины 204). На этапе 406 блок 210 классификации идентифицирует язык документа. В одном варианте осуществления язык определяется, принимая во внимание код языка или идентификатор, связанный с документом. Тем не менее, в альтернативном варианте осуществления блок 210 классификации дополнительно включает в себя компонент идентификации языка, который идентифицирует язык путем анализа содержимого документа. В одном варианте осуществления настоящее изобретение является независимым от языка, что означает, что раскрываемые здесь системы и способы (такие как оставшиеся этапы способа 400) применимы независимо от языка, на котором написан исходный документ.
На этапе 408 блок 210 классификации формирует вектор признаков для документа. В одном варианте осуществления векторы признаков разработаны таким образом, чтобы быть устойчивыми к вариациям языка, жанру, длине документа и подобному и включают в себя счетчики признаков (например, для букв, цифр, букв прописных и строчных, символов пробела и знаков пунктуации, слов, наиболее употребляемых m слов, наиболее употребляемых y знаков, уникальных слов, и т.д.)
На этапе 410 блок 210 классификации передает вектор признаков документа в функцию для идентифицированного языка, хранящуюся в (скомпилированном) файле «модели», для того чтобы получить балл аннотируемости. В одном варианте осуществления хранящаяся функция имеет вид Уравнения 1, где y теперь представляет собой балл аннотируемости документа, а примерными признаками являются признаки, описанные выше в связи с этапом 408. Весовые коэффициенты β изучаются автоматически во время фазы обучения блока классификации, перед развертыванием системы. Например, в программе машинного обучения, положительные примеры обучения (например, в папке документов с возможностью аннотирования) приводят к повышению весовых коэффициентов для признаков, которые относительно распространены (например, возникают, по меньшей мере, с определенной частотой) в положительных примерах, тогда как отрицательные примеры обучения (например, в папке неаннотируемых документов) приводят к понижению весовых коэффициентов для признаков, которые относительно распространены (например, возникают, по меньшей мере, с определенной частотой) в отрицательных примерах. В одном варианте осуществления, блок классификации хранит множество папок для каждого языка, который сервер 104 приложений может обработать. Первая папка содержит множество примерных документов, которые могут быть аннотированы (т.е. положительные примеры обучения, как рассмотрено выше), тогда как вторая папка содержит множество примерных документов, которые не могут быть аннотированы (т.е. отрицательные примеры обучения, как рассмотрено выше). В одном варианте осуществления, типы документов, которые не могут быть аннотированы, включают в себя: письма редактору, статьи редакционного мнения и художественные произведения; другие типы документов являются потенциально с возможностью представления в виде аннотации.
На этапе 412 блок 210 классификации выставляет баллы документу в соответствии с вычислением, выполненным на этапе 410. В одном варианте осуществления, вектор признаков, построенный из входного документа, передается в функцию, основанную на Уравнении 1, чьи коэффициенты изучены автоматически во время обучающей фазы предварительного развертывания, как рассмотрено выше.
На этапе 414 классификатор 210 определяет, является ли балл документа (как сгенерировано на этапе 412) большим или равным определенному пороговому значению. Если блок 210 классификации решает на этапе 414, что балл документа больше или равен пороговому значению, тогда это указывает на то, что документ может быть аннотирован. Раз так, то способ 400 переходит к этапу 416, и блок 210 классификации передает документ в блок 212 аннотирования для аннотирования.
В качестве альтернативы, если блок 210 классификации решает на этапе 414, что балл документа меньше порогового значения, тогда это указывает на то, что документ не может быть аннотирован. Раз так, то способ 400 переходит к этапу 418, и документ игнорируется.
Как только документ либо был передан блоку аннотирования (в соответствии с этапом 416) или проигнорирован (в соответствии с этапом 418), способ 400 завершается на этапе 420.
Как рассмотрено выше, блок 210 классификации использует модель, полученную в результате обучения по примерным документам, чтобы взвешивать признаки вектора признаков документа. В одном варианте осуществления, примерные документы могут быть промаркированы оператором-человеком как аннотируемые или как неаннотируемые. В альтернативном варианте осуществления, маркирование самонастраивается либо посредством использования предварительно существующих корпусов текста, которые были промаркированы для некоторой другой задачи, либо посредством использования статистики по непромаркированной коллекции документов, для того чтобы определить, является или нет заданный документ в коллекции с аннотируемым. В последнем случае, релевантной статистикой может быть, например, длина текста (например, где документы, которые слишком короткие или слишком длинные относительно распределения длинны, могут быть промаркированы как не являющиеся аннотируемыми). Как также рассматривалось выше, блок 210 классификации может использовать множество моделей для разных языков.
Фиг. 5 является блок-схемой, иллюстрирующей один вариант осуществления способа 500 аннотирования электронного документа, в соответствии с настоящим изобретением. Способ 500 может быть реализован, например, на сервере 104 приложений, иллюстрируемом на Фиг. 1 и 2. По существу, при рассмотрении способа 500 упоминаются различные элементы, иллюстрируемые на Фиг. 2. Тем не менее, следует иметь в виду, что способ 500 не ограничивается реализацией с помощью конфигурации сервера, иллюстрируемой на Фиг. 2, и что такое упоминание главным образом выполняется, чтобы способствовать объяснению.
Способ 500 начинается на этапе 502. На этапе 504 блок 212 аннотирования получает электронный документ (например, от шины 204).
На этапе 506 блок 212 аннотирования разбивает документ на множество предложений. Несмотря на то, что предложения используются для простоты объяснения, следует иметь в виду, что документ также может быть разбит на другие единицы текста, такие как фразы, клаузлы, абзацы или блоки, или комбинации разных типов единиц текста. В одном варианте осуществления разбиение сопровождается использованием блока разбиения на предложения, который разбивает текст на предложения (или другие единицы текста) на основании полученной в результате обучения модели языка. В дополнительном варианте осуществления блок разбиения сконфигурирован для языка, на котором написан документ.
На этапе 508 блок 212 аннотирования выбирает одно из предложений для оценки. В одном варианте осуществления, предложения оцениваются в очередности, в которой они появляются в документе.
На этапе 510 блок 212 аннотирования оценивает информативность предложения. В одном варианте осуществления, информативность оценивается в соответствии с одним из множества доступных алгоритмов. Например, в одном варианте осуществления, используются три алгоритма: (1) первый алгоритм, который всегда используется для коротких аннотаций (например, короче приблизительно 390 знаков); (2) второй алгоритм, который всегда используется для длинных аннотаций (например, которые на от тридцати трех до пятидесяти процентов длиннее коротких аннотаций) и когда требуется полученная в результате англоязычного обучения модель, основанная на эталонных аннотациях; и (3) третий неконтролируемый алгоритм, который используется во всех других случаях.
В одном варианте осуществления, первый алгоритм использует набор программируемых вручную правил, основанных на множестве независимых от языка признаков. Эти признаки могут включать в себя, например: позицию предложения внутри документа или длину предложения. В одном варианте осуществления, эти признаки трансформируются в логические признаки (например, «это предложение появляется в первых x предложениях документа?» или «длина предложения короче/длиннее у знаков?») и затем взвешиваются образом, подобным взвешиванию, рассмотренному выше со ссылкой на Уравнение 1. Выходными данными первого алгоритма является массив баллов информативности каждого предложения.
В одном варианте осуществления, второй алгоритм является методикой контролируемого машинного обучения, обучение которой осуществляется на созданных человеком эталонных аннотациях. Второй алгоритм пытается максимизировать функцию, основанную на известной метрике Ориентированное на Релевантность Дублирование для Оценки Выделения Сути (ROUGE), как раскрывается в документе под авторством Chin-Yew Lin ROUGE: A Package for Automatic Evaluation of Summaries Proceedings of the Workshop on text Summarization Branches Out (WAS 2004), Барселона, Испания, 25-26 июля 2004 г. ROUGE измеряет точность системы как функцию пропорции слов в эталонной аннотации, которые присутствуют в созданной системой аннотации, и может быть определена, как:
Figure 00000002
где
Figure 00000003
является максимальным количеством N-грам (групп из N последовательных символов), одновременно встречающихся как в эталонных, так и сгенерированных системой аннотациях, а счетчик(N-грам) является общим количеством N-грам, встречающихся в эталонных аннотациях.
Второй алгоритм рассматривает каждое предложение в качестве экземпляра классификации, и затем наделяет признаками каждый экземпляр с помощью стандартного набора признаков, обычно используемых для аннотирования. В одном варианте осуществления, эти признаки включают в себя одно или более из следующего: позиция предложения внутри документа (например, посредством номера предложения и общей позиции), наличие чисел в предложении, наличие местоимений в предложении, наличие слов из заглавных букв в предложении, и размер предложения. В одном варианте осуществления, блок классификации использует обучающую последовательность, в которой предложения с наивысшими баллами ROUGE1 промаркированы как положительные (т.е. включать в аннотацию), а оставшиеся предложения промаркированы как отрицательные (т.е. не включать в аннотацию).
В одном варианте осуществления, второй алгоритм использует метод опорных векторов (SVM) в качестве статистического классификатора. SVM может быть определена в соответствии с документом под авторством Hsu и других (A Practical Guide to Support Vector Classification Department of Computer Science, National Taiwan University), как:
Figure 00000004
в котором каждое предложение i представлено в качестве вектора признака
Figure 00000005
, с маркером y∈{-1,+1}n. Функция Ф отображает обучающие векторы в пространстве признаков более высокой размерности. В данном случае, w является вектором нормали к гиперплоскости, b является размером допустимого отклонения (т.е. расстоянием до ближайших обучающих примеров или вспомогательных векторов от оптимальной гиперплоскости, разделяющей положительные и отрицательные классы), С>0 является параметром регуляризации, который представляет ухудшение в виде вектора ошибок, и ξi≥0 является фиктивной переменной, которая измеряет степень ошибочной классификации х. SVM находит оптимальную гиперплоскость с максимальным допустимым отклонением в данном гиперпространстве. Выходными данными SVM является массив баллов для каждого предложения. В одном варианте осуществления полученная в результате обучения модель обеспечивается для англоязычных документов на основании данных из Конференции по Вопросам Автоматического Аннотирования (DUC).
В одном варианте осуществления, третий алгоритм является методикой неконтролируемого машинного обучения, которая идентифицирует характерные узлы в ориентированном графе посредством случайного блуждания по графу (например, методика ранжирования страниц). В конкретном варианте осуществления, третий алгоритм рассматривает задачу выбора предложений как проблему оптимизации, основанную на графе. В частности, третий алгоритм представляет предложения в качестве узлов в ориентированном графе, и ребра между узлами связывают предложения, которые встречаются позже в документе с предложениями, которые встречаются раньше в документе. Узлы взвешиваются, и исходно взвешиваются в соответствии с позицией соответствующего предложения в документе (например, предложениям, встречающимся раньше в документе, присваивается более тяжелые весовые коэффициенты, и весовые коэффициенты уменьшаются экспоненциально по мере того, как попадаются предложения, встречающиеся позже в документе). Исходные вестовые коэффициенты регулируются на основе связей между соответствующими узлами, где весовой коэффициент wxy связи, которая соединяет узлы x и y, вычисляется как балл модифицированного косинус сходства в соответствии с:
Figure 00000006
где части (например, слова) в предложении пронумерованы от 1 до n, и весовой коэффициент части i в предложении x представлен как xi. В одном варианте осуществления, весовой коэффициент части является частотой части в соответствующем предложении, деленной на количество предложений в документе, которые содержат часть.
Как рассмотрено выше, в одном варианте осуществления, третий алгоритм использует методику ранжирования страниц, которая идентифицирует характерные узлы в ориентированном графе. Одна конкретная методика ранжирования страниц, которая может быть реализована в качестве третьего алгоритма, рассматривается в документе под авторством Brin и других The Anatomy of a Large-Scale Hypertextual Websearch Engine, Computer Networks and ISDN Systems, 30, 1-7 (1998); и документе под авторством Mihalcea Graph-Based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization, Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL 2004), Барселона, Испания. В одном конкретном варианте осуществления каждый узел графа взвешен на основании весовых коэффициентов входящих связей от более поздних узлов, которые указывают на рассматриваемый узел, нормируемых с помощью весовых коэффициентов исходящих связей на которые указывает рассматриваемый узел. По существу, методика ранжирования страниц используется для идентификации доминирующих узлов, получаемых при случайном блуждании. Таким образом, весовой коэффициент (или балл) узла может быть вычислен как:
Figure 00000007
Весовые коэффициенты ребер из узла повторно нормируются для представления вероятности перехода. Выходными данными является массив баллов, один для каждого предложения. Данный подход имеет склонность придавать более высокий вес первым упоминаниям, что приводит к разбросу весовых коэффициентов по темам, где предложение, включающее в себя первое упоминание темы, рассматривается как представитель темы.
Как только предложению был выставлен балл в отношении информативности в соответствии с соответствующим алгоритмом, способ переходит к этапу 512. На этапе 512 блок 212 аннотирования определяет, является ли информативность предложения больше или равной первому определенному пороговому значению. Если блок 212 аннотирования решает на этапе 512, что информативность предложения меньше первого определенного порогового значения, тогда блок 212 аннотирования игнорирует предложение на этапе 516. Способ 500 затем переходит к этапу 520, где блок 212 аннотирования определяет, остались ли еще предложения для оценки.
В качестве альтернативы, если блок 212 аннотирования решает на этапе 512, что информативность предложения больше или равна первому определенному пороговому значению, тогда способ 500 переходит к этапу 514. На этапе 514 блок 212 аннотирования оценивает согласованность предложения; таким образом, этап 514 предназначен для сохранения читаемости каждого предложения аннотации, которая в конечном счете создается. В одном варианте осуществления, выставление баллов согласованности предложения осуществляется посредством присвоения весовых коэффициентов предложению на основании различных логических признаков, чье наличие делает предложение более или менее читаемым (например, находится ли предложение между кавычками, включает ли предложение вопрос, включает ли предложение местоимение, кажется ли что в предложении отсутствует кавычка, длина предложения, среди прочих признаков).
На этапе 518 блок 212 аннотирования определяет, является ли согласованность предложения большей или равной второму определенному пороговому значению. Если блок 212 аннотирования решает на этапе 518, что согласованность предложения меньше второго определенного порогового значения, тогда способ 500 переходит к этапу 516, и блок 212 аннотирования игнорирует предложение, как рассмотрено выше.
В качестве альтернативы, если блок 212 аннотирования решает на этапе 518, что согласованность предложения больше или равна второму определенному пороговому значению, тогда способ 500 переходит к этапу 520.
На этапе 520 блок 212 аннотирования определяет, есть ли еще предложения, оставшиеся для оценки. Если блок 212 аннотирования решает на этапе 520, что присутствуют предложения, оставшиеся для оценки, тогда способ 500 возвращается к этапу 508, и блок 212 аннотирования переходит, как описано выше, к выбору и оценке следующего предложения из документа.
В качестве альтернативы, если блок 212 аннотирования решает на этапе 520, что отсутствуют предложения, оставшиеся для оценки, тогда способ 500 переходит к этапу 522. В другом варианте осуществления, могут присутствовать предложения, которые не были оценены, но блок 212 аннотирования может принять решение о том, чтобы не оценивать дальше документ в любом случае (например, блок аннотирования может уже получить достаточное количество предложений) и просто продолжить. На этапе 522 блок 212 аннотирования генерирует подпоследовательность усеченных предложений. В одном варианте осуществления, подпоследовательность генерируется, используя блок комбинаторной оптимизации.
В одном варианте осуществления, блок комбинаторной оптимизации использует методику динамического программирования, которая решает классическую задачу о ранце 0/1, как утверждается в документе под авторством Goddard «Dynamic Programming: 0-1 Knapsack Problem (2012, www.cse.unl.edu/~goddard/Courses/ CSCE310J), которая определяется следующим образом: для заданного набора из i элементов, где каждый элемент имеет весовой коэффициент и значение определяют, какие элементы поместить в ранец таким образом, чтобы весовой коэффициент был меньше или равен пределу и таким образом, чтобы суммарное значение было максимальным. Сформулированная с точки зрения аннотирования, проблема может быть выражена следующим образом:
Figure 00000008
таким образом, чтобы
Figure 00000009
(Уравнение 6)
При помощи стандартного решения динамического программирования для задачи о ранце 0/1, наиболее информативная подпоследовательность из предложений с 1 по i, которая имеет общую длину p, будет либо содержать предложение i, или она не будет содержать предложение i. Если длина предложения i больше p, тогда предложение i исключается, и блок 212 аннотирования выбирает наиболее информативную подпоследовательность из предложений с 1 по i-1. В противном случае, значением наиболее информативной подпоследовательности из предложений с 1 по i является максимум из двух чисел: (1) значение наиболее информативной подпоследовательности предложения с 1 по i-1, общая длина которой равна p; и сумма (а)+(b), где а является значением наиболее информативной подпоследовательности из предложений с 1 по i-1, общая длина которой равна p-длина(предложение i), и b является информативностью предложения i. Если условие (2) больше, тогда предложение i выбирается для включения в аннотацию; в противном случае, предложение i не выбирается.
Таким образом, при аннотировании, блоку оптимизации на этапе 522 предоставляется целевая длина подпоследовательности, наряду со всеми усеченными предложениями и их баллами информативности. Блок оптимизации затем возвращает наилучшую подпоследовательность предложений на основании целевой длины и информативности предложений. В одном варианте осуществления, очередность предложений в подпоследовательности соответствует очередности, в которой они появляются в документе.
На этапе 524 блок 212 аннотирования выводит подпоследовательность в качестве аннотации к документу (например, на оконечное устройство 108, 110, 112 или 114 пользователя, либо в базу 106 данных). Способ 500 затем завершается на этапе 526.
Фиг. 6 является блок-схемой, иллюстрирующей один вариант осуществления способа 600 выбора набора предложений для формирования аннотации к документу, в соответствии с настоящим изобретением. Способ 600 может быть реализован, например, в соответствии с этапом 522 способа 500 и на сервере 104 приложений, иллюстрируемом на Фиг. 1 и 2. По существу, при рассмотрении способа 600 упоминаются различные элементы, иллюстрируемые на Фиг. 2. Тем не менее, следует иметь в виду, что способ 600 не ограничивается реализацией с помощью конфигурации сервера, иллюстрируемой на Фиг. 2, и что такое упоминание главным образом выполняется, чтобы способствовать объяснению.
Способ 600 строит аннотацию по мере того, как он оценивает набор предложений предложение за предложением. Таким образом, аннотация может развиваться и меняться по мере того, как способ 600 проделывает свою работу над набором предложений.
Способ 600 начинается на этапе 602. На этапе 604 блок 212 аннотирования получает набор из N предложений, где каждое предложение было обработано в соответствии со способом 500, как описано выше. В дополнение, каждое предложение связано с баллом информативности, как описано выше, и длиной предложения.
На этапе 606 блок 212 аннотирования получает целевую длину аннотации. Целевая длина может быть длиной по умолчанию или может быть определена пользователем.
На этапе 608 блок 212 аннотирования рассматривает предложение i из набора из N предложений. В одном варианте осуществления, предложения выбираются из набора в очередности, в которой они появляются в исходном документе.
На этапе 610 блок 212 аннотирования усекает предложение. В одном варианте осуществления, усечение предложения задействует одно или более сокращений, которые исключают материал из предложений. В одном варианте осуществления, некоторые типы материала могут быть исключены или сокращены независимо от языка, на котором написано предложение (например, строки данных, префиксы жирного шрифта, материал, заключенный в скобки). Предложение усекается таким образом, чтобы не повлиять на согласованность предложения, несмотря на то, что усечение может повлиять на информативность предложения.
В другом варианте осуществления, некоторые типы материала, которые могут быть исключены или сокращены, являются специфичными для конкретных языков. Например, в одном специфичном для английского языка варианте осуществления, этап 610 может задействовать удаление англоязычного понятия «который» (which is). В качестве альтернативы, этап 610 может задействовать замену англоязычного понятия «который имеет» (which have) на англоязычное понятие «с» (with), или замену понятия «который [глагол]» на «[глагол]щий» (например, «который идет», становится «идущий»). В дополнительном варианте осуществления, этап 610 может задействовать понижение согласованности пары англоязычных клаузул с перекрестно ссылающимися объектами до их пар глаголов (например, «Вредоносная компьютерная программа разрушала данные в течение периода в пять месяцев, и программа инфицировала почти сто компьютеров» становится «Вредоносная компьютерная программа разрушала данные в течение периода в пять месяцев, и инфицировала почти сто компьютеров»). В еще одном дополнительном варианте осуществления, этап 610 может задействовать предположение перекрестно ссылающегося компонента, который разрешает ссылки на именные группы, местоимения и/или имена собственные.
На этапе 612 блок 212 аннотирования определяет, является ли текущая длинна аннотации больше целевой длины. Если блок 212 аннотирования решает на этапе 612, что текущая длина аннотации больше целевой длины, тогда блок 212 аннотирования устанавливает существующий балл в качестве балла аннотации на этапе 622, и предложение i не включается в аннотацию. В одном варианте осуществления, балл инициализируется в начале способа 600 как равный нулю и увеличивается в соответствии с баллами предложений, которые выбираются для включения в аннотацию.
Альтернативно, если блок 212 аннотирования решает на этапе 612, что текущая длина аннотации не больше целевой длинны, тогда способ 600 переходит к этапу 614. На этапе 614 блок 212 аннотирования определяет, является ли длина выбранного предложения i меньшей или равной длине текущей аннотации. В одном варианте осуществления, аннотация инициализируется в качестве пустого набора, состав которого увеличивается по мере того, как предложения выбираются для включения в аннотацию.
Если блок 212 аннотирования решает на этапе 614, что длина выбранного предложения i больше длины текущей аннотации, тогда блок 212 аннотирования устанавливает существующий балл в качестве балла аннотации на этапе 622, и предложение i не включается в аннотацию, как рассматривается выше.
В качестве альтернативы, если блок 212 аннотирования решает на этапе 614, что длина выбранного предложения i меньше или равна длине текущей аннотации, то способ 600 переходит к этапу 616. На этапе 616, блок 212 аннотирования вычисляет новый балл для аннотации, который учитывает включение предложения i. Как рассматривается выше, новый балл является максимальным из двух чисел: (1) значения наиболее информативной подпоследовательности из предложений с 1 по i-1, общая длина которой равна p; и (2) суммы (а)+(b), где а является значением наиболее информативной подпоследовательности из предложений с 1 по i-1, общая длина которой равна p-длина (предложения i), a b является информативностью предложения i. В одном варианте осуществления, если предложение не было усечено, то балл (b) информативности предложения был уже вычислен блоком 212 аннотирования (например, в соответствии со способом 500).
На этапе 618 блок 212 аннотирования определяет, больше ли новый балл существующего балла. Если блок 212 аннотирования решает на этапе 618, что новый балл не больше существующего балла, тогда блок 212 аннотирования устанавливает существующий балл в качестве балла аннотации на этапе 622, и предложение i не включается в аннотацию, как рассматривается выше.
В качестве альтернативы, если блок 212 аннотирования решает на этапе 618, что новый балл больше существующего балла, тогда блок аннотирования устанавливает новый балл в качестве балла аннотации на этапе 620. В данном случае, предложение i может быть включено в аннотацию. Если предложение i является первым предложением, которое будет добавлено в аннотацию, тогда предложение i включается безусловно. Если предложение i не является первым предложением, которое будет добавлено в аннотацию, тогда в одном варианте осуществления, предложение i включается безусловно. Тем не менее, в другом варианте осуществления, предложение i включается, если оно относится к аннотации, которая составлена до этого. Относится ли предложение i к аннотации, может определяться посредством вычисления наложения слов, содержащихся в предложении i, со словами, содержащимися в составленной до этого аннотации, и определения того, удовлетворяет ли наложение пороговому значению.
Как только балл аннотации был установлен в соответствии либо с этапом 620, либо этапом 622, способ 600 переходит к этапу 624, и блок аннотирования определяет, есть ли еще предложения в наборе из N предложений, оставшиеся для оценки. Если блок 212 аннотирования решает на этапе 624, что есть еще предложения, оставшиеся для оценки, тогда способ 600 возвращается к этапу 608, и блок 212 аннотирования рассматривает новое предложение для оценки, как рассматривается выше.
В качестве альтернативы, если блок 212 аннотирования решает на этапе 624, что нет предложений оставшихся для оценки, тогда способ 600 завершается на этапе 626.
Фиг. 7 является высокоуровневой структурной схемой настоящего изобретения, реализованного при помощи вычислительного устройства 700 общего назначения. В одном варианте осуществления, вычислительное устройство 700 общего назначения развернуто в качестве сервера приложений, такого как AS 104, иллюстрируемый на Фиг. 1. Следует понимать, что варианты осуществления изобретения могут быть реализованы в качестве физического устройства или подсистемы, которая соединена с процессором посредством канала связи. Вследствие этого, в одном варианте осуществления, вычислительное устройство 700 общего назначения содержит процессор 702, память 704, модуль 705 аннотирования, и различные устройства 706 ввода/вывода (I/O), такие как дисплей, клавиатура, манипулятор типа мышь, модем, микрофон, громкоговорители, сенсорный экран, адаптируемое устройство I/O и подобное. В одном варианте осуществления, по меньшей мере, одно устройство I/O является запоминающим устройством (например, дисковым накопителем, накопителем на оптическом диске, накопителем на гибком диске).
В качестве альтернативы, варианты осуществления настоящего изобретения (например, модуль 705 аннотирования) могут быть представлены посредством одного или более приложений программного обеспечения (или даже комбинации программного и аппаратного обеспечения, например, используя Проблемно Ориентированные Интегральные Микросхемы (ASIC)), где программное обеспечение загружается с запоминающего носителя информации (например, устройств 706 I/O) и исполняется процессором 702 в памяти 704 вычислительного устройства 700 общего назначения. Таким образом, в одном варианте осуществления, модуль 705 аннотирования для описываемого здесь автоматического аннотирования электронного документа со ссылкой на предшествующие Фигуры, может храниться на не временном машиночитаемом носителе информации (например, RAM, магнитном или оптическом накопителе или дискете, и подобном).
Следует отметить, что несмотря на то, что явным образом не указано, один или более этапы описываемых здесь способов могут включать в себя этап сохранения, отображения и/или вывода, как того требуется для конкретного применения. Другими словами, любые данные, записи, поля, и/или промежуточные результаты, рассмотренные в способах, могут быть сохранены, отображены, и/или выведены на другое устройство, как того требуется для конкретного применения. Кроме того, для этапов или блоков на сопроводительных Фигурах, в которых размещаются операция определения или задействуют принятие решения, не обязательно требуется, чтобы на практике были реализованы обе ветви операции определения. Другими словами, одна из ветвей операции определения может быть считаться опциональным этапом.
Несмотря на то, что здесь были показаны и описаны подробно различные варианты осуществления, которые включают в себя идеи настоящего изобретения, специалистам в соответствующей области будут легко очевидны многие другие измененные варианты осуществления, которые также включают в себя эти идеи.

Claims (23)

1. Способ аннотирования электронного документа, содержащий этапы, на которых:
генерируют вектор признаков для электронного документа, при этом вектор признаков содержит множество признаков электронного документа;
присваивают весовой коэффициент каждому из множества признаков;
назначают балл аннотируемости электронному документу в соответствии с весовым коэффициентом, присвоенным каждому из множества признаков, при этом балл аннотируемости указывает, является ли электронный документ аннотируемым;
определяют, что электронный документ является аннотируемым;
разбивают электронный документ на множество частей, при этом каждая из множества частей связана с соответствующей длиной, соответствующим баллом информативности и соответствующим баллом согласованности;
автоматически выбирают подмножество из множества частей таким образом, что совокупный балл информативности этого подмножества является максимальным, тогда как совокупная длина данного подмножества меньше или равна максимальной длине; и
компонуют упомянутое подмножество в качестве аннотации к электронному документу.
2. Способ по п. 1, в котором упомянутое подмножество содержит меньше, чем все из множества частей.
3. Способ по п. 1, в котором по меньшей мере одна из частей представляет собой предложение.
4. Способ по п. 1, в котором соответствующий балл информативности для заданной части из множества частей присваивается в соответствии с методикой выставления баллов, которая является независимой от языка.
5. Способ по п. 4, в котором методика выставления баллов присваивает весовые коэффициенты множеству признаков заданной части в соответствии с набором программируемых вручную правил.
6. Способ по п. 1, в котором соответствующий балл информативности для заданной части из множества частей присваивается в соответствии с методикой выставления баллов, которая является зависимой от языка.
7. Способ по п. 6, в котором методика выставления баллов является методикой контролируемого машинного обучения, которая использует статистический классификатор.
8. Способ по п. 7, в котором статистический классификатор соответствует методу опорных векторов.
9. Способ по п. 6, в котором методика выставления баллов является методикой неконтролируемого машинного обучения, которая представляет заданную часть в качестве взвешенного узла в ориентированном графе.
10. Способ по п. 1, в котором соответствующий балл информативности для каждой из множества частей является, по меньшей мере, равным пороговому значению.
11. Способ по п. 1, в котором соответствующие баллы согласованности каждой из множества частей являются, по меньшей мере, равными пороговому значению.
12. Способ по п. 1, дополнительно содержащий этап, на котором усекают каждую из множества частей вслед за этапом разбиения, но перед этапом автоматического выбора.
13. Способ по п. 1, в котором этап автоматического выбора выполняется при помощи блока комбинаторной оптимизации.
14. Способ по п. 1, в котором этап автоматического выбора содержит этап, на котором оценивают каждую из множества частей по отдельности для включения в упомянутое подмножество.
15. Способ по п. 14, в котором этап оценивания содержит этап, на котором исключают из включения в упомянутое подмножество те из множества частей, соответствующие длины которых превышают текущую совокупную длину упомянутого подмножества.
16. Способ по п. 14, в котором этап оценивания содержит, для заданной части из множества частей, этапы, на которых:
вычисляют первую сумму, при этом первая сумма является суммой соответствующих баллов информативности, связанных с наиболее информативным подмножеством из множества частей, которое исключает заданную часть и имеет совокупную длину, меньшую или равную максимальной длине; и
вычисляют вторую сумму, при этом вторая сумма является суммой первого значения и второго значения, причем первое значение равно первой сумме минус соответствующая длина заданной части, а второе значение является соответствующим баллом информативности заданной части; и
определяют, включить ли заданную часть в упомянутое подмножество, на основе сравнения первой суммы и второй суммы.
17. Способ по п. 16, в котором этап определения содержит этапы, на которых:
включают заданную часть в упомянутое подмножество, когда вторая сумма больше первой суммы; и
исключают заданную часть из данного подмножества, когда первая сумма больше второй суммы.
18. Способ по п. 1, в котором множество частей компонуется в соответствии с очередностью, в которой каждая из множества частей появляется в электронном документе.
19. Способ по п. 1, в котором весовой коэффициент выясняется автоматически.
20. Способ по п. 19, в котором этап присваивания весового коэффициента содержит, для заданного признака из множества признаков, этапы, на которых:
повышают весовой коэффициент, когда заданный признак возникает, по меньшей мере, с определенной частотой в наборе обучающих примеров, содержащих документы, которые являются аннотируемыми; и
понижают весовой коэффициент, когда заданный признак возникает, по меньшей мере, с определенной частотой в наборе обучающих примеров, содержащих документы, которые не являются аннотируемыми.
21. Способ по п. 1, в котором этапы присваивания весового коэффициента и назначения балла аннотируемости выполняются таким образом, который является характерным для языка, на котором написан электронный документ.
22. Вещественный машиночитаемый носитель информации, содержащий исполняемую программу для аннотирования электронного документа, при этом программа выполняет операции, содержащие:
генерирование вектора признаков для электронного документа, при этом вектор признаков содержит множество признаков электронного документа;
присваивание весового коэффициента каждому из множества признаков;
назначение балла аннотируемости электронному документу в соответствии с весовым коэффициентом, присвоенным каждому из множества признаков, при этом балл аннотируемости указывает, является ли электронный документ аннотируемым;
определение того, что электронный документ является аннотируемым;
разбиение электронного документа на множество частей, при этом каждая из множества частей связана с соответствующей длиной, соответствующим баллом информативности и соответствующим баллом согласованности;
автоматический выбор подмножества из множества частей таким образом, что совокупный балл информативности этого подмножества является максимальным, тогда как совокупная длина данного подмножества меньше или равна максимальной длине; и
компонование упомянутого подмножества в качестве аннотации к электронному документу.
23. Система для аннотирования электронного документа, содержащая:
процессор; и
машиночитаемый носитель информации, содержащий исполняемую программу, которая предписывает процессору выполнять операции, содержащие:
генерирование вектора признаков для электронного документа, при этом вектор признаков содержит множество признаков электронного документа;
присваивание весового коэффициента каждому из множества признаков;
назначение балла аннотируемости электронному документу в соответствии с весовым коэффициентом, присвоенным каждому из множества признаков, при этом балл аннотируемости указывает, является ли электронный документ аннотируемым;
определение того, что электронный документ является аннотируемым;
разбиение электронного документа на множество частей, при этом каждая из множества частей связана с соответствующей длиной, соответствующим баллом информативности и соответствующим баллом согласованности;
автоматический выбор подмножества из множества частей таким образом, что совокупный балл информативности этого подмножества является максимальным, тогда как совокупная длина данного подмножества меньше или равна максимальной длине; и
компонование упомянутого подмножества в качестве аннотации к электронному документу.
RU2014119239/08A 2011-10-14 2012-09-11 Способ и устройство для автоматического аннотирования содержимого электронных документов RU2595594C2 (ru)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
GBGB1117848.0 2011-10-14
GBGB1117848.0A GB201117848D0 (en) 2011-10-14 2011-10-14 Text compression
GBGB1121033.3 2011-12-07
GBGB1121033.3A GB201121033D0 (en) 2011-12-07 2011-12-07 Text compression
US201161568188P 2011-12-08 2011-12-08
US61/568,188 2011-12-08
PCT/US2012/054572 WO2013066497A1 (en) 2011-10-14 2012-09-11 Method and apparatus for automatically summarizing the contents of electronic documents

Publications (2)

Publication Number Publication Date
RU2014119239A RU2014119239A (ru) 2015-11-20
RU2595594C2 true RU2595594C2 (ru) 2016-08-27

Family

ID=48192575

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014119239/08A RU2595594C2 (ru) 2011-10-14 2012-09-11 Способ и устройство для автоматического аннотирования содержимого электронных документов

Country Status (9)

Country Link
US (2) US9916309B2 (ru)
EP (1) EP2756425B1 (ru)
JP (1) JP6110389B2 (ru)
CN (1) CN103874994B (ru)
AU (1) AU2012327239B8 (ru)
CA (1) CA2851772C (ru)
IL (1) IL231802A (ru)
RU (1) RU2595594C2 (ru)
WO (1) WO2013066497A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2666277C1 (ru) * 2017-09-06 2018-09-06 Общество с ограниченной ответственностью "Аби Продакшн" Сегментация текста

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201217334D0 (en) 2012-09-27 2012-11-14 Univ Swansea System and method for data extraction and storage
WO2014078449A2 (en) * 2012-11-13 2014-05-22 Chen Steve Xi Intelligent information summarization and display
US9576249B2 (en) * 2013-03-18 2017-02-21 Educational Testing Service System and method for automated scoring of a summary-writing task
US9727641B2 (en) * 2013-04-25 2017-08-08 Entit Software Llc Generating a summary based on readability
US20140372419A1 (en) * 2013-06-13 2014-12-18 Microsoft Corporation Tile-centric user interface for query-based representative content of search result documents
JP6150282B2 (ja) * 2013-06-27 2017-06-21 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
WO2015033341A1 (en) * 2013-09-09 2015-03-12 Sami Shamoon College Of Engineering (R.A.) Polytope based summarization method
US9832284B2 (en) 2013-12-27 2017-11-28 Facebook, Inc. Maintaining cached data extracted from a linked resource
US10133710B2 (en) * 2014-02-06 2018-11-20 Facebook, Inc. Generating preview data for online content
US10282469B2 (en) 2014-03-25 2019-05-07 Oath Inc. System and method for summarizing a multimedia content item
US9940322B2 (en) * 2014-03-31 2018-04-10 International Business Machines Corporation Term consolidation for indices
US9317498B2 (en) 2014-05-23 2016-04-19 Codeq Llc Systems and methods for generating summaries of documents
US10567327B2 (en) 2014-05-30 2020-02-18 Facebook, Inc. Automatic creator identification of content to be shared in a social networking system
KR20150138742A (ko) * 2014-06-02 2015-12-10 삼성전자주식회사 컨텐츠 처리 방법 및 그 전자 장치
KR20160058587A (ko) * 2014-11-17 2016-05-25 삼성전자주식회사 문서 요약을 위한 디스플레이 장치 및 방법
JP6232390B2 (ja) * 2015-02-10 2017-11-15 日本電信電話株式会社 テキスト要約装置、方法、及びプログラム
CN106033567B (zh) * 2015-03-18 2019-10-29 联想(北京)有限公司 一种信息处理方法及电子设备
US20160299881A1 (en) * 2015-04-07 2016-10-13 Xerox Corporation Method and system for summarizing a document
US9946924B2 (en) * 2015-06-10 2018-04-17 Accenture Global Services Limited System and method for automating information abstraction process for documents
US9755996B2 (en) 2015-08-11 2017-09-05 International Business Machines Corporation Messaging in attention critical environments
US10191970B2 (en) 2015-08-19 2019-01-29 International Business Machines Corporation Systems and methods for customized data parsing and paraphrasing
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
US10762283B2 (en) * 2015-11-20 2020-09-01 Adobe Inc. Multimedia document summarization
US20170161372A1 (en) * 2015-12-04 2017-06-08 Codeq Llc Method and system for summarizing emails and extracting tasks
WO2017147785A1 (en) * 2016-03-01 2017-09-08 Microsoft Technology Licensing, Llc Automated commentary for online content
FI20165240A (fi) * 2016-03-22 2017-09-23 Utopia Analytics Oy Menetelmä, järjestelmä ja väline sisällön moderointiin
US10776846B2 (en) * 2016-07-27 2020-09-15 Nike, Inc. Assortment optimization
US9946933B2 (en) * 2016-08-18 2018-04-17 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture
US10453354B2 (en) * 2016-12-28 2019-10-22 Coursera, Inc. Automatically generated flash cards
EP3382575A1 (en) 2017-03-27 2018-10-03 Skim It Ltd Electronic document file analysis
US10692594B2 (en) * 2017-05-02 2020-06-23 eHealth Technologies Methods for improving natural language processing with enhanced automated screening for automated generation of a clinical summarization report and devices thereof
US11842251B2 (en) 2017-06-12 2023-12-12 Microsoft Technology Licensing, Llc Automated comprehension and interest-based optimization of content
JP6972788B2 (ja) * 2017-08-31 2021-11-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
CN107766324B (zh) * 2017-09-25 2020-09-01 浙江大学 一种基于深度神经网络的文本一致性分析方法
US10902478B2 (en) * 2017-09-25 2021-01-26 International Business Machines Corporation Creative support for ad copy editors using lexical ambiguity
JP6867963B2 (ja) * 2018-02-26 2021-05-12 日本電信電話株式会社 要約評価装置、方法、プログラム、及び記憶媒体
JP6865183B2 (ja) * 2018-02-26 2021-04-28 日本電信電話株式会社 要約評価装置、方法、プログラム、及び記憶媒体
US10685050B2 (en) * 2018-04-23 2020-06-16 Adobe Inc. Generating a topic-based summary of textual content
EP3575987A1 (en) * 2018-06-01 2019-12-04 Fortia Financial Solutions Extracting from a descriptive document the value of a slot associated with a target entity
US10831834B2 (en) * 2018-11-27 2020-11-10 Sap Se Unsupervised document summarization by attention and reconstruction
US11238215B2 (en) * 2018-12-04 2022-02-01 Issuu, Inc. Systems and methods for generating social assets from electronic publications
CN111382560A (zh) * 2018-12-13 2020-07-07 鸿合科技股份有限公司 一种制作课件方法及系统、电子设备
US11500942B2 (en) * 2019-06-07 2022-11-15 Adobe Inc. Focused aggregation of classification model outputs to classify variable length digital documents
US11941706B2 (en) 2019-09-16 2024-03-26 K1X, Inc. Machine learning system for summarizing tax documents with non-structured portions
US11610588B1 (en) * 2019-10-28 2023-03-21 Meta Platforms, Inc. Generating contextually relevant text transcripts of voice recordings within a message thread
CN111079422B (zh) * 2019-12-13 2023-07-14 北京小米移动软件有限公司 关键词提取方法、装置及存储介质
US11397892B2 (en) 2020-05-22 2022-07-26 Servicenow Canada Inc. Method of and system for training machine learning algorithm to generate text summary
WO2022026416A1 (en) * 2020-07-27 2022-02-03 Overlooked, Inc. System and method for addressing disinformation
US11461539B2 (en) * 2020-07-29 2022-10-04 Docusign, Inc. Automated document highlighting in a digital management platform
US11263407B1 (en) * 2020-09-01 2022-03-01 Rammer Technologies, Inc. Determining topics and action items from conversations
US11973653B2 (en) 2020-11-11 2024-04-30 Mapped Inc. Automatic discovery of automated digital systems through link salience
US11093718B1 (en) * 2020-12-01 2021-08-17 Rammer Technologies, Inc. Determining conversational structure from speech
US12130855B2 (en) * 2021-06-08 2024-10-29 InCloud, LLC System and method for constructing digital documents
US12079566B2 (en) * 2021-06-08 2024-09-03 InCloud, LLC System and method for constructing digital documents
US11302314B1 (en) 2021-11-10 2022-04-12 Rammer Technologies, Inc. Tracking specialized concepts, topics, and activities in conversations
US11922125B2 (en) 2022-05-06 2024-03-05 Mapped Inc. Ensemble learning for extracting semantics of data in building systems
US11599713B1 (en) 2022-07-26 2023-03-07 Rammer Technologies, Inc. Summarizing conversational speech

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0933712A2 (en) * 1998-01-30 1999-08-04 Xerox Corporation Method and system for generating document summaries with navigation information
RU2427896C2 (ru) * 2005-09-09 2011-08-27 Майкрософт Корпорейшн Аннотирование документов в совместно работающих приложениях данными в разрозненных информационных системах

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7051024B2 (en) * 1999-04-08 2006-05-23 Microsoft Corporation Document summarizer for word processors
US6353824B1 (en) * 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
US6789230B2 (en) * 1998-10-09 2004-09-07 Microsoft Corporation Creating a summary having sentences with the highest weight, and lowest length
US6317708B1 (en) * 1999-01-07 2001-11-13 Justsystem Corporation Method for producing summaries of text document
US6766287B1 (en) * 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
US7302637B1 (en) * 2000-07-24 2007-11-27 Research In Motion Limited System and method for abbreviating information sent to a viewing device
JP2002073644A (ja) * 2000-08-28 2002-03-12 Suuri Giken:Kk 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体
US7607083B2 (en) * 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
US7139752B2 (en) * 2003-05-30 2006-11-21 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations
CN1609845A (zh) * 2003-10-22 2005-04-27 国际商业机器公司 用于改善由机器自动生成的摘要的可读性的方法和装置
US7346494B2 (en) * 2003-10-31 2008-03-18 International Business Machines Corporation Document summarization based on topicality and specificity
CN1614585A (zh) * 2003-11-07 2005-05-11 摩托罗拉公司 文本概括
US7310633B1 (en) * 2004-03-31 2007-12-18 Google Inc. Methods and systems for generating textual information
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
US7698339B2 (en) * 2004-08-13 2010-04-13 Microsoft Corporation Method and system for summarizing a document
JP2006059082A (ja) * 2004-08-19 2006-03-02 Yokohama National Univ 文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム
US20060206806A1 (en) * 2004-11-04 2006-09-14 Motorola, Inc. Text summarization
US20060122889A1 (en) * 2004-11-22 2006-06-08 Microsoft Corporation System and method for managing a plurality of content items displayed in a particular placement position on a rendered page
US7831597B2 (en) * 2005-11-18 2010-11-09 The Boeing Company Text summarization method and apparatus using a multidimensional subspace
US7752204B2 (en) * 2005-11-18 2010-07-06 The Boeing Company Query-based text summarization
US7702680B2 (en) * 2006-11-02 2010-04-20 Microsoft Corporation Document summarization by maximizing informative content words
US20080109454A1 (en) * 2006-11-03 2008-05-08 Willse Alan R Text analysis techniques
US7783640B2 (en) 2006-11-03 2010-08-24 Oracle International Corp. Document summarization
US8543380B2 (en) * 2007-10-05 2013-09-24 Fujitsu Limited Determining a document specificity
US20100161378A1 (en) * 2008-12-23 2010-06-24 Vanja Josifovski System and Method for Retargeting Advertisements Based on Previously Captured Relevance Data
JP2009146447A (ja) * 2009-03-23 2009-07-02 Nec Corp テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
JP5273735B2 (ja) * 2009-10-13 2013-08-28 日本電信電話株式会社 テキスト要約方法、その装置およびプログラム
JP5235918B2 (ja) * 2010-01-21 2013-07-10 日本電信電話株式会社 テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
US8594998B2 (en) * 2010-07-30 2013-11-26 Ben-Gurion University Of The Negev Research And Development Authority Multilingual sentence extractor
US20120076414A1 (en) * 2010-09-27 2012-03-29 Microsoft Corporation External Image Based Summarization Techniques
TWI453609B (zh) * 2011-11-23 2014-09-21 Esobi Inc Automatic summary judgment method for file cluster
US8886651B1 (en) * 2011-12-22 2014-11-11 Reputation.Com, Inc. Thematic clustering
US9959579B2 (en) * 2013-03-12 2018-05-01 Microsoft Technology Licensing, Llc Derivation and presentation of expertise summaries and interests for users
US10042924B2 (en) * 2016-02-09 2018-08-07 Oath Inc. Scalable and effective document summarization framework
US9767165B1 (en) * 2016-07-11 2017-09-19 Quid, Inc. Summarizing collections of documents

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0933712A2 (en) * 1998-01-30 1999-08-04 Xerox Corporation Method and system for generating document summaries with navigation information
RU2427896C2 (ru) * 2005-09-09 2011-08-27 Майкрософт Корпорейшн Аннотирование документов в совместно работающих приложениях данными в разрозненных информационных системах

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2666277C1 (ru) * 2017-09-06 2018-09-06 Общество с ограниченной ответственностью "Аби Продакшн" Сегментация текста

Also Published As

Publication number Publication date
US9916309B2 (en) 2018-03-13
AU2012327239A1 (en) 2013-06-27
AU2012327239B2 (en) 2015-09-24
RU2014119239A (ru) 2015-11-20
WO2013066497A1 (en) 2013-05-10
JP6110389B2 (ja) 2017-04-05
CA2851772A1 (en) 2013-05-10
IL231802A (en) 2017-02-28
EP2756425A1 (en) 2014-07-23
US10599721B2 (en) 2020-03-24
AU2012327239B8 (en) 2015-10-29
EP2756425A4 (en) 2015-06-03
US20150095770A1 (en) 2015-04-02
CN103874994B (zh) 2017-09-08
EP2756425B1 (en) 2020-11-11
JP2014528620A (ja) 2014-10-27
CN103874994A (zh) 2014-06-18
US20180196804A1 (en) 2018-07-12
CA2851772C (en) 2017-03-28
WO2013066497A9 (en) 2014-01-03
IL231802A0 (en) 2014-05-28

Similar Documents

Publication Publication Date Title
RU2595594C2 (ru) Способ и устройство для автоматического аннотирования содержимого электронных документов
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
US10169453B2 (en) Automatic document summarization using search engine intelligence
US10298528B2 (en) Topic thread creation
US9720904B2 (en) Generating training data for disambiguation
US20150067476A1 (en) Title and body extraction from web page
US20110219299A1 (en) Method and system of providing completion suggestion to a partial linguistic element
US9286408B2 (en) Analyzing uniform resource locators
JP5199768B2 (ja) タグ付け支援方法とその装置、プログラム及び記録媒体
Gali et al. Extracting representative image from web page
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
KR20110094563A (ko) 웹 문서의 링크-키워드 관계를 이용한 관련어 검색 방법 및 검색 시스템
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.
KR101583073B1 (ko) 기사 요약 서비스 서버 및 방법
JPH11282874A (ja) 情報フィルタリング方法および装置
WO2017056164A1 (ja) 情報提示システム、及び情報提示方法
Huang et al. Web content adaptation for mobile device: A fuzzy-based approach
Jones et al. Automatically selecting striking images for social cards
JP5495425B2 (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
US20230004619A1 (en) Providing smart web links
Teng et al. Notice of Violation of IEEE Publication Principles: A foundation for knowledge system with application in information retrieval and knowledge acquisition
Ma et al. An FW-BF Based Approach on Elimination of Duplicated Web Pages
JP2008217047A (ja) Web文書分割方法、システム及びプログラム
JP2011113098A (ja) 伏せ字を含む文章を修正するための伏せ字修正プログラム、方法及び文章解析サーバ

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20170817

PC41 Official registration of the transfer of exclusive right

Effective date: 20180507

MM4A The patent is invalid due to non-payment of fees

Effective date: 20200912