RU2377645C2 - Способ и система для классификации дисплейных страниц с помощью рефератов - Google Patents

Способ и система для классификации дисплейных страниц с помощью рефератов Download PDF

Info

Publication number
RU2377645C2
RU2377645C2 RU2005113190/09A RU2005113190A RU2377645C2 RU 2377645 C2 RU2377645 C2 RU 2377645C2 RU 2005113190/09 A RU2005113190/09 A RU 2005113190/09A RU 2005113190 A RU2005113190 A RU 2005113190A RU 2377645 C2 RU2377645 C2 RU 2377645C2
Authority
RU
Russia
Prior art keywords
abstracting
objects
web page
sentence
summarization
Prior art date
Application number
RU2005113190/09A
Other languages
English (en)
Other versions
RU2005113190A (ru
Inventor
Бэньюй ЧЖАН (US)
Бэньюй ЧЖАН
До ШЭНЬ (US)
До ШЭНЬ
Хуа-Цзюнь ЦЗЭН (US)
Хуа-Цзюнь ЦЗЭН
Вэй-Ин МА (US)
Вэй-Ин МА
Чжэн ЧЭНЬ (US)
Чжэн ЧЭНЬ
Original Assignee
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн
Publication of RU2005113190A publication Critical patent/RU2005113190A/ru
Application granted granted Critical
Publication of RU2377645C2 publication Critical patent/RU2377645C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Изобретение относится к средствам обеспечения классификации информации. Техническим результатом является повышение достоверности обрабатываемой информации. Система классификации web-страниц использует систему реферирования web-страниц для выработки рефератов web-страниц. Реферат web-страницы может включать в себя предложения web-страницы, которые являются наиболее тесно связанными с главной темой web-страницы. Система реферирования может объединять преимущества множества методов реферирования, чтобы выявлять предложения web-страницы, которые представляют главную тему web-страницы. Когда реферат выработан, система классификации может применить традиционные методы классификации к реферату, чтобы классифицировать web-страницу. Система классификации может использовать традиционные методы классификации, такие как упрощенный байесовский классификатор или метод опорных векторов, чтобы выявить классификации web-страницы на основании реферата, выработанного системой реферирования. 7 н. и 59 з.п. ф-лы, 9 ил., 1 табл.

Description

Область техники, к которой относится изобретение
Описанная технология относится в общем к автоматической классификации информации.
Предшествующий уровень техники
Многие услуги поисковых средств, такие как Google и Overture, обеспечивают поиск информации, которая доступна через Интернет. Эти услуги поисковых механизмов позволяют пользователям искать дисплейные страницы, такие как web-страницы, которые могут интересовать пользователей. После того как пользователь представляет запрос, который включает в себя поисковые термины, услуга поискового средства выявляет web-страницы, которые могут относиться к этим поисковым терминам. Чтобы быстро выявить релевантные web-страницы, услуги поисковых средств могут поддерживать отображение кодовых слов в web-страницы. Это отображение может вырабатываться путем «ползания» по сети (т.е. по Всемирной паутине), чтобы выявить ключевые слова каждой web-страницы. Для осуществления ползания по сети услуга поискового средства может использовать список корневых web-страниц для выявления всех web-страниц, которые доступны через эти корневые web-страницы. Ключевые слова любой конкретной web-страницы могут быть выявлены с помощью различных общеизвестных информационных поисковых методов, таких как выявление слов заголовка, слов, введенных в метаданные web-страницы, слов, которые выделяются, и т.д. Услуга поискового средства может вырабатывать коэффициент релевантности, чтобы указывать, насколько релевантной может быть информация web-страницы для поискового запроса, на основании близости каждого совпадения, популярности web-страницы (к примеру, ранг страницы (PageRank) Google) и т.д. Услуга поискового средства затем отображает пользователю ссылки на эти web-страницы в порядке, который базируется на их ранжировании.
Хотя услуги поисковых средств могут выдавать много web-страниц в качестве результата поиска, представление web-страниц в ранговом порядке может затруднить пользователю реальное нахождение тех web-страниц, которые особенно интересны пользователю. Поскольку web-страницы, которые представлены первыми, могут быть направлены на популярные темы, пользователю, интересующемуся неясной темой, может понадобиться просмотреть многие страницы результата поиска, чтобы найти интересующую его web-страницу. Чтобы облегчить пользователю нахождение интересующих его web-страниц, web-страницы результата поиска могут быть представлены в иерархической организации на основании какого-нибудь распределения по классам или категориям web-страниц. Например, если пользователь представил поисковый запрос на «court battles» («битвы на корте» или «судебные схватки»), результат поиска может содержать web-страницы, которые можно классифицировать как относящиеся к спорту или относящиеся к праву. Пользователь может предпочесть, чтобы ему сначала представили перечень классификаций web-страниц, так что пользователь сможет выбрать классификацию web-страниц, которая его интересует. К примеру, пользователю сначала может быть представлено указание, что web-страницы результата поиска классифицированы как относящиеся к спорту и относящиеся к праву. Пользователь затем может выбрать относящуюся к праву классификацию, чтобы просмотреть web-страницы, которые относятся к праву. В противоположность этому, поскольку спортивные web-страницы более популярны, чем правовые web-страницы, пользователю может потребоваться просмотреть много страниц, чтобы найти относящиеся к праву web-страницы, если наиболее популярные web-страницы представлены первыми.
Было бы непрактично вручную классифицировать миллионы web-страниц, которые доступны в настоящее время. Хотя для классификации основанного на тексте содержания использованы методы автоматической классификации, эти методы не применимы в общем случае к классификации web-страниц. Web-страницы имеют организацию, которая включает в себя шумовое содержание, такое как реклама или навигационная панель, которое не относится напрямую к главной теме web-страницы. В силу того что традиционные методы основанной на тексте классификации будут использовать такое шумовое содержание при классификации web-страниц, эти методы будут иметь тенденцию вырабатывать неверные классификации web-страниц.
Желательно иметь метод классификации для web-страниц, который базировал бы классификацию web-страниц на главной теме web-страницы и придавал мало значения шумовому содержанию web-страницы.
Раскрытие изобретения
Система классификации и обобщения классифицирует дисплейные страницы, такие как web-страницы, на основании автоматически вырабатываемых рефератов дисплейных страниц. В одном варианте осуществления система классификации web-страниц использует систему реферирования web-страниц, чтобы вырабатывать рефераты web-страниц. Реферат web-страницы может включать в себя предложения этой web-страницы, которые наиболее тесно связаны с главной темой web-страницы. Система реферирования может сочетать преимущества многих методов реферирования, чтобы выявлять предложения web-страницы, которые представляют главную тему web-страницы. Когда реферат вырабатывается, система классификации может применить традиционные методы классификации к реферату, чтобы классифицировать web-страницу.
Краткое описание чертежей
Фиг.1 - блок-схема, которая иллюстрирует компоненты системы классификации и системы реферирования в одном варианте осуществления.
Фиг.2 - блок-схема алгоритма, которая иллюстрирует работу компонента классификации web-страницы в одном варианте осуществления.
Фиг.3 - блок-схема алгоритма, которая иллюстрирует работу компонента реферирования web-страницы в одном варианте осуществления.
Фиг.4 - блок-схема алгоритма, которая иллюстрирует работу компонента вычисления коэффициентов в одном варианте осуществления.
Фиг.5 - блок-схема алгоритма, которая иллюстрирует работу компонента вычисления коэффициентов Люна (Luhn) в одном варианте осуществления.
Фиг.6 - блок-схема алгоритма, которая иллюстрирует работу компонента вычисления коэффициента латентно-семантического анализа в одном варианте осуществления.
Фиг.7 - блок-схема алгоритма, которая иллюстрирует работу компонента вычисления коэффициента основной части содержания в одном варианте осуществления.
Фиг.8 - блок-схема алгоритма, которая иллюстрирует работу компонента вычисления управляемого коэффициента в одном варианте осуществления.
Фиг.9 - блок-схема алгоритма, которая иллюстрирует работу компонента вычисления объединенного коэффициента в одном варианте осуществления.
Подробное описание
Предлагаются способ и система для классификации дисплейных страниц на основании автоматически вырабатываемых рефератов дисплейных страниц. В одном варианте осуществления система классификации web-страниц использует систему реферирования web-страниц, чтобы вырабатывать рефераты web-страниц. Реферат web-страницы может включать в себя предложения этой web-страницы, которые наиболее тесно связаны с главной темой web-страницы. После того как реферат выработан, система классификации может применить традиционные методы классификации к реферату, чтобы классифицировать web-страницу. Система реферирования может сочетать преимущества многих методов реферирования, чтобы выявлять предложения web-страницы, которые представляют главную тему web-страницы. В одном варианте осуществления система реферирования использует метод реферирования Люна, метод реферирования на основе латентно-семантического анализа, метод реферирования основной части содержания и метод управляемого реферирования либо по отдельности, либо в сочетании, чтобы вырабатывать реферат. Система реферирования использует каждый из методов реферирования, чтобы вырабатывать специфичный для конкретного метода реферирования коэффициент для каждого предложения web-страницы. Затем система реферирования комбинирует специфичные для конкретного метода реферирования коэффициенты для предложения, чтобы выработать общий коэффициент для этого предложения. Система реферирования выбирает предложения web-страницы с наивысшими общими коэффициентами, чтобы сформировать реферат web-страницы. Система классификации может использовать традиционные методы классификации, такие как упрощенный байесовский классификатор или метод опорных векторов, чтобы выявлять классификации web-страницы на основании реферата, выработанного системой реферирования. При этом web-страницы могут автоматически классифицироваться на основании автоматической выработки рефератов web-страниц.
В одном варианте осуществления система реферирования использует модифицированную версию метода реферирования Люна, чтобы вырабатывать коэффициент Люна для каждого предложения web-страницы. Согласно методу реферирования Люна вырабатывается коэффициент для предложения, который базируется на «значимых словах», имеющихся в этом предложении. Чтобы выработать коэффициент для предложения, согласно методу реферирования Люна выявляется часть предложения, заключенная между значимыми словами, которые разнесены не более чем на определенное число незначащих слов. Согласно методу реферирования Люна коэффициент предложения вычисляется как отношение квадрата числа значащих слов, содержащихся в упомянутой заключенной между значащими словами части, к числу слов в этой заключенной между значащими словами части. (См. H.P. Luhn. The Automatic Creation of Literature Abstracts [Автоматическое создание литературных рефератов], 2 IBM J. Of Res. & Dev. No. 2,
159-65 (April 1958).) Система реферирования модифицирует метод реферирования Люна путем определения совокупности значащих слов для каждой классификации. К примеру, относящаяся к спорту классификация может иметь совокупность значащих слов, которая включает в себя «корт» («court»), «баскетбол» и «спорт», тогда как относящаяся к праву классификация может иметь совокупность значащих слов, которая включает в себя «суд» («court»), «адвокат» и «преступник». Система реферирования может выявлять совокупности значащих слов на основании обучающего набора web-страниц, которые классифицированы заранее. Система реферирования может выбирать наиболее часто используемые слова на web-страницах с определенной классификацией в качестве совокупности значащих слов для классификации. Система реферирования может также удалять из совокупности некоторые стоп-слова, которые могут представлять шумовое содержание. При подсчете коэффициента предложения web-страницы согласно модифицированному методу реферирования Люна вычисляется коэффициент для каждой классификации. Метод реферирования затем усредняет коэффициенты для каждой классификации, которые находятся над пороговым уровнем, чтобы выдать комбинированный коэффициент Люна для предложения. Система реферирования может выбирать предложения с наивысшими коэффициентами Люна для формирования реферата.
В одном варианте осуществления система реферирования использует метод реферирования на основе латентно-семантического анализа, чтобы вырабатывать коэффициент латентно-семантического анализа для каждого предложения web-страницы. Метод реферирования на основе латентно-семантического анализа использует декомпозицию по сингулярным значениям, чтобы вырабатывать коэффициент для каждого предложения. Система реферирования вырабатывает матрицу слово-предложение для web-страницы, которая содержит взвешенное значение термин-частота для каждой комбинации слово-предложение. Эта матрица может быть представлена следующим образом:
A=UΣV T (1)
где А представляет матрицу слово-предложение, U является матрицей ортонормированных столбцов, столбцы которой являются левыми сингулярными векторами (представляет собой диагональную матрицу, диагональные элементы которой являются неотрицательными сингулярными значениями, рассортированными в убывающем порядке), а V является ортонормированной матрицей, столбцы которой являются правыми сингулярными векторами. После декомпозиции матрицы на UV) система реферирования использует правые сингулярные векторы для выработки коэффициентов для предложений. (См. Y.H. Gong & X. Liu. Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis [Реферирование общего текста с помощью меры релевантности и латентно-семантического анализа] в Proc. Of the 24th Annual International ACM SIGIR, New Orleans, Louisiana, 19-25 (2001).) Система реферирования может выбирать первый правый сингулярный вектор и выбирать предложение, которое имеет наивысшее значение индекса в этом векторе. Система реферирования далее задает этому предложению наивысший коэффициент. Система реферирования затем выбирает второй правый сингулярный вектор и задает предложению, которое имеет наивысшее значение индекса в этом векторе, второй наивысший коэффициент. Система реферирования далее продолжает таким же образом вырабатывать коэффициенты для остальных предложений. Система реферирования может выбирать предложения с наивысшими коэффициентами, чтобы сформировать реферат web-страницы.
В одном варианте осуществления система реферирования использует метод реферирования основной части содержания, чтобы вырабатывать коэффициент основной части содержания для каждого предложения web-страницы. Метод реферирования основной части содержания выявляет основную часть содержания web-страницы и задает наивысший коэффициент предложениям в этой основной части содержания. Чтобы выявить основную часть содержания web-страницы, метод реферирования основной части содержания выявляет базовые объекты и составные объекты web-страницы. Базовый объект представляет собой наименьшую информационную область, которую нельзя разделить дальше. Например, в HTML (языке гипертекстовой разметки) базовым объектом является неделимый элемент внутри двух тегов (неотображаемых элементов разметки) или внедренный объект. Составным объектом является набор базовых объектов или иных составных объектов, которые скомбинированы для выполнения некоторой функции. После выявления объектов система реферирования разделяет объекты на категории, такие как информация, навигация, взаимодействие, украшение или специальная функция. Категория информации служит для объектов, которые представляют содержательную информацию, категория навигации служит для объектов, которые представляют руководство по навигации, категория взаимодействия служит для объектов, которые представляют пользовательское взаимодействие (к примеру, поле ввода), категория украшения служит для объектов, которые представляют украшения, а категория специальной функции служит для объектов, которые представляют такую информацию, как правовая информация, контактная информация, информация логотипа и т.д. (См. J.L. Chen, et al. Function-based Object Model Towards Website Adaptation [Основанная на функции объектная модель для адаптации web-сайта], Proc. Of WWW10, Hong Kong, China (2001).) В одном варианте осуществления система реферирования строит частоту появления термина инвертированным индексом частоты документа (т.е. TF*IDF) для каждого объекта. Затем система реферирования вычисляет подобие между парами объектов с помощью вычисления подобия, такого как косинусное подобие. Если подобие между объектами пары больше, чем пороговый уровень, система реферирования связывает объекты пары. Далее система реферирования идентифицирует объект, который имеет наибольшее число связей к нему, в качестве сердцевинного объекта, который представляет главную тему web-страницы. Основная часть содержания web-страницы является сердцевинным объектом вместе с каждым объектом, который имеет связь с этим сердцевинным объектом. Система реферирования выдает высокий коэффициент каждому предложению основной части содержания и низкий коэффициент каждому иному предложению web-страницы. Система реферирования может выбирать предложения с высоким коэффициентом, чтобы сформировать реферат web-страницы.
В одном варианте осуществления система реферирования использует метод управляемого реферирования, чтобы вырабатывать управляемый коэффициент для каждого предложения web-страницы. Метод управляемого реферирования использует обучающие данные для обучения функции реферирования, которая выявляет, следует ли выбирать предложение как часть реферата. Метод управляемого реферирования представляет одно предложение вектором признаков. В одном варианте осуществления метод управляемого реферирования использует признаки, определенные в Таблице 1, где f ij представляет значение i-го признака в предложении j.
Таблица 1
Признак Описание
f i1 Позиция предложения S i в содержащем его абзаце.
f i2 Длина предложения S i, которая является числом слов в S i.
f i3 (TF W *SF W, которая учитывает не только число слов W, но также его распределение по предложениям, где TF W есть число появлений слова W на целевой web-странице и где SF W есть число предложений, включающих в себя слово W на целевой web-странице.
f i4 Подобие между S i и заглавием, что можно вычислить как скалярное произведение между предложением и заглавием.
f i5 Косинусное подобие между S i и всем текстом на web-странице.
f i6 Косинусное подобие между S i и метаданными web-страницы.
f i7 Число появлений слова из специального набора слов, которые имеются в S i. Специальный набор слов можно построить собиранием на web-странице слов, которые выделяются (например, курсивом, жирным шрифтом или подчеркиванием).
f i8 Средний размер шрифта слов в S i. В общем, чем больше размер шрифта на web-странице, тем выше важность.
Система реферирования может использовать упрощенный байесовский классификатор для обучения функции реферирования. Функция реферирования может быть представлена следующим уравнением:
Figure 00000001
(2)
где p(sS) означает степень сжатия рефератора (которая может быть заранее определена для различных приложений), p(f j) есть вероятность каждого признака j, а p(f j|sS) есть условная вероятность каждого признака j. Два последних фактора можно оценить из обучающего набора.
В одном варианте осуществления система реферирования комбинирует коэффициенты метода реферирования Люна, метода реферирования на основе латентно-семантического анализа, метода реферирования основной части содержания и метода управляемого реферирования, чтобы выработать общий коэффициент. Коэффициенты могут комбинироваться следующим образом:
S=S luhn +S lsa+S cb+S sup (3)
где S представляет скомбинированный коэффициент, S luhn представляет коэффициент Люна, S lsa представляет коэффициент латентно-семантического анализа, S cb представляет коэффициент основной части содержания, а S sup представляет управляемый коэффициент. Альтернативно система реферирования может применять весовой фактор для коэффициента каждого метода реферирования, так чтобы коэффициенты не всех методов реферирования были взвешены одинаково. Например, считается, что коэффициент Люна более точно отражает соотношение предложения с главной темой web-страницы, тогда весовой множитель для коэффициента Люна может быть 0,7, а весовые множители для остальных коэффициентов могут быть 0,1 для каждого. Если весовой множитель для метода реферирования установлен на нуль, то система реферирования не использует этот метод реферирования. Специалисту в данной области техники должно быть понятно, что любое число методов реферирования может иметь свои веса, установленные на нуль. К примеру, если весовой множитель 1 используется для коэффициента Люна и нуль для остальных коэффициентов, то «скомбинированный» коэффициент будет просто коэффициентом Люна. Кроме этого система реферирования может нормировать каждый из коэффициентов методов реферирования. Система реферирования может также использовать нелинейную комбинацию коэффициентов методов реферирования. Система реферирования может выбирать предложения с наивысшими скомбинированными коэффициентами, чтобы сформировать реферат web-страницы.
В одном варианте осуществления система классификации использует упрощенный байесовский классификатор, чтобы классифицировать web-страницу на основании реферата. Упрощенный байесовский классификатор использует правило Байеса, которое можно определить следующим образом:
Figure 00000002
(4)
где
Figure 00000003
можно вычислить путем подсчета частоты каждой категории
c j, появляющейся в обучающих данных, |C| есть число категорий, p(w i |c j) есть вероятность того, что слово w i появляется в классе c i, N(w k,d i) есть число появлений слова w k в d i, а n есть число слов в обучающих данных. (См. A. McCallum & K. Nigam. A Comparison of Event Models for Naive Bayes Text Classification [Сравнение моделей событий для упрощенной байесовской классификации текстов] в AAAI-98 Workshop on Learning for Text Categorization (1998).) Поскольку w i может быть малым в обучающих данных, для оценки его значения можно использовать сглаживание Лапласа.
В альтернативном варианте осуществления система классификации использует метод опорных векторов для классификации web-страницы на основании ее реферата. Метод опорных векторов работает путем нахождения гиперповерхности в пространстве возможных входных данных. Гиперповерхность пытается отделить положительные примеры от отрицательных примеров путем максимизации расстояния между ближайшими к гиперплоскости из положительного и отрицательного примеров. Это обеспечивает правильную классификацию данных, которые подобны, но не идентичны обучающим данным. Можно использовать различные методы для обучения метода опорных векторов. Одна методика использует алгоритм последовательной минимальной оптимизации, который разбивает большую задачу квадратичного программирования на ряд малых задач квадратичного программирования, которые можно разрешить аналитически. (См. Sequential Minimal Optimization [Последовательная минимальная оптимизация] на http://research.microsoft.com/~jplatt/smo.html.)
Фиг.1 является блок-схемой, которая иллюстрирует компоненты системы классификации и системы реферирования в одном варианте осуществления. Система 110 классификации включает в себя компонент 111 классификации web-страницы и компонент-классификатор 112. Система 120 реферирования включает в себя компонент 121 реферирования web-страницы, компонент 122 сортировки предложений, компонент 123 вычисления коэффициентов и компонент 124 выбора наивысших предложений. Компонент классификации web-страницы использует компонент реферирования web-страницы, чтобы вырабатывать реферат web-страницы, а затем использует компонент-классификатор, чтобы классифицировать web-страницу на основании реферата. Компонент реферирования web-страницы использует компонент вычисления коэффициентов, чтобы вычислять коэффициент для каждого предложения web-страницы. Компонент реферирования web-страницы затем использует компонент сортировки предложений, чтобы сортировать предложения web-страницы на основании их коэффициентов, и компонент выбора наивысших предложений, чтобы выбирать предложения с наивысшими коэффициентами, для формирования реферата web-страницы. Компонент вычисления коэффициентов использует компонент 125 вычисления коэффициента Люна, компонент 126 вычисления коэффициента латентно-семантического анализа, компонент 127 вычисления основной части содержания и компонент 128 вычисления управляемого коэффициента, чтобы вырабатывать коэффициенты для разных методов реферирования. Затем компонент вычисления коэффициентов комбинирует коэффициенты для методов реферирования, чтобы выдать общий коэффициент для каждого предложения.
Вычислительное устройство, на котором реализуется система реферирования, может включать в себя центральный процессор, память, устройства ввода (к примеру, клавиатуру и координатно-указательные устройства), устройства вывода (к примеру, устройства визуального отображения) и устройства хранения (к примеру, дисководы). Память и устройства хранения являются машиночитаемыми носителями, которые могут содержать команды, которые воплощают систему реферирования. Кроме этого структуры данных и структуры сообщений могут храниться или передаваться носителем передачи данных, таким как сигнал на линии связи. Можно использовать различные линии связи, такие как Интернет, локальная сеть, региональная сеть или коммутируемое соединение от точки к точке.
Система реферирования может быть реализована в различных операционных средах. Описанная здесь операционная среда является лишь одним примером подходящей операционной среды и не предназначена налагать какое-либо ограничение в отношении объема использования или функций системы реферирования. Иные общеизвестные вычислительные системы, среды и конфигурации, которые могут быть пригодны для использования, включают в себя персональные компьютеры, серверные компьютеры, ручные или портативные устройства, многопроцессорные системы, основанные на микропроцессоре системы, программируемую бытовую электронику, сетевые ПК, мини-компьютеры, универсальные компьютеры, распределенные вычислительные среды, которые включают в себя любые из вышеуказанных систем или устройств, и т.п.
Система реферирования может быть описана в общем контексте машиноисполняемых команд, таких как программные модули, исполняемые одним или более компьютерами или иными устройствами. В общем программные модули включают в себя процедуры, программы, объекты, компоненты, структуры данных и т.д., которые выполняют конкретные задачи или воплощают определенные абстрактные типы данных. Как правило, функции программных модулей могут комбинироваться или распределяться в различных вариантах выполнения, как желательно.
Фиг.2 представляет собой блок-схему алгоритма, которая иллюстрирует работу компонента классификации web-страницы в одном варианте осуществления. Этому компоненту web-страница передается в качестве аргумента, и он выдает ее классификации. На этапе 201 компонент вызывает компонент реферирования web-страницы, чтобы выработать реферат для этой web-страницы. На этапе 202 компонент классифицирует web-страницу на основании реферата web-страницы с помощью классификатора, такого как упрощенный байесовский классификатор или метод опорных векторов. Затем этот компонент завершает работу.
Фиг.3 представляет собой блок-схему алгоритма, которая иллюстрирует работу компонента реферирования web-страницы в одном варианте осуществления. Этому компоненту web-страница передается в качестве аргумента, и он вычисляет коэффициент для каждого предложения web-страницы и выбирает предложения с наивысшими коэффициентами, чтобы сформировать реферат web-страницы. На этапе 301 этот компонент вызывает компонент вычисления коэффициентов для вычисления коэффициента для каждого предложения. На этапе 302 компонент сортирует предложения на основании вычисленных коэффициентов. На этапе 303 компонент выбирает предложения с наивысшими коэффициентами, чтобы сформировать реферат для web-страницы. Затем компонент выдает реферат.
Фиг.4 представляет собой блок-схему алгоритма, которая иллюстрирует работу компонента вычисления коэффициентов в одном варианте осуществления. Этому компоненту web-страница передается в качестве аргумента, и он вычисляет коэффициенты разных методов реферирования для предложений web-страницы и вычисляет комбинированный коэффициент для каждого предложения на основании этих коэффициентов методов реферирования. Компонент может альтернативно вычислять коэффициент с помощью только одного метода реферирования или различных комбинаций методов реферирования. На этапе 401 компонент вызывает компонент вычисления коэффициента Люна, чтобы вычислить коэффициент Люна для каждого предложения web-страницы. На этапе 402 компонент вызывает компонент вычисления коэффициента латентно-семантического анализа, чтобы вычислить коэффициент латентно-семантического анализа для каждого предложения web-страницы. На этапе 403 компонент вызывает компонент вычисления коэффициента основной части содержания, чтобы вычислить коэффициент основной части содержания для каждого предложения web-страницы. На этапе 404 компонент вызывает компонент вычисления управляемого коэффициента, чтобы вычислить управляемый коэффициент для каждого предложения web-страницы. На этапе 405 компонент вызывает компонент комбинации коэффициентов, чтобы вычислить скомбинированный коэффициент для каждого предложения web-страницы. Затем компонент выдает скомбинированные коэффициенты.
Фиг.5 представляет собой блок-схему алгоритма, которая иллюстрирует работу компонента вычисления коэффициента Люна в одном варианте осуществления. Этому компоненту web-страница передается в качестве аргумента, и он вычисляет коэффициент Люна для каждого предложения переданной web-страницы. На этапе 501 компонент выбирает следующее предложение web-страницы. На этапе 502 ветвления, если все предложения web-страницы уже выбраны, компонент выдает коэффициенты Люна, иначе компонент продолжает работу на этапе 503. На этапах 503-509 компонент работает в цикле, вырабатывая коэффициент класса для выбранного предложения для каждой классификации. На этапе 503 компонент выбирает следующую классификацию. На этапе 504 ветвления, если все классификации уже выбраны, компонент переходит к этапу 510, иначе компонент переходит к этапу 505. На этапе 505 компонент выявляет слова выбранного предложения, которые заключены значащими словами выбранной классификации. На этапе 506 ветвления, если значащие слова выявлены, компонент переходит к этапу 507, иначе компонент возвращается к этапу 503 для выбора следующей классификации. На этапе 507 компонент подсчитывает значащие слова внутри заключенной между значащими словами части выбранного предложения. На этапе 508 компонент подсчитывает слова внутри заключенной между значащими словами части выбранного предложения. На этапе 509 компонент вычисляет коэффициент для классификации как квадрат числа значащих слов, деленный на число слов. Затем компонент возвращается к этапу 503 для выбора следующей классификации. На этапе 510 компонент вычисляет коэффициент Люна для выбранного предложения как сумму коэффициентов классификации, поделенную на число классификаций, для которых была выявлена заключенная между значащими словами часть выбранного предложения (т.е. среднее коэффициентов классификации, которые вычислялись). Затем компонент возвращается к этапу 501 для выбора следующего предложения.
Фиг.6 представляет собой блок-схему алгоритма, которая иллюстрирует работу компонента вычисления коэффициента латентно-семантического анализа в одном варианте осуществления. Этому компоненту web-страница передается в качестве аргумента, и он вычисляет коэффициент латентно-семантического анализа для каждого предложения переданной web-страницы. На этапах 601-603 компонент работает в цикле, конструируя вектор термин-на-вес для каждого предложения web-страницы. На этапе 601 компонент выбирает следующее предложение web-страницы. На этапе 602 ветвления, если все предложения web-страницы уже выбраны, компонент переходит к этапу 604, иначе компонент переходит к этапу 603. На этапе 603 компонент конструирует вектор термин-на-вес для выбранного предложения, а затем возвращается к этапу 601 для выбора следующего предложения. Векторы термин-на-вес для предложений образуют матрицу, в отношении которой выполняют декомпозицию, чтобы выдать матрицу правых сингулярных векторов. На этапе 604 компонент выполняет декомпозицию этой матрицы по сингулярным значениям, чтобы выработать правые сингулярные векторы. На этапах 605-607 компонент работает в цикле, устанавливая коэффициент для каждого предложения на основании правых сингулярных векторов. На этапе 605 компонент выбирает следующий правый сингулярный вектор. На этапе 606 ветвления, если все правые сингулярные векторы уже выбраны, компонент выдает коэффициенты в качестве коэффициентов латентно-семантического анализа, иначе компонент переходит к этапу 607. На этапе 607 компонент устанавливает коэффициент предложения с наивысшим значением индекса выбранного правого сингулярного вектора, а затем возвращается к этапу 605 для выбора следующего правого сингулярного вектора.
Фиг.7 представляет собой блок-схему алгоритма, которая иллюстрирует работу компонента вычисления коэффициента основной части содержания в одном варианте осуществления. Этому компоненту web-страница передается в качестве аргумента, и он вычисляет коэффициент основной части содержания для каждого предложения переданной web-страницы. На этапе 701 компонент выявляет базовые объекты web-страницы. На этапе 702 компонент выявляет составные объекты web-страницы. На этапах 703-705 компонент работает в цикле, вырабатывая вектор частота термина/инвертированная частота документа для каждого объекта. На этапе 703 компонент выбирает следующий объект. На этапе 704 ветвления, если все объекты уже выбраны, компонент переходит к этапу 706, иначе компонент переходит к этапу 705. На этапе 705 компонент вырабатывает вектор частота термина/инвертированная частота документа для выбранного объекта, а затем возвращается к этапу 703 для выбора следующего объекта. На этапах 706-710 компонент работает в цикле, вычисляя подобие между парами объектов. На этапе 706 компонент выбирает следующую пару объектов. На этапе 707 ветвления, если все пары объектов уже выбраны, компонент переходит к этапу 711, иначе компонент переходит к этапу 708. На этапе 708 компонент вычисляет подобие между выбранной парой объектов. На этапе 709 ветвления, если подобие выше, чем пороговый уровень подобия, компонент переходит к этапу 710, иначе компонент возвращается к этапу 706 для выбора следующей пары объектов. На этапе 710 компонент добавляет связь между выбранной парой объектов, а затем возвращается к этапу 706 для выбора следующей пары объектов. На этапах 711-715 компонент выявляет основную часть содержания web-страницы путем выявления сердцевинного объекта и всех объектов со связями к этому сердцевинному объекту. На этапе 711 компонент выявляет сердцевинный объект как объект с наибольшим числом связей к нему. На этапе 712 компонент выбирает следующее предложение web-страницы. На этапе 713 ветвления, если все предложения уже выбраны, компонент выдает коэффициенты основной части содержания, иначе компонент переходит к этапу 714. На этапе 714 ветвления, если предложение находится внутри объекта, который связан с сердцевинным объектом, это предложение находится в основной части содержания, и компонент переходит к этапу 715, иначе компонент устанавливает коэффициент выбранного предложения на нуль и возвращается к этапу 712 для выбора следующего предложения. На этапе 715 компонент устанавливает коэффициент выбранного предложения на высокий коэффициент, а затем возвращается к этапу 712 для выбора следующего предложения.
Фиг.8 представляет собой блок-схему алгоритма, которая иллюстрирует работу компонента вычисления управляемого коэффициента в одном варианте осуществления. Этому компоненту web-страница передается в качестве аргумента, и он вычисляет управляемый коэффициент для каждого предложения переданной web-страницы. На этапе 801 компонент выбирает следующее предложение web-страницы. На этапе 802 ветвления, если все предложения web-страницы уже выбраны, компонент выдает управляемые коэффициенты, иначе компонент переходит к этапу 803. На этапе 803 компонент вырабатывает вектор признаков для выбранного предложения. На этапе 804 компонент вычисляет коэффициент выбранного предложения с помощью выработанного вектора признаков и обученной функции реферирования. Затем компонент возвращается к этапу 801 для выбора следующего предложения.
Фиг.9 представляет собой блок-схему алгоритма, которая иллюстрирует работу компонента комбинирования коэффициентов в одном варианте осуществления. Этот компонент вырабатывает комбинированный коэффициент для каждого предложения web-страницы на основании коэффициента Люна, коэффициента латентно-семантического анализа, коэффициента основной части содержания и управляемого коэффициента. На этапе 901 компонент выбирает следующее предложение web-страницы. На этапе 902 ветвления, если все предложения web-страницы уже выбраны, компонент выдает комбинированные коэффициенты, иначе компонент переходит к этапу 903. На этапе 903 компонент комбинирует коэффициенты для выбранного предложения, а затем возвращается к этапу 901 для выбора следующего предложения.
Специалист поймет, что, хотя здесь для целей иллюстрации описаны конкретные варианты осуществления системы реферирования, могут быть сделаны различные модификации без отхода от сущности и объема изобретения. Специалист поймет, что классификация относится к процессу выявления класса или категории, связанных с дисплейной страницей. Классы можно определить заранее. Атрибуты дисплейной страницы, подлежащей классификации, могут сравниваться с атрибутами, выделенными из других дисплейных страниц, которые уже классифицированы (например, обучающий набор). На основании этого сравнения дисплейная страница классифицируется в класс, атрибуты дисплейных страниц которого подобны атрибутам классифицируемой дисплейной страницы. В противоположность этому кластеризация относится к процессу выявления из набора дисплейных страниц групп дисплейных страниц, которые подобны друг другу. Соответственно, изобретение не ограничивается ничем, кроме приложенной формулы изобретения.

Claims (66)

1. Реализуемый в компьютерной системе способ классификации web-страниц, содержащий этапы, на которых извлекают web-страницу;
осуществляют автоматическую выработку реферата извлеченной web-страницы посредством
идентификации объектов web-страницы, причем эти объекты имеют предложения,
получения произведения частоты термина на индекс инвертированной частоты документа для каждого объекта,
вычисления подобия между парами объектов на основе произведения частоты термина на индексы инвертированной частоты документа этих объектов,
связывания, если вычисленное подобие между парой объектов удовлетворяет порогу подобия, объектов этой пары, чтобы показать, что объекты удовлетворяют данному порогу,
выбора объекта, который имеет наибольшее количество связей, в качестве сердцевинного объекта web-страницы,
назначения высоких коэффициентов предложениям сердцевинного объекта и объектов со связями к сердцевинному объекту и низких коэффициентов всем остальным предложениям,
выбора предложений для формирования реферата web-страницы на основе назначенных коэффициентов; и определяют классификацию для извлеченной web-страницы на основании автоматически выработанного реферата.
2. Способ по п.1, в котором при автоматической выработке реферата вычисляют коэффициент для каждого предложения web-страницы с помощью множества методов реферирования.
3. Способ по п.2, в котором коэффициент для каждого предложения является линейной комбинацией коэффициентов множества методов реферирования.
4. Способ по п.1, в котором предложения с наивысшими коэффициентами выбираются для формирования реферата.
5. Способ по п.2, в котором методы реферирования включают в себя метод реферирования Люна (Luhn), метод реферирования на основе латентно-семантического анализа, метод реферирования основной части содержания и метод управляемого реферирования.
6. Способ по п.2, в котором методы реферирования включают в себя любые два или более из набора методов реферирования, состоящего из метода реферирования Люна (Luhn), метода реферирования на основе латентно-семантического анализа, метода реферирования основной части содержания и метода управляемого реферирования.
7. Способ по п.1, в котором при определении классификации используют упрощенный байесовский классификатор.
8. Способ по п.1, в котором при определении классификации используют метод опорных векторов.
9. Способ по п.1, в котором при автоматической выработке реферата используют метод реферирования Люна (Luhn).
10. Способ по п.1, в котором при автоматической выработке реферата используют метод реферирования на основе латентно-семантического анализа.
11. Способ по п.1, в котором при автоматической выработке реферата используют метод реферирования основной части содержания.
12. Способ по п.1, в котором при автоматической выработке реферата используют метод управляемого реферирования.
13. Реализуемый в компьютерной системе способ реферирования web-страницы, содержащий этапы, на которых извлекают web-страницу;
для каждого предложения извлеченной web-страницы,
назначают коэффициент предложению на основе множества методов реферирования, причем при назначении коэффициента согласно одному из этих методов реферирования осуществляют
идентификацию объектов web-страницы, причем эти объекты имеют предложения,
получение произведения частоты термина на индекс инвертированной частоты документа для каждого объекта,
вычисление подобия между парами объектов на основе произведения частоты термина на индексы инвертированной частоты документа этих объектов,
связывание, если вычисленное подобие между парой объектов удовлетворяет порогу подобия, объектов этой пары, чтобы показать, что объекты удовлетворяют данному порогу,
выбор объекта, который имеет наибольшее количество связей, в качестве сердцевинного объекта web-страницы,
назначение высокого коэффициента предложениям сердцевинного объекта и объектов со связями к сердцевинному объекту и низкого коэффициента всем остальным предложениям, и
комбинируют коэффициенты, назначенные предложению, для выработки скомбинированного коэффициента для этого предложения; и выбирают предложения с наивысшими скомбинированными коэффициентами для формирования реферата извлеченной web-страницы.
14. Способ по п.13, в котором скомбинированный коэффициент для каждого предложения является линейной комбинацией назначенных коэффициентов.
15. Способ по п.14, в котором назначенные коэффициенты множества методов реферирования взвешиваются по-разному при комбинировании.
16. Способ по п.13, в котором методы реферирования включают в себя метод реферирования Люна (Luhn), метод реферирования на основе латентно-семантического анализа, метод реферирования основной части содержания и метод управляемого реферирования.
17. Способ по п.13, в котором методы реферирования включают в себя любые два или более из набора методов реферирования, состоящего из метода реферирования Люна (Luhn), метода реферирования на основе латентно-семантического анализа, метода реферирования основной части содержания и метода управляемого реферирования.
18. Способ по п.13, в котором метод реферирования является методом реферирования Люна (Luhn), где классификация имеет совокупность значащих слов.
19. Способ по п.18, в котором шумовые слова отбрасываются из совокупности.
20. Способ по п.13, в котором метод реферирования является методом управляемого реферирования, где предложение представляется набором признаков, который включает в себя признак, базирующийся на подобии между предложением и метаданными web-страницы.
21. Способ по п.13, в котором метод реферирования является методом управляемого реферирования, где предложение представляется набором признаков, который включает в себя признаки, основанные на словах предложения, которые выделяются на web-странице.
22. Способ по п.13, в котором метод реферирования является методом управляемого реферирования, при этом предложение представляется набором признаков, который включает в себя признак, базирующийся на размере шрифта слов в этом предложении.
23. Способ по п.13, включающий в себя выявление классификации для извлеченной web-страницы на основании реферата извлеченной web-страницы.
24. Способ по п.23, в котором при выявлении классификации используется упрощенный байесовский классификатор.
25. Способ по п.23, в котором при выявлении классификации используется метод опорных векторов.
26. Машиночитаемый носитель, содержащий команды, предписывающие компьютерной системе вырабатывать реферат для дисплейной страницы способом, содержащим для каждого предложения дисплейной страницы выработку коэффициента, который базируется на множестве методов реферирования, причем один из этих методов реферирования подразумевает
вычисление подобия между парами объектов дисплейной страницы, причем эти объекты имеют предложения,
связывание, если вычисленное подобие между парой объектов удовлетворяет порогу подобия, объектов этой пары, чтобы показать, что объекты удовлетворяют данному порогу,
выбор объекта, который имеет наибольшее количество связей, в качестве сердцевинного объекта дисплейной страницы,
назначение высокого коэффициента предложениям сердцевинного объекта и объектов со связями к сердцевинному объекту и низких коэффициентов всем остальным предложениям и; выбор предложений с наивысшими выработанными коэффициентами, чтобы сформировать реферат дисплейной страницы.
27. Машиночитаемый носитель по п.26, в котором вырабатываемый коэффициент для каждого предложения является комбинацией коэффициента для каждого из множества методов реферирования.
28. Машиночитаемый носитель по п.27, в котором коэффициенты множества методов реферирования взвешиваются по-разному.
29. Машиночитаемый носитель по п.26, в котором методы реферирования включают в себя метод реферирования Люна (Luhn), метод реферирования на основе латентно-семантического анализа, метод реферирования основной части содержания и метод управляемого реферирования.
30. Машиночитаемый носитель по п.26, в котором методы реферирования включают в себя любые два или более из набора методов реферирования, состоящего из метода реферирования Люна (Luhn), метода реферирования на основе латентно-семантического анализа, метода реферирования основной части содержания и метода управляемого реферирования.
31. Машиночитаемый носитель по п.26, в котором метод реферирования является методом реферирования Люна (Luhn), где классификация имеет совокупность значащих слов.
32. Машиночитаемый носитель по п.31, в котором шумовые слова отбрасываются из совокупности.
33. Машиночитаемый носитель по п.26, в котором метод реферирования является методом управляемого реферирования, где предложение представляется набором признаков, который включает в себя признак, базирующийся на подобии между предложением и метаданными дисплейной страницы.
34. Машиночитаемый носитель по п.26, в котором метод реферирования является методом управляемого реферирования, где предложение представляется набором признаков, который включает в себя признаки, основанные на словах предложения, которые выделены на дисплейной странице.
35. Машиночитаемый носитель по п.26, в котором метод реферирования является методом управляемого реферирования, в котором предложение представляется набором признаков, который включает в себя признак, базирующийся на размере шрифта слов в этом предложении.
36. Машиночитаемый носитель по п.26, включающий в себя выявление классификации для дисплейной страницы на основании реферата дисплейной страницы.
37. Компьютерная система для классификации дисплейных страниц, содержащая средство для автоматической выработки реферата дисплейной страницы посредством вычисления подобия между парами объектов дисплейной страницы, причем эти объекты имеют предложения, связывания, если вычисленное подобие между парой объектов удовлетворяет порогу подобия, объектов этой пары, чтобы показать, что объекты удовлетворяют данному порогу, выбора объекта, который имеет наибольшее количество связей, в качестве сердцевинного объекта дисплейной страницы, выбора предложений сердцевинного объекта и объектов со связями к сердцевинному объекту для формирования реферата дисплейной страницы и;
средство для выявления классификации для дисплейной страницы на основании автоматически выработанного реферата.
38. Компьютерная система по п.37, в которой средство для автоматической выработки реферата вычисляет коэффициент для каждого предложения дисплейной страницы с помощью множества методов реферирования.
39. Компьютерная система по п.38, в которой коэффициент для каждого предложения является линейной комбинацией коэффициентов множества методов реферирования.
40. Компьютерная система по п.37, в которой методы реферирования включают в себя метод реферирования Люна (Luhn), метод реферирования на основе латентно-семантического анализа, метод реферирования основной части содержания и метод управляемого реферирования.
41. Компьютерная система по п.37, в которой методы реферирования включают в себя любые два или более из набора методов реферирования, состоящего из метода реферирования Люна (Luhn), метода реферирования на основе латентно-семантического анализа, метода реферирования основной части содержания и метода управляемого реферирования.
42. Компьютерная система по п.41, в которой каждому предложению дисплейной страницы назначается коэффициент, который является комбинацией коэффициентов множества методов реферирования.
43. Реализуемый в компьютерной системе способ идентификации сердцевинного объекта web-страницы, содержащий этапы, на которых
идентифицируют объекты web-страницы, причем эти объекты имеют предложения,
получают произведение частоты термина на индекс инвертированной частоты документа для каждого объекта,
вычисляют подобие между парами объектов на основе произведения частоты термина на индексы инвертированной частоты документа этих объектов, если вычисленное подобие между парой объектов удовлетворяет порогу подобия, связывают объекты этой пары, чтобы показать, что объекты удовлетворяют данному порогу, и выбирают объект, который имеет наибольшее количество связей, в качестве сердцевинного объекта web-страницы.
44. Способ по п.43, дополнительно содержащий этапы, на которых назначают высокие коэффициенты предложениям сердцевинного объекта и объектов со связями к сердцевинному объекту и низкие коэффициенты всем остальным предложениям,
выбирают предложения для формирования реферата web-страницы на основе назначенных коэффициентов.
45. Способ по п.44, в котором для формирования реферата выбирают предложения с наивысшими коэффициентами.
46. Способ по п.44, в котором при формировании реферата вычисляют коэффициент для каждого предложения web-страницы с помощью множества методов реферирования.
47. Способ по п.46, в котором коэффициент для каждого предложения является линейной комбинацией коэффициентов множества методов реферирования.
48. Способ по п.46, в котором методы реферирования включают в себя метод реферирования Люна (Luhn), метод реферирования на основе латентно-семантического анализа, метод реферирования основной части содержания и метод управляемого реферирования.
49. Способ по п.46, в котором методы реферирования включают в себя любые два или более из набора методов реферирования, состоящего из метода реферирования Люна (Luhn), метода реферирования на основе латентно-семантического анализа, метода реферирования основной части содержания и метода управляемого реферирования.
50. Способ по п.44, в котором при формировании реферата используют метод реферирования Люна (Luhn).
51. Способ по п.44, в котором при формировании реферата используют метод реферирования на основе латентно-семантического анализа.
52. Способ по п.44, в котором при формировании реферата используют метод реферирования основной части содержания.
53. Способ по п.44, в котором при формировании реферата используют метод управляемого реферирования.
54. Способ по п.44, дополнительно содержащий этап, на котором определяют классификацию для извлеченной web-страницы на основании сформированного реферата.
55. Способ по п.54, в котором при определении классификации используют упрощенный байесовский классификатор.
56. Способ по п.54, в котором при определении классификации используют метод опорных векторов.
57. Машиночитаемый носитель, содержащий команды, предписывающие компьютерной системе идентифицировать сердцевинный объект для дисплейной страницы способом, содержащим
вычисление подобия между парами объектов дисплейной страницы, причем эти объекты имеют предложения,
связывание, если вычисленное подобие между парой объектов удовлетворяет порогу подобия, объектов этой пары, чтобы показать, что объекты удовлетворяют данному порогу, и выбор объекта, который имеет наибольшее количество связей, в качестве сердцевинного объекта дисплейной страницы.
58. Машиночитаемый носитель по п.57, дополнительно содержащий
назначение высокого коэффициента предложениям сердцевинного объекта и объектов со связями к сердцевинному объекту и низких коэффициентов всем остальным предложениям и выбор предложений с наивысшими выработанными коэффициентами, чтобы сформировать реферат дисплейной страницы.
59. Машиночитаемый носитель по п.58, в котором вырабатываемый коэффициент для каждого предложения является комбинацией коэффициента для каждого из множества методов реферирования.
60. Машиночитаемый носитель по п.59, в котором коэффициенты множества методов реферирования взвешиваются по-разному.
61. Машиночитаемый носитель по п.58, в котором метод реферирования является методом управляемого реферирования, где предложение представляется набором признаков, который включает в себя признак, базирующийся на подобии между предложением и метаданными дисплейной страницы.
62. Машиночитаемый носитель по п.58, в котором метод реферирования является методом управляемого реферирования, где предложение представляется набором признаков, который включает в себя признаки, основанные на словах предложения, которые выделены на дисплейной странице.
63. Машиночитаемый носитель по п.58, в котором метод реферирования является методом управляемого реферирования, в котором предложение представляется набором признаков, который включает в себя признак, базирующийся на размере шрифта слов в этом предложении.
64. Машиночитаемый носитель по п.58, включающий в себя выявление классификации для дисплейной страницы на основании реферата дисплейной страницы.
65. Компьютерная система для идентификации сердцевинных объектов дисплейных страниц, содержащая средства для вычисления подобия между парами объектов дисплейной страницы, причем эти объекты имеют предложения,
связывания, если вычисленное подобие между парой объектов удовлетворяет порогу подобия, объектов этой пары, чтобы показать, что объекты удовлетворяют данному порогу, и выбора объекта, который имеет наибольшее количество связей, в качестве сердцевинного объекта дисплейной страницы.
66. Система по п.65, дополнительно содержащая
средство для выбора предложений сердцевинного объекта и объектов со связями к сердцевинному объекту для формирования реферата дисплейной страницы и средство для выявления классификации для дисплейной страницы на основании сформированного реферата.
RU2005113190/09A 2004-04-30 2005-04-29 Способ и система для классификации дисплейных страниц с помощью рефератов RU2377645C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/836,319 2004-04-30
US10/836,319 US7392474B2 (en) 2004-04-30 2004-04-30 Method and system for classifying display pages using summaries

Publications (2)

Publication Number Publication Date
RU2005113190A RU2005113190A (ru) 2006-11-10
RU2377645C2 true RU2377645C2 (ru) 2009-12-27

Family

ID=34939612

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2005113190/09A RU2377645C2 (ru) 2004-04-30 2005-04-29 Способ и система для классификации дисплейных страниц с помощью рефератов

Country Status (12)

Country Link
US (2) US7392474B2 (ru)
EP (1) EP1591924B1 (ru)
JP (1) JP2005322245A (ru)
KR (1) KR101203345B1 (ru)
CN (1) CN1758245B (ru)
AT (1) ATE470192T1 (ru)
AU (1) AU2005201766A1 (ru)
BR (1) BRPI0502155A (ru)
CA (1) CA2505957C (ru)
DE (1) DE602005021581D1 (ru)
MX (1) MXPA05004682A (ru)
RU (1) RU2377645C2 (ru)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2491622C1 (ru) * 2012-01-25 2013-08-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ классификации документов по категориям
RU2635213C1 (ru) * 2016-09-26 2017-11-09 Самсунг Электроникс Ко., Лтд. Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации
RU2638015C2 (ru) * 2015-06-30 2017-12-08 Общество С Ограниченной Ответственностью "Яндекс" Способ идентификации целевого объекта на веб-странице
RU2642413C2 (ru) * 2016-02-09 2018-01-24 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и сервер обработки текста

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
US7707265B2 (en) * 2004-05-15 2010-04-27 International Business Machines Corporation System, method, and service for interactively presenting a summary of a web site
US7475067B2 (en) * 2004-07-09 2009-01-06 Aol Llc Web page performance scoring
US7747618B2 (en) 2005-09-08 2010-06-29 Microsoft Corporation Augmenting user, query, and document triplets using singular value decomposition
US7739254B1 (en) * 2005-09-30 2010-06-15 Google Inc. Labeling events in historic news
KR100775852B1 (ko) 2006-01-18 2007-11-13 포스데이타 주식회사 응용 프로그램의 자원 검색 시스템 및 방법
US20080077576A1 (en) * 2006-09-22 2008-03-27 Cuneyt Ozveren Peer-To-Peer Collaboration
US7672912B2 (en) * 2006-10-26 2010-03-02 Microsoft Corporation Classifying knowledge aging in emails using Naïve Bayes Classifier
US20080103849A1 (en) * 2006-10-31 2008-05-01 Forman George H Calculating an aggregate of attribute values associated with plural cases
US8539329B2 (en) * 2006-11-01 2013-09-17 Bloxx Limited Methods and systems for web site categorization and filtering
US7617182B2 (en) * 2007-01-08 2009-11-10 Microsoft Corporation Document clustering based on entity association rules
US8161369B2 (en) * 2007-03-16 2012-04-17 Branchfire, Llc System and method of providing a two-part graphic design and interactive document application
CN101296155B (zh) 2007-04-23 2011-02-16 华为技术有限公司 对内容分类的方法及系统
CN101452470B (zh) * 2007-10-18 2012-06-06 广州索答信息科技有限公司 摘要式网络搜索引擎系统及其搜索方法与应用
CN101184259B (zh) * 2007-11-01 2010-06-23 浙江大学 垃圾短信中的关键词自动学习及更新方法
US9292601B2 (en) * 2008-01-09 2016-03-22 International Business Machines Corporation Determining a purpose of a document
CN101505295B (zh) * 2008-02-04 2013-01-30 华为技术有限公司 一种内容和类别的关联方法和设备
US8046361B2 (en) * 2008-04-18 2011-10-25 Yahoo! Inc. System and method for classifying tags of content using a hyperlinked corpus of classified web pages
US20110047006A1 (en) * 2009-08-21 2011-02-24 Attenberg Joshua M Systems, methods, and media for rating websites for safe advertising
JP4965623B2 (ja) * 2009-09-30 2012-07-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 所定のソフトウェアの実行パラメータを入力フィールドへ入力することを支援するための方法、システム、およびプログラム
JP2011095905A (ja) * 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム
CN102598038B (zh) * 2009-10-30 2015-02-18 乐天株式会社 特有内容数据判定装置、特有内容数据判定方法、内容数据生成装置以及关联内容数据插入装置
US8732017B2 (en) * 2010-06-01 2014-05-20 Integral Ad Science, Inc. Methods, systems, and media for applying scores and ratings to web pages, web sites, and content for safe and effective online advertising
US9436764B2 (en) * 2010-06-29 2016-09-06 Microsoft Technology Licensing, Llc Navigation to popular search results
US8635061B2 (en) 2010-10-14 2014-01-21 Microsoft Corporation Language identification in multilingual text
JP5492047B2 (ja) * 2010-10-21 2014-05-14 日本電信電話株式会社 購買行動分析装置、購買行動分析方法、購買行動分析プログラム、購買行動分析システム及び制御方法
US10534931B2 (en) 2011-03-17 2020-01-14 Attachmate Corporation Systems, devices and methods for automatic detection and masking of private data
CN102737017B (zh) * 2011-03-31 2015-03-11 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
US20130066814A1 (en) * 2011-09-12 2013-03-14 Volker Bosch System and Method for Automated Classification of Web pages and Domains
US8793252B2 (en) * 2011-09-23 2014-07-29 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation using dynamically-derived topics
US9613135B2 (en) 2011-09-23 2017-04-04 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation of information objects
CN103874994B (zh) * 2011-10-14 2017-09-08 雅虎控股公司 用于自动概括电子文档的内容的方法和装置
US9152730B2 (en) 2011-11-10 2015-10-06 Evernote Corporation Extracting principal content from web pages
CN103324622A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种自动生成首页摘要的方法及装置
US9223861B2 (en) * 2012-05-10 2015-12-29 Yahoo! Inc. Method and system for automatic assignment of identifiers to a graph of entities
US10387911B1 (en) 2012-06-01 2019-08-20 Integral Ad Science, Inc. Systems, methods, and media for detecting suspicious activity
JP5700007B2 (ja) * 2012-09-13 2015-04-15 キヤノンマーケティングジャパン株式会社 情報処理装置、方法、およびプログラム
US20150046562A1 (en) * 2013-08-07 2015-02-12 Convergent Development Limited Web browser orchestration
CN104933055B (zh) * 2014-03-18 2020-01-31 腾讯科技(深圳)有限公司 网页识别方法及网页识别装置
US10021102B2 (en) 2014-10-31 2018-07-10 Aruba Networks, Inc. Leak-proof classification for an application session
CN105786853A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种论坛帖子智能摘要的显示方法和系统
US10387550B2 (en) 2015-04-24 2019-08-20 Hewlett-Packard Development Company, L.P. Text restructuring
WO2016175785A1 (en) * 2015-04-29 2016-11-03 Hewlett-Packard Development Company, L.P. Topic identification based on functional summarization
US9875429B2 (en) 2015-10-06 2018-01-23 Adobe Systems Incorporated Font attributes for font recognition and similarity
US10074042B2 (en) 2015-10-06 2018-09-11 Adobe Systems Incorporated Font recognition using text localization
US10042880B1 (en) * 2016-01-06 2018-08-07 Amazon Technologies, Inc. Automated identification of start-of-reading location for ebooks
US10007868B2 (en) 2016-09-19 2018-06-26 Adobe Systems Incorporated Font replacement based on visual similarity
US10699062B2 (en) * 2017-08-01 2020-06-30 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
US10248628B2 (en) * 2017-08-15 2019-04-02 Hybris Ag Statistical approach for testing multiple versions of websites
US10579698B2 (en) 2017-08-31 2020-03-03 International Business Machines Corporation Optimizing web pages by minimizing the amount of redundant information
KR102576267B1 (ko) * 2018-10-10 2023-09-07 스카라망가 테크놀로지스 프라이빗 리미티드 다중 통신 플랫폼 환경에서 통신 이벤트에 대한 문맥 키워드 집합을 제공하는 방법, 시스템 및 장치
US11397776B2 (en) 2019-01-31 2022-07-26 At&T Intellectual Property I, L.P. Systems and methods for automated information retrieval
US10950017B2 (en) 2019-07-08 2021-03-16 Adobe Inc. Glyph weight modification
US11295181B2 (en) 2019-10-17 2022-04-05 Adobe Inc. Preserving document design using font synthesis
CN111797945B (zh) * 2020-08-21 2020-12-15 成都数联铭品科技有限公司 一种文本分类方法
US12099539B2 (en) * 2022-01-11 2024-09-24 Intuit Inc. Embedding performance optimization through use of a summary model

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02254566A (ja) * 1989-03-29 1990-10-15 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置
US5317507A (en) 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
JP2944346B2 (ja) * 1993-01-20 1999-09-06 シャープ株式会社 文書要約装置
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5864855A (en) 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
JPH09319768A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 要点抽出方法
US6359633B1 (en) * 1999-01-15 2002-03-19 Yahoo! Inc. Apparatus and method for abstracting markup language documents
NZ515293A (en) * 1999-05-05 2004-04-30 West Publishing Company D Document-classification system, method and software
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
US7137065B1 (en) * 2000-02-24 2006-11-14 International Business Machines Corporation System and method for classifying electronically posted documents
US6606644B1 (en) 2000-02-24 2003-08-12 International Business Machines Corporation System and technique for dynamic information gathering and targeted advertising in a web based model using a live information selection and analysis tool
US6775677B1 (en) * 2000-03-02 2004-08-10 International Business Machines Corporation System, method, and program product for identifying and describing topics in a collection of electronic documents
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US7607083B2 (en) * 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
US20020087326A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented web page summarization method and system
US20020169770A1 (en) * 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US6609124B2 (en) 2001-08-13 2003-08-19 International Business Machines Corporation Hub for strategic intelligence
US20040205457A1 (en) * 2001-10-31 2004-10-14 International Business Machines Corporation Automatically summarising topics in a collection of electronic documents
US20030221163A1 (en) * 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
US6910037B2 (en) * 2002-03-07 2005-06-21 Koninklijke Philips Electronics N.V. Method and apparatus for providing search results in response to an information search request
US7130837B2 (en) * 2002-03-22 2006-10-31 Xerox Corporation Systems and methods for determining the topic structure of a portion of text
US7065707B2 (en) * 2002-06-24 2006-06-20 Microsoft Corporation Segmenting and indexing web pages using function-based object models
US7292972B2 (en) * 2003-01-30 2007-11-06 Hewlett-Packard Development Company, L.P. System and method for combining text summarizations
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHUE W L et al, "SVD: a novel content - based representation technique for web documents", INFORMATION COMMUNICATION AND SIGNAL PROCESSING, 2003 AND FOURTH PACIFIC RIMM CONFERENCE ON MULTIMEDIA PTROCEEDING OF THE 2003 JOINT CONFERENCE OF THE FOURTH INTERNATIONAL CONFERENCE ON SINGAPORE 15-18 DEC.2003, PISCATAWAY, NJ, USA, IEEE, VOL,3, 15 December 2003, pages 1840-1844. *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2491622C1 (ru) * 2012-01-25 2013-08-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ классификации документов по категориям
RU2638015C2 (ru) * 2015-06-30 2017-12-08 Общество С Ограниченной Ответственностью "Яндекс" Способ идентификации целевого объекта на веб-странице
US9916292B2 (en) 2015-06-30 2018-03-13 Yandex Europe Ag Method of identifying a target object on a web page
RU2642413C2 (ru) * 2016-02-09 2018-01-24 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и сервер обработки текста
RU2635213C1 (ru) * 2016-09-26 2017-11-09 Самсунг Электроникс Ко., Лтд. Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации

Also Published As

Publication number Publication date
CA2505957C (en) 2014-10-21
EP1591924B1 (en) 2010-06-02
KR20060047636A (ko) 2006-05-18
US20090119284A1 (en) 2009-05-07
CA2505957A1 (en) 2005-10-30
EP1591924A1 (en) 2005-11-02
KR101203345B1 (ko) 2012-11-20
JP2005322245A (ja) 2005-11-17
CN1758245A (zh) 2006-04-12
ATE470192T1 (de) 2010-06-15
DE602005021581D1 (de) 2010-07-15
AU2005201766A1 (en) 2005-11-17
BRPI0502155A (pt) 2006-01-10
MXPA05004682A (es) 2005-11-17
US7392474B2 (en) 2008-06-24
US20050246410A1 (en) 2005-11-03
RU2005113190A (ru) 2006-11-10
CN1758245B (zh) 2010-09-08

Similar Documents

Publication Publication Date Title
RU2377645C2 (ru) Способ и система для классификации дисплейных страниц с помощью рефератов
Ceri et al. Web information retrieval
US8538989B1 (en) Assigning weights to parts of a document
US8645370B2 (en) Scoring relevance of a document based on image text
US20090037390A1 (en) Method of analyzing documents
US9367633B2 (en) Method or system for ranking related news predictions
US20090210407A1 (en) Method and system for adaptive discovery of content on a network
EP2122506A1 (en) Method and system for information discovery and text analysis
Gasparetti Modeling user interests from web browsing activities
Paranjpe Learning document aboutness from implicit user feedback and document structure
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
Bansal et al. Searching the Blogosphere.
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
KR101007056B1 (ko) 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법
Song et al. Transfer understanding from head queries to tail queries
Croft et al. Search engines
Blanco et al. Supporting the automatic construction of entity aware search engines
Selvadurai A natural language processing based web mining system for social media analysis
Jing Searching for economic effects of user specified events based on topic modelling and event reference
Numnonda et al. Journal Recommendation System for Author Using Thai and English Information from Manuscript
Manjula et al. An efficient approach for indexing web pages using various similarity features
Yee Retrieving semantically relevant documents using Latent Semantic Indexing
Tuaycharoen Journal Recommendation System for Author Using Thai and English Information from Manuscript
Wang et al. Constructing Complex Search Tasks with Coherent Subtask Search Goals
Vasavi et al. Web Mining System in a Natural Language Processing Based for Social Media Analysis

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20130430