RU2012134725A - Способ и устройство подписки на информацию с веб-страницы - Google Patents

Способ и устройство подписки на информацию с веб-страницы Download PDF

Info

Publication number
RU2012134725A
RU2012134725A RU2012134725/08A RU2012134725A RU2012134725A RU 2012134725 A RU2012134725 A RU 2012134725A RU 2012134725/08 A RU2012134725/08 A RU 2012134725/08A RU 2012134725 A RU2012134725 A RU 2012134725A RU 2012134725 A RU2012134725 A RU 2012134725A
Authority
RU
Russia
Prior art keywords
block
web page
header
node
basic unit
Prior art date
Application number
RU2012134725/08A
Other languages
English (en)
Other versions
RU2510921C2 (ru
Inventor
Гаолинь ФАН
Original Assignee
Тенсент Текнолоджи (Шэньчжэнь) Компани Лимитед
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Тенсент Текнолоджи (Шэньчжэнь) Компани Лимитед filed Critical Тенсент Текнолоджи (Шэньчжэнь) Компани Лимитед
Publication of RU2012134725A publication Critical patent/RU2012134725A/ru
Application granted granted Critical
Publication of RU2510921C2 publication Critical patent/RU2510921C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

1. Способ подписки на информацию с веб-страницы, в котором предусмотрены следующие действия:идентификация блока веб-страницы, на который подписывается пользователь, с помощью первого дерева Объектной Модели Документов ОМД (DOM) веб-страницы для получения идентификационной информации;извлечение и сохранение URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, и отслеживание в реальном масштабе времени URL-адресов в блоке согласно идентификационной информации и сохраненным URL-адресам для определения, существует ли какое-либо изменение в сохраненных URL-адресах;отображение веб-страницы, соответствующей измененному URL-адресу, если в URL-адресах блока веб-страницы, на который подписывается пользователь, есть какое-либо изменение.2. Способ по п.1, отличающийся тем, что при отображении веб-страницы, соответствующей измененному URL-адресу, выполняют следующие действия:обновление сохраненных URL-адресов согласно измененному URL-адресу;отображение текстовой информации блока веб-страницы, на который подписывается пользователь.3. Способ по п.1, в котором также предусмотрено следующее действие:перед идентификацией блока веб-страницы, на который подписывается пользователь, с помощью первого дерева ОМД (DOM) веб-страницы для получения идентификационной информации создают первое дерево ОМД (DOM) веб-страницы.4. Способ по п.1, отличающийся тем, что при идентификации блока веб-страницы, на который подписывается пользователь, с помощью первого дерева ОМД (DOM) веб-страницы для получения идентификационной информации выполняют следующие действия:получение из первого дерева ОМД (DOM) веб-страницы порядкового ном�

Claims (23)

1. Способ подписки на информацию с веб-страницы, в котором предусмотрены следующие действия:
идентификация блока веб-страницы, на который подписывается пользователь, с помощью первого дерева Объектной Модели Документов ОМД (DOM) веб-страницы для получения идентификационной информации;
извлечение и сохранение URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, и отслеживание в реальном масштабе времени URL-адресов в блоке согласно идентификационной информации и сохраненным URL-адресам для определения, существует ли какое-либо изменение в сохраненных URL-адресах;
отображение веб-страницы, соответствующей измененному URL-адресу, если в URL-адресах блока веб-страницы, на который подписывается пользователь, есть какое-либо изменение.
2. Способ по п.1, отличающийся тем, что при отображении веб-страницы, соответствующей измененному URL-адресу, выполняют следующие действия:
обновление сохраненных URL-адресов согласно измененному URL-адресу;
отображение текстовой информации блока веб-страницы, на который подписывается пользователь.
3. Способ по п.1, в котором также предусмотрено следующее действие:
перед идентификацией блока веб-страницы, на который подписывается пользователь, с помощью первого дерева ОМД (DOM) веб-страницы для получения идентификационной информации создают первое дерево ОМД (DOM) веб-страницы.
4. Способ по п.1, отличающийся тем, что при идентификации блока веб-страницы, на который подписывается пользователь, с помощью первого дерева ОМД (DOM) веб-страницы для получения идентификационной информации выполняют следующие действия:
получение из первого дерева ОМД (DOM) веб-страницы порядкового номера первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь, и числа базовых единичных блоков, включенных в этот блок веб-страницы;
получение префикса URL-адреса блока веб-страницы, на который подписывается пользователь;
поиск по префиксу URL-адреса в первом дереве ОМД (DOM) веб-страницы узла заголовка блока веб-страницы, на который подписывается пользователь, и извлечение заголовка и URL-адреса заголовка этого узла;
причем идентификационная информация содержит порядковый номер первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь, число базовых единичных блоков, включенных в этот блок веб-страницы, а также заголовок и URL-адрес заголовка узла заголовка.
5. Способ по п.4, отличающийся тем, что узел, соответствующий базовому единичному блоку, не содержит никакого другого узла, и число символов в базовом единичном блоке превышает заранее определенное пороговое значение.
6. Способ по п.5, отличающийся тем, что пороговое значение равно 20.
7. Способ по п.4, отличающийся тем, что при получении из первого дерева ОМД (DOM) веб-страницы порядкового номера первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь, выполняют следующие действия:
обход в прямом порядке первого дерева ОМД (DOM) веб-страницы и, после прохождения узла, соответствующего базовому единичному блоку в блоке веб-страницы, на который подписывается пользователь, чтение порядкового номера этого узла в качестве порядкового номера базового единичного блока;
выбор порядкового номера базового единичного блока, имеющего минимальный порядковый номер в блоке веб-страницы, на который подписывается пользователь, в качестве порядкового номера первого базового единичного блока на веб-странице, на которую подписывается пользователь.
8. Способ по п.4, отличающийся тем, что при получении числа базовых единичных блоков, включенных в блок веб-страницы, на который подписывается пользователь, выполняют следующие действия:
обход в прямом порядке первого дерева ОМД (DOM) веб-страницы и определение числа базовых единичных блоков, включенных в блок веб-страницы, на который подписывается пользователь.
9. Способ по п.4, отличающийся тем, что при получении префикса URL-адреса блока веб-страницы, на который подписывается пользователь, выполняются следующие действия:
извлечение префиксов URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, определение числа префиксов URL-адресов каждого типа и выбор в качестве префикса URL-адреса блока веб-страницы, на который подписывается пользователь, префикса того типа, которому соответствует максимальное число префиксов.
10. Способ по п.4, отличающийся тем, что при поиске в дереве ОМД (DOM) веб-страницы узла заголовка блока веб-страницы, на который подписывается пользователь, выполняют следующие действия:
поиск подходящих узлов заголовков в первом дереве ОМД (DOM) веб-страницы в направлении вперед от узла, соответствующего первому базовому единичному блоку в блоке веб-страницы, на который подписывается пользователь;
поиск среди подходящих узлов заголовков подходящего узла заголовка, URL-адрес которого идентичен или аналогичен префиксу URL-адреса, и определение найденного подходящего узла в качестве узла заголовка блока веб-страницы, на который подписывается пользователь.
11. Способ по п.4, отличающийся тем, что при отслеживании URL-адресов в блоке веб-страницы, на который подписывается пользователь, согласно идентификационной информации и сохраненным URL-адресам для определения, существует ли какое-либо изменение в URL-адресах, выполняют следующие действия:
чтение идентификационной информации и сохраненных URL-адресов;
создание второго дерева ОМД (DOM) веб-страницы;
определение начального узла второго дерева ОМД (DOM) согласно порядковому номеру первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь;
поиск во втором дереве ОМД (DOM) узлов, соответствующих базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь, с учетом начального узла, заголовка и URL-адреса заголовка узла заголовка, а также числа базовых единичных блоков в блоке веб-страницы, на который подписывается пользователь;
сравнение URL-адресов в узлах, соответствующих базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь, с сохраненными URL-адресами.
12. Способ по п.11, отличающийся тем, что при поиске во втором дереве ОМД (DOM) узлов, соответствующих базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь, с учетом начального узла, заголовка и URL-адреса заголовка узла заголовка, а также числа базовых единичных блоков в блоке веб-страницы, на который подписывается пользователь, выполняют следующие действия:
поиск узла заголовка по его заголовку и URL-адресу заголовка во втором дереве ОМД (DOM) одновременно в направлении вперед и назад от начального узла;
поиск во втором дереве ОМД (DOM) в обратном направлении от узла заголовка узлов, число которых совпадает с числом базовых единичных блоков в блоке веб-страницы, на который подписывается пользователь, причем искомыми являются узлы, соответствующие базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь.
13. Способ по п.1, в котором также предусмотрены следующие действия:
перед идентификацией блока веб-страницы, на который подписывается пользователь, с помощью ее первого дерева ОМД (DOM) для получения идентификационной информации определяют, существует ли на этой веб-странице такой блок; если такой блок существует, он отображается на веб-странице с выделением особым фоновым цветом.
14. Устройство подписки на информацию с веб-страницы, содержащее следующие модули:
модуль идентификации для идентификации блока веб-страницы, на который подписывается пользователь, с помощью первого дерева Объектной Модели Документов ОМД (DOM) веб-страницы для получения идентификационной информации;
модуль отслеживания в реальном масштабе времени для извлечения и сохранения URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, и отслеживания URL-адресов в блоке согласно идентификационной информации и сохраненным URL-адресам для определения, существует ли какое-либо изменение в URL-адресах;
модуль отображения для отображения веб-страницы, соответствующей измененному URL-адресу, если в URL-адресах блока веб-страницы, на который подписывается пользователь, есть какое-либо изменение.
15. Устройство по п.14, отличающееся тем, что модуль отображения содержит следующие компоненты:
модуль обновления для обновления сохраненных URL-адресов согласно измененному URL-адресу;
подмодуль отображения для отображения текстовой информации блока веб-страницы, на который подписывается пользователь.
16. Устройство по п.14, содержащее также:
модуль предварительного создания для создания первого дерева ОМД (DOM) веб-страницы.
17. Устройство по п.14, отличающееся тем, что модуль идентификации содержит следующие компоненты:
первый модуль получения для получения из первого дерева ОМД (DOM) веб-страницы порядкового номера первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь, и числа базовых единичных блоков в этом блоке веб-страницы;
второй модуль получения для получения префикса URL-адреса блока веб-страницы, на который подписывается пользователь;
первый модуль поиска для поиска по префиксу URL-адреса в первом дереве ОМД (DOM) веб-страницы узла заголовка блока веб-страницы, на который подписывается пользователь, и извлечения заголовка и URL-адреса заголовка этого узла;
причем идентификационная информация содержит порядковый номер первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь, число базовых единичных блоков в этом блоке веб-страницы, а также заголовок и URL-адрес заголовка узла заголовка.
18. Устройство по п.17, отличающееся тем, что первый модуль получения содержит следующие компоненты:
подблок обхода для обхода в прямом порядке первого дерева ОМД (DOM) веб-страницы и, после прохождения узла, соответствующего базовому единичному блоку блока веб-страницы, чтения порядкового номера этого узла в качестве порядкового номера базового единичного блока;
подблок выбора для выбора порядкового номера базового единичного блока, имеющего минимальный порядковый номер в блоке веб-страницы, на который подписывается пользователь, в качестве порядкового номера первого базового единичного блока на веб-странице, на которую подписывается пользователь;
первый подблок определения для определения числа базовых единичных блоков в блоке веб-страницы, на который подписывается пользователь.
19. Устройство по п.17, отличающееся тем, что второй блок получения содержит:
второй подблок определения для извлечения префиксов URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, определения числа префиксов URL-адресов каждого типа и выбора в качестве префикса URL-адреса блока веб-страницы, на который подписывается пользователь, префикса того типа, которому соответствует максимальное число префиксов.
20. Устройство по п.17, отличающееся тем, что первый блок поиска содержит следующие компоненты:
первый подблок поиска для поиска подходящих узлов заголовков в первом дереве ОМД (DOM) веб-страницы в направлении вперед от узла, соответствующего первому базовому единичному блоку в блоке веб-страницы, на который подписывается пользователь;
второй подблок поиска для поиска среди подходящих узлов заголовков подходящего узла с такими же или аналогичными URL-адресом заголовка и префиксом URL-адреса, как у узла заголовка блока веб-страницы, на который подписывается пользователь, и извлечения заголовка и URL-адреса заголовка этого узла.
21. Устройство по п.14, отличающееся тем, что модуль отслеживания в реальном масштабе времени содержит следующие компоненты:
блок чтения для чтения идентификационной информации и сохраненных URL-адресов;
блок создания для создания второго дерева ОМД (DOM) веб-страницы;
блок определения для определения начального узла во втором дереве ОМД (DOM) согласно порядковому номеру первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь;
второй блок поиска для поиска во втором дереве ОМД (DOM) узлов, соответствующих базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь, с учетом начального узла, заголовка и URL-адреса заголовка узла заголовка, а также числа базовых единичных блоков в блоке веб-страницы, на который подписывается пользователь;
блок сравнения для сравнения URL-адресов в узлах, соответствующих базовым единичным блокам, с сохраненными URL-адресами.
22. Устройство по п.21, отличающееся тем, что второй блок поиска содержит следующие компоненты:
третий подблок поиска для поиска узла заголовка по его заголовку и URL-адресу заголовка во втором дереве ОМД (DOM) одновременно в направлении вперед и назад от начального узла;
четвертый подблок поиска для поиска во втором дереве ОМД (DOM) в обратном направлении от узла заголовка узлов, число которых совпадает с числом базовых единичных блоков в блоке веб-страницы, на который подписывается пользователь, причем искомыми являются узлы, соответствующие базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь.
23. Устройство по п.14, содержащее также:
модуль определения для определения, имеется ли на веб-странице блок, на который подписался пользователь, и отображения этого блока на веб-странице с выделением особым фоновым цветом.
RU2012134725/08A 2010-01-20 2010-12-24 Способ и устройство подписки на информацию с веб-страницы RU2510921C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201010003447.6A CN102129428B (zh) 2010-01-20 2010-01-20 一种实现从网页中订阅信息的方法及装置
CN201010003447.6 2010-01-20
PCT/CN2010/080257 WO2011088724A1 (zh) 2010-01-20 2010-12-24 一种实现从网页中订阅信息的方法及装置

Publications (2)

Publication Number Publication Date
RU2012134725A true RU2012134725A (ru) 2014-02-27
RU2510921C2 RU2510921C2 (ru) 2014-04-10

Family

ID=44267514

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2012134725/08A RU2510921C2 (ru) 2010-01-20 2010-12-24 Способ и устройство подписки на информацию с веб-страницы

Country Status (5)

Country Link
US (1) US20120290922A1 (ru)
CN (1) CN102129428B (ru)
BR (1) BR112012017825A2 (ru)
RU (1) RU2510921C2 (ru)
WO (1) WO2011088724A1 (ru)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999514B (zh) * 2011-09-14 2017-04-05 百度在线网络技术(北京)有限公司 一种用于获得网页及其链接前缀信息的方法、装置和设备
CN103248641A (zh) * 2012-02-07 2013-08-14 腾讯科技(深圳)有限公司 网络下载方法、装置及系统
CN102880679B (zh) * 2012-09-11 2016-01-13 北京易云剪客科技有限公司 一种网页信息存储方法和装置
CN103914437A (zh) * 2012-12-29 2014-07-09 上海可鲁系统软件有限公司 一种基于dom模型的xml文本定位方法
US10062091B1 (en) * 2013-03-14 2018-08-28 Google Llc Publisher paywall and supplemental content server integration
CN104166545B (zh) * 2014-07-25 2018-01-02 北京搜狗科技发展有限公司 一种网页资源的嗅探方法以及装置
CN104991935B (zh) * 2015-07-06 2019-03-12 无锡天脉聚源传媒科技有限公司 一种网站关注度的处理方法和装置
CN105260424B (zh) * 2015-09-28 2019-02-26 北京奇虎科技有限公司 用户浏览网页历史记录和最常访问的处理方法及装置
CN106897287B (zh) * 2015-12-18 2020-06-16 中国电信股份有限公司 网页发布时间抽取方法和用于网页发布时间抽取的装置
CN109255088A (zh) * 2017-07-07 2019-01-22 普天信息技术有限公司 网页数据监测方法和设备
CN110020036B (zh) * 2017-07-18 2021-06-08 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN110535904B (zh) * 2019-07-19 2022-02-18 浪潮电子信息产业股份有限公司 一种异步推送方法、系统及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6834306B1 (en) * 1999-08-10 2004-12-21 Akamai Technologies, Inc. Method and apparatus for notifying a user of changes to certain parts of web pages
US6538673B1 (en) * 1999-08-23 2003-03-25 Divine Technology Ventures Method for extracting digests, reformatting, and automatic monitoring of structured online documents based on visual programming of document tree navigation and transformation
US7174377B2 (en) * 2002-01-16 2007-02-06 Xerox Corporation Method and apparatus for collaborative document versioning of networked documents
US6842182B2 (en) * 2002-12-13 2005-01-11 Sun Microsystems, Inc. Perceptual-based color selection for text highlighting
US7877399B2 (en) * 2003-08-15 2011-01-25 International Business Machines Corporation Method, system, and computer program product for comparing two computer files
US7812860B2 (en) * 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US7594013B2 (en) * 2005-05-24 2009-09-22 Microsoft Corporation Creating home pages based on user-selected information of web pages
GB0514556D0 (en) * 2005-07-15 2005-08-24 Smtk Ltd Active web alert
US8307275B2 (en) * 2005-12-08 2012-11-06 International Business Machines Corporation Document-based information and uniform resource locator (URL) management
JP4140916B2 (ja) * 2005-12-22 2008-08-27 インターナショナル・ビジネス・マシーンズ・コーポレーション Webページにおける状態遷移を解析する方法
US7941420B2 (en) * 2007-08-14 2011-05-10 Yahoo! Inc. Method for organizing structurally similar web pages from a web site
US20080215997A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Webpage block tracking gadget
CN100504879C (zh) * 2007-06-08 2009-06-24 北京大学 动态网页的分块方法
US8185621B2 (en) * 2007-09-17 2012-05-22 Kasha John R Systems and methods for monitoring webpages
US20090125529A1 (en) * 2007-11-12 2009-05-14 Vydiswaran V G Vinod Extracting information based on document structure and characteristics of attributes
CN100559374C (zh) * 2007-12-17 2009-11-11 杭州阔地网络科技有限公司 网页信息单元截取、合并的方法
US8255793B2 (en) * 2008-01-08 2012-08-28 Yahoo! Inc. Automatic visual segmentation of webpages
CN101520796A (zh) * 2009-02-16 2009-09-02 深圳市腾讯计算机系统有限公司 从网页内容中提取统一资源定位符的方法及系统
US8667015B2 (en) * 2009-11-25 2014-03-04 Hewlett-Packard Development Company, L.P. Data extraction method, computer program product and system

Also Published As

Publication number Publication date
RU2510921C2 (ru) 2014-04-10
US20120290922A1 (en) 2012-11-15
CN102129428B (zh) 2015-11-25
WO2011088724A1 (zh) 2011-07-28
BR112012017825A2 (pt) 2016-04-19
CN102129428A (zh) 2011-07-20

Similar Documents

Publication Publication Date Title
RU2012134725A (ru) Способ и устройство подписки на информацию с веб-страницы
CN107145496B (zh) 基于关键词将图像与内容项目匹配的方法
CN107766399B (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
CN102999625A (zh) 一种检索请求语义扩展方法
CN101918945A (zh) 自动扩展的语言搜索
CN109408701B (zh) 一种网络爬虫爬取路径的展示方法和装置
RU2013124949A (ru) Динамическое отображение результатов поиска
CN107145497B (zh) 基于图像和内容的元数据选择与内容匹配的图像的方法
JP2008545196A (ja) 所望リポジトリの判定
US20150294018A1 (en) Method and apparatus for recommending keywords
US9158849B2 (en) Synthesis of webpage snippets using sub-pages of the webpage
CN105224554A (zh) 推荐搜索词进行搜索的方法、系统、服务器和智能终端
CN103559286A (zh) 视频搜索结果的处理方法及装置
CN102163234A (zh) 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN107784059A (zh) 用于搜索和选择图像的方法和系统以及机器可读媒体
CN104715064A (zh) 一种实现在网页上标注关键词的方法和服务器
KR20090025535A (ko) 쿼리별 검색 컬렉션 생성 방법 및 시스템
CN102087648A (zh) 一种新闻评论页面的爬取方法及系统
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
JP2011192102A (ja) サマリ作成装置、サマリ作成方法及びプログラム
CN103218443A (zh) 一种面向博客网页的网页检索系统及方法
CN102902784B (zh) 网页分类存储系统及方法
CN114328951A (zh) 一种融合信息获取和三元组抽取的知识图谱构建方法
CN105808615A (zh) 一种基于分词权重的文档索引生成方法和装置
CN102682011A (zh) 建立域名描述名称信息表、搜索的方法、装置及系统