WO2012071993A1 - 一种环球信息网www页面处理方法和装置 - Google Patents
一种环球信息网www页面处理方法和装置 Download PDFInfo
- Publication number
- WO2012071993A1 WO2012071993A1 PCT/CN2011/082504 CN2011082504W WO2012071993A1 WO 2012071993 A1 WO2012071993 A1 WO 2012071993A1 CN 2011082504 W CN2011082504 W CN 2011082504W WO 2012071993 A1 WO2012071993 A1 WO 2012071993A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- page
- www
- www page
- dom tree
- terminal
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
Definitions
- the present invention relates to Internet technologies, and in particular, to a World Wide Web (WWW) page processing method and apparatus.
- WWW World Wide Web
- the main object of the present invention is to provide a www page processing method capable of effectively removing redundant information.
- Another object of the present invention is to provide a www page processing apparatus capable of effectively removing redundant information.
- a method of processing a www page including:
- a www page processing device comprising:
- a first processing unit configured to determine a website that needs to be optimized; for each different type of www page in each network, respectively generate a corresponding page template and save it; continuously crawl the www page from each website, Each of the captured www pages is matched with its corresponding page template, and the excess hypertext markup language HTML data is filtered out according to the matching result, and the filtered WWW page is saved;
- a second processing unit configured to: when receiving a WWW page access request from the terminal, determining whether the filtered processing page corresponding to the www page requested by the terminal is saved in the first processing unit, and if yes, The corresponding filtered page is obtained in the first processing unit and returned to the terminal.
- FIG. 1 is a flow chart of an embodiment of a method of the present invention
- FIG. 2 is a schematic structural view of an embodiment of a device according to the present invention. Mode for carrying out the invention
- Step 11 Identify the sites that need to be optimized.
- the background administrator can determine which websites need to be optimized (that is, filter the www pages in a subsequent manner), and use the determined websites to form a website link list and input them to the background processing system.
- the number of websites included in the website link list is as good as possible, but considering the maintenance cost and other factors, it can only include some commonly used websites.
- Step 12 Generate a corresponding page template for each different type of WWW page in each network and save it.
- each website X in the website link list the following processing is respectively performed:
- each of the different types of www pages is obtained from the website X; each www will be obtained
- the page analysis is constructed into a Document Object Model (DOM) tree, and according to the received background administrator command, the DOM nodes that are not reserved in each DOM tree are deleted; each deleted DOM tree is deleted. Convert to a WWW page and save as a page template. How to structure a DOM tree and how to convert a DOM tree to a WWW page is a prior art.
- a related plug-in can be developed to be installed in the background processing system browser, such as Firefox (FireFox) browser; subsequently, the background administrator can access different types of different websites on the FireFox browser with the plug-in installed.
- the WWW page specifically, for each type of website X, such as the news category and the BBS class WWW page, can randomly select a WWW page for access, and select the WWW page to be retained by the mouse. What you need to delete.
- the plugin is used according to the background tube The administrator's operation, correspondingly complete the analysis of constructing the DOM tree, deleting the DOM node, and converting the DOM tree to a WWW page.
- Step 13 Grab the WWW page from each website, and match each WWW page that is captured to its corresponding page template, and filter out the excess hypertext markup language based on the matching result (HTML, Hyper Text Mark) -up Language ) Data, and save the filtered WWW page.
- HTML Hyper Text Mark
- the background processing system can continuously crawl the www page from each website in the website link list, and the crawling is real-time crawling or crawling once every other time, and the crawling object includes all the wwws in each website. Web page.
- the page template Y corresponding to the WWW page Y refers to a page template that belongs to the same website as the WWW page Y and belongs to the same type.
- the Uniform Resource Location (URL) of each page template can be saved at the same time, and the URL can reflect the information of the website and the type of the website, so that each WWW page to be crawled is respectively Before the corresponding page template is matched, the corresponding page template may be determined according to the URL of each WWW page that is captured.
- Step 14 When receiving the WWW page access request from the terminal, determine whether the filtered WWW page corresponding to the WWW page requested by the terminal is saved, and if yes, return the corresponding filtered WWW page to the terminal.
- the background processing system when the background processing system receives the WWW page access request from the terminal, it first determines whether it saves the filtered www page corresponding to the WWW page requested by the terminal, that is, determines whether the www page requested by the terminal has been captured. It is optimized and, if so, the corresponding filtered WWW page is returned to the terminal, otherwise, the real-time conversion process of the www page is executed according to the existing method.
- FIG. 2 is a schematic structural diagram of an embodiment of a device according to the present invention. As shown in Figure 2, it includes:
- the first processing unit 21 is configured to determine a website that needs to be optimized; for each different type of WWW page in each network, generate a corresponding page template for each and save it; continuously crawl the WWW page from each website. Each WWW page that is captured is matched with its corresponding page template, and the excess HTML data is filtered out according to the matching result, and the filtered WWW page is saved;
- the second processing unit 22 is configured to: when receiving the WWW page access request from the terminal, determine whether the filtered WWW page corresponding to the WWW page requested by the terminal is saved in the first processing unit 21, and if yes, from the A processing unit 21 obtains a corresponding filtered WWW page and returns it to the terminal.
- the second processing unit 22 is further configured to: if the first processing unit 21 is not saved The filtered www page corresponding to the WWW page requested by the terminal requests the real-time conversion process of the www page.
- the first processing unit 21 may further include (for the sake of the drawing, not shown): a first processing subunit, configured to receive a website input by the background administrator and needs to be optimized;
- the second processing sub-unit is configured to perform the following processing for each website X: respectively, according to the received background administrator instruction, respectively acquiring one of different types of www pages from the website X; each WWW page to be acquired
- the DOM tree is separately constructed and deleted according to the received background administrator command, and the DOM nodes that are not reserved in each DOM tree are deleted; each deleted DOM tree is converted into a WWW page, and is used as a page template.
- the third processing sub-unit is configured to continuously fetch the WWW page from each website, and perform the following processing for each WWW page Y that is captured: constructing the WWW page Y analysis into a DOM tree, and obtaining the DOM tree 1
- the page template Y corresponding to the WWW page Y is parsed into a DOM tree to obtain a DOM tree 2; for each DOM node in the DOM tree 1, respectively, whether there is a matching DOM node in the DOM tree 2, and if so, Then, no processing is performed. Otherwise, the DOM node is deleted from the DOM tree 1; the deleted DOM tree 1 is converted into a WWW page and saved, and the DOM tree 2 is converted into a page template.
- the terminal in the embodiment shown in Figures 1 and 2 is typically a mobile terminal.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Description
技术领域
本发明涉及互联网技术, 特别涉及一种环球信息网 (WWW, World Wide Web ) 页面处理方法和装置。 发明背景
随着宽带互联网的普及,互联网上的 WWW页面显示的内容越来越 丰富, 但同时, 多余的信息, 如广告信息等也越来越多。 当用户在有限 大小的终端, 如手机终端上浏览 www页面时, 这些多余的信息会给用 户的浏览带来 4艮大的不便。 发明内容
有鉴于此, 本发明的主要目的在于提供一种 www页面处理方法, 能够有效地去除多余信息。
本发明的另一目的在于提供一种 www页面处理装置,能够有效地 去除多余信息。
为达到上述目的, 本发明的技术方案是这样实现的:
一种 www页面处理方法, 包括:
确定需要进行优化的网站;针对每个网络中各不同类型的 www页 面, 分别为其生成对应的页面模板并进行保存;
不断地从各网站中抓取 www页面, 将抓取到的每个 www页面 分别与其对应的页面模板进行匹配, 根据匹配结果从中过滤掉多余的超 文本标记语言 HTML数据, 并将过滤后的 WWW页面进行保存;
当接收到来自终端的 WWW页面访问请求时,确定是否保存有终端
请求访问的 WWW页面对应的过滤后的 WWW页面, 如果是, 则将对 应的过滤后的 www页面返回给终端。
一种 www页面处理装置, 包括:
第一处理单元, 用于确定需要进行优化的网站; 针对每个网络中各 不同类型的 www页面, 分别为其生成对应的页面模板并进行保存; 不 断地从各网站中抓取 www页面, 将抓取到的每个 www页面分别与 其对应的页面模板进行匹配, 根据匹配结果从中过滤掉多余的超文本标 记语言 HTML数据, 并将过滤后的 WWW页面进行保存;
第二处理单元, 用于当接收到来自终端的 WWW页面访问请求时, 确定所述第一处理单元中是否保存有终端请求访问的 www 页面对应 的过滤后的 www页面, 如果是, 则从所述第一处理单元中获取对应的 过滤后的 www页面, 并返回给终端。
可见, 采用本发明的技术方案, 可根据页面模板从抓取到的 www 页面中过滤掉多余的 HTML数据, 如广告信息等, 即有效地去除了多余 信息,从而方便了用户浏览; 而且, 本发明所述方案实现起来筒单方便, 便于普及和推广。 附图简要说明
下面将通过参照附图详细描述本发明的示例性实施例, 使本领域的 普通技术人员更清楚本发明的上述及其它特征和优点, 附图中:
图 1为本发明方法实施例的流程图;
图 2为本发明装置实施例的组成结构示意图。 实施本发明的方式
针对现有技术中存在的问题,本发明中提出一种全新的 WWW页面
处理方案。
为使本发明的技术方案更加清楚、明白,以下参照附图并举实施例, 对本发明所述方案作进一步地详细说明。
图 1为本发明方法实施例的流程图。 如图 1所示, 包括以下步骤: 步骤 11: 确定需要进行优化的网站。
在实际应用中, 可由后台管理员来确定哪些网站需要进行优化(即 按照后续方式对 www页面进行过滤等), 并利用确定出的网站组成一 个网站链接列表, 输入给后台处理系统。
理论上来说, 网站链接列表中所包含的网站数越多越好, 但是考虑 到维护成本等因素, 可只包含一些比较常用的网站。
步骤 12: 针对每个网络中各不同类型的 WWW页面, 分别为其生 成对应的页面模板并进行保存。
本步骤中,针对网站链接列表中的每个网站 X,分别进行以下处理: 根据接收到的后台管理员指令,从网站 X中分别获取不同类型的 www 页面各一个;将获取到的每个 www页面分别分析构造成文档对象模型 ( DOM, Document Object Model )树,并根据接收到的后台管理员指令, 删除每个 DOM树中不需要保留的 DOM节点; 将每个经过删除处理后 的 DOM树分别转换为 WWW页面, 并作为页面模板进行保存。 如何分 析构造 DOM树以及如何将 DOM树转换为 WWW页面均为现有技术。
在实际应用中, 可开发一个相关插件安装在后台处理系统的浏览 器, 如火狐(FireFox )浏览器上; 后续, 后台管理员可在安装了插件的 FireFox浏览器上访问不同网站的不同类型的 WWW页面, 具体来说, 针对每个网站 X中不同类型, 如新闻类和 BBS类的 WWW页面, 可分 别从中随机选择一个 WWW 页面进行访问, 并通过鼠标选择所访问的 WWW页面中需要保留和需要删除的内容。 所述插件即用于根据后台管
理员的操作, 相应地完成分析构造 DOM树、 删除 DOM节点、 将 DOM 树转换为 WWW页面等功能。
按照步骤 12所示方式进行处理后, 即可得到一系列的页面模板。 举例说明, 假设网站链接列表中共包含 3个网站(此处仅为举例说明, 实际会远大于 3 ), 其中, 第 1个网站中共包含 5种不同类型的 WWW 页面, 第 2个网站中共包含 6种不同类型的 WWW页面, 第 3个网站中 共包含 4种不同类型的 WWW页面,那么总共可得到 5 + 6 + 4 = 15个页 面模板。
步骤 13: 不断地从各网站中抓取 WWW 页面, 将抓取到的每个 WWW页面分别与其对应的页面模板进行匹配, 根据匹配结果从中过滤 掉多余的超文本标记语言( HTML, Hyper Text Mark-up Language )数据, 并将过滤后的 WWW页面进行保存。
后台处理系统可不断地从网站链接列表中的各网站中抓取 www 页面, 所述抓取为实时抓取或为每隔一段时间进行一次抓取, 抓取的对 象包括各网站中的所有 www网页。
针对抓取到的每个 WWW页面 Y,可分别进行以下处理: www 页面 Y分析构造成 DOM树, 得到 DOM树 1 , 将 WWW页面 Y对应的 页面模板 Y分析构造成 DOM树, 得到 DOM树 2; 针对 DOM树 1中 的每个 DOM节点,分别确定其在 DOM树 2中是否存在相匹配的 DOM 节点, 如果是, 则不作处理, 否则, 将该 DOM节点从 DOM树 1中删 除; 将经过删除处理后的 DOM树 1转换为 WWW页面, 将 DOM树 2 转换为页面模板丫。 如何确定 DOM节点是否匹配为现有技术。 通过这 种方式, 即可过滤掉 WWW页面中多余的 HTML数据, 如广告信息等。
上述与 WWW页面 Y对应的页面模板 Y, 即指和 WWW页面 Y属 于同一网站, 且属于同一类型的页面模板。 在实际应用中, 在保存每个
页面模板时,可同时保存每个页面模板的统一资源定位符( URL, Uniform Resource Location ), URL能够体现出所属网站以及所属类型等信息, 这 样,在将抓取到的每个 WWW页面分别与其对应的页面模板进行匹配之 前,可先根据抓取到的每个 WWW页面的 URL确定其对应的页面模板。
步骤 14: 当接收到来自终端的 WWW页面访问请求时, 确定是否 保存有终端请求访问的 WWW页面对应的过滤后的 WWW页面, 如果 是, 则将对应的过滤后的 WWW页面返回给终端。
本步骤中,当后台处理系统接收到来自终端的 WWW页面访问请求 时,首先确定自身是否保存有终端请求访问的 WWW页面对应的过滤后 的 www页面, 即确定终端请求访问的 www页面是否已经抓取并进 行了优化,如果是,则将对应的过滤后的 WWW页面返回给终端,否贝' J , 按照现有方式, 执行 www页面的实时转换流程。
至此, 即完成了关于本发明方法实施例的介绍。
基于上述介绍, 图 2为本发明装置实施例的组成结构示意图。 如图 2所示, 包括:
第一处理单元 21 , 用于确定需要进行优化的网站; 针对每个网络中 各不同类型的 WWW页面, 分别为其生成对应的页面模板并进行保存; 不断地从各网站中抓取 WWW页面, 将抓取到的每个 WWW页面分别 与其对应的页面模板进行匹配, 根据匹配结果从中过滤掉多余的 HTML 数据, 并将过滤后的 WWW页面进行保存;
第二处理单元 22, 用于当接收到来自终端的 WWW页面访问请求 时, 确定第一处理单元 21中是否保存有终端请求访问的 WWW页面对 应的过滤后的 WWW页面, 如果是, 则从第一处理单元 21中获取对应 的过滤后的 WWW页面, 并返回给终端。
第二处理单元 22还可进一步用于, 如果第一处理单元 21中未保存
有终端请求访问的 WWW 页面对应的过滤后的 www 页面, 则执行 www页面的实时转换流程。
另外, 第一处理单元 21中还可具体包括(为筒化附图, 未图示): 第一处理子单元, 用于接收后台管理员输入的需要进行优化的网 站;
第二处理子单元, 用于针对每个网站 X, 分别进行以下处理: 根据 接收到的后台管理员指令, 从网站 X中分别获取不同类型的 www页 面各一个; 将获取到的每个 WWW页面分别分析构造成 DOM树, 并根 据接收到的后台管理员指令, 删除每个 DOM树中不需要保留的 DOM 节点; 将每个经过删除处理后的 DOM树分别转换为 WWW页面, 作为 页面模板进行保存;
第三处理子单元, 用于不断地从各网站中抓取 WWW页面,针对抓 取到的每个 WWW页面 Y, 分别进行以下处理: 将 WWW页面 Y分析 构造成 DOM树, 得到 DOM树 1 , 将 WWW页面 Y对应的页面模板 Y 分析构造成 DOM树, 得到 DOM树 2; 针对 DOM树 1中的每个 DOM 节点, 分别确定其在 DOM树 2中是否存在相匹配的 DOM节点, 如果 是, 则不作处理, 否则, 将该 DOM节点从 DOM树 1中删除; 将经过 删除处理后的 DOM树 1转换为 WWW页面并进行保存, 将 DOM树 2 转换为页面模板丫。
图 2所示装置实施例的具体工作流程请参照图 1所示方法实施例中 的相应说明, 此处不再赘述。 另外, 图 1和 2所示实施例中的终端通常 为手机终端。
以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 凡 在本发明的精神和原则之内, 所做的任何修改、 等同替换、 改进等, 均 应包含在本发明保护的范围之内。
Claims
1、 一种环球信息网 WWW页面处理方法, 其特征在于, 包括: 确定需要进行优化的网站;针对每个网络中各不同类型的 www页 面, 分别为其生成对应的页面模板并进行保存;
不断地从各网站中抓取 www页面, 将抓取到的每个 www页面 分别与其对应的页面模板进行匹配, 根据匹配结果从中过滤掉多余的超 文本标记语言 HTML数据, 并将过滤后的 WWW页面进行保存;
当接收到来自终端的 WWW页面访问请求时,确定是否保存有终端 请求访问的 WWW页面对应的过滤后的 WWW页面, 如果是, 则将对 应的过滤后的 www页面返回给终端。
2、 根据权利要求 1所述的方法, 其特征在于, 该方法进一步包括: 如果未保存有终端请求访问的 WWW 页面对应的过滤后的 www 页面, 则执行 www页面的实时转换流程。
3、根据权利要求 1或 2所述的方法, 其特征在于, 所述针对每个网 络中各不同类型的 WWW页面,分别为其生成对应的页面模板并进行保 存包括:
针对每个网站 X , 分别进行以下处理:
根据接收到的后台管理员指令, 从网站 X 中分别获取不同类型的 www页面各一个;
将获取到的每个 WWW 页面分别分析构造成文档对象模型 DOM 树, 并根据接收到的后台管理员指令, 删除每个 DOM树中不需要保留 的 DOM节点;
将每个经过删除处理后的 DOM树分别转换为 WWW页面, 作为页 面模板进行保存。
4、根据权利要求 1或 2所述的方法, 其特征在于, 所述将抓取到的 每个 WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中 过滤掉多余的 HTML数据包括:
针对抓取到的每个 WWW页面 Y , 分别进行以下处理:
将 WWW页面 Y分析构造成 DOM树, 得到 DOM树 1 , 将 WWW 页面 Y对应的页面模板 Y分析构造成 DOM树, 得到 DOM树 2;
针对 DOM树 1中的每个 DOM节点,分别确定其在 DOM树 2中是 否存在相匹配的 DOM节点, 如果是, 则不作处理, 否则, 将该 DOM 节点从 DOM树 1中删除;
将经过删除处理后的 DOM树 1转换为 WWW页面, 将 DOM树 2 转换为页面模板 Y。
5、根据权利要求 1或 2所述的方法, 其特征在于, 该方法进一步包 括: 保存每个页面模板的统一资源定位符 URL;
所述将抓取到的每个 WWW 页面分别与其对应的页面模板进行匹 配之前, 进一步包括: 根据抓取到的每个 WWW页面的 URL确定其对 应的页面模板。
6、根据权利要求 1或 2所述的方法, 其特征在于, 所述终端为手机 终端。
7、 一种环球信息网 WWW页面处理装置, 其特征在于, 包括: 第一处理单元, 用于确定需要进行优化的网站; 针对每个网络中各 不同类型的 WWW页面, 分别为其生成对应的页面模板并进行保存; 不 断地从各网站中抓取 WWW页面, 将抓取到的每个 WWW页面分别与 其对应的页面模板进行匹配, 根据匹配结果从中过滤掉多余的超文本标 记语言 HTML数据, 并将过滤后的 WWW页面进行保存;
第二处理单元, 用于当接收到来自终端的 WWW页面访问请求时, 确定所述第一处理单元中是否保存有终端请求访问的 WWW 页面对应 的过滤后的 www页面, 如果是, 则从所述第一处理单元中获取对应的 过滤后的 www页面, 并返回给终端。
8、根据权利要求 7所述的装置, 其特征在于, 所述第二处理单元进 一步用于,如果所述第一处理单元中未保存有终端请求访问的 WWW页 面对应的过滤后的 WWW页面, 则执行 WWW页面的实时转换流程。
9、根据权利要求 7或 8所述的装置, 其特征在于, 所述第一处理单 元包括:
第一处理子单元,用于接收后台管理员输入的需要进行优化的网站; 第二处理子单元, 用于针对每个网站 X, 分别进行以下处理: 根据 接收到的后台管理员指令, 从网站 X中分别获取不同类型的 WWW页 面各一个; 将获取到的每个 WWW 页面分别分析构造成文档对象模型 DOM树,并根据接收到的后台管理员指令,删除每个 DOM树中不需要 保留的 DOM节点;将每个经过删除处理后的 DOM树分别转换为 WWW 页面, 作为页面模板进行保存;
第三处理子单元, 用于不断地从各网站中抓取 WWW页面, 针对抓 取到的每个 WWW页面 Y, 分别进行以下处理: 将 WWW页面 Y分析 构造成 DOM树, 得到 DOM树 1 , 将 WWW页面 Y对应的页面模板 Y 分析构造成 DOM树, 得到 DOM树 2; 针对 DOM树 1中的每个 DOM 节点, 分别确定其在 DOM树 2中是否存在相匹配的 DOM节点, 如果 是, 则不作处理, 否则, 将该 DOM节点从 DOM树 1中删除; 将经过 删除处理后的 DOM树 1转换为 WWW页面并进行保存, 将 DOM树 2 转换为页面模板丫。
10、 根据权利要求 7或 8所述的装置, 其特征在于, 所述终端为手 机终端。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/823,603 US8739024B2 (en) | 2010-12-03 | 2011-11-21 | Method and apparatus for processing world wide web page |
EP20110844631 EP2605155A4 (en) | 2010-12-03 | 2011-11-21 | METHOD AND DEVICE FOR PROCESSING WEB PAGE |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010586269.4A CN102486799B (zh) | 2010-12-03 | 2010-12-03 | 一种环球信息网www页面处理方法和装置 |
CN201010586269.4 | 2010-12-03 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2012071993A1 true WO2012071993A1 (zh) | 2012-06-07 |
Family
ID=46152292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2011/082504 WO2012071993A1 (zh) | 2010-12-03 | 2011-11-21 | 一种环球信息网www页面处理方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8739024B2 (zh) |
EP (1) | EP2605155A4 (zh) |
CN (1) | CN102486799B (zh) |
WO (1) | WO2012071993A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130269014A1 (en) * | 2012-04-09 | 2013-10-10 | Justin Brock GERBER | Method and apparatus for browser interface, account management, and profile management |
CN104239369A (zh) * | 2013-06-24 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 一种过滤网页广告的方法、装置和系统 |
CN110968821A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 一种网址处理方法及装置 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880679B (zh) * | 2012-09-11 | 2016-01-13 | 北京易云剪客科技有限公司 | 一种网页信息存储方法和装置 |
CN104035753B (zh) | 2013-03-04 | 2018-11-02 | 优视科技有限公司 | 一种双WebView展示定制页面的方法及系统 |
WO2015070795A1 (zh) * | 2013-11-15 | 2015-05-21 | 北京奇虎科技有限公司 | 用于实现商品收藏及状态变化提醒的方法、装置、客户端及系统 |
CN104750463B (zh) * | 2013-12-26 | 2018-05-22 | 任子行网络技术股份有限公司 | 一种插件开发方法及系统 |
CN104765592B (zh) * | 2014-01-03 | 2018-09-18 | 任子行网络技术股份有限公司 | 一种面向网页采集任务的插件管理方法及其装置 |
CN108280109A (zh) * | 2017-04-17 | 2018-07-13 | 广州市动景计算机科技有限公司 | 页面数据过滤方法、装置及用户终端 |
CN110955428A (zh) * | 2019-11-27 | 2020-04-03 | 北京奇艺世纪科技有限公司 | 一种页面显示方法、装置、电子设备及介质 |
CN111125587B (zh) * | 2019-12-31 | 2023-08-04 | 北京百度网讯科技有限公司 | 网页结构优化方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192234A (zh) * | 2007-06-07 | 2008-06-04 | 腾讯科技(深圳)有限公司 | 一种基于网页抽取的搜索系统及搜索方法 |
CN101276362A (zh) * | 2007-03-26 | 2008-10-01 | 国际商业机器公司 | 优化和差异化网页浏览的装置和方法 |
US20090307266A1 (en) * | 2008-06-06 | 2009-12-10 | Apple Inc. | Processing a page |
CN101625700A (zh) * | 2009-08-12 | 2010-01-13 | 中兴通讯股份有限公司 | 在终端上优化显示网络页面的方法和装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6944817B1 (en) * | 1997-03-31 | 2005-09-13 | Intel Corporation | Method and apparatus for local generation of Web pages |
US8397223B2 (en) * | 2000-03-17 | 2013-03-12 | Gutenberg Printing Llc | Web application generator |
US7415538B2 (en) | 2001-03-19 | 2008-08-19 | International Business Machines Corporation | Intelligent document filtering |
US7047318B1 (en) * | 2001-04-20 | 2006-05-16 | Softface, Inc. | Method and apparatus for creating and deploying web sites with dynamic content |
US6955298B2 (en) * | 2001-12-27 | 2005-10-18 | Samsung Electronics Co., Ltd. | Apparatus and method for rendering web page HTML data into a format suitable for display on the screen of a wireless mobile station |
US7389471B2 (en) * | 2003-06-11 | 2008-06-17 | Microsoft Corporation | Utilizing common layout and functionality of multiple web pages |
JP2005149136A (ja) * | 2003-11-14 | 2005-06-09 | Fujitsu Ltd | 情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置 |
US7444345B2 (en) * | 2005-02-15 | 2008-10-28 | International Business Machines Corporation | Hierarchical inherited XML DOM |
US8762556B2 (en) * | 2007-06-13 | 2014-06-24 | Apple Inc. | Displaying content on a mobile device |
US7945556B1 (en) * | 2008-01-22 | 2011-05-17 | Sprint Communications Company L.P. | Web log filtering |
US20100199197A1 (en) * | 2008-11-29 | 2010-08-05 | Handi Mobility Inc | Selective content transcoding |
US8073865B2 (en) * | 2009-09-14 | 2011-12-06 | Etsy, Inc. | System and method for content extraction from unstructured sources |
-
2010
- 2010-12-03 CN CN201010586269.4A patent/CN102486799B/zh active Active
-
2011
- 2011-11-21 US US13/823,603 patent/US8739024B2/en active Active
- 2011-11-21 WO PCT/CN2011/082504 patent/WO2012071993A1/zh active Application Filing
- 2011-11-21 EP EP20110844631 patent/EP2605155A4/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101276362A (zh) * | 2007-03-26 | 2008-10-01 | 国际商业机器公司 | 优化和差异化网页浏览的装置和方法 |
CN101192234A (zh) * | 2007-06-07 | 2008-06-04 | 腾讯科技(深圳)有限公司 | 一种基于网页抽取的搜索系统及搜索方法 |
US20090307266A1 (en) * | 2008-06-06 | 2009-12-10 | Apple Inc. | Processing a page |
CN101625700A (zh) * | 2009-08-12 | 2010-01-13 | 中兴通讯股份有限公司 | 在终端上优化显示网络页面的方法和装置 |
Non-Patent Citations (1)
Title |
---|
See also references of EP2605155A4 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130269014A1 (en) * | 2012-04-09 | 2013-10-10 | Justin Brock GERBER | Method and apparatus for browser interface, account management, and profile management |
CN104239369A (zh) * | 2013-06-24 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 一种过滤网页广告的方法、装置和系统 |
CN110968821A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 一种网址处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
EP2605155A4 (en) | 2013-08-14 |
CN102486799A (zh) | 2012-06-06 |
US20130238980A1 (en) | 2013-09-12 |
CN102486799B (zh) | 2014-10-15 |
EP2605155A1 (en) | 2013-06-19 |
US8739024B2 (en) | 2014-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2012071993A1 (zh) | 一种环球信息网www页面处理方法和装置 | |
CN103873918B (zh) | 图片处理方法、装置及终端 | |
TWI451335B (zh) | WebKit瀏覽器裝置與應用於其上之網頁內容載入方法 | |
CN102043834B (zh) | 一种客户端实现搜索的方法及搜索客户端 | |
CN101984429B (zh) | 获取目标页面的方法、装置、搜索引擎和浏览器 | |
CN102930059B (zh) | 一种聚焦爬虫的设计方法 | |
CN102799372B (zh) | 一种图片信息的上传方法及上传装置 | |
US8131753B2 (en) | Apparatus and method for accessing and indexing dynamic web pages | |
WO2011097992A1 (zh) | 实现网页访问的方法、系统及前端服务器 | |
WO2018001124A1 (zh) | 网页文件发送方法、网页渲染方法及装置、网页渲染系统 | |
CN109033403B (zh) | 用于搜索区块链数据的方法、装置及存储介质 | |
WO2017124692A1 (zh) | 查找表单页面和目标页面转化关系的方法和装置 | |
US20130305131A1 (en) | Method, system and computer storage medium for pre-reading network data | |
CN102750352A (zh) | 浏览器中分类收藏历史访问记录的方法及装置 | |
WO2013060153A1 (zh) | 一种添加快速链接的方法及终端 | |
CN102521232A (zh) | 一种互联网元数据的分布式采集处理系统及方法 | |
WO2016050124A1 (zh) | 网页转码方法、装置以及服务器 | |
WO2015003556A1 (zh) | 获取一个主域名相关联的二级域名信息的设备和方法 | |
US8140575B2 (en) | Apparatus, method, and program product for information processing | |
WO2015003664A1 (zh) | 一种下载处理方法、装置、服务器及客户端设备 | |
CN104298780A (zh) | 一种浏览器网页信息的预获取方法及系统 | |
WO2012151752A1 (en) | Annotating search results with images | |
CN105279156A (zh) | 网络信息通信方法及网络信息浏览装置 | |
WO2012119496A1 (zh) | 预读方法和装置 | |
CN103838797A (zh) | 一种移动搜索引擎优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 11844631 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2011844631 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13823603 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |