WO2016107353A1 - 确定pc网页与移动网页自适应关系的系统及方法 - Google Patents

确定pc网页与移动网页自适应关系的系统及方法 Download PDF

Info

Publication number
WO2016107353A1
WO2016107353A1 PCT/CN2015/095858 CN2015095858W WO2016107353A1 WO 2016107353 A1 WO2016107353 A1 WO 2016107353A1 CN 2015095858 W CN2015095858 W CN 2015095858W WO 2016107353 A1 WO2016107353 A1 WO 2016107353A1
Authority
WO
WIPO (PCT)
Prior art keywords
webpage
mobile
digital signature
field
web page
Prior art date
Application number
PCT/CN2015/095858
Other languages
English (en)
French (fr)
Inventor
王智广
张飞虎
Original Assignee
北京奇虎科技有限公司
奇智软件(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201410838480.9A external-priority patent/CN104572931B/zh
Priority claimed from CN201410838598.1A external-priority patent/CN104504100B/zh
Application filed by 北京奇虎科技有限公司, 奇智软件(北京)有限公司 filed Critical 北京奇虎科技有限公司
Publication of WO2016107353A1 publication Critical patent/WO2016107353A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention has been made in order to provide a system for determining an adaptive relationship between a PC web page and a mobile web page that overcomes the above problems or at least partially solves or alleviates the above problems, and a corresponding method for determining an adaptive relationship between a PC web page and a mobile web page. .
  • the first digital signature generating module 131 is configured to generate, according to the first field, a digital signature of the mobile webpage as a first digital signature;
  • step S15 in the method for determining the adaptive relationship between the PC webpage and the mobile webpage is further disclosed as follows to embody another embodiment implemented according to this step.
  • the subdivision steps of this step include:
  • the user of the mobile terminal is detected by the user agent logic, and according to the search term of the user, it is determined whether there is a mobile webpage having the adaptive relationship with the PC webpage requested by the user, if the pc url and the corresponding mobile url are different
  • pc url http://news.sohu.com/20141126/n406414760.shtml
  • mobile url http://m.sohu.com/n/406414760/

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种确定PC网页与移动网页自适应关系的系统和方法,其中,该方法包括:提取移动网页的标题字段的至少一部分,作为第一字段(S11);提取PC网页的标题字段的至少一部分,作为第二字段(S12);基于所述第一字段和第二字段对移动网页和PC网页进行匹配(S13);根据匹配成功的移动网页和PC网页分别对应的URL生成URL模板(S14);使用所述URL模板确定PC网页与移动网页的自适应关系(S15)。该方法能够利用少量的PC网页和移动网页,准确地挖掘较全面的PC网页和移动网页的自适应对应关系,降低PC网页向移动网页转化过程中所花费的时间和资源。

Description

确定PC网页与移动网页自适应关系的系统及方法 技术领域
本发明涉及互联网技术领域,具体而言,涉及确定PC网页与移动网页自适应关系的系统和确定PC网页与移动网页自适应关系的方法。
背景技术
随着移动互联网产业的快速发展,越来越多的用户通过手机、PAD等移动设备上网越来越普遍。3G各类wap网站开始蓬勃发展,很多传统互联网网站都希望将自己原有的PC网页移植到移动互联网中,借助手机网络用户的增长,继续保持发展。但是这些移动设备和普通电脑不同,他们的屏幕相对于普通电脑的屏幕而言是非常小巧的,在普通电脑上可以显示的网页在移动设备上浏览起来用户体验并不好。
对于搜索引擎而言,当用户采用移动设备进行搜索时应该提供适合移动设备显示的移动网页。目前,一种方案是针对移动网页单独建立索引库,当用户采用移动设备进行搜索时,查询移动索引库并且提供移动网页。这种方案缺点是需要单独建索引库并且需要重新计算移动网页和用户搜索词query的相关性以及权重。另一种方案是利用移动UA(User Agent,用户代理)模拟移动设备随机抓取大量的PC网页对应的url(Uniform Resource Locator,统一资源定位符),渲染并解析返回的网页,如果为移动网页则为具有对应关系,挖掘上述移动网页和PC网页的对应关系(调研发现90%以上的移动网页在PC上有对应的PC网页),当用户用移动设备搜索时根据PC和移动网页的对应关系展现和PC相对应的移动网页,这种方案不需要单独创建移动索引库,并且在展现结果时根据PC网页的相关性和权重直接平移到移动网页上,不需要重新计算。但是采用这种方案需要抓取大量的PC网页对应的url,而且选取哪些PC网页对应的url抓取是比较随机的,而很多站点只是部分PC网页有对应的移动网页,这可能造成真正有对应关系的PC网页在选取时可能选取不到导致对应关系挖掘不到,即使能够选取到可能选取的量比较少也无法形成规则。
PC网页和移动网页对应关系分为自适应和非自适应,自适应指的是当用户利用移动设备访问PC网页的时候站点自动返回给用户的是对应的移动网页,非自适应则不会。自适应又分为跳转和非跳转,跳转指的是当用户用移动设备访问PC网页对应的url时站点返回的移动网页对应的url和PC网页对应的url是不同的,非跳转指的是当用户用移动设备访问PC网页对应的url时站点返回的移动网页对应的url和PC网页对应的url从长相上看是完全一样的,只不过是内容不同。
如何提供一种确定PC网页与移动网页自适应关系的方法,能够准确地利用少量的PC网页和移动网页,挖掘较全面的PC网页和移动网页的自适应对应关系,降低PC网页向移动网页转化过程中所花费的时间和资源,成为目前急需解决的问题之一。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的确定PC网页与移动网页自适应关系的系统和相应的确定PC网页与移动网页自适应关系的方法。
根据本发明的一个方面,提供了一种确定PC网页与移动网页自适应关系的系统,该系统包括:
第一标题字段提取器,用于提取移动网页的标题字段的至少一部分作为第一字段;
第二标题字段提取器,用于提取PC网页的标题字段的至少一部分作为第二字段;
字段匹配器,用于基于所述第一字段和第二字段对移动网页和PC网页进行匹配;
URL聚类器,用于根据匹配成功的移动网页和PC网页分别对应的URL生成URL模板;
自适应关系确定器,用于使用所述URL模板确定PC网页与移动网页的自适应关系。
根据本发明的另一个方面,提供了一种确定PC网页与移动网页自适应关系的方法,该方法包括:提取移动网页的标题字段的至少一部分,作为第一字段;提取PC网页的标题字段的至少一部分,作为第二字段;基于所述第一字段和第二字段对移动网页和PC网页进行匹配;根据匹配成功的移动网页和PC网页分别对应的URL生成URL模板;使用所述URL模板确定PC网页与移动网页的自适应关系。
根据本发明的一个方面,提供了一种确定PC网页与移动网页自适应关系的系统,包括:
第一标题字段提取器,用于提取移动网页的标题字段的至少一部分,作为第一字段;
第二标题字段提取器,用于提取PC网页的标题字段的至少一部分,作为第二字段;
字段匹配器,用于根据所述第一字段和第二字段对移动网页和PC网页进行匹配;
URL比较器,用于验证匹配成功的移动网页和PC网页分别对应的URL是否相同;
自适应关系确定器,在所述URL比较器判断相同的情况下,确定所述PC网页与所述移动网页存在自适应关系。
根据本发明的另一个方面,提供了一种确定PC网页与移动网页自适应关系的方法,包括:提取移动网页的标题字段的至少一部分,作为第一字段;提取PC网页的标题字段的至少一部分,作为第二字段;基于所述第一字段和第二字段对移动网页和PC网页进行匹配;验证匹配成功的移动网页和PC网页分别对应的URL是否相同;如果URL相同,则确定所述PC网页与所述移动网页存在自适应关系。
根据本发明的又一个方面,提出了一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算设备上运行时,导致所述计算设备执行上文任一项所述的确定PC网页与移动网页自适应关系的方法。
根据本发明的再一个方面,提出了一种计算机可读介质,其中存储了上述的计算机程序。
本发明的有益效果为:
本发明无需单独创建移动索引库,并且不需要重新计算移动网页和用户query的相关性以及权重,通过抓取少量的PC网页和移动网页,利用少量的PC网页和移动网页的标题字段的匹配关系来针对性的选取需要待验证抓取的PC网页对应的URL,一方面节省了需要抓取的PC网页对应的URL的量,同时利用较少的抓取来挖掘较全面的PC网页和移动网页的自适应对应关系,进而实现移动网页的推送,节省了大量PC网页向移动网页转化过程中所花费的时间和资源。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员 将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示意性示出了本发明一个实施例的确定PC网页与移动网页自适应关系的系统的框图;
图2示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的系统的框图;
图3示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的系统中的字段匹配器的框图;
图4示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的系统的框图;
图5示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的系统中的自适应关系确定器的框图;
图6示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的系统的框图;
图7示意性示出了本发明一个实施例的确定PC网页与移动网页自适应关系的方法的流程图;
图8示意性示出了本发明一个实施例的确定PC网页与移动网页自适应关系的方法的流程图;
图9示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的方法的步骤S13的细分流程图;
图10示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的方法的流程图;以及
图11示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的方法的步骤S15的细分流程图;
图12示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的方法的流程图;
图13示意性地示出了用于执行根据本发明的方法的计算设备的框图;以及
图14示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。
具体实施例
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
图1示出了本发明一个实施例的确定PC网页与移动网页自适应关系的系统的框图。
参照图1,本发明实施例的确定PC网页与移动网页自适应关系的系统,包括:
第一标题字段提取器11,用于提取移动网页的标题字段的至少一部分作为第一字段;
第二标题字段提取器12,用于提取PC网页的标题字段的至少一部分作为第二字段;
字段匹配器13,用于基于所述第一字段和第二字段对移动网页和PC网页进行匹配;
URL聚类器14,用于根据匹配成功的移动网页和PC网页分别对应的URL生成URL模板;
自适应关系确定器15,用于使用所述URL模板确定PC网页与移动网页的自适应关系。
图2示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的系统的框图。
参照图2,本发明实施例的确定PC网页与移动网页自适应关系的系统,包括:
第一标题字段提取器21,用于提取移动网页的标题字段的至少一部分,作为第一字段;
第二标题字段提取器22,用于提取PC网页的标题字段的至少一部分,作为第二字段;
字段匹配器23,用于根据所述第一字段和第二字段对移动网页和PC网页进行匹配;
URL比较器24,用于验证匹配成功的移动网页和PC网页分别对应的URL是否相同;
自适应关系确定器25,在所述URL比较器判断相同的情况下,确定所述PC网页与所述移动网页存在自适应关系。
进一步地,本发明图1/图2所示的实施例中的第一标题字段提取器11/第一标题字段提取器21,在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;所述第二标题字段提取器12/第二标题字段提取器22,在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。
本发明图1和图2所示的实施例,首先利用pc网页和移动网页的title匹配关系来针对性的选取需要待验证抓取的PC网页对应的URL以及具有相同title的移动网页;其中,网页的title即当前网页的名称。比如对应的URL为http://news.sohu.com/20141126/n406414760.shtml的PC网页,该PC网页的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-搜狐新闻”,与上述PC网页的title相匹配的移动网页对应的URL为http://m.sohu.com/n/406414760/,该移动网页的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-新闻频道-手机搜狐”。通过提取移动网页的标题字段即title的至少一部分,如“美军无人机袭击巴基斯坦西北部致至少8人死亡-新闻频道-手机搜狐”作为第一字段;并提取PC网页的标题字段的至少一部分,如“美军无人机袭击巴基斯坦西北部致至少8人死亡-搜狐新闻”作为第二字段;基于所述第一字段和第二字段对移动网页和PC网页进行匹配,可见上述的PC网页和移动网页匹配成功,根据该匹配成功的移动网页和PC网页分别对应的URL生成URL模板,使用所述URL模板确定PC网页与移动网页的自适应关系。
本发明图1和图2所示的实施例通过针对性的选取PC网页对应的URL,通过抓取尽量少的PC网页对应的URL来获取较全面的pc和移动网页的自适应对应关系,达到挖掘移动站点并且收录其上的移动网页的目的。
更优选地,本发明图1和图2所示的实施例中呈现移动网页的移动终端包括但不限于手机、PDA、游戏机等。需要说明的是,所述搜狐新闻仅为举例,其他现有的或今后可能出现的新闻网站均包含在本发明保护范围以内,并以引用方式包含于此。
为了进一步体现发明的优越性,如下进一步揭示本发明确定PC网页与移动网页自适应关系的系统中的字段匹配器13的在另一实施例中的内部结构,来体现依据字段匹配器13实现的另一实施例的细节。参照图3,字段匹配器13进一步包括第一数字签名生成模块131、第二数字签 名生成模块132以及数字签名匹配模块133:
所述的第一数字签名生成模块131,用于根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名;
所述的第二数字签名生成模块132,用于根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名;
所述的数字签名匹配模块133,用于利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。
进一步地,本发明实施例中的第一数字签名生成模块131进一步包括:第一分块单元,用于对所述第一字段进行分块处理;第一频率统计单元,用于统计每个分块在所述移动网页所属网站中出现的频率;第一分块选择单元,用于选择频率最低的分块作为所述移动网页的第一数字签名;
进一步地,本发明实施例中的第二数字签名生成模块132进一步包括:第二分块单元,用于对所述第二字段进行分块处理;第二频率统计单元,用于统计每个分块在所述PC网页所属网站中出现的频率;第二分块选择单元,用于选择频率最低的分块作为所述PC网页的第二数字签名。
本发明实施例中,提取移动网页title并且生成签名、提取pc网页标题字段title并且生成签名。在生成title对应签名的时候,通过利用特定的分隔符,比如“-”等把title分割为不同的块,统计每个分块在对应网页所属网站中出现的频率,选择频率最低的分块部分作为对应网页的数字签名,而频率较高的则为公用部分,进而实现去掉title中公用的部分,只计算title中核心部分的签名。比如PC网页http://news.sohu.com/20141126/n406414760.shtml的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-搜狐新闻”,其中“搜狐新闻”是公用部分(存在于大量的网页title中),“美军无人机袭击巴基斯坦西北部致至少8人死亡”在对应网页所属网站中出现的频率最低,则将“美军无人机袭击巴基斯坦西北部致至少8人死亡”作为PC网的标签。移动网页和Pc网页的title需要采取同样的方法处理。之所以这样处理是因为具有对应关系的pc和移动网页title的公用部分是不同的。比如上述pc网页URL对应的移动网页的URL:http://m.sohu.com/n/406414760/的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-新闻频道-手机搜狐”,利用特定的分隔符,比如“-”等把title进行分块处理后,其中公用部分为“新闻频道”和“手机搜狐”,则移动网页的标签确定为“美军无人机袭击巴基斯坦西北部致至少8人死亡”。
进一步地,本发明实施例中的数字签名匹配模块133进一步包括:第一签名比较单元,用于比较所述第一数字签名和第二数字签名是否相同;第一匹配判断单元,用于在签名比较单元确定所述第一数字签名和第二数字签名相同时,判断所述移动网页和PC网页匹配。
本发明实施例,通过比较已经生成的第一数字签名和第二数字签名,来匹配pc网页和移动网页,签名相同的记为一对。比如,上述PC网的标签为“美军无人机袭击巴基斯坦西北部致至少8人死亡”,移动网页的标签为,“美军无人机袭击巴基斯坦西北部致至少8人死亡”,可见pc网页和移动网页的签名相同判断所述移动网页和PC网页匹配。则:pc网页对应的url:http://news.sohu.com/20141126/n406414760.shtml和移动网页对应的url:http://m.sohu.com/n/406414760/记为一对,其中能匹配上移动url的pc url称为有对应关系的pc url。
进一步地,本发明的另一实施例中的数字签名匹配模块133进一步包括:第二签名确定单元,用于确定所述第一数字签名和第二数字签名的相似度;第二匹配判断单元,用于在相似度 高于预定阈值的情况下,判断所述移动网页和PC网页匹配。
图2所示的实施例中,字段匹配器23与图1中字段匹配器13完全相同,即字段匹配器23的结构也如图3所示以及如上述关于图3的描述相同,这里不再赘述。
对于,PC网页url和相对应的移动网页url长相不同的情况,如果PC网的标签与移动网页的标签为并不是完全相同,但是很相似,而且如果相似度高于预定阈值,则同样判断所述移动网页和PC网页匹配。其中,能匹配上移动url的pc url称为有对应关系的pc url。
进一步地,本发明图1所示的实施例根据匹配成功的移动网页和PC网页分别对应的URL生成URL模板,具体为:计算有对应关系的PC网页对应的URL的pattern,即根据一定规则对PC网页URL进行url聚类,比如http://news.sohu.com/20141126/n406414760.shtml的pattern为http://news.sohu.com/*/n*.shtml,其中“*”代表可以匹配任何字符串,更准确的分析可知,第一个*需要匹配日期形式的数字串。将有对应关系的pc网页的url聚成的pattern记为有对应关系的pattern,根据聚类得到的pattern生成URL模板。
为了进一步体现发明的优越性,如下进一步揭示本发明确定PC网页与移动网页自适应关系的系统的在另一实施例中的结构。参照图4,本发明图1所示的实施例中提出的确定PC网页与移动网页自适应关系的系统,还包括:
URL模板验证器16,用于对所述URL模板的有效性进行验证。
进一步地,本发明图4所示的实施例中的URL模板验证器16进一步包括:PC网页URL抽取模块、移动网页URL存储模块、移动用户代理逻辑模块以及自适应判断模块。所述的PC网页URL抽取模块,用于根据所述URL模板,随机抽取预定数量的PC网页URL;所述的移动网页URL存储模块,用于获取并存储与所述随机抽取的预定数量的PC网页相对应的移动网页的URL;所述的移动用户代理逻辑模块,用于对所述随机抽取的预定数量的PC网页URL进行抓取处理,生成相应的移动URL;所述的自适应判断模块,用于根据所述生成的移动URL与存储的相应的移动网页的URL判断所述PC网页URL是否具有自适应对应的移动网页,如果判断为是,则所述URL模板有效。
本发明图4所示的实施例中,为了提高挖掘的pc和移动网页的自适应对应关系的准确率,保证较高的召回率,进一步包括:对所述URL模板的有效性进行验证的步骤,具体为,根据所述URL模板,从具有对应关系的pattern中随机抽取适量的PC网页URL,获取并存储与所述随机抽取的预定数量的PC网页相对应的移动网页的URL,利用移动用户代理UA对所述随机抽取的预定数量的PC网页URL进行抓取处理,根据生成的移动URL与存储的相应的移动网页的URL判断所述PC网页URL是否具有自适应对应的移动网页,若返回的url和原始pc网页的url相对应的移动网页url一致,则可以判断具有自适应对应关系,则所述URL模板有效。
为了进一步体现发明的优越性,如下进一步揭示本发明图4所示的确定PC网页与移动网页自适应关系的系统中的自适应关系确定器15的在另一实施例中的内部结构,来体现依据自适应关系确定器15实现的另一实施例的细节。参照图5,自适应关系确定器15进一步包括用户代理模块151、PC网页URL判断模块152以及移动网页推送模块153:
所述的用户代理模块151,用于通过用户代理逻辑检测用户的终端类型是移动终端还是PC终端;
所述的PC网页URL判断模块152,用于当用户的终端类型是移动终端时,判断用户请求的PC网页URL是否符合所述URL模板;
所述的移动网页推送模块153,用于在用户请求的PC网页URL符合所述URL模板时,根 据所述URL模板生成相对应的移动网页URL,并为用户以跳转的方式推送所述移动网页。
本发明实施例,通过用户代理模块检测移动终端的用户,并根据用户的搜索词判断是否存在与用户请求的PC网URL是否符合所述URL模板,用户请求的PC网页URL符合所述URL模板时,如:URL为http://news.sohu.com/20141126/n406414760.shtml的PC网页,该PC网页的URL的pattern为http://news.sohu.com/*/n*.shtml,则当用户请求pattern为http://news.sohu.com/*/n*.shtml的PC网页对应的移动网页时,根据http://news.sohu.com/*/n*.shtml与对应移动网页的模板生成相对应的移动网页URL,并为用户以跳转的方式推送所述移动网页。
前面已经提到,在本发明图2所示的实施例中,字段匹配器23与图1中字段匹配器13完全相同。
本发明图2所示的实施例,通过比较已经生成的第一数字签名和第二数字签名,来匹配pc网页和移动网页,不仅可以将第一数字签名和第二数字签名相同的移动网页和PC网页进行匹配,还可以如果PC网的标签与移动网页的标签为并不是完全相同,但是很相似,而且如果相似度高于预定阈值,则同样判断所述移动网页和PC网页匹配。其中,能匹配上移动url的pc url称为有对应关系的pc url。则可以判断具有自适应对应关系并且是跳转形式的,则为用户以跳转的方式推送所述移动网页。
为了进一步体现发明的优越性,如下进一步揭示本发明确定PC网页与移动网页自适应关系的系统的在另一实施例中的结构。参照图6,本发明图2所示的实施例中提出的确定PC网页与移动网页自适应关系的系统,还包括:
用户代理器26,用于检测用户的终端类型是移动终端还是PC终端;
自适应判断器27,用于判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页;
移动网页推送器28,用于在存在与用户请求的PC网页具有所述自适应关系的移动网页的情况下,为用户以非跳转的方式推送所述移动网页。
本发明图2所示的实施例,通过用户代理逻辑检测移动终端的用户,并根据用户的搜索词判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页,如果pc url和相对应的移动url长相相同,如:比如:pc url:http://news.sohu.com/20141126/n406414760.shtml和移动url:http://m.sohu.com/n/406414760/,则可以判断具有自适应对应关系并且是非跳转形式的,为用户以非跳转的方式推送所述移动网页。
本发明图1和图2所示的实施例提供的确定PC网页与移动网页自适应关系的系统,利用少量的PC网页和移动网页的标题字段的匹配关系来针对性的选取需要待验证抓取的PC网页对应的URL,一方面节省了需要抓取的PC网页对应的URL的量,同时利用较少的抓取来挖掘较全面的PC网页和移动网页的自适应对应关系,进而实现移动网页的推送,节省了大量PC网页向移动网页转化过程中所花费的时间和资源。
图7示出了本发明一个实施例的确定PC网页与移动网页自适应关系的方法的流程图。
参照图7,本发明实施例的确定PC网页与移动网页自适应关系的方法包括以下步骤:
S11、提取移动网页的标题字段的至少一部分,作为第一字段;
S12、提取PC网页的标题字段的至少一部分,作为第二字段;
S13、基于所述第一字段和第二字段对移动网页和PC网页进行匹配;
S14、根据匹配成功的移动网页和PC网页分别对应的URL生成URL模板;
S15、使用所述URL模板确定PC网页与移动网页的自适应关系。
图8示出了本发明一个实施例的确定PC网页与移动网页自适应关系的方法的流程图。
参照图8,本发明实施例的确定PC网页与移动网页自适应关系的方法包括以下步骤:
S21、提取移动网页的标题字段的至少一部分,作为第一字段;
S22、提取PC网页的标题字段的至少一部分,作为第二字段;
S23、基于所述第一字段和第二字段对移动网页和PC网页进行匹配;
S24、验证匹配成功的移动网页和PC网页分别对应的URL是否相同;
S25、如果URL相同,则确定所述PC网页与所述移动网页存在自适应关系。
进一步地,本发明实施例的图7/图8的S11/S21中,在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;S12/S22中,在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。
本发明图7和图8所示的实施例,首先利用pc网页和移动网页的title匹配关系来针对性的选取需要待验证抓取的PC网页对应的URL以及具有相同title的移动网页;其中,网页的title即当前网页的名称。比如对应的URL为http://news.sohu.com/20141126/n406414760.shtml的PC网页,该PC网页的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-搜狐新闻”,与上述PC网页的title相匹配的移动网页对应的URL为http://m.sohu.com/n/406414760/,该移动网页的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-新闻频道-手机搜狐”。通过提取移动网页的标题字段即title的至少一部分,如“美军无人机袭击巴基斯坦西北部致至少8人死亡-新闻频道-手机搜狐”作为第一字段;并提取PC网页的标题字段的至少一部分,如“美军无人机袭击巴基斯坦西北部致至少8人死亡-搜狐新闻”作为第二字段;基于所述第一字段和第二字段对移动网页和PC网页进行匹配,可见上述的PC网页和移动网页匹配成功,根据该匹配成功的移动网页和PC网页分别对应的URL生成URL模板,使用所述URL模板确定PC网页与移动网页的自适应关系。
本发明实施例通过针对性的选取PC网页对应的URL,通过抓取尽量少的PC网页对应的URL来获取较全面的pc和移动网页的自适应对应关系,达到挖掘移动站点并且收录其上的移动网页的目的。
更优选地,本发明实施例中呈现移动网页的移动终端包括但不限于手机、PDA、游戏机等。需要说明的是,所述搜狐新闻仅为举例,其他现有的或今后可能出现的新闻网站均包含在本发明保护范围以内,并以引用方式包含于此。
为了进一步体现发明的优越性,如下进一步揭示本发明图7所示的确定PC网页与移动网页自适应关系的方法中步骤S13的细分步骤,来体现依据本步骤实现的另一实施例。参照图9,本步骤的细分步骤包括:
S131、根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名;
S132、根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名;
S133、利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。
本发明实施例中,根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名,进一步包括:对所述第一字段进行分块处理;统计每个分块在所述移动网页所属网站中出现的频率;选择频率最低的分块作为所述移动网页的第一数字签名;
本发明实施例中,根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名,进一步包括:对所述第二字段进行分块处理;统计每个分块在所述PC网页所属网站中出现的频率;选择频率最低的分块作为所述PC网页的第二数字签名。
本发明实施例中,提取移动网页title并且生成签名、提取pc网页标题字段title并且生成签名。在生成title对应签名的时候,通过利用特定的分隔符,比如“-”等把title分割为不同的块,统计每个分块在对应网页所属网站中出现的频率,选择频率最低的分块部分作为对应网页的数字签名,而频率较高的则为公用部分,进而实现去掉title中公用的部分,只计算title中核心部分的签名。比如PC网页http://news.sohu.com/20141126/n406414760.shtml的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-搜狐新闻”,其中“搜狐新闻”是公用部分(存在于大量的网页title中),“美军无人机袭击巴基斯坦西北部致至少8人死亡”在对应网页所属网站中出现的频率最低,则将“美军无人机袭击巴基斯坦西北部致至少8人死亡”作为PC网的标签。移动网页和Pc网页的title需要采取同样的方法处理。之所以这样处理是因为具有对应关系的pc和移动网页title的公用部分是不同的。比如上述pc网页URL对应的移动网页的URL:http://m.sohu.com/n/406414760/的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-新闻频道-手机搜狐”,利用特定的分隔符,比如“-”等把title进行分块处理后,其中公用部分为“新闻频道”和“手机搜狐”,则移动网页的标签确定为“美军无人机袭击巴基斯坦西北部致至少8人死亡”。
本发明实施例中,利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配S133,进一步包括:比较所述第一数字签名和第二数字签名是否相同;如果相同,则判断所述移动网页和PC网页匹配。
本发明实施例,通过比较已经生成的第一数字签名和第二数字签名,来匹配pc网页和移动网页,签名相同的记为一对。比如,上述PC网的标签为“美军无人机袭击巴基斯坦西北部致至少8人死亡”,移动网页的标签为,“美军无人机袭击巴基斯坦西北部致至少8人死亡”,可见pc网页和移动网页的签名相同判断所述移动网页和PC网页匹配。则:pc网页对应的url:http://news.sohu.com/20141126/n406414760.shtml和移动网页对应的url:http://m.sohu.com/n/406414760/记为一对,其中能匹配上移动url的pc url称为有对应关系的pc url。
本发明的另一实施例中,利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配,进一步包括:比较所述第一数字签名和第二数字签名的相似度;如果相似度高于预定阈值,则判断所述移动网页和PC网页匹配。
图8所示方法中的步骤S23与图7所述方法中的步骤S13完全相同,即步骤S23具体也如图9所示,这里不再赘述。
对于,PC网页url和相对应的移动网页url长相不同的情况,如果PC网的标签与移动网页的标签为并不是完全相同,但是很相似,而且如果相似度高于预定阈值,则同样判断所述移动网页和PC网页匹配。其中,能匹配上移动url的pc url称为有对应关系的pc url。
进一步地,本发明图7所示的实施例根据匹配成功的移动网页和PC网页分别对应的URL生成URL模板,具体为:计算有对应关系的PC网页对应的URL的pattern,即根据一定规则对PC网页URL进行url聚类,比如http://news.sohu.com/20141126/n406414760.shtml的pattern为http://news.sohu.com/*/n*.shtml,其中“*”代表可以匹配任何字符串,更准确的分析可知,第一个*需要匹配日期形式的数字串。将有对应关系的pc网页的url聚成的pattern记为有对应关系的pattern,根据聚类得到的pattern生成URL模板。
为了进一步体现发明的优越性,如下进一步揭示本发明图7所示的确定PC网页与移动网页自适应关系的方法的另一实施例。参照图10,本发明图7所示的确定PC网页与移动网页自适应关系的方法还包括:
S16、对所述URL模板的有效性进行验证。
本发明实施例中,对所述URL模板的有效性进行验证,进一步包括:根据所述URL模板,随机抽取预定数量的PC网页URL;获取并存储与所述随机抽取的预定数量的PC网页相对应的移动网页的URL;利用移动用户代理逻辑单元对所述随机抽取的预定数量的PC网页URL进行抓取处理,生成相应的移动URL;根据所述生成的移动URL与存储的相应的移动网页的URL判断所述PC网页URL是否具有自适应对应的移动网页;如果判断为是,则所述URL模板有效。
本发明实施例中,为了提高挖掘的pc和移动网页的自适应对应关系的准确率,保证较高的召回率,进一步包括:对所述URL模板的有效性进行验证的步骤,具体为,根据所述URL模板,从具有对应关系的pattern中随机抽取适量的PC网页URL,获取并存储与所述随机抽取的预定数量的PC网页相对应的移动网页的URL,利用移动用户代理UA对所述随机抽取的预定数量的PC网页URL进行抓取处理,根据生成的移动URL与存储的相应的移动网页的URL判断所述PC网页URL是否具有自适应对应的移动网页,若返回的url和原始pc网页的url相对应的移动网页url一致,则可以判断具有自适应对应关系,则所述URL模板有效,并且是跳转形式的。
为了进一步体现发明的优越性,如下进一步揭示本发明确定PC网页与移动网页自适应关系的方法中步骤S15的细分步骤,来体现依据本步骤实现的另一实施例。参照图11,本步骤的细分步骤包括:
S151、通过用户代理逻辑检测用户的终端类型是移动终端还是PC终端;
S152、如果是移动终端,则判断用户请求的PC网页URL是否符合所述URL模板;
S153、如果符合,则根据所述URL模板生成相对应的移动网页URL,并为用户以跳转的方式推送所述移动网页。
本发明实施例,通过用户代理模块检测移动终端的用户,并根据用户的搜索词判断是否存在与用户请求的PC网URL是否符合所述URL模板,用户请求的PC网页URL符合所述URL模板时,如:URL为http://news.sohu.com/20141126/n406414760.shtml的PC网页,该PC网页的URL的pattern为http://news.sohu.com/*/n*.shtml,则当用户请求pattern为http://news.sohu.com/*/n*.shtml的PC网页对应的移动网页时,根据http://news.sohu.com/*/n*.shtml与对应移动网页的模板生成相对应的移动网页URL,并为用户以跳转的方式推送所述移动网页。
前面提到,本发明图8所示方法中的步骤S23与图7所述方法中的步骤S13完全相同。
本发明图8所示实施例,通过比较已经生成的第一数字签名和第二数字签名,来匹配pc网页和移动网页,不仅可以将第一数字签名和第二数字签名相同的移动网页和PC网页进行匹配,还可以如果PC网的标签与移动网页的标签为并不是完全相同,但是很相似,而且如果相似度高于预定阈值,则同样判断所述移动网页和PC网页匹配。其中,能匹配上移动url的pc url称为有对应关系的pc url。
为了进一步体现发明的优越性,如下进一步揭示本发明图8所示确定PC网页与移动网页自适应关系的方法的另一实施例。参照图12,本发明图8所示确定PC网页与移动网页自适应关系的方法还包括:
通过用户代理逻辑检测用户的终端类型是移动终端还是PC终端;
如果是移动终端,则判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页;
如果是,则为用户以非跳转的方式推送所述移动网页。
本发明实施例,通过用户代理逻辑检测移动终端的用户,并根据用户的搜索词判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页,如果pc url和相对应的移动url长相 相同,如:比如:pc url:http://news.sohu.com/20141126/n406414760.shtml和移动url:http://m.sohu.com/n/406414760/,则可以判断具有自适应对应关系并且是非跳转形式的,用户以非跳转的方式推送所述移动网页。
本发明上述实施例提供的确定PC网页与移动网页自适应关系的方法,利用少量的PC网页和移动网页的标题字段的匹配关系来针对性的选取需要待验证抓取的PC网页对应的URL,一方面节省了需要抓取的PC网页对应的URL的量,同时利用较少的抓取来挖掘较全面的PC网页和移动网页的自适应对应关系,进而实现移动网页的推送,节省了大量PC网页向移动网页转化过程中所花费的时间和资源。
综上所述,本发明一方面节省了需要去抓的PC网页对应的URL量,同时利用较少的抓取来挖掘较全面的pc和移动网页的自适应对应关系,召回率较高,准确率也得到了有效的提高。
应当注意,在此提供的算法和公式不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解本发明各个方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法和装置解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定PC网页与移动网页自适应关系的系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可 以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图13示意性地示出了用于执行根据本发明的方法的计算设备的框图。该计算设备传统上包括处理器1310和以存储器1320形式的计算机程序产品或者计算机可读介质。存储器1320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器1320具有用于执行上述方法中的任何方法步骤的程序代码1331的存储空间1330。例如,用于程序代码的存储空间1330可以包括分别用于实现上面的方法中的各种步骤的各个程序代码1331。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图14所述的便携式或者固定存储单元。该存储单元可以具有与图13的计算设备中的存储器1320类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括用于执行根据本发明的方法步骤的计算机可读代码1331’,即可以由例如诸如1310之类的处理器读取的代码,这些代码当由计算设备运行时,导致该计算设备执行上面所描述的方法中的各个步骤。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包括”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
此外,还应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
本发明可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (32)

  1. 一种确定PC网页与移动网页自适应关系的系统,包括:
    第一标题字段提取器,用于提取移动网页的标题字段的至少一部分作为第一字段;
    第二标题字段提取器,用于提取PC网页的标题字段的至少一部分作为第二字段;
    字段匹配器,用于基于所述第一字段和第二字段对移动网页和PC网页进行匹配;
    URL聚类器,用于根据匹配成功的移动网页和PC网页分别对应的URL生成URL模板;
    自适应关系确定器,用于使用所述URL模板确定PC网页与移动网页的自适应关系。
  2. 如权利要求1所述的系统,其中,所述第一标题字段提取器,在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;所述第二标题字段提取器,在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。
  3. 如权利要求1-2中任一项所述的系统,其中,所述字段匹配器进一步包括:
    第一数字签名生成模块,用于根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名;
    第二数字签名生成模块,用于根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名;
    数字签名匹配模块,用于利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。
  4. 如权利要求1-3中任一项所述的系统,其中,所述第一数字签名生成模块进一步包括:
    第一分块单元,用于对所述第一字段进行分块处理;
    第一频率统计单元,用于统计每个分块在所述移动网页所属网站中出现的频率;
    第一分块选择单元,用于选择频率最低的分块作为所述移动网页的第一数字签名;
    所述第二数字签名生成模块进一步包括:
    第二分块单元,用于对所述第二字段进行分块处理;
    第二频率统计单元,用于统计每个分块在所述PC网页所属网站中出现的频率;
    第二分块选择单元,用于选择频率最低的分块作为所述PC网页的第二数字签名。
  5. 如权利要求1-4中任一项所述的系统,其中,所述数字签名匹配模块进一步包括:
    第一签名比较单元,用于比较所述第一数字签名和第二数字签名是否相同;
    第一匹配判断单元,用于在签名比较单元确定所述第一数字签名和第二数字签名相同时,判断所述移动网页和PC网页匹配。
    优选地,所述数字签名匹配模块进一步包括:
    第二签名确定单元,用于确定所述第一数字签名和第二数字签名的相似度;
    第二匹配判断单元,用于在相似度高于预定阈值的情况下,判断所述移动网页和PC网页匹配。
  6. 如权利要求1-5中任一项所述的系统,其中,该系统还包括:
    URL模板验证器,用于对所述URL模板的有效性进行验证。
    优选地,所述URL模板验证器进一步包括:
    PC网页URL抽取模块,用于根据所述URL模板,随机抽取预定数量的PC网页URL;
    移动网页URL存储模块,用于获取并存储与所述随机抽取的预定数量的PC网页相对应的 移动网页的URL;
    移动用户代理逻辑模块,用于对所述随机抽取的预定数量的PC网页URL进行抓取处理,生成相应的移动URL;
    自适应判断模块,用于根据所述生成的移动URL与存储的相应的移动网页的URL判断所述PC网页URL是否具有自适应对应的移动网页,如果判断为是,则所述URL模板有效。
  7. 如权利要求1-6中任一项所述的系统,其中,所述自适应关系确定器进一步包括:
    用户代理模块,用于通过用户代理逻辑检测用户的终端类型是移动终端还是PC终端;
    PC网页URL判断模块,用于当用户的终端类型是移动终端时,判断用户请求的PC网页URL是否符合所述URL模板;
    移动网页推送模块,用于在用户请求的PC网页URL符合所述URL模板时,根据所述URL模板生成相对应的移动网页URL,并为用户以跳转的方式推送所述移动网页。
  8. 一种确定PC网页与移动网页自适应关系的方法,包括:
    提取移动网页的标题字段的至少一部分作为第一字段;
    提取PC网页的标题字段的至少一部分作为第二字段;
    基于所述第一字段和第二字段对移动网页和PC网页进行匹配;
    根据匹配成功的移动网页和PC网页分别对应的URL生成URL模板;
    使用所述URL模板确定PC网页与移动网页的自适应关系。
  9. 如权利要求8所述的方法,提取移动网页的标题字段的至少一部分具体为:在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;提取PC网页的标题字段的至少一部分具体为:在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。
  10. 如权利要求8-9任一项所述的方法,根据所述第一字段和第二字段对移动网页和PC网页进行匹配,进一步包括:
    根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名;
    根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名;
    利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。
  11. 如权利要求8-10任一项所述的方法,根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名,进一步包括:
    对所述第一字段进行分块处理;
    统计每个分块在所述移动网页所属网站中出现的频率;
    选择频率最低的分块作为所述移动网页的第一数字签名;
    根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名,进一步包括:
    对所述第二字段进行分块处理;
    统计每个分块在所述PC网页所属网站中出现的频率;
    选择频率最低的分块作为所述PC网页的第二数字签名。
  12. 如权利要求8-11任一项所述的方法,利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配,进一步包括:
    比较所述第一数字签名和第二数字签名是否相同;
    如果相同,则判断所述移动网页和PC网页匹配。
  13. 如权利要求8-12任一项所述的方法,利用所述第一数字签名和第二数字签名对移动网 页和PC网页进行匹配,进一步包括:
    比较所述第一数字签名和第二数字签名的相似度;
    如果相似度高于预定阈值,则判断所述移动网页和PC网页匹配。
  14. 如权利要求8-13任一项所述的方法,该方法还包括:
    对所述URL模板的有效性进行验证。
  15. 如权利要求8-14任一项所述的方法,对所述URL模板的有效性进行验证,进一步包括:
    根据所述URL模板,随机抽取预定数量的PC网页URL;
    获取并存储与所述随机抽取的预定数量的PC网页相对应的移动网页的URL;
    利用移动用户代理逻辑单元对所述随机抽取的预定数量的PC网页URL进行抓取处理,生成相应的移动URL;
    根据所述生成的移动URL与存储的相应的移动网页的URL判断所述PC网页URL是否具有自适应对应的移动网页;如果判断为是,则所述URL模板有效。
  16. 如权利要求8-15任一项所述的方法,使用所述URL模板确定PC网页与移动网页的自适应关系,进一步包括:
    通过用户代理逻辑检测用户的终端类型是移动终端还是PC终端;
    如果是移动终端,则判断用户请求的PC网页URL是否符合所述URL模板;
    如果符合,则根据所述URL模板生成相对应的移动网页URL,并为用户以跳转的方式推送所述移动网页。
  17. 一种确定PC网页与移动网页自适应关系的系统,包括:
    第一标题字段提取器,用于提取移动网页的标题字段的至少一部分,作为第一字段;
    第二标题字段提取器,用于提取PC网页的标题字段的至少一部分,作为第二字段;
    字段匹配器,用于根据所述第一字段和第二字段对移动网页和PC网页进行匹配;
    URL比较器,用于验证匹配成功的移动网页和PC网页分别对应的URL是否相同;
    自适应关系确定器,在所述URL比较器判断相同的情况下,确定所述PC网页与所述移动网页存在自适应关系。
  18. 如权利要求17所述的系统,所述第一标题字段提取器,在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;所述第二标题字段提取器,在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。
  19. 如权利要求17-18任一项所述的系统,所述字段匹配器进一步包括:
    第一数字签名生成模块,用于根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名;
    第二数字签名生成模块,用于根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名;
    数字签名匹配模块,用于利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。
  20. 如权利要求17-19任一项所述的系统,所述第一数字签名生成模块进一步包括:
    第一分块单元,用于对所述第一字段进行分块处理;
    第一频率统计单元,用于统计每个分块在所述移动网页所属网站中出现的频率;
    第一分块选择单元,用于选择频率最低的分块作为所述移动网页的第一数字签名;
    所述第二数字签名生成模块进一步包括:
    第二分块单元,用于对所述第二字段进行分块处理;
    第二频率统计单元,用于统计每个分块在所述PC网页所属网站中出现的频率;
    第二分块选择单元,用于选择频率最低的分块作为所述PC网页的第二数字签名。
  21. 如权利要求17-20任一项所述的系统,所述数字签名匹配模块进一步包括:
    第一签名比较单元,用于比较所述第一数字签名和第二数字签名是否相同;
    第一匹配判断单元,用于在签名比较单元确定所述第一数字签名和第二数字签名相同时,判断所述移动网页和PC网页匹配。
  22. 如权利要求17-21任一项所述的系统,所述数字签名匹配模块进一步包括:
    第二签名确定单元,用于确定所述第一数字签名和第二数字签名的相似度;
    第二匹配判断单元,用于在相似度高于预定阈值的情况下,判断所述移动网页和PC网页匹配。
  23. 如权利要求17-22任一项所述的系统,该系统还包括:
    用户代理器,用于检测用户的终端类型是移动终端还是PC终端;
    自适应判断器,用于判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页;
    移动网页推送器,用于在存在与用户请求的PC网页具有所述自适应关系的移动网页的情况下,为用户以非跳转的方式推送所述移动网页。
  24. 一种确定PC网页与移动网页自适应关系的方法,包括:
    提取移动网页的标题字段的至少一部分,作为第一字段;
    提取PC网页的标题字段的至少一部分,作为第二字段;
    基于所述第一字段和第二字段对移动网页和PC网页进行匹配;
    验证匹配成功的移动网页和PC网页分别对应的URL是否相同;
    如果URL相同,则确定所述PC网页与所述移动网页存在自适应关系。
  25. 如权利要求24所述的方法,提取移动网页的标题字段的至少一少一部分具体为:在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;提取PC网页的标题字段的至少一部分具体为:在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。
  26. 如权利要求24-25任一项所述的方法,根据所述第一字段和第二字段对移动网页和PC网页进行匹配,进一步包括:
    根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名;
    根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名;
    利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。
  27. 如权利要求24-26任一项所述的方法,根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名,进一步包括:
    对所述第一字段进行分块处理;
    统计每个分块在所述移动网页所属网站中出现的频率;
    选择频率最低的分块作为所述移动网页的第一数字签名;
    根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名,进一步包括:
    对所述第二字段进行分块处理;
    统计每个分块在所述PC网页所属网站中出现的频率;
    选择频率最低的分块作为所述PC网页的第二数字签名。
  28. 如权利要求24-27任一项所述的方法,利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配,进一步包括:
    比较所述第一数字签名和第二数字签名是否相同;
    如果相同,则判断所述移动网页和PC网页匹配。
  29. 如权利要求24-28任一项所述的方法,利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配,进一步包括:
    比较所述第一数字签名和第二数字签名的相似度;
    如果相似度高于预定阈值,则判断所述移动网页和PC网页匹配。
  30. 如权利要求24-29任一项所述的方法,该方法还包括:
    通过用户代理逻辑检测用户的终端类型是移动终端还是PC终端;
    如果是移动终端,则判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页;
    如果是,则为用户以非跳转的方式推送所述移动网页。
  31. 一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算设备上运行时,导致所述计算设备执行根据权利要求8-16中的任一项所述的确定PC网页与移动网页自适应关系的方法,或者,导致所述计算设备执行根据权利要求24-30中的任一项所述的确定PC网页与移动网页自适应关系的方法。
  32. 一种计算机可读介质,其中存储了如权利要求31所述的计算机程序。
PCT/CN2015/095858 2014-12-29 2015-11-27 确定pc网页与移动网页自适应关系的系统及方法 WO2016107353A1 (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201410838480.9 2014-12-29
CN201410838598.1 2014-12-29
CN201410838480.9A CN104572931B (zh) 2014-12-29 2014-12-29 一种确定pc网页与移动网页自适应关系的系统及方法
CN201410838598.1A CN104504100B (zh) 2014-12-29 2014-12-29 一种确定pc网页与移动网页自适应关系的系统及方法

Publications (1)

Publication Number Publication Date
WO2016107353A1 true WO2016107353A1 (zh) 2016-07-07

Family

ID=56284189

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/095858 WO2016107353A1 (zh) 2014-12-29 2015-11-27 确定pc网页与移动网页自适应关系的系统及方法

Country Status (1)

Country Link
WO (1) WO2016107353A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100035757A (ko) * 2008-09-29 2010-04-07 (주) 엘지텔레콤 이동통신단말기의 통합 브라우징 시스템 및 이에 적용되는 이동통신단말기
CN103237088A (zh) * 2013-05-16 2013-08-07 百度在线网络技术(北京)有限公司 基于对应关系库的浏览方法、系统及云端服务器
CN103631794A (zh) * 2012-08-22 2014-03-12 百度在线网络技术(北京)有限公司 一种用于对搜索结果进行排序的方法、装置与设备
CN104504100A (zh) * 2014-12-29 2015-04-08 北京奇虎科技有限公司 一种确定pc网页与移动网页自适应关系的系统及方法
CN104572931A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种确定pc网页与移动网页自适应关系的系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100035757A (ko) * 2008-09-29 2010-04-07 (주) 엘지텔레콤 이동통신단말기의 통합 브라우징 시스템 및 이에 적용되는 이동통신단말기
CN103631794A (zh) * 2012-08-22 2014-03-12 百度在线网络技术(北京)有限公司 一种用于对搜索结果进行排序的方法、装置与设备
CN103237088A (zh) * 2013-05-16 2013-08-07 百度在线网络技术(北京)有限公司 基于对应关系库的浏览方法、系统及云端服务器
CN104504100A (zh) * 2014-12-29 2015-04-08 北京奇虎科技有限公司 一种确定pc网页与移动网页自适应关系的系统及方法
CN104572931A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种确定pc网页与移动网页自适应关系的系统及方法

Similar Documents

Publication Publication Date Title
US11482242B2 (en) Audio recognition method, device and server
CN110162695B (zh) 一种信息推送的方法及设备
US10216848B2 (en) Method and system for recommending cloud websites based on terminal access statistics
JP6734946B2 (ja) 情報を生成するための方法及び装置
WO2017113677A1 (zh) 处理用户行为数据的方法和系统
WO2016201819A1 (zh) 检测恶意文件的方法和装置
WO2017000610A1 (zh) 一种网页分类的方法和装置
WO2012089005A1 (zh) 钓鱼网页检测方法及设备
WO2016206605A1 (zh) 一种客户端数据的采集方法和装置
CN107293307A (zh) 音频检测方法及装置
WO2014000536A1 (zh) 一种钓鱼网站识别系统及方法
CN107609106B (zh) 一种相似文章查找方法、装置、设备及存储介质
CN109359237B (zh) 一种用于搜索寄宿程序的方法与设备
CN107330079B (zh) 基于人工智能呈现辟谣信息的方法和装置
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN104951484A (zh) 搜索结果的处理方法和装置
CN107679186A (zh) 基于实体库进行实体搜索的方法及装置
CN103853771B (zh) 一种搜索结果的推送方法及系统
CN103324886A (zh) 一种网络攻击检测中指纹库的提取方法和系统
US9690873B2 (en) System and method for bit-map based keyword spotting in communication traffic
CN104580109B (zh) 生成点选验证码的方法及装置
CN109241360B (zh) 组合字符串的匹配方法及装置和电子设备
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
WO2021103594A1 (zh) 一种默契度检测方法、设备、服务器及可读存储介质
WO2016101737A1 (zh) 搜索查询方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15875032

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15875032

Country of ref document: EP

Kind code of ref document: A1