WO2017092601A1

WO2017092601A1 - 数据处理方法及装置

Info

Publication number: WO2017092601A1
Application number: PCT/CN2016/107018
Authority: WO
Inventors: 应倩岚; 郑苏杭; 徐萧萧
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2015-12-04
Filing date: 2016-11-24
Publication date: 2017-06-08
Also published as: CN106844402B; CN106844402A

Abstract

本申请提供一种数据处理方法及装置。数据处理方法包括：从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象，资源数据用于实现用户的业务需求；从初始数据对象中，获取对第一数据对象具有业务分流作用的候选数据对象；根据候选数据对象对第一数据对象的业务分流量，确定与第一数据对象存在竞争关系的数据对象。本申请可以从数据对象的角度考虑，发现存在竞争关系的数据对象。

Description

数据处理方法及装置

本申请要求2015年12月04日递交的申请号为201510891973.3、发明名称为“数据处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法及装置。

背景技术

随着互联网技术的发展，用户可以从网站上获取的资源数据越来越多，相应的，提供资源数据的数据对象(例如网店等)的数量也越来越多。各大网站除了可以向用户推荐资源数据之外，还可以向用户推荐提供相似资源数据的数据对象，以便于用户获取更多更好的资源数据。可见，数据对象之间存在着竞争关系。

对于数据对象来说，一定程度上希望能够获得与其存在一定竞争关系的其它数据对象的信息。在现有技术中，各大网站主要是将数据对象所提供的资源数据进行相似度计算，通过判断两个数据对象所提供的资源数据是否相似来判断两个数据对象是否相似。对用户来说，这种判断方法可以帮助用户发现更多相近的资源数据，但是从数据对象的角度来看，提供相似资源数据的数据对象不一定存在竞争关系，资源数据并不是决定两个数据对象之间是否存在竞争的唯一因素，所以现有方法并不适用于发现存在竞争关系的数据对象。

发明内容

本申请的多个方面提供一种数据处理方法及装置，用以发现存在竞争关系的数据对象。

本申请的一方面，提供一种数据处理方法，包括：

从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象，所述资源数据用于实现用户的业务需求；

从所述初始数据对象中，获取对所述第一数据对象具有业务分流作用的候选数据对象；

根据所述候选数据对象对所述第一数据对象的业务分流量，确定与所述第一数据对象存在竞争关系的数据对象。

本申请的另一方面，提供一种数据处理装置，包括：

初始获取模块，用于从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象，所述资源数据用于实现用户的业务需求；

候选获取模块，用于从所述初始数据对象中，获取对所述第一数据对象具有业务分流作用的候选数据对象；

确定模块，用于根据所述候选数据对象对所述第一数据对象的业务分流量，确定与所述第一数据对象存在竞争关系的数据对象。

在本申请中，首先从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象，然后再从初始数据对象中，获取对第一数据对象具有业务分流作用的候选数据对象，进而根据候选数据对象对第一数据对象的业务分流量，确定与第一数据对象具有竞争关系的数据对象。本申请不仅考虑数据对象所提供资源数据的相似度，而且从业务上考虑，将资源数据相似且相互之间具有业务分流作用的数据对象作为存在竞争关系的数据对象，解决了现有技术无法发现存在竞争关系的数据对象的问题，而且所发现的存在竞争关系的数据对象的精准度较高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的数据处理方法的流程示意图；

图2为本申请另一实施例提供的数据处理装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请一实施例提供的数据处理方法的流程示意图。如图1所示，该方法包括：

101、从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象，这里的资源数据用于实现用户的业务需求。

102、从上述初始数据对象中，获取对第一数据对象具有业务分流作用的候选数据对象。

103、根据上述候选数据对象对第一数据对象的业务分流量，确定与第一数据对象存在竞争关系的数据对象。

本实施例提供一种数据处理方法，可由数据处理装置来执行，用以发现存在竞争关系的数据对象，并且保证所发现的存在竞争关系的数据对象的精准度。

本实施例提供的方法可用于任何需要发现存在竞争关系的数据对象的应用场景。举例说明，采用本实施例提供的方法可以发现电商平台上存在竞争关系的网络店铺。又例如，采用本实施例提供的方法可以发现资源下载网站上存在竞争关系的视频资源发布者。又例如，采用本实施例提供的方法可以基于用户终端(例如手机或电脑)上安装的各外卖提供商的客户端发现存在竞争关系的外卖提供商。

根据应用场景的不同，本实施例的网络系统、网络系统中的用户、数据对象以及数据对象提供的资源数据等均会有所不同。本实施例不对网络系统、网络系统中的用户、数据对象及数据对象提供的资源数据等的实现形式进行限定。

例如，网络系统可以是以各电商网站为核心的网络系统；相应的，网络系统中的数据对象可以是电商网站上的网络服务提供商，例如店铺；相应的，数据对象提供的资源数据可以是各网络服务提供商提供的商品对象数据，例如店铺内销售的衣服、食品、电子产品等数据；相应的，网络系统中用户的网络行为可以包括浏览、收藏、加购物车、购买、支付以及评论中的至少一种。

又例如，网络系统可以是以资源下载网站为核心的网络系统；相应的，网络系统中的数据对象可以是资源发布/上传者；相应的，数据对象提供的资源数据可以是具体的资源，例如视频资源、文本资源等；相应的，网络系统中用户的网络行为可以包括预览、下载、播放等中的至少一种。

由上述举例可见，本实施例中的数据对象主要是指一些通过网络面向用户提供服务的服务提供者，可以是电子商务、电子政务、公司业务流程电子化等各应用领域中的服务提供者。相应的，数据对象提供的资源数据主要用于实现用户的业务需求。

采用本实施例提供的方法，可以发现网络系统中任何存在竞争关系的数据对象。为了便于描述和区分，本实施例以发现与第一数据对象存在竞争关系的数据对象为例进行说明。第一数据对象可以是网络系统中的任意数据对象。

当确定需要发现与第一数据对象存在竞争关系的数据对象时，例如可以周期性的确定与第一数据对象存在竞争关系的数据对象，因此可以在每个后期达到时时或者在接收到第一数据对象的请求时，数据处理装置可以执行本实施例提供的方法流程，以确定与第一数据对象存在竞争关系的数据对象。

在实际应用中，每个数据对象提供多种资源数据，不同资源数据用于实现用户的不同业务需求。举例说明，对于店铺，店铺内可能同时提供服装、母婴用品、休闲零食等多种商品对象，而服装下面又包括上衣、裤子、鞋子，上衣又会分为风衣、卫衣、毛衣、打底衫等等。为了便于对资源数据进行管理，数据对象一般会通过资源类目对各种资源数据进行分级管理，例如可以包括一级资源类目、二级资源类目、三级资源类目以及叶子资源类目等，不同级别的资源类目下包括不同的资源数据。例如，上面的服装、母婴用品、休闲零食等可以作为一级资源类目，而服装下面的上衣、裤子、鞋子可以作为二级资源类目，等等。

如果两个数据对象提供的资源数据相差较大，则不易形成竞争关系。例如一个店铺售卖服务，另一店铺售卖电子产品，由于这两个店铺面向的用户群体不太相同，所以两者之间不太容易形成竞争关系。相反，如果两个数据对象提供的资源数据比较相近，则容易形成竞争关系。例如，若一个店铺销售毛衣，另一店铺也销售毛衣，则这两个店铺面向的用户群体相同，都是从购买毛衣的用户中争取用户，所以这两个店铺之间就会形成竞争关系。

基于上述，数据处理装置首先可以从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象。

具体的，数据处理装置可以根据第一数据对象在指定时间段内各一级资源类目下的业务量数据，确定第一数据对象的主营一级资源类目。例如，数据处理装置可以采集第一数据对象的基础信息，基础信息包括：第一数据对象主营的各级资源类目、在指定时间段内业务量数据汇总以及在每个资源类目下的业务量数据；然后根据这些业务量数据，确定第一数据对象的主营一级资源类目。

例如，可以从横向角度考虑，将第一数据对象自身提供的各一级资源类目下的业务量数据进行比较，将业务量数据最大的一级资源类目作为主营一级资源类目。或者，也可以从纵向角度考虑，将第一数据对象提供的各一级资源类目下的业务量数据，与其它数据对象提供的相同资源类目下的业务量数据或行业平均/历史最高业务量数据进行比较，将第一数据对象提供的各一级资源类目中业务量数据比其它数据对象提供的相同资源类目下的业务量数据或行业平均/历史最高业务量数据大的一级资源类目作为主营一级资源类目。其中，可以获取网络系统中各资源对象提供的相同资源类目下的业务量数据，对所获取的各资源对象提供的相同资源类目下的业务量数据求平均，将平均值作为行业平均业务量数据。相应的，可以获取指定历史时间段内网络系统中各资源对象提供的相同资源类目下的业务量数据，将所获取的各资源对象提供的相同资源类目下的业务量数据进行比较，获取最高业务量数据作为行业历史最高业务量数据。另外，上述列举的确定主营一级资源类目的方式可以单独使用，也可以结合使用。第一数据对象主营一级资源类目可以是一个，也可以是多个。

上述指定时间段可以根据具体应用场景而定，例如可以是但不限于：7天、30天等。同理，上述指定历史时间段也可以根据具体应用场景而定，例如可以是但不限于：30天、60天等。

以第一数据对象为电商平台上的店铺为例，则这里的业务量主要是指交易金额、商品成交量、平均成交量等。举例说明，一种确定主营一级资源类目的方式包括：数据处理装置可以将交易金额最大的一级资源类目作为主营一级资源类目，同时，也可以将交易金额不是店铺内最大，但是在行业内是最高的一级资源类目作为主营一级资源类目。具体的，假设xx官方旗舰店主售手机、盒子、手环、净化器等不同商品，因为xx官方旗舰店售出的手机的交易额是最大的，可以将手机类目作为主营一级资源类目，同时，xx官方旗舰店售出的手环的交易金额小于手机的交易金额，但是在同行业店铺中该手环的交易金额是最大的，即排名第一，因此该手环类目也可以作为该xx官方旗舰店的主营一级资源类目。上述仅是确定主营一级资源类目的一种实施方式，并不限于此。

同理，数据处理装置可以根据网络系统中除第一数据对象之外的其它数据对象在指定时间段内在各一级资源类目下的业务量数据，确定其它数据对象的主营一级资源类目。例如，数据处理装置可以采集其它数据对象的基础信息，基础信息包括：其它数据对象主营的各级资源类目、在指定时间段内业务量数据汇总以及在每个资源类目下的业务量数据；然后根据这些业务量数据，确定其它数据对象的主营一级资源类目。例如，对于每个其它数据对象，为便于描述和区分，这里将其称为非第一数据对象，可以从横向角度，将非第一数据对象自身提供的各一级资源类目下的业务量数据进行比较，将业务量数据最大的一级资源类目作为主营一级资源类目。或者，也可以从纵向角度，将非第一数据对象提供的各一级资源类目下的业务量数据，与其它数据对象提供的相同资源类目下的业务量数据或行业平均业务量数据进行比较，将非第一数据对象提供的各一级资源类目中业务量数据比其它数据对象提供的相同资源类目下的业务量数据或行业平均业务量数据大的一级资源类目作为主营一级资源类目。另外，上述列举的确定主营一级资源类目的方式可以单独使用，也可以结合使用。所述指定时间段可以根据具体应用场景而定，例如可以是但不限于：7天、30天等。以第一数据对象为电商平台上的店铺为例，则这里的业务量主要是指交易金额、商品成交量、平均成交量等。例如，数据处理装置可以将交易金额最大的一级资源类目作为主营一级资源类目。

之后，数据处理装置从其它数据对象中，选择主营一级资源类目与第一数据对象相同，且业务量数据与第一数据对象的业务量数据位于同一层级的数据对象作为与第一数据对象具有相似资源数据的初始数据对象。

简单来说就是，数据处理装置根据主营一级资源类目以及各数据对象在主营一级资源类目下的业务量数据，对其它数据对象进行筛选，以获得与第一数据对象具有相似资源数据的初始数据对象。其中，一种确定业务量数据与第一数据对象的业务量数据位于同一层级的数据对象的具体实施方式包括：

根据第一数据对象在主营一级资源类目下的业务量数据以及其它数据对象在一级主营资源类目下的业务量数据，按照在一级主营资源类目下的业务量数据从低到高划分为若干个层级，例如7个层级，然后确定第一数据对象在主营一级资源类目下的业务量数据所在的层级，进而获取与第一数据对象处于同一层级的其它数据对象。例如，假设对于最近30天交易金额位于主营一级资源类目下前百分之一的店铺，将其划分为一级资源类目下的第7层级，若某一店铺位于第7层级，则认为同时位于第7层级的店铺所提供的商品对象相似。

在一可选实施方式中，在初始数据对象中，获取对第一数据对象具有业务分流作用的候选数据对象之前，可以按照预设的黑名单过滤规则，去除初始数据对象中指定业务指标存在异常的数据对象。预先设置黑名单过滤规则，当获取到初始数据对象之后，可以根据预设的黑名单过滤规则，对初始数据对象进行过滤处理，从而将指定业务指标存在异常的数据对象去除，以防止一些作弊行为，提高数据准确性。

具体的，在黑名单过滤规则中可以定义虚假业务，并定义虚假业务产生的业务量数据对应的过滤要求。基于此，根据黑名单过滤规则对初始数据对象进行过滤的过程具体为：根据黑名单过滤规则中定义的虚假业务，确定初始数据对象中存在虚假业务的可疑数据对象；判断可疑数据对象的虚假业务产生的业务量数据是否满足黑名单过滤规则中定义的过滤要求；若判断结果为是，则将可疑数据对象从初始数据对象中去除。

以网络购物系统中的店铺为例，如果商铺的商品交易中存在商品客单价在对应叶子资源类目上的平均客单价的指定倍数(例如5、10或100倍)以上的商品交易，则认为这些商品交易是虚假交易商品，同时，确定该店铺存在虚假交易(即虚假业务)，这些店铺即为可疑店铺。然后，统计这些可疑店铺的虚假交易产生的交易金额占该店铺总交易金额的比例是否达到指定比例(例如50％或60％等)，若是，将这些可疑店铺从初始确定的店铺中去除。或者，也可以统计这些可疑店铺的虚假交易产生的交易金额占该店铺总交易金额的比例是否达到指定比例(例如50％或60％等)，若是，继续统计这些可疑店铺的用户访问量(UV)，若这些可疑店铺的UV小于指定门限(例如50、500或300等)，则将这些可疑店铺从初始确定的店铺中去除。

除上述过滤规则之外，还可以统计各店铺的支付转化率，将支付转化率大于指定比例(1000％)、且用户访问量(UV)小于指定门限的店铺作为可疑店铺，将可疑店铺从初始确定的店铺中去除。

具有相似资源数据并不是判断两个数据对象之间是否存在竞争关系的唯一因素，因此在获得初始数据对象之后，可以数据处理装置继续从业务角度来考虑，从初始数据对象中，获取对第一数据对象具有业务分流作用的候选数据对象；之后，根据候选数据对象对第一数据对象的业务分流量，确定与第一数据对象存在竞争关系的数据对象。即，从与第一数据对象提供相似资源数据，且在业务上对第一数据对象有影响的数据对象中，确定与第一数据对象存在竞争关系的数据对象，这符合从数据对象的角度所定义的竞争概念，同时也有利于保证所获取的存在竞争关系的数据对象的精准度。

在一具体实施方式中，数据处理装置可以从关键词引流角度、用户流失角度和业务量相似角度中的至少一种角度，针对第一数据对象和初始数据对象进行业务分流分析，从而获得对第一数据对象具有业务分流作用的候选数据对象。

以数据对象为店铺为例，各店铺都会面向用户提供关键词，一方面供用户进入店铺后进行搜索，另一方面，也是将用户引流到该店铺的关键信息。关键词是用户进入店铺的第一步，所以自然搜索中，关键词设置的好与坏将会对店铺的用户访问量(Unique Visitor，UV)造成显著的影响。例如，按照UV对两家销售相似太阳伞的天猫品牌店铺最近7天的主要引流关键词进行排序，可以发现：“太阳伞”、“小黑伞”、“防晒伞”以及“遮阳伞”等关键词在两家店铺的引流关键词排行榜上都占据着重要的位置，这些共同关键词都会造成用户的分流。如果一开始进入店铺的用户数量较多，则一定程度上会影响该店铺的业务量数据，这意味着，关键词的引流作用一定程度上可以影响该店铺的业务量数据。

基于上述分析，数据处理装置考虑到从关键词引流角度，针对第一数据对象和初始数据对象进行业务分流分析，以获得对第一数据对象具有业务分流作用的候选数据对象。具体的，数据处理装置可以根据第一数据对象面向用户提供的关键词和初始数据对象面向对象提供的关键词，从初始数据对象中，获取与第一数据对象共用至少一个关键词的数据对象作为候选数据对象。

进一步可选的，在获得候选数据对象之后，可以根据各候选数据对象在第一指定资源类目下的业务量数据，对候选数据对象进行过滤，例如，可以获取在第一指定资源类目下的业务量数据最大的至少一个候选数据对象，例如获取在第一指定资源类目下的业务量数据最大的前N个候选数据对象，N是自然数，这样可以减少候选数据对象的数量，有利于节约计算资源，提高后续计算速度。

在仅从关键词引流角度，针对第一数据对象和所述初始数据对象进行业务分流分析的情况下，根据获得的候选数据对象对第一数据对象的业务分流量，确定与第一数据对象存在竞争关系的数据对象的一种实施方式包括：

对于第一数据对象面向用户提供的每个关键词，从候选数据对象中，获取与第一数据对象在该关键词下的用户访问量最接近的至少一个目标数据对象；根据第一数据对象在关键词下的用户访问量和至少一个目标数据对象在该关键词下的用户访问量，计算第一数据对象与至少一个目标数据对象之间的用户引流相似度；根据第一数据对象与至少一个目标数据对象之间的用户引流相似度，从至少一个目标数据对象中确定与第一数据对象存在竞争关系的数据对象。

具体的，一种获取至少一个目标数据对象的实施方式包括：按照第一数据对象在上述关键词下的用户访问量和候选数据对象在上述关键词下的用户访问量，对第一数据对象和候选数据对象进行排序，对排序结果进行分片，确定第一数据对象所在的目标分片，获取目标分片以及该目标分片的相邻分片中的候选数据对象作为至少一个目标数据对象。

在上述实施方式中，考虑到每个关键词对不同数据对象来说所带来的用户访问量是不同的，为了便于发现竞争力度更大的数据对象，根据每个关键词给不同数据对象带来的用户访问量，对候选数据对象进行过滤，从而获得用户访问量与第一数据对象相近的目标数据对象。之后，基于第一数据对象在关键词下的用户访问量和目标数据对象在该关键词下的用户访问量，计算第一数据对象与目标数据对象之间的用户引流相似度。其中，该用户引流相似度用户反映该关键词在第一数据对象和目标数据对象下的用户引流效果的相似程度，如果该用户引流相似度越大，意味着目标数据对象与第一数据对象的竞争强度越强，也就意味着目标数据对象对第一数据对象的业务分流量会越大。因此，可以根据第一数据对象与目标数据对象之间的用户引流相似度，从目标数据对象中获取与第一数据对象存在竞争关系的数据对象。

例如，可以按照预设的百分比，按照用户引流相似度由大到小的顺序从目标数据对象中选择满足预设百分比的数据对象作为与第一数据对象存在竞争关系的数据对象。

又例如，可以设定一用户引流相似度门限，从目标数据对象中选择用户引流相似度大于该门限的数据对象作为与第一数据对象存在竞争关系的数据对象。

在获得与第一数据对象存在竞争关系的数据对象之后，可以输出所获得的数据对象的信息，例如可是该数据对象的名称、id、各资源类目以及各资源类目下的业务量数据等等。

在仅从用户流失角度，针对第一数据对象和所述初始数据对象进行业务分流分析的情况下，根据获得的候选数据对象对第一数据对象的业务分流量，确定与第一数据对象存在竞争关系的数据对象的一种实施方式包括：

根据第一数据对象的用户群体中各用户的网络行为数据，从第一数据对象的用户群体中确定符合预设的流失用户定义的流失用户，从初始数据对象中，获取用户群体中包括流失用户的数据对象作为候选数据对象。

计算由候选数据对象引起的第一数据对象的业务总流失量；其中，由候选数据对象引起的第一数据对象的业务总流失量表征该候选数据对象对第一数据对象的业务分流量，业务总流失量越大，意味着候选数据对象对第一数据对象的业务分流量越大，也就意味着，候选数据对象与第一数据对象之间的竞争力度越大；于是，可以根据由候选数据对象引起的第一数据对象的业务总流失量，从候选数据对象中确定与第一数据对象存在竞争关系的数据对象。

例如，可以按照预设的百分比，按照业务总流失量由大到小的顺序从候选数据对象中选择满足预设百分比的数据对象作为与第一数据对象存在竞争关系的数据对象。

又例如，可以设定一业务总流失量门限，从候选数据对象中选择引起第一数据对象的业务总流失量大于该门限的数据对象作为与第一数据对象存在竞争关系的数据对象。

在上述实施方式中，流失用户的通俗意思就是：某个用户访问了数据对象A下的资源数据但却获取了另一数据对象B下的资源数据，对于数据对象A来说，该用户就是流失用户。本实施例并不限定用户访问的数据对象A下的资源数据与用户获取的数据对象B下的资源数据之间的关系，但较为优选的，这两种资源数据是相似资源数据。

以数据对象为店铺为例，假设某一用户看了第一店铺在卖的商品却在别人家的店铺下单了买了该第一店铺也在卖的商品，对于第一店铺来说，该用户即为流失用户。这种用户流失无疑会对第一店铺的经营者敏感的神经造成强刺激，而用户流向的店铺无疑会给第一店铺造成业务量流失，相当于对第一店铺进行了业务分流。

但是在实际应用中，如果将访问过一店铺，然后在另一店铺购买商品的所有用户全部定义为流失用户，那么流失用户的数量会相当多，并且也不太合理，因为有些用户可能会在访问一店铺后时隔很久才从另一店铺购买商品，又或者有的用户“点击”行为比较丰富，包括误操作、乱点击等，所以这些用户并不能算是真正意义上的流失用户。考虑到用户访问店铺的周期、用户终端的变化等很多因素影响着流失用户的定义，本实施例结合实际情况，给定一种流失用户的定义，具体是指在指定时间范围内访问数据对象A下的资源数据后直接跳转到另一数据对象B下并获取另一数据对象B下的资源数据的用户。即用户需要从数据对象A直接到数据对象B中间不经过其它数据对象，且需要在一定时间范围内，例如一天之内。如果用户不是在指定时间范围之内(例如两天之后)从数据对象A跳转到数据对象B，则该用户也不符合流失用户的定义。

基于上述流失用户的定义，上述计算候选数据对象引起第一数据对象的业务总流失量的方式具体为：计算流失用户从第一数据对象跳转到候选数据对象下并因获取候选数据对象下的资源数据产生的业务量总和。举例说明，假设用户在访问第一店铺下的商品a之后，直接跳转到第二店铺下购买了商品b和商品c，则第二店铺引起的第一店铺的业务总流失量可表示为：商品b的成交价和商品c的成交价之和。

在仅从业务量相似角度，针对第一数据对象和所述初始数据对象进行业务分流分析的情况下，根据获得的候选数据对象对第一数据对象的业务分流量，确定与第一数据对象存在竞争关系的数据对象的一种实施方式包括：

根据第一数据对象在第二指定资源类目下的业务量数据，从初始数据对象中，获取在第二指定资源类目下与所述第一数据对象的业务量数据最接近的至少一个数据对象作为候选数据对象。

可选的，这里的第二指定类目可以是二级资源类目，但不限于此。

根据第一数据对象在第二指定资源类目下的业务量数据和候选数据对象在第二指定资源类目下的业务量数据，计算第一数据对象与候选数据对象之间的业务量相似度；其中，第一数据对象与候选数据对象之间的业务量相似度表征该候选数据对象对第一数据对象的业务分流量，业务量相似度越大，意味着候选数据对象对第一数据对象的业务分流量越大，也就意味着，候选数据对象与第一数据对象之间的竞争力度越大。于是，可以根据第一数据对象与候选数据对象之间的业务量相似度，从候选数据对象中确定与第一数据对象存在竞争关系的数据对象。

例如，可以按照预设的百分比，按照业务量相似度由大到小的顺序从候选数据对象中选择满足上述预设百分比的数据对象作为与第一数据对象存在竞争关系的数据对象。

又例如，可以设定一业务量相似度门限，从候选数据对象中选择业务量相似度大于该门限的数据对象作为与第一数据对象存在竞争关系的数据对象。

值得说明的是，在上述计算各种相似度的情况下，可以采用余弦相似度、皮尔森相关系数与杰卡德(Jaccard)相似系数等算法计算相似度。

另外，上述详细介绍了几种从单一业务角度对第一数据对象和初始数据对象进行业务分流分析的实施方式，对于结合几种业务角度对第一数据对象和初始数据对象进行业务分析的实施方式可参照上述描述，可以是上述实施方式的简单组合，也可以是经过变形后的实施方式，对此不再详细描述。

由上述分析可见，本申请不仅考虑数据对象所提供资源数据的相似度，而且从业务上考虑，将资源数据相似且相互之间具有业务分流作用的数据对象作为存在竞争关系的数据对象，解决了现有技术无法发现存在竞争关系的数据对象的问题，而且所发现的存在竞争关系的数据对象的精准度较高。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本申请另一实施例提供的数据处理装置的结构示意图。如图2所示，该装置包括：初始获取模块21、候选获取模块22和确定模块23。

初始获取模块21，用于从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象，资源数据用于实现用户的业务需求。

候选获取模块22，用于从初始数据对象中，获取对第一数据对象具有业务分流作用的候选数据对象。

确定模块23，用于根据候选数据对象对第一数据对象的业务分流量，确定与第一数据对象存在竞争关系的数据对象。

在一可选实施方式中，初始获取模块21具体可用于：

根据第一数据对象在指定时间段内各一级资源类目下的业务量数据，确定第一数据对象的主营一级资源类目；

根据网络系统中除第一数据对象之外的其它数据对象在指定时间段内在各一级资源类目下的业务量数据，确定其它数据对象的主营一级资源类目；

从其它数据对象中，选择主营一级资源类目与第一数据对象相同，且业务量数据与第一数据对象的业务量数据位于同一层级的数据对象作为初始数据对象。

进一步，初始获取模块21还可用于：

在候选获取模块22在从初始数据对象中，获取对第一数据对象具有业务分流作用的候选数据对象之前，根据预设的黑名单过滤规则，去除初始数据对象中指定业务指标存在异常的数据对象。

进一步，初始获取模块21具体用于：

根据黑名单过滤规则中定义的虚假业务，确定初始数据对象中存在虚假业务的可疑数据对象；

判断可疑数据对象的虚假业务产生的业务量数据是否满足黑名单过滤规则中定义的过滤要求；

若判断结果为是，则将可疑数据对象从初始数据对象中去除。

在一可选实施方式中，候选获取模块22具体可用于：从关键词引流角度、用户流失角度和业务量相似角度中的至少一种角度，针对第一数据对象和初始数据对象进行业务分流分析，以获得候选数据对象。

进一步，候选获取模块22具体可用于：根据第一数据对象面向用户提供的关键词和初始数据对象面向对象提供的关键词，从初始数据对象中，获取与第一数据对象共用至少一个关键词的数据对象作为候选数据对象。

基于上述，确定模块23具体可用于：

对于第一数据对象面向用户提供的每个关键词，从候选数据对象中，获取与第一数据对象在关键词下的用户访问量最接近的至少一个目标数据对象；

根据第一数据对象在关键词下的用户访问量和至少一个目标数据对象在关键词下的用户访问量，计算第一数据对象与至少一个目标数据对象之间的用户引流相似度；

根据第一数据对象与至少一个目标数据对象之间的用户引流相似度，从至少一个目标数据对象中确定与第一数据对象存在竞争关系的数据对象。

更进一步，确定模块23在从候选数据对象中，获取与第一数据对象在关键词下的用户访问量最接近的至少一个目标数据对象时，具体可用于：

按照第一数据对象在关键词下的用户访问量和候选数据对象在关键词下的用户访问量，对第一数据对象和候选数据对象进行排序，对排序结果进行分片，确定第一数据对象所在的目标分片，获取目标分片以及目标分片的相邻分片中的候选数据对象作为至少一个目标数据对象。

进一步，候选获取模块22具体可用于：根据第一数据对象的用户群体中各用户的网络行为数据，从第一数据对象的用户群体中确定符合预设的流失用户定义的流失用户，从初始数据对象中，获取用户群体中包括流失用户的数据对象作为候选数据对象。

基于上述，确定模块23具体可用于：

计算由候选数据对象引起的第一数据对象的业务总流失量；

根据由候选数据对象引起的第一数据对象的业务总流失量，从候选数据对象中确定与第一数据对象存在竞争关系的数据对象。

进一步，上述流失用户定义为在指定时间范围内访问数据对象A下的资源数据后直接跳转到另一数据对象B下并获取数据对象B下的资源数据的用户。基于此，确定模块23在计算由候选数据对象引起的第一数据对象的业务总流失量时，具体用于：计算由流失用户在从第一数据对象跳转到候选数据对象下并因获取候选数据对象下的资源数据产生的业务量总和。

进一步，候选获取模块22具体可用于：根据第一数据对象在第二指定资源类目下的业务量数据，从初始数据对象中，获取在第二指定资源类目下与第一数据对象的业务量数据最接近的至少一个数据对象作为候选数据对象。

基于上述，确定模块23具体可用于：

根据第一数据对象在第二指定资源类目下的业务量数据和候选数据对象在第二指定资源类目下的业务量数据，计算第一数据对象与候选数据对象之间的业务量相似度；

根据第一数据对象与候选数据对象之间的业务量相似度，从候选数据对象中确定与第一数据对象存在竞争关系的数据对象。

本实施例提供的数据处理装置，首先从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象，然后再从初始数据对象中，获取对第一数据对象具有业务分流作用的候选数据对象，进而根据候选数据对象对第一数据对象的业务分流量，确定与第一数据对象具有竞争关系的数据对象。本实施例提供的数据处理装置，不仅考虑数据对象所提供资源数据的相似度，而且从业务上考虑，将资源数据相似且相互之间具有业务分流作用的数据对象作为存在竞争关系的数据对象，解决了现有技术无法发现存在竞争关系的数据对象的问题，而且所发现的存在竞争关系的数据对象的精准度较高。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种数据处理方法，其特征在于，包括：

从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象，所述资源数据用于实现用户的业务需求；

从所述初始数据对象中，获取对所述第一数据对象具有业务分流作用的候选数据对象；

根据所述候选数据对象对所述第一数据对象的业务分流量，确定与所述第一数据对象存在竞争关系的数据对象。
根据权利要求1所述的方法，其特征在于，所述从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象，包括：

根据所述第一数据对象在指定时间段内各一级资源类目下的业务量数据，确定所述第一数据对象的主营一级资源类目；

根据所述网络系统中除所述第一数据对象之外的其它数据对象在所述指定时间段内在各一级资源类目下的业务量数据，确定所述其它数据对象的主营一级资源类目；

从所述其它数据对象中，选择主营一级资源类目与所述第一数据对象相同，且业务量数据与所述第一数据对象的业务量数据位于同一层级的数据对象作为所述初始数据对象。
根据权利要求2所述的方法，其特征在于，所述从所述初始数据对象中，获取对所述第一数据对象具有业务分流作用的候选数据对象之前，还包括：

根据预设的黑名单过滤规则，去除所述初始数据对象中指定业务指标存在异常的数据对象。
根据权利要求3所述的方法，其特征在于，所述根据预设的黑名单过滤规则，去除所述初始数据对象中指定业务指标存在异常的数据对象，包括：

根据所述黑名单过滤规则中定义的虚假业务，确定所述初始数据对象中存在虚假业务的可疑数据对象；

判断所述可疑数据对象的虚假业务产生的业务量数据是否满足所述黑名单过滤规则中定义的过滤要求；

若判断结果为是，则将所述可疑数据对象从所述初始数据对象中去除。
根据权利要求1所述的方法，其特征在于，所述从所述初始数据对象中，获取对所述第一数据对象具有业务分流作用的候选数据对象，包括：

从关键词引流角度、用户流失角度和业务量相似角度中的至少一种角度，针对所述第一数据对象和所述初始数据对象进行业务分流分析，以获得所述候选数据对象。
根据权利要求5所述的方法，其特征在于，所述从关键词引流角度，针对所述第一数据对象和所述初始数据对象进行业务分流分析，以获得所述候选数据对象，包括：

根据所述第一数据对象面向用户提供的关键词和所述初始数据对象面向对象提供的关键词，从所述初始数据对象中，获取与所述第一数据对象共用至少一个关键词的数据对象作为所述候选数据对象。
根据权利要求6所述的方法，其特征在于，所述根据所述候选数据对象对所述第一数据对象的业务分流量，确定与所述第一数据对象存在竞争关系的数据对象，包括：

对于所述第一数据对象面向用户提供的每个关键词，从所述候选数据对象中，获取与所述第一数据对象在所述关键词下的用户访问量最接近的至少一个目标数据对象；

根据所述第一数据对象在所述关键词下的用户访问量和所述至少一个目标数据对象在所述关键词下的用户访问量，计算所述第一数据对象与所述至少一个目标数据对象之间的用户引流相似度；

根据所述第一数据对象与所述至少一个目标数据对象之间的用户引流相似度，从所述至少一个目标数据对象中确定与所述第一数据对象存在竞争关系的数据对象。
根据权利要求7所述的方法，其特征在于，所述从所述至少一个候选数据对象中，获取与所述第一数据对象在所述关键词下的用户访问量最接近的至少一个目标数据对象，包括：

按照所述第一数据对象在所述关键词下的用户访问量和所述候选数据对象在所述关键词下的用户访问量，对所述第一数据对象和所述候选数据对象进行排序，对排序结果进行分片，确定所述第一数据对象所在的目标分片，获取所述目标分片以及所述目标分片的相邻分片中的候选数据对象作为所述至少一个目标数据对象。
根据权利要求5所述的方法，其特征在于，所述从用户流失角度，针对所述第一数据对象和所述初始数据对象进行业务分流分析，以获得所述候选数据对象，包括：

根据所述第一数据对象的用户群体中各用户的网络行为数据，从所述第一数据对象的用户群体中确定符合预设的流失用户定义的流失用户，从所述初始数据对象中，获取用户群体中包括所述流失用户的数据对象作为所述候选数据对象。
根据权利要求9所述的方法，其特征在于，所述根据所述候选数据对象对所述第一数据对象的业务分流量，确定与所述第一数据对象存在竞争关系的数据对象，包括：计算由所述候选数据对象引起的所述第一数据对象的业务总流失量；

根据由所述候选数据对象引起的所述第一数据对象的业务总流失量，从所述候选数据对象中确定与所述第一数据对象存在竞争关系的数据对象。
根据权利要求10所述的方法，其特征在于，所述流失用户定义为在指定时间范围内访问数据对象A下的资源数据后直接跳转到另一数据对象B下并获取所述数据对象B下的资源数据的用户；

所述计算由所述候选数据对象引起的所述第一数据对象的业务总流失量，包括：

计算由所述流失用户在从所述第一数据对象跳转到所述候选数据对象下并因获取所述候选数据对象下的资源数据产生的业务量总和。
根据权利要求5所述的方法，其特征在于，所述从业务量相似角度，针对所述第一数据对象和所述初始数据对象进行业务分流分析，以获得所述候选数据对象，包括：

根据所述第一数据对象在第二指定资源类目下的业务量数据，从所述初始数据对象中，获取在所述第二指定资源类目下与所述第一数据对象的业务量数据最接近的至少一个数据对象作为所述候选数据对象。
根据权利要求12所述的方法，其特征在于，所述根据所述候选数据对象对所述第一数据对象的业务分流量，确定与所述第一数据对象存在竞争关系的数据对象，包括：

根据所述第一数据对象在第二指定资源类目下的业务量数据和所述候选数据对象在所述第二指定资源类目下的业务量数据，计算所述第一数据对象与所述候选数据对象之间的业务量相似度；

根据所述第一数据对象与所述候选数据对象之间的业务量相似度，从所述候选数据对象中确定与所述第一数据对象存在竞争关系的数据对象。
一种数据处理装置，其特征在于，包括：

初始获取模块，用于从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象，所述资源数据用于实现用户的业务需求；

候选获取模块，用于从所述初始数据对象中，获取对所述第一数据对象具有业务分流作用的候选数据对象；

确定模块，用于根据所述候选数据对象对所述第一数据对象的业务分流量，确定与所述第一数据对象存在竞争关系的数据对象。
根据权利要求14所述的装置，其特征在于，所述初始获取模块具体用于：

根据所述第一数据对象在指定时间段内各一级资源类目下的业务量数据，确定所述第一数据对象的主营一级资源类目；

根据所述网络系统中除所述第一数据对象之外的其它数据对象在所述指定时间段内在各一级资源类目下的业务量数据，确定所述其它数据对象的主营一级资源类目；

从所述其它数据对象中，选择主营一级资源类目与所述第一数据对象相同，且业务量数据与所述第一数据对象的业务量数据位于同一层级的数据对象作为所述初始数据对象。
根据权利要求15所述的装置，其特征在于，所述初始获取模块还用于：

根据预设的黑名单过滤规则，去除所述初始数据对象中指定业务指标存在异常的数据对象。
根据权利要求16所述的装置，其特征在于，所述初始获取模块具体用于：

根据所述黑名单过滤规则中定义的虚假业务，确定所述初始数据对象中存在虚假业务的可疑数据对象；

判断所述可疑数据对象的虚假业务产生的业务量数据是否满足所述黑名单过滤规则中定义的过滤要求；

若判断结果为是，则将所述可疑数据对象从所述初始数据对象中去除。
根据权利要求14所述的装置，其特征在于，所述候选获取模块具体用于：

从关键词引流角度、用户流失角度和业务量相似角度中的至少一种角度，针对所述第一数据对象和所述初始数据对象进行业务分流分析，以获得所述候选数据对象。
根据权利要求18所述的装置，其特征在于，所述候选获取模块具体用于：

根据所述第一数据对象面向用户提供的关键词和所述初始数据对象面向对象提供的关键词，从所述初始数据对象中，获取与所述第一数据对象共用至少一个关键词的数据对象作为所述候选数据对象。
根据权利要求19所述的装置，其特征在于，所述确定模块具体用于：

对于所述第一数据对象面向用户提供的每个关键词，从所述候选数据对象中，获取与所述第一数据对象在所述关键词下的用户访问量最接近的至少一个目标数据对象；

根据所述第一数据对象在所述关键词下的用户访问量和所述至少一个目标数据对象在所述关键词下的用户访问量，计算所述第一数据对象与所述至少一个目标数据对象之间的用户引流相似度；

根据所述第一数据对象与所述至少一个目标数据对象之间的用户引流相似度，从所述至少一个目标数据对象中确定与所述第一数据对象存在竞争关系的数据对象。
根据权利要求20所述的装置，其特征在于，所述确定模块具体用于：

按照所述第一数据对象在所述关键词下的用户访问量和所述候选数据对象在所述关键词下的用户访问量，对所述第一数据对象和所述候选数据对象进行排序，对排序结果进行分片，确定所述第一数据对象所在的目标分片，获取所述目标分片以及所述目标分片的相邻分片中的候选数据对象作为所述至少一个目标数据对象。
根据权利要求18所述的装置，其特征在于，所述候选获取模块具体用于：

根据所述第一数据对象的用户群体中各用户的网络行为数据，从所述第一数据对象的用户群体中确定符合预设的流失用户定义的流失用户，从所述初始数据对象中，获取用户群体中包括所述流失用户的数据对象作为所述候选数据对象。
根据权利要求22所述的装置，其特征在于，所述确定模块具体用于：

计算由所述候选数据对象引起的所述第一数据对象的业务总流失量；

根据由所述候选数据对象引起的所述第一数据对象的业务总流失量，从所述候选数据对象中确定与所述第一数据对象存在竞争关系的数据对象。
根据权利要求23所述的装置，其特征在于，所述流失用户定义为在指定时间范围内访问数据对象A下的资源数据后直接跳转到另一数据对象B下并获取所述数据对象B下的资源数据的用户；

所述确定模块具体用于：计算由所述流失用户在从所述第一数据对象跳转到所述候选数据对象下并因获取所述候选数据对象下的资源数据产生的业务量总和。
根据权利要求18所述的装置，其特征在于，所述候选获取模块具体用于：

根据所述第一数据对象在第二指定资源类目下的业务量数据，从所述初始数据对象中，获取在所述第二指定资源类目下与所述第一数据对象的业务量数据最接近的至少一个数据对象作为所述候选数据对象。
根据权利要求25所述的装置，其特征在于，所述确定模块具体用于：

根据所述第一数据对象在第二指定资源类目下的业务量数据和所述候选数据对象在所述第二指定资源类目下的业务量数据，计算所述第一数据对象与所述候选数据对象之间的业务量相似度；

根据所述第一数据对象与所述候选数据对象之间的业务量相似度，从所述候选数据对象中确定与所述第一数据对象存在竞争关系的数据对象。