WO2017121272A1

WO2017121272A1 - 用户行为数据的处理方法及装置

Info

Publication number: WO2017121272A1
Application number: PCT/CN2017/070150
Authority: WO
Inventors: 周强
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2016-01-12
Filing date: 2017-01-04
Publication date: 2017-07-20
Also published as: CN106959971B; CN106959971A

Abstract

一种用户行为数据的处理方法及装置。其中，该方法包括：获取用户行为数据(S22)，确定用户对应每个维度上的数据集合所包含的检索项的偏好分值(S24),在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值(S26)；根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值(S28)；根据每个用户与搜索词之间的耦合关系所确定的行为权重值，确定待定位的搜索词所定位的用户组(S30)。该方法解决了单纯的通过结构化数据来实现人群定向，定位结果不够准确的技术问题。

Description

用户行为数据的处理方法及装置

本申请要求2016年01月12日递交的申请号为201610018733.7、发明名称为“用户行为数据的处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机领域，具体而言，涉及一种用户行为数据的处理方法及装置。

背景技术

目前，用户在使用互联网产品(例如在门户网站进行购物)时会产生大量的结构化数据，商家往往会通过上述结构化数据来实现人群定向以此分析出用户的兴趣，比如，DMP的标签人群定向技术，利用用户的基础信息和基础行为，完成圈人打标定向的活动，进一步向定向的用户组推送广告或应用。

这里需要说明的，在用户使用互联网产品时也会产生大量的非结构化数据(例如文本数据)，同上述结构化数据相比，文本数据中的用户的评论、标题也可以更加反映出用户更加细粒度的兴趣偏好，从文本数据中挖掘的商业信息会更有价值，因此，在相关技术中，单纯的通过上述结构化数据来实现人群定向，定位结果不够准确。

针对上述单纯的通过结构化数据来实现人群定向，定位结果不够准确的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种用户行为数据的处理方法及装置，以至少解决单纯的通过结构化数据来实现人群定向，定位结果不够准确的技术问题。

根据本发明实施例的一个方面，提供了一种用户行为数据的处理方法，包括：获取用户行为数据，其中，用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合；确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，其中，每个维度上的数据集合包含至少一个检索项；在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值；根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值；根据每个用户与搜索词之间的耦合关系所确定的行为权重值，确定待定位的搜索词所定位的用户组。

根据本发明实施例的另一方面，还提供了一种用户行为数据的处理装置，包括：第一获取单元，用于获取用户行为数据，其中，用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合；第一确定单元，用于确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，其中，每个维度上的数据集合包含至少一个检索项；第二获取单元，用于在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值；第三获取单元，根据每个用户在每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值；第二确定单元，根据每个用户与搜索词之间的耦合关系所确定的行为权重值，确定待定位的搜索词所定位的用户组。

在本发明实施例中，采用获取用户行为数据，其中，用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合；确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，其中，每个维度上的数据集合包含至少一个检索项；在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值；根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值；根据每个用户与搜索词之间的耦合关系所确定的行为权重值，确定待定位的搜索词所定位的用户组，解决了单纯的通过结构化数据来实现人群定向，定位结果不够准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种用户行为数据的处理方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的一种用户行为数据的处理方法的流程图；

图3是根据本发明实施例的一种可选地用户行为数据的处理方法的示意图；

图4是根据本发明实施例的一种可选地用户行为数据的处理方法的示意图；

图5是根据本发明实施例的一种用户行为数据的处理装置的结构示意图；

图6是根据本发明实施例的一种可选地用户行为数据的处理装置的结构示意图；

图7是根据本发明实施例的一种可选地用户行为数据的处理装置的结构示意图；

图8是根据本发明实施例的一种可选地用户行为数据的处理装置的结构示意图；以及

图9是根据本发明实施例的一种用户行为数据的处理方法的计算机终端的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请中专业术语解释如下：

ETL：是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。

LR：Logistic regression的简称，一种常用的线性分类器。

SVM：支持向量机SVM(Support Vector Machine)是一个有监督的学习模型，通常用来进行模式识别、分类、以及回归分析。

Lucene：Lucene是apache软件基金会4jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎(英文与德文两种西方语言)。

实施例1

根据本发明实施例，还提供了一种用户行为数据的处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种用户行为数据的处理方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的用户行为数据的处理方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输模块106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本申请提供了如图2所示的用户行为数据的处理方法。图2是根据本发明实施例一的用户行为数据的处理方法的流程图，该方法可以包括：

步骤S22，获取用户行为数据。

其中，用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合。

在上述步骤S22中，上述用户可以为门户网站(比如购物网站)的访问用户USER，上述目标对象可以为门户网站中的产品ITEM，上述产品ITEM可以为商品、视频、音乐等，在访问用户USER对门户网站的产品ITEM进行点击、搜索查询、评论、收藏网页等行为之后，会生成大量的访问数据集合(比如文本数据)，网站服务器可以获取上述用户访问目标对象生成的访问数据集合。需要说明的是，网站服务器获取的每条访问数据集合都可以使用三个维度去描述：类目CATEGORY，即上述分类信息，用于表述产品ITEM的分类，属性PROPERTY，用于表述产品ITEM的自有属性，关键词KEYWORD，用于表述产品ITEM的名称，每个关键词可以带词频或者TFIDF的权重。需要说明的是，在用于描述产品ITEM的三个维度中，每个产品ITEM只能有一个类目CATEGORY，每个产品ITEM可以有多个属性PROPERTY。

需要说明的是，本方案可以通过有目标的监督学习算法(例如LR、SVM)将用户的原始行为数据进行统计汇总，然后，将USER对ITEM产品的行为分解成上述三个维度,可选地，本方案中产品ITEM的数据规范可以为下表一，用户USER行为的数据规范可以为下表二。

表一：

列名	字段说明
item_id	物品ID
category	类目
keywords	关键词
description	描述
properties	属性

表二：

列名	字段说明
user_id	用户ID
item_id	物品ID
bhv_type	行为类型
count	物品个数

下面以用户USER访问购物网站TB为例，在购物网站TB中会有很多产品，产品的分类可以为美妆、母婴、食品、视频、歌曲等类目，用户可以对分类下的具体产品进行操作，比如，用户USER可以点击TB页面中电影分类下的“周星驰电影”索引按钮，则用户USER所选择操作的目标对象则为“周星驰电影”产品，“周星驰电影”产品可以采用三个维度(类目、属性、关键词)去表述，上述“周星驰电影”产品的类目为电影，属性为视频，关键词为周星驰电影。

步骤S24，确定用户对应每个维度上的数据集合所包含的检索项的偏好分值。

其中，每个维度上的数据集合包含至少一个检索项。

在上述步骤S24中，在用于表述产品ITEM的三个维度中，每个维度都可以包括多个检索项，上述多个检索项可以是每个维度的多个属性，用户可以对每个维度下的具体的检索项进行操作，然后，本方案可以根据用户对每个检索项的具体操作来确定用户对于每个检索项的偏好分值。

仍旧以用户USER访问购物网站TB为例，用户USER在TB页面所选择的目标对象“周星驰电影”产品的三个维度中，上述“周星驰电影”产品的类目CATEGORY为“电影”，类目CATEGORY“电影”可以包括第一检索项“国内电影”，第二检索项“喜剧电影”等，上述“周星驰电影”产品的属性PROPERTY为“视频”，属性PROPERTY“视频”可以包括第三检索项“高清视频”，第四检索项“标清视频”。需要说明的是，产品的关键词的属性可以为其本身。用户USER可以对上述第一检索项、第二检索项、第三检索项、第四检索项等多个检索项进行任意操作，本方案可以根据用户USER对多个检索项的具体操作行为(例如操作次数)来确定用户对第一检索项、第二检索项、第三检索项、第四检索项等多个检索项的偏好分值。

步骤S26，在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值。

在上述步骤S26中，如果网站的运营商希望通过搜索词来实现人群定向，即网站的运营商希望圈定对搜索词A感兴趣的任意一个或多个用户，即根据搜索词来定位成一组用户，以此进一步进行对该定位的用户组进行相应的数据推送、分析等应用，例如，在将某一词汇作为搜索词来定位不同消费群体的兴趣爱好之后，可以向定位为同一组的用户推送关于上述搜索词有关的广告信息，即一种可选示例中，此处网站的运营商可以直接向服务器输入上述待定位的检索词，也可以向服务器提供一份文本，服务器可以通过分词筛选从该文本中得到待定位的搜索词。

需要说明的是，运营商输入的搜索词也可以用三个维度来描述，每个维度也可以包括多个定位检索项，需要说明的是，描述待定位搜索词的三个维度下每个维度的属性为“定位检索项”，上述访问用户访问的产品的三个维度下每个维度的属性为“检索项”二者不同。本方案在接收到运营商输入的搜索词汇之后，可以通过查询扩展出与上述搜索词相对应的多个定位检索项TERM，上述多个定位检索项TERM可以包含于用于描述搜索词的三个维度中。本方案可以通过预设的算法来获取每个定位检索项TREM对应的每个维度上的权重值。需要说明的是，运营商希望将对搜索词感兴趣的用户进行分组。

仍旧以用户USER访问购物网站TB为例，在网站服务器采集了大量的用户的行为数据之后，购物网站TB的网站运营商可以向网站服务器输入文本TXT，数据处理终端可以对上述文本TXT进行分词筛选处理，生成搜索词“周星驰电影”，在数据处理终端中预存了用于表述“周星驰电影”的三个维度，在每个维度中预存着多个定位检索项TERM，数据处理终端可以查询到与“周星驰电影”有对应关系的多个定位检索项TERM之后，可以通过预设的算法来获取每个定位检索项TERM对应每个维度的权重值。需要说明的是，上述网站服务商输入的TXT文本可以为描述网站相关产品的文本内容，本方案可以对上述文本内容进行分词筛选，从而得到上述搜索词。

步骤S28，根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值。

在上述步骤S28中，本方案可以根据上述步骤S24中得到的每个维度上的数据集合所包含的检索项的偏好分值以及步骤S26中的每个定位检索项对应每个维度上的数据集合的权重值来计算每个用户与搜索词之间的耦合关系所确定的行为权重值，需要说明的是，上述行为权重值可以用于表征每个用户对于网站运营商输入的待定位的搜索词感兴趣的程度。

需要说明的是，在用户访问门户网站时，通过对网站中搜索词的操作(点击、浏览、下载等操作)可以产生用户与搜索词之间的耦合关系，例如，用户对搜索词进行点击操作时，用户的行为与搜索词之间就会产生第一耦合关系，第一耦合关系可以用于表征用户对上述搜索词的感兴趣程度，用户点击的次数越多，第一耦合关系越大，根据第一耦合关系确定的行为权重值就越大，也表明用户对搜索词的感兴趣程度越大。

仍旧以用户USER访问购物网站TB为例，网站服务器的数据处理终端可以根据网站营运商输入的待定位的搜索词“周星驰电影”来查询得到与“周星驰电影”对应的多个定位检索项，然后计算每个定位检索项对于每个所属维度的第一权重值，然后获取用户USER对于TB网站中产品“周星驰电影”的每个检索项的偏好分，然后根据上述第一权重值以及上述偏好分来计算生成用户的对于“周星驰电影”的行为权重值，该行为权重值可以用于表征用户对于“周星驰电影”的感兴趣程度。

步骤S30，根据每个用户与搜索词之间的耦合关系所确定的行为权重值，确定待定位的搜索词所定位的用户组。

在上述步骤S30中，本方案可以根据每个用户与搜索词之间的耦合关系所确定的行为权重值的大小来挑选出符合预定条件的多个用户，然后将上述符合预定条件的多个用户确定为与上述搜索词相关的用户组。优选地，本实施例也可以将上述耦合关系确定的权重值大于0的用户确定为用户组。需要说明的是，在确定出搜索词的用户组之后，运营商可以对上述用户组中的每个用户推送相关的广告信息。

本申请上述实施例一公开的方案中，如果想对产品感兴趣的人群进行定位，首先，本方案可以获取用户行为数据，其中，用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合；然后，确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，其中，每个维度上的数据集合包含至少一个检索项；接着，在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值；接着，根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值；最后，本方案可以根据每个用户与搜索词之间的耦合关系所确定的行为权重值，确定待定位的搜索词所定位的用户组。容易注意到，本方案可以从网站服务器中获取到的用户的行为数据，根据用户的行为数据生成用户针对产品的检索项的偏好分，然后根据运营商输入的搜索词来生成搜索词中每条定位检索项对于所属维度的第一权重值，最后根据上述偏好分和第一权重值来生成用户的行为权重值，通过用户的行为权重值可以直观的看出用户对应检索词的感兴趣程度，进而对用户进行分组，与现有技术相比，本方案对网站服务器产生的文本数据进行了有效的利用，而且，与现有分析结构化数据来定位人群的技术相比，本方案产生的人群定位结果更加准确。由此，本申请提供的上述实施例一的方案解决了单纯的通过结构化数据来实现人群定向，定位结果不够准确的技术问题。

在本申请提供的一种可选实施例中，步骤S24，确定用户对应每个维度上的数据集合所包含的检索项的偏好分值的步骤可以包括：

步骤S241，分别获取关键词集合中包含的至少一个第一检索项、属性信息集合中包含的至少一个第二检索项和分类信息集合中包含的至少一个第三检索项。

步骤S242，分别统计每个维度上的数据集合中检索项的人均访问次数，以及用户访问每个维度上的数据集合中检索项的访问次数。

步骤S243，根据每个维度上的数据集合中检索项的人均访问次数，以及用户访问每个维度上的数据集合中检索项的访问次数，计算得到用户对应每个维度上的数据集合所包含的检索项的偏好分值。

在上述步骤S241至步骤S243中,本方案可以通过获取产品的三个维度中的每个维度中的每个检索项，然后根据用户对每个检索项的访问次数以及每个检索项的人均访问次数来计算用户对于每个维度中的每个检索项的偏好分，然后形成文档(Document)，与搜索引擎类似，每篇文档(Document)可以包括三个域(field)：CATEGORY，PROPERTY,KEYWORD。每个域包含若干检索项(term)，在文档中可以描述用户对于每个检索项的偏好分。由于人群定位(圈人)的结果一般实时性要求不高，数据体量(百万至十亿)也远远小于文本搜索系统(亿到千亿)，所以文档不需要维护倒排索引，技术实现相对文本搜索系统要简单。

在本申请提供的一种可选实施例中，步骤S243，根据每个维度上的数据集合中检索项的人均访问次数，以及用户访问每个维度上的数据集合中检索项的访问次数，计算得到用户对应每个维度上的数据集合所包含的检索项的偏好分值可以通过如下计算公式计算得到用户对应任意一个维度上的数据集合所包含的检索项的偏好分值tf(t,d)：

偏好分

其中，

w_i为在第i个维度上的数据集合中发生访问行为的权重值，N_i为在第i个维度上的数据集合中用户对检索项t执行访问行为后所统计的访问次数；n_i为在第i个维度上的数据集合中检索项t的人均访问次数，检索项t为数据集合中的任意一个检索项，其中，访问行为包括如下任意一种类型：点击、收藏和点评。

在本申请提供的一种可选实施例中，步骤S26，在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值的步骤可包括：

步骤S261，获取待定位的搜索词，并根据搜索词查询得到与搜索词具有对应关系的多个定位检索项。

步骤S262，根据查询得到的多个定位检索项，确定搜索词对应每个维度上的数据集合的维度关系。

步骤S263，根据搜索词对应每个维度上的数据集合的维度关系，计算得到每个定位检索项对应每个维度上的数据集合的权重值。

在上述步骤S261至步骤S263中，本方案可以根据运营商输入的待定位的搜索词还进行查询，以得到与待定位的搜索词对应的多个定位检索项，需要说明的是，上述多个定位检索项存在与用于描述上述待定位的搜索词的三个维度中，本方案可以先确定搜索词对应每个维度上的数据集合的维度关系，然后根据该维度关系计算得到每个定位检索项对应每个维度上的数据集合的权重值。

在本申请提供的一种可选实施例中，在上述步骤S262中，可以通过如下计算公式确定搜索词对应每个维度上的数据集合的维度关系：

其中，

A表示三个维度上的数据集合中包含任意一个搜索词的数据集合，B表示三个维度上的数据集合中包含任意一个定位检索项t的数据集合。

在上述公式中，本方案可以生成搜索词到ITEM的三个维度的关系，当运营商输入搜索词进行人群定向的过程中，本方案通过查询扩展生成搜索词到ITEM的三个维度的关系，即WORD-CATEGORY,WORD-PROPERTY,KEYWORD-KEYWORD，本方案可以使用杰卡德距离算法(Jaccord Distance)，考量搜索词到其他维度在ITEM上的共现关系。

在本申请提供的一种可选实施例中，在上述步骤S263中，本方案可以通过如下计算公式计算得到每个定位检索项对应每个维度上的数据集合的权重值：

其中，r(w,t)为搜索词对应每个维度上的数据集合的维度关系，w为搜索词w与检索项t的相关性，I(w)为搜索词在文本中的词频。

需要说明的是，在上述公式中，权重计算可以简单的使用加权求和，最终得到查询扩展后的标签定义，在本方案中，上述文档中的每一个域都可以赋一个权重值。

在本申请提供的一种可选实施例中，步骤S261中获取待定位的搜索词的步骤包括：

步骤S2611，在接收到查询用户输入的关键词之后，确定输入的关键词为待定位的搜索词。

在上述步骤S2611中，上述查询用户可以为希望实现人群定位的运营商，在运营商输入关键词后，本方案可以直接确定运营商输入的关键词为待定位的搜索词。

步骤S2612，在接收到查询用户输入的文本之后，对文本进行分词处理，分词处理得到的至少一个关键词为待定位的搜索词。

在上述步骤S2612中，如果运营商输入的为一个文本TXT，本方案可以对上述文本TXT进行分词筛选，然后将经过分词处理得到的至少一个关键词为待定位的搜索词。

需要说明的是，上述步骤S2611以及步骤S2612中为两个并列的方案，在本方案中，运营商既可以输入关键词，也可以输入文本。

在本申请提供的一种可选实施例中，步骤S28，根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值的步骤包括：

步骤S281，获取定位检索项在用户行为数据中的IDF值idf(t)。

步骤S282，获取定位检索项在多个文档中的最高权重值coord(q,d)。

步骤S283，同一个文档中查询的搜索词的归一化处理，得到归一化的搜索词分值queryNorm(q,d)。

步骤S284，定位检索项在多个文档的权重值进行归一化处理，得到多个文档的归一分值norm(t.field)。

步骤S285，通过如下计算公式获取每个用户与搜索词之间的耦合关系所确定的行为权重值Score(q,d)。

Score(q,d)＝coord(q,d)*queryNorm(q,d)*∑_t∈qtf(t,d)*idf²(t)*t.boost*norm(t.field)，其中，tf(t,d)为用户对应每个维度上的数据集合所包含的检索项的偏好分值，t.boost为每个定位检索项对应每个维度上的数据集合的权重值，f.boost为每个维度上的数据集合的权重值。

在本申请提供的一种可选实施例中，本方案可以通过如下计算公式计算得到定位检索项在用户行为数据中的IDF值idf(t)：

在本申请提供的一种可选实施例中，本方案可以通过如下计算公式计算得到定位检索项在多个文档中的最高权重值coord(q,d)：

在本申请提供的一种可选实施例中，本方案可以通过如下计算公式计算得到归一化的搜索词分值queryNorm(q,d)：

在本申请提供的一种可选实施例中，本方案可以通过如下计算公式计算得到上述多个文档的归一分值norm(t.field)：

其中，域为访问数据集合中任意一个维度上的数据集合。

需要说明的是，与标准的搜索评分算法不同的是，本方案中使用的算法忽略的文档(Document)的权重d.boost,查询(Query)的整体权重q.boost,而且每个TERM对应的f.boost只有一个，也就是每个TERM对应只有一个域。

下面结合图3至图4介绍本申请的一种可选实施例，本实施例可以包括步骤如下；

步骤A，数据提取抽象模块将用户行为数据导入数据仓库，如ODPS、Hadoop，进行ETL过程，产出合乎数据规范的离线数据。

在上述步骤A中，本实施例需要抽象出两个主体：USER(用户)，表示圈人的主体，最终产出的人群即是整体USER的子集，USER可以有一个TAG的属性，用来描述用户的人口统计特征，如性别，年龄。ITEM(物品)，表示用户发生行为的对象，包括但不限于商品、视频、音乐等。每个ITEM会由三个维度去描述：CATEGORY(类目)，表示ITEM的分类，是一种多对一的关系，即每个ITEM有且只有一个CATEGORY。PROPERTY(属性)，表示ITEM的自有属性，是一个多对多的关系，比如音乐作为ITEM就可以有作曲人、作词人、歌手、风格等多个属性。KEYWORD(关键词)，表示ITEM的描述信息，每个关键词可以带词频或者TFIDF的权重。需要说明的是，三个维度只有KEYWORD是必须的，其他可以不在数据中体现(CATEGORY唯一，PROPERTY为空)。

步骤B，用户文档生成模块将USER对ITEM的行为，分解为UESR对ITEM的三个维度的偏好分，即：UESER-CATEGORY,USER-PROPERTY,USER-KEYWORD。本方案可以采用有目标的监督学习算法(例如LR、SVM)对数据进行统计汇总，再归一化到0-1。所有偏好的汇总生成每个用户自己的偏好文档(Document)，参考图4，与搜索引擎类似，一篇文档(Document)包括三个域(field)：CATEGORY，PROPERTY,KEYWORD。每个域包含若干检索项(term)，描述用户对某个类目，某个词的偏好分。因为圈人的结果一般实时性要求不高，数据体量(百万至十亿)也远远小于文本搜索系统(亿到千亿)，所以文档不需要维护倒排索引，技术实现相对文本搜索系统要简单。

步骤C，关键词相关性计算模块计算搜索词到ITEM的三个维度的关系，当输入关键词进行圈人的过程中，提供查询扩展的功能。计算搜索词到ITEM的三个维度的关系，即WORD-CATEGORY,WORD-PROPERTY,KEYWORD-KEYWORD。

步骤D,标签定义生成模块通过用户提供的文本或者关键词输入，提供文本系统需要先进行分词筛选处理得到关键词，查询扩展出相应的定位检索项(term)。标签定义生成模块根据搜索词到ITEM的三个维度的关系，最终产生每个定位检索项在每个维度上的权重，权重计算可以简单的使用加权求和。最终得到查询扩展后的标签定义，相当于搜索系统中的查询(Query)。

步骤E，打分模块根据Lucened的搜索评分算法来根据每个定位检索项在每个维度上的权重以及UESR对ITEM的三个维度的偏好分生成用户行为权重值，该用户行为权重值可以用于表征用于对ITEM的感兴趣大小。需要说明的是，上述评分算法可以为BM25算法。

综上，本发明提供了一套通用的解决方案，运营商只需提供关键词，即可完成一个特定人群圈定，并且可以提供可解释的人群定义，可以提高产品迭代效率，减少开发成本，从而可以完成更加精准的人群定向，提升了运营商的广告服务效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述用户行为数据的处理方法的用户行为数据的处理装置，如图5所示，该装置可以包括：

第一获取单元50，用于获取用户行为数据，其中，用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合。

上述用户可以为门户网站(比如购物网站)的访问用户USER，上述目标对象可以为门户网站中的产品ITEM，上述产品ITEM可以为商品、视频、音乐等，在访问用户USER对门户网站的产品ITEM进行点击、搜索查询、评论、收藏网页等行为之后，会生成大量的访问数据集合(比如文本数据)，网站服务器可以获取上述用户访问目标对象生成的访问数据集合。需要说明的是，网站服务器获取的每条访问数据集合都可以使用三个维度去描述：类目CATEGORY，即上述分类信息，用于表述产品ITEM的分类，属性PROPERTY，用于表述产品ITEM的自有属性，关键词KEYWORD，用于表述产品ITEM的名称，每个关键词可以带词频或者TFIDF的权重。需要说明的是，在用于描述产品ITEM的三个维度中，每个产品ITEM只能有一个类目CATEGORY，每个产品ITEM可以有多个属性PROPERTY。

第一确定单元52，用于确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，其中，每个维度上的数据集合包含至少一个检索项。

在用于表述产品ITEM的三个维度中，每个维度都可以包括多个检索项，上述多个检索项可以是每个维度的多个属性，用户可以对每个维度下的具体的检索项进行操作，然后，本方案可以根据用户对每个检索项的具体操作来确定用户对于每个检索项的偏好分值。

第二获取单元54，用于在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值。

如果网站的运营商希望通过搜索词来实现人群定向，即网站的运营商希望圈定对搜索词A感兴趣的任意一个或多个用户，即根据搜索词来定位成一组用户，以此进一步进行对该定位的用户组进行相应的数据推送、分析等应用，例如，在将某一词汇作为搜索词来定位不同消费群体的兴趣爱好之后，可以向定位为同一组的用户推送关于上述搜索词有关的广告信息，即一种可选示例中，此处网站的运营商可以直接向服务器输入上述待定位的检索词，也可以向服务器提供一份文本，服务器可以通过分词筛选从该文本中得到待定位的搜索词。

第三获取单元56，根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值。

在用户访问门户网站时，通过对网站中搜索词的操作(点击、浏览、下载等操作)可以产生用户与搜索词之间的耦合关系，例如，用户对搜索词进行点击操作时，用户的行为与搜索词之间就会产生第一耦合关系，第一耦合关系可以用于表征用户对上述搜索词的感兴趣程度，用户点击的次数越多，第一耦合关系越大，根据第一耦合关系确定的行为权重值就越大，也表明用户对搜索词的感兴趣程度越大。

第二确定单元58，根据每个用户与搜索词之间的耦合关系所确定的行为权重值，确定待定位的搜索词所定位的用户组。

本方案可以根据每个用户与搜索词之间的耦合关系所确定的行为权重值的大小来挑选出符合预定条件的多个用户，然后将上述符合预定条件的多个用户确定为与上述搜索词相关的用户组。优选地，本实施例也可以将上述耦合关系确定的权重值大于0的用户确定为用户组。需要说明的是，在确定出搜索词的用户组之后，运营商可以对上述用户组中的每个用户推送相关的广告信息。

本申请上述实施例二公开的方案中，如果想对产品感兴趣的人群进行定位，首先，本方案可以获取用户行为数据，其中，用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合；然后，确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，其中，每个维度上的数据集合包含至少一个检索项；接着，在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值；接着，根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值；最后，本方案可以根据每个用户与搜索词之间的耦合关系所确定的行为权重值，确定待定位的搜索词所定位的用户组。容易注意到，本方案可以从网站服务器中获取到的用户的行为数据，根据用户的行为数据生成用户针对产品的检索项的偏好分，然后根据运营商输入的搜索词来生成搜索词中每条定位检索项对于所属维度的第一权重值，最后根据上述偏好分和第一权重值来生成用户的行为权重值，通过用户的行为权重值可以直观的看出用户对应检索词的感兴趣程度，进而对用户进行分组，与现有技术相比，本方案对网站服务器产生的文本数据进行了有效的利用，而且，与现有分析结构化数据来定位人群的技术相比，本方案产生的人群定位结果更加准确。由此，本申请提供的上述实施例二的方案解决了单纯的通过结构化数据来实现人群定向，定位结果不够准确的技术问题。

在本申请提供的一种可选实施例中，如图6所示，第一确定单元52包括：第一获取模块521，用于分别获取关键词集合中包含的至少一个第一检索项、属性信息集合中包含的至少一个第二检索项和分类信息集合中包含的至少一个第三检索项；统计模块523，用于分别统计每个维度上的数据集合中检索项的人均访问次数，以及用户访问每个维度上的数据集合中检索项的访问次数；第一计算模块524，用于根据每个维度上的数据集合中检索项的人均访问次数，以及用户访问每个维度上的数据集合中检索项的访问次数，计算得到用户对应每个维度上的数据集合所包含的检索项的偏好分值。

在本申请提供的一种可选实施例中，第一计算模块524包括：子计算模块，用于通过如下计算公式计算得到用户对应任意一个维度上的数据集合所包含的检索项的偏好分值tf(t,d)：偏好分

其中，w_i为在第i个维度上的数据集合中发生访问行为的权重值，N_i为在第i个维度上的数据集合中用户对检索项t执行访问行为后所统计的访问次数；n_i为在第i个维度上的数据集合中检索项t的人均访问次数，检索项t为数据集合中的任意一个检索项，其中，访问行为包括如下任意一种类型：点击、收藏和点评。

在本申请提供的一种可选实施例中，如图7所示，第二获取单元54包括：第二获取模块541，用于获取待定位的搜索词，并根据搜索词查询得到与搜索词具有对应关系的多个定位检索项；第一确定模块542，用于根据查询得到的多个定位检索项，确定搜索词对应每个维度上的数据集合的维度关系；第二计算模块543，用于根据搜索词对应每个维度上的数据集合的维度关系，计算得到每个定位检索项对应每个维度上的数据集合的权重值。

在本申请提供的一种可选实施例中，上述装置还包括：第一计算单元，用于通过如下计算公式确定搜索词对应每个维度上的数据集合的维度关系：

其中，A表示三个维度上的数据集合中包含任意一个搜索词的数据集合，B表示三个维度上的数据集合中包含任意一个定位检索项t的数据集合。

在本申请提供的一种可选实施例中，上述装置还包括：第二计算单元，用于通过如下计算公式计算得到每个定位检索项对应每个维度上的数据集合的权重值：

在本申请提供的一种可选实施例中，第二获取模块541包括：第二确定模块，用于在接收到查询用户输入的关键词之后，确定输入的关键词为待定位的搜索词；或者，第一处理模块，用于在接收到查询用户输入的文本之后，对文本进行分词处理，分词处理得到的至少一个关键词为待定位的搜索词。

在本申请提供的一种可选实施例中，如图8所示，第二确定单元58包括：第三获取模块581，用于获取定位检索项在用户行为数据中的IDF值idf(t)；第四获取模块582，用于获取定位检索项在多个文档中的最高权重值coord(q,d)；第二处理模块583，将同一个文档中查询的搜索词的归一化处理，得到归一化的搜索词分值queryNorm(q,d)；第三处理模块584，定位检索项在多个文档的权重值进行归一化处理，得到多个文档的归一分值norm(t.field)；第三计算模块585，用于通过如下计算公式获取每个用户与搜索词之间的耦合关系所确定的行为权重值Score(q,d)：Score(q,d)＝coord(q,d)*queryNorm(q,d)*∑_t∈qtf(t,d)*idf²(t)*t.boost*norm(t.field)，其中，tf(t,d)为用户对应每个维度上的数据集合所包含的检索项的偏好分值，t.boost为每个定位检索项对应每个维度上的数据集合的权重值，f.boost为每个维度上的数据集合的权重值。

在本申请提供的一种可选实施例中，上述装置还包括：第三计算单元，用于通过如下计算公式计算得到定位检索项在用户行为数据中的IDF值idf(t)：

在本申请提供的一种可选实施例中，上述装置还包括：第四计算单元，用于通过如下计算公式计算得到定位检索项在多个文档中的最高权重值coord(q,d)：

在本申请提供的一种可选实施例中，上述装置还包括：第五计算单元，用于通过如下计算公式计算得到归一化的搜索词分值queryNorm(q,d)：

在本申请提供的一种可选实施例中，上述装置还包括：第六计算单元，用于通过如下计算公式计算得到多个文档的归一分值norm(t.field)：

其中，域为访问数据集合中任意一个维度上的数据集合。

实施例3

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的漏洞检测方法中以下步骤的程序代码：获取用户行为数据，其中，用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合；确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，其中，每个维度上的数据集合包含至少一个检索项；在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值；根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值；根据每个用户与搜索词之间的耦合关系所确定的行为权重值，确定待定位的搜索词所定位的用户组。

可选地，图9是根据本发明实施例的一种计算机终端的结构框图。如图9所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器、存储器。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的安全漏洞检测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的系统漏洞攻击的检测方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输模块调用存储器存储的信息及应用程序，以执行下述步骤：获取用户行为数据，其中，用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合；确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，其中，每个维度上的数据集合包含至少一个检索项；在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值；根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值；根据每个用户与搜索词之间的耦合关系所确定的行为权重值，确定待定位的搜索词所定位的用户组。

可选的，上述处理器还可以执行如下步骤的程序代码：分别获取关键词集合中包含的至少一个第一检索项、属性信息集合中包含的至少一个第二检索项和分类信息集合中包含的至少一个第三检索项；分别统计每个维度上的数据集合中检索项的人均访问次数，以及用户访问每个维度上的数据集合中检索项的访问次数；根据每个维度上的数据集合中检索项的人均访问次数，以及用户访问每个维度上的数据集合中检索项的访问次数，计算得到用户对应每个维度上的数据集合所包含的检索项的偏好分值。

可选的，上述处理器还可以执行如下步骤的程序代码：通过如下计算公式计算得到用户对应任意一个维度上的数据集合所包含的检索项的偏好分值tf(t,d)：偏好分

可选的，上述处理器还可以执行如下步骤的程序代码：获取待定位的搜索词，并根据搜索词查询得到与搜索词具有对应关系的多个定位检索项；根据查询得到的多个定位检索项，确定搜索词对应每个维度上的数据集合的维度关系；根据搜索词对应每个维度上的数据集合的维度关系，计算得到每个定位检索项对应每个维度上的数据集合的权重值。

可选的，上述处理器还可以执行如下步骤的程序代码：

可选的，上述处理器还可以执行如下步骤的程序代码：在接收到查询用户输入的关键词之后，确定输入的关键词为待定位的搜索词；或者，在接收到查询用户输入的文本之后，对文本进行分词处理，分词处理得到的至少一个关键词为待定位的搜索词。

可选的，上述处理器还可以执行如下步骤的程序代码：获取定位检索项在用户行为数据中的IDF值idf(t)；获取定位检索项在多个文档中的最高权重值coord(q,d)；将同一个文档中查询的搜索词的归一化处理，得到归一化的搜索词分值queryNorm(q,d)；定位检索项在多个文档的权重值进行归一化处理，得到多个文档的归一分值norm(t.field)；通过如下计算公式获取每个用户与搜索词之间的耦合关系所确定的行为权重值Score(q,d)：Score(q,d)＝coord(q,d)*queryNorm(q,d)*∑_t∈qtf(t,d)*idf²(t)*t.boost*norm(t.field)，其中，tf(t,d)为用户对应每个维度上的数据集合所包含的检索项的偏好分值，t.boost为每个定位检索项对应每个维度上的数据集合的权重值，f.boost为每个维度上的数据集合的权重值。

可选的，上述处理器还可以执行如下步骤的程序代码：通过如下计算公式计算得到定位检索项在用户行为数据中的IDF值idf(t)：

可选的，上述处理器还可以执行如下步骤的程序代码：通过如下计算公式计算得到定位检索项在多个文档中的最高权重值coord(q,d)：

可选的，上述处理器还可以执行如下步骤的程序代码：通过如下计算公式计算得到归一化的搜索词分值queryNorm(q,d)：

可选的，上述处理器还可以执行如下步骤的程序代码：通过如下计算公式计算得到多个文档的归一分值norm(t.field)：

其中，域为访问数据集合中任意一个维度上的数据集合。

采用本发明实施例，提供了一种用户行为数据的处理方法。通过获取用户行为数据，其中，用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合；确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，其中，每个维度上的数据集合包含至少一个检索项；在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值；根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值；根据每个用户与搜索词之间的耦合关系所确定的行为权重值，确定待定位的搜索词所定位的用户组，解决了单纯的通过结构化数据来实现人群定向，定位结果不够准确的技术问题。

本领域普通技术人员可以理解，本申请附图中所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图1其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图1所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的用户行为数据的处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取用户行为数据，其中，用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合；确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，其中，每个维度上的数据集合包含至少一个检索项；在获取待定位的搜索词之后，根据搜索词查询得到与搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值；根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值；根据每个用户与搜索词之间的耦合关系所确定的行为权重值，确定待定位的搜索词所定位的用户组。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

一种用户行为数据的处理方法，其特征在于，包括：

获取用户行为数据，其中，所述用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，所述访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合；

确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，其中，每个维度上的数据集合包含至少一个检索项；

在获取待定位的搜索词之后，根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值；

根据在所述每个维度上的数据集合所包含的检索项的偏好分值和获取所述每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与所述搜索词之间的耦合关系所确定的行为权重值；

根据所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值，确定所述待定位的搜索词所定位的用户组。
根据权利要求1所述的方法，其特征在于，确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，包括：

分别获取所述关键词集合中包含的至少一个第一检索项、所述属性信息集合中包含的至少一个第二检索项和所述分类信息集合中包含的至少一个第三检索项；

分别统计每个维度上的数据集合中检索项的人均访问次数，以及所述用户访问所述每个维度上的数据集合中检索项的访问次数；

根据所述每个维度上的数据集合中检索项的人均访问次数，以及所述用户访问所述每个维度上的数据集合中检索项的访问次数，计算得到所述用户对应每个维度上的数据集合所包含的检索项的偏好分值。
根据权利要求2所述的方法，其特征在于，根据所述每个维度上的数据集合中检索项的人均访问次数，以及所述用户访问所述每个维度上的数据集合中检索项的访问次数，计算得到所述用户对应每个维度上的数据集合所包含的检索项的偏好分值：

通过如下计算公式计算得到所述用户对应任意一个维度上的数据集合所包含的检索项的偏好分值tf(t,d)：

偏好分
其中，

w_i为在第i个维度上的数据集合中发生访问行为的权重值，N_i为在第i个维度上的数据集合中所述用户对检索项t执行所述访问行为后所统计的访问次数；n_i为在第i个维度上的数据集合中检索项t的人均访问次数，检索项t为数据集合中的任意一个检索项，其中，所述访问行为包括如下任意一种类型：点击、收藏和点评。
根据权利要求3所述的方法，其特征在于，在获取待定位的搜索词之后，根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项，并获取所述每个定位检索项对应每个维度上的数据集合的权重值，包括：

获取所述待定位的搜索词，并根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项；

根据查询得到的所述多个定位检索项，确定所述搜索词对应所述每个维度上的数据集合的维度关系；

根据所述搜索词对应所述每个维度上的数据集合的维度关系，计算得到所述每个定位检索项对应每个维度上的数据集合的权重值。
根据权利要求4所述的方法，其特征在于，通过如下计算公式确定所述搜索词对应所述每个维度上的数据集合的维度关系：

其中，

A表示三个维度上的数据集合中包含任意一个所述搜索词的数据集合，B表示三个维度上的数据集合中包含任意一个定位检索项t的数据集合，w为所述搜索词w与检索项t的相关性。
根据权利要求5所述的方法，其特征在于，通过如下计算公式计算得到所述每个定位检索项对应每个维度上的数据集合的权重值：

其中，

所述r(w,t)为所述搜索词对应所述每个维度上的数据集合的维度关系，w为所述搜索词w与检索项t的相关性，I(w)为所述搜索词在文本中的词频。
根据权利要求6所述的方法，其特征在于，获取所述待定位的搜索词的步骤包括：

在接收到查询用户输入的关键词之后，确定所述输入的关键词为所述待定位的搜索词；或者，

在接收到所述查询用户输入的文本之后，对所述文本进行分词处理，所述分词处理得到的至少一个关键词为所述待定位的搜索词。
根据权利要求7所述的方法，其特征在于，在所述定位检索项为多个文档中分词根据所述每个维度上的数据集合所包含的检索项的偏好分值和所述每个定位检索项对应每个维度上的数据集合的权重值，计算得到所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值，包括：

获取所述定位检索项在所述用户行为数据中的IDF值idf(t)；

获取所述定位检索项在多个文档中的最高权重值coord(q,d)；

将同一个文档中查询的所述搜索词的归一化处理，得到归一化的搜索词分值queryNorm(q,d)；

所述定位检索项在所述多个文档的权重值进行归一化处理，得到多个文档的归一分值norm(t.field)；

通过如下计算公式获取所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值Score(q,d)：

Score(q,d)＝coord(q,d)*queryNorm(q,d)*∑_t∈qtf(t,d)*idf²(t)*t.boost*norm(t.field)，其中，tf(t,d)为所述用户对应每个维度上的数据集合所包含的检索项的偏好分值，t.boost为所述每个定位检索项对应每个维度上的数据集合的权重值。
根据权利要求8所述的方法，其特征在于，通过如下计算公式计算得到所述定位检索项在所述用户行为数据中的IDF值idf(t)：
根据权利要求8所述的方法，其特征在于，通过如下计算公式计算得到所述定位检索项在多个文档中的最高权重值coord(q,d)：
根据权利要求8所述的方法，其特征在于，通过如下计算公式计算得到归一化的搜索词分值queryNorm(q,d)：
根据权利要求8所述的方法，其特征在于，通过如下计算公式计算得到多个文档的归一分值norm(t.field)：

其中，所述域为所述访问数据集合中任意一个维度上的数据集合，f.boost为每个维度上的数据集合的权重值。
一种用户行为数据的处理装置，其特征在于，包括：

第一获取单元，用于获取用户行为数据，其中，所述用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合，所述访问数据集合至少包括如下三个维度上的数据集合：关键词集合、属性信息集合和分类信息集合；

第一确定单元，用于确定用户对应每个维度上的数据集合所包含的检索项的偏好分值，其中，每个维度上的数据集合包含至少一个检索项；

第二获取单元，用于在获取待定位的搜索词之后，根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项，并获取每个定位检索项对应每个维度上的数据集合的权重值；

第三获取单元，根据所述每个维度上的数据集合所包含的检索项的偏好分值和获取所述每个定位检索项对应每个维度上的数据集合的权重值，计算得到每个用户与所述搜索词之间的耦合关系所确定的行为权重值；

第二确定单元，根据所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值，确定所述待定位的搜索词所定位的用户组。
根据权利要求13所述的装置，其特征在于，所述第一确定单元包括：

第一获取模块，用于分别获取所述关键词集合中包含的至少一个第一检索项、所述属性信息集合中包含的至少一个第二检索项和所述分类信息集合中包含的至少一个第三检索项；

统计模块，用于分别统计每个维度上的数据集合中检索项的人均访问次数，以及所述用户访问所述每个维度上的数据集合中检索项的访问次数；

第一计算模块，用于根据所述每个维度上的数据集合中检索项的人均访问次数，以及所述用户访问所述每个维度上的数据集合中检索项的访问次数，计算得到所述用户对应每个维度上的数据集合所包含的检索项的偏好分值。
根据权利要求14所述的装置，其特征在于，所述第一计算模块包括：

子计算模块，用于通过如下计算公式计算得到所述用户对应任意一个维度上的数据集合所包含的检索项的偏好分值tf(t,d)：

偏好分
其中，

w_i为在第i个维度上的数据集合中发生访问行为的权重值，N_i为在第i个维度上的数据集合中所述用户对检索项t执行所述访问行为后所统计的访问次数；n_i为在第i个维度上的数据集合中检索项t的人均访问次数，检索项t为数据集合中的任意一个检索项，其中，所述访问行为包括如下任意一种类型：点击、收藏和点评。
根据权利要求15所述的装置，其特征在于，所述第二获取单元包括：

第二获取模块，用于获取所述待定位的搜索词，并根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项；

第一确定模块，用于根据查询得到的所述多个定位检索项，确定所述搜索词对应所述每个维度上的数据集合的维度关系；

第二计算模块，用于根据所述搜索词对应所述每个维度上的数据集合的维度关系，计算得到所述每个定位检索项对应每个维度上的数据集合的权重值。
根据权利要求16所述的装置，其特征在于，所述装置还包括：

第一计算单元，用于通过如下计算公式确定所述搜索词对应所述每个维度上的数据集合的维度关系：

其中，

A表示三个维度上的数据集合中包含任意一个所述搜索词的数据集合，B表示三个维度上的数据集合中包含任意一个定位检索项t的数据集合，w为所述搜索词w与检索项t的相关性。
根据权利要求17所述的装置，其特征在于，所述装置还包括：

第二计算单元，用于通过如下计算公式计算得到所述每个定位检索项对应每个维度上的数据集合的权重值：

其中，

所述r(w,t)为所述搜索词对应所述每个维度上的数据集合的维度关系，w为所述搜索词w与检索项t的相关性，I(w)为所述搜索词在文本中的词频。
根据权利要求18所述的装置，其特征在于，所述第二获取模块包括：

第二确定模块，用于在接收到查询用户输入的关键词之后，确定所述输入的关键词为所述待定位的搜索词；或者，

第一处理模块，用于在接收到所述查询用户输入的文本之后，对所述文本进行分词处理，所述分词处理得到的至少一个关键词为所述待定位的搜索词。
根据权利要求19所述的装置，其特征在于，所述第二确定单元包括：

第三获取模块，用于获取所述定位检索项在所述用户行为数据中的IDF值idf(t)；

第四获取模块，用于获取所述定位检索项在多个文档中的最高权重值coord(q,d)；

第二处理模块，将同一个文档中查询的所述搜索词的归一化处理，得到归一化的搜索词分值queryNorm(q,d)；

第三处理模块，所述定位检索项在所述多个文档的权重值进行归一化处理，得到多个文档的归一分值norm(t.field)；

第三计算模块，用于通过如下计算公式获取所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值Score(q,d)：

Score(q,d)＝coord(q,d)*queryNorm(q,d)*∑_t∈qtf(t,d)*idf²(t)*t.boost*norm(t.field)，其中，tf(t,d)为所述用户对应每个维度上的数据集合所包含的检索项的偏好分值，t.boost为所述每个定位检索项对应每个维度上的数据集合的权重值。
根据权利要求20所述的装置，其特征在于，所述装置还包括：

第三计算单元，用于通过如下计算公式计算得到所述定位检索项在所述用户行为数据中的IDF值idf(t)：
根据权利要求20所述的装置，其特征在于，所述装置还包括：

第四计算单元，用于通过如下计算公式计算得到所述定位检索项在多个文档中的最高权重值coord(q,d)：
根据权利要求20所述的装置，其特征在于，所述装置还包括：

第五计算单元，通过如下计算公式计算得到归一化的搜索词分值queryNorm(q,d)：
根据权利要求20所述的装置，其特征在于，所述装置还包括：

第六计算单元，通过如下计算公式计算得到多个文档的归一分值norm(t.field)：

其中，所述域为所述访问数据集合中任意一个维度上的数据集合，f.boost为每个维度上的数据集合的权重值。