WO2018053966A1 - 点击率预估 - Google Patents

点击率预估 Download PDF

Info

Publication number
WO2018053966A1
WO2018053966A1 PCT/CN2016/112949 CN2016112949W WO2018053966A1 WO 2018053966 A1 WO2018053966 A1 WO 2018053966A1 CN 2016112949 W CN2016112949 W CN 2016112949W WO 2018053966 A1 WO2018053966 A1 WO 2018053966A1
Authority
WO
WIPO (PCT)
Prior art keywords
similarity
exposure
exposure log
page element
weight
Prior art date
Application number
PCT/CN2016/112949
Other languages
English (en)
French (fr)
Inventor
林玲钦
Original Assignee
北京三快在线科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京三快在线科技有限公司 filed Critical 北京三快在线科技有限公司
Priority to CA3070612A priority Critical patent/CA3070612A1/en
Priority to US16/335,928 priority patent/US20190311395A1/en
Publication of WO2018053966A1 publication Critical patent/WO2018053966A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0247Calculate past, present or future revenues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0254Targeted advertisements based on statistics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

一种点击率预估方法。根据该点击率预估方法,可根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息(100);基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应的曝光日志的曝光权重(110);根据设置有曝光权重的曝光日志进行点击率预估(120)。

Description

点击率预估
相关申请的交叉引用
本专利申请要求于2016年9月23日提交的、申请号为201610848973.X、发明名称为“一种点击率预估方法、装置及电子设备”的中国专利申请的优先权,该申请的全文以引用的方式并入本文中。
技术领域
本公开涉及一种点击率预估方法、装置及电子设备。
背景技术
随着互联网和大数据技术的发展,越来越多的用户可通过互联网获取信息,例如,用户在网站页面或应用页面上浏览信息、用户输入关键词进行搜索,或者用户通过设置搜索条件筛选搜索结果的范围等。无论哪种获取信息的应用,后台服务器在接收到搜索请求或接收到用户打开某一页面的请求后,首先可根据搜索关键词或者页面的预设排序规则进行第一轮简单排序,召回符合条件的TopK个待展示的页面元素,如搜索结果、推送的信息;然后,后台服务器可做第二轮复杂排序,例如,可预估每个待展示结果的点击率,按预估的点击率降序排序,用于输出展示的页面元素的队列。预估的点击率对返回的页面元素的准确性起着重要作用。
可将展现给用户的页面元素记录为曝光日志,将用户对展现的页面元素的点击行为记录为点击日志,每条日志对应一个页面元素,根据点击日志和曝光日志进行点击率预估时,如通过训练点击率预估模型进行点击率预估时,输入的数据可包含日志是否被点击的点击标签和日志的特征数据。
发明内容
根据本公开的示例,提供了一种点击率预估方法,包括:
根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息;
基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权 重;
根据设置有曝光权重的曝光日志,进行点击率预估。
相应的,本公开示例还提供了一种点击率预估装置,包括:
日志处理模块,用于根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息;
曝光权重设置模块,用于基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;
点击率预估模块,用于根据设置有曝光权重的曝光日志,进行点击率预估。
相应的,本公开示例还提供了一种电子设备,包括非易失性存储介质、处理器及存储在所述非易失性存储介质上并可在处理器上运行的机器可执行指令,所述处理器执行所述机器可执行指令时实现本公开示例中所述的点击率预估方法。
相应的,本公开示例还提供了一种非易失性存储介质,其上存储有指令,所述指令被处理器执行时实现本公开示例中所述方法的步骤。
本公开示例公开的点击率预估方法,可通过根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息;基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;根据设置有曝光权重的曝光日志,进行点击率预估。该点击率预估方法考虑到相邻页面元素对曝光效果的影响,通过基于所述曝光日志的点击标签和页面元素的上下文相似度,设置该条曝光日志的曝光权重,然后在预估点击率计算时引入曝光权重,使得预估的点击率更加准确。
附图说明
为了更清楚地说明本公开示例的技术方案,下面将对示例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些示例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开示例一的点击率预估方法流程图。
图2是本公开示例二的点击率预估方法流程图。
图3A是本公开示例三的点击率预估装置的硬件结构示意图。
图3B是本公开示例三的点击率预估装置的逻辑结构示意图。
图4是本公开示例四的点击率预估装置的逻辑结构示意图。
具体实施方式
下面将结合本公开示例中的附图,对本公开示例中的技术方案进行清楚、完整地描述,显然,所描述的示例是本公开一部分示例,而不是全部的示例。基于本公开中的示例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他示例,都属于本公开保护的范围。
根据背景技术中的介绍,在进行点击率预估时,没有考虑不同上下文环境下页面元素曝光有效性的差异,而未考虑曝光有效性的曝光日志并不能反映页面元素的真实点击概率,从而导致在预估点击率时准确度低下。
本公开示例中的页面元素为网站页面或应用程序页面上展示的可以点击的元素,如搜索结果、推送的信息等。本公开示例中公开的点击率预估方法,适用于在用户输入关键词后,服务器根据用户输入的关键词进行搜索,然后对搜索结果进行排序过程中的点击率进行预估;也适用于根据用户输入的筛选条件在已有的搜索结果中选择符合筛选条件的搜索结果时对搜索结果的点击率进行预估;还适用于网站页面或应用程序页面推送的信息的点击率进行预估。例如,为了获取附近的美食商家信息,用户可以选择在美团上输入“美食”作为关键字进行搜索;同时,用户也可以选择美团主页上的美食频道,符合条件的美食商家将以列表的形式展示在美食频道里。在对已经初步排序的搜索结果进行筛选时,用户不需要输入检索词,而是通过选择某个频道,来设定特定筛选条件以限定召回的搜索结果的范围。
本公开的示例以根据用户输入的关键词进行搜索时对搜索结果的点击率进行预估为例,对点击率预估方法进行详细说明。
示例一
根据本公开的一种点击率预估方法,如图1所示,该方法包括:步骤100至步骤120。
步骤100,可根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息。
本示例中以页面元素为搜索结果为例,详细说明点击率预估的方案。
服务器在接受用户输入的关键词或者筛选条件后进行搜索时,可记录搜索结果,并将展现给用户的搜索结果记录为曝光日志,将对展现给用户的搜索结果中的点击行为记录为点击 日志。每一条展现给用户的搜索结果可记录为一条曝光日志,用户对于每一条展现给用户的搜索结果的点击行为可被记录为一条点击日志。为了便于日志的管理和数据分析,曝光日志可包括:搜索结果的全局标识、物料标识以及展现位次;点击日志至少可包括:搜索结果的全局标识、物料标识。其中,搜索结果的全局标识作为一次搜索行为的唯一标识,通过全局标识就可以在曝光日志中找出同一次搜索请求的各个曝光记录,以及在曝光日志中找到点击日志中的搜索结果。
根据点击日志为每一条曝光日志设置点击标签可包括:获取曝光日志和点击日志;根据所述曝光日志和点击日志中的全局标识和物料标识,确定被点击的曝光日志;分别对所述被点击的曝光日志和未被点击的曝光日志设置不同的点击标签。然后,可根据设置有点击标签的曝光日志进行点击率预估。曝光日志和点击日志都可包含某一次搜索的全局标识,以及该次搜索下每个搜索结果的物料标识。具体实施时,可以从曝光日志里提取出全局标识和物料标识的组合作为关键值,然后在点击日志里进行遍历,与每条点击日志的全局标识和物料标识的组合进行匹配,确定该条曝光日志是否有用户点击行为。若匹配成功,则表示该条曝光日志被用户点击,设置该条曝光日志的点击标签,例如,将点击标签的值设置为1;若匹配失败,及没有找到对全局标识所标识的搜索结果中物料标识对应的一条搜索结果的点击日志,则表示该条曝光日志没有被用户点击,设置该条曝光日志的点击标签,例如,将点击标签的值设置为0。最后,将设置了点击标签的曝光日志作为点击率预估的参考数据。
步骤110,可基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重。
在曝光的搜索结果列表里,影响某个搜索结果有效曝光值的因素,主要为该搜索结果和其上下文搜索结果的相似度。某一搜索结果的上下文搜索结果为与其直接和间接相邻的搜索结果。该搜索结果和与其直接和间接相邻的搜索结果的相似度越大,说明该搜索结果和与其直接和间接相邻的搜索结果越相像,越容易影响用户对该搜索结果的选择,该搜索结果的有效曝光值就越低。因此,根据搜索结果的相似度设置搜索结果的曝光权重,可以提高搜索结果的展现准确率,进一步提高点击率。
相似度(Similarity)的定义方法并不唯一,不同搜索业务场景下也会有差异。同时相似度的计算方法也很多,常见有计算两者欧氏距离,Pearson相似度等。计算所述曝光日志记录的搜索结果的上下文相似度的方法可根据实际业务需求进行定义,例如,可以计算所述曝光日志记录的搜索结果与其的上下文搜索结果的某个或某些文本特性之间的欧式距离。可通过所述曝光日志中搜索结果的上下文相似度计算某一搜索结果的相似度影响值,然后,再根据 所述相似度影响值和点击标签设置所述曝光日志的曝光权重。其中,所述相似度影响值用于表示所述曝光日志记录的搜索结果受满足预设条件的上下文搜索结果的影响程度。
在根据所述相似度影响值和点击标签设置所述曝光日志的曝光权重时:若所述曝光日志的点击标签指示该曝光日志记录的搜索结果被用户点击过,则可设置所述曝光日志的曝光权重为较高的曝光权重;若所述曝光日志的点击标签指示该曝光日志记录的搜索结果未被用户点击过,则可设置所述曝光日志的曝光权重为较低的曝光权重。设置的曝光权重的值与该曝光日志记录的搜索结果之间的相似度有关。
步骤120,可根据设置有曝光权重的曝光日志进行点击率预估。
所述曝光日志可包括点击标签为1的曝光日志(即记录被用户点击的搜索结果的日志),还可包括点击标签为0的曝光日志(即没有被用户点击的搜索结果的日志)。根据设置有曝光权重的曝光日志进行点击率预估时,可以采用多种方式。例如:可通过计算有效点击次数比例,或通过训练点击率预估模型。
计算有效曝光次数比例可以为:根据搜索结果的曝光日志中的点击标签确定搜索结果的被点击次数X和未被点击次数Y,根据曝光日志记录的搜索结果的曝光权重计算搜索结果的有效曝光次数Z,Z=a*X+b*Y,其中,a为被点击的曝光日志的曝光权重,b为未被点击的曝光日志的曝光权重。
训练点击率预估模型时,根据每一条所述曝光日志的曝光权重、从所述曝光日志中提取的数据特征,分别生成一条训练数据,可包括:对于每一条所述曝光日志,将该条曝光日志的点击标签和曝光权重,结合从该条曝光日志中提取的数据特征,生成该条曝光日志对应的训练数据。根据每一条所述曝光日志的点击标签和曝光权重、从所述曝光日志中提取的数据特征,分别生成一条训练数据,可以生成多条训练数据,并得到由多条训练数据组成的训练点击率预估模型的训练数据集。然后,可基于所述多条训练数据,训练点击率预估模型。并可利用训练得到的点击率预估模型预估搜索结果的点击率。
本公开示例公开的点击率预估方法,可通过根据点击日志为曝光日志设置点击标签,其中,曝光日志记录展现给用户的页面元素的信息;基于所述曝光日志的点击标签和页面元素的上下文相似度,设置对应曝光日志的曝光权重;最后,根据设置有曝光权重的曝光日志进行点击率预估。根据该点击率预估方法,考虑到相邻搜索结果对曝光效果的影响,通过基于所述曝光日志的点击标签和记录的页面元素的上下文相似度,设置该条曝光日志的曝光权重,然后引入曝光权重进行点击率预估,使得预估的点击率更加准确。
示例二
根据本公开的一种点击率预估方法,如图2所示,该方法可包括:步骤200至步骤250。
本示例中以页面元素为搜索结果为例,详细说明点击率预估的方案。
步骤200,可根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息。
根据点击日志为曝光日志设置点击标签,其中,曝光日志记录展现给用户的页面元素的信息的实施方式可参见示例一的相关步骤,此处不再赘述。
步骤210,可确定所述曝光日志的相似度影响值。
所述相似度影响值用于表示所述曝光日志记录的页面元素受满足预设条件的上下文页面元素的影响程度。
在曝光的搜索结果列表里,影响某个搜索结果有效曝光值的因素,主要为该搜索结果和其上下文搜索结果的相似度,即该搜索结果和与其直接和间接相邻的搜索结果的相似度。该搜索结果和与其直接和间接相邻的搜索结果的相似度越大,说明该搜索结果和与其直接和间接相邻的搜索结果越相像,越容易影响用户对该搜索结果的选择,该搜索结果的有效曝光值就越低。因此,根据搜索结果的相似度设置搜索结果的曝光权重,可以提高搜索结果的展现准确率,进一步提高点击率。
在一个示例中,所述确定所述曝光日志的相似度影响值可包括子步骤S1、S2和S3。
子步骤S1,可分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度。
确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度,可包括子步骤S11至S14。
子步骤S11,可分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素的预设维度属性值。
所述满足预设条件的上下文页面元素为:与所述曝光日志记录的页面元素的展现位次之差小于预设位次的页面元素;或,与所述曝光日志记录的页面元素的展现位次之差小于预设位次且与所述曝光日志记录的页面元素具有相同品类属性的页面元素。所述满足预设条件可包括:两个搜索结果的展现位次之间的距离小于预设位次值。根据点击率预估方法应用的业务场景不同,所述满足预设条件还可以包括其他预设条件,如:当搜索返回的搜索结果是商 家列表时,可将商家的品类作为一个预设条件,只有当两个商家属于同一个的品类时,才计算商家之间的相似度。即,所述满足预设条件可包括:两个搜索结果具有相同品类属性,且两个搜索结果的展现位次之间的距离小于预设位次值。其中,预设位次值可以为1或2。
以某次搜索结果分别为A、B、C、D、E、F,展现位次依次为1、2、3、4、5、6为例,说明确定满足预设条件的上下文搜索结果的过程。若预设位次值等于1,则A的满足预设条件的上下文搜索结果为B;B的满足预设条件的上下文搜索结果为A和C。若预设位次值等于2,则A的满足预设条件的上下文搜索结果为B和C;B的满足预设条件的上下文搜索结果为A、C和D。若以S表示两个搜索结果的相似度,若预设位次值等于2,则计算结果A受相邻结果相似度影响时,只需计算Sab(A与B的相似度)和Sac(A与C的相似度);计算结果B受相邻结果相似度影响时,只需计算Sab(A与B的相似度)、Sbc(B与C的相似度)和Sbd(B与D的相似度)。在移动终端的搜索场景下,同频幕展现的搜索结果个数比较有限,因此可以在展现位次上设置比较小的预设位次值;而在PC端搜索场景下,同屏幕展现的搜索结果个数比较多,在展现位次上设置比较大的预设位次值,如3。
相似度的定义方法并不唯一,不同搜索业务场景下也会有差异。同时相似度的计算方法也很多,例如通过计算两组特征的欧氏距离,代表两组特征的相似度距离,根据相似度距离计算相似度。本公开的示例中,可以针对点击率预估方法的应用场景,挑选出特定搜索业务下,搜索结果中比较有代表性的部分展示给用户的属性来计算搜索结果的相似度。以美食团购搜索为例,能够反应两个商家相似程度的属性包括商家标题文本、以及商家是否同属一个商圈、是否均支持团购、人均价格、评分等。因此,可以将商家标题文本、商圈、是否均支持团购、人均价格、评分等属性的值作为预设维度属性值,并分别提取所述曝光日志记录的搜索结果和每一个满足预设条件的上下文搜索结果的预设维度属性值。如提取B、C和D的商家标题文本、商圈、是否均支持团购、人均价格、商家评分等属性的值,用于计算相似度Sbc和Sbd
子步骤S12,对于每一个满足预设条件的上下文页面元素,可基于每个所述预设维度属性值,根据预设相似度计算模型分别计算所述曝光日志记录的页面元素和该上下文页面元素之间的单一维度相似度距离。
对于每一个满足预设条件的上下文搜索结果,可基于每个所述预设维度属性值,根据预设相似度计算模型分别计算所述曝光日志记录的搜索结果和该上下文搜索结果之间的单一维度相似度距离。例如,对于搜索结果B和C,可首先计算B和C在商家评分维度的欧式距离。例如,在商家评分这一维度上,若日志中记录的搜索结果B和C的商家评分分别为Scoreb 和Scorec,则B和C在这一维度的上欧氏距离为Sbc1=|Scoreb-Scorec|。然后,可分别计算出相同维度(如商家评分维度)上,所有满足预设条件的上下文搜索结果的两两结果之间的商家评分欧氏距离,如Sbd1和Sab1。为了提高计算准确性,在得到所有两两结果在商家评分的欧式距离后,可对欧式距离进行归一化,记归一化后的距离为Dn。常见的归一化方法有min-max标准化方法,z-score标准化方法等。本公开以min-max标准化方法为例,介绍对欧式距离进行归一化过程。可先遍历所有俩俩搜索结果在商家评分上的欧式距离,得到最大值和最小值,分别记为Dmax和Dmin;然后用下面的转换公式
Figure PCTCN2016112949-appb-000001
依次求出D′n,该值就是使用min-max标准化方法归一化后两个相邻搜索结果在商家评分上的欧氏距离,其中,Dn为俩俩搜索结果的欧氏距离。
使用相同的方法可分别求出其它维度的欧氏距离,并归一化。对于一些维度属性值非0即1的情况,则无需进行归一化。例如,在是否支持团购这一维度上,支持团购可记为1,不支持团购可记为0。当结果B和C同时支持团购,或者同时不支持团购时,两者的欧式距离可为0;当其中一个结果支持团购,另一个不支持时,则在这一维度上,两者欧式距离可为1。
子步骤S13,对于每一个满足预设条件的上下文页面元素,可将计算得到的所述单一维度相似度距离进行加权平均,得到所述曝光日志记录的页面元素和该上下文页面元素之间的相似度距离。
对于每一个满足预设条件的上下文搜索结果,可将计算得到的所述单一维度相似度距离进行加权平均,得到所述曝光日志记录的搜索结果和该上下文搜索结果之间的相似度距离。在得到搜索结果A和B在每个预设维度属性上的欧氏距离(即单一维度相似度距离)后,可将各个维度的欧式距离的加权算术平均数,作为A和B的最终的相似度距离。若结果A和B的欧式距离为Dab,第i个维度的归一化后的欧氏距离为D′i,对应的权重为Wi,则搜索结果A和B的欧式距离为:
Figure PCTCN2016112949-appb-000002
其中,n为预设维度的数量。每个维度上的权重可默认为1,可以结合业务特点,对不同属性设置不同的权重值,以增加该维度在相似度距离计算上的重要性。例如,设置商家标题文本维度的权重为1,设置商家评分维度的权重为0.5。
子步骤S14,可根据所述相似度距离获得所述曝光日志记录的页面元素和该上下文页面元素之间的相似度。
最后,可根据所述相似度距离获得所述曝光日志记录的搜索结果和该上下文搜索结果之间的相似度。由于两个结果的相似度距离越大,其相似度越小;相似度距离越小,其相似度越大,因此可以用转换公式:
Figure PCTCN2016112949-appb-000003
来计算A和B的相似度Sab
在子步骤S2,可分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重。
此外,两个搜索结果之间的相互影响还和展现给用户时的展现位次有关,两者展现位次越靠近,相互影响越大。确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重,可包括:根据预设的页面元素的展现位次之差的反比例函数,计算所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重。
以Lab表示搜索结果A和B的展现位次之间的距离,以Wab表示搜索结果A和B的相似度权重,Wab和Lab成反比例关系,Lab越大,则Wab越小,可以使用反比例函数Wab=1/Lab表示搜索结果A和B的展现位次之间的距离Lab和搜索结果之间的相似度权重Wab之间的关系。Wab和Lab成反比例关系还可以采用其他反比例函数表示,本公开对此不做限定。其中,搜索结果A和B的展现位次之间的距离Lab可以根据公式:Lab=|ranka-rankb|获得,ranka和rankb分别代表A和B的展现位次。优选地,搜索结果A和B的展现位次之间的距离Lab可以通过高斯加权距离表示,公式为:
Figure PCTCN2016112949-appb-000004
其中,ranka和rankb分别代表A和B的展现位次,σ2为方差,σ取值可以结合业务特点设定为大于0的常量。
子步骤S3,可根据确定的所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值。
根据确定的每个所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值,可包括:对于确定的所有相似度,以每个所述相似度对应的所述相似度权重作为权值进行加权求和,将得到的和作为所述曝光日志的相似度影响值。
搜索结果A和B之间的相互影响程度主要由两者的相似度Sab决定,同时跟两者的展现位次的距离有关。展现位次距离越小时,两个搜索结果越相邻,相互影响程度也越大。具体实施时,搜索结果A和B之间的相似度影响值记为MIab可表示为:MIab=Wab×Sab,其中,Sab为搜索结果A和B之间的相似度,Wab为搜索结果A和B之间的相似度的权重。
采用同样方法计算出搜索结果A和A的满足预设条件的其他上下文搜索结果(如A和C)之间的相似度影响值,再进行累加,即可得到搜索结果A和受A的满足预设条件的上下文搜索结果(如B和C)的总相似度影响值。可以采用公式:
Figure PCTCN2016112949-appb-000005
计算搜索结果A的相似度影响值,其中,m为A的满足预设条件的上下文搜索结果的集合,MIay为搜索结果A和y之间的相似度。
采用上述方法,可分别计算出获取的所有曝光日志记录的搜索结果的相似度影响值,然后,可对每个相似度影响值进行归一化。本公开以min-max标准化方法为例,介绍本提案归一化相似度影响值TI的过程。
首先可遍历日志里所有TI,求出最大值TImax和最小值TImin。如果采用一周的数据来训练点击率预估模型,那么需要遍历这周所有曝光日志的TI,获得最大和最小的TI;如果以两周或者其它时间段的数据来训练点击率预估模型,那么需要遍历对应时间段的曝光日志的TI以获得最大和最小TI。在得到TImax和TImin后,对每个曝光日志的相似度影响值进行归一化,如并使用转换公式:TI’=(TI–TImin)/(TImax-TImin)依次求出TI’,TI’就是使用min-max标准化方法归一化后的曝光日志记录的搜索结果的相似度影响值。
步骤220,可根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重。
根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重可包括:若所述曝光日志的点击标签指示该曝光日志记录的页面元素被用户点击过,则设置所述曝光日志的曝光权重为第一权重;若所述曝光日志的点击标签指示该曝光日志记录的页面元素未被用户点击过,则设置所述曝光日志的曝光权重为第二权重;其中,所述第二权重为第一权重减去所述归一化后的相似度影响值与预设修正值的乘积后得到的值。每一条所述曝光日志可表示一条展示给用户的搜索结果。所述曝光日志设置有点击标签,用户标识该搜索结果是否被用户点击。若该搜索结果被用户点击过,则该搜索结果的曝光日志的点击标签可设置为1;若该搜索结果没有被用户点击过,则该搜索结果的曝光日志的点击标签可设置为0。通过判断每条曝光日志的点击标签可以确定该曝光日志记录的搜索结果是否被用户点击过。例如,当曝光日志A的点击标签为1时,可认为A为被用户点击过的搜索结果,因此可设置A的曝光权重为第一权重,例如1;当曝光日志B的点击标签为0时,可认为B为未被用户点击过的搜索结果,因此可设置B的曝光权重为第二权重,如1-αTI’,其中,TI’为曝光日志B的归一化后的相似度影响值,可用于表示曝光日志B对应的搜索结果受与所述搜 索结果相邻的至少一个搜索结果的影响程度;α为预设修正值。
通过预设修正值α可以对相似度影响值进行微调。
在一个示例中,可预先设定若干不同的α值,基于不同的α值,可以得到几组不同的曝光权重值。
在设置了曝光日志的曝光权重之后,进一步可以根据设置有曝光权重的曝光日志进行点击率预估。本示例中,根据设置有曝光权重的曝光日志进行点击率预估可包括:根据每一条所述曝光日志的点击标签和曝光权重、从所述曝光日志中提取的数据特征,分别生成一条训练数据;基于生成的多条训练数据,训练点击率预估模型;通过所述点击率预估模型进行点击率预估。
对于每一个α值,可以得到一组训练数据,因此可以得到多组训练数据。基于每组训练数据可以分别训练点击率预估模型。
步骤230,可根据每一条所述曝光日志的点击标签和曝光权重、从所述曝光日志中提取的数据特征,分别生成一条训练数据。
所述曝光日志可包括点击标签为1的曝光日志(即记录被用户点击的搜索结果的日志,还可包括点击标签为0的曝光日志(即没有被用户点击的搜索结果的日志)。所述根据每一条所述曝光日志的点击标签和曝光权重、从所述曝光日志中提取的数据特征,分别生成一条训练数据,可包括:对于每一条所述曝光日志,可将该条曝光日志的点击标签和曝光权重作为权重字段,结合从该条曝光日志中提取的数据特征,生成该条曝光日志对应的训练数据。
可从每次搜索的曝光日志中提取影响用户是否点击该条搜索结果的数据特征,组成用于训练点击率预估模型的特征字段。提取的数据特征的主要包括以下几个维度:搜索结果物料维度、用户维度、时间或日期等维度。其中,搜索结果物料维度根据具体搜索内容不同而各不相同,例如在美食团购搜索里,物料是商家,这一维度的特征包括商家过去某段时间内的访问量,销量,商家评分,人均消费,商家和用户检索词的匹配度等。用户维度,如用户职业,性别,消费价格偏好,消费地/商圈/品类偏好等。其它维度包括:曝光日志产生的时间、日期等。
根据业务需求的不同,以及搜索内容的不同,从曝光日志中提取的特征数据可能存在差异,本公开对提取的具体数据特征不做限定。
然后,将每条曝光日志提取的数据特征、该条曝光日志的点击标签、该条曝光日志的曝光权重构成一条训练数据具体实施时,可以将每条训练数据划分为两个字段:权重字段和数 据特征字段,如表1所示。其中,权重字段包括点击标签和曝光权重;数据特征字段包括多组数据特征,每组数据特征由数据特征编号和特征值组成。
权重字段 数据特征字段
0:0.88 1:6.000000 2:148.000000 3:72.000000 4:35.000000
1:1.0 1:1.000000 2:85.000000 3:66.000000 4:29.000000
表1:训练数据表
表1中,第一列为权重字段,权重字段包括:点击标签和曝光权重。其中,第一条训练数据中第一列的0为点击标签,表示该条曝光日志没有被用户点击,0.88示该条曝光日志的曝光权重;第二条训练数据中第一列的1为点击标签,表示该条曝光日志被用户点击,1.0表示该条曝光日志的曝光权重。第二列为数据特征字段,如表1所示,提取的曝光日志中的数据特征包括4组,编号分别为1、2、3、4,不同编号的数据特征对应不同的特征值。
由表1可以看出,点击标签为0的训练数据的曝光权重小于点击标签为1的训练数据的曝光权重,即曝光日志中,被用户点击的曝光日志在训练点击率预估模型时具有较大的权重。
根据历史搜索记录获得的多条训练数据组成训练点击率预估模型的训练数据集。
步骤240,可基于生成的多条训练数据,训练点击率预估模型。
基于前述步骤获得的训练数据,可以采用svm模型或者gbdt模型训练点击率预估模型。可将训练数据作为svm模型或者gbdt模型的输入数据,采用相应的模型生成方法,可以直接训练出点击率预估模型。
在一个示例中,还可以将获得的训练数据分成两部分,一部分作为模型训练数据,用于训练点击率预估模型;另一部分作为测试数据,用于对训练得到的点击率预估模型进行验证,或者,调整训练得到的点击率预估模型的参数。
在另一示例中,若预先设定若干不同的修正值α值,则根据得到的多组训练数据,可以分别训练点击率预估模型。通过测试数据对训练得到的多个点击率预估模型进行验证,可选择预测结果最准确的模型作为搜索时使用的点击率预估模型。
基于训练数据训练点击率预估模型的方案此处不再赘述。
步骤250,可通过所述点击率预估模型进行点击率预估。
训练得到点击率预估模型之后,可将待排序的搜索结果输入所述点击率预估模型,即可 预估出该搜索结果的点击率。
本公开示例公开的点击率预估方法,可通过根据点击日志为曝光日志设置点击标签;分别确定所述曝光日志的相似度影响值;根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重;根据每一条所述曝光日志的点击标签和曝光权重、从所述曝光日志中提取的数据特征,分别生成一条训练数据;基于生成的多条训练数据,训练点击率预估模型;最后,通过所述点击率预估模型进行点击率预估。根据该点击率预估方法,考虑到相邻页面元素对曝光效果的影响,通过基于所述曝光日志的点击标签和记录的页面元素的上下文相似度,分别设置该条曝光日志的曝光权重,然后在预估点击率时引入曝光权重,使得预估的点击率更加准确。
示例三
相应地,本公开示例公开了一种点击率预估装置30,如图3A所示,所述装置30包括:处理器3001、非易失性存储介质3002、网络接口3003以及内部总线3004,其中处理器3001、非易失性存储介质3002、网络接口3003可通过内部总线3004相互通信。处理器3001通过读取并执行非易失性存储介质3002上的机器可执行指令,可实现本公开所描述的点击率预估方法。3B是点击率预估装置30的逻辑结构示意图,点击率预估装置30的功能在逻辑上可通过如下模块实现:
日志处理模块300,用于根据点击日志为曝光日志设置点击标签,其中,曝光日志记录展现给用户的页面元素的信息;
曝光权重设置模块310,用于基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;
点击率预估模块320,用于根据设置有曝光权重的曝光日志,进行点击率预估。
本公开示例公开的点击率预估装置,可通过根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息;对于所述曝光日志,基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;根据设置有曝光权重的曝光日志,进行点击率预估。该点击率预估装置考虑到相邻页面元素对曝光效果的影响,通过基于所述曝光日志的点击标签和页面元素的上下文相似度,设置对应曝光日志的曝光权重,然后在预估点击率时引入曝光权重,使得预估的点击率更加准确。
示例四
基于示例三,本公开示例四公开了一种点击率预估装置。如图4所示,主要说明与图3B 的不同之处。
所述曝光权重设置模块310包括:
相似度影响值确定单元3101,用于确定所述曝光日志的相似度影响值;
曝光权重设置单元3102,用于根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重;
其中,所述相似度影响值用于表示所述曝光日志记录的页面元素受满足预设条件的上下文页面元素的影响程度。
在一个示例中,如图4所示,所述相似度影响值确定单元3101包括:
相似度确定子单元31011,用于分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度;
相似度权重确定子单元31012,用于分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度的权重;
相似度影响值计算子单元31013,用于根据确定的所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值。
在另一示例中,所述相似度确定子单元31011用于:
分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素的预设维度属性值;
对于每一个满足预设条件的上下文页面元素,基于每个所述预设维度属性值,根据预设相似度计算模型分别计算所述曝光日志记录的页面元素和该上下文页面元素之间的单一维度相似度距离;
对于每一个满足预设条件的上下文页面元素,将计算得到的所述单一维度相似度距离进行加权平均,得到所述曝光日志记录的页面元素和该上下文页面元素之间的相似度距离;
根据所述相似度距离获得所述曝光日志记录的页面元素和该上下文页面元素之间的相似度。
在另一示例中,所述相似度权重确定子单元31012用于:
根据预设的页面元素的展现位次之差的反比例函数,计算所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重。
在另一示例中,所述相似度影响值计算子单元31013用于:
对于确定的所有相似度,以每个所述相似度对应的所述相似度权重作为权值进行加权求和,将得到的和作为所述曝光日志的相似度影响值。
在另一示例中,所述满足预设条件的上下文页面元素为:与所述曝光日志记录的页面元素的展现位次之差小于预设位次的页面元素;或,与所述曝光日志记录的页面元素的展现位次之差小于预设位次且与所述曝光日志记录的页面元素具有相同品类属性的页面元素。
在另一示例中,所述曝光权重设置单元3102用于:
若所述曝光日志的点击标签指示该曝光日志记录的页面元素被用户点击过,则设置所述曝光日志的曝光权重为第一权重;
若所述曝光日志的点击标签指示该曝光日志记录的页面元素未被用户点击过,则设置所述曝光日志的曝光权重为第二权重;
其中,所述第二权重为第一权重减去所述归一化后的相似度影响值与预设修正值的乘积后得到的值。
本公开示例公开的点击率预估模型生成装置,可通过根据点击日志为曝光日志设置点击标签,其中,曝光日志记录展现给用户的页面元素的信息;基于所述曝光日志的点击标签和页面元素的上下文相似度,设置对应曝光日志的曝光权重;根据设置有曝光权重的曝光日志进行点击率预估。该点击率预估模型生成装置在进行点击率预估时考虑到相邻页面元素对曝光效果的影响,通过基于所述曝光日志的点击标签和页面元素的上下文相似度,设置对应曝光日志的曝光权重,然后在预估点击率时引入曝光权重,使得预估的点击率更加准确。
相应的,本公开还公开了一种电子设备,包括非易失性存储介质、处理器及存储在所述非易失性存储介质上并可在处理器上运行的机器可执行指令,所述处理器执行所述机器可执行指令时实现如本公开示例一和示例二所述的点击率预估方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本公开还提供了一种非易失性存储介质,其上存储有指令,所述指令被一个或多个处理器执行时实现如本公开示例一和示例二所述的点击率预估方法的步骤。
本公开中的各个示例均采用递进的方式描述,每个示例重点说明的都是与其他示例的不同之处,各个示例之间相同相似的部分互相参见即可。对于装置示例而言,由于其与方法示例基本相似,所以描述的比较简单,相关之处参见方法示例的部分说明即可。
以上对本公开提供的一种点击率预估方法、装置进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上示例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本公开内容不应理解为对本公开的限制。
通过以上示例的描述,本领域的技术人员可以清楚地了解到各示例可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个示例或者示例的某些部分所述的方法。

Claims (20)

  1. 一种点击率预估方法,包括:
    根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息;
    基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;
    根据设置有曝光权重的曝光日志进行点击率预估。
  2. 如权利要求1所述的方法,其中,基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重,包括:
    确定所述曝光日志的相似度影响值;
    根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重;
    其中,所述相似度影响值用于表示所述曝光日志记录的页面元素受满足预设条件的上下文页面元素的影响程度。
  3. 如权利要求2所述的方法,其中,确定所述曝光日志的相似度影响值,包括:
    分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度,以及对应的相似度权重;
    根据确定的所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值。
  4. 如权利要求3所述的方法,其中,确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度,包括:
    分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素的预设维度属性值;
    对于每一个满足预设条件的上下文页面元素,基于每个所述预设维度属性值,根据预设相似度计算模型分别计算所述曝光日志记录的页面元素和该上下文页面元素之间的单一维度相似度距离;
    对于每一个满足预设条件的上下文页面元素,将计算得到的所述单一维度相似度距离进行加权平均,得到所述曝光日志记录的页面元素和该上下文页面元素之间的相似度距离;
    根据所述相似度距离获得所述曝光日志记录的页面元素和该上下文页面元素之间的相似 度。
  5. 如权利要求3所述的方法,其中,确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重,包括:
    根据预设的页面元素的展现位次之差的反比例函数,计算所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重。
  6. 如权利要求3所述的方法,其中,根据确定的所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值,包括:
    对于确定的所有相似度,以每个所述相似度对应的所述相似度权重作为权值进行加权求和,将得到的和作为所述曝光日志的相似度影响值。
  7. 如权利要求2所述的方法,其中,所述满足预设条件的上下文页面元素为:与所述曝光日志记录的页面元素的展现位次之差小于预设位次的页面元素;或,与所述曝光日志记录的页面元素的展现位次之差小于预设位次且与所述曝光日志记录的页面元素具有相同品类属性的页面元素。
  8. 如权利要求2所述的方法,其中,根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重,包括:
    若所述曝光日志的点击标签指示该曝光日志记录的页面元素被用户点击过,则设置所述曝光日志的曝光权重为第一权重;
    若所述曝光日志的点击标签指示该曝光日志记录的页面元素未被用户点击过,则设置所述曝光日志的曝光权重为第二权重;
    其中,所述第二权重为第一权重减去归一化后的所述相似度影响值与预设修正值的乘积后得到的值。
  9. 一种点击率预估装置,包括:
    处理器;
    存储有机器可执行指令的非易失性存储介质,
    其中,通过读取并执行所述机器可执行指令,所述处理器被使得:
    根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元 素的信息;
    基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;
    根据设置有曝光权重的曝光日志进行点击率预估。
  10. 如权利要求9所述的装置,其中,在基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重时,所述机器可执行指令还促使所述处理器:
    确定所述曝光日志的相似度影响值;
    根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重;
    其中,所述相似度影响值用于表示所述曝光日志记录的页面元素受满足预设条件的上下文页面元素的影响程度。
  11. 如权利要求10所述的装置,其中,在确定所述曝光日志的相似度影响值时,所述机器可执行指令还促使所述处理器:
    分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度;
    分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重;
    根据确定的所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值。
  12. 如权利要求11所述的装置,其中,在确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度时,所述机器可执行指令还促使所述处理器:
    分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素的预设维度属性值;
    对于每一个满足预设条件的上下文页面元素,基于每个所述预设维度属性值,根据预设相似度计算模型分别计算所述曝光日志记录的页面元素和该上下文页面元素之间的单一维度相似度距离;
    对于每一个满足预设条件的上下文页面元素,将计算得到的所述单一维度相似度距离进行加权平均,得到所述曝光日志记录的页面元素和该上下文页面元素之间的相似度距离;
    根据所述相似度距离获得所述曝光日志记录的页面元素和该上下文页面元素之间的相似 度。
  13. 如权利要求11所述的装置,其中,在确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重时,所述机器可执行指令还促使所述处理器:
    根据预设的页面元素的展现位次之差的反比例函数,计算所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重。
  14. 如权利要求11所述的装置,其中,在根据确定的所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值时,所述机器可执行指令还促使所述处理器:
    对于确定的所有相似度,以每个所述相似度对应的所述相似度权重作为权值进行加权求和,将得到的和作为所述曝光日志的相似度影响值。
  15. 如权利要求10所述的装置,其中,所述满足预设条件的上下文页面元素为:与所述曝光日志记录的页面元素的展现位次之差小于预设位次的页面元素;或,与所述曝光日志记录的页面元素的展现位次之差小于预设位次且与所述曝光日志记录的页面元素具有相同品类属性的页面元素。
  16. 如权利要求10所述的装置,其中,在根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重时,所述机器可执行指令还促使所述处理器:
    若所述曝光日志的点击标签指示该曝光日志记录的页面元素被用户点击过,则设置所述曝光日志的曝光权重为第一权重;
    若所述曝光日志的点击标签指示该曝光日志记录的页面元素未被用户点击过,则设置所述曝光日志的曝光权重为第二权重;
    其中,所述第二权重为第一权重减去所述归一化后的相似度影响值与预设修正值的乘积后得到的值。
  17. 一种非易失性存储介质,其上存储有一个或多个处理器可执行的指令,所述指令被所述一个或多个处理器执行时实现如下操作:
    根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息;
    基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权 重;
    根据设置有曝光权重的曝光日志进行点击率预估。
  18. 根据权利要求17所述的非易失性存储介质,其中,基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重,包括:
    确定所述曝光日志的相似度影响值;
    根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重;
    其中,所述相似度影响值用于表示所述曝光日志记录的页面元素受满足预设条件的上下文页面元素的影响程度。
  19. 根据权利要求18所述的非易失性存储介质,其中,确定所述曝光日志的相似度影响值,包括:
    分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度,以及对应的相似度权重;
    根据确定的所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值。
  20. 根据权利要求19所述的非易失性存储介质,其中,分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度,以及对应的相似度权重,包括:
    分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素的预设维度属性值;
    对于每一个满足预设条件的上下文页面元素,基于每个所述预设维度属性值,根据预设相似度计算模型分别计算所述曝光日志记录的页面元素和该上下文页面元素之间的单一维度相似度距离;
    对于每一个满足预设条件的上下文页面元素,将计算得到的所述单一维度相似度距离进行加权平均,得到所述曝光日志记录的页面元素和该上下文页面元素之间的相似度距离;
    根据所述相似度距离获得所述曝光日志记录的页面元素和该上下文页面元素之间的相似度;以及
    根据预设的页面元素的展现位次之差的反比例函数,计算所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重。
PCT/CN2016/112949 2016-09-23 2016-12-29 点击率预估 WO2018053966A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CA3070612A CA3070612A1 (en) 2016-09-23 2016-12-29 Click rate estimation
US16/335,928 US20190311395A1 (en) 2016-09-23 2016-12-29 Estimating click-through rate

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610848973.X 2016-09-23
CN201610848973.XA CN106372249B (zh) 2016-09-23 2016-09-23 一种点击率预估方法、装置及电子设备

Publications (1)

Publication Number Publication Date
WO2018053966A1 true WO2018053966A1 (zh) 2018-03-29

Family

ID=57898051

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/112949 WO2018053966A1 (zh) 2016-09-23 2016-12-29 点击率预估

Country Status (4)

Country Link
US (1) US20190311395A1 (zh)
CN (1) CN106372249B (zh)
CA (1) CA3070612A1 (zh)
WO (1) WO2018053966A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472039A (zh) * 2019-08-21 2019-11-19 上海络昕信息科技有限公司 一种内容摘要的生成方法、系统及相关装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203686B (zh) * 2017-03-31 2021-04-20 苏州艾隆信息技术有限公司 药品信息差异处理方法及系统
CN109509010B (zh) * 2017-09-15 2023-04-18 腾讯科技(北京)有限公司 一种多媒体信息处理方法、终端及存储介质
CN110020129B (zh) * 2017-10-27 2022-10-25 腾讯科技(深圳)有限公司 点击率校正方法、预估方法、装置、计算设备及存储介质
CN109858942B (zh) * 2018-11-06 2023-12-15 三六零科技集团有限公司 推广信息展示方法、装置、电子设备及可读存储介质
CN109697636A (zh) * 2018-12-27 2019-04-30 拉扎斯网络科技(上海)有限公司 一种商户推荐方法、商户推荐装置、电子设备和介质
CN110674406A (zh) * 2019-09-29 2020-01-10 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN111144974B (zh) * 2019-12-04 2022-03-08 北京三快在线科技有限公司 一种信息展示方法及装置
CN112749333B (zh) * 2020-07-24 2024-01-16 腾讯科技(深圳)有限公司 资源搜索方法、装置、计算机设备和存储介质
CN113158026B (zh) * 2021-03-08 2024-03-15 咪咕文化科技有限公司 物品分发方法、电子设备和存储介质
CN112884529B (zh) * 2021-03-24 2024-04-26 杭州网易云音乐科技有限公司 一种广告竞价方法、装置、设备及介质
CN113538054B (zh) * 2021-07-20 2023-09-01 深圳市爱易讯数据有限公司 Ott信息呈现位的价值计算分类方法、系统及存储介质
CN113538053B (zh) * 2021-07-20 2023-09-01 深圳市爱易讯数据有限公司 用于品牌建设的ott资源位分类方法、系统及存储介质
CN114357347B (zh) * 2021-12-28 2024-04-26 拓尔思信息技术股份有限公司 一种互联网文档的总访问量的估值方法
CN114662008B (zh) * 2022-05-26 2022-10-21 上海二三四五网络科技有限公司 基于点击位置因素改进的ctr热门内容计算方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120185359A1 (en) * 2011-01-14 2012-07-19 Alibaba Group Holding Limited Ranking of query results based on individuals' needs
CN103324696A (zh) * 2013-06-06 2013-09-25 合一信息技术(北京)有限公司 一种数据日志收集与统计分析系统和方法
CN103593350A (zh) * 2012-08-14 2014-02-19 阿里巴巴集团控股有限公司 一种推荐推广关键词价格参数的方法和装置
CN104572734A (zh) * 2013-10-23 2015-04-29 腾讯科技(深圳)有限公司 问题推荐方法、装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701216B (zh) * 2016-01-13 2017-03-08 北京三快在线科技有限公司 一种信息推送方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120185359A1 (en) * 2011-01-14 2012-07-19 Alibaba Group Holding Limited Ranking of query results based on individuals' needs
CN103593350A (zh) * 2012-08-14 2014-02-19 阿里巴巴集团控股有限公司 一种推荐推广关键词价格参数的方法和装置
CN103324696A (zh) * 2013-06-06 2013-09-25 合一信息技术(北京)有限公司 一种数据日志收集与统计分析系统和方法
CN104572734A (zh) * 2013-10-23 2015-04-29 腾讯科技(深圳)有限公司 问题推荐方法、装置及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472039A (zh) * 2019-08-21 2019-11-19 上海络昕信息科技有限公司 一种内容摘要的生成方法、系统及相关装置

Also Published As

Publication number Publication date
CN106372249B (zh) 2018-04-13
US20190311395A1 (en) 2019-10-10
CA3070612A1 (en) 2018-03-29
CN106372249A (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
WO2018053966A1 (zh) 点击率预估
US20180047071A1 (en) System and methods for aggregating past and predicting future product ratings
US20220114199A1 (en) System and method for information recommendation
US9208437B2 (en) Personalized information pushing method and device
WO2019149145A1 (zh) 投诉举报类别的排序方法和装置
US8311957B2 (en) Method and system for developing a classification tool
US20080288481A1 (en) Ranking online advertisement using product and seller reputation
US11275748B2 (en) Influence score of a social media domain
WO2017114198A1 (zh) 一种数据处理方法和装置
WO2008005796A2 (en) System and method for generating a display of tags
Huang et al. A novel recommendation model with Google similarity
US20210366006A1 (en) Ranking of business object
US10937070B2 (en) Collaborative filtering to generate recommendations
KR101639656B1 (ko) 광고 제공 방법 및 서버 장치
US20190065611A1 (en) Search method and apparatus
JP6709775B2 (ja) 算出装置、算出方法及び算出プログラム
JP5061999B2 (ja) 解析装置、解析方法及び解析プログラム
CN111754287A (zh) 物品筛选方法、装置、设备和存储介质
US10394804B1 (en) Method and system for increasing internet traffic to a question and answer customer support system
US20180373723A1 (en) Method and system for applying a machine learning approach to ranking webpages' performance relative to their nearby peers
TWI793412B (zh) 消費預測系統及消費預測方法
JP6267812B1 (ja) 算出装置、算出方法及び算出プログラム
CN110020118B (zh) 一种计算用户之间相似度的方法及装置
US9230214B1 (en) Personalizing auto-completion results based on user intent
US10496693B2 (en) Unified classification and ranking strategy

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16916705

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16916705

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 3070612

Country of ref document: CA