一种确定社交网络平台中用户属性的方法和系统
本申请要求于2013年12月4日提交中国专利局、申请号为201310645959.6、发明名称为“一种确定社交网络平台中用户属性的方法和系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及社交网络技术领域,尤其涉及一种确定社交网络平台中用户属性的方法和系统。
发明背景
社交网络平台中的用户属性包括静态属性和动态属性。静态属性包括用户的性别、年龄、教育信息、工作信息等,一般是静态不变的;动态属性包括用户的兴趣爱好、经常关注等,一般是动态变化的。
对于动态属性,一般是通过对用户发表或转播的消息进行切词分析,从而粗略判断出用户的兴趣爱好,得到该用户的动态属性。
例如,“广州恒大”这个关键词属于“体育足球”兴趣大类;当用户发表或者转播的消息中包含多个从属于“体育足球”的关键词时,该用户的动态属性就可以增加“体育足球”。
现有确定动态属性的方法基于消息的切词分析,这种分析得到的关键词不一定总能反映用户的兴趣,因此确定的动态属性不准确。
发明内容
本发明实施例提供了一种确定社交网络平台中用户属性的方法,能够准确确定社交网络平台中的用户属性。
本发明实施例提供了一种确定社交网络平台中用户属性的系统,能够准确确定社交网络平台中的用户属性。
本发明实施例的技术方案是这样实现的:
一种确定社交网络平台中用户属性的方法,包括:
确定社交网络平台中种子用户的属性;
根据社交网络平台中用户的属性,确定用户参与互动的社交网络平台功能的属性;
根据社交网络平台功能的属性,确定参与互动社交网络平台功能的用户的属性。
一种确定社交网络平台中用户属性的系统,包括:
种子培育子系统,用于确定社交网络平台中种子用户的属性,将所述种子用户的属性发送至自学习子系统;
自学习子系统,用于根据社交网络平台中用户的属性,确定用户参与互动的社交网络平台功能的属性;还用于根据所述社交网络平台功能的属性,确定参与互动社交网络平台功能的用户的属性。
可见,本发明实施例提出的确定社交网络平台中用户属性的方法和系统,将社交网络平台中用户参与互动的网页短URL、话题、消息、活动、投票或应用等社交网络平台功能作为确定用户属性的桥梁,从而准确确定用户的属性。
附图简要说明
图1为本发明实施例的确定社交网络平台中用户属性的方法的流程图;
图2为本发明实施例的确定社交网络平台中用户属性的系统的结构示意图;
图3为本发明实施例的存储系统的结构示意图;
图4为本发明实施例的确定种子用户属性的方法的流程图;
图5为本发明实施例的计算网页短URL的属性的方法的流程图;
图6为本发明实施例的计算用户属性的方法的流程图。
图7为本发明实施例的确定社交网络平台中用户属性的装置的结构示意图。
实施本发明的方式
为使本发明的技术方案和优点更加清楚,下面将结合附图和具体实施例对本发明作进一步地详细描述。
图1为本发明实施例的确定社交网络平台中用户属性的方法的流程图。如图1所示,该方法包括:
步骤101:确定社交网络平台中种子用户的属性;
步骤102:根据社交网络平台中用户的属性,确定用户参与互动的社交网络平台功能的属性;
步骤103:根据社交网络平台功能的属性,确定参与互动社交网络平台功能的用户的属性。
在本发明实施例中,以网页短URL作为计算用户属性的桥梁为例进行介绍。本发明实施例也可以采用用户使用时主观意愿强的其他社交网络平台的功能代替该该网页短URL,例如话题、消息、活动、投票或应用等。
首先需要说明的是,以下实施例中所述的用户与网页短URL的互动是指:用户发表包含网页短URL的消息、用户转发包含网页短URL的消息、或者用户点击网页短URL等。用户进行这些互动的主观意愿强,因此网页短URL的属性在一定程度上能够反映出与其存在互动的用户
的属性,反之亦然。
除上述互动方式外,其他能够体现用户主观意愿的方式也可以作为互动方式,本发明对此不作限制。
图2为本发明实施例的确定社交网络平台中用户属性的系统的结构示意图。在本实施例中,确定社交网络平台中用户属性的系统可以看做一个用户属性计算模型。整个用户属性计算模型分为两部分,如图2所示。图2的左侧部分是自学习子系统,自学习子系统负责根据用户与网页短URL的互动,不断学习计算网页短URL的属性,以及用户属性。图2的右侧部分为种子培育子系统,该系统确定一个或多个初始的种子用户,并确定种子用户的属性,将种子用户的属性作为自学习子系统的学习特征。
下面分别介绍上述两部分:
种子培育子系统,包括种子用户属性计算模块201。
首先,用户属性计算模块201确定种子用户。
然后,用户属性计算模块201根据种子用户输入的用户标签、以及预先保存的用户标签与用户属性的对应关系确定种子用户的属性。例如,种子用户输入的用户标签为“互联网”时,确定该种子用户的属性为“科技”;种子用户输入的用户标签为“云技术”时,确定该种子用户的属性也为“科技”;从而保证确定的用户属性统一且不产生冲突。
最后,还可以对用户属性计算模块201确定的种子用户的属性进行人工审核及修正,以保证种子用户的属性尽可能准确。
自学习子系统,包括用户属性数据库202、用户属性计算模块203、网页短URL属性数据库204和网页短URL属性计算模块205。
其中,用户属性数据库202首先获取种子培育子系统计算出的种子用户的属性;网页短URL属性计算模块205根据用户与网页短URL的
互动关系、以及用户属性数据库202中保存的用户属性,计算网页短URL的属性,将计算结果发送至网页短URL属性数据库204;用户属性计算模块203根据用户与网页短URL的互动关系、以及网页短URL属性数据库204中保存的网页短URL的属性,计算用户的属性,将计算结果发送至用户属性数据库202。用户属性计算模块203和网页短URL属性计算模块205周期性地进行计算,从而计算出社交网络平台中用户的属性。
自学习子系统在确定用户属性时,要进行两步计算流程。
两步计算流程的一步为网页短URL属性的计算。获取互动该网页短URL的所有用户的属性,将最大数量的用户所拥有的属性确定为网页短URL的属性。也就是说,如果拥有某一属性的用户的数量最大,则将该属性确定为网页短URL的属性。例如:网页短URL被A,B,C三个用户互动,A用户的属性是a和b,B用户的属性是b和c,C用户的属性是a、b及c,那么该网页短URL的属性是b。
两步计算流程的另一步为用户属性的计算。用户属性可以根据该用户互动的网页短URL的属性确定,也可以根据该用户互动的网页短URL的属性以及该用户的收听好友所互动的网页短URL的属性共同确定。例如:A用户互动的网页短URL的属性为b,A的收听好友互动的网页短URL的属性中,c和b出现次数最多,那么确定A用户的用户属性为b。
上面的用户属性计算模型中,网页短URL的属性和用户属性两者相互佐证对方数据的准确性,从而使用户属性随着用户对网页短URL的不断互动进行动态调整。
图3为本实施例的存储系统的结构示意图。如图3所示,该存储系统包括:种子用户数据库301,用户资料数据库302,模糊匹配数据库
303和种子用户结果数据库304。基于图3所示的存储系统,图4示出了本发明实施例的确定种子用户属性的方法的流程图。如图4所示,该方法包括以下步骤:
步骤401:确定种子用户,将种子用户的ID保存在种子用户数据库301中。这里的种子用户为资料填写最完整的高质量用户,本实施例中,取资料填写完整的VIP用户作为种子用户。
步骤402:使用种子用户ID查询用户资料数据库302,获取种子用户填写的用户标签。
步骤403:根据用户标签查询模糊匹配数据库303,获取用户标签所对应的用户属性,将种子用户的属性保存在种子用户结果数据库304中。
模糊匹配数据库303预先存储了用户标签与用户属性的对应关系,该步骤可以避免用户填写的用户标签不标准导致无法获取准确的用户属性的问题。例如,用户填写的用户标签为“美剧”,根据预先存储的“美剧”与“电影爱好者”的对应关系,可以确定该用户的属性为“电影爱好者”。
模糊匹配数据库中保存的对应关系可以周期性地进行计算,根据计算结果做必要的修订及扩充。
步骤404:对种子用户结果数据库中的数据进行人工审核及修正。
为降低人工审核的工作量,在选择种子用户时,应尽量筛选资料填写可信的用户。
种子培育系统确定出的种子用户属性是标准的、可以信赖的用户属性;且要求培育出来的种子用户必须足够的活跃,以便有足够的社交数据参与自学习系统的计算。
图5为本发明实施例的计算网页短URL的属性的方法的流程图。
如图5所示,该方法包括如下步骤:
步骤501:搜集用户与网页短URL的互动流水数据,确定用户与网页短URL的互动关系。
这里可以以一天为时间切片,搜集流水数据。例如,每天搜集前一天的互动流水数据;这样的计算每天例行一次,不需要每次都计算所有的流水数据。
步骤502:互动关系去重。具体方式为:如果一个用户与某网页短URL存在多次互动,则仅保留该用户与该网页短URL的一次互动关系。本步骤是为了避免某些用户疯狂转发网页短URL,造成网页短URL属性计算不准确。
步骤503:判断用户的互动关系中涉及的所有网页短URL的属性是否都已计算完毕,如果没有,则执行步骤504;如果计算完毕,则执行步骤508。
步骤504:获取互动关系中涉及的一个网页短URL。
步骤505:查询与该网页短URL存在互动关系的所有用户的属性。对于用户属性的查询,有的用户可能尚没有用户属性,则返回空即可,不影响整体计算的准确性。
步骤506:根据步骤505中查询的结果,计算该网页短URL属性的中间结果。
例如,可以取查询结果中出现次数最多的3个用户属性作为该网页短URL属性的中间结果,并将每个用户属性出现的次数与3个用户属性出现的总次数的比值作为该属性的权值。例如,本次查询结果中,与某网页短URL存在互动关系的用户中,用户属性出现次数最多的属性为a、b、c;其中,a出现的次数为50次,b出现的次数为40次,c出现的次数为10次;则该网页短URL属性的中间结果为:a(权值50%)、
b(权值40%)和c(权值10%)。在本实施例中,作为该网页短URL属性的中间结果的属性的数量可任意规定,本发明实施例不作限制。
步骤507:采用步骤506中计算的该网页短URL的中间结果、以及上次计算的该网页短URL的属性,计算该网页短URL属性的最终结果。
例如,上次计算的该网页短URL的属性为:a(权值30%)、b(权值60%)和d(权值10%);本次计算的该网页短URL属性的中间结果为:a(权值50%)、b(权值40%)和c(权值10%);则可以将上次计算的属性的权值乘以固定的值(例如,0.5,该值应小于1),并将相乘的结果与本次计算的中间结果的属性权值相加,取权值最大的3个属性作为该网页短URL属性的最终结果。就本例而言,计算结果如下:
属性a的最终权值=30%*0.5+50%=65%;
属性b的最终权值=60%*0.5+40%=70%;
属性c的最终权值=10%;
属性d的最终权值=10%*0.5=5%;
根据上述计算结果,取最终权值最大的3个属性作为该网页短URL属性的最终结果,即:b(权值70%)、a(权值65%)和c(权值10%)。
或者,也可以直接将步骤506中计算的中间结果作为网页短URL属性的最终结果,也就是说,如果之前已经确定过网页短URL的属性,则直接采用步骤506中计算的中间结果覆盖之前确定的网页短URL属性。
该网页短URL属性的最终结果计算完成之后,返回执行步骤503,判断是否还有网页短URL的属性未计算完毕。
步骤508:输出本次计算的所有网页短URL属性的计算结果,结束本次计算。
图6为本发明实施例的计算用户属性的方法的流程图。如图6所示,
该方法包括如下步骤:
步骤601:搜集用户与网页短URL的互动流水数据,确定与网页短URL互动的用户。
之所以只选取与网页短URL互动的用户进行计算,是为了缩小计算的范围。可以以一天为单位,由自学习系统不断地积累用户属性。
步骤602:为了避免不符合要求的网页短URL对计算结果的影响,对不符合要求的网页短URL进行过滤。
这里提出一个简单的算法来确定网页短URL是否符合要求。该算法是:1)计算网页短URL的转播比,即:网页短URL转播次数/网页短URL原创次数;2)如果转播比小于预先设定的阀值,则认为该网页短URL的不符合要求。
步骤603:判断互动关系中涉及的所有用户的属性是否计算完毕,如果没有,则执行步骤604;如果计算完毕,则执行步骤608。
步骤604:获取互动关系中涉及的一个用户。
步骤605:查询该用户以及该用户所收听的用户(以下简称为“该用户的收听用户”)互动的所有网页短URL,获取每个网页短URL的互动次数及属性。由于步骤602已经对不符合要求的网页短URL进行过滤,所以本步骤只涉及符合要求的网页短URL。
对于网页短URL属性的查询,有的网页短URL可能尚没有属性,则返回空即可,不影响整体计算的准确性。
步骤606:根据步骤605中查询的结果计算所述用户属性的中间结果。
具体计算方式可以包括以下步骤:
I)将每个网页短URL的每个属性的权值乘以该网页短URL的互动次数得到一中间值,对所有网页短URL的该属性计算得到的中间值进
行相加,将结果作为该属性的比率值;
II)将各个属性的比率值相加得到总比率值;
III)针对各个属性,将该属性的比率值除以步骤II)中得到的总比率值,得到该属性的权值;
IV)取权值最大的3个属性作为该用户属性的中间结果。
例如,用户A的收听用户有2个,包括用户B和用户C;
与用户A、B和C中至少一个用户存在互动的网页短URL包括URL1和URL2,其中,URL1的属性为:a(权值50%),b(权值30%),c(权值10%),互动次数为3次;URL2的属性为:d(权值70%),b(权值20%),a(权值5%),互动次数为2次;
根据上述查询结果,计算结果如下:
属性a的比率值=50%*3+5%*2=1.6;
属性b的比率值=30%*3+20%*2=1.3;
属性c的比率值=10%*3=0.3;
属性d的比率值=70%*2=1.4;
属性a的中间权值=1.6/(1.6+1.3+0.3+1.4)=35%;
属性b的中间权值=1.3/(1.6+1.3+0.3+1.4)=28%;
属性c的中间权值=0.3/(1.6+1.3+0.3+1.4)=7%;
属性d的中间权值=1.4/(1.6+1.3+0.3+1.4)=30%;
取中间权值最大的3个作为该用户A属性的中间结果,即:a(权值35%)、d(权值30%)、b(权值28%)。
步骤607:采用步骤606中计算的中间结果、以及上次计算的该用户的属性,计算该用户属性的最终结果,并返回执行步骤603。
例如,上次计算的用户A的属性为:a(权值20%)、c(权值30%)和d(权值40%);本次计算的用户A属性的中间结果为:a(权值35%)、
d(权值30%)、b(权值28%);则可以将上次计算的属性的权值乘以固定的值(例如,0.5,该值应小于1),并将相乘的结果与本次计算的中间结果的属性权值相加,取最终权值最大的3个属性作为用户A属性的最终结果。就本例而言,计算结果如下:
属性a的最终权值=20%*0.5+35%=45%;
属性b的最终权值=28%;
属性c的最终权值=30%*0.5=15%;
属性d的最终权值=40%*0.5+30%=50%;
根据上述计算结果,取最终权值最大的3个属性作为用户A属性的最终结果,即:d(权值50%)、a(权值45%)和b(权值28%)。
或者,也可以直接将步骤606中计算的中间结果作为用户属性的最终结果,也就是说,如果之前已经确定过用户属性,则直接采用步骤606中计算的中间结果覆盖之前确定的用户属性。
步骤608:输出本次计算的所有用户属性的计算结果,结束本次计算。
上述实施例是以网页短URL作为确定社交网络平台中用户属性的桥梁。本发明实施例也可以采用用户在使用时主观意愿强的其他社交网络平台的功能代替网页短URL。所谓主观意愿强,是指用户主动的、需要有记忆成本的做一件事情,那么这件事情就能在很大程度上反映用户的主观意愿,即用户属性。例如,用户参与一个话题的讨论,则可以认为该用户与该话题存在互动关系,将该话题作为确定社交网络平台中用户属性的桥梁;或者,用户发表、阅读或转发一个消息,则可以认为该用户与该消息存在互动关系,将该消息作为确定社交网络平台中用户属性的桥梁,等等。
本发明实施例还提出一种确定社交网络平台中用户属性的系统,包
括:种子培育子系统和自学习子系统。
种子培育子系统,用于确定社交网络平台中种子用户的属性,将所述种子用户的属性发送至自学习子系统;
自学习子系统,用于根据社交网络平台中用户的属性,确定用户参与互动的社交网络平台功能的属性;还用于根据所述社交网络平台功能的属性,确定参与互动的社交网络平台功能的用户的属性。
上述系统中,社交网络平台功能可以为:网页短URL、话题、消息、活动、投票或应用等;
用户参与互动网页短URL的方式可以为:用户访问网页短URL或者发表或转播的消息中包含网页短URL。
上述系统中,种子培育子系统确定社交网络平台中种子用户属性的方式可以:
确定社交网络平台中的种子用户;
获取所述种子用户填写的用户标签;
根据所述用户标签以及预先存储的用户标签与属性的对应关系,确定该种子用户的属性;
对所述种子用户的属性进行审核及修正。
上述系统中,自学习子系统包括:
用户属性数据库,用于接收并保存种子培育子系统发送的种子用户的属性,还用于接收并保存用户属性计算模块发送的用户属性;
社交网络平台功能属性计算模块,用于根据所述用户属性数据库中保存的用户属性,确定用户参与互动的社交网络平台功能的属性,将社交网络平台功能的属性发送至社交网络平台功能属性数据库;
社交网络平台功能属性数据库,用于接收并保存社交网络平台功能属性计算模块发送的社交网络平台功能的属性;
用户属性计算模块,用于根据所述社交网络平台功能属性数据库保存的社交网络平台功能的属性,确定参与互动社交网络平台功能的用户的属性,并将用户属性发送至用户属性数据库。
上述系统中,社交网络平台功能属性计算模块确定用户参与互动的社交网络平台功能的属性的方式可以为:
获取预先设定的时间段内用户参与互动的社交网络平台功能;
针对每个获取的社交网络平台功能分别执行以下步骤:
A1、查询与该社交网络平台功能存在互动关系的用户的属性;
B1、将所述查询结果中出现次数最多的N个属性作为该社交网络平台功能的属性的中间结果,并且将每个属性的出现次数与N个属性出现总次数的比值作为该属性的权值;其中,N为预先设定的整数;
C1、将所述中间结果作为社交网络平台功能的属性的最终结果;或者,将之前计算的所述社交网络平台功能的属性的权值乘以预先设定的比值,并将相乘的结果与所述中间结果的属性的权值相加,取权值最大的N个属性作为社交网络平台功能的属性的最终结果。
用户属性计算模块确定参与互动网页短URL、话题或消息的用户的属性的方式为:
获取预先设定的时间段内参与互动社交网络平台功能的用户的属性的方式可以为:
获取预先设定的时间段内参与互动社交网络平台功能的用户;
针对每个获取的用户分别执行以下步骤:
A2、查询该用户及其收听用户互动的社交网络平台功能,获取每个社交网络平台功能的互动次数及属性;
B2、根据所述获取的结果计算所述用户属性的中间结果;
C2、将所述中间结果作为用户属性的最终结果;或者,将之前计算
的所述用户的属性的权值乘以预先设定的比值,并将相乘的结果与所述中间结果的属性的权值相加,取权值最大的N个属性作为用户属性的最终结果;其中,N为预先设定的整数。
其中,步骤B2的具体方式为:
将每个社交网络平台功能的每个属性的权值乘以互动次数得到一中间值,对所有社交网络平台功能的该属性计算得到的中间值进行相加,将结果作为该属性的比率值;
将各个属性的比率值相加得到总比率值;
针对各个属性,将该属性的比率值除以总比率值,得到该属性的权值;
取权值最大的N个属性作为该用户属性的中间结果。
当社交网络平台功能为网页短URL时,步骤A2中的社交网络平台功能可以为:转播次数与原创次数的比值大于预先设定的阈值的网页短URL。
图7为本发明实施例的确定社交网络平台中用户属性的装置的结构示意图。该装置至少包括:存储器701以及与存储器701通信的处理器702,其中该存储器701中包括可由处理器702执行的种子培育指令和自学习指令。该存储器701可以是非易失计算机可读存储介质,种子培育指令和自学习指令可以是存储在存储器701中的机器可读指令。处理器702可以执行存储在存储器701中的机器可读指令以实现上述实施例所述的方法步骤和系统功能。
例如,处理器702执行种子培育指令,以确定社交网络平台中种子用户的属性;执行自学习指令,以根据社交网络平台中用户的属性,确定用户参与互动的社交网络平台功能的属性,还根据所述社交网络平台功能的属性,确定参与互动社交网络平台功能的用户的属性。
综上可见,本发明提出的确定社交网络平台中用户属性的方法和系统,将用户互动的网页短URL、话题、消息、活动、投票或应用等社交网络平台功能作为确定用户属性的桥梁。利用平台的社交属性,动态社交网络平台功能的属性及用户属性。由用户互动的社交网络平台功能的属性可以确定该用户的兴趣圈,并通过收听好友的兴趣圈进行确认,从而得出用户真正的属性,提高用户属性的准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。