数据分类方法及相关产品
技术领域
本申请涉及通信技术领域,具体涉及一种数据分类方法及相关产品。
背景技术
随着电子设备(如:手机、平板电脑等)的大量普及应用,电子设备能够支持的应用越来越多,功能越来越强大,电子设备向着多样化、个性化的方向发展,成为用户生活中不可缺少的电子用品。
目前来看,社交应用在手机中应用广泛,但是,在使用过程中,需要用户对好友进行一个一个分类,这种分类效率较低,降低了用户体验。
发明内容
本申请实施例提供了一种数据分类方法及相关产品,能够提升好友分类效率,提升了用户体验。
第一方面,本申请实施例一种数据分类方法,包括:
获取目标对象的目标应用的应用数据,以及获取所述目标对象的目标用户ID;
对所述应用数据进行ID提取,得到多个用户ID,以及每一用户ID对应的关联数据;
通过局部敏感哈希算法对所述多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶包括至少一个用户ID的关联数据;
基于所述多个桶中的用户ID的关联数据将所述多个用户ID进行群组划分,得到多个群组。
第二方面,本申请实施例提供了一种数据分类装置,所述装置包括:
获取单元,用于获取目标对象的目标应用的应用数据,以及获取所述目标对象的目标用户ID;
提取单元,用于对所述应用数据进行ID提取,得到多个用户ID,以及每一用户ID对应的关联数据;
分桶处理单元,用于通过局部敏感哈希算法对所述多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶包括至少一个用户ID的关联数据;
划分单元,用于基于所述多个桶中的用户ID的关联数据将所述多个用户ID进行群组划分,得到多个群组。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口,以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包 括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
附图说明
下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是本申请实施例提供的一种电子设备的结构示意图;
图1B是本申请实施例公开的一种数据分类方法的流程示意图;
图1C是本申请实施例公开的一种数据分类方法的演示示意图;
图1D是本申请实施例公开的一种用户画像的结构演示示意图;
图1E是本申请实施例公开的局部敏感哈希算法的演示示意图;
图1F是本申请实施例公开的局部敏感哈希算法的另一演示示意图;
图2是本申请实施例公开的另一种数据分类方法的流程示意图;
图3是本申请实施例公开的另一种数据分类方法的流程示意图;
图4是本申请实施例公开的另一种电子设备的结构示意图;
图5A是本申请实施例公开的一种数据分类装置的结构示意图;
图5B是本申请实施例公开的另一种数据分类装置的结构示意图;
图5C是本申请实施例公开的另一种数据分类装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载 设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(user equipment,UE),移动台(mobile station,MS),智能家居设备(智能电视机、智能空调、智能油烟机、智能电扇、智能轮椅、智能饭桌等等)等等。为方便描述,上面提到的设备统称为电子设备,上述电子设备还可以为服务器、业务平台等等。
下面对本申请实施例进行详细介绍。
请参阅图1A,图1A是本申请实施例公开的一种电子设备的结构示意图,电子设备100可以包括控制电路,该控制电路可以包括存储和处理电路110。该存储和处理电路110可以存储器,例如硬盘驱动存储器,非易失性存储器(例如闪存或用于形成固态驱动器的其它电子可编程只读存储器等),易失性存储器(例如静态或动态随机存取存储器等)等,本申请实施例不作限制。存储和处理电路110中的处理电路可以用于控制电子设备100的运转。该处理电路可以基于一个或多个微处理器,微控制器,基带处理器,功率管理单元,音频编解码器芯片,专用集成电路,显示驱动器集成电路等来实现。
存储和处理电路110可用于运行电子设备100中的软件,例如互联网浏览应用程序,互联网协议语音(voice over internet protocol,VOIP)电话呼叫应用程序,电子邮件应用程序,媒体播放应用程序,操作系统功能等。这些软件可以用于执行一些控制操作,例如,基于照相机的图像采集,基于环境光传感器的环境光测量,基于接近传感器的接近传感器测量,基于诸如发光二极管的状态指示灯等状态指示器实现的信息显示功能,基于触摸传感器的触摸事件检测,与在多个(例如分层的)显示器上显示信息相关联的功能,与执行无线通信功能相关联的操作,与收集和产生音频信号相关联的操作,与收集和处理按钮按压事件数据相关联的控制操作,以及电子设备100中的其它功能等,本申请实施例不作限制。
电子设备100还可以包括输入-输出电路150。输入-输出电路150可用于使电子设备100实现数据的输入和输出,即允许电子设备100从外部设备接收数据和也允许电子设备100将数据从电子设备100输出至外部设备。输入-输出电路150可以进一步包括传感器170。传感器170可以包括环境光传感器,基于光和电容的接近传感器,触摸传感器(例如,基于光触摸传感器和/或电容式触摸传感器,其中,触摸传感器可以是触控显示屏的一部分,也可以作为一个触摸传感器结构独立使用),加速度传感器,重力传感器,和其它传感器等。
输入-输出电路150还可以包括一个或多个显示器,例如显示器130。显示器130可以包括液晶显示器,有机发光二极管显示器,电子墨水显示器,等离子显示器,使用其它显示技术的显示器中一种或者几种的组合。显示器130可以包括触摸传感器阵列(即,显示器130可以是触控显示屏)。触摸传感器可以是由透明的触摸传感器电极(例如氧化铟锡(ITO)电极)阵列形成的电容式触摸传感器,或者可以是使用其它触摸技术形成的触摸传感器,例如音波触控,压敏触摸,电阻触摸,光学触摸等,本申请实施例不作限制。
音频组件140可以用于为电子设备100提供音频输入和输出功能。电子设备100中的音频组件140可以包括扬声器,麦克风,蜂鸣器,音调发生器以及其它用于产生和检测声音的组件。
通信电路120可以用于为电子设备100提供与外部设备通信的能力。通信电路120可 以包括模拟和数字输入-输出接口电路,和基于射频信号和/或光信号的无线通信电路。通信电路120中的无线通信电路可以包括射频收发器电路、功率放大器电路、低噪声放大器、开关、滤波器和天线。举例来说,通信电路120中的无线通信电路可以包括用于通过发射和接收近场耦合电磁信号来支持近场通信(near field communication,NFC)的电路。例如,通信电路120可以包括近场通信天线和近场通信收发器。通信电路120还可以包括蜂窝电话收发器和天线,无线局域网收发器电路和天线等。
电子设备100还可以进一步包括电池,电力管理电路和其它输入-输出单元160。输入-输出单元160可以包括按钮,操纵杆,点击轮,滚动轮,触摸板,小键盘,键盘,照相机,发光二极管和其它状态指示器等。
用户可以通过输入-输出电路150输入命令来控制电子设备100的操作,并且可以使用输入-输出电路150的输出数据以实现接收来自电子设备100的状态信息和其它输出。
请参阅图1B,图1B是本申请实施例提供的一种数据分类方法的流程示意图,本实施例中所描述的数据传输方法,应用于如图1A的电子设备,该数据分类方法包括:
101、获取目标对象的目标应用的应用数据,以及获取所述目标对象的目标用户ID。
其中,目标对象可以理解为机主或者其他用户。目标应用可以为以下至少一种:视频应用、社交应用、即时通讯应用、购物应用、支付应用、游戏应用、导航应用、拍照应用,理财应用,等等,在此不作限定。目标应用可以为一个应用,或者一类应用,目标应用可以包括一个或者多个应用,目标应用可以为第三方应用或者系统应用。本申请实施例中,应用数据可以包括以下至少一种:注册应用数据、应用缓存数据或者即时通讯数据等等,在此不做限定,例如,应用数据可以包括:用户的cookie、APP端浏览行为标识ID、以及账号ID等用户身份标识的用户ID,其中,该用户身份标识的用户ID的性质可以为设备硬件ID或字符标识。
当然,电子设备可能被多个人使用,可以通过整合设备IMEI、SSOID、oppenid、用户位置数据和互联网行为数据等,构建出多维特征层和ID-mapping关系层,在自然人识别层利用多码关系可信识别过滤算法和图连通算法完成对自然人的精准识别,如此,能够精准识别出机主,毕竟大部分时间还是机主在使用电子设备。
在一个可能的示例中,上述步骤101,获取目标对象的目标应用的应用数据,可以包括如下步骤:
11、获取所述目标对象的目标应用的至少一个用户ID;
12、依据所述至少一个用户ID从预设数据库中获取所述目标对象在预设时间段内的目标应用的应用数据。
其中,上述预设时间段可以由用户自行设置或者系统默认,预设时间段可以理解为最近使用电子设备的一段时间,或者,从注册至少一个用户ID中的任一用户ID到当前时间之间的一段时间,目标对象可以为机主,本申请实施例中,用户ID可以为以下至少一种:电话号码、集成电路卡识别码(Integrate circuit card identity,ICCID)、国际移动设备识别码(International Mobile Equipment Identity,IMEI)、单点登录ID(Single Sign On identification,SSOID)、第三方应用的ID、oppenId等等,在此不做限定。
进一步地,电子设备可以获取电子设备中被使用过的目标应用的至少一个用户ID,进而,依据该至少一个用户ID可以确定电子设备中的目标应用数据,当然,电子设备中可以存储目标应用相关的所有数据,例如,缓存数据、应用运行状态数据,等等,但是,本申请实施例中,可以仅仅只提取与用户ID相关的应用数据。
进一步地,在所述至少一个用户ID为自然人ID时,上述步骤101之前,还可以包括如下步骤:
A1、获取所述目标对象对应的电子设备的所述目标应用的历史使用数据;
A2、依据所述历史使用数据构建出多维特征层和ID-mapping关系层;
A3、依据所述多维特征层和所述ID-mapping关系层确定出自然人ID,将所述自然人ID作为所述目标用户ID。
其中,历史用户数据可以理解为用户从第一次使用在电子设备使用目标应用到当前时间所对应的使用数据,或者,目标对象的至少一个用户ID对应的全部使用数据,历史使用数据可以包括以下至少一种:注册应用数据、应用缓存数据或者即时通讯数据等等,在此不做限定,例如,应用数据可以包括:用户的cookie、APP端浏览行为标识ID、以及账号ID等用户身份标识的用户ID,上述用户数据还可以为以下至少一种:CPU工作频率、CPU核数、CPU工作模式、GPU帧率、GPU分辨率、设备亮度、设备声音、内存参数中的部分参数或者全部参数。其中,该用户身份标识的用户ID的性质可以为设备硬件ID或字符标识。
具体实现中,如图1C所示,电子设备可以获取目标对象对应的目标应用的历史使用数据,历史使用数据可以从数据源获取,数据源可以包括以下至少一种:浏览器、软件商店、账号体系、高德数据、购物数据、通讯数据、游戏数据、社交数据、办公数据、智能家居数据等等在此不作限定。可以依据该历史使用数据得到ID-MAPPing关系层数据,ID-MAPPing关系层数据可以包括以下至少一种:OSSID<->IMEI(OSSID与IMEI之间的映射关系)、TEL<->IMEI、OppenId<->ICCID等等,在此不作限定,还可以依据历史使用数据得到多维特征层数据,多维特征层数据可以包括以下至少一种:设备特征、APP特征、定位特征等等,在此不作限定,依据多维特征层和ID-mapping关系层可以确定出自然人ID每一个自然人ID可以对应一个用户画像,如图1D所示,用户画像可以包括以下至少一项内容:人口属性、人地关系、兴趣爱好、设备属性、资产情况、商业兴趣等等,在此不作限定。
另外,上述设备特征可以包括以下至少一种:设备自身属性(如设备日活打点、机型配置、激活日期等等)、网络连接情况(如:WIFI连接、网络IP、基站、连接度分布等等)、ID自身属性(如ID格式、字符长度等等)等等,在此不作限定。APP特征可以包括以下至少一种:APP安装、启动、卸载、APP类型偏好(如游戏、应用)、APP常活跃时段(工作日、假期等)等等,在此不作限定,定位特征可以包括以下至少一种:位置属性(例如,家或公司、常驻商圈、常活跃地)、出行偏好(例如,出行方式、出行时间、出行频次、出行轨迹等等)、POI偏好(POI到达、POI搜索)。
102、对所述应用数据进行ID提取,得到多个用户ID,以及每一用户ID对应的关联 数据。
其中,应用数据中可以包括多个用户ID,即用户在使用设备与另一用户进行通信时,应用数据中则可以记录该另一用户的用户ID。关联数据可以为以下至少一种:用户等级、积分消耗、活跃度、偏好类型、上线时间、在线时间、操作习惯、通信次数、通信时间、用户ID等等。
在一个可能的示例中,上述步骤102,对所述应用数据进行ID提取,得到多个用户ID,以及每一ID对应的关联数据,得到多个用户ID,可以包括如下步骤:
21、依据预设ID关键字对所述应用数据进行搜索,得到多个ID;
22、对所述多个ID进行整合,所述多个用户ID,每一用户ID对应一自然人;
23、从所述应用数据中获取所述多个用户ID对应的关联数据,得到所述多个用户ID中每一用户ID对应的关联数据。
其中,上述预设ID关键字理解为特定格式的关键字,例如,用户名:xxx,则xxx为关键字,特定格式可以由系统默认。具体实现中,电子设备可以依据预设ID关键字对应用数据进行搜索,得到多个ID,还可以对多个ID进行整合,得到多个用户ID,整合具体算法可以为聚类算法,还可以是局部敏感哈希算法等等,在此不作限定,接着,可以从应用数据中获取多个用户ID对应的关联数据,关联数据即可以理解为与用户ID相关的数据,得到多个用户ID中每一用户ID对应的关联数据。
103、通过局部敏感哈希算法对所述多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶包括至少一个用户ID的关联数据。
其中,局部敏感哈希是近似最近邻搜索算法中最流行的一种,它有坚实的理论依据并且在高维数据空间中表现优异。它的主要作用就是从海量的数据中挖掘出相似的数据,可以具体应用到文本相似度检测、网页搜索等领域,其基本思想类似于一种空间域转换思想,LSH算法基于一个假设,如果两个文本在原有的数据空间是相似的,那么分别经过哈希函数转换以后的它们也具有很高的相似度;相反,如果它们本身是不相似的,那么经过转换后它们应仍不具有相似性。
具体实现中,电子设备可以通过局部哈希敏感算法对多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶对应至少一个用户ID的关联数据。
举例说明下,局部敏感哈希(Locality-Sensitive Hashing,LSH)的基本思想是,用一系列函数将数据哈希到桶中,这样彼此接近的数据点处于相同的桶中可能性就会很高,而彼此相距很远的数据点很可能处于不同的桶中。以计算用户间的亲密度为例,如果亲密度较高的用户都以较大概率分到同一个桶内,如图1E所示:1、2、3、4、5可以表示5个不同的用户ID。进一步地,如图1F所示,在经过分桶后,1、2可以放在一个桶里,3、4可以放在一个桶里,5可以单独放在一个桶里。每个用户所在的“用户集”就会相对小一些,因为只需要计算桶内用户集的亲密度,就可以降低用户亲密度计算的复杂度,然后再通过排序后,以及一些规则,可以根据相应的亲密度来对用户的好友进行分类。
104、基于所述多个桶中的用户ID的关联数据将所述多个用户ID进行群组划分,得到多个群组。
其中,由于每个桶中的用户ID之间,本身有一定的关联性,因而,可以再对这些用户 ID进一步划分,可以得到精准的群组。
在一个可能的示例中,上述步骤104,基于所述多个桶中的用户ID的关联数据将所述多个用户ID进行群组划分,得到多个群组,可以包括如下步骤:
41、依据第i个桶中每一用户ID的关联数据确定该用户ID与所述目标用户ID之间的关联度,得到多个关联度,所述第i个桶为所述多个桶中的任意一个桶;
42、从所述多个关联度中选取大于预设阈值的关联度,得到至少一个目标关联度;
43、将所述至少一个目标关联度对应的用户ID作为一个群组。
其中,预设阈值可以由用户自行设置或者系统默认。以第i个桶为例,该第i个桶为上述多个桶中的任意一个桶,电子设备可以依据第i个桶中每一用户ID的关联数据确定该用户ID与目标用户ID之间的关联度,得到多个关联度,进而,再从多个关联度中选取大于预设阈值的关联度,得到至少一个目标关联度,可以将该至少一个目标关联度对应的ID作为一个群体,即将每个桶中相似度高的一些用户ID作为一个群体。
进一步可选地,上述步骤41,依据第i个桶中每一用户ID的关联数据确定该用户ID与所述目标用户ID之间的关联度,得到多个关联度,可以包括如下步骤:
411、获取第一用户ID的关联数据,所述第一用户ID为所述第i个桶中的任意一个用户ID;
412、对所述第一用户ID的关联数据进行特征提取,得到目标特征集;
413、依据所述目标特征集确定所述第一用户ID与所述目标用户ID之间的关联度。
其中,以第一用户ID为例,该第一用户ID为第i个桶中的任意一个用户ID,电子设备可以获取第一用户ID的关联数据,对该第一用户ID进行特征提取,目标特征集可以包括以下至少一种:地理位置、通信时间段、通信内容、通信次数等等,在此不作限定,当然,上述每一维度的特征均可以采用一个特征值进行表示。进而,可以依据目标特征集确定第一用户ID和目标用户ID之间的关联度。例如,可以确定目标特征集中每一特征对应的权重值,再基于每一特征以及其对应的权重值进行加权运算,可以得到第一用户ID与目标用户ID之间的关联度。
在一个可能的示例中,所述目标特征集包括多个维度的特征值;上述步骤413依据所述目标特征集确定所述第一用户ID与所述目标用户ID之间的关联度,可以包括如下步骤:
B1、确定所述多个维度的特征值中每一维度对应的权重值,得到多个维度的权重值;
B2、依据所述多个维度的特征值以及所述多个维度的权重值进行加权运算,得到所述第一用户ID与所述目标用户ID之间的关联度。
其中,目标特征集可以包括多个维度的特征集,电子设备中可以预先存储每一维度的特征值对应的权重值,进而,可以确定多个维度的特征值中每一维度对应的权重值,得到多个维度的权重值,进而,可以依据多个维度的特征值以及多个维度的权重值进行加权运算,得到第一用户ID与目标用户ID之间的关联度。
在一个可能的示例中,上述步骤413,依据所述目标特征集确定所述第一用户ID与所述目标用户ID之间的关联度,可以包括如下步骤:
C1、依据所述目标特征集分离出所述第一用户ID对应的第一特征集,以及所述目标用户ID对应的第二特征集;
C2、依据所述第一特征集和所述第二特征集确定所述第一用户ID与所述目标用户ID之间的关联度。
其中,由于目标特征集中即包含了第一用户ID的特征,也包括了目标用户ID的特征,进而,可以对该目标特征集进行分离,得到第一用户ID对应的第一特征集,和目标用户ID对应的第二特征集,第一特征集与第二特征集之间可以存在交集,第一特征集、第二特征集均可以包括以下至少一种特征:用户等级、积分消耗、活跃度、偏好类型、上线时间、在线时间、操作习惯、通信次数、通信时间、用户ID等等,在此不作限定,进而,可以依据第一特征集和第二特征集确定第一用户ID与目标用户ID之间的关联度。
例如,可以通过欧式距离计算第一用户ID与目标用户ID之间的关联度,具体如下:
其中,p表示第一特征集,q表示第二特征集,i表示任一维度。
又例如,可以通过Jaccard距离计算第一用户ID与目标用户ID之间的关联度,具体如下:
其中,p表示第一特征集,q表示第二特征集。
又例如,可以通过余弦距离计算第一用户ID与目标用户ID之间的关联度,具体如下:
其中,p表示第一特征集,q表示第二特征集。
在一个可能的示例中,每一用户ID至少对应一个标签,所述上述步骤104之后,还可以包括如下步骤:
D1、获取群组j中的用户ID对应的标签,得到多个标签,所述群组j为所述多个群组中的任一群组;
D2、将所述多个标签中出现次数最多的标签作为所述群组j的群组名称。
具体实现中,每一用户ID至少可以对应一个标签,该标签可以为用户画像的标签。标签可以为以下至少一种:年龄、职业、收入、兴趣爱好等等,在此不作限定,进而,电子设备可以获取群组j中的用户ID对应的标签,得到多个标签,群组j为多个群组中的任一群组,进而,可以将多个标签中出现次数最多的标签作为群组j的群组名称。
具体实现中,在互联网时代,对于任何数据平台来说,拥有大量的用户以及其所产生的数据是一件非常幸福的事情,然而大量的数据也会带来一些幸福的烦恼,一方面,大量的数据需要大量的存储空间,另外一方面,要将数据转化成真正的数据资产就意味着大量的计算资源,如果不能合理的利用资源,将对企业产生极大的损失。基于上述本申请实施例,无论是用户识别还是用户数据分类,大量用户的相似度或者亲密度计算都是需要大量计算资源的过程,由于局部敏感哈希算法,该算法相对于常规方法而言,可以显著降低所 需要的计算资源和时间。
进一步地,局部敏感哈希算法不仅单单用在用户识别和用户数据分类中,而且对于许多需要相似度计算的领域其实都应用,例如好友推荐,文档相似度等,在推荐中,可以通过LSH计算相似用户,以及相似的商品,它同样可以节约大量的计算资源,从而完成对用户的精准推荐以及提升推荐效率。
可以看出,上述本申请实施例所描述的数据分类方法,获取目标对象的目标应用的应用数据,以及获取目标对象的目标用户ID,对应用数据进行ID提取,得到多个用户ID,以及每一用户ID对应的关联数据,通过局部敏感哈希算法对多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶包括至少一个用户ID的关联数据,基于多个桶中的用户ID的关联数据将多个用户ID进行群组划分,得到多个群组,如此,能够从应用数据中提取多个用户ID,且通过局部敏感哈希算法对该多个用户ID进行分桶处理,最后基于每个桶内的ID进行群组划分,可以降低计算的复杂度,节约相应的时间和计算资源,提升了数据分类效率。
与上述一致地,请参阅图2,图2是本申请实施例提供的另一种数据分类方法的流程示意图,本实施例中所描述的数据分类方法,应用于如图1A所示的电子设备,该方法可包括以下步骤:
201、获取目标对象的目标应用的应用数据,以及获取所述目标对象的目标用户ID。
202、对所述应用数据进行ID提取,得到多个用户ID,以及每一用户ID对应的关联数据。
203、通过局部敏感哈希算法对所述多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶包括至少一个用户ID的关联数据。
204、基于所述多个桶中的用户ID的关联数据将所述多个用户ID进行群组划分,得到多个群组。
205、获取群组j中的用户ID对应的标签,得到多个标签,所述群组j为所述多个群组中的任一群组。
206、将所述多个标签中出现次数最多的标签作为所述群组j的群组名称。
其中,上述步骤201-206的具体实现过程可参照图1B所示的方法中相应的描述,在此不再赘述。
可以看出,上述本申请实施例所描述的数据分类方法,获取目标对象的目标应用的应用数据,以及获取目标对象的目标用户ID,对应用数据进行ID提取,得到多个用户ID,以及每一用户ID对应的关联数据,通过局部敏感哈希算法对多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶包括至少一个用户ID的关联数据,基于多个桶中的用户ID的关联数据将多个用户ID进行群组划分,得到多个群组,获取群组j中的用户ID对应的标签,得到多个标签,群组j为多个群组中的任一群组,将多个标签中出现次数最多的标签作为群组j的群组名称,如此,能够从应用数据中提取多个用户ID,且通过局部敏感哈希算法对该多个用户ID进行分桶处理,最后基于每个桶内的ID进行群组划分,还可以实现对群组进行命名,可以降低计算的复杂度,节约相应的时间和计算资源,提升了数据分 类效率。
与上述一致地,请参阅图3,为本申请实施例提供的另一种数据分类方法的实施例流程示意图,本实施例中所描述的数据分类方法,应用于如图1A的电子设备,本方法可包括以下步骤:
301、获取目标对象对应的电子设备的所述目标应用的历史使用数据。
302、依据所述历史使用数据构建出多维特征层和ID-mapping关系层。
303、依据所述多维特征层和所述ID-mapping关系层确定出自然人ID,将所述自然人ID作为所述目标用户ID。
304、获取所述目标对象的目标应用的应用数据,以及获取所述目标对象的目标用户ID。
305、对所述应用数据进行ID提取,得到多个用户ID,以及每一用户ID对应的关联数据。
306、通过局部敏感哈希算法对所述多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶包括至少一个用户ID的关联数据。
307、基于所述多个桶中的用户ID的关联数据将所述多个用户ID进行群组划分,得到多个群组。
其中,上述步骤301-307的具体实现过程可参照图1B所示的方法中相应的描述,在此不再赘述。
可以看出,上述本申请实施例所描述的数据分类方法,可以先获取用户对象的自然ID,基于自然ID,获取目标对象的目标应用的应用数据,对应用数据进行ID提取,得到多个用户ID,以及每一用户ID对应的关联数据,通过局部敏感哈希算法对多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶包括至少一个用户ID的关联数据,基于多个桶中的用户ID的关联数据将多个用户ID进行群组划分,得到多个群组,如此,能够从应用数据中提取多个用户ID,且通过局部敏感哈希算法对该多个用户ID进行分桶处理,最后基于每个桶内的ID进行群组划分,可以降低计算的复杂度,节约相应的时间和计算资源,提升了数据分类效率。
与上述一致地,请参阅图4,图4是本申请实施例提供的一种电子设备,包括:处理器和存储器;以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置成由所述处理器执行,所述程序包括用于执行以下步骤的指令:
获取目标对象的目标应用的应用数据,以及获取所述目标对象的目标用户ID;
对所述应用数据进行ID提取,得到多个用户ID,以及每一用户ID对应的关联数据;
通过局部敏感哈希算法对所述多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶包括至少一个用户ID的关联数据;
基于所述多个桶中的用户ID的关联数据将所述多个用户ID进行群组划分,得到多个群组。
可以看出,上述本申请实施例所描述的电子设备,获取目标对象的目标应用的应用数据,以及获取目标对象的目标用户ID,对应用数据进行ID提取,得到多个用户ID,以及 每一用户ID对应的关联数据,通过局部敏感哈希算法对多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶包括至少一个用户ID的关联数据,基于多个桶中的用户ID的关联数据将多个用户ID进行群组划分,得到多个群组,如此,能够从应用数据中提取多个用户ID,且通过局部敏感哈希算法对该多个用户ID进行分桶处理,最后基于每个桶内的ID进行群组划分,可以降低计算的复杂度,节约相应的时间和计算资源,提升了数据分类效率。
在一个可能的示例中,在所述对所述应用数据进行ID提取,得到多个用户ID,以及每一ID对应的关联数据,得到多个用户ID方面,所述程序包括用于执行以下步骤的指令:
依据预设ID关键字对所述应用数据进行搜索,得到多个ID;
对所述多个ID进行整合,所述多个用户ID,每一用户ID对应一自然人;
从所述应用数据中获取所述多个用户ID对应的关联数据,得到所述多个用户ID中每一用户ID对应的关联数据。
在一个可能的示例中,在所述基于所述多个桶中的用户ID的关联数据将所述多个用户ID进行群组划分,得到多个群组方面,所述程序包括用于执行以下步骤的指令:
依据第i个桶中每一用户ID的关联数据确定该用户ID与所述目标用户ID之间的关联度,得到多个关联度,所述第i个桶为所述多个桶中的任意一个桶;
从所述多个关联度中选取大于预设阈值的关联度,得到至少一个目标关联度;
将所述至少一个目标关联度对应的用户ID作为一个群组。
在一个可能的示例中,在所述依据第i个桶中每一用户ID的关联数据确定该用户ID与所述目标用户ID之间的关联度,得到多个关联度方面,所述程序包括用于执行以下步骤的指令:
获取第一用户ID的关联数据,所述第一用户ID为所述第i个桶中的任意一个用户ID;
对所述第一用户ID的关联数据进行特征提取,得到目标特征集;
依据所述目标特征集确定所述第一用户ID与所述目标用户ID之间的关联度。
在一个可能的示例中,所述目标特征集包括多个维度的特征值;
在所述依据所述目标特征集确定所述第一用户ID与所述目标用户ID之间的关联度方面,所述程序包括用于执行以下步骤的指令:
确定所述多个维度的特征值中每一维度对应的权重值,得到多个维度的权重值;
依据所述多个维度的特征值以及所述多个维度的权重值进行加权运算,得到所述第一用户ID与所述目标用户ID之间的关联度。
在一个可能的示例中,在所述依据所述目标特征集确定所述第一用户ID与所述目标用户ID之间的关联度方面,所述程序包括用于执行以下步骤的指令:
依据所述目标特征集分离出所述第一用户ID对应的第一特征集,以及所述目标用户ID对应的第二特征集;
依据所述第一特征集和所述第二特征集确定所述第一用户ID与所述目标用户ID之间的关联度。
在一个可能的示例中,在所述获取目标对象的目标应用的应用数据方面,所述程序包括用于执行以下步骤的指令:
获取所述目标对象的目标应用的至少一个用户ID;
依据所述至少一个用户ID从预设数据库中获取所述目标对象在预设时间段内的目标应用的应用数据。
在一个可能的示例中,在所述至少一个用户ID为自然人ID时,所述程序还包括用于执行以下步骤的指令:
获取所述目标对象对应的电子设备的所述目标应用的历史使用数据;
依据所述历史使用数据构建出多维特征层和ID-mapping关系层;
依据所述多维特征层和所述ID-mapping关系层确定出自然人ID,将所述自然人ID作为所述目标用户ID。
在一个可能的示例中,每一用户ID至少对应一个标签,所述程序还包括用于执行以下步骤的指令:
获取群组j中的用户ID对应的标签,得到多个标签,所述群组j为所述多个群组中的任一群组;
将所述多个标签中出现次数最多的标签作为所述群组j的群组名称。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
请参阅图5A,图5A是本实施例提供的一种数据分类装置的结构示意图。该数据分类装置应用于如图1A所示的电子设备,所述数据分类装置包括获取单元501、提取单元502、分桶处理单元503和划分单元504,其中,
获取单元501,用于获取目标对象的目标应用的应用数据,以及获取所述目标对象的目标用户ID;
提取单元502,用于对所述应用数据进行ID提取,得到多个用户ID,以及每一用户ID对应的关联数据;
分桶处理单元503,用于通过局部敏感哈希算法对所述多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶包括至少一个用户ID的关联数据;
划分单元504,用于基于所述多个桶中的用户ID的关联数据将所述多个用户ID进行群组划分,得到多个群组。
可以看出,上述本申请实施例所描述的数据分类装置,获取目标对象的目标应用的应用数据,以及获取目标对象的目标用户ID,对应用数据进行ID提取,得到多个用户ID,以及每一用户ID对应的关联数据,通过局部敏感哈希算法对多个用户ID的关联数据进行分桶处理,得到多个桶,每一桶包括至少一个用户ID的关联数据,基于多个桶中的用户ID的关联数据将多个用户ID进行群组划分,得到多个群组,如此,能够从应用数据中提取多个用户ID,且通过局部敏感哈希算法对该多个用户ID进行分桶处理,最后基于每个桶内的ID进行群组划分,可以降低计算的复杂度,节约相应的时间和计算资源,提升了数据分类效率。
在一个可能的示例中,在所述对所述应用数据进行ID提取,得到多个用户ID,以及每一ID对应的关联数据,得到多个用户ID方面,所述提取单元502具体用于:
依据预设ID关键字对所述应用数据进行搜索,得到多个ID;
对所述多个ID进行整合,所述多个用户ID,每一用户ID对应一自然人;
从所述应用数据中获取所述多个用户ID对应的关联数据,得到所述多个用户ID中每一用户ID对应的关联数据。
在一个可能的示例中,在所述基于所述多个桶中的用户ID的关联数据将所述多个用户ID进行群组划分,得到多个群组方面,所述划分单元504具体用于:
依据第i个桶中每一用户ID的关联数据确定该用户ID与所述目标用户ID之间的关联度,得到多个关联度,所述第i个桶为所述多个桶中的任意一个桶;
从所述多个关联度中选取大于预设阈值的关联度,得到至少一个目标关联度;
将所述至少一个目标关联度对应的用户ID作为一个群组。
在一个可能的示例中,在所述依据第i个桶中每一用户ID的关联数据确定该用户ID与所述目标用户ID之间的关联度,得到多个关联度方面,所述划分单元504具体用于:
获取第一用户ID的关联数据,所述第一用户ID为所述第i个桶中的任意一个用户ID;
对所述第一用户ID的关联数据进行特征提取,得到目标特征集;
依据所述目标特征集确定所述第一用户ID与所述目标用户ID之间的关联度。
在一个可能的示例中,所述目标特征集包括多个维度的特征值;
在所述依据所述目标特征集确定所述第一用户ID与所述目标用户ID之间的关联度方面,所述划分单元504集体用于:
确定所述多个维度的特征值中每一维度对应的权重值,得到多个维度的权重值;
依据所述多个维度的特征值以及所述多个维度的权重值进行加权运算,得到所述第一用户ID与所述目标用户ID之间的关联度。
在一个可能的示例中,在所述依据所述目标特征集确定所述第一用户ID与所述目标用户ID之间的关联度方面,所述划分单元504具体用于:
依据所述目标特征集分离出所述第一用户ID对应的第一特征集,以及所述目标用户ID对应的第二特征集;
依据所述第一特征集和所述第二特征集确定所述第一用户ID与所述目标用户ID之间的关联度。
在一个可能的示例中,在所述获取目标对象的目标应用的应用数据方面,所述获取单 元501具体用于:
获取所述目标对象的目标应用的至少一个用户ID;
依据所述至少一个用户ID从预设数据库中获取所述目标对象在预设时间段内的目标应用的应用数据。
在一个可能的示例中,如图5B所示,图5B为图5A所示的数据分类方法的又一变型结构,其与图5A相比较,还包括:建立单元505和确定单元506,具体如下:
所述获取单元501,还用于获取所述目标对象对应的电子设备的所述目标应用的历史使用数据;
所述建立单元505,用于依据所述历史使用数据构建出多维特征层和ID-mapping关系层;
所述确定单元506,用于依据所述多维特征层和所述ID-mapping关系层确定出自然人ID,将所述自然人ID作为所述目标用户ID。
在一个可能的示例中,每一用户ID至少对应一个标签,如图5C所示,图5C为图5A所示的数据分类方法的又一装置,其与图5A相比较,还包括:选取单元507,具体如下:
所述获取单元501,用于获取群组j中的用户ID对应的标签,得到多个标签,所述群组j为所述多个群组中的任一群组;
所述选取单元507,用于将所述多个标签中出现次数最多的标签作为所述群组j的群组名称。
可以理解的是,本实施例的数据分类装置的各程序模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种数据传输方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种数据传输方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之 间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。