WO2024001102A1

WO2024001102A1 - 一种通信行业家庭圈智能识别的方法、装置及设备

Info

Publication number: WO2024001102A1
Application number: PCT/CN2022/141223
Authority: WO
Inventors: 谢国城; 张伟斌; 陈静旋; 徐少强; 杜昭; 贾雪飞; 廖小文
Original assignee: 广东亿迅科技有限公司
Priority date: 2022-06-30
Filing date: 2022-12-23
Publication date: 2024-01-04
Also published as: CN115048472A

Abstract

一种通信行业家庭圈智能识别的方法、装置及设备，涉及通信技术领域，解决传统的家庭圈识别模型实用性差、准确率低的技术问题，方法包括：从数据库中提取宽带dpi类数据，通过聚类分析对比得到宽带分类模型结果；从数据库中提取有通话行为的号码对，获取号码对的通话行为数据和号码的位置数据，关联用户wifi解析分类数据得到初始宽表数据；稽核初始宽表数据字段质量及分布情况并进行填充、替换处理得到预处理数据；从预处理数据中选取正样本、负样本，并输入树算法模型进行训练得到家庭圈智能识别模型；使用家庭圈智能识别模型预测实际数据的家庭关系概率，并采用知识图谱的知识采集、知识推理步骤来创建家庭单元和可视化展示。

Description

一种通信行业家庭圈智能识别的方法、装置及设备

一种通信行业家庭圈智能识别的方法、装置及设备。

本发明涉及通信技术领域，更具体地说，它涉及一种通信行业家庭圈智能识别的方法、装置及设备。

家庭市场是通信行业重点竞争的市场之一，随着全业务、融合套餐的发展，家庭市场越来越重要，同时家庭市场拥有广阔的增长空间，除了手机通信卡、异网拉新等业务外，还有家庭宽带以及建构在宽带上的IPTV、家庭智能设备等全产业链的开拓和布局。因此准确识别家庭成员关系，具有非常重要的现实意义。基于家庭市场的开拓需要，对家庭用户的识别是重点之一。现有的家庭用户识别模型，往往是基于用户的通话记录等数据构建“社交网络”模型，通过“社群发现”算法挖掘紧密联系的群体作为疑似家庭客户。做法一般是：通过用户的通话记录作为构建连线的依据；确定用户间的连线关系后，利用社群划分算法等划分出联系紧密的社群，以此作为疑似家庭客户。传统的家庭圈识别模型使用通话行为作为两个号码配对的依据，存在以下缺点：一是建立的家庭成员关系容易受到出度入度较大的中间节点干扰，如房产中介、外卖员、快递员这类需要以通话维系客户关系为手段的人群,在进行社群划分时由于这些中间节点的存在，容易将两个非家庭成员群体划分为同一家庭;二是传统模型仅识别号码对家庭关系，针对3人、4人家庭成员关系识别不够充分；三是忽略宽带dpi信息，家庭成员共同连接宽带信息，是识别家庭关系的重要指标，因此传统模型识别的依据不够全面，得到的结果稳定性差、准确率低。

本发明要解决的技术问题是针对现有技术的上述不足，本发明的目的是提供一种通信行业家庭圈智能识别的方法、装置及设备，以解决传统模型识别的依据不够全面，得到的结果稳定性差、准确率低的问题。

本发明提供一种通信行业家庭圈智能识别的方法，包括：设计宽带分类模型宽表需求，并从数据库中提取宽带dpi类数据；对所述宽带dpi类数据进行去极值和MinMax标准化处理后，进行聚类分析对比得到宽带分类模型结果；从数据库中提取有通话行为的号码对，获取号码对的通话行为数据和号码的位置数据；将所述通话行为数据和号码的位置数据关联所述宽带分类模型结果，并计算不同配对号码在其中的重合度得到初始宽表数据；检验所述初始宽表数据的字段质量及分布情况，对字段的缺失值、异常值进行处理，再对变量两两进行相关系数检验，对检验未通过的变量对，计算iv值，剔除变量对中iv值较低的变量，最后得到预处理数据；从所述预处理数据中选取全部正样本，并抽取设定比例的负样本；将所述正样本、负样本输入决策树算法模型进行训练得到家庭圈智能识别模型；使用所述家庭圈智能识别模型预测实际数据的家庭关系概率，对概率大于设定阈值的家庭圈打上潜在家庭圈标签。作为进一步地改进，将所述家庭圈智能识别模型的预测结果和原始数据进一步整合，并导入知识图谱中得到家庭关系图谱。进一步地，将所述正样本、负样本输入多种决策树算法模型进行训练得到多种预选模型，使用测试样本对各预选模型的效果进行测试，通过评价指标对各预选模型的性能进行评估，以及对各预选模型的结果进行stacking处理得到家庭圈智能识别模型。进一步地，多种决策树算法模型至少包括LightGBM、RandomForest、xgboost算法模型。进一步地，采用五折交叉验证方法来对所述家庭圈智能识别模型进行模型预测稳健性综合评估。进一步地，所述正样本的号码对之间同时满足以下3个条件：存在主副卡关系、有通话行为、同一常住小区或同一常连宽带wifi账号下；所述负样本为非主副卡关系的号码对。进一步地，使用K-means算法进行聚类分析对比得到宽带分类模型结果的3个类别：家庭wifi、工作场所wifi、消费场所wifi。进一步地，所述宽带dpi类数据包括：宽带账号、连接设备数、连接设备平均使用时长、新增连接设备数、减少连接设备数、平均设备连接频率、7:00-21:00连接设备数占比、21:00-7:00连接设备数占比字段。本发明提供一种通信行业家庭圈智能识别的装置，包括：第一获取模块，用于从数据库中提取宽带dpi类数据，对所述宽带dpi类数据进行去极值和MinMax标准化处理后，进行聚类分析对比得到宽带分类模型结果；第二获取模块，用于从数据库中提取有通话行为的号码对，获取号码对的通话行为数据和号码的位置数据。

预处理模块，用于将所述通话行为数据和号码的位置数据关联所述宽带分类模型结果，并计算不同配对号码在其中的重合度得到初始宽表数据；检验所述初始宽表数据的字段质量及分布情况，对字段的缺失值、异常值进行处理，再对变量两两进行相关系数检验，对检验未通过的变量对，计算iv值，剔除变量对中iv值较低的变量，最后得到预处理数据；训练模块，用于从所述预处理数据中选取全部正样本，并抽取设定比例的负样本；将所述正样本、负样本输入决策树算法模型进行训练得到家庭圈智能识别模型；预测模块，用于使用所述家庭圈智能识别模型预测实际数据的家庭关系概率，对概率大于设定阈值的家庭圈打上潜在家庭圈标签。本发明提供一种电子设备，所述设备包括处理器以及存储器：所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；所述处理器用于根据所述程序代码中的指令执行上述的一种通信行业家庭圈智能识别的方法。

本发明与现有技术相比，具有的优点为：1、通过通话行为、wifi解析、位置信令数据等多维度来洞察家庭关联关系，并利用已有的主副卡关系来定义家庭圈正负样本，设计了一种合理的家庭圈识别的方案。2、通过宽带dpi解析，利用聚类的方法将wifi分为3大类，将号码对在每一类wifi重合度作为标签，进入模型，从而提高模型效果。3、通过知识图谱来进一步分析家庭成员的组成结构是否合理，从侧面来验证家庭关系识别模型的可靠性。在原有的数据信息的基础上，对数据进行再加工、分析和关联，有效的保证模型识别结果的可用性，发挥了大数据的应用价值。4、通过对号码对之间的家庭关系识别，从知识图谱进一步分析出家庭单元，避免了家庭圈识别关系只停留在操作上，而是把实际的家庭圈关系精准地刻画出来，为本网维稳、异网策反提供了数据支撑，有效降低损失和提升收入。附图说明。图1为本发明中识别wifi分类的流程图。图2为本发明的流程图。图3为本发明中的聚类结果雷达图。图4为本发明中五折交叉验证的示例图。图5为本发明中各模型的ROC曲线图。图6为本发明中家庭单元识别流程图。图7为本发明中的家庭关系图谱。

下面结合附图中的具体实施例对本发明做进一步的说明。参阅图1-7，一种通信行业家庭圈智能识别的方法，包括：设计宽带分类模型宽表需求，并从数据库中提取宽带dpi类数据，宽带dpi类数据包括：宽带账号、连接设备数、连接设备平均使用时长、新增连接设备数、减少连接设备数、平均设备连接频率、7:00-21:00连接设备数占比、21:00-7:00连接设备数占比字段，如表1所示。

。

对宽带dpi类数据进行去极值和MinMax标准化处理后，进行聚类分析对比得到宽带分类模型结果。优选的，采用盖帽法去极值和MinMax标准化，使用K-means算法进行聚类分析对比，通过肘部分析法确定K值在3往后聚类误差平方和越来越稳定，因此本实施例K=3，获得雷达图如图3所示，得到宽带分类模型结果的3个类别：家庭wifi、工作场所wifi、消费场所wifi。用户wifi的特点是连接设备数少、频率高、时长高、上网间主要为非工作时间；工作场所wifi的特点是连接设备数多、频率高、时长高、上网时间主要为工作时间；消费场所wifi的特点是连接设备数多、时长低、大量流入\流出设备。从数据库中提取有通话行为的号码对，可以提取设定时段内有通话行为的号码对，如当月内的，或3个月内的，获取号码对的通话行为数据和号码的位置数据。将通话行为数据和号码的位置数据关联宽带分类模型结果，并计算不同配对号码在其中的重合度得到初始宽表数据；如表2所示。其中，通话行为：月通话次数、月通话天数、日均通话次数、近3个月通话次数变异系数、近3个月通话次数趋势、工作日通话次数、工作日通话天数、工作日通话时长、休息日与节假日通话次数、休息日与节假日通话天数、休息日与节假日通话时长、工作日非工作时间（21:00-7:00）段通话次数、工作日非工作时间（21:00-7:00）段通话天数、工作日非工作时间（21:00-7:00）段通话时长、短时通话次数（通话时间小于60s）、休息日与节假日通话次数标准差/工作日工作时间段通话次数标准差、通话圈重合度、是否核心交往圈（半年内每月持续互通电话）、通话最短时长、通话最长时长；位置数据：夜间（0:00-6:00）基站相同个数、常驻top10相同基站个数、工作日常驻top10基站相同个数、工作日非工作时间（21:00-7:00）常驻top10基站相同个数、工作日工作时间（7:00-21:00）常驻top10基站相同个数、节假日常驻top10基站相同个数。

。

检验所述初始宽表数据的字段质量及分布情况，对字段的缺失值、异常值进行处理，例如，工作日非工作时间通话次数、工作日非工作时间通话天数两个字段存在缺失值，通过对数据分布特征分析，对符合正态分布的工作日非工作时间通话次数用均值进行填补；对左偏分布的工作日非工作时间通话天数，用中位数进行填补。还对各号码字段的异常值进行处理，对于通话最短时长字段出现负值情况，用大于0的最小值进行填补。为减少指标多重共线性影响，需要通过特征选择，筛选出最终入模特征。首先使用统计检验方法计算各变量与目标变量之间的P值（P值是用来判定假设检验结果的一个参数P值（P value）就是当原假设为真时，比所得到的样本观察结果更极端的结果出现的概率），初步筛选出P值小于0.05的变量。（注：其中连续变量使用皮尔逊相关系数检验，分类变量使用卡方检验。当P值小于0.05时，说明该变量对目标变量显著相关。）删除信息熵为0的变量，经过统计分析，是否终端互换字段取值均为“否”，入模没有意义，因此删除。删除相关性强的变量，对变量进行两两相关系数检验，p值设为0.05；对检验未通过的变量对，计算iv值（特征筛选之—iv值，定义：iv(infromation value)，信息价值，用来表示特征对目标预测的贡献程度，即特征的预测能力，一般来说，iv值越高，该特征的预测能力越强，信息贡献程度越高），剔除变量对中iv值较低的变量，最后得到预处理数据。最终入模特征如表3所示。

从预处理数据中选取全部正样本，并抽取设定比例的负样本。具体的，预处理数据划分为70%训练数据和30%测试数据，以正样本：负样本=1:3～1:10，分别从训练数据和测试数据中抽取样本。将正样本、负样本输入决策树算法模型进行训练得到家庭圈智能识别模型。其中，正样本的号码对之间同时满足以下3个条件：存在主副卡关系、有通话行为、同一常住小区或同一常连宽带wifi账号下；负样本为非主副卡关系的号码对。使用家庭圈智能识别模型预测实际数据的家庭关系概率，对概率大于设定阈值的家庭圈打上潜在家庭圈标签。进一步地，将正样本、负样本输入多种决策树算法模型进行训练得到多种预选模型，使用测试样本对各预选模型的效果进行测试，通过评价指标对各预选模型的性能进行评估，如评价指标包括精确率、命中率、覆盖率、f1值、auc值、提升度、ROC曲线下面积，以及对各预选模型的结果进行stacking处理得到家庭圈智能识别模型。本实施中的多种决策树算法模型至少包括LightGBM、RandomForest、xgboost算法模型。最终确定的LightGBM、RandomForest、xgboost最优模型的主要参数如下。

。

使用上述参数，分别对同一份数据集进行训练，得到对应的预选模型。最终可以得到3个预选模型g_1^*、g_2^*、g_3^*，对模型结果进行软投票（概率平均）得到最终的家庭关系概率，即为家庭圈智能识别模型g。

进一步地，考虑到通话行为数据量较大，故采用五折交叉验证方法来进行模型预测稳健性综合评估，即根据设定好的训练集和测试集在不同的模型参数空间进行模型的评估与选择，使得模型的复杂度趋于合理，避免了模型的参数空间过于复杂，降低了模型过拟合的风险，使得模型在实际的线上应用时也能取得不错的预测效果。

[0024] 为了证明家庭圈智能识别模型g相较现有技术的优势，本实施例还使用LightGBM、RandomForest、xgboost算法、传统的家庭圈识别模型f，采用前述参数直接在表2所示数据上训练模型；然后采用一份具有已知标记的数据集用于测试各个模型（即g_1^*、g_2^*、g_3^*、f），计算ROC曲线下面积、绘制ROC曲线并进行比较。各模型ROC曲线下面积如表4所示，ROC曲线如图5所示。

。

从结果可以看出，经本发明创造所提出的技术得到的最终模g的ROC曲线下面积明显高于经现有技术得到的模型f的ROC曲线下面积，即本发明的技术效果更加优异。同时结合搜集运营商内部员工家庭号码作为验证数据也验证了这一点。在实际应用时，将新数据集中待预测用户的相关数据通过相同的特征工程操作，整理成表2的形式，然后将其中所含的特征分别输入三个模型，可以输出3个代表待测号码对属于家庭圈的概率取其均值即可作为最终的概率值输出。本实施例将潜在家庭圈概率阈值定在0.5，对概率大于该值的家庭圈打上潜在家庭圈标签。结果见表5。

。

进一步地，将家庭圈智能识别模型的预测结果和原始数据进一步整合，并导入知识图谱中得到家庭关系图谱。优选的，知识图谱为Neoj4。具体的，将家庭圈智能识别模型的预测结果和原始数据进一步整合形成输入Neoj4符合的数据样式，其中家庭圈人物关系及关系概率信息、人物属性信息如表6、7所示。

。

将上述数据信息放入到本地Neo4j的import文件，加载数据后执行程序进行数据可视化得到家庭关系图谱，如图7所示，可以方便查看人物关系。根据家庭关系图谱结果进一步分析多人家庭图谱关系，并以标签形式派送给营销人员，以便其有选择性地开展营销活动。在家庭关系图谱中，用“实体”来表达图中的节点，用“关系”来表达图中的“边”及“箭头指向”。其中，节点的出现的次数代表识别出与该用户有家庭关系的用户量，用户量越多，节点就越大，在网络中就会突出显示。用节点的颜色表示用户是否异网用户，若是异网用户则用红色标注，若是本网用户则用蓝色标注。并以边的粗细表示用户间通话次数多少，越粗代表了用户间的通话越频繁。以箭头指向表示用户对之间主被叫通话时长占比情况，以主叫占比高用户指向主叫占比低用户。通过以上步骤创建知识推理规则,完成知识推理,识别出家庭单元关系。分别依次创建知识推理规则,完成家庭关系推理，并通过进一步分析实际图谱结构发现，有效的家庭单元关系结构如表8所示。

。

若一个号码出现在5人家庭单元中，则该号码要从4、3、2人家庭单元剔除。4人家庭单元按同样的递归过程进行剔除。家庭单元的号码重复存在两种情况：一是不同单元包含共同号码，可以通过对比不同单元的概率和，优先选择概率和大的家庭单元；二是同一家庭单元有多种排列组合，只保留其中一条记录。在家庭圈的知识图谱网络中，采用属性图数据库Neo4j对其进行存储，这一数据库使用代替了传统全局索引的局部索引技术，以实现对图结构数据的组织，使得在查询实体的邻接实体、关系及其属性时，可以较大幅度的减少计算的空间复杂度，实现知识图谱的快速响应。一种通信行业家庭圈智能识别的装置，包括第一获取模块，用于从数据库中提取宽带dpi类数据，对宽带dpi类数据进行去极值和MinMax标准化处理后，进行聚类分析对比得到宽带分类模型结果；第二获取模块，用于从数据库中提取有通话行为的号码对，获取号码对的通话行为数据和号码的位置数据；预处理模块，用于将通话行为数据和号码的位置数据关联宽带分类模型结果，并计算不同配对号码在其中的重合度得到初始宽表数据；检验所述初始宽表数据的字段质量及分布情况，对字段的缺失值、异常值进行处理，再对变量两两进行相关系数检验，对检验未通过的变量对，计算iv值，剔除变量对中iv值较低的变量，最后得到预处理数据；训练模块，用于从预处理数据中选取全部正样本，并抽取设定比例的负样本；将正样本、负样本输入决策树算法模型进行训练得到家庭圈智能识别模型；预测模块，用于使用家庭圈智能识别模型预测实际数据的家庭关系概率，对概率大于设定阈值的家庭圈打上潜在家庭圈标签。一种电子设备，设备包括处理器以及存储器：存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行上述的一种通信行业家庭圈智能识别的方法。以上仅是本发明的优选实施方式，应当指出对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些都不会影响本发明实施的效果和专利的实用性。

Claims

一种通信行业家庭圈智能识别的方法，其特征在于，包括：设计宽带分类模型宽表需求，并从数据库中提取宽带dpi类数据；对所述宽带dpi类数据进行去极值和MinMax标准化处理后，进行聚类分析对比得到宽带分类模型结果；从数据库中提取有通话行为的号码对，获取号码对的通话行为数据和号码的位置数据；将所述通话行为数据和号码的位置数据关联所述宽带分类模型结果，并计算不同配对号码在其中的重合度得到初始宽表数据；检验所述初始宽表数据的字段质量及分布情况，对字段的缺失值、异常值进行处理，再对变量两两进行相关系数检验，对检验未通过的变量对，计算iv值，剔除变量对中iv值较低的变量，最后得到预处理数据；从所述预处理数据中选取全部正样本，并抽取设定比例的负样本；将所述正样本、负样本输入决策树算法模型进行训练得到家庭圈智能识别模型；使用所述家庭圈智能识别模型预测实际数据的家庭关系概率，对概率大于设定阈值的家庭圈打上潜在家庭圈标签。
根据权利要求1所述的一种通信行业家庭圈智能识别的方法，其特征在于，将所述家庭圈智能识别模型的预测结果和原始数据进一步整合，并导入知识图谱中得到家庭关系图谱。根据权利要求1所述的一种通信行业家庭圈智能识别的方法，其特征在于，将所述正样本、负样本输入多种决策树算法模型进行训练得到多种预选模型，使用测试样本对各预选模型的效果进行测试，通过评价指标对各预选模型的性能进行评估，以及对各预选模型的结果进行stacking处理得到家庭圈智能识别模型。
根据权利要求3 所述的一种通信行业家庭圈智能识别的方法，其特征在于，多种决策树算法模型至少包括LightGBM 、RandomForest 、xgboost 算法模型。
根据权利要求1所述的一种通信行业家庭圈智能识别的方法，其特征在于，采用五折交叉验证方法来对所述家庭圈智能识别模型进行模型预测稳健性综合评估。
根据权利要求1所述的一种通信行业家庭圈智能识别的方法，其特征在于，所述正样本的号码对之间同时满足以下3个条件：存在主副卡关系、有通话行为、同一常住小区或同一常连宽带wifi账号下；所述负样本为非主副卡关系的号码对。
根据权利要求1所述的一种通信行业家庭圈智能识别的方法，其特征在于，使用K-means算法进行聚类分析对比得到宽带分类模型结果的3个类别：家庭wifi、工作场所wifi、消费场所wifi。
根据权利要求1所述的一种通信行业家庭圈智能识别的方法，其特征在于，所述宽带dpi类数据包括：宽带账号、连接设备数、连接设备平均使用时长、新增连接设备数、减少连接设备数、平均设备连接频率、7:00-21:00连接设备数占比、21:00-7:00连接设备数占比字段。
第二获取模块，用于从数据库中提取有通话行为的号码对，获取号码对的通话行为数据和号码的位置数据；预处理模块，用于将所述通话行为数据和号码的位置数据关联所述宽带分类模型结果，并计算不同配对号码在其中的重合度得到初始宽表数据；检验所述初始宽表数据的字段质量及分布情况，对字段的缺失值、异常值进行处理，再对变量两两进行相关系数检验，对检验未通过的变量对，计算iv 值，剔除变量对中iv 值较低的变量，最后得到预处理数据；训练模块，用于从所述预处理数据中选取全部正样本，并抽取设定比例的负样本；将所述正样本、负样本输入决策树算法模型进行训练得到家庭圈智能识别模型；

预测模块，用于使用所述家庭圈智能识别模型预测实际数据的家庭关系概率，对概率大于设定阈值的家庭圈打上潜在家庭圈标签。
一种电子设备，其特征在于，所述设备包括处理器以及存储器：所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；所述处理器用于根据所述程序代码中的指令执行权利要求1-8任意一项所述的一种通信行业家庭圈智能识别的方法。