WO2022012605A1

WO2022012605A1 - 基于预训练深度神经网络模型的用户流失预测系统

Info

Publication number: WO2022012605A1
Application number: PCT/CN2021/106382
Authority: WO
Inventors: 王鑫; 许昭慧
Original assignee: 上海松鼠课堂人工智能科技有限公司
Priority date: 2020-07-16
Filing date: 2021-07-15
Publication date: 2022-01-20
Also published as: CN111898810A; CN111898810B

Abstract

本文公开了一种基于预训练深度神经网络模型的用户流失预测系统，包括：课程教授平台模块向教师对象和学生对象提供关于预定教育课程的工作终端平台；语料采集模块在工作终端平台运行过程中采集教师对象和学生对象在课堂中的语音对话、文字对话和教学视频；流失状态模块将流失用户的课堂语料标注为流失，将其余课堂语料标注为未流失；预测算法模块根据语料采集模块采集的课堂语料以及流失状态模块标注的课堂语料，通过训练后的深度神经网络模型计算用户流失预测结果；实时监控模块对课程教授平台模块进行实时监控，并将预测算法模块计算出的用户流失预测结果展现给教师对象。该用户流失预测系统达到了调整教育辅导策略的效果。

Description

基于预训练深度神经网络模型的用户流失预测系统

本申请要求在2020年07月16日提交中国专利局、申请号为202010689193.1的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能教育技术领域，例如涉及一种基于预训练深度神经网络模型的用户流失预测系统。

背景技术

用户流失预测模型通常是对用户的基本信息、行为信息进行特征提取，根据少量的训练集用户的特征、流失用户标签、以及训练算法得到的模型。上述模型是从学生和学习系统互动的行为数据推测可能流失的用户名单，忽略了在线课堂中最主要的老师和学生的教与学的交流互动过程，且无法对在线课堂起到实时的指导与调整的作用。分析在线课堂的师生交流是了解师生交互情况和进行教学/服务干预的重要来源与依据，课堂话语分析技术通常是对在线论坛中师生的历史贴文的文字进行统计分析，通过确定教师和学生的语言特性找出问题，该课堂话语分析技术无法对实时在线课堂中的学生与老师(人类老师、虚拟人工智能(Artificial Intelligence，AI)老师)的交流语音进行流失预测。

发明内容

本申请提供一种基于预训练深度神经网络模型的用户流失预测系统，包括：课程教授平台模块、语料采集模块、流失状态模块、预测算法模块、实时监控模块和离线查询模块，其中，

所述课程教授平台模块设置为向教师对象和学生对象分别提供关于预定教育课程的工作终端平台；

所述语料采集模块设置为在所述工作终端平台运行过程中采集所述教师对象和所述学生对象在课堂中的语音对话、文字对话和教学视频；

所述流失状态模块设置为对所述语料采集模块采集的课堂语料进行标注，将流失用户的课堂语料标注为流失，将所述语料采集模块采集的课堂语料中除所述流失用户的课堂语料外的课堂语料标注为未流失；

所述预测算法模块设置为根据所述语料采集模块采集的课堂语料以及所述流失状态模块标注的课堂语料，通过训练后的深度神经网络模型计算用户流失预测结果；

所述实时监控模块设置为对所述课程教授平台模块进行实时监控，并将所述预测算法模块计算出的用户流失预测结果展现给所述教师对象；

所述离线查询模块设置为根据查询条件向查询对象提供获得的用户流失预测结果。

附图说明

图1为本申请实施例提供的一种基于预训练深度神经网络模型的用户流失预测系统的结构示意图；

图2为本申请实施例提供的一种用户流失预测结果的展示示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请提供如下技术方案：一种基于预训练深度神经网络模型的用户流失预测系统，包括：课程教授平台模块、语料采集模块、流失状态模块、预测算法模块、实时监控模块和离线查询模块，其中，所述课程教授平台模块设置为向教师对象和学生对象分别提供关于预定教育课程的工作终端平台；所述语料采集模块设置为在所述工作终端平台运行过程中采集所述教师对象和所述学生对象在课堂中的语音对话、文字对话和教学视频；所述流失状态模块设置为对所述语料采集模块采集的课堂语料进行标注，将流失用户的课堂语料标注为流失，将所述语料采集模块采集的课堂语料中除所述流失用户的课堂语料外的课堂语料标注为未流失；所述预测算法模块设置为根据所述语料采集模块采集的课堂语料以及所述流失状态模块标注的课堂语料，通过训练后的深度神经网络模型计算用户流失预测结果；所述实时监控模块设置为对所述课程教授平台模块进行实时监控，并将所述预测算法模块计算出的用户流失预测结果展现给所述教师对象；所述离线查询模块设置为根据查询条件向查询对象提供获得的用户流失预测结果。

所述语料采集模块包括文字处理子模块、语音转文字处理子模块和教学视频提取音频转文字处理子模块；其中，所述文字处理子模块设置为将所述老师对象和所述学生对象在所述课程教授平台模块上的文字对话采集存储，将采集存储后的所述文字对话与学生信息、上课信息、以及时间戳做对应；所述语音转文字处理子模块设置为接收所述实时监控模块采集的所述老师对象和所述学生对象在所述课程教授平台模块上的语音对话，并存储所述语音对话，将存储后的所述语音对话的语音格式经过语音识别转成文字格式，存储格式转化后的所述语音对话，并将格式转化后的所述语音对话与学生信息、上课信息、以及时间戳做对应；所述教学视频提取音频转文字处理子模块设置为在所述学生对象在所述课程教授平台模块中对教学视频点击播放的情况下，根据所述教学视频的开始播放和结束播放的时间戳提取出所述学生对象听取的所述教学视频的音频，将提取出的所述教学视频的语音格式经过语音识别转成文字格式，存储格式转化后的所述教学视频，并将格式转化后的所述教学视频与学生信息、上课信息、以及时间戳做对应。

所述流失状态模块，包括更新流失状态子模块和标注流失状态子模块；其中，所述更新流失状态子模块设置为接收销售系统发送的流失用户名单，定位出流失用户已上过的课程；所述标注流失状态子模块设置为根据所述更新流失状态子模块定位出的所述流失用户已上过的课程，从所述语料采集模块中提取出所述流失用户已上过的课程对应的课堂语料，将所述流失用户已上过的课程对应的课堂语料标注为流失，将所述语料采集模块采集的课堂语料中除所述流失用户已上过的课程对应的课堂语料外的课堂语料标注为未流失。

一实施例中，用户流失的定义可以不局限在培训学校，还可以包含学校体系的辍学，所述销售系统可以理解为有流失用户名单的数据来源方。

所述预测算法模块，包括参数信息子模块和语料流失预测子模块；其中，所述参数信息子模块设置为储存对预训练深度神经网络模型进行训练后得到的训练后的深度神经网络模型的参数，其中，所述参数随着对所述预训练深度神经网络模型的迭代训练不定期更新；所述语料流失预测子模块设置为根据所述参数信息子模块存储的参数以及所述语料采集模块采集的课堂语料，通过训练后的深度神经网络模型对所述语料采集模块采集的课堂语料进行分类，以判断当前教育课程中的师生交流过程是否存在用户流失状态。

所述实时监控模块，包括师生交流监听子模块、预测结果展示子模块和统计子模块；其中，所述师生交流监听子模块设置为在所述预定教育课堂中的所述教师对象和所述学生对象开始交流的情况下，以句子为单元采集语料并将采集的语料发送至所述语料采集模块；所述预测结果展示子模块设置为接收所述预测算法模块发送的用户流失预测结果，向所述老师对象展示所述用户流失预测结果，其中，所述用户流失预测结果用于表征所述语料采集模块采集的课堂语料中的语句造成用户流失的可能性；所述统计子模块设置为根据所述预测算法模块计算出的用户流失预测结果做统计，以使所述老师对象能从统计数据中得知有助于所述老师对象调整辅导策略的信息。

所述离线查询模块，包括查询子模块、预测结果展示子模块和统计子模块；其中，所述查询子模块设置为接收所述查询对象输入的所述查询条件；所述预测结果展示子模块设置为根据所述查询条件，接收所述预测算法模块发送的所述查询条件对应的用户流失预测结果，并且展示所述查询条件对应的课堂录屏以及师生交流语料的流失预测信息；所述统计子模块设置为根据所述用户流失预测结果做统计，以使所述查询对象能从统计数据中得知所述查询对象所需要的相关信息。

所述预测算法模块还设置为使用无监督语料进行语言模型的预训练(Pre-training)，其中，所述语言模型的预训练包括利用基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers，BERT)的自注意力机制做上下文编码器，对师生语料进行编码得到所述师生语料的语义向量表示，根据所述语义向量表示对所述语言模型进行预训练；再用数量少于所述无监督语料的数量的标注语料对预训练后的语言模型进行微调(Fine-tuning)，在预训练语言模型的基础上加一层处理分类任务的网络，以判断师生语料是否有造成用户流失的可能。

本申请中，预训练语言模型还可以语言模型的嵌入(Embeddings from Language Models，ELMo)、生成式的预训练(Generative Pre-Training，GPT)、知识增强语义表示模型(Enhanced Representation from kNowledge IntEgration，ERNIE)等，BERT只是一个示例。

所述BERT是Google在2018年10月提出的一种新的语言模型，全称为Bidirectional Encoder Representations from Transformers，BERT通过在所有层联合调节左右两个上下文来预训练深层双向表示，此外还通过组装长句作为输入增强对长程语义的理解，BERT可以被微调(Fine-tuning)以广泛用于多类任务，仅需额外添加一个输出层，无需进行针对任务的模型结构调整。

所述BERT的实现步骤如下：

步骤S1、计算机设备基于Google提供的预训练模型BERT-Base，Chinese构建语料库，中文版的预训练模型是由维基百科语料训练而成的，将预训练模型载入后，可以直接输出训练好的字向量或句向量。本申请使用该预训练模型获取句向量并将其作为后续网络模型的输入。

步骤S2：利用BERT模型初始化网络的初始权重，再加上领域任务的数据集，也就是流失状态模块的标注语料，通过在网络上继续反向传播训练，不断调整原有模型的权重。

步骤S3：本申请是一种单句分类任务，在语言模型基础上加一层处理分类任务的网络，可以是softmax网络、决策树、支持向量机(Support Vector Machines， SVM)或其他可以处理二分类问题的模型，本申请对此不做限定。

步骤S4：在语言模型基础上加一层softmax网络的做法，就是取第一个token的输出表示((即[CLS]符号)的输出表示)，喂给一个softmax层得到分类结果输出。

本申请的用户流失预测系统通过课程教授平台模块向教师对象和学生对象分别提供关于预定教育课程的工作终端平台，通过语料采集模块在工作终端平台运行过程中采集教师对象和学生对象在课堂中的语音对话、文字对话和教学视频，通过流失状态模块将流失用户的课堂语料标注为流失，其余则标注为未流失，接着借助预测算法模块根据语料采集模块采集的课堂语料以及流失状态模块标注的课堂语料，通过训练后的深度神经网络模型计算用户流失预测结果，最后通过实时监控模块对课程教授平台模块进行实时监控，并将预测算法模块计算出的用户流失预测结果展现给教师对象，并且可以通过离线查询模块根据查询条件向查询对象提供获得的用户流失预测结果。可见，该基于预训练深度神经网络模型的用户流失预测系统通过对教师对象的工作终端平台、学生对象的工作终端平台进行相应的监控，基于课堂中师生交流的语料通过训练后的预训练深度神经网络模型计算用户流失预测结果，其能够在存在用户流失可能性时进行提醒，从而保证在线教育中师生交流的良好互动，降低用户流失。

如图1所示，在一个实施例中，基于预训练深度神经网络模型的用户流失预测系统通过课程教授平台模块向教师对象和学生对象分别提供关于预定教育课程的工作终端平台，学生对象通过点击播放教学视频获得教学指导，所述教学视频提取音频转文字处理子模块在学生对象在课程教授平台模块中对教学视频点击播放的情况下，根据播放开始和结束的时间戳提取出学生对象听取的该段教学视频的音频，再将该段教学视频的语音格式经过语音识别转成文字格式后存储，并和学生信息、上课信息、以及时间戳做对应。

本申请中的“用户流失”是指用户在预期课程完成前不再进行学习或者用户在预期课程完成有较长时间的学习中断。“用户流失”在不同场景或领域内对应的用词不同，在培训行业中用户在所购买的课程结束前申请退课/退费，以及在学校体系里的辍学/休学，都可以是“用户流失”。

所述课程教授平台可以理解为任何可供师生进行交流的平台。

所述教学视频提取音频转文字处理子模块还可以应用于智能教室或者直播课中收录师生交流对话的场景，也就是说，只要是可以收集到师生音频的场景都可以采用所述教学视频提取音频转文字处理子模块的语音转文字技术。

学生对象和教师对象通过课程教授平台模块进行文字交流讨论，教师对象可以是人类老师，或能和学生对象进行人机交互的虚拟AI老师，通过语料采集模块采集中的文字处理子模块将老师对象和学生对象在课程教授平台模块上的文字交流对话采集存储后和学生信息、上课信息、以及时间戳做对应。

学生对象和教师对象通过课程教授平台模块进行语音交流讨论，教师对象可以是人类老师，或能和学生对象进行人机交互的虚拟AI老师，所述语音转文字处理子模块是将老师对象和学生对象在课程教授平台模块上的语音交流对话采集存储后，再将语音交流对话的语音格式经过语音识别转成文字格式存储，并和学生信息、上课信息、以及时间戳做对应。

通过语料采集模块获取在课堂中教师对象和学生对象的对话语音、文字和教学视频，通过流失状态模块将流失用户的课堂语料标注为流失，其余则标注为未流失。流失标注可以根据业务的指标做不同的定义，同一个用户在不同学科或课程的流失情况可能有所不同。

所述课堂语料可以理解为师生交流语料，该语料可以从课堂授课的场景、提供服务的场景、或者提供辅导的场景中采集。

接着借助预测算法模块根据所述语料采集模块的语料，通过模型计算返回用户流失预测结果，最后通过实时监控模块对所述课程教授平台模块进行实时监控，将所述预测算法模块的用户流失预测结果展现给教师对象。

所述实时监控模块，包括师生交流监听子模块、预测结果展示子模块和统计子模块；其中，所述师生交流监听子模块是当课堂中师生开始交流时，以句子为单元将语料发送到语料采集模块；所述预测结果展示子模块是接收预测算法模块返回的用户流失预测结果，用简单清晰的形象化方式，让老师对象能看到哪一句话有造成用户流失的可能性；所述统计子模块是根据用户流失预测结果做统计，使老师对象能从统计数据中得知有助于老师对象调整辅导策略的信息，如：流失语料的总数、总对话数、师生发言次数与占比和流失语料高频词等信息。

图2为本申请实施例提供的一种用户流失预测结果的展示示意图，在一个实施例中，用户流失预测结果在每一个师生交流信息框旁，用不同颜色的圆圈表示流失预测状态，例如：该句子的用户流失预测结果为流失，可以用红色标示，该句子的用户流失预测结果为非流失，可以用绿色标示，其他情况，可以用灰色标示。

在一个实施例中，统计数据可以在图2的统计信息区域展示，例如：老师对象流失用语的高频词，让老师对象可以实时调整自己对学生对象的辅导用语。

当老师对象为虚拟AI老师时，预测算法模块返回的用户流失预测结果会发送到虚拟AI老师的会话策略处理单元，虚拟AI老师可以根据相应的会话策略调整跟学生对象的交流用语，避免用户流失。

通过离线查询模块根据查询条件向查询人员提供获得的用户流失预测结果。所述离线查询模块，包括查询子模块、预测结果展示子模块和统计子模块；其中，所述查询子模块是提供给查询对象做查询条件输入的；所述预测结果展示子模块是接收预测算法模块返回的用户流失预测结果，提供给查询对象流失用户名单，并且可以查看流失用户名单对应的课堂录屏、师生交流语料的流失预测等信息；所述统计子模块是根据用户流失预测结果做统计，使查询对象能从统计数据中得知查询对象所需要的相关信息。该数据还可以与其他数据库合并(例如，学生对象的人口统计学特征、学习系统的过程数据等)运用一个或者多个统计模型进行深度的分析。

Claims

一种基于预训练深度神经网络模型的用户流失预测系统，包括：课程教授平台模块、语料采集模块、流失状态模块、预测算法模块、实时监控模块和离线查询模块，其中，

所述课程教授平台模块设置为向教师对象和学生对象分别提供关于预定教育课程的工作终端平台；

所述语料采集模块设置为在所述工作终端平台运行过程中采集所述教师对象和所述学生对象在课堂中的语音对话、文字对话和教学视频；

所述流失状态模块设置为对所述语料采集模块采集的课堂语料进行标注，将流失用户的课堂语料标注为流失，将所述语料采集模块采集的课堂语料中除所述流失用户的课堂语料外的课堂语料标注为未流失；

所述预测算法模块设置为根据所述语料采集模块采集的课堂语料以及所述流失状态模块标注的课堂语料，通过训练后的深度神经网络模型计算用户流失预测结果；

所述实时监控模块设置为对所述课程教授平台模块进行实时监控，并将所述预测算法模块计算出的用户流失预测结果展现给所述教师对象；

所述离线查询模块设置为根据查询条件向查询对象提供获得的用户流失预测结果。
根据权利要求1所述的用户流失预测系统，其中，所述语料采集模块包括文字处理子模块、语音转文字处理子模块和教学视频提取音频转文字处理子模块；其中，

所述文字处理子模块设置为将所述老师对象和所述学生对象在所述课程教授平台模块上的文字对话采集存储，将采集存储后的所述文字对话与学生信息、上课信息、以及时间戳做对应；

所述语音转文字处理子模块设置为接收所述实时监控模块采集的所述老师对象和所述学生对象在所述课程教授平台模块上的语音对话，并存储所述语音对话，将存储后的所述语音对话的语音格式经过语音识别转成文字格式，存储格式转化后的所述语音对话，并将格式转化后的所述语音对话与学生信息、上课信息、以及时间戳做对应；

所述教学视频提取音频转文字处理子模块设置为在所述学生对象在所述课程教授平台模块中对教学视频点击播放的情况下，根据所述教学视频的开始播放和结束播放的时间戳提取出所述学生对象听取的所述教学视频的音频，将提取出的所述教学视频的语音格式经过语音识别转成文字格式，存储格式转化后的所述教学视频，并将格式转化后的所述教学视频与学生信息、上课信息、以及时间戳做对应。
根据权利要求1所述的用户流失预测系统，其中，所述流失状态模块，包括更新流失状态子模块和标注流失状态子模块；其中，

所述更新流失状态子模块设置为接收销售系统发送的流失用户名单，定位出流失用户已上过的课程；

所述标注流失状态子模块设置为根据所述更新流失状态子模块定位出的所述流失用户已上过的课程，从所述语料采集模块中提取出所述流失用户已上过的课程对应的课堂语料，将所述流失用户已上过的课程对应的课堂语料标注为流失，将所述语料采集模块采集的课堂语料中除所述流失用户已上过的课程对应的课堂语料外的课堂语料标注为未流失。
根据权利要求1所述的用户流失预测系统，其中，所述预测算法模块，包括参数信息子模块和语料流失预测子模块；其中，

所述参数信息子模块设置为储存对预训练深度神经网络模型进行训练后得到的训练后的深度神经网络模型的参数，其中，所述参数随着对所述预训练深度神经网络模型的迭代训练不定期更新；

所述语料流失预测子模块设置为根据所述参数信息子模块存储的参数以及所述语料采集模块采集的课堂语料，通过训练后的深度神经网络模型对所述语料采集模块采集的课堂语料进行分类，以判断当前教育课程中的师生交流过程是否存在用户流失状态。
根据权利要求2所述的用户流失预测系统，其中，所述实时监控模块，包括师生交流监听子模块、预测结果展示子模块和统计子模块；其中，

所述师生交流监听子模块设置为在所述预定教育课堂中的所述教师对象和所述学生对象开始交流的情况下，以句子为单元采集语料并将采集的语料发送至所述语料采集模块；

所述预测结果展示子模块设置为接收所述预测算法模块发送的用户流失预测结果，向所述老师对象展示所述用户流失预测结果，其中，所述用户流失预测结果用于表征所述语料采集模块采集的课堂语料中的语句造成用户流失的可能性；

所述统计子模块设置为根据所述预测算法模块计算出的用户流失预测结果做统计，以使所述老师对象能从统计数据中得知有助于所述老师对象调整辅导策略的信息。
根据权利要求1所述的用户流失预测系统，其中，所述离线查询模块，包括查询子模块、预测结果展示子模块和统计子模块；其中，

所述查询子模块设置为接收所述查询对象输入的所述查询条件；

所述预测结果展示子模块设置为根据所述查询条件，接收所述预测算法模块发送的所述查询条件对应的用户流失预测结果，并且展示所述查询条件对应的课堂录屏以及师生交流语料的流失预测信息；

所述统计子模块设置为根据所述用户流失预测结果做统计，以使所述查询对象能从统计数据中得知所述查询对象所需要的相关信息。
根据权利要求1所述的用户流失预测系统，其中，所述预测算法模块还设置为使用无监督语料进行语言模型的预训练，其中，所述语言模型的预训练包括利用基于转换器的双向编码表征BERT的自注意力机制做上下文编码器，对师生语料进行编码得到所述师生语料的语义向量表示，根据所述语义向量表示对所述语言模型进行预训练；再用数量少于所述无监督语料的数量的标注语料对预训练后的语言模型进行微调，在预训练语言模型的基础上加一层处理分类任务的网络，以判断师生语料是否有造成用户流失的可能。
根据权利要求7所述的用户流失预测系统，其中，BERT是Google在2018年10月提出的一种新的语言模型，全称为Bidirectional Encoder Representations from Transformers，BERT通过在所有层联合调节左右两个上下文来预训练深层双向表示，还通过组装长句作为输入增强对长程语义的理解，BERT被微调以用于多类任务，仅需额外添加一个输出层，无需进行针对任务的模型结构调整。
根据权利要求6或7所述的用户流失预测系统，其中，所述BERT的实现步骤如下：

计算机设备基于Google提供的预训练模型BERT-Base,Chinese构建语料库，其中，所述预训练模型是由维基百科语料训练而成的，将所述预训练模型载入后，所述预训练模型可以直接输出训练好的字向量或句向量，使用所述预训练模型获取句向量并将获取的所述句向量作为后续网络模型的输入；

利用所述预训练模型初始化网络的初始权重，再加上领域任务的数据集，通过在网络上进行反向传播训练，调整所述预训练模型的权重，其中，所述数据集为所述流失状态模块标注的课堂语料；

在调整权重后的预训练模型基础上加一层处理单句分类任务的网络，其中，所述处理单句分类任务的网络包括：softmax网络、决策树、支持向量机SVM或其他处理二分类问题的模型，在所述调整权重后的预训练模型基础上加一层softmax网络是指取第一个token的输出表示，喂给一个softmax层得到分类结果输出。