WO2021036439A1 - 一种信访问题答复方法及装置 - Google Patents

一种信访问题答复方法及装置 Download PDF

Info

Publication number
WO2021036439A1
WO2021036439A1 PCT/CN2020/097250 CN2020097250W WO2021036439A1 WO 2021036439 A1 WO2021036439 A1 WO 2021036439A1 CN 2020097250 W CN2020097250 W CN 2020097250W WO 2021036439 A1 WO2021036439 A1 WO 2021036439A1
Authority
WO
WIPO (PCT)
Prior art keywords
petition
preset
question
answer
word
Prior art date
Application number
PCT/CN2020/097250
Other languages
English (en)
French (fr)
Inventor
陈盈盈
刘平生
何杰
王新东
肖志家
赖群阳
林居正
陈佺忠
汤怀群
刘谦
杜明灯
邱毅
汪亚男
徐倩
杨海军
郝鹏辉
杨粟
Original Assignee
深圳前海微众银行股份有限公司
深圳市地方金融监督管理局
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳前海微众银行股份有限公司, 深圳市地方金融监督管理局 filed Critical 深圳前海微众银行股份有限公司
Publication of WO2021036439A1 publication Critical patent/WO2021036439A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Primary Health Care (AREA)
  • Human Computer Interaction (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

一种信访问题答复方法及装置,其中方法为:根据信访问题和至少一个预设意图类型模型,确定所述信访问题在所述至少一个预设意图类型模型上的至少一个打分值;根据所述至少一个打分值,确定所述信访问题的至少一个第一答案(201);确定所述信访问题对应的至少一个信访对象,将所述至少一个信访对象的预设答案,作为所述信访问题的至少一个第二答案(202);根据预设排序规则,对所述至少一个第一答案和所述至少一个第二答案进行排序,将排序中的前N个答案,作为所述信访问题的答复(203)。上述方法应用于对金融科技(Fintech)的信访领域时,提升了智能化自动回复信访问题的准确性,进而提升了信访问题的效率。

Description

一种信访问题答复方法及装置
相关申请的交叉引用
本申请要求在2019年08月23日提交中国专利局、申请号为201910785860.3、申请名称为“一种信访问题答复方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及金融科技(Fintech)领域、信访领域和监管科技领域,尤其涉及一种信访问题答复方法及装置。
背景技术
在信访服务场景中,人民群众通过书信、电子邮件、电话等方式,反映情况、表达意见、呼吁解决问题。信访机构接收问题,经常需要根据群众的信访问题,在规定的时间内对信访者的信访问题进行答复。随着金融科技(Fintech)的发展,金融科技方面的信访问题越来越多,在信访问题中的所占比重也越来越大。
目前,处理信访问题主要采用以下两种手段:(1)人工受理信访者的信访问题,对信访问题进行分析答复,反馈给信访者;(2)预先设定一些固定问题的答案,通过智能机器人,将信访者提出的问题与设定的固定问题进行匹配,如果能匹配到固定的问题,则将对应答案反馈给信访者,然而这种方法对信访者输入的信访问题的精准性依赖程度较高,大多数情况下并不能匹配到相应的固定问题。上述两种手段处理信访问题的效率较低,随着信访问题的增加,越来越多的信访问题积压,长时间得不到答复,因此目前信访问题的效率较低是一个亟待解决的问题。
发明内容
本申请实施例提供一种信访问题答复方法及装置,解决了现有技术中处理信访问题的效率较低的问题。
第一方面,本申请实施例提供一种信访问题答复方法:根据信访问题和至少一个预设意图类型模型,确定所述信访问题在所述至少一个预设意图类型模型上的至少一个打分值;根据所述至少一个打分值,确定所述信访问题的至少一个第一答案;确定所述信访问题对 应的至少一个信访对象,将所述至少一个信访对象的预设答案,作为所述信访问题的至少一个第二答案;根据预设排序规则,对所述至少一个第一答案和所述至少一个第二答案进行排序,将排序中的前N个答案,作为所述信访问题的答复;N为正整数。
上述方法中,根据所述信访问题在所述至少一个预设意图类型模型上的至少一个打分值,确定所述信访问题对应的至少一个预设意图类型的第一答案;以及确定所述信访问题对应的至少一个信访对象,将所述至少一个信访对象的预设答案,作为所述信访问题的至少一个第二答案,得到信访问题的多个备选答案,再根据预设排序规则,对所述至少一个预设意图类型的第一答案和所述至少一个信访对象的第二答案进行排序,将多个备选答案中排序前N个的答案,作为所述信访问题的答复;N为正整数,从而可自动获取多个备选答案,并取前N个答案,提升了智能化自动回复信访问题的准确性,进而提升了信访问题的效率。
一种可选实施方式中,所述确定所述信访问题对应的至少一个信访对象,包括:对所述信访问题进行分词,并在分词后确定出符合预设词类型的词语;根据各预设词类型的词语,确定至少一个词序列;将所述至少一个词序列对应的信访对象的置信度大于预设置信度阈值的词序列对应的信访对象,作为所述信访问题对应的至少一个信访对象。
上述方法中,对信访问题进行分词,并在分词后确定出符合预设词类型的词语,进而确定至少一个词序列,每个词序列对应的信访对象都有置信度,当大于预设置信度阈值时,认为该词序列对应的信访对象,是所述信访问题对应的至少一个信访对象,从而增加了备选答案的准确性。
一种可选实施方式中,第一信访对象为所述至少一个信访对象中任一对象;所述第一信访对象与对应的词序列按照以下方式建立对应关系:设置词序列的词数量和滑动窗口值;对所述第一信访对象进行分词;根据所述词数量和所述滑动窗口值,获取所述第一信访对象分词后的至少一个词语组合;将所述至少一组词语组合中逆文本频率指数大于预设频率指数阈值且不包含预设无意义词语的词语组合,作为与所述第一信访对象对应的词序列。
上述方式下,可设置词序列的词数量和滑动窗口值;对所述第一信访对象进行分词,获取至少一个词语组合,由于逆文本频率指数可表征词语组合在文本中的重要程度,因此当逆文本频率指数大于预设频率指数阈值时,可作为标识信访对象的词序列,从而增加了信访问题中识别信访对象的准确性和多样性。
一种可选实施方式中,所述根据信访问题和至少一个预设意图类型模型,确定所述信访问题在所述至少一个预设意图类型上的打分值,包括:对所述信访问题进行意图解析,获取所述信访问题的至少一个关键词;将所述至少一个关键词输入至每个预设意图类型模 型后输出的值,作为所述信访问题对该预设意图类型的打分值;所述根据所述至少一个打分值,确定所述信访问题的至少一个第一答案,包括:将所述至少一个打分值中大于预设分值的打分值在所述至少一个预设意图类型中对应意图类型的预设答案,作为所述至少一个预设意图类型的第一答案。
上述方式下,对所述信访问题进行意图解析,获取所述信访问题的至少一个关键词;将所述至少一个关键词输入至每个预设意图类型对应的文本分类模型后输出的值,作为所述信访问题对该预设意图类型的打分值;从而可以通过意图,获取到信访问题的至少一个第一答案,增加了备选答案的准确性。
一种可选实施方式中,第一预设意图类型预先设置了答案模板,所述答案模板包括固定文本和空白变量文本;所述第一预设意图类型为所述至少一个预设意图类型中任一预设意图类型;按照以下方式,确定所述第一预设意图类型的第一答案:根据所述信访问题与所述空白变量文本中变量的匹配结果,获取填充所述空白变量文本后的内容文本;将所述固定文本和内容文本的组合,作为所述第一预设意图类型的第一答案。
上述方法中,预先设置了答案模板,答案模板包括固定文本和空白变量文本,根据所述信访问题与所述空白变量文本中变量的匹配结果,获取填充所述空白变量文本后的内容文本;将所述固定文本和内容文本的组合,作为所述第一预设意图类型的第一答案,从而不需要反复编辑答案文本,进一步提升了信访问题的处理效率。
第二方面,本申请提供一种信访问题答复装置,包括:确定模块,用于根据信访问题和至少一个预设意图类型模型,确定所述信访问题在所述至少一个预设意图类型模型上的至少一个打分值;根据所述至少一个打分值,确定所述信访问题的至少一个第一答案;确定所述信访问题对应的至少一个信访对象,将所述至少一个信访对象的预设答案,作为所述信访问题的至少一个第二答案;处理模块,用于根据预设排序规则,对所述至少一个第一答案和所述至少一个第二答案进行排序,将排序中的前N个答案,作为所述信访问题的答复;N为正整数。
一种可选实施方式中,所述确定模块具体用于:对所述信访问题进行分词,并在分词后确定出符合预设词类型的词语;根据各预设词类型的词语,确定至少一个词序列;将所述至少一个词序列对应的信访对象的置信度大于预设置信度阈值的词序列对应的信访对象,作为所述信访问题对应的至少一个信访对象。
一种可选实施方式中,第一信访对象为所述至少一个信访对象中任一对象;所述处理模块还用于:按照以下方式建立所述第一信访对象与对应的词序列对应关系:设置词序列的词数量和滑动窗口值;对所述第一信访对象进行分词;根据所述词数量和所述滑动窗口 值,获取所述第一信访对象分词后的至少一个词语组合;将所述至少一组词语组合中逆文本频率指数大于预设频率指数阈值且不包含预设无意义词语的词语组合,作为与所述第一信访对象对应的词序列。
一种可选实施方式中,所述确定模块具体用于:对所述信访问题进行意图解析,获取所述信访问题的至少一个关键词;将所述至少一个关键词输入至每个预设意图类型模型后输出的值,作为所述信访问题对该预设意图类型的打分值;将所述至少一个打分值中大于预设分值的打分值在所述至少一个预设意图类型中对应意图类型的预设答案,作为所述至少一个预设意图类型的第一答案。
一种可选实施方式中,第一预设意图类型预先设置了答案模板,所述答案模板包括固定文本和空白变量文本;所述第一预设意图类型为所述至少一个预设意图类型中任一预设意图类型;所述确定模块具体用于:根据所述信访问题与所述空白变量文本中变量的匹配结果,获取填充所述空白变量文本后的内容文本;将所述固定文本和内容文本的组合,作为所述第一预设意图类型的第一答案。
上述第二方面及第二方面各个实施例的有益效果,可以参考上述第一方面及第一方面各个实施例的有益效果,这里不再赘述。
第三方面,本申请实施例提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个实施例的方法。
第四方面,本申请实施例提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个实施例的方法。
附图说明
图1为本申请实施例提供的一种信访问题答复系统的交互示意图;
图2为本申请实施例提供的一种信访问题答复方法的步骤流程示意图;
图3为本申请实施例提供的一种信访问题答复装置的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互结合。
下面首先列举出本申请出现的名词和缩略语。
监管科技(Regtech):,由监管(Regulatory)和科技(Technology)组成,是科技与金融监管融合的产物。
人工智能(AI,Artificial Intelligence):指通过普通计算机程序来呈现人类智能的技术。
机器学习:机器学习是指计算机程序一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的过程。
特征工程:从数据中获取、整理、加工出计算机程序可以理解和方便处理的特征的过程,主要用途是给机器学习提供训练、评估和预测的输入数据。
信访:是指公民个人或群体以书信、电子邮件、走访、电话、传真、短信等多种参与形式与国家的政党、政府、社团、人大、司法、政协、社区、企事业单位负责信访工作的机构或人员接触,以反映情况,表达自身意见,吁请解决问题,有关信访工作机构或人员采用一定的方式进行处理的一种制度。
在政务机构运转过程中,人民群众通过书信、电子邮件、电话等多种渠道,反映情况、表达意见、呼吁解决问题。信访机构接收问题,经常需要根据群众的信访问题,在规定的时间内对信访者的信访问题进行答复,举例来说,本申请实施例提出的网络信访渠道的界面示意图,包括“来访指南”、“我要写信”和“政务机器人”等模块。这些信访渠道为人民群众提供了很大便利,尤其涉及金融科技(Fintech)领域时,信访问题更是日益增加,金融业态的丰富、金融风险的频发、信访量的激增,地方金融监管局每个月接收多个渠道千余条群众提交的金融相关问题或投诉,并且数量有上升趋势。导致信访回复专员的工作强度持续加大。金融局接收信访投诉的来源包括:信访投诉网站、电话热线、电子邮箱、政府官网和移动端小程序等。
目前信访领域中,只是单方面从群众的角度,解决信访问题提出者的渠道增加、效率提升问题,而且,信访群众的诉求一般比较急迫,问题未解决之前,通常会通过多个渠道反馈同一个问题,增加了重复问题的回复工作量。增加信访问题的提交渠道不仅无法解决信访问题的快速答复,而且会出现同一个问题在多个渠道重复反馈的问题,增加了信访问题接受侧机构的工作量,并出现大量重复操作,也没有解决信访问题回复时效低的问题,信访问题反而积压更严重。信访采集渠道多种多样,尤其是邮箱类渠道,信访群众有时会大篇幅描述信访问题并有很多关于情绪的描述。对信访群众提交的大篇幅问题,人工解读了解,效率较低。目前处理信访问题的两种手段中,处理信访问题的效率较低,随着信访问题的增加,越来越多的信访问题积压,长时间得不到答复。这种情况不符合政务机构的需求,无法保证政务机构信访业务的高效运转。
为此,本申请实施例提出一种信访问题答复系统,该系统可以包括四个模块:智能问 答引擎、后台管理系统、网页(Web)前端系统、知识库。智能问答引擎:读取知识点分析用户问题,查找并提供最相关的答案给用户。后台管理系统:网页与引擎的中间模块,负责知识库管理、触发引擎服务,以及提供超文本传输协议(HyperText Transfer Protocol,HTTP)接口给第三方。Web前端系统:包括存量知识录入页面、问答页面、新增知识页面。知识库:用于保存知识点、账号信息、历史问答记录等。该系统技术内核为人工智能问答系统,依赖机器学习、自然语言理解和深度学习等人工智能技术、实现信访信息的智能分级、问题与答案的智能语义匹配。为了进一步实现智能问答系统的自我学习与进化,创新性的引入人工智能迁移学习和长期学习技术。智能问答引擎的自我学习与进化可从对话中实时发掘新知识点并更新引擎。
如图1所示,为本申请实施例提供的一种信访问题答复系统的交互示意图。
步骤101:Web前端发送信访问题至后台管理系统。
步骤102:后台管理系统发送信访问题至智能问答引擎。
步骤103:智能问答引擎回复信访问题的答案(步骤104中简称答案)至后台管理系统。
步骤104:后台管理系统发送答案至Web前端。
如果步骤101~步骤104过程中,信访工作人员修改了答案,则Web前端获取了新知识,则执行步骤105~步骤108。
步骤105:Web前端保存新知识至后台管理系统。
步骤106:后台管理系统保存新知识至数据库。
步骤107:后台管理系统通知智能问答引擎更新。
步骤108:智能问答引擎更新从数据库读取新知识。
步骤108之后,智能问答引擎可根据新知识进行更新。
需要说明的是,步骤103至步骤104之间,智能问答引擎会根据信访问题找到合适的答复,具体步骤如图2所示,图2为本申请实施例提供的一种信访问题答复方法的步骤流程示意图。
步骤201:根据信访问题和至少一个预设意图类型模型,确定所述信访问题在所述至少一个预设意图类型模型上的至少一个打分值;根据所述至少一个打分值,确定所述信访问题的至少一个第一答案。
步骤202:确定所述信访问题对应的至少一个信访对象,将所述至少一个信访对象的预设答案,作为所述信访问题的至少一个第二答案。
步骤203:根据预设排序规则,对所述至少一个第一答案和所述至少一个第二答案进 行排序,将排序中的前N个答案,作为所述信访问题的答复。
N为正整数。
在接收到信访问题的时候,由于各个渠道的答复方式可能不一样(如回复的格式、措辞),因此可以将从多个渠道提交上来的信访问题进行分类,再分别对分类的信访问题进行处理。
在信访问题答复系统在问答系统初始化时,会加载必要的模型与数据结构,其中,该模型包括预设个数的预设意图类型模型,该数据结构可选为双数组前缀树。举例来说,双数组前缀树常作为子串抽取的核心数据结构,系统加载所有的信访对象,并将其添加至双数组前缀树中,在本实施例中,所述信访对象指信访问题中的投诉主体。同时,为了满足信访对象的部分缩写也可以被抽取,对于每一个信访对象都可以生成若干缩写,具体过程如下:1,对某个信访对象,首先对其分词;2,对分词后的词序列,设置词序列的词数量P和滑动窗口值Q,设定滑动窗口值为Q>=2且Q<=P-1;3.假设Q=2,从词序列的左端开始滑动,每两个词一组,如果某一组词语组合内不包含预先设定的无意义词,且这组词语组合内的各词的逆文本频率指数(IDF)(IDF由历史信访对象数据统计得出)大于预设频率指数阈值时,将这一组词语组合作为这一信访对象的缩写。基于上述表述,如果某一信访对象的确存在缩写,则将其添加至双数组前缀树中,并建立缩写与信访对象的对应关系。举例如下:
信访对象:A1A2A3A4A5;其中,A1、A2、A3、A4、A5均为一个词。当滑动窗口值Q为2时,得到的词语组合有:A1A2、A2A3、A3A4、A4A5。由于A1的IDF值过低,小于预设频率指数阈值,A4、A5为预设的无意义词,因此A2A3为过滤后的缩写,因此可建立A2A3与A1A2A3A4A5的对应关系。在双数组前缀树填充完毕之后,信访问题答复系统会对知识库中的逐条问题的答案抽取信访对象,并根据信访对象构建倒排索引,即信访对象所对应的问题的答案队列。
因此,步骤201之前一种可选实施方式可以如下:
第一信访对象为所述至少一个信访对象中任一对象;所述第一信访对象与对应的词序列按照以下方式建立对应关系:设置词序列的词数量和滑动窗口值;对所述第一信访对象进行分词;根据所述词数量和所述滑动窗口值,获取所述第一信访对象分词后的至少一个词语组合;将所述至少一组词语组合中逆文本频率指数大于预设频率指数阈值且不包含预设无意义词语的词语组合,作为与所述第一信访对象对应的词序列。
上述方式下,可设置词序列的词数量和滑动窗口值;对所述第一信访对象进行分词,获取至少一个词语组合,由于逆文本频率指数可表征词语组合在文本中的重要程度,因此 当逆文本频率指数大于预设频率指数阈值时,可作为标识信访对象的词序列,从而增加了信访问题中识别信访对象的准确性和多样性。
步骤201中,在信访问题答复系统运行阶段,当收到信访问题时,可以进行意图解析。举例来说,金融局目前有20个预设意图类型,信访问题答复系统可以融合规则引擎与多分类模型。首先,利用预定义的规则对信访问题进行解析,如命中预设关键词;然后,对命中预设关键词的信访问题利用预设意图类型模型进行意图分类打分,高于预设打分值预设意图类型的答案将被预设意图类型模型从预先收集的答案池中抽取出来。
具体预设意图类型模型的打分过程可以如下:
(1)获得预设意图类型模型的训练数据集;其中,每条数据包括问题文本和意图类型的标签值。
(2)对预设意图类型模型的训练数据集进行机器学习训练,获得预设意图类型模型。在训练过程中,每个问题文本输入预设意图类型模型都会被转化为一个语义向量,从而量化该问题文本。预设意图类型模型可以为一个神经网络,基于训练数据集对预设意图类型模型的训练,使得预设意图类型模型的参数如神经元之间的连接权重得到了优化。
(3)将信访问题文本输入预设意图类型模型,将预设意图类型模型输出的概率值作为打分值。具体地,该过程可以为:将信访问题文本输入预设意图类型模型后,预设意图类型模型将信访问题文本转化为一个语义向量,并在神经网络中对训练过程中得到的参数逐层(如输入层、隐藏层和输出层)进行计算,直至在输出层得到概率值,最终将概率值作为打分值。
步骤201的一种可选实施方式中,所述根据信访问题和至少一个预设意图类型模型,确定所述信访问题在所述至少一个预设意图类型上的打分值,包括:对所述信访问题进行意图解析,获取所述信访问题的至少一个关键词;将所述至少一个关键词输入至每个预设意图类型模型后输出的值,作为所述信访问题对该预设意图类型的打分值;所述根据所述至少一个打分值,确定所述信访问题的至少一个第一答案,包括:将所述至少一个打分值中大于预设分值的打分值在所述至少一个预设意图类型中对应意图类型的预设答案,从预先收集的答案池中获取出来,作为所述至少一个预设意图类型的第一答案。
其中,将所述至少一个关键词输入至每个预设意图类型模型后输出的值,作为所述信访问题对该预设意图类型的打分值的过程为:预设意图类型模型将每一个关键词转化为一个语义向量,并在神经网络中对训练过程中得到的参数逐层(如输入层、隐藏层和输出层)进行计算,直至在输出层得到概率值,最终将概率值作为打分值。
所述在神经网络中对训练过程中得到的参数逐层(如输入层、隐藏层和输出层)进行 计算,直至在输出层得到概率值具体为:
对于分词后的文本,每个词在输入层被表示为one-hot向量,即其中一位为1,其余位为0。
接着,通过权重矩阵W对每个词的输入层向量进行计算,并将每个词的计算结构压缩到隐藏层,并对每个词对应的隐藏层向量求平均。公式如下:
Figure PCTCN2020097250-appb-000001
其中,C为文本中词的个数,xi为各词的one-hot向量,W为权重矩阵。
然后,经由矩阵W’计算,(其中,所述矩阵W’的维度和参数与上述权重矩阵W不同,具体根据实际需要调整)并进行softmax归一化得到输出层向量,即通过矩阵W’对隐藏层平均向量h进行计算,得到输出层向量。
注意,输出层的节点数即为标签类别数。这里分两步,公式如下:
Figure PCTCN2020097250-appb-000002
这里
Figure PCTCN2020097250-appb-000003
是矩阵的第j列,最后将u j作为softmax函数的输入,得到输出层向量y i
Figure PCTCN2020097250-appb-000004
该输出层向量的概率值即为信访问题对应的打分值。
需要说明的是,所述模型在使用之前,可通过训练数据进行训练。即,在训练阶段,搜集一批训练数据,其格式如下:
Figure PCTCN2020097250-appb-000005
批量输入模型进行训练,训练好之后模型具备预测的能力。
之后,在预测阶段,给定一个分词后的文本,按照上述结构,模型会给出所有标签的概率,我们选区大于特定值(如0.3)的标签作为候选意图。
举例来说,预设意图类型包括:“贷款诈骗”;“拆迁纠纷”。信访问题为“举报某市某区某金融公司的负责人携款潜逃”,至少一个关键词为“某市”、“某区”“某金融公司”“携款潜逃”。将至少一个关键词输入贷款诈骗模型后,获得打分值为0.6;将至少一个关键词输入拆迁纠纷模型后,获得打分值为0.2;预设分值为0.3,则将贷款诈骗模型中的答案作 为至少一个预设意图类型的第一答案。
需要说明的是,每个意图类型的预设答案可以有多个,将历史回复的预设答案设定好顺序。按照每个意图类型保存下来,当需要输出该意图类型的答案时,可以搜索符合该问题的最优答案(最优答案的标准在此不做限定,举例来说,可以将语义相似度最大的答案作为最优答案),推荐给信访问题回复工作人员。另外,当系统推荐的当前最优解不能满足当前问题的答复时,支持手工编辑更新最优解。该次优解升级为最优解,从而建立最优解自我更新机制。
上述方式下,对所述信访问题进行意图解析,获取所述信访问题的至少一个关键词;将所述至少一个关键词输入至每个预设意图类型对应的文本分类模型后输出的值,作为所述信访问题对该预设意图类型的打分值;从而可以通过意图,获取到信访问题的至少一个第一答案,增加了备选答案的准确性。
步骤201一种可选实施方式中,第一预设意图类型预先设置了答案模板,所述答案模板包括固定文本和空白变量文本;所述第一预设意图类型为所述至少一个预设意图类型中任一预设意图类型;按照以下方式,确定所述第一预设意图类型的第一答案:根据所述信访问题与所述空白变量文本中变量的匹配结果,获取填充所述空白变量文本后的内容文本;将所述固定文本和内容文本的组合,作为所述第一预设意图类型的第一答案。
举例来说,固定文本为“您好,电子政务系统正在为您服务…”等信息。空白变量文本为投诉人的姓名、投资的机构、投资金额等信息。信访问题中出现了“我是ABC,我在D公司投资了200万”,那么投诉人的姓名与“我是ABC”的匹配结果为ABC,投资的机构与“我在D公司投资了200万”的匹配结果为D公司,投资金额与“我在D公司投资了200万”的匹配结果为200万。最终第一答案为:“ ABC女生/先生,您好,电子政务系统正在为您服务, D公司目前拖欠您的 200万,我们会尽快联系 D公司的法人代表,为您追缴欠款,请知悉”。
上述方法中,预先设置了答案模板,答案模板包括固定文本和空白变量文本,根据所述信访问题与所述空白变量文本中变量的匹配结果,获取填充所述空白变量文本后的内容文本;将所述固定文本和内容文本的组合,作为所述第一预设意图类型的第一答案,从而不需要反复编辑答案文本,进一步提升了信访问题的处理效率。
步骤202中,信访问题答复系统对信访问题的信访对象进行识别与抽取,具体融合如下两种策略:
(1)关键词抽取,举例来说,可基于双数组前缀树进行关键词抽取,抽取方式可以为:对信访问题中满足在双数组前缀树中存储的信访对象或缩写的词语抽取出来。如前所述, 信访问题答复系统初始化时已将信访对象与缩写填入其中,对于给定的信访问题,其中包含的信访对象与缩写将被抽取,同时,缩写将被还原成其对应的信访对象。
(2)通过词序列标注模型来标注词语的预设类型,其中,该词序列标注模型是根据历史标注词语的预设类型训练的模型,具体将预设类型映射为标签值,连同词语一起作为训练数据集,通过大量训练得到。通过词序列标注模型来标注词语的预设类型的具体过程如下:首先对投诉问题进行分词,之后利用此模型进行标注,即,将分词后的投诉问题与该模型进行比较,根据该模型中词语与标签值的对应关系,确定分词后的投诉问题对应的标签值,之后,再根据标签值映射的预设类型,确定分词后的投诉问题对应的预设类型,从而实现词语的预设类型的标注。举例来说,标注的预设类型分为几种:P-B(信访对象的开始词),P-I(信访对象的中间词),P-E(信访对象的结尾词),P-N(非信访对象词),取由P-B、连续P-I、P-E组成的词序列作为候选集,预设置信度为0.8,从候选集中筛选大于置信度的词序列作为至少一个第二答案。当提取出投诉问题中的信访对象之后,会根据前述的倒排索引搜索信访对象对应的问题答案队列,取其中更新时间最新的答案作为此信访对象的答复。
步骤202的一种可选实施方式中,所述确定所述信访问题对应的至少一个信访对象,包括:对所述信访问题进行分词,并在分词后确定出符合预设词类型的词语;根据各预设词类型的词语,确定至少一个词序列;将所述至少一个词序列对应的信访对象的置信度大于预设置信度阈值的词序列对应的信访对象,作为所述信访问题对应的至少一个信访对象。
上述方法中,对信访问题进行分词,并在分词后确定出符合预设词类型的词语,举例来说,符合P-B类型、P-I类型的词语,进而确定至少一个词序列,每个词序列对应的信访对象都有置信度,当置信度大于预设置信度阈值时,认为该词序列对应的信访对象,是所述信访问题对应的至少一个信访对象,从而增加了备选答案的准确性。
步骤201~步骤203的方法中,经过对数据的分析发现,普遍存在同一个问题由不同的人通过不同渠道反馈的现象。本申请的一种可选实施方式如下:
若同时接收到相同类别的多个信访问题,将所述第一信访问题的答复,作为所述多个信访问题的答复;第一信访问题为所述多个信访问题的任一信访问题。
需要说明的是,这里的相同类别指相同的信访对象、相同的意图类型等。
步骤201~步骤203的方法中,根据所述信访问题在所述至少一个预设意图类型模型上的至少一个打分值,确定所述信访问题对应的至少一个预设意图类型的第一答案;以及确定所述信访问题对应的至少一个信访对象,将所述至少一个信访对象的预设答案,作为所述信访问题的至少一个第二答案,得到信访问题的多个备选答案,再根据预设排序规则, 对所述至少一个预设意图类型的第一答案和所述至少一个信访对象的第二答案进行排序,将多个备选答案中排序前N个的答案,作为所述信访问题的答复;N为正整数,从而可自动获取多个备选答案,并取前N个答案,提升了智能化自动回复信访问题的准确性,进而提升了信访问题的效率。
如图3所示,为本申请提供一种信访问题答复装置,包括:确定模块301,用于根据信访问题和至少一个预设意图类型模型,确定所述信访问题在所述至少一个预设意图类型模型上的至少一个打分值;根据所述至少一个打分值,确定所述信访问题的至少一个第一答案;确定所述信访问题对应的至少一个信访对象,将所述至少一个信访对象的预设答案,作为所述信访问题的至少一个第二答案;处理模块302,用于根据预设排序规则,对所述至少一个第一答案和所述至少一个第二答案进行排序,将排序中的前N个答案,作为所述信访问题的答复;N为正整数。
一种可选实施方式中,所述确定模块301具体用于:对所述信访问题进行分词,并在分词后确定出符合预设词类型的词语;根据各预设词类型的词语,确定至少一个词序列;将所述至少一个词序列对应的信访对象的置信度大于预设置信度阈值的词序列对应的信访对象,作为所述信访问题对应的至少一个信访对象。
一种可选实施方式中,第一信访对象为所述至少一个信访对象中任一对象;所述处理模块302还用于:按照以下方式建立所述第一信访对象与对应的词序列对应关系:设置词序列的词数量和滑动窗口值;对所述第一信访对象进行分词;根据所述词数量和所述滑动窗口值,获取所述第一信访对象分词后的至少一个词语组合;将所述至少一组词语组合中逆文本频率指数大于预设频率指数阈值且不包含预设无意义词语的词语组合,作为与所述第一信访对象对应的词序列。
一种可选实施方式中,所述确定模块301具体用于:对所述信访问题进行意图解析,获取所述信访问题的至少一个关键词;将所述至少一个关键词输入至每个预设意图类型模型后输出的值,作为所述信访问题对该预设意图类型的打分值;将所述至少一个打分值中大于预设分值的打分值在所述至少一个预设意图类型中对应意图类型的预设答案,作为所述至少一个预设意图类型的第一答案。
一种可选实施方式中,第一预设意图类型预先设置了答案模板,所述答案模板包括固定文本和空白变量文本;所述第一预设意图类型为所述至少一个预设意图类型中任一预设意图类型;所述确定模块301具体用于:根据所述信访问题与所述空白变量文本中变量的匹配结果,获取填充所述空白变量文本后的内容文本;将所述固定文本和内容文本的组合,作为所述第一预设意图类型的第一答案。
本申请实施例提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行本申请实施例提供的一种信访问题答复方法及任一可选方法。
本申请实施例提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行本申请实施例提供的一种信访问题答复方法及任一可选方法。
最后应说明的是:本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

  1. 一种信访问题答复方法,其特征在于,包括:
    根据信访问题和至少一个预设意图类型模型,确定所述信访问题在所述至少一个预设意图类型模型上的至少一个打分值;根据所述至少一个打分值,确定所述信访问题的至少一个第一答案;
    确定所述信访问题对应的至少一个信访对象,将所述至少一个信访对象的预设答案,作为所述信访问题的至少一个第二答案;
    根据预设排序规则,对所述至少一个第一答案和所述至少一个第二答案进行排序,将排序中的前N个答案,作为所述信访问题的答复;N为正整数。
  2. 如权利要求1所述的方法,其特征在于,所述确定所述信访问题对应的至少一个信访对象,包括:
    对所述信访问题进行分词,并在分词后确定出符合预设词类型的词语;
    根据各预设词类型的词语,确定至少一个词序列;
    将所述至少一个词序列对应的信访对象的置信度大于预设置信度阈值的词序列对应的信访对象,作为所述信访问题对应的至少一个信访对象。
  3. 如权利要求2所述的方法,其特征在于,第一信访对象为所述至少一个信访对象中任一对象;所述第一信访对象与对应的词序列按照以下方式建立对应关系:
    设置词序列的词数量和滑动窗口值;对所述第一信访对象进行分词;根据所述词数量和所述滑动窗口值,获取所述第一信访对象分词后的至少一个词语组合;
    将所述至少一组词语组合中逆文本频率指数大于预设频率指数阈值且不包含预设无意义词语的词语组合,作为与所述第一信访对象对应的词序列。
  4. 如权利要求1-3任一所述的方法,其特征在于,所述根据信访问题和至少一个预设意图类型模型,确定所述信访问题在所述至少一个预设意图类型模型上的至少一个打分值,包括:
    对所述信访问题进行意图解析,获取所述信访问题的至少一个关键词;
    将所述至少一个关键词输入至每个预设意图类型模型后输出的值,作为所述信访问题对该预设意图类型的打分值;
    所述根据所述至少一个打分值,确定所述信访问题的至少一个第一答案,包括:
    将所述至少一个打分值中大于预设分值的打分值在所述至少一个预设意图类型中对应意图类型的预设答案,作为所述至少一个预设意图类型的第一答案。
  5. 如权利要求4所述的方法,其特征在于,第一预设意图类型预先设置了答案模板,所述答案模板包括固定文本和空白变量文本;所述第一预设意图类型为所述至少一个预设意图类型中任一预设意图类型;按照以下方式,确定所述第一预设意图类型的第一答案:
    根据所述信访问题与所述空白变量文本中变量的匹配结果,获取填充所述空白变量文本后的内容文本;
    将所述固定文本和内容文本的组合,作为所述第一预设意图类型的第一答案。
  6. 一种信访问题答复装置,其特征在于,包括:
    确定模块,用于根据信访问题和至少一个预设意图类型模型,确定所述信访问题在所述至少一个预设意图类型模型上的至少一个打分值;根据所述至少一个打分值,确定所述信访问题的至少一个第一答案;确定所述信访问题对应的至少一个信访对象,将所述至少一个信访对象的预设答案,作为所述信访问题的至少一个第二答案;
    处理模块,用于根据预设排序规则,对所述至少一个第一答案和所述至少一个第二答案进行排序,将排序中的前N个答案,作为所述信访问题的答复;N为正整数。
  7. 如权利要求6所述的装置,其特征在于,所述确定模块具体用于:
    对所述信访问题进行分词,并在分词后确定出符合预设词类型的词语;
    根据各预设词类型的词语,确定至少一个词序列;
    将所述至少一个词序列对应的信访对象的置信度大于预设置信度阈值的词序列对应的信访对象,作为所述信访问题对应的至少一个信访对象。
  8. 如权利要求7所述的装置,其特征在于,第一信访对象为所述至少一个信访对象中任一对象;所述处理模块还用于:
    按照以下方式建立所述第一信访对象与对应的词序列对应关系:
    设置词序列的词数量和滑动窗口值;对所述第一信访对象进行分词;根据所述词数量和所述滑动窗口值,获取所述第一信访对象分词后的至少一个词语组合;
    将所述至少一组词语组合中逆文本频率指数大于预设频率指数阈值且不包含预设无意义词语的词语组合,作为与所述第一信访对象对应的词序列。
  9. 如权利要求6-8任一所述的装置,其特征在于,所述确定模块具体用于:
    对所述信访问题进行意图解析,获取所述信访问题的至少一个关键词;
    将所述至少一个关键词输入至每个预设意图类型对应的文本分类模型后输出的值,作为所述信访问题对该预设意图类型的打分值;
    将所述至少一个打分值中大于预设分值的打分值在所述至少一个预设意图类型中对应意图类型的预设答案,作为所述至少一个预设意图类型的第一答案。
  10. 如权利要求9所述的装置,其特征在于,第一预设意图类型预先设置了答案模板,所述答案模板包括固定文本和空白变量文本;所述第一预设意图类型为所述至少一个预设意图类型中任一预设意图类型;所述确定模块具体用于:
    根据所述信访问题与所述空白变量文本中变量的匹配结果,获取填充所述空白变量文本后的内容文本;
    将所述固定文本和内容文本的组合,作为所述第一预设意图类型的第一答案。
  11. 一种计算机设备,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至5中任意一项所述的方法被执行。
  12. 一种存储介质,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至5中任意一项所述的方法被执行。
PCT/CN2020/097250 2019-08-23 2020-06-19 一种信访问题答复方法及装置 WO2021036439A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910785860.3 2019-08-23
CN201910785860.3A CN110516057B (zh) 2019-08-23 2019-08-23 一种信访问题答复方法及装置

Publications (1)

Publication Number Publication Date
WO2021036439A1 true WO2021036439A1 (zh) 2021-03-04

Family

ID=68627626

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/097250 WO2021036439A1 (zh) 2019-08-23 2020-06-19 一种信访问题答复方法及装置

Country Status (2)

Country Link
CN (1) CN110516057B (zh)
WO (1) WO2021036439A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516057B (zh) * 2019-08-23 2022-10-28 深圳前海微众银行股份有限公司 一种信访问题答复方法及装置
WO2021168650A1 (zh) * 2020-02-25 2021-09-02 京东方科技集团股份有限公司 一种问题查询装置、方法、设备及存储介质
CN111611382A (zh) * 2020-05-22 2020-09-01 贝壳技术有限公司 话术模型训练方法、对话信息生成方法及装置、系统
CN116578693B (zh) * 2023-07-14 2024-02-20 深圳须弥云图空间科技有限公司 一种文本检索方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058464A (ja) * 2001-06-06 2003-02-28 Neogenesis Corp 質問応答システム
CN107957992A (zh) * 2017-12-12 2018-04-24 武汉虹信技术服务有限责任公司 一种用户反馈信息的自动处理方法及系统
CN108664599A (zh) * 2018-05-09 2018-10-16 腾讯科技(深圳)有限公司 智能问答方法、装置、智能问答服务器及存储介质
CN108874949A (zh) * 2018-06-05 2018-11-23 北京玄科技有限公司 基于业务语料的意图分类方法、装置及智能问答方法
CN109345282A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 一种业务咨询的响应方法及设备
CN110516057A (zh) * 2019-08-23 2019-11-29 深圳前海微众银行股份有限公司 一种信访问题答复方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US20110125734A1 (en) * 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
CN104598445B (zh) * 2013-11-01 2019-05-10 腾讯科技(深圳)有限公司 自动问答系统和方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
CN104361127B (zh) * 2014-12-05 2017-09-26 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN106572001B (zh) * 2016-10-31 2019-10-11 厦门快商通科技股份有限公司 一种智能客服的对话方法及系统
CN109858007B (zh) * 2017-11-30 2024-02-02 上海智臻智能网络科技股份有限公司 语义分析问答方法和装置、计算机设备和存储介质
CN108345585A (zh) * 2018-01-11 2018-07-31 浙江大学 一种基于深度学习的自动问答方法
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109829038A (zh) * 2018-12-11 2019-05-31 平安科技(深圳)有限公司 基于深度学习的问答反馈方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058464A (ja) * 2001-06-06 2003-02-28 Neogenesis Corp 質問応答システム
CN107957992A (zh) * 2017-12-12 2018-04-24 武汉虹信技术服务有限责任公司 一种用户反馈信息的自动处理方法及系统
CN108664599A (zh) * 2018-05-09 2018-10-16 腾讯科技(深圳)有限公司 智能问答方法、装置、智能问答服务器及存储介质
CN108874949A (zh) * 2018-06-05 2018-11-23 北京玄科技有限公司 基于业务语料的意图分类方法、装置及智能问答方法
CN109345282A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 一种业务咨询的响应方法及设备
CN110516057A (zh) * 2019-08-23 2019-11-29 深圳前海微众银行股份有限公司 一种信访问题答复方法及装置

Also Published As

Publication number Publication date
CN110516057A (zh) 2019-11-29
CN110516057B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN108052583B (zh) 电商本体构建方法
WO2021036439A1 (zh) 一种信访问题答复方法及装置
CN106649561B (zh) 面向税务咨询业务的智能问答系统
CN111414479B (zh) 基于短文本聚类技术的标签抽取方法
CN107766371B (zh) 一种文本信息分类方法及其装置
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN108885623B (zh) 基于知识图谱的语意分析系统及方法
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN104598445A (zh) 自动问答系统和方法
CN111222305A (zh) 一种信息结构化方法和装置
CN109947902B (zh) 一种数据查询方法、装置和可读介质
CN110955776A (zh) 一种政务文本分类模型的构建方法
CN113505586A (zh) 一种融合语义分类与知识图谱的坐席辅助问答方法与系统
CN112818109B (zh) 邮件的智能回复方法、介质、装置和计算设备
CN111339277A (zh) 基于机器学习的问答交互方法及装置
WO2021063089A1 (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN109446299B (zh) 基于事件识别的搜索电子邮件内容的方法及系统
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN115630843A (zh) 合同条款自动审核方法及系统
CN114077705A (zh) 一种对社交平台上的媒体账号进行画像的方法和系统
WO2023207566A1 (zh) 语音房质量评估方法及其装置、设备、介质、产品
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
CN113111157B (zh) 问答处理方法、装置、计算机设备和存储介质
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20856473

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20856473

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 09.08.2022)