WO2021164171A1 - 知识库中数据处理方法、装置、计算机设备和存储介质 - Google Patents
知识库中数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- WO2021164171A1 WO2021164171A1 PCT/CN2020/098726 CN2020098726W WO2021164171A1 WO 2021164171 A1 WO2021164171 A1 WO 2021164171A1 CN 2020098726 W CN2020098726 W CN 2020098726W WO 2021164171 A1 WO2021164171 A1 WO 2021164171A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- knowledge
- entered
- data
- word segmentation
- document
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种知识库中数据处理方法,涉及数据处理技术领域,包括:接收数据录入请求,数据录入请求携带待录入知识数据(S100);对待录入知识数据进行分词处理,得到分词结果(S200);根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与待录入知识数据相关的知识文档(S300);调用预设的阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档(S400);当检测到知识冲突为不完全匹配时,录入待录入知识数据(S500)。
Description
相关申请的交叉引用
本申请要求于2020年2月17日提交中国专利局,申请号为2020100976758,申请名称为″知识库中数据处理方法、装置、计算机设备和存储介质″的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及数据处理技术领域,特别是涉及一种知识库中数据处理方法、装置、计算机设备和存储介质。
随着人工智能技术的发展和应用趋于成熟,客服机器人逐渐在多个领域得到应用,其在提升客服中心效率、降低客服成本方面的价值越发彰显。知识库是对特定信息进行分类收集,合理存储、智能查询并可更新维护的数据库系统,其是客服中心重要组成部分,客服机器人的应用也离不开知识库的建设。
然而,发明人意识到,目前,知识库在运作时,存在多个知识库共用相同知识的现象,在新增知识数据条需要针对每个知识库导入知识,导入知识数据条过程中可能存在一大部分知识已存在知识库中却依然重复导入,进而产生信息冗余浪费系统资源,且对知识库中所有知识进行维护时,会因为存在较多的相似的知识而产生知识冲突,如此,使得知识问答效率较低。
发明内容
根据本申请公开的各种实施例,提供一种知识库中数据处理方法、装置、计算机设备和存储介质
一种知识库中数据处理方法包括:
接收数据录入请求,所述数据录入请求携带待录入知识数据;
对所述待录入知识数据进行分词处理,得到分词结果;
根据所述分词结果以及预设基于SOLR(Search On Lucene Replication)技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档;
调用预设阈值化知识冲突接口,根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档;及
当检测到知识冲突为不完全匹配时,录入所述待录入知识数据。
一种知识库中数据处理装置包括:
请求接收模块,用于接收数据录入请求,所述数据录入请求携带待录入知识数据;
分词处理模块,用于对所述待录入知识数据进行分词处理,得到分词结果;
索引搜索模块,用于根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档;
冲突检测模块,用于调用预设的阈值化知识冲突接口,根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档;及
知识录入模块,用于当检测到知识冲突为不完全匹配时,录入所述待录入知识数据。
一种计算机设备,包括存储器和一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述一个或多个处理器执行以下步骤:
接收数据录入请求,所述数据录入请求携带待录入知识数据;
对所述待录入知识数据进行分词处理,得到分词结果;
根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档;
调用预设阈值化知识冲突接口,根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档;及
当检测到知识冲突为不完全匹配时,录入所述待录入知识数据。
一个或多个存储有计算机可读指令的计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
接收数据录入请求,所述数据录入请求携带待录入知识数据;
对所述待录入知识数据进行分词处理,得到分词结果;
根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档;
调用预设阈值化知识冲突接口,根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档;及
当检测到知识冲突为不完全匹配时,录入所述待录入知识数据。
上述知识库中数据处理方法、装置、计算机设备和存储介质,在每次录入知识数据至知识库时,可通过基于SLOR技术创建的倒排索引结构表,快速地对存量知识文档如标准问,标准答案等数据进行索引搜索,查找出与录入知识相关的知识文档,并通过调用预设阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档,当检测到知识冲突为不完全匹配时,则录入待录入知识数据。上述方案,在避免重复导入相似的知识数据的同时,也避免了在实际问答中产生知识冲突,提高知识问答的效率。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和 优点将从说明书、附图以及权利要求书变得明显。
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据一个或多个实施例中知识库中数据处理方法的应用场景图;
图2为根据一个或多个实施例中知识库中数据处理方法的流程示意图;
图3为根据一个或多个实施例中创建倒排索引结构表步骤的流程示意图;
图4为另一个实施例中知识库中数据处理方法的流程示意图;
图5为根据一个或多个实施例中知识库中数据处理装置的框图;
图6为另一个实施例中知识库中数据处理装置的框图;
图7为根据一个或多个实施例中计算机设备的框图。
为了使本申请的技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的知识库中数据处理方法,可以应用于如图1所示的应用环境中。用户终端102通过网络与服务器104通过网络进行通信。具体可以是用户通过用户终端102登录知识统一管理平台系统,想要于机器人客服对应的问答知识库录入新知识时,通过于用户终端102操作知识统一管理平台系统向该系统的服务器104发送数据录入请求,服务器104接收数据录入请求(数据录入请求携带待录入知识数据),对待录入知识数据进行分词处理,得到分词结果,根据分词结果和基于SOLR技术创建的倒排索引结构,对预设问答知识库中的知识文档进行索引搜索,查找出与待录入知识数据相关的知识文档,调用阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档,当检测到知识冲突为不完全匹配时,则录入待录入知识数据。其中,用户终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在其中一个实施例中,如图2所示,提供了一种知识库中数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S100,接收数据录入请求,数据录入请求携带待录入知识数据。
本实施例中,知识库即问答知识库,问答知识库使用的最广泛的一个领域就是客服系统,这种应用一般被业内称作是″智能客服机器人″,其本质就是一个支持客户问答服务 的智能问答知识库。在实际应用中,数据录入请求可以是当用户需要于问答知识库导入新知识时,于用户终端点击″录入″按钮,发送数据录入请求至服务器的,该数据录入请求携带待录入的知识数据,待录入的知识数据可以是用于问答的标准问、标准答案以及个性化答案,也可以是扩展文段等。
步骤S200,对待录入知识数据进行分词处理,得到分词结果。
分词是自然语言处理任务中基本的处理手段,具体是指将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,一个单词就是一个词,单词之间是以空格作为自然分界符的,一般都使用空格对将英文行文切分成多个单词,而对于中文分词,汉子是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分,因此,中文分词的难度相对较大。在获取到待录入知识数据后,为了便于进行知识冲突检测,需要对带录入知识进行分词处理,将待录入知识数据切分成多个单词。本实施例中,分词方法可以是采用分词器对待录入知识数据进行分词处理,得到多个独立的单词,也可以是运用基于统计的分词方法对待录入知识数据进行分词处理,在此,分词方式不做限定。
步骤S300,根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与待录入知识数据相关的知识文档。
倒排索引,也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。已存知识文档即在之前的时间段就已经录入且存在于数据库中的知识文档,与新增录入的知识文档对应,其可以包括标准问、扩展问、标准答案以及个性化答案等。SOLR是一个全文检索引擎系统,对外通过HTTP(HyperText Transfer Protocol,超文本传输协议)提供全文检索服务(也就是对索引和文档的增删改查服务)。本实施例中,在索引搜索之前,基于SLOR技术创建倒排索引结构,使得能够根据索引与知识文档列表的关联关系,由单词查找到单词出现的文档ID(Identity,身份),再由文档ID查找出对应的具体的知识文档,对存量知识文档和待录入知识数据进行索引搜索,查找出与录入知识相关的知识文档。
步骤S400,调用阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档。
知识冲突即指知识库中存在相同或相似的知识内容,阈值化知识冲突接口是基于CNN(Convolutional Neural Networks,卷积神经网络)算法构建的用于调用SOLR服务的接口,调用该接口能够触发知识冲突检测事件,并根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档。
步骤S500,当知识冲突为不完全匹配时,录入待录入知识数据。
在实际应用中,为保证问答知识库的质量,当检测到产生知识冲突时,需要建立一定的解决冲突的机制。本实施例中,采用的解决冲突的机制可以是若知识冲突为完全匹配,则表示该待录入的知识数据已存在于问答知识库中,本次录入待录入知识数据属于重复录 入,不允许待录入知识数据的录入,同时,通知管理人员进行相应处理。当知识冲突为不完全匹配时,则录入待录入知识数据。
上述知识库中数据处理方法,在每次录入知识至知识库时,可通过基于SLOR技术创建的倒排索引结构表,能够快速地对存量知识文档如标准问,标准答案等数据进行索引搜索,查找出与录入知识相关的知识文档,并通过调用预设阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档,当检测到知识冲突为不完全匹配时,录入待录入知识数据。上述方案,在避免重复导入相似的知识数据的同时,也避免了在实际问答中产生知识冲突,从而提高知识问答的效率。
在其中一个实施例中,如图3所示,倒排索引结构表包括文档ID列表和单词出现频次;根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与待录入知识数据相关的知识文档包括:步骤S320,根据分词结果查找对应的索引,根据查找到的索引,从倒排索引结构中查找出对应的文档ID列表、并由查找到的文档ID列表查找出对应的知识文档,基于倒排索引结构表中单词出现频次,计算各分词结果的权重,根据权重对查找出的知识文档进行排序,得到与待录入知识数据相关的知识文档。
索引搜索即为SOLR的索引搜索过程。具体的,可以是先根据分词结果即独立的单词序列对预设问答知识库进行全文检索,查找到与单词对应的索引,再由索引于倒排索引结构中查找到对应的文档ID列表,根据文档ID列表查找到具体的对应存量知识文档,然后,查找由待录入知识数据切分得到的单词在该存量知识文档中的出现频次,由出现频次计算各分词结果的权重,将对应的文档ID列表按照权重排序,返回排序后的知识文档。本实施例中,通过SOLR技术创建的索引与知识文档列表的关联关系,能够对非结构化或半结构化的知识文档数据进行快速查找,提高匹配检测效率。
在其中一个实施例中,如图4所示,根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对预设问答知识库中的知识文档进行索引搜索之前,还包括:
步骤S150,获取预设知识库的存量知识文档;
步骤S152,将存量知识文档切分为单词序列、并创建与单词序列对应的索引;
步骤S154,为单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表;
步骤S156,将索引与倒排列表进行关联,得到倒排索引结构表。
如上述实施例所述,倒排索引是搜索引擎用来快速查找包含某个单词的文档集合的数据结构,其由单词词典和所有单词对应的倒排列表组成。搜索引擎通常的索引单位是单词,单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引项记载单词本身的一些信息以及指向倒排表的指针,它的常用数据结构是:哈希加链表结构和树形词典结构(B/B+)。倒排列表由倒排列表项构成,一般倒排列表项包含文档ID、单词磁盘和单词在文档出现的位置,文档ID可能采取文档ID列表差值的编码方式以减少数值 的大小。本实施例中,在进行索引搜索之前,创建倒排索引结构可以是先采用分词器将知识库中的存量知识文档切分为将存量知识文档切分为单词序列、并创建与单词序列对应的索引,其中,包含使用hash算法去除重复的单词,然后,为各单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表,将索引与倒排列表进行关联,得到倒排索引结构表。本实施例中,通过创建倒排索引结构表能够在后续索引检索中,由单词快速映射到具体的知识文档。
在其中一个实施例中,如图3所示,调用阈值化知识冲突接口,检测查找出的相关的知识文档与待录入知识数据是否存在知识冲突包括:步骤S420,调用阈值化知识冲突接口,获取查找出的相关的知识文档与待录入知识数据的相似度,将相似度与阈值进行比较,返回相似度高于阈值的知识文档。
在实际应用中,调用基于CNN算法构建的SOLR服务接口即知识冲突检测接口进行知识冲突检测可以是采用相似度计算方法,计算查找出的相关的知识文档与待录入知识数据的相似度,然后,为了便于筛选出更有参考价值的知识文档,可以是将相似度与预设阈值进行比较,将相似度高于预设阈值的知识文档确定为产生知识冲突的知识文档,进一步的,还可以将产生知识冲突的知识文档推送至用户终端。具体的,预设阈值可以是0.7,将相似度高于0.7的标准问或标准答案显示于用户终端的管理界面。可以理解的是,在其他实施例中,预设阈值还可以是除0.7之外的其他数值。本实施例中,基于阈值化知识冲突接口的调用,便返回相似度高于预设阈值且产生知识冲突的知识文档,以便管理人员及时查看。
如图3所示,在其中一个实施例中,还包括:步骤S520,当检测到知识冲突为完全匹配时,发送知识录入失败消息至用户终端。
如上述实施例所述,若知识冲突为不完全匹配,则表示该待录入知识数据是首次录入,则响应该数据录入请求,进行数据录入的操作,将待录入知识数据录入至知识库。若知识冲突为完全匹配,则表示待录入知识数据已存在于知识库中,需要拒绝知识的录入,可发送知识录入失败消息至用户终端。进一步的,待录入知识数据的录入,还可以是需要完成授权后才能允许知识的录入。具体的,授权过程可以是当检测到知识冲突为不完全匹配时,发送授权验证消息至用户终端,接收用户终端反馈的身份验证数据,当根据用户终端反馈的身份验证数据完成授权认证后,则录入待录入知识数据。本实施例中,当知识冲突为完全匹配,发送知识录入失败消息至用户终端,以通知用户及时做出处理,有效地避免了知识冲突。
在其中一个实施例中,发送知识录入失败消息至用户终端之后,还包括:发送待录入知识数据调整消息至用户终端,接收用户终端返回的调整后的待录入知识数据,对调整后的待录入知识数据进行分词处理,得到更新后的分词结果;将分词结果替换为更新后的分词结果,返回步骤S200。
在实际应用中,拒绝待录入知识数据的录入后,还可以发送待录入知识数据调整消息 至用户终端,以便管理人员对待录入知识数据进行调整,然后,接收用户终端返回的调整后的待录入知识数据,此时,待录入知识数据已更新为调整后的数据,再次进入对待录入知识数据进行分词处理的步骤,得到更新后的分词结果,将分词结果替换为更新后的分词结果,返回根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索的步骤。本实施例中,当知识冲突为完全匹配时,通过发送待录入知识数据调整消息至用户终端,可提示管理人员及时对带录入知识进行调整,降低与知识文档之间的重合度,防止知识冲突的产生,且保证了知识库的丰富度,提高了知识库的质量。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种知识库中数据处理装置,包括:请求接收模块510、分词处理模块520、索引搜索模块530、冲突检测模块540和知识录入模块550,其中:
请求接收模块510,用于接收数据录入请求,数据录入请求携带待录入知识数据;
分词处理模块520,用于对待录入知识数据进行分词处理,得到分词结果;
索引搜索模块530,用于根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与待录入知识数据相关的知识文档;
冲突检测模块540,用于调用阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档;及
知识录入模块550,用于当检测到知识冲突为不完全匹配时,录入待录入知识数据。
在其中一个实施例中,索引搜索模块530还用于根据分词结果查找对应的索引,根据查找到的索引,从倒排索引结构中查找出对应的文档ID列表、并由查找到的文档ID列表查找出对应的知识文档,基于倒排索引结构表中单词出现频次,计算各分词结果的权重,根据权重对查找出的知识文档进行排序、并返回排序后的知识文档。
如图6所示,在其中一个实施例中,知识库中数据处理装置还包括倒排索引结构表创建模块560,用于获取预设知识库的存量知识文档,将存量知识文档切分为单词序列、并创建与单词序列对应的索引,为单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表,将索引与倒排列表进行关联,得到倒排索引结构表。
在其中一个实施例中,冲突检测模块540还用于调用预设的阈值化知识冲突接口,获取查找出的相关的知识文档与待录入知识数据的相似度,将相似度与阈值进行比较,返回 相似度高于阈值的知识文档。
如图6所示,在其中一个实施例中,知识库中数据处理装置还包括冲突处理模块570,用于当检测到知识冲突为完全匹配时,发送知识录入失败消息至用户终端。
如图6所示,在其中一个实施例中,知识库中数据处理装置还包括知识调整模块580,用于发送待录入知识数据调整消息至用户终端,接收用户终端返回的调整后的待录入知识数据,对调整后的待录入知识数据进行分词处理,得到更新后的分词结果,将分词结果替换为更新后的分词结果,唤醒索引搜索模块530执行根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索的操作。
关于知识库中数据处理装置的具体限定可以参见上文中对于知识库中数据处理方法的限定,在此不再赘述。上述知识库中数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性或易失性存储介质、内存储器。该非易失性或易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储知识数据、倒排索引结构表等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种知识库中数据处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种计算机设备,包括存储器和一个或多个处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得一个或多个处理器执行以下步骤:
接收数据录入请求,所述数据录入请求携带待录入知识数据;
对所述待录入知识数据进行分词处理,得到分词结果;
根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档;
调用预设阈值化知识冲突接口,根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档;及
当检测到知识冲突为不完全匹配时,录入所述待录入知识数据。
在一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
根据所述分词结果查找对应的索引;
根据查找到的索引,从所述倒排索引结构表中查找出对应的文档ID列表、并由查找到的所述文档ID列表查找出对应的知识文档;
基于所述倒排索引结构表中单词出现频次,计算各分词结果的权重;及
根据所述权重对查找出的知识文档进行排序、并返回排序后的知识文档。
在一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
获取预设知识库的存量知识文档;
将所述存量知识文档切分为单词序列、并创建与所述单词序列对应的索引;
为所述单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表;及
将所述索引与所述倒排列表进行关联,得到所述倒排索引结构表。
在一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
调用预设的阈值化知识冲突接口,获取所述查找出的相关的知识文档与所述待录入知识数据的相似度;及
将所述相似度与所述阈值进行比较,返回相似度高于所述阈值的知识文档。
在一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
当检测到知识冲突为完全匹配时,发送知识录入失败消息至用户终端。
在一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
发送待录入知识数据调整消息至所述用户终端;
接收所述用户终端返回的调整后的待录入知识数据;
对调整后的待录入知识数据进行分词处理,得到更新后的分词结果;及
将所述分词结果替换为更新后的分词结果,返回所述根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表对已存知识文档进行索引搜索的步骤。
在一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
采用分词器或基于统计的分词方法对所述待录入知识数据进行分词处理,得到分词结果。
一个或多个存储有计算机可读指令的计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
接收数据录入请求,所述数据录入请求携带待录入知识数据;
对所述待录入知识数据进行分词处理,得到分词结果;
根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档;
调用预设阈值化知识冲突接口,根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档;及
当检测到知识冲突为不完全匹配时,录入所述待录入知识数据。
其中,该计算机可读存储介质可以是非易失性,也可以是易失性的。
在一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
根据所述分词结果查找对应的索引;
根据查找到的索引,从所述倒排索引结构表中查找出对应的文档ID列表、并由查找到的所述文档ID列表查找出对应的知识文档;
基于所述倒排索引结构表中单词出现频次,计算各分词结果的权重;及
根据所述权重对查找出的知识文档进行排序、并返回排序后的知识文档。
在一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
获取预设知识库的存量知识文档;
将所述存量知识文档切分为单词序列、并创建与所述单词序列对应的索引;
为所述单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表;及
将所述索引与所述倒排列表进行关联,得到所述倒排索引结构表。
在一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
调用预设的阈值化知识冲突接口,获取所述查找出的相关的知识文档与所述待录入知识数据的相似度;及
将所述相似度与所述阈值进行比较,返回相似度高于所述阈值的知识文档。
在一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
当检测到知识冲突为完全匹配时,发送知识录入失败消息至用户终端。
在一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
发送待录入知识数据调整消息至所述用户终端;
接收所述用户终端返回的调整后的待录入知识数据;
对调整后的待录入知识数据进行分词处理,得到更新后的分词结果;及
将所述分词结果替换为更新后的分词结果,返回所述根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表对已存知识文档进行索引搜索的步骤。
在一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
采用分词器或基于统计的分词方法对所述待录入知识数据进行分词处理,得到分词结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同 步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (20)
- 一种知识库中数据处理方法,包括:接收数据录入请求,所述数据录入请求携带待录入知识数据;对所述待录入知识数据进行分词处理,得到分词结果;根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档;调用预设阈值化知识冲突接口,根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档;及当检测到知识冲突为不完全匹配时,录入所述待录入知识数据。
- 根据权利要求1所述的方法,其中,所述倒排索引结构表包括文档ID列表和单词出现频次;所述根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对预设问答知识库中的知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档包括:根据所述分词结果查找对应的索引;根据查找到的索引,从所述倒排索引结构表中查找出对应的文档ID列表、并由查找到的所述文档ID列表查找出对应的知识文档;基于所述倒排索引结构表中单词出现频次,计算各分词结果的权重;及根据所述权重对查找出的知识文档进行排序、并返回排序后的知识文档。
- 根据权利要求1所述的方法,其中,在所述根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索之前,所述方法还包括:获取预设知识库的存量知识文档;将所述存量知识文档切分为单词序列、并创建与所述单词序列对应的索引;为所述单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表;及将所述索引与所述倒排列表进行关联,得到所述倒排索引结构表。
- 根据权利要求1所述的方法,其中,所述调用预设的阈值化知识冲突接口、并根据所述阈值化知识冲突接口设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档包括:调用预设的阈值化知识冲突接口,获取所述查找出的相关的知识文档与所述待录入知识数据的相似度;及将所述相似度与所述阈值进行比较,返回相似度高于所述阈值的知识文档。
- 根据权利要求1所述的方法,其中,还包括:当检测到知识冲突为完全匹配时,发送知识录入失败消息至用户终端。
- 根据权利要求5所述的方法,其中,在所述发送知识录入失败消息至用户终端之后,所述方法还包括:发送待录入知识数据调整消息至所述用户终端;接收所述用户终端返回的调整后的待录入知识数据;对调整后的待录入知识数据进行分词处理,得到更新后的分词结果;及将所述分词结果替换为更新后的分词结果,返回所述根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索的步骤。
- 根据权利要求1所述的方法,其中,所述对所述待录入知识数据进行分词处理,得到分词结果包括:采用分词器或基于统计的分词方法对所述待录入知识数据进行分词处理,得到分词结果。
- 根据权利要求1所述的方法,其中,所述预设阈值化知识冲突接口为基于CNN算法构建的用于调用SOLR服务的接口。
- 一种知识库中数据处理装置,包括:请求接收模块,用于接收数据录入请求,所述数据录入请求携带待录入知识数据;分词处理模块,用于对所述待录入知识数据进行分词处理,得到分词结果;索引搜索模块,用于根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档;冲突检测模块,用于调用预设的阈值化知识冲突接口,根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档;及知识录入模块,用于当检测到知识冲突为不完全匹配时,录入所述待录入知识数据。
- 一种计算机设备,包括存储器及一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:接收数据录入请求,所述数据录入请求携带待录入知识数据;对所述待录入知识数据进行分词处理,得到分词结果;根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档;调用预设阈值化知识冲突接口,根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档;及当检测到知识冲突为不完全匹配时,录入所述待录入知识数据。
- 根据权利要求10所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:根据所述分词结果查找对应的索引;根据查找到的索引,从所述倒排索引结构表中查找出对应的文档ID列表、并由查找到的所述文档ID列表查找出对应的知识文档;基于所述倒排索引结构表中单词出现频次,计算各分词结果的权重;及根据所述权重对查找出的知识文档进行排序、并返回排序后的知识文档。
- 根据权利要求10所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:获取预设知识库的存量知识文档;将所述存量知识文档切分为单词序列、并创建与所述单词序列对应的索引;为所述单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表;及将所述索引与所述倒排列表进行关联,得到所述倒排索引结构表。
- 根据权利要求10所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:调用预设的阈值化知识冲突接口,获取所述查找出的相关的知识文档与所述待录入知识数据的相似度;及将所述相似度与所述阈值进行比较,返回相似度高于所述阈值的知识文档。
- 根据权利要求10所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:当检测到知识冲突为完全匹配时,发送知识录入失败消息至用户终端。
- 根据权利要求10所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:发送待录入知识数据调整消息至所述用户终端;接收所述用户终端返回的调整后的待录入知识数据;对调整后的待录入知识数据进行分词处理,得到更新后的分词结果;及将所述分词结果替换为更新后的分词结果,返回所述根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表对已存知识文档进行索引搜索的步骤。
- 一个或多个存储有计算机可读指令的计算机可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:接收数据录入请求,所述数据录入请求携带待录入知识数据;对所述待录入知识数据进行分词处理,得到分词结果;根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档;调用预设阈值化知识冲突接口,根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档;及当检测到知识冲突为不完全匹配时,录入所述待录入知识数据。
- 根据权利要求16所述的存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:根据所述分词结果查找对应的索引;根据查找到的索引,从所述倒排索引结构表中查找出对应的文档ID列表、并由查找到的所述文档ID列表查找出对应的知识文档;基于所述倒排索引结构表中单词出现频次,计算各分词结果的权重;及根据所述权重对查找出的知识文档进行排序、并返回排序后的知识文档。
- 根据权利要求16所述的存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:获取预设知识库的存量知识文档;将所述存量知识文档切分为单词序列、并创建与所述单词序列对应的索引;为所述单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表;及将所述索引与所述倒排列表进行关联,得到所述倒排索引结构表。
- 根据权利要求16所述的存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:调用预设的阈值化知识冲突接口,获取所述查找出的相关的知识文档与所述待录入知识数据的相似度;及将所述相似度与所述阈值进行比较,返回相似度高于所述阈值的知识文档。
- 根据权利要求16所述的存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:发送待录入知识数据调整消息至所述用户终端;接收所述用户终端返回的调整后的待录入知识数据;对调整后的待录入知识数据进行分词处理,得到更新后的分词结果;及将所述分词结果替换为更新后的分词结果,返回所述根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097675.8A CN111324687A (zh) | 2020-02-17 | 2020-02-17 | 知识库中数据处理方法、装置、计算机设备和存储介质 |
CN202010097675.8 | 2020-02-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021164171A1 true WO2021164171A1 (zh) | 2021-08-26 |
Family
ID=71168845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2020/098726 WO2021164171A1 (zh) | 2020-02-17 | 2020-06-29 | 知识库中数据处理方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111324687A (zh) |
WO (1) | WO2021164171A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433799A (zh) * | 2023-06-14 | 2023-07-14 | 安徽思高智能科技有限公司 | 一种基于语义相似度和子图匹配的流程图生成方法和装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111324687A (zh) * | 2020-02-17 | 2020-06-23 | 平安科技(深圳)有限公司 | 知识库中数据处理方法、装置、计算机设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777996A (zh) * | 2016-12-23 | 2017-05-31 | 浙江大学 | 一种基于Solr的体检数据搜索系统 |
CN109213738A (zh) * | 2018-11-20 | 2019-01-15 | 武汉理工光科股份有限公司 | 一种云存储文件级重复数据删除检索系统及方法 |
US20190332722A1 (en) * | 2018-04-25 | 2019-10-31 | Oracle International Corporation | Memory reduced string similarity analysis |
CN110442606A (zh) * | 2019-07-16 | 2019-11-12 | 浙江大华技术股份有限公司 | 一种数据的处理方法、设备以及计算机存储介质 |
CN110737655A (zh) * | 2019-10-21 | 2020-01-31 | 京东数字科技控股有限公司 | 用于上报数据的方法和装置 |
CN111324687A (zh) * | 2020-02-17 | 2020-06-23 | 平安科技(深圳)有限公司 | 知识库中数据处理方法、装置、计算机设备和存储介质 |
-
2020
- 2020-02-17 CN CN202010097675.8A patent/CN111324687A/zh active Pending
- 2020-06-29 WO PCT/CN2020/098726 patent/WO2021164171A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777996A (zh) * | 2016-12-23 | 2017-05-31 | 浙江大学 | 一种基于Solr的体检数据搜索系统 |
US20190332722A1 (en) * | 2018-04-25 | 2019-10-31 | Oracle International Corporation | Memory reduced string similarity analysis |
CN109213738A (zh) * | 2018-11-20 | 2019-01-15 | 武汉理工光科股份有限公司 | 一种云存储文件级重复数据删除检索系统及方法 |
CN110442606A (zh) * | 2019-07-16 | 2019-11-12 | 浙江大华技术股份有限公司 | 一种数据的处理方法、设备以及计算机存储介质 |
CN110737655A (zh) * | 2019-10-21 | 2020-01-31 | 京东数字科技控股有限公司 | 用于上报数据的方法和装置 |
CN111324687A (zh) * | 2020-02-17 | 2020-06-23 | 平安科技(深圳)有限公司 | 知识库中数据处理方法、装置、计算机设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433799A (zh) * | 2023-06-14 | 2023-07-14 | 安徽思高智能科技有限公司 | 一种基于语义相似度和子图匹配的流程图生成方法和装置 |
CN116433799B (zh) * | 2023-06-14 | 2023-08-25 | 安徽思高智能科技有限公司 | 一种基于语义相似度和子图匹配的流程图生成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111324687A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11281626B2 (en) | Systems and methods for management of data platforms | |
US20230126005A1 (en) | Consistent filtering of machine learning data | |
WO2021004333A1 (zh) | 基于知识图谱的事件处理方法、装置、设备和存储介质 | |
US10565234B1 (en) | Ticket classification systems and methods | |
US10198460B2 (en) | Systems and methods for management of data platforms | |
CN108563734B (zh) | 制度信息查询方法、装置、计算机设备和存储介质 | |
US10652246B2 (en) | Security descriptors for record access queries | |
US11709878B2 (en) | Enterprise knowledge graph | |
US20070198598A1 (en) | Modular architecture for entity normalization | |
US10242206B2 (en) | System and method for fast probabilistic querying role-based access control systems | |
CN110309377B (zh) | 语义归一化、提问模式的生成、应答确定方法及装置 | |
JP2015501469A (ja) | 製品情報検索結果に対する重複排除の実施 | |
US11194840B2 (en) | Incremental clustering for enterprise knowledge graph | |
WO2021164171A1 (zh) | 知识库中数据处理方法、装置、计算机设备和存储介质 | |
US20190042950A1 (en) | Learning computing activities and relationships using graphs | |
WO2023226262A1 (zh) | 基于智能联想的疾病内容推送方法、装置、设备及介质 | |
CN112559526A (zh) | 数据表导出方法、装置、计算机设备及存储介质 | |
US20220108065A1 (en) | Form and template detection | |
US20190042951A1 (en) | Analysis of computing activities using graph data structures | |
US9619458B2 (en) | System and method for phrase matching with arbitrary text | |
CN112347055A (zh) | 一种基于云计算的医疗数据处理方法及系统 | |
CN115544007A (zh) | 标签预处理方法、装置、计算机设备和存储介质 | |
US11556398B2 (en) | Centralized data management | |
WO2015187155A1 (en) | Systems and methods for management of data platforms | |
US9659059B2 (en) | Matching large sets of words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20919537 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20919537 Country of ref document: EP Kind code of ref document: A1 |