WO2021068565A1 - 表格智能查询方法、装置、电子设备及计算机可读存储介质 - Google Patents
表格智能查询方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- WO2021068565A1 WO2021068565A1 PCT/CN2020/098951 CN2020098951W WO2021068565A1 WO 2021068565 A1 WO2021068565 A1 WO 2021068565A1 CN 2020098951 W CN2020098951 W CN 2020098951W WO 2021068565 A1 WO2021068565 A1 WO 2021068565A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- query
- vector set
- word vector
- training
- convolution
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Definitions
- the training value obtained by the training includes: performing the part-of-speech coding on the user layer information in the standard table set to obtain a user layer information vector set, and inputting the user layer information vector set to the An intelligent query model that sequentially performs convolution, pooling, and activation operations to obtain a predicted value set, and performs loss calculation on the predicted value set and the word vector set to obtain the training value.
- the loss calculation includes:
- the dimensionality reduction first establishes a forward probability model and a backward probability model, and then optimizes the forward probability model and the backward probability model to obtain an optimized solution, and the optimized solution is the Word vector set.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种表格智能查询方法、装置以及一种计算机可读存储介质,该方法包括:接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集(S1),将所述标签集进行词性编码得到词向量集(S2),将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,直到所述训练值小于预设阈值所述智能查询模型完成训练(S3),接收用户的查询内容,基于关键字抽取技术抽取所述查询内容得到关键字集,将所述关键字集进行所述词性编码得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型,得到所述查询内容需要的表格集并输出(S4)。该方法可以实现精准高效的表格智能查询功能。
Description
本申请要求于2019年10月11日提交中国专利局、申请号为201910975458.1、发明名称为“表格智能查询方法、装置及计算机可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在申请中。
本申请涉及人工智能技术领域,尤其涉及一种表格智能查询的方法、装置、电子设备及计算机可读存储介质。
随着互联网的快速发展,数据规模迅速扩大,因此对于数据的快速查询速度越来越高。发明人意识到目前多数数据都以表格形式存储,如公司营业的当天收益数据、房产公司的房产登记信息等,目前基于数据的查询多以基于表格遍历法或用户关键字搜索法为主,虽然可以一定程度上满足查询需求,但当表格容量大的时候,所述表格遍历法与所述用户关键字搜索法搜索速度慢且消耗大量计算内存。
发明内容
本申请提供一种表格智能查询方法、装置、电子设备及计算机可读存储介质,其主要目的在于根据用户的查询要求而进行表格智能查询。
为实现上述目的,本申请提供的一种表格智能查询方法,包括:
接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集;
将所述标签集进行词性编码得到词向量集;
将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,判断所述训练值与预设阈值的大小关系,若所述训练值大于所述预设阈值,所述智能查询模型继续训练,若所述训练值小于所述预设阈值,所述智能查询模型完成训练;
接收用户的查询内容,基于关键字抽取技术抽取所述查询内容得到关键字集,将所述关键字集进行所述词性编码得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型,得到所述查询内容需要的表格集并输出。
为了解决上述问题,本申请还提供一种电子设备,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的表格智能查询程序,所述表格智能查询程序被所述处理器执行时实现如下步骤:
接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集;
将所述标签集进行词性编码得到词向量集;
将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,判断所述训练值与预设阈值的大小关系,若所述训练值大于所述预设阈值,所述智能查询模型继续训练,若所述训练值小于所述预设阈值,所述智能查询模型完成训练;
接收用户的查询内容,基于关键字抽取技术抽取所述查询内容得到关键字集,将所述关键字集进行所述词性编码得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型,得到所述查询内容需要的表格集并输出。
为了解决上述问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有表格智能查询程序,所述表格智能查询程序可被一个或者多个处理器执行,以实现如下所述的表格智能查询方法的步骤:
接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集;
将所述标签集进行词性编码得到词向量集;
将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,判断所述训练值与预设阈值的大小关系,若所述训练值大于所述预设阈值,所述智能查询模型继续训练,若所述训练值小于所述预设阈值,所述智能查询模型完成训练;
接收用户的查询内容,基于关键字抽取技术抽取所述查询内容得到关键字集,将所述关键字集进行所述词性编码得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型,得到所述查询内容需要的表格集并输出。
为了解决上述问题,本申请还提供一种表格智能查询装置,所述装置包括:
数据接收及处理模块,用于接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集;
词性编码模块,用于将所述标签集进行词性编码得到词向量集;
智能查询模型训练模块,用于将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,判断所述训练值与预设阈值的大小关系,若所述训练值大于所述预设阈值,所述智能查询模型继续训练,若所述训练值小于所述预设阈值,所述智能查询模型完成训练;
表格查询并输出模块,用于接收用户的查询内容,基于关键字抽取技术抽取所述查询内容得到关键字集,将所述关键字集进行所述词性编码得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型,得到所述查询内容需要的表格集并输出。
本申请通过将原始表格集进行拆分处理得到标准表格集,因此拆分处理可以将庞大且一体化的原始表格拆分为体量小的表格,有利于进行快速查询,并通过所述标准表格集训练智能查询模型,使得所述智能查询模型具有优异高效的查询功能,同时对用户的查询内容进行关键字提取,精准的了解用户所想要的查询内容,并根据所述智能查询模型进行快速查询。因此本申请提出的表格智能查询方法、装置及计算机可读存储介质,可以实现精准高效的表格查询功能。
图1为本申请一实施例提供的表格智能查询方法的流程示意图;
图2为本申请一实施例提供的电子设备的内部结构示意图;
图3为本申请一实施例提供的表格智能查询装置的模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种表格智能查询方法。参照图1所示,为本申请一实施例提供的表格智能查询方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,表格智能查询方法包括:
S1、接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集。
本申请较佳实施例所述原始表格集是基于不同业务为前提,自动生成的表格,如房地产中介公司收集到多个房源,并基于EXCEL软件汇总后得到的房产信息表格集;通讯服务公司针对不同用户的通话、流量等使用情况生成用户消费清单表集等。
所述标签集是对所述原始表格集中每个表格的描述。较佳地,所述描述方式采用关键字组合的形式,如上述房产信息表格集,所述标签集采用小区名及单元号+房产面积+市场价格+房产格局的4种关键字组合形式,如所述标签集中记录了所述房产信息表格集中有一套房为:某小区3A单元+89平米+120万+三室一厅两卫。
较佳地,所述拆分处理是将所述原始表格集拆分为用户层、计算层和数据层得到所述 标准表格集。因为表格包括表题、表头、表身,其中所述表题、表头是基于文字表述的形式,如所示产品销量统计表的表题是产品销量统计表,表头包括产品编号、产品名称、规格、包装方式等,因此将所述原始表格集的表题、表头提取出来,组成用户层;其中所述表身是存储整个表格的数据,因此将所述原始表格集的表身提取出来组成数据层,当把整个表格拆分组成所述用户层和所述数据层时,需要在所述用户层和所述数据层建立查询关系,即所述计算层的功能,所述计算层可采用多元一次的线性索引查询形式,所述线性查询为:
y=a
1x
1+a
2x
2+...+a
nx
n
其中,y为所述数据层中的数据,x
1、x
2、x
n为所述用户层的文字信息,a
1、a
2、a
n为索引系数,取值为0或者1。如需查询房产价格为130万的房产信息,因此所述y=130,并由此反向求出所有满足所述房产价格为130万的用户层文字信息,即所述原始表格集中表头及表题信息,如表题为小区A、小区B、小区E有满足房产价格为130万的房源,表头为在表题为小区A下,哪些房子价格为130万。
S2、将所述标签集进行词性编码得到词向量集。
由于智能查询模型无法对文字信息进行有效识别,所述有效识别即提取所述文字信息的特征后进行差异化的判断,因此较佳地,所述词性编码是将所述标签集中每个标签的所有关键词用一个N维的矩阵向量表示,即将文字信息转为数字信息,以供后续模型的识别和训练,其中N是所述标签集中关键字的个数。
进一步地,所述词性编码先对所述标签集进行独热编码(one-hot)运算得到初级词向量集,然后对所述初级词向量集进行维度缩减得到所述词向量集。
所述one-hot运算为:
其中,i表示关键词编号,v
i表示关键字i的N维矩阵向量,所有的v
i组成所述初级词向量集,假设共有s个关键词,v
j是所述N维矩阵向量的第j个元素。
进一步地,所述维度缩减是将所述生成的N维矩阵向量缩短为维度更小更容易计算以供后续模型训练的数据,即将所述初级词向量集最终转化为所述词向量集。
较佳地,所述维度缩减先建立前向概率模型和后向概率模型,然后最优化所述前向概率模型及所述后向概率模型得到最优化解,所述最优化解即为所述词向量集。
进一步地,所述前向概率模型及所述后向概率模型分别为:
最优化所述前向概率模型及所述后向概率模型:
其中max表示最优化,
表示求偏导,v
i表示关键词i的N维矩阵向量,所述标签集共有s个关键词,进一步地,当最优化所述前向概率模型及所述后向概率模型后,所述N维矩阵向量的维度被缩减到更小,完成所述维度缩减得到所述词向量集。
S3、将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,判断所述训练值与预设阈值的大小关系,若所述训练值大于所述预设阈值,所述智能查询模型继续训练,若所述训练值小于所述预设阈值,所述智能查询模型完成训练。
较佳地,所述训练得到训练值包括:将所述标准表格集内的所述用户层信息进行所述词性编码后得到用户层信息向量集,将所述用户层信息向量集输入至所述智能查询模型,所述智能查询模型依次进行卷积操作、池化操作和激活操作得到预测值集,将所述预测值集与所述词向量集进行损失计算得到所述训练值。
进一步地,所述卷积操作和池化操作包括预先构建卷积模板并确定卷积步长,根据所 述卷积步长,将卷积模板与用户层信息向量集进行计算得到卷积操作后的卷积矩阵集,完成所述卷积操作。选择所述卷积矩阵集中矩阵的最大值或平均值替代所述卷积矩阵集,完成所述池化操作。
进一步地,所述预先构建卷积模板可为标准的3*3矩阵,如
所述计算得到卷积操作后的矩阵的计算方式是采用从左至右,卷积幅度为1的方式,如所述特征候选区域集中有特征为9*9的特征候选区域矩阵为:
则所述预先构建卷积模板
先与
进行计算,计算方式为:1*0、0*3、1*1等对应维度相乘,最终得到的结果为:
依次类推,所述预先构建卷积模板
根据卷积幅度为1,向右继续横移一步与矩阵为:所述预先构建卷积模板
进行上述操作得到所述预先构建卷积模板
由此可知,当完成所述卷积操作可生成大量的小维度矩阵,如上述
和
等,因此,所述池化操作是将所述卷积操作生成的大量的小维度矩阵的维度变小,较佳地可采用最大化原理,如将上述
和
用最大的数值3和7代替,从而完成所述池化操作。
优选地,反复进行上述卷积操作和池化操作,较佳地可使用16次所述卷积和池化操作后得到最终的特征矩阵集。
较佳地,所述激活操作是将所述特征矩阵集通过softmax函数进行概率估计,选择出概率最大的预测结果作为最终的预测并输出。所述softmax函数为:
其中,p(matrix)表示所述特征矩阵集matrix的输出概率,k表示所述特征矩阵集的数据量,e为无限不循环小数,j表示可选择的所述预测值集范围。如当
时,计算
为0.21,当
时,计算p(matrix=674172112343为0.64,因此该特征矩阵代表的即为674172112343。
所述损失计算包括:
其中,t为所述词向量集的数量,y
i为所述词向量集,y′
i为所述预测值集。
S4、接收用户的查询内容,基于关键字抽取算法抽取所述查询内容得到关键字集,将所述关键字集进行所述词性转换得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型得到所述查询内容需要的表格集并输出。
由于用户输入的查询内容往往不是所述规定的关键字组合形式,尝尝口语化居多,如“我想查找九月份的话费账单”,因此需要对用户输入的所述查询内容进行关键字提取,将“我想查找九月份的话费账单”中的关键字“九月份”、“话费账单”提取出来。
优选地,所述关键字抽取可采用遍历法,如将所述标签集的所有关键字拆分去重后构建出一张关键字词表,依次将所述查询内容与所述关键字词表进行比对完成所述关键词抽取。
进一步地,所述智能查询模型得到所述查询内容需要的表格集,所述查询内容是所述用户层的信息,因此调用所述计算层所提供的根据所述用户层查询所述数据层的功能得到所述数据层,将所述数据层与所述用户层重新组合得到所述表格集。
本申请还提供一种电子设备。参照图2所示,为本申请一实施例提供的电子设备的内部结构示意图。
在本实施例中,所述电子设备1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该电子设备1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的硬盘。存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如表格智能查询程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行表格智能查询程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及表格智能查询程序01的电子设备1,本领域技术人员可以理解的是,图1示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的电子设备1实施例中,存储器11中存储有表格智能查询程序01;处理器12执行存储器11中存储的表格智能查询程序01时实现如下步骤:
步骤一、接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集。
本申请较佳实施例所述原始表格集是基于不同业务为前提,自动生成的表格,如房地产中介公司收集到多个房源,并基于EXCEL软件汇总后得到的房产信息表格集;通讯服务公司针对不同用户的通话、流量等使用情况生成用户消费清单表集等。
所述标签集是对所述原始表格集中每个表格的描述。较佳地,所述描述方式采用关键字组合的形式,如上述房产信息表格集,所述标签集采用小区名及单元号+房产面积+市场价格+房产格局的4种关键字组合形式,如所述标签集中记录了所述房产信息表格集中有一套房为:某小区3A单元+89平米+120万+三室一厅两卫。
较佳地,所述拆分处理是将所述原始表格集拆分为用户层、计算层和数据层得到所述标准表格集。因为表格包括表题、表头、表身,其中所述表题、表头是基于文字表述的形式,如所示产品销量统计表的表题是产品销量统计表,表头包括产品编号、产品名称、规格、包装方式等,因此将所述原始表格集的表题、表头提取出来,组成用户层;其中所述表身是存储整个表格的数据,因此将所述原始表格集的表身提取出来组成数据层,当把整个表格拆分组成所述用户层和所述数据层时,需要在所述用户层和所述数据层建立查询关系,即所述计算层的功能,所述计算层可采用多元一次的线性索引查询形式,所述线性查询为:
y=a
1x
1+a
2x
2+...+a
nx
n
其中,y为所述数据层中的数据,x
1、x
2、x
n为所述用户层的文字信息,a
1、a
2、a
n为索引系数,取值为0或者1。如需查询房产价格为130万的房产信息,因此所述y=130,并由此反向求出所有满足所述房产价格为130万的用户层文字信息,即所述原始表格集中表头及表题信息,如表题为小区A、小区B、小区E有满足房产价格为130万的房源,表头为在表题为小区A下,哪些房子价格为130万。
步骤二、将所述标签集进行词性编码得到词向量集。
由于智能查询模型无法对文字信息进行有效识别,所述有效识别即提取所述文字信息的特征后进行差异化的判断,因此较佳地,所述词性编码是将所述标签集中每个标签的所有关键词用一个N维的矩阵向量表示,即将文字信息转为数字信息,以供后续模型的识别和训练,其中N是所述标签集中关键字的个数。
进一步地,所述词性编码先对所述标签集进行独热编码(one-hot)运算得到初级词向量集,然后对所述初级词向量集进行维度缩减得到所述词向量集。
所述one-hot运算为:
其中,i表示关键词编号,v
i表示关键字i的N维矩阵向量,所有的v
i组成所述初级词向量集,假设共有s个关键词,v
j是所述N维矩阵向量的第j个元素。
进一步地,所述维度缩减是将所述生成的N维矩阵向量缩短为维度更小更容易计算以供后续模型训练的数据,即将所述初级词向量集最终转化为所述词向量集。
较佳地,所述维度缩减先建立前向概率模型和后向概率模型,然后最优化所述前向概率模型及所述后向概率模型得到最优化解,所述最优化解即为所述词向量集。
进一步地,所述前向概率模型及所述后向概率模型分别为:
最优化所述前向概率模型及所述后向概率模型:
其中max表示最优化,
表示求偏导,v
i表示关键词i的N维矩阵向量,所述标签集共 有s个关键词,进一步地,当最优化所述前向概率模型及所述后向概率模型后,所述N维矩阵向量的维度被缩减到更小,完成所述维度缩减得到所述词向量集。
步骤三、将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,判断所述训练值与预设阈值的大小关系,若所述训练值大于所述预设阈值,所述智能查询模型继续训练,若所述训练值小于所述预设阈值,所述智能查询模型完成训练。
较佳地,所述训练得到训练值包括:将所述标准表格集内的所述用户层信息进行所述词性编码后得到用户层信息向量集,将所述用户层信息向量集输入至所述智能查询模型,所述智能查询模型依次进行卷积操作、池化操作和激活操作得到预测值集,将所述预测值集与所述词向量集进行损失计算得到所述训练值。
进一步地,所述卷积操作和池化操作包括预先构建卷积模板并确定卷积步长,根据所述卷积步长,将卷积模板与用户层信息向量集进行计算得到卷积操作后的卷积矩阵集,完成所述卷积操作。选择所述卷积矩阵集中矩阵的最大值或平均值替代所述卷积矩阵集,完成所述池化操作。
进一步地,所述预先构建卷积模板可为标准的3*3矩阵,如
所述计算得到卷积操作后的矩阵的计算方式是采用从左至右,卷积幅度为1的方式,如所述特征候选区域集中有特征为9*9的特征候选区域矩阵为:
则所述预先构建卷积模板
先与
进行计算,计算方式为:1*0、0*3、1*1等对应维度相乘,最终得到的结果为:
依次类推,所述预先构建卷积模板
根据卷积幅度为1,向右继续横移一步与矩阵为:所述预先构建卷积模板
进行上述操作得到所述预先构建卷积模板
由此可知,当完成所述卷积操作可生成大量的小维度矩阵,如上述
和
等,因此,所述池化操作是将所述卷积操作生成的大量的小维度矩阵的维度变小,较佳地可采用最大化原理,如将上述
和
用最大的数值3和7代替,从而完成所述池化操作。
优选地,反复进行上述卷积操作和池化操作,较佳地可使用16次所述卷积和池化操作后得到最终的特征矩阵集。
较佳地,所述激活操作是将所述特征矩阵集通过softmax函数进行概率估计,选择出概率最大的预测结果作为最终的预测并输出。所述softmax函数为:
其中,p(matrix)表示所述特征矩阵集matrix的输出概率,k表示所述特征矩阵集的数 据量,e为无限不循环小数,j表示可选择的所述预测值集范围。如当
时,计算
为0.21,当
时,计算
为0.64,因此该特征矩阵代表的即为
所述损失计算包括:
其中,t为所述词向量集的数量,y
i为所述词向量集,y′
i为所述预测值集。
步骤四、接收用户的查询内容,基于关键字抽取算法抽取所述查询内容得到关键字集,将所述关键字集进行所述词性转换得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型得到所述查询内容需要的表格集并输出。
由于用户输入的查询内容往往不是所述规定的关键字组合形式,尝尝口语化居多,如“我想查找九月份的话费账单”,因此需要对用户输入的所述查询内容进行关键字提取,将“我想查找九月份的话费账单”中的关键字“九月份”、“话费账单”提取出来。
优选地,所述关键字抽取可采用遍历法,如将所述标签集的所有关键字拆分去重后构建出一张关键字词表,依次将所述查询内容与所述关键字词表进行比对完成所述关键词抽取。
进一步地,所述智能查询模型得到所述查询内容需要的表格集,所述查询内容是所述用户层的信息,因此调用所述计算层所提供的根据所述用户层查询所述数据层的功能得到所述数据层,将所述数据层与所述用户层重新组合得到所述表格集。
可选地,在其他实施例中,表格智能查询程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本申请,本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述表格智能查询程序在电子设备中的执行过程。
参照图3所示,为本申请表格智能查询装置一实施例中的模块示意图,该实施例中,所述表格智能查询装置可以被分割为数据接收及处理模块10、词性编码模块20、智能查询模型训练模块30、表格查询并输出模块40示例性地:
所述数据接收及处理模块10用于:接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集。
所述词性编码模块20用于:将所述标签集进行词性编码得到词向量集。
所述智能查询模型训练模块30用于:将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,判断所述训练值与预设阈值的大小关系,若所述训练值大于所述预设阈值,所述智能查询模型继续训练,若所述训练值小于所述预设阈值,所述智能查询模型完成训练。
所述表格查询并输出模块40用于:接收用户的查询内容,基于关键字抽取技术抽取所述查询内容得到关键字集,将所述关键字集进行所述词性编码得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型,得到所述查询内容需要的表格集并输出。
上述数据接收及处理模块10、词性编码模块20、智能查询模型训练模块30、表格查询并输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性,也可以是易失性,所述计算机可读存储介质上存储有表格智能查询程序,所述表格智能查询程序可被一个或多个处理器执行,以实现如下操作:
接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集。
将所述标签集进行词性编码得到词向量集。
将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,判断所述训练值与预设阈值的大小关系,若所述训练值大于所述预设阈值,所述智能查询模型继续训练,若所述训练值小于所述预设阈值,所述智能查询模型完成训练。
接收用户的查询内容,基于关键字抽取技术抽取所述查询内容得到关键字集,将所述关键字集进行所述词性编码得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型,得到所述查询内容需要的表格集并输出。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (20)
- 一种表格智能查询方法,其中,所述方法包括:接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集;将所述标签集进行词性编码得到词向量集;将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,判断所述训练值与预设阈值的大小关系,若所述训练值大于所述预设阈值,所述智能查询模型继续训练,若所述训练值小于所述预设阈值,所述智能查询模型完成训练;接收用户的查询内容,基于关键字抽取技术抽取所述查询内容得到关键字集,将所述关键字集进行所述词性编码得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型,得到所述查询内容需要的表格集并输出。
- 如权利要求1所述的表格智能查询方法,其中,所述拆分处理是将所述原始表格集拆分为用户层、计算层和数据层,并将所述用户层、所述计算层和所述数据层组成所述标准表格集;其中:所述用户层是由所述原始表格集内每个表格的表题、表头组成;所述数据层是由所述原始表格集内每个表格的表身组成;所述计算层提供所述用户层和所述数据层的相互查询功能。
- 如权利要求1或2所述的表格智能查询方法,其中,所述将所述标签集进行词性编码得到词向量集,包括:将所述标签集进行独热编码得到初级词向量集;将所述初级词向量集进行维度缩减得到所述词向量集。
- 如权利要求3所述的表格智能查询方法,其中,所述维度缩减包括:建立前向概率模型和后向概率模型;最优化所述前向概率模型及所述后向概率模型得到最优化解,所述最优化解即为所述词向量集。
- 如权利要求2所述的表格智能查询方法,其中,将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,包括:将所述标准表格集内的所述用户层信息进行所述词性编码后得到用户层信息向量集;将所述用户层信息向量集输入至所述智能查询模型,所述智能查询模型依次进行卷积操作、池化操作和激活操作得到预测值集;将所述预测值集与所述词向量集进行损失计算得到所述训练值。
- 如权利要求5所述的表格智能查询方法,其中,所述卷积操作和池化操作包括:预先构建卷积模板并确定卷积步长,根据所述卷积步长,将卷积模板与用户层信息向量集进行计算得到卷积操作后的卷积矩阵集,完成所述卷积操作;选择所述卷积矩阵集中矩阵的最大值或平均值替代所述卷积矩阵集,完成所述池化操作。
- 一种电子设备,其中,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的表格智能查询程序,所述表格智能查询程序被所述处理器执行时实现如下步骤:接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集;将所述标签集进行词性编码得到词向量集;将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,判断所述训练值与预设阈值的大小关系,若所述训练值大于所述预设阈值,所述智能查询模型继续训练,若所述训练值小于所述预设阈值,所述智能查询模型完成训练;接收用户的查询内容,基于关键字抽取技术抽取所述查询内容得到关键字集,将所述关键字集进行所述词性编码得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型,得到所述查询内容需要的表格集并输出。
- 如权利要求7所述的电子设备,其中,所述拆分处理是将所述原始表格集拆分为用户层、计算层和数据层,并将所述用户层、所述计算层和所述数据层组成所述标准表格集;其中:所述用户层是由所述原始表格集内每个表格的表题、表头组成;所述数据层是由所述原始表格集内每个表格的表身组成;所述计算层提供所述用户层和所述数据层的相互查询功能。
- 如权利要求7或8所述的电子设备,其中,所述将所述标签集进行词性编码得到词向量集,包括:将所述标签集进行独热编码得到初级词向量集;将所述初级词向量集进行维度缩减得到所述词向量集。
- 如权利要求9所述的电子设备,其中,所述维度缩减包括:建立前向概率模型和后向概率模型;最优化所述前向概率模型及所述后向概率模型得到最优化解,所述最优化解即为所述词向量集。
- 如权利要求8所述的电子设备,其中,将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,包括:将所述标准表格集内的所述用户层信息进行所述词性编码后得到用户层信息向量集;将所述用户层信息向量集输入至所述智能查询模型,所述智能查询模型依次进行卷积操作、池化操作和激活操作得到预测值集;将所述预测值集与所述词向量集进行损失计算得到所述训练值。
- 如权利要求11所述的电子设备,其中,所述卷积操作和池化操作包括:预先构建卷积模板并确定卷积步长,根据所述卷积步长,将卷积模板与用户层信息向量集进行计算得到卷积操作后的卷积矩阵集,完成所述卷积操作;选择所述卷积矩阵集中矩阵的最大值或平均值替代所述卷积矩阵集,完成所述池化操作。
- 一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有表格智能查询程序,所述表格智能查询程序可被一个或者多个处理器执行,以实现如下所述的表格智能查询方法的步骤:接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集;将所述标签集进行词性编码得到词向量集;将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,判断所述训练值与预设阈值的大小关系,若所述训练值大于所述预设阈值,所述智能查询模型继续训练,若所述训练值小于所述预设阈值,所述智能查询模型完成训练;接收用户的查询内容,基于关键字抽取技术抽取所述查询内容得到关键字集,将所述关键字集进行所述词性编码得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型,得到所述查询内容需要的表格集并输出。
- 如权利要求13所述的计算机可读存储介质,其中,所述拆分处理是将所述原始表格集拆分为用户层、计算层和数据层,并将所述用户层、所述计算层和所述数据层组成所述标准表格集;其中:所述用户层是由所述原始表格集内每个表格的表题、表头组成;所述数据层是由所述原始表格集内每个表格的表身组成;所述计算层提供所述用户层和所述数据层的相互查询功能。
- 如权利要求13或14所述的计算机可读存储介质,其中,所述将所述标签集进行词性编码得到词向量集,包括:将所述标签集进行独热编码得到初级词向量集;将所述初级词向量集进行维度缩减得到所述词向量集。
- 如权利要求15所述的计算机可读存储介质,其中,所述维度缩减包括:建立前向概率模型和后向概率模型;最优化所述前向概率模型及所述后向概率模型得到最优化解,所述最优化解即为所述词向量集。
- 如权利要求14所述的计算机可读存储介质,其中,将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,包括:将所述标准表格集内的所述用户层信息进行所述词性编码后得到用户层信息向量集;将所述用户层信息向量集输入至所述智能查询模型,所述智能查询模型依次进行卷积操作、池化操作和激活操作得到预测值集;将所述预测值集与所述词向量集进行损失计算得到所述训练值。
- 如权利要求17所述的计算机可读存储介质,其中,所述卷积操作和池化操作包括:预先构建卷积模板并确定卷积步长,根据所述卷积步长,将卷积模板与用户层信息向量集进行计算得到卷积操作后的卷积矩阵集,完成所述卷积操作;选择所述卷积矩阵集中矩阵的最大值或平均值替代所述卷积矩阵集,完成所述池化操作。
- 一种表格智能查询装置,其中,所述装置包括:数据接收及处理模块,用于接收原始表格集及标签集,将所述原始表格集进行拆分处理后得到标准表格集;词性编码模块,用于将所述标签集进行词性编码得到词向量集;智能查询模型训练模块,用于将所述标准表格集和所述词向量集输入至智能查询模型中训练得到训练值,判断所述训练值与预设阈值的大小关系,若所述训练值大于所述预设阈值,所述智能查询模型继续训练,若所述训练值小于所述预设阈值,所述智能查询模型完成训练;表格查询并输出模块,用于接收用户的查询内容,基于关键字抽取技术抽取所述查询内容得到关键字集,将所述关键字集进行所述词性编码得到关键字向量集,将所述关键字向量集输入至完成训练的所述智能查询模型,得到所述查询内容需要的表格集并输出。
- 如权利要求19所述的表格智能查询装置,其中,所述拆分处理是将所述原始表格集拆分为用户层、计算层和数据层,并将所述用户层、所述计算层和所述数据层组成所述标准表格集;其中:所述用户层是由所述原始表格集内每个表格的表题、表头组成;所述数据层是由所述原始表格集内每个表格的表身组成;所述计算层提供所述用户层和所述数据层的相互查询功能。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910975458.1A CN110866042B (zh) | 2019-10-11 | 2019-10-11 | 表格智能查询方法、装置及计算机可读存储介质 |
CN201910975458.1 | 2019-10-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021068565A1 true WO2021068565A1 (zh) | 2021-04-15 |
Family
ID=69652834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2020/098951 WO2021068565A1 (zh) | 2019-10-11 | 2020-06-29 | 表格智能查询方法、装置、电子设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110866042B (zh) |
WO (1) | WO2021068565A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866042B (zh) * | 2019-10-11 | 2023-05-12 | 平安科技(深圳)有限公司 | 表格智能查询方法、装置及计算机可读存储介质 |
CN112597171A (zh) * | 2020-12-31 | 2021-04-02 | 平安银行股份有限公司 | 表格关系可视化方法、装置、电子设备及存储介质 |
CN113111864A (zh) * | 2021-05-13 | 2021-07-13 | 上海巽联信息科技有限公司 | 基于多模态下的智能表格抽取算法 |
CN116049354B (zh) * | 2023-01-28 | 2023-06-20 | 北京原子回声智能科技有限公司 | 基于自然语言的多表格检索方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101615193A (zh) * | 2009-07-07 | 2009-12-30 | 北京大学 | 一种基于百科数据提取集成的查询系统 |
US20140025626A1 (en) * | 2012-04-19 | 2014-01-23 | Avalon Consulting, LLC | Method of using search engine facet indexes to enable search-enhanced business intelligence analysis |
US20170075974A1 (en) * | 2015-09-11 | 2017-03-16 | Adobe Systems Incorporated | Categorization of forms to aid in form search |
CN106874411A (zh) * | 2017-01-22 | 2017-06-20 | 网易(杭州)网络有限公司 | 一种表格的搜索方法及搜索平台 |
CN110866042A (zh) * | 2019-10-11 | 2020-03-06 | 平安科技(深圳)有限公司 | 表格智能查询方法、装置及计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8819055B2 (en) * | 2010-05-14 | 2014-08-26 | Oracle International Corporation | System and method for logical people groups |
CN106250381B (zh) * | 2015-06-04 | 2020-11-17 | 微软技术许可有限责任公司 | 用于确定表格式存储的列布局的系统和方法 |
JP6677093B2 (ja) * | 2016-06-17 | 2020-04-08 | 富士通株式会社 | 表データ検索装置、表データ検索方法、及び表データ検索プログラム |
CN110222160B (zh) * | 2019-05-06 | 2023-09-15 | 平安科技(深圳)有限公司 | 智能语义文档推荐方法、装置及计算机可读存储介质 |
-
2019
- 2019-10-11 CN CN201910975458.1A patent/CN110866042B/zh active Active
-
2020
- 2020-06-29 WO PCT/CN2020/098951 patent/WO2021068565A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101615193A (zh) * | 2009-07-07 | 2009-12-30 | 北京大学 | 一种基于百科数据提取集成的查询系统 |
US20140025626A1 (en) * | 2012-04-19 | 2014-01-23 | Avalon Consulting, LLC | Method of using search engine facet indexes to enable search-enhanced business intelligence analysis |
US20170075974A1 (en) * | 2015-09-11 | 2017-03-16 | Adobe Systems Incorporated | Categorization of forms to aid in form search |
CN106874411A (zh) * | 2017-01-22 | 2017-06-20 | 网易(杭州)网络有限公司 | 一种表格的搜索方法及搜索平台 |
CN110866042A (zh) * | 2019-10-11 | 2020-03-06 | 平安科技(深圳)有限公司 | 表格智能查询方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110866042A (zh) | 2020-03-06 |
CN110866042B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021068565A1 (zh) | 表格智能查询方法、装置、电子设备及计算机可读存储介质 | |
WO2021017721A1 (zh) | 智能问答方法、装置、介质及电子设备 | |
WO2020237856A1 (zh) | 基于知识图谱的智能问答方法、装置及计算机存储介质 | |
CN107679144B (zh) | 基于语义相似度的新闻语句聚类方法、装置及存储介质 | |
WO2021068339A1 (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN107506402B (zh) | 搜索结果的排序方法、装置、设备及计算机可读存储介质 | |
CN113449187B (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
WO2020253042A1 (zh) | 情感智能判断方法、装置及计算机可读存储介质 | |
WO2022142011A1 (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
US20110231399A1 (en) | Clustering Method and System | |
WO2020253043A1 (zh) | 智能文本分类方法、装置及计算机可读存储介质 | |
WO2020000717A1 (zh) | 网页分类方法、装置及计算机可读存储介质 | |
Guo et al. | An effective and economical architecture for semantic-based heterogeneous multimedia big data retrieval | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
JP7286810B2 (ja) | テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体 | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
WO2022105119A1 (zh) | 意图识别模型的训练语料生成方法及其相关设备 | |
WO2022134360A1 (zh) | 基于词嵌入的模型训练方法、装置、电子设备及存储介质 | |
WO2021047373A1 (zh) | 基于大数据的列数据处理方法、设备及介质 | |
WO2021051934A1 (zh) | 基于人工智能的合同关键条款提取方法、装置及存储介质 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
TW202001621A (zh) | 語料庫產生方法及裝置、人機互動處理方法及裝置 | |
WO2021027149A1 (zh) | 基于画像相似性的信息检索推荐方法、装置及存储介质 | |
WO2020164204A1 (zh) | 文本模板识别方法、装置及计算机可读存储介质 | |
CN103377381B (zh) | 识别图像的内容属性的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20874200 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20874200 Country of ref document: EP Kind code of ref document: A1 |