WO2019200752A1

WO2019200752A1 - 基于语义理解的兴趣点查询方法、装置和计算机设备

Info

Publication number: WO2019200752A1
Application number: PCT/CN2018/095502
Authority: WO
Inventors: 王健宗; 吴天博; 黄章成; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-04-17
Filing date: 2018-07-12
Publication date: 2019-10-24
Also published as: CN108763293A

Abstract

本申请揭示了基于语义理解的兴趣点查询方法，包括：获取金融领域的指定数据库中的多个兴趣点；根据各兴趣点中的信息描述，分别为各兴趣点匹配主题分布概率；根据主题分布概率以及地理位置构建索引路径；根据索引路径筛选与查询主体相似的兴趣点信息。本申请POI搜索技术融入了搜索语义理解，提高搜索内容与搜索意愿的匹配性。

Description

基于语义理解的兴趣点查询方法、装置和计算机设备

本申请要求于2018年4月17日提交中国专利局、申请号为2018103452526，发明名称为“基于语义理解的兴趣点查询方法、装置和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及到搜索查询技术，特别是涉及到基于语义理解的兴趣点查询方法、装置和计算机设备。

背景技术

POI(Point of Interest，兴趣点)搜索技术受限于空间关键字查询技术的发展，现有的空间关键字查询技术主要针对POI的时空特性，没有语义联系，机械地将关键字视为文本字符，未能理解POI中用户行为的具体语义和联系，无法根据用户的意图做出准确的搜索，或推荐搜索的内容与用户的搜索意愿匹配性差，无法理解用户的行为和搜索模式，也不能进一步推荐让用户满意的信息。且现有POI查询技术搜索信息的精度低，无法在需要多维度细化信息性质的领域内推广使用，比如金融领域等。

技术问题

本申请的主要目的为提供一种基于语义理解的兴趣点查询方法，旨在解决现有POI查询技术不适用于需要多维度细化信息的金融领域的技术问题。

技术解决方案

本申请提出一种基于语义理解的兴趣点查询方法，包括：

获取金融领域的指定数据库中的多个兴趣点，其中每个兴趣点包括信息描述以及地理位置；

根据各兴趣点中的信息描述，分别为所述各兴趣点匹配主题分布概率；

根据所述主题分布概率以及地理位置构建索引路径；

根据所述索引路径筛选与查询主体相似的兴趣点信息。

本申请还提供一种基于语义理解的兴趣点查询装置，包括：

获取模块，用于获取金融领域的指定数据库中的多个兴趣点，其中每个兴趣点包括信息描述以及地理位置；

匹配模块，用于根据各兴趣点中的信息描述，分别为所述各兴趣点匹配主题分布概率；

构建模块，用于根据所述主题分布概率以及地理位置构建索引路径；

筛选模块，用于根据所述索引路径筛选与查询主体相似的兴趣点信息。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述方法的步骤。

本申请还提供一种计算机非易失性可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的方法的步骤。

有益效果

本申请有益技术效果：本申请POI搜索技术中融入了用户的搜索语义理解，以便搜索信息与用户的真实意愿更贴近，提高搜索内容与用户搜索意愿的匹配性；通过在POI搜索技术中通过关键字语义(即关键字的主题分布概率)相似度匹配查询，搜素信息的信息量覆盖面增大，不仅仅限于文本字符的形状，扩展至与内容意思相关，提高搜索信息的精度；通过多维度限定POI搜索的影响因子，细化搜索信息的精度，推进POI搜索在金融领域的应用，以便在金融领域更好的服务用户，提供更真实、更细致、更符合用户需求的金融信息。

附图说明

图1本申请一实施例的基于语义理解的兴趣点查询方法流程示意图；

图2本申请一实施例的基于语义理解的兴趣点查询装置结构示意图；

图3本申请一实施例的匹配模块的结构示意图；

图4本申请一实施例的构建模块的结构示意图；

图5本申请一实施例的构建单元的结构示意图；

图6本申请一实施例的筛选模块的结构示意图；

图7本申请一实施例的判断单元的结构示意图；

图8本申请另一实施例的筛选模块的结构示意图；

图9本申请再一实施例的筛选模块的结构示意图；

图10本申请又一实施例的筛选模块的结构示意图；

图11本申请一实施例的计算机设备内部结构示意图。

本发明的最佳实施方式

参照图1，本申请一实施例的基于语义理解的兴趣点查询方法，包括：

S1：获取金融领域的指定数据库中的多个兴趣点，其中每个兴趣点包括信息描述以及地理位置。

本实施例的金融领域的指定数据库的兴趣点POI为附有时间标签的文本描述集合，每个POI点由(loc,words)二元组表示，其中loc代表地理位置，words代表POI信息描述。举例地，A公司(地点，文本＝服务项目、服务对象、主营业务等)，比如，数据集中A公司1(深圳福田区莲花支路，文本＝保险业务、法人与自然人、汽车保险&旅游保险&家财险&意外保险)；A公司2(上海陆家嘴，文本＝金融资产服务、法人企业、网络融资)等。本实施例通过将金融领域的数据库进一步细化与标注，以便在搜索引擎的支撑下，能查询到具体金融服务项目的信息，以克服现有通过搜索引擎不能匹配到合适的具体金融项目的技术缺陷。

S2：根据各兴趣点中的信息描述，分别为各兴趣点匹配主题分布概率。

本实施例的POI点包括地理位置的坐标信息以及POI信息描述。由于地理位置的坐标信息不带有文本描述信息，不具有文本分类作用，可通过POI信息描述对POI点进行主题细化分类。本实施例通过将POI信息描述转换为主题分布概率，即本实施例的兴趣点集合为附有地理位置标签的主题分布概率集合，使得更好地理解POI信息描述的内在意义，并通过基于主题分布概率的相似性度量函数来表征兴趣点之间的语义关联。本实施例首先通过剖析各POI点中的POI信息描述的组成结构，提取中心词，然后根据中心词主题来预测主题分布概率。比如，中心词“咖啡”和中心词“星巴克”这两个词的相似度，就是将上述两个中心词的主题分布概率运用指定的定量化测量公式进行计算，如β _words＝{p ₁,p ₂,...,p _n}，其中n＝|Z|，P表示各POI点，然后分析计算值，比如计算值越大，相似性越低。本实施例的主题分布概率相当于高维空间的两个点，通过两点在高维空间的空间距离来表示两个中心词的主题分布概率的相关性，此处空间距离包括地理位置形成的距离。举例地，将分别包含中心词“咖啡”和中心词“星巴克”的两个POI点高维空间的空间参数代入上述公式，输出的计算结果小于预设的阈值，比如阈值为1，表明分别包含中心词“咖啡”和中心词“星巴克”的两个POI点从文本字体上没有相关性，但从附有语义理解的主题分布概率上看具有极大相关性，即相比于单纯从文本字体上判断两个POI点的信息描述的相关性，基于语义理解的主题分布概率判断两个POI点的信息描述的相关性更准确。

S3：根据上述主题分布概率以及地理位置构建索引路径。

本实施例中在通过POI检索的过程中，会综合考虑两种参量，即主题分布概率以及地理位置，以进一步快速查询到更贴近用户检索本意的信息。本实施例中根据用户的权重设置的不同，索引路径也不同。比如从M点到N点的索引路径建立条件为，主题分布概率的权重大于地理位置的权重，则索引路径以两个POI点的主题分布概率的相关性为主要考虑因素，即优先主题分布概率最接近的POI点，当不存在主题分布概率最接近的POI点，或在搜寻下一POI点时地理位置的相近性远大于主题分布概率的相近性时，则以地理位置衔接索引路径中的下一POI点。上述权重设置下的索引路径建立过程如下，从M点开始索引，寻找与M点主题分布分布概率相近的M1点舍弃与M点地理位置最接近的M1*点，继续以M1点为基准，寻找与M1点主题分布概率相近的M2点，若M2点不存在(或M1与M2*之间的地理位置的相近性判断远大于M1与M2之间的主题分布概率相近似)，则选择与M1点地理位置最接近的M2*点，然后继续寻找与M2*点主题分布概率相近的M3点，如此搜寻下去，直至找到N点，形成从M点到N点的索引路径。反之，则以地理位置为主要考虑因素构建索引路径，过程与上面类似，即优先地理位置最接近的POI点，当不存在地理位置最接近的POI点或主题分布概率的相近性远大于地理位置的相近性时，则以主题分布概率衔接下一POI点，以形成以地理位置为主要考虑因素构建索引路径。本实施例优选主题分布概率和地理位置的权重均为0.5，同时考虑主题分布概率和地理位置的相似度，即选择主题分布概率与地理位置相近度均最接近的POI点形成索引路径，以便更贴合用户的搜索需求。

S4：根据指定规则从上述索引路径中筛选与查询主体相似的兴趣点信息。

本实施例的指定规则依据用户查询时自身的需要进行选择，选择地理位置较近的兴趣点或是文本语义相似度高的兴趣点，地理位置的距离通过地理位置的坐标信息计算得到。比如，选择地理位置近的兴趣点，则搜索结果为距离查询主体的地理位置较近，而文本语义的相关度可能不高。本实施例通过将文本描述的内在意义作为参考量，检索信息更贴近用户本意。举例地，本实施例查询描述“咖啡”与POI点描述“星巴克”将因其相似的主题分布概率被认为相关。本实施例的查询主体为用户输入的待搜索信息。

本申请采用基于NIQ-tree的POI搜索策略，通过精确的解空间上下界计算来保证有效的剪枝效果。具体来说，POI搜索将从NIQ-tree的根节点开始，依次访问与查询具有最小匹配距离的索引节点(通过优先队列来完成)，其中索引节点N与查询q的最佳匹配距离D _bm(q,N)计算为D _bm(q,N)＝λ×min _p∈N.mbrD _S(q,p)+(1-λ)×minD _T(q,N)，其中min _p∈N.mbrD _S(q,p)和minD _T(q,N)表示从q到N的理论最小距离，λ是用户指定参数，表示地理位置的距离和文本式信息描述(即关键字的主题分布概率)相似度之间的权重，P表示各POI点。

进一步地，本实施例的步骤S2，包括：

S21：统计上述指定数据库中的第一关键字集合以及各兴趣点主题中第二关键字集合。

本实施例的基于主题分布概率的POI点表示方法，给定一个由n个关键字组成的文本W，V为金融领域POI点数据集中所有关键字集合，Z＝{z ₁,z ₂,...,z _n}为主题集，则W对应于Z中每个主题z _i∈Z的主题概率分布TD _W[z _i]的计算公式如下：

其中

表示主题Z _i中所有关键字的集合，则

表示W中属于主题Z _i的关键字的个数；α表示对称边界，通常设置为0.1；|W|表示W中关键字的个数；|Z|表示Z中总共的主题个数。本实施例的第一关键字集合为包括保险业务的金融领域数据库的所有主题的所有关键字，兴趣点即POI点，第二关键字集合为POI点对应主题的关键字，其中POI点对应主题为上述包括保险业务的金融领域数据库中的主题之一。

S22：计算上述第二关键字集合相对于上述第一关键字集合的主题分布概率。

举例地，文本W为POI点的信息描述‘医疗保险’，V为包括保险业务的金融领域数据库中的所有关键字，即第一关键字集合中的关键字总量，Z＝{z ₁,z ₂,...,z _n}为包括保险业务的金融领域数据库的众多主题形成的主题集，每个主题的关键字的数量各不同，各POI点对应主题集中每个主题的主题分布概率可分别通过上述公式获得，比如，信息描述为‘医疗保险’的POI点对应主题集中每个主题的主题分布概率也不同，设‘医疗保险’的POI点为N点，主题集中包括基金主题Z ₁、股票主题Z ₂、等，则N点基于关键字‘保’‘险’，(即第二关键字数量为2)且主题归属于保险主题Z ₃，计算得到相对于Z ₃的主题分布概率大于其相对于Z ₁或Z ₂的。计算值越大，主题分布概率的相似性越小。通过上述公式，计算得到POI点数据集中每个POI点中的关键字所对应的主题分布概率β _words＝{p ₁,p ₂,...,p _n}，其中n＝|Z|，P表示各POI点，即每个POI点的关键字相对于不同主题的POI点的主题分布概率不同，以便确定主题分布概率最接近的下一衔接POI点。

进一步地，步骤S3，包括：

S30：获取依据地理位置索引和依据主题分布概率索引的权重设置。

本步骤的权重设置直接影响搜索结果，权重设置可根据用户使用意图进行自主设置，本实施例的权重值为[0,1]之间。举例地，如果用户设置的权重中地理位置占0.7，主题分布概率占0.3，则最后的搜索结果肯定是距离查询主体地理位置较近的POI点，而文本相似度可能不高，与用户的检索用意不太相符；反之，结果则相反，不赘述，但权重中地理位置占0.5，主题分布概率占0.5，两者占比都比较高，就会检索到地理位置较近的且符合用户用意的兴趣点。

S31：根据上述权重设置构建上述索引路径。

本步骤是指权重设置的不同，构建的索引路径也不同。比如，地理位置权重占比大，则从检索根节点依次按照地理位置最近的方式访问各索引兴趣点。

进一步地，本实施例的上述索引路径为地理位置、主题分布概率协同索引路径，步骤S31，包括：

S311：根据地理位置相似性在地理空间层组织上述金融领域的指定数据库的所有兴趣点。

本申请实施例的POI点的快速检索依赖于有效的数据索引，本实施例的数据索引与传统的POI索引方式不同，为融合地理位置和文本语义的主题分布概率两信息的层次式索引结构，使得从不同维度执行搜索剪枝。本实施例的将基于IDistance(大数据分类方法)的地理位置、主题分布概率及文本关键字三层协同的索引机制定义为NIQ-tree(其中NIQ为N-Gram、IDistance和Quadtree的首字母组合)索引结构。在地理空间层，通过Quadtree(四叉树)根据地理位置相似性来组织所有的POI点，且地理空间层在NIQ-tree索引结构的最上部，因为地理空间层的数据是二维的，剪枝速度远大于高维的主题层。本实施例的四叉树索引是将地理空间层递归划分为不同层次的树结构。比如等分成四个相等的子空间，如此递归下去，直至树的层次达到一定深度或者满足某种要求后停止分割。本实施例的四叉树结构简单，地理位置都存储在叶子节点上，中间节点以及根节点不存储地理位置，并且当地理空间层数据分布比较均匀时，具有比较高的地理位置的空间数据插入和查询效率。

本申请另一实施例中，通过分别定义一个平面区域的四个子区域索引号，比如右上为第一象限0，左上为第二象限1，左下为第三象限2，右下为第四象限3。并通过地理位置的数据结构采用MBR(Minimum Bounding Rectangle，最小外接矩形)对地理位置的空间数据进行近似，四叉树节点是四叉树结构的主要组成部分，主要用于存储地理位置的标识号和MBR，也是四叉树算法操作的主要部分。四叉树节点类型结构中MBR对应区域的最小外包矩形，上一层的节点的最小外包矩形包含下一层最小外包矩形区域。以便将地理位置的信息存储在完全包含它的最小矩形节点中，不存储在它的父节点中，每个地理位置只在树中存储一次，避免存储空间的浪费。本实施例中首先生成满四叉树，避免在地理位置插入时需要重新分配内存，加快插入的速度，最后将空的节点所占内存空间释放掉。本实施例的四叉树维护地理位置索引与对存储在文件或数据库中的地理位置的信息数据的一致性，避免了地理位置分布不均匀，避免随着地理位置的不断插入，四叉树的层次会不断地加深，而形成一棵严重不平衡的四叉树，导致每次查询的深度大大的增多，且查询效率的急剧下降的情况。

S312：根据各兴趣点主题分布概率的相近度在主题层细化各兴趣点。

对于空间层Quadtree的每个叶子节点，NIQ-tree在主题层进一步细分MBR中POI点。本实施例的空间层Quadtree中面向多边形的空间聚类算法，应先求取多边形的最小外接矩形，然后根据最小外接矩形进行空间聚类。MBR为最小边界矩形，最小包含矩形，或最小外包矩形，通过细化MBR中的POI点进一步细化主题层，以便提高搜索匹配的精准度。

S313：根据主题层细化后的各兴趣点，通过IDistance在地理空间层以及主题层建立高维索引路径。

最后利用IDistance建立高维索引结构，以便进行高效的快速检索。本实施例的IDistance可对指定金融数据库的所有POI点进行分类，并记录每个类的信息，然后将所有类信息记录到文件中，以便于根据指定金融数据库的各POI点权值在上述地理空间层以及主题层构建高维B+tree(多路搜索树，并不是二叉的)，并储存B+tree的必要信息，以便用户输入参考点后，在B+tree中搜索临近点，并通过线性搜索结果比较，分析搜索结果与参考点的相近度。

进一步地，本实施例的步骤S312之后，包括：

S310：基于N-Gram在文本层对主题层进行略图构建以对所述各兴趣点进行细化。

本实施例中文本层也是本实施例NIQ-tree索引结构的重要组成部分，通过将地理空间层、主体层、以及文本层组成三维交织网状的索引结构，通过三层索引结构进行快速剪枝，进一步提高检索效率。本实施例通过在文本层对主题层进一步细化，基于N-Gram在文本层对主题层进行略图构建，即将文本相近的主题先进行归类，然后再根据主题分布概率进行分类，相当于在主题分布概率大集合中划分小子集。基于N-Gram在文本层对主题层进行略图构建只是对主题层的进一步细化，本申请其他实施例为简化索引过程，可省略文本层，只保留主题层和地理空间层两个层结构，依然可实现POI点索引的效果。

本实施例基于N-Gram在文本层对主题层进行略图构建时，两个字符串之间的编辑距离可利用Needleman-Wunsch算法(全局序列比对算法)或Smith-Waterman算法(局部序列比对算法)，本实施例定义两个字符串之间的编辑距离为N-Gram距离。举例地，字符串s的N-Gram就表示按长度N切分原词得到的词段，也就是s中所有长度为N的子字符串。举例地有两个字符串，然后分别求它们的N-Gram(汉语语言模型)，那么就可以从共有子串的数量定义两个字符串间的N-Gram距离。但是若忽略了两个字符串长度差异，仅对共有子串进行计数显然也存在不足。比如字符串girl和girlfriend，二者所拥有的公共子串数量显然与girl和其自身所拥有的公共子串数量相等，但是并不能据此认为girl和girlfriend是两个等同的匹配。本实施例提出以非重复的N-Gram分词为基础来定义N-Gram距离，公式表述为：|G _N(s)|+|G _N(t)|-2×|G _N(s)∩G _N(t)|，其中，|G _N(s)|是字符串s的N-Gram集合，N值取2或者3。以N ＝2为例，对字符串Gorbachev和Gorbechyov进行分段，可得结果分别为：Go，or，rb，ba，ac，ch，he，ev；Go，or，rb，be，ec，ch，hy，yo，ov；结合上面的公式，即可算得两个字符串之间的距离是8+9-2×4＝9。显然，字符串之间的距离越小，相距就越接近。当两个字符串完全相等的时候，它们之间的距离就是0。

进一步地，基于本实施例的实施场景，所述索引路径包括索引节点，步骤S4具体可以包括：

S40：接收用户输入的查询主体。

用户输入的查询主体包括地理位置和查寻文本关键字。

S41：从NIQ-tree的根节点开始，依次访问并查询具有最小匹配距离的索引节点。

本步骤中的最小匹配距离，通过欧式距离表示，计算公式如下：

，并将其规范到[0,1]之间，其中q表示查询主体，o表示参照POI点，D _s表示欧式距离。比如，两个文本的信息描述的主题分布概率之间的欧式距离越小，表示两个文本的语义相关性越高。本申请其他实施例也可通过余弦距离、马氏距离或巴氏距离等来表示两个文本的语义相关性。

S42：判断上述索引节点与上述查询主体的相关度是否在阈值条件内。

本实施例的索引路径由多个索引节点连接而成，通过判断索引节点的地理位置和/或文本式信息描述，是否与查询主体的地理位置和/或文本式信息描述的相关度在需求阈值内，比如阈值为85％以上。本步骤的相关度表示为：D(q,o)＝λ×D _S(q,o)+(1-λ)×D _T(q,o)，其中λ是用户指定参数，表示地理位置和文本式信息描述(即主题分布概率)的相似度之间的权重，在[0,1]之间。

S43：若是，则调出上述索引节点的信息数据作为与所述查询主体相似的兴趣点信息。

进一步地，步骤S42，包括：

S420：判断上述索引节点与上述查询主体的地理位置相近度和/或上述索引节点与上述查询主体的主题分布概率相似度是否在预设范围内。

本步骤中的上述索引节点与上述查询主体的主题分布概率相似度，表示为

其中，TD _W表示POI点中关键字对应的主题分布概率，||TD _W||是TD _W的模。比如，本实施例的地理位置相近度的预设范围为小于500m。

S421：若是，则判定索引节点与所述查询主体的相关度在阈值条件内；若否，则不在阈值条件内。

本申请另一实施例中，步骤S4具体包括：

S44：接收用户输入的指定对象的金融数据类的查询主体。

本实施例是基于语义的POI搜索技术在金融领域的具体场景，以便获取更细化、更具有参考价值的金融数据。本实施例的指定对象包括金融数据库中涉及的所有公司和群体，所指金融数据类的查询主体包括与市场、经营相关的数据库数据，包括地理位置和金融数据类的信息描述。举例地，周边某特定金融服务点的查询。通过金融机构画像建模(名称，服务对象，主营业务……)，建立专门的金融站点查询以及推荐系统，以便将大数据搜索技术更适合在金融服务行业应用。

S45：按照上述查询主体中携带的信息描述调取指定数据库中语义相似的金融数据。

本实施例通过调取基于语义相似的金融数据，取有利于投资策略的趋势数据，更有助于帮助用户进行精准的市场分析，或通过市场信息数据进行定向的业务关联分析，促进市场的有效开拓。举例地，信息描述为“汽车”，则会调取所有跟汽车相关的金融数据，比如，汽车市场价格、汽车服务业收费、汽车零配件价格、二手车交易市场等等信息，以便用户更便捷的选择所需要的数据。

本申请再一实施例中，步骤S45之后，包括：

S46：将上述金融数据输入投资风险估算模型中，以输出上述指定对象的风险估算等级。

本实施例通过对搜索到的指定对象的市场信用、负债率、营销领域评估、营销市场前景评价等经营、市场有关的数据，进行风险估算等级的估测，有利于银行业或投资者降低投资风险。本实施例的投资风险估算模型通过将风险数据样本输入卷积神经网络训练得到。

本申请又一实施例中，步骤S46之后，包括：

S47：根据上述风险估算等级以及行业分析数据，形成信贷资金等级评估数据库。

根据风险估算等级以及行业分析数据，形成信贷等级评估，通过语义理解的POI搜索到的信息更全面，风险估算等级以及行业分析数据更可靠，信贷等级评估更有参考价值，有利于银行等金融企业更全面的构造数据仓库，形成信贷资金等级评估数据库，以便指定更切实可行的市场策略。

S48：根据上述信贷资金等级评估数据库匹配信贷资源。

举例地，信贷资金等级高则匹配高额信贷标准；将信贷资金等级高的客户划分为优等客户进行追踪。

本申请实施例POI搜索技术中融入了用户的搜索语义理解，以便搜索信息与用户的真实意愿更贴近，提高搜索内容与用户搜索意愿的匹配性；通过在POI搜索技术中通过关键字语义(即关键字的主题分布概率)相似度匹配查询，搜素信息的信息量覆盖面增大，不仅仅限于文本字符的形状，扩展至与内容意思相关，提高搜索信息的精度；通过多维度限定POI搜索的影响因子，细化搜索信息的精度，推进POI搜索在金融领域的应用，以便在金融领域更好的服务用户，提供更符合用户需求的金融信息。

参照图2，本申请一实施例的基于语义理解的兴趣点查询装置，包括：

获取模块1，用于获取金融领域的指定数据库中的多个兴趣点，兴趣点包括信息描述以及地理位置。

匹配模块2，用于根据各兴趣点中的信息描述，分别为金融领域的指定数据库中的各兴趣点匹配主题分布概率。

本实施例的POI点包括地理位置的坐标信息以及POI信息描述。由于地理位置的坐标信息不带有文本描述信息，不具有文本分类作用，可通过POI信息描述对POI点进行主题细化分类。本实施例通过将POI信息描述转换为主题分布概率，即本实施例的兴趣点集合为一系列的附有地理位置标签的主题分布概率集合，使得能够更好地理解POI信息描述的内在意义，并通过基于主题分布概率的相似性度量函数来表征兴趣点之间的语义关联。本实施例首先通过剖析各POI点中的POI信息描述的组成结构，提取中心词，然后根据中心词主题来预测主题分布概率。比如，中心词“咖啡”和中心词“星巴克”这两个词的相似度，就是将上述两个中心词的主题分布概率运用指定的定量化测量公式进行计算，如β _words＝{p ₁,p ₂,...,p _n}，其中n＝|Z|，P表示各POI点，然后分析计算值，比如计算值越大，相似性越低。本实施例的主题分布概率相当于高维空间的两个点，通过上述两点在高维空间的空间距离来表示两个中心词的主题分布概率相关性，此处空间距离包括地理位置形成的距离。举例地，将分别包含中心词“咖啡”和中心词“星巴克”的两个POI点高维空间的空间参数代入上述公式，输出的计算结果小于预设的阈值，比如阈值为1，表明分别包含中心词“咖啡”和中心词“星巴克”的两个POI点从文本字体上没有相关性，但从附有语义理解的主题分布概率上看具有极大的相关性，即相比于单纯从文本字体上判断两个POI点的信息描述的相关性，基于语义理解的主题分布概率判断两个POI点的信息描述的相关性会更准确。

构建模块3，用于根据上述主题分布概率以及地理位置构建索引路径。

筛选模块4，用于根据上述索引路径筛选与查询主体相似的兴趣点信息。

本实施例的指定规则依据用户查询时自身的需要进行选择，选择空间距离较近的兴趣点或是文本相似度高的兴趣点，地理位置的距离通过地理位置的坐标信息计算得到。比如，选择地理位置近的兴趣点，则搜索结果为距离查询主体的地理位置较近，而文本相似度可能不高。本实施例通过将文本描述的内在意义作为参考量，使得检索信息更贴近用户本意。举例地，本实施例在查询描述“咖啡”与POI点描述“星巴克”将因其相似的主题分布概率而被认为相关。本实施例的查询主体为用户输入的待搜索信息。

本实施例采用基于NIQ-tree的POI搜索策略，通过精确的解空间上下界计算来保证有效的剪枝效果。具体来说，POI搜索将从NIQ-tree的根节点开始，依次访问与查询具有最小匹配距离的索引节点(通过优先队列来完成)，其中索引节点N与查询q的最佳匹配距离D _bm(q,N)计算为D _bm(q,N)＝λ×min _p∈N.mbrD _S(q,p)+(1-λ)×minD _T(q,N)，其中min _p∈N.mbrD _S(q,p)和minD _T(q,N)表示从q到N的理论最小距离，λ是用户指定参数，表示地理位置的和文本式信息描述(即关键字的主题分布概率)相似度之间的权重，P表示各POI点。

参照图3，上述匹配模块2，包括：

统计单元21，用于统计上述指定数据库中的第一关键字集合以及各兴趣点主题中第二关键字集合。

本实施例的基于主题分布概率的POI表示方法，给定一个由n个关键字组成的文本W，V为金融领域POI数据集中所有关键字集合，Z＝{z ₁,z ₂,...,z _n}为主题集，则W对应于Z中每个主题z _i∈Z的主题概率分布TD _W[z _i]的计算公式如下：

个数；α表示对称边界，通常设置为0.1；|W|表示W中关键字的个数；|Z|表示Z中总共的主题个数。本实施例的第一关键字集合为包括保险业务的金融领域数据库的所有主题的所有关键字，兴趣点即POI点，第二关键字集合为POI点对应主题的关键字，其中POI点对应主题为上述包括保险业务的金融领域数据库中的主题之一。

计算单元12，用于计算上述第二关键字集合相对于上述第一关键字集合的主题分布概率。

参照图4，上述构建模块3，包括：

获取单元30，用于获取依据地理位置索引和依据主题分布概率索引的权重设置。

本实施例的权重设置直接影响搜索结果，权重设置可根据用户使用意图进行自主设置，本实施例的权重值为[0,1]之间。举例地，如果用户设置的权重中地理位置占0.7，主题分布概率占0.3，则最后的搜索结果肯定是距离查询主体地理位置较近的POI点，而文本相似度可能不高，与用户的检索用意不太相符；反之，结果则相反，不赘述，但权重中地理位置占0.5，主题分布概率占0.5，两者占比都比较高，就会检索到地理位置较近的且符合用户用意的兴趣点。

构建单元31，用于根据上述权重设置构建上述索引路径。

本实施例是指权重设置的不同，构建的索引路径也不同。比如，地理位置权重占比大，则从检索根节点依次按照地理位置最近的方式访问各索引兴趣点。

参照图5，上述索引路径为地理位置、主题分布概率协同索引路径，上述构建单元31，包括：

组织子单元311，用于根据地理位置相似性在地理空间层组织金融领域的指定数据库的所有兴趣点。

本申请实施例的POI点的快速检索依赖于有效的数据索引，本实施例的数据索引与传统的POI索引方式不同，为融合地理位置和文本语义的主题分布概率两信息的层次式索引结构，使得从不同维度执行搜索剪枝。本实施例的将基于IDistance的地理位置、主题分布概率及文本关键字三层协同的索引机制定义为NIQ-tree索引结构。在地理空间层，通过Quadtree(四叉树)根据地理位置相似性来组织所有的POI点，且地理空间层在NIQ-tree索引结构的最上部，因为地理空间层的数据是二维的，剪枝速度远大于高维的主题层。本实施例的四叉树索引是将地理空间层递归划分为不同层次的树结构。比如等分成四个相等的子空间，如此递归下去，直至树的层次达到一定深度或者满足某种要求后停止分割。本实施例的四叉树结构简单，地理位置都存储在叶子节点上，中间节点以及根节点不存储地理位置，并且当地理位置空间层数据分布比较均匀时，具有比较高的地理位置的空间数据插入和查询效率。

本申请另一实施例中，通过分别定义一个平面区域的四个子区域索引号，比如右上为第一象限0，左上为第二象限1，左下为第三象限2，右下为第四象限3。并通过地理位置数据结构采用MBR(最小外包矩形)对地理位置的空间数据进行近似，四叉树节点是四叉树结构的主要组成部分，主要用于存储地理位置的标识号和MBR，也是四叉树算法操作的主要部分。四叉树节点类型结构中MBR对应区域的最小外包矩形，上一层的节点的最小外包矩形包含下一层最小外包矩形区域。以便将地理位置的信息存储在完全包含它的最小矩形节点中，不存储在它的父节点中，每个地理位置只在树中存储一次，避免存储空间的浪费。本实施例中首先生成满四叉树，避免在地理位置插入时需要重新分配内存，加快插入的速度，最后将空的节点所占内存空间释放掉。本实施例的四叉树维护地理位置索引与对存储在文件或数据库中的地理位置的信息数据的一致性，避免了地理位置分布不均匀，避免随着地理位置的不断插入，四叉树的层次会不断地加深，而形成一棵严重不平衡的四叉树，导致每次查询的深度大大的增多，且查询效率的急剧下降的情况。

细化子单元312，用于根据各兴趣点主题分布概率的相近度在主题层细化各兴趣点。

对于空间层Quadtree的每个叶子节点，NIQ-tree在主题层进一步细分MBR(Minimum Bounding Rectangle，最小外接矩形)中POI点。本实施例的空间层Quadtree中面向多边形的空间聚类算法，应先求取多边形的最小外接矩形，然后根据最小外接矩形进行空间聚类。MBR为最小边界矩形，最小包含矩形，或最小外包矩形，通过细化MBR中的POI点进一步细化主题层，以便提高搜索匹配的精准度。

建立子单元313，用于根据所述主题层细化后的各兴趣点，通过IDistance在上述地理空间层以及主题层建立高维索引路径。

最后利用IDistance建立高维索引结构，以便进行高效的快速检索。本实施例的IDistance可对指定金融数据库的所有POI点进行分类，并记录每个类的信息，然后将所有类信息记录到文件中，以便于根据指定金融数据库的各POI点权值在上述地理空间层以及主题层构建高维B+tree，并储存B+tree的必要信息,以便用户输入参考点后,在B+tree中搜索临近点，并通过线性搜索结果比较，分析搜索结果与参考点的相近度。

进一步地，构建单元31，还包括：

构建子单元310，用于基于N-Gram在文本层对主题层进行略图构建以对所述各兴趣点进行细化。

本实施例基于N-Gram在文本层对主题层进行略图构建时，两个字符串之间的编辑距离可利用Needleman-Wunsch算法或Smith-Waterman算法，本实施例定义两个字符串之间的编辑距离为N-Gram 距离。举例地，字符串s的N-Gram就表示按长度N切分原词得到的词段，也就是s中所有长度为N的子字符串。举例地有两个字符串，然后分别求它们的N-Gram，那么就可以从共有子串的数量定义两个字符串间的N-Gram距离。但是若忽略了两个字符串长度差异，仅对共有子串进行计数显然也存在不足。比如字符串girl和girlfriend，二者所拥有的公共子串数量显然与girl和其自身所拥有的公共子串数量相等，但是并不能据此认为girl和girlfriend是两个等同的匹配。本实施例提出以非重复的N-Gram分词为基础来定义N-Gram距离，公式表述为：|G _N(s)|+|G _N(t)|-2×|G _N(s)∩G _N(t)|，其中，|G _N(s)|是字符串s的N-Gram集合，N值取2或者3。以N＝2为例，对字符串Gorbachev和Gorbechyov进行分段，可得结果分别为：Go，or，rb，ba，ac，ch,he，ev；Go，or，rb，be，ec，ch，hy，yo，ov；结合上面的公式，即可算得两个字符串之间的距离是8+9-2×4＝9。显然，字符串之间的距离越小，相距就越接近。当两个字符串完全相等的时候，它们之间的距离就是0。

参照图6，本申请一实施例的所述索引路径包括索引节点，筛选模块4，包括：

第一接收单元40，用于接收用户输入的查询主体。

第一接收单元40接收的用户输入的查询主体包括地理位置和查寻文本关键字。

查询单元41，用于从NIQ-tree的根节点开始，依次访问并查询具有最小匹配距离的索引节点。

本实施例中的最小匹配距离，通过欧式距离表示，计算公式如下：

判断单元42，用于判断上述索引节点与上述查询主体的相关度是否在阈值条件内。

本实施例的索引路径由多个索引节点连接而成，通过判断单元42判断索引节点的地理位置和/或文本式信息描述，是否与查询主体的地理位置和/或文本式信息描述的相关度在需求阈值内，比如阈值为85％以上。本实施例的相关度表示为：D(q,o)＝λ×D _S(q,o)+(1-λ)×D _T(q,o)，其中λ是用户指定参数，表示的信息描述的和文本式信息描述(即主题分布概率)的相似度之间的权重，在[0,1]之间。

调出单元43，用于若上述索引节点与上述查询主体的相关度在阈值条件内，则调出上述索引节点的信息数据作为与上述查询主体相似的兴趣点信息。

参照图7，上述判断单元42，包括：

判断子单元420，用于判断上述索引节点与上述查询主体的地理位置相近度和/或上述索引节点与上述查询主体的主题分布概率相似度是否在预设范围内。

本实施例中的上述索引节点与上述查询主体的主题分布概率相似度，表示为

判定子单元421：用于若在预设范围内，则判定所述索引节点与所述查询主体的相关度在阈值条件内；若否，则不在阈值条件内。

参照图8，本申请另一实施例中，筛选模块4，包括：

第二接收单元44，用于接收用户输入的指定对象的金融数据类的查寻主体。

本实施例是基于语义的POI搜索技术在金融领域的具体场景，以便获取更细化、更具有参考价值的金融数据。本实施例的指定对象包括金融数据库中涉及的所有公司和群体，所指金融数据类的查询主体包括与市场、经营相关的数据库数据，包括地理位置和金融数据类的信息描述。举例地，周边某特定金融服务点的查询。通过金融机构画像建模(名称，服务对象，主营业务……)，建立专门的金融站点查询以及推荐系统，以便使大数据搜索技术更适合应用在金融服务行业。

调取单元45，用于按照上述查询主体中携带的信息描述调取指定数据库中语义相似的金融数据。

参照图9，本申请再一实施例中的筛选模块4，包括：

输入输出单元46，用于将金融数据输入投资风险估算模型中，以输出指定对象的风险估算等级。

参照图10，本申请又一实施例中的筛选模块4，包括：

形成单元47，用于根据上述风险估算等级以及行业分析数据，形成信贷资金等级评估数据库。

匹配单元48，用于根据上述信贷资金等级评估数据库匹配信贷资源。

举例地，信贷资金等级高则匹配高额信贷标准。再举例地，将信贷资金等级高的客户划分为优等客户进行追踪。

参照图11，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储基于语义理解的兴趣点查询等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令在执行时，执行如上述各方法的实施例的流程。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机非易失性可读存储介质，其上存储有计算机可读指令，该计算机可读指令在执行时，执行如上述各方法的实施例的流程。以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于语义理解的兴趣点查询方法，其特征在于，包括：

获取金融领域的指定数据库中的多个兴趣点，其中每个兴趣点包括信息描述以及地理位置；

根据各兴趣点中的信息描述，分别为所述各兴趣点匹配主题分布概率；

根据所述主题分布概率以及地理位置构建索引路径；

根据所述索引路径筛选与查询主体相似的兴趣点信息。
根据权利要求1所述的基于语义理解的兴趣点查询方法，其特征在于，所述根据各兴趣点中的信息描述，分别为所述各兴趣点匹配主题分布概率的步骤，包括：

统计所述指定数据库中的第一关键字集合以及各兴趣点主题中第二关键字集合；

计算所述第二关键字集合相对于所述第一关键字集合的主题分布概率。
根据权利要求1所述的基于语义理解的兴趣点查询方法，其特征在于，所述根据所述主题分布概率以及地理位置构建索引路径的步骤，包括：

获取依据地理位置索引和依据主题分布概率索引的权重设置；

根据所述权重设置构建所述索引路径。
根据权利要求3所述的基于语义理解的兴趣点查询方法，其特征在于，所述索引路径为地理位置、主题分布概率协同索引路径，所述根据所述权重设置构建所述索引路径的步骤，包括：

根据地理位置相似性在地理空间层组织所述指定数据库的所有兴趣点；

根据各兴趣点主题分布概率的相近度在主题层细化各兴趣点；

根据所述主题层细化后的各兴趣点，通过IDistance在所述地理空间层以及主题层建立高维索引路径。
根据权利要求4所述的基于语义理解的兴趣点查询方法，其特征在于，所述根据各兴趣点主题分布概率的相近度在主题层细化各兴趣点的步骤之后，包括：

基于N-Gram在文本层对主题层进行略图构建以对所述各兴趣点进行细化。
根据权利要求4所述的基于语义理解的兴趣点查询方法，其特征在于，所述索引路径包括索引节点，所述根据所述索引路径筛选与查询主体相似的兴趣点信息的步骤，包括：

接收用户输入的查询主体；

从NIQ-tree的根节点开始，依次访问并查询具有最小匹配距离的索引节点；

判断所述索引节点与所述查询主体的相关度是否在阈值条件内；

若是，则调出所述索引节点的信息数据作为与所述查询主体相似的兴趣点信息。
根据权利要求6所述的基于语义理解的兴趣点查询方法，其特征在于，所述判断所述索引节点与所述查询主体的相关度是否在阈值条件内的步骤，包括：

判断所述索引节点与所述查询主体的地理位置相近度和/或所述索引节点与所述查询主体的主题分布概率相似度是否在预设范围内；

若是，则判定所述索引节点与所述查询主体的相关度在阈值条件内；若否，则不在阈值条件内。
一种基于语义理解的兴趣点查询装置，其特征在于，包括：

获取模块，用于获取金融领域的指定数据库中的多个兴趣点，其中每个兴趣点包括信息描述以及地理位置；

匹配模块，用于根据各兴趣点中的信息描述，分别为所述各兴趣点匹配主题分布概率；

构建模块，用于根据所述主题分布概率以及地理位置构建索引路径；

筛选模块，用于根据所述索引路径筛选与查询主体相似的兴趣点信息。
根据权利要求8所述的基于语义理解的兴趣点查询装置，其特征在于，所述匹配模块，包括：

统计单元，用于统计所述指定数据库中的第一关键字集合以及各兴趣点主题中第二关键字集合；

计算单元，用于计算所述第二关键字集合相对于所述第一关键字集合的主题分布概率。
根据权利要求8所述的基于语义理解的兴趣点查询装置，其特征在于，所述构建模块，包括：

获取单元，用于获取依据地理位置索引和依据主题分布概率索引的权重设置；

构建单元，用于根据所述权重设置构建所述索引路径。
根据权利要求10所述的基于语义理解的兴趣点查询装置，其特征在于，所述构建单元，包括：

组织子单元，用于根据地理位置相似性在地理空间层组织所述指定数据库的所有兴趣点；

细化子单元，用于根据各兴趣点主题分布概率的相近度在主题层细化各兴趣点；

建立子单元，用于根据所述主题层细化后的各兴趣点，通过IDistance在所述地理空间层以及主题层建立高维索引路径。
根据权利要求11所述的基于语义理解的兴趣点查询装置，其特征在于，所述构建单元，包括：

构建子单元，用于基于N-Gram在文本层对主题层进行略图构建以对所述各兴趣点进行细化。
根据权利要求11所述的基于语义理解的兴趣点查询装置，其特征在于，所述索引路径包括索引节点，所述筛选模块，包括：

第一接收单元，用于接收用户输入的查询主体；

查询单元，用于从NIQ-tree的根节点开始，依次访问并查询具有最小匹配距离的索引节点；

判断单元，用于判断所述索引节点与所述查询主体的相关度是否在阈值条件内；

调出单元，用于若索引节点与查询主体的相关度在阈值条件内，则调出所述索引节点的信息数据作为与所述查询主体相似的兴趣点信息。
根据权利要求13所述的基于语义理解的兴趣点查询装置，其特征在于，所述判断单元，包括：

判断子单元，用于判断所述索引节点与所述查询主体的地理位置相近度和/或所述索引节点与所述查询主体的主题分布概率相似度是否在预设范围内；

判定子单元：用于若在预设范围内，则判定所述索引节点与所述查询主体的相关度在阈值条件内；若否，则不在阈值条件内。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现基于语义理解的兴趣点查询方法，方法包括：

获取金融领域的指定数据库中的多个兴趣点，其中每个兴趣点包括信息描述以及地理位置；

根据各兴趣点中的信息描述，分别为所述各兴趣点匹配主题分布概率；

根据所述主题分布概率以及地理位置构建索引路径；

根据所述索引路径筛选与查询主体相似的兴趣点信息。
根据权利要求15所述的计算机设备，其特征在于，所述根据各兴趣点中的信息描述，分别为所述各兴趣点匹配主题分布概率的步骤，包括：

统计所述指定数据库中的第一关键字集合以及各兴趣点主题中第二关键字集合；

计算所述第二关键字集合相对于所述第一关键字集合的主题分布概率。
根据权利要求15所述的计算机设备，其特征在于，所述根据所述主题分布概率以及地理位置构建索引路径的步骤，包括：

获取依据地理位置索引和依据主题分布概率索引的权重设置；

根据所述权重设置构建所述索引路径。
一种计算机非易失性可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现基于语义理解的兴趣点查询方法，方法包括：

获取金融领域的指定数据库中的多个兴趣点，其中每个兴趣点包括信息描述以及地理位置；

根据各兴趣点中的信息描述，分别为所述各兴趣点匹配主题分布概率；

根据所述主题分布概率以及地理位置构建索引路径；

根据所述索引路径筛选与查询主体相似的兴趣点信息。
根据权利要求18所述的计算机非易失性可读存储介质，其特征在于，所述根据各兴趣点中的信息描述，分别为所述各兴趣点匹配主题分布概率的步骤，包括：

统计所述指定数据库中的第一关键字集合以及各兴趣点主题中第二关键字集合；

计算所述第二关键字集合相对于所述第一关键字集合的主题分布概率。
根据权利要求18所述的计算机非易失性可读存储介质，其特征在于，所述根据所述主题分布概率以及地理位置构建索引路径的步骤，包括：

获取依据地理位置索引和依据主题分布概率索引的权重设置；

根据所述权重设置构建所述索引路径。