WO2021135105A1

WO2021135105A1 - 基于大数据的对象识别方法、装置、设备及存储介质

Info

Publication number: WO2021135105A1
Application number: PCT/CN2020/098978
Authority: WO
Inventors: 喻宁; 陈克炎; 朱艳乔
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-01-02
Filing date: 2020-06-29
Publication date: 2021-07-08
Also published as: CN111210269A; CN111210269B

Abstract

一种基于大数据的对象识别方法、装置、设备及存储介质，涉及人工智能技术。该方法通过获取预设用户群的终端设备的位置信息后执行数据清洗操作，再筛选出属于预设时间段内的位置信息（S10），对预设时间段内的位置信息执行聚类操作得到多个位置信息簇，将多个位置信息簇设置成对应的多个目标区域，分别获取各目标区域内的所有兴趣点的属性特征（S20），对各所述目标区域进行标注生成样本集，将样本集输入随机森林模型中训练得到对象识别模型（S30），接收用户发出的对象识别的请求，将待识别区域兴趣点的属性特征输入对象识别模型，得到待识别区域的识别结果（S40）。通过对样本数据的处理，可以提高模型的泛化能力，从而提升对象识别的精准性。

Description

基于大数据的对象识别方法、装置、设备及存储介质

本申请要求于2020年1月2日提交中国专利局、申请号为CN202010002168.1，发明名称为“基于大数据的对象识别方法、电子装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于大数据的对象识别方法、装置、设备及存储介质。

背景技术

现有技术中，发明人发现对象识别通常是根据对象的单一类型数据进行建模，利用模型对待识别的对象进行识别，例如，在传统的商圈识别方法中，通常是采集商圈的单一类型数据(例如，商圈的人流量)作为样本数据进行建模，以此对待识别的商圈进行识别。该方法因样本数据类型单一且缺乏对样本数据的处理，导致对象识别的准确率低。

发明内容

鉴于以上内容，本申请提供一种基于大数据的对象识别方法、装置、设备及存储介质，其目的在于现有技术中因缺乏对样本数据的处理，导致的对象识别的准确率较低的问题。

为实现上述目的，本申请提供一种基于大数据的对象识别方法，该方法包括：

获取步骤：获取预设用户群的终端设备的位置信息，对所述位置信息的数据执行数据清洗操作，从执行数据清洗后的位置信息中筛选出属于预设时间段内的位置信息；

聚类步骤：基于预设算法对所述预设时间段内的位置信息执行聚类操作，得到多个位置信息簇，将所述多个位置信息簇设置成对应的多个目标区域，分别获取各目标区域内的所有兴趣点的属性特征；

训练步骤：利用预设的标注规则对各所述目标区域进行标注，基于标注后的目标区域及各目标区域内的所有兴趣点的属性特征生成样本集，将所述样本集输入随机森林模型中进行训练，得到对象识别模型；及

识别步骤：接收某个用户发出的对象识别请求，解析得到所述请求携带的待识别区域的兴趣点的属性特征，将所述待识别区域的兴趣点的属性特征输入所述对象识别模型，得到所述待识别区域的识别结果，并将所述识别结果反馈至所述用户。

为了实现上述目的，本申请还提供一种基于大数据的对象识别装置，所述装置包括：

获取模块：用于获取预设用户群的终端设备的位置信息，对所述位置信息的数据执行数据清洗操作，从执行数据清洗后的位置信息中筛选出属于预设时间段内的位置信息；

聚类模块：用于基于预设算法对所述预设时间段内的位置信息执行聚类操作，得到多个位置信息簇，将所述多个位置信息簇设置成对应的多个目标区域，分别获取各目标区域内的所有兴趣点的属性特征；

训练模块：用于利用预设的标注规则对各所述目标区域进行标注，基于标注后的目标区域及各目标区域内的所有兴趣点的属性特征生成样本集，将所述样本集输入随机森林模型中进行训练，得到对象识别模型；及

识别模块：用于接收某个用户发出的对象识别请求，解析得到所述请求携带的待识别区域的兴趣点的属性特征，将所述待识别区域的兴趣点的属性特征输入所述对象识别模型，得到所述待识别区域的识别结果，并将所述识别结果反馈至所述用户。

为实现上述目的，本申请还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如下步骤：

本申请通过对获取的位置信息执行数据清洗处理和聚类处理后，将聚类得到的多个位置信息簇设置成对应的目标区域，获取个目标区域的所有兴趣点的属性特征，增加了样本数据的多样性，将目标区域的所有兴趣点的属性特征作为样本集构建对象识别模型，将待识别区域兴趣点的属性特征输入对象识别模型，得到待识别区域的识别结果。本申请通过对样本数据的处理，可以提高对象识别模型的泛化能力，从而提升对象识别的精准性。

附图说明

图1为本申请计算机设备较佳实施例的应用环境图；

图2为基于大数据的对象识别装置的模块示意图；

图3为本申请基于大数据的对象识别方法较佳实施例的流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1所示，为本申请计算机设备1较佳实施例的示意图。

该计算机设备1包括但不限于：存储器11、处理器12、显示器13及网络接口14。所述计算机设备1通过网络接口14连接网络，获取原始数据。其中，所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述计算机设备1的内部存储单元，例如该计算机设备1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述计算机设备1的外部存储设备，例如该计算机设备1配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述计算机设备1的内部存储单元也包括其外部存储设备。本实施例中，存储器11通常用于存储安装于所述计算机设备1的操作系统和各类应用软件，例如基于大数据的对象识别程序10的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述计算机设备1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行基于大数据的对象识别程序10的程序代码等。

显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器13用于显示在计算机设备1中处理的信息以及用于显示可视化的工作界面，例如显示数据统计的结果。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，该网络接口14通常用于在所述计算机设备1与其它电子设备之间建立通信连接。

图1仅示出了具有组件11-14以及基于大数据的对象识别程序10的计算机设备1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，所述计算机设备1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在计算机设备1中处理的信息以及用于显示可视化的用户界面。

该计算机设备1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在上述实施例中，处理器12执行存储器11中存储的基于大数据的对象识别程序10时可以实现如下步骤：

所述存储设备可以为计算机设备1的存储器11，也可以为与计算机设备1通讯连接的其它存储设备。

关于上述步骤的详细介绍，请参照下述图2关于基于大数据的对象识别装置100的模块图以及图3关于基于大数据的对象识别方法实施例的流程图的说明。

本申请所述基于大数据的对象识别装置100可以安装于计算机设备中。根据实现的功能。本发所述模块也可以称之为单元，是指一种能够被计算机设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在计算机设备的存储器中。

参照图2所示，为基于大数据的对象识别装置100一实施例的模块图。在本实施例中，所述基于大数据的对象识别装置100包括：获取模块110、聚类模块120、训练模块130及识别模块140。

获取模块110，用于获取预设用户群的终端设备的位置信息，对所述位置信息的数据执行数据清洗操作，从执行数据清洗后的位置信息中筛选出属于预设时间段内的位置信息。

在本实施例中，可以使用大数据技术采集大量用户群的终端设备(例如，手机)的位置信息，位置信息可以是基于位置的服务即LBS信息，LBS信息是利用各类型的定位技术来获取定位终端设备当前的所在位置，通过移动互联网向定位终端设备提供信息资源和基础服务。获取的位置信息数据可能存在重复的信息和缺失的信息，因此可以对获取的位置信息数据执行数据清洗，使用数据挖掘技术将获取过程中出现的缺失数据、异常数据、错误数据清除，从执行数据清洗后的位置信息中筛选出属于预设时间段内的位置信息，本实施例中，可以筛选出符合时间段(10:00-22:00)的位置信息数据。

在一个实施例中，对终端设备的位置信息的数据执行数据清洗操作包括：

选取信息完整的位置信息的数据作为清洗样本放入CART决策树的根部，并将清洗样本分为第一组数据和第二组数据，利用第一组数据建立决策树，并以该决策树内部每个节点信息作为分割依据，利用第二组数据修剪决策树，当决策树每个类只存在一个节点时，结束数据清洗。

聚类模块120，用于基于预设算法对所述预设时间段内的位置信息执行聚类操作，得到多个位置信息簇，将所述多个位置信息簇设置成对应的多个目标区域，分别获取各目标区域内的所有兴趣点的属性特征。

在本实施例中，基于DBSCAN算法对所述预设时间段内的位置信息执行聚类操作，DBSCAN算法是一种基于密度的聚类算法，该算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本，他们之间是紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在，通过将紧密相连的样本划为一类，这样就得到了一个聚类类别，通过将所有各组紧密相连的样本划为各个不同的类别，就得到最终的所有聚类类别结果。

首先设置各LBS点之间密度半径，及所述密度半径内最小的LBS点的数量(MinPts)，基于所述密度半径及所述最小的LBS点的数量，从所有LBS点中迭代计算得到核心LBS点、密度可达的LBS点以及边缘LBS点，将得到的核心LBS点、密度可达的LBS点以及边缘LBS点聚集成位置信息簇。其中，将得到的核心LBS点、密度可达的LBS点以及边缘LBS点聚集成位置信息簇包括：获取所述核心LBS点的密度可达的LBS点，利用所述迭代计算得到的密度可达的LBS点，更新所述核心LBS点对应的聚类簇，直至获取到所述核心LBS点的位置信息簇。需要说明的是，对于样本集合D存在样本点p和q，如果q 在p的邻域内，且p为核心样本点，那么样本点q从样本点p密度直达。对于样本集合D，给定样本点p ₁，p ₂，...p _n，p＝p ₁，q＝p _n，若样本点p _i从p _i-1密度直达，那么q从p密度可达。

具体地，A、初始化核心LBS点集合Ω＝φ,初始化聚类的簇数k＝0，初始化未访问样本集合Γ＝D，簇划分C＝φ；

B、对于预设时间段内的位置信息集D＝(x ₁，x ₂，...x _m)，j＝1，2，…m，通过距离度量方式(例如，欧式距离)，找到样本x _j的邻域子样本集N∈(x _j)，若子样本集样本个数满足|N∈(x _j)|≥MinPts，将样本x _j加入核心LBS点样本集合：Ω＝Ω∪{x _j}；

C、如果核心LBS点集合Ω＝φ，则算法结束，否则转入步骤D；

D、在核心LBS点集合Ω中，随机选择一个核心LBS点o，初始化当前簇核心LBS点队列Ω _cur＝{o},初始化类别序号k＝k+1，初始化当前簇样本集合C _k＝{o}，更新样本集合Γ＝Γ-{o}；

E、如果当前簇核心LBS点队列Ω _cur＝φ，则当前聚类簇C _k生成完毕,更新簇划分C＝{C ₁,C ₂₁,...,C _k}，更新核心LBS点集合Ω＝Ω-C _k，转入步骤C，否则更新核心LBS点集合Ω＝Ω-C _k；

F、在当前簇核心LBS点队列Ω _cur中取出一个核心LBS点o′，通过邻域距离阈值∈找出所有的邻域子样本集N∈(o′)，令Δ＝N∈(o′)∩Γ,更新当前簇样本集合C _k＝C _k∪Δ,更新未访问样本集合Γ＝Γ-Δ,更新Ω _cur＝Ω _cur∪(Δ∩Ω)-o′，转入步骤E，输出结果多个位置信息簇C＝{C ₁，C ₂，...C _k}。

将多个位置信息簇设置成对应的目标区域，位置信息簇的边界设置成目标区域的边界，根据目标区域的边界分别获取各目标区域内的所有兴趣点的属性特征，目标区域的属性特征包括：目标区域所有的兴趣点类型和兴趣点数量(例如，商业、工业、餐饮、公共事业、政府机构等)、兴趣点平均消费金额、兴趣点在不同时间段人流量。兴趣点(Point of Interest，POI)在地理信息系统中，可以是一栋房子、一个商铺、一个邮筒、一个公交站等。

训练模块130，用于利用预设的标注规则对各所述目标区域进行标注，基于标注后的目标区域及各目标区域内的所有兴趣点的属性特征生成样本集，将所述样本集输入随机森林模型中进行训练，得到对象识别模型。

在本实施例中，获取各个目标区域内的所有兴趣点的属性特征后，利用预设的标注规则对各目标区域进行标注，将目标区域为商圈的目标区域标注为1，将各目标区域中不为商圈的目标区域标注为0。将标注后的目标区域作为因变量，各目标区域内的所有兴趣点的属性特征作为自变量生成样本集，将所述样本集输入随机森林模型中进行训练，得到对象识别模型。

进一步的，将所述样本集按预设比例分为训练集及验证集；

利用所述训练集的样本数据对随机森林模型进行训练，以确定模型的具体参数，利用所述验证集的样本数据来验证模型的准确率，当所述准确率达到预设阈值时结束训练，得到所述对象识别模型，当所述准确率未达到预设阈值时，继续增加样本数据对随机森林模型进行训练。

具体地，对样本集中各目标区域的样本进行有放回的抽样，构建出若干个子数据集，在若干个子数据集中对属性特征进行有放回的抽样，即选取部分属性特征和部分观测值进行子决策树的建立。其中，每个子决策树建立的过程包括：每次选取的用于分裂标准的属性特征都是使得决策树在这个节点时信息熵最小的特征，决策树建立完成后可以通过剪枝方法来防止出现过拟合。剪去分支的标准为防止误差增加，越小越先剪去，直到达到预设的最小节点数量时停止修剪。将所有的决策树预测结果结合起来，进行投票选择，选择数量较多的决策树投票结果作为最终识别结果。

识别模块140，用于接收某个用户发出的对象识别请求，解析得到所述请求携带的待识别区域的兴趣点的属性特征，将所述待识别区域的兴趣点的属性特征输入所述对象识别模型，得到所述待识别区域的识别结果，并将所述识别结果反馈至所述用户。

在本实施例中，以对象为商圈为例对本方案进行说明。接收某个用户发出的商圈识别的请求，解析请求获取请求中携带的待识别区域的兴趣点的属性特征(区域内所有的兴趣点类型和兴趣点数量，例如，商业、工业、餐饮、公共事业、政府机构、兴趣点平均消费金额、兴趣点在不同时间段人流量等)，将待识别区域兴趣点的属性特征输入对象识别模型，得到待识别区域的识别结果，识别结果包括待识别的区域为每种分类结果的概率值，将识别结果反馈至用户。

此外，本申请还提供一种基于大数据的对象识别方法。参照图3所示，为本申请基于大数据的对象识别方法的实施例的方法流程示意图。计算机设备1的处理器12执行存储器11中存储的基于大数据的对象识别程序10时实现基于大数据的对象识别方法的如下步骤：

步骤S10：获取预设用户群的终端设备的位置信息，对所述位置信息的数据执行数据清洗操作，从执行数据清洗后的位置信息中筛选出属于预设时间段内的位置信息。

在本实施例中，可以使用大数据技术采集大量用户群的终端设备(例如，手机)的位置信息，位置信息可以是基于位置的服务即LBS信息，LBS信息是利用各类型的定位技术来获取定位终端设备当前的所在位置，通过移动互联网向定位终端设备提供信息资源和基础服务。获取的位置信息数据可能存在重复的信息和确实的信息，因此可以对获取的位置信息数据执行数据清洗，使用数据挖掘技术将获取过程中出现的缺失数据、异常数据、错误数据清除，从执行数据清洗后的位置信息中筛选出属于预设时间段内的位置信息，本实施例中，可以筛选出符合时间段(10:00-22:00)的位置信息数据。

步骤S20：基于预设算法对所述预设时间段内的位置信息执行聚类操作，得到多个位置信息簇，将所述多个位置信息簇设置成对应的多个目标区域，分别获取各目标区域内的所有兴趣点的属性特征。

首先设置各LBS点之间密度半径，及所述密度半径内最小的LBS点的数量(MinPts)，基于所述密度半径及所述最小的LBS点的数量，从所有LBS点中迭代计算得到核心LBS点、密度可达的LBS点以及边缘LBS点，将得到的核心LBS点、密度可达的LBS点以及边缘LBS点聚集成位置信息簇。其中，将得到的核心LBS点、密度可达的LBS点以及边缘LBS点聚集成位置信息簇包括：获取所述核心LBS点的密度可达的LBS点，利用所述迭代计算得到的密度可达的LBS点，更新所述核心LBS点对应的聚类簇，直至获取到所述核心LBS点的位置信息簇。需要说明的是，对于样本集合D存在样本点p和q，如果q在p的邻域内，且p为核心样本点，那么样本点q从样本点p密度直达。对于样本集合D，给定样本点p ₁，p ₂，...p _n，p＝p ₁，q＝p _n，若样本点p _i从p _i-1密度直达，那么q从p密度可达。

C、如果核心LBS点集合Ω＝φ，则算法结束，否则转入步骤D；

步骤S30：利用预设的标注规则对各所述目标区域进行标注，基于标注后的目标区域及各目标区域内的所有兴趣点的属性特征生成样本集，将所述样本集输入随机森林模型中进行训练，得到对象识别模型。

在本实施例中，获取各个目标区域内的所有兴趣点的属性特征后，利用预设的标注规则对各目标区域进行标注，将目标区域为商圈的样本标注为1，将各目标区域中不是商圈的目标区域标注为0。将标注后的目标区域作为因变量，各目标区域内的所有兴趣点的属性特征作为自变量生成样本集，将所述样本集输入随机森林模型中进行训练，得到对象识别模型。

进一步的，将所述样本集按预设比例分为训练集及验证集；

利用所述训练集的样本数据对随机森林模型进行训练，以确定模型的具体参数，利用所述验证集的样本数据来验证模型的准确率，当所述准确率达到预设阈值时结束训练，得到对象识别模型，当所述准确率未达到预设阈值时，继续增加样本数据对随机森林模型进行训练。

步骤S40：接收某个用户发出的对象识别请求，解析得到所述请求携带的待识别区域的兴趣点的属性特征，将所述待识别区域的兴趣点的属性特征输入所述对象识别模型，得到所述待识别区域的识别结果，并将所述识别结果反馈至所述用户。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括基于大数据的对象识别程序10，所述基于大数据的对象识别程序10被处理器执行时实现如下操作：

本申请之计算机可读存储介质的具体实施方式与上述基于大数据的对象识别方法的具体实施方式大致相同，在此不再赘述。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，电子装置，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于大数据的对象识别方法，应用于计算机设备，其中，所述方法包括：

获取步骤：获取预设用户群的终端设备的位置信息，对所述位置信息的数据执行数据清洗操作，从执行数据清洗后的位置信息中筛选出属于预设时间段内的位置信息；

聚类步骤：基于预设算法对所述预设时间段内的位置信息执行聚类操作，得到多个位置信息簇，将所述多个位置信息簇设置成对应的多个目标区域，分别获取各目标区域内的所有兴趣点的属性特征；

训练步骤：利用预设的标注规则对各所述目标区域进行标注，基于标注后的目标区域及各目标区域内的所有兴趣点的属性特征生成样本集，将所述样本集输入随机森林模型中进行训练，得到对象识别模型；及

识别步骤：接收某个用户发出的对象识别请求，解析得到所述请求携带的待识别区域的兴趣点的属性特征，将所述待识别区域的兴趣点的属性特征输入所述对象识别模型，得到所述待识别区域的识别结果，并将所述识别结果反馈至所述用户。
如权利要求1所述的基于大数据的对象识别方法，其中，所述预设时间段内的位置信息为LBS点，所述基于预设算法对所述预设时间段内的位置信息执行聚类操作包括：

设置各LBS点之间的密度半径，及所述密度半径内最小的LBS点的数量，基于所述密度半径及所述最小的LBS点的数量，从所有LBS点中迭代计算得到核心LBS点、密度可达的LBS点以及边缘LBS点，将得到的核心LBS点、密度可达的LBS点以及边缘LBS点聚集成位置信息簇。
如权利要求2所述的基于大数据的对象识别方法，其中，所述将得到的核心LBS点、密度可达的LBS点以及边缘LBS点聚集成位置信息簇包括：

获取所述核心LBS点的密度可达的LBS点，利用所述迭代计算得到的密度可达的LBS点，更新所述核心LBS点对应的聚类簇，直至获取到所述核心LBS点的位置信息簇。
如权利要求1所述的基于大数据的对象识别方法，其中，所述训练步骤包括：

将所述样本集按预设比例分为训练集及验证集；

利用所述训练集的样本数据对随机森林模型进行训练，以确定模型的具体参数；

利用所述验证集的样本数据来验证模型的准确率，当所述准确率达到预设阈值时结束训练，得到所述对象识别模型，当所述准确率未达到预设阈值时，继续增加样本数据对随机森林模型进行训练。
如权利要求1所述的基于大数据的对象识别方法，其中，所述对所述位置信息的数据执行数据清洗操作包括：

选取信息完整的终端设备的位置信息的数据作为清洗样本放入CART决策树的根部，并将所述清洗样本分为第一组数据和第二组数据；

利用所述第一组数据建立决策树，并以该决策树内部每个节点信息作为分割依据；

利用所述第二组数据修剪决策树，当决策树每个类只存在一个节点时，结束数据清洗。
如权利要求1所述的基于大数据的对象识别方法，其中，所述兴趣点的属性特征包括兴趣点类型和兴趣点数量。
如权利要求1所述的基于大数据的对象识别方法，其中，所述识别结果包括待识别的区域为每种分类结果的概率值。
一种基于大数据的对象识别装置，其中，所述装置包括：

获取模块：用于获取预设用户群的终端设备的位置信息，对所述位置信息的数据执行数据清洗操作，从执行数据清洗后的位置信息中筛选出属于预设时间段内的位置信息；

聚类模块：用于基于预设算法对所述预设时间段内的位置信息执行聚类操作，得到多个位置信息簇，将所述多个位置信息簇设置成对应的多个目标区域，分别获取各目标区域内的所有兴趣点的属性特征；

训练模块：用于利用预设的标注规则对各所述目标区域进行标注，基于标注后的目标区域及各目标区域内的所有兴趣点的属性特征生成样本集，将所述样本集输入随机森林模型中进行训练，得到对象识别模型；及

识别模块：用于接收某个用户发出的对象识别请求，解析得到所述请求携带的待识别区域的兴趣点的属性特征，将所述待识别区域的兴趣点的属性特征输入所述对象识别模型，得到所述待识别区域的识别结果，并将所述识别结果反馈至所述用户。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如下步骤：

获取步骤：获取预设用户群的终端设备的位置信息，对所述位置信息的数据执行数据清洗操作，从执行数据清洗后的位置信息中筛选出属于预设时间段内的位置信息；

聚类步骤：基于预设算法对所述预设时间段内的位置信息执行聚类操作，得到多个位置信息簇，将所述多个位置信息簇设置成对应的多个目标区域，分别获取各目标区域内的所有兴趣点的属性特征；

训练步骤：利用预设的标注规则对各所述目标区域进行标注，基于标注后的目标区域及各目标区域内的所有兴趣点的属性特征生成样本集，将所述样本集输入随机森林模型中进行训练，得到对象识别模型；及

识别步骤：接收某个用户发出的对象识别请求，解析得到所述请求携带的待识别区域的兴趣点的属性特征，将所述待识别区域的兴趣点的属性特征输入所述对象识别模型，得到所述待识别区域的识别结果，并将所述识别结果反馈至所述用户。
如权利要求9所述的计算机设备，其中，所述预设时间段内的位置信息为LBS点，所述基于预设算法对所述预设时间段内的位置信息执行聚类操作包括：

设置各LBS点之间的密度半径，及所述密度半径内最小的LBS点的数量，基于所述密度半径及所述最小的LBS点的数量，从所有LBS点中迭代计算得到核心LBS点、密度可达的LBS点以及边缘LBS点，将得到的核心LBS点、密度可达的LBS点以及边缘LBS点聚集成位置信息簇。
如权利要求10所述的计算机设备，其中，所述将得到的核心LBS点、密度可达的LBS点以及边缘LBS点聚集成位置信息簇包括：

获取所述核心LBS点的密度可达的LBS点，利用所述迭代计算得到的密度可达的LBS点，更新所述核心LBS点对应的聚类簇，直至获取到所述核心LBS点的位置信息簇。
如权利要求9所述的计算机设备，其中，所述训练步骤包括：

将所述样本集按预设比例分为训练集及验证集；

利用所述训练集的样本数据对随机森林模型进行训练，以确定模型的具体参数；

利用所述验证集的样本数据来验证模型的准确率，当所述准确率达到预设阈值时结束训练，得到所述对象识别模型，当所述准确率未达到预设阈值时，继续增加样本数据对随机森林模型进行训练。
如权利要求9所述的计算机设备，其中，所述对所述位置信息的数据执行数据清洗操作包括：

选取信息完整的终端设备的位置信息的数据作为清洗样本放入CART决策树的根部，并将所述清洗样本分为第一组数据和第二组数据；

利用所述第一组数据建立决策树，并以该决策树内部每个节点信息作为分割依据；

利用所述第二组数据修剪决策树，当决策树每个类只存在一个节点时，结束数据清洗。
如权利要求9所述的计算机设备，其中，所述兴趣点的属性特征包括兴趣点类型和兴趣点数量。
如权利要求9所述的计算机设备，其中，所述识别结果包括待识别的区域为每种分类结果的概率值。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如下步骤：

获取步骤：获取预设用户群的终端设备的位置信息，对所述位置信息的数据执行数据清洗操作，从执行数据清洗后的位置信息中筛选出属于预设时间段内的位置信息；

聚类步骤：基于预设算法对所述预设时间段内的位置信息执行聚类操作，得到多个位置信息簇，将所述多个位置信息簇设置成对应的多个目标区域，分别获取各目标区域内的所有兴趣点的属性特征；

训练步骤：利用预设的标注规则对各所述目标区域进行标注，基于标注后的目标区域及各目标区域内的所有兴趣点的属性特征生成样本集，将所述样本集输入随机森林模型中进行训练，得到对象识别模型；及

识别步骤：接收某个用户发出的对象识别请求，解析得到所述请求携带的待识别区域的兴趣点的属性特征，将所述待识别区域的兴趣点的属性特征输入所述对象识别模型，得到所述待识别区域的识别结果，并将所述识别结果反馈至所述用户。
如权利要求16所述的计算机可读存储介质，其中，所述预设时间段内的位置信息为LBS点，所述基于预设算法对所述预设时间段内的位置信息执行聚类操作包括：

设置各LBS点之间的密度半径，及所述密度半径内最小的LBS点的数量，基于所述密度半径及所述最小的LBS点的数量，从所有LBS点中迭代计算得到核心LBS点、密度可达的LBS点以及边缘LBS点，将得到的核心LBS点、密度可达的LBS点以及边缘LBS点聚集成位置信息簇。
如权利要求17所述的计算机可读存储介质，其中，所述将得到的核心LBS点、密度可达的LBS点以及边缘LBS点聚集成位置信息簇包括：

获取所述核心LBS点的密度可达的LBS点，利用所述迭代计算得到的密度可达的LBS点，更新所述核心LBS点对应的聚类簇，直至获取到所述核心LBS点的位置信息簇。
如权利要求16所述的计算机可读存储介质，其中，所述训练步骤包括：

将所述样本集按预设比例分为训练集及验证集；

利用所述训练集的样本数据对随机森林模型进行训练，以确定模型的具体参数；

利用所述验证集的样本数据来验证模型的准确率，当所述准确率达到预设阈值时结束训练，得到所述对象识别模型，当所述准确率未达到预设阈值时，继续增加样本数据对随机森林模型进行训练。
如权利要求16所述的计算机可读存储介质，其中，所述对所述位置信息的数据执行数据清洗操作包括：

选取信息完整的终端设备的位置信息的数据作为清洗样本放入CART决策树的根部，并将所述清洗样本分为第一组数据和第二组数据；

利用所述第一组数据建立决策树，并以该决策树内部每个节点信息作为分割依据；

利用所述第二组数据修剪决策树，当决策树每个类只存在一个节点时，结束数据清洗。