WO2021043087A1

WO2021043087A1 - 文字布局方法、装置、电子设备及计算机可读存储介质

Info

Publication number: WO2021043087A1
Application number: PCT/CN2020/112335
Authority: WO
Inventors: 郑子欧; 汪伟
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-02
Filing date: 2020-08-30
Publication date: 2021-03-11
Also published as: CN110704687A; CN110704687B

Abstract

一种文字布局方法、装置、电子设备及计算机可读存储介质，实现了文本中文字的精确布局。所述方法包括：获取半结构化的文本集，对半结构化的文本集进行预处理操作，得到数值向量文本集，以及将所述半结构化的文本集转换为文本图像集，对所述文本图像集进行预处理操作，得到文本布局特征集；利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集；根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集中的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局。

Description

文字布局方法、装置、电子设备及计算机可读存储介质

本申请要求于2019年9月2日提交中国专利局、申请号为201910829790.7，发明名称为“文字布局方法、装置及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种半结构化文本和用户行为协同的文字布局方法、装置、电子设备及计算机可读存储介质。

背景技术

文本分类是特殊的数据挖掘技术，主要表现在文本信息的无结构化、主观性、高维度等特点。文本信息的无结构化导致文本挖掘很难从文本数据中抽取出有效的、易于理解的分类规则；发明人意识到文本信息的高纬度导致常见分类算法的计算复杂度过高，甚至于失去了其实用性；文本分类的主观性导致很难找到一个完全合适的文本表示方法来准确的表示文本。现有半结构化文本转文字的工作有很多，但提取半结构化文本中的布局一向是难点。现有类似的已经有对半结构化文本规整表格进行提取，但对于多分栏、一栏标题和一栏内容这两者很难进行区分。特别是多分栏的半结构化文本，常会使一侧的内容插入另一侧，影响后续处理。

发明内容

本申请提供的一种文字布局方法，包括：

获取半结构化的文本集，对所述半结构化的文本集进行预处理操作，得到数值向量文本集；

将所述半结构化的文本集转换为文本图像集，对所述文本图像集进行对比度增强处理和阈值化操作，得到目标文本图像集；

通过边缘检测算法对所述目标文本图像集进行检测，得到文本布局特征集；

利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集；

根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集中的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局。

一种文字布局装置，包括：

文本预处理模块：用于获取半结构化的文本集，对所述半结构化的文本集进行预处理操作，得到数值向量文本集；

特征提取模块：用于利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集；

文本分类模块：用于根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集中的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局。

一种电子设备，包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的文字布局程序，所述文字布局程序被所述处理器执行时实现如下步骤：

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有文字布局程序，所述文字布局程序可被一个或者多个处理器执行，以实现如下步骤：

附图说明

图1为本申请一实施例提供的文字布局方法的流程示意图；

图2为本申请一实施例提供的电子设备的内部结构示意图；

图3为本申请一实施例提供的文字布局装置的模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种文字布局方法。参照图1所示，为本申请一实施例提供的文字布局方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，文字布局方法包括：

S1、获取半结构化的文本集，对所述半结构化的文本集进行预处理操作，得到数值向量文本集。

本申请较佳实施例中，所述半结构化的文本是由若干个具有独立语义的、离散的模块内容模块组成,且每个模块内容包含且仅包含一个方面的内容,即可以用一个名词或名词短语进行归纳、每个独立语义模块之间有明显的非标点分割符号，所述非标点分割符号可以为空格、回车、表格、编号、特殊格式字符等等。优选地，本申请较佳实施例所述半结构化的文本可以为PDF文本。其中，所述PDF文本集来源通过以下两种方式获取：方式一、从各大招聘网站搜索简历获取；方式二、通过从语料库中搜索关键字获取。

进一步地，预处理操作包括去重、去停用词、分词以及权重计算。详细地，所述预处理操作具体实施步骤为：

a.去重：

当所述半结构化的文本集中存在重复的文本时，会降低文本分类的精度，因此，本申请较佳实施例首先对所述文本数据集执行去重操作。

优选地，本申请通过欧式距离公式对所述文本数据集进行去重操作，所述欧式距离公式如下：

其中，d表示所述文本数据之间的距离，w _1j和w _2j分别为任意2个文本数据，当两个文本数据之间的距离小于预设距离阈值，则删除其中一个文本数据。优选地，本申请预设所述阈值为0.1。

b.去停用词：

所述停用词是文本功能词中没有什么实际意义的词，对文本的分类没有什么影响，但是出现频率高，于是，会降低文本分类，其中所述停用词包括常用的代词、介词等。例如，所述停用词可以为“的”、“在”、“不过”等等。本申请通过预先构建好的停用词表和去重后的所述文本集中词语进行一一匹配，其中，当去重后的所述文本集中词语与所述停用词表匹配成功时，将所述匹配成功的词语过滤，当去重后的所述文本集中词语与所述停用词表匹配不成功时，将所述匹配不成功的词语保留。其中，所述预先构建好的停用词表通过网页下载得到。

c.分词：

本申请通过预设的策略将去停用词后的所述文本集中的词语与预设的词典中的词条进行匹配，得到去停用词后的所述文本集的特征词，并将所述特征词用空格符号隔开。优选地，本申请较佳实施例中，所述预设的词典包含统计词典和前缀词典。所述统计词典是由统计方法得到的所有可能的分词构造的词典。所述统计词典统计相邻字在语料库中贡献的频度并计算互信息，当所述相邻字互相出现信息大于预设的阈值时，即认定为构成词，所述阈值为0.6。所述前缀词典包括所述统计词典中每一个分词的前缀，例如所述统计词典中的词“北京大学”的前缀分别是“北”、“北京”、“北京大”；词“大学”的前缀是“大”等。本申请利用所述统计词典得到去停用词后的所述文本集的可能的分词结果，并通过所述前缀词典根据分词的切分位置，得到最终的切分形式，从而得到去停用词后的所述文本集的特征词。

d.权重计算包括：

本申请通过构建依存关系图计算所述特征词之间的关联强度，通过所述关联强度计算出所述特征词的重要度得分，得到所述特征词的权重。详细地，计算所述特征词中的任意两个特征词W _i和W _j的依存关联度：

其中，len(W _i,W _j)表示特征词W _i和W _j之间的依存路径长度，b是超参数；

计算所述特征词W _i和W _j的引力：

其中，tfidf(W)是词语W的TF-IDF值，TF表示词频，IDF表示逆文档频率指数，d是特征词W _i和W _j的词向量之间的欧式距离；

得到特征词W _i和W _j之间的关联强度为：

weight(W _i,W _j)＝Dep(W _i,W _j)*f _grav(W _i,W _j)

建立无向图G＝(V,E)，其中V是顶点的集合，E是边的集合；

计算出特征词W _i的重要度得分：

其中，

是与顶点W _i有关的集合，η为阻尼系数；

根据所述特征词重要度得分，得到所述特征词权重，从而将所述特征词表示成数值向量形式，得到所述数值向量文本集。

S2、将所述半结构化的文本集转换为文本图像集，对所述文本图像集进行对比度增强处理和阈值化操作，得到目标文本图像集。

本申请较佳实施例通过对所述文本集进行扫描，得到所述文本图像集，从而对所述文本集中文本布局进行分析。

进一步地，所述对比度指的是成像系统中亮度最大值与最小值之间的对比，其中，对比度低会使图像处理难度增大。本申请较佳实施例中采用的是对比度拉伸方法，利用提高灰度级动态范围的方式，达到图像对比度增强的目的。所述对比度拉伸也叫作灰度拉伸，是目前常用的灰度变换方式。详细地，本申请根据所述对比度拉伸方法中的分段线性变换函数对特定区域进行灰度拉伸，进一步提高输出图像的对比度。当进行对比度拉伸时，本质上是实现灰度值变换。本申请通过线性拉伸实现灰度值变换，所述线性拉伸指的是输入与输出的灰度值之间为线性关系的像素级运算，灰度变换公式如下所示：

D _b＝f(D _a)＝a*D _a+b

其中a为线性斜率，b为在Y轴上的截距。当a>1时，此时输出的图像对比度相比原图像是增强的。当a<1时，此时输出的图像对比度相比原图像是削弱的，其中D _a代表输入图像灰度值，D _b代表输出图像灰度值。

进一步地，所述图像阈值化处理通过OTSU算法将对比度增强后的所述灰度图像进行二值化的高效算法，以得到二值化图像。本申请较佳实施例预设灰度t为灰度图像的前景与背景的分割阈值，并假设前景点数占图像比例为w ₀，平均灰度为u ₀；背景点数占图像比例为w ₁，平均灰度为u ₁，则灰度图像的总平均灰度为：

u＝w ₀*u ₀+w ₁*u ₁，

所述灰度图像的前景和背景图象的方差为：

g＝w ₀*(u ₀-u)*(u ₀-u)+w ₁*(u ₁-u)*(u ₁-u)＝w ₀*w ₁*(u ₀-u ₁)*(u ₀-u ₁),

其中，当方差g最大时，则此时前景和背景差异最大，此时的灰度t为最佳阈值，并将对比度增强后的所述灰度图像中大于所述灰度t的灰度值设置为255，小于所述灰度t的灰度值设置为0，得到对比度增强后的所述灰度图像的二值化图像，其中，所述二值化图像即所述目标文本图像，从而得到所述目标文本图像集。

S3、通过边缘检测算法对所述目标文本图像集进行检测，得到文本布局特征集。

本申请较佳实施例中，所述边缘检测的基本思想认为边缘点是图像中像素灰度有阶跃变化或者屋顶变化的那些像素点，即灰度导数较大或极大的地方。优选地，本申请采用Canny边缘检测算法对所述目标文本图像集进行加测。详细地，具体检测步骤为：通过高斯滤波器对所述目标文本图像集的图像进行平滑滤波；利用一阶偏导的有限差分计算平滑滤波后的所述图像的梯度幅度和方向，并将所述梯度非局部极大值点的幅度置为零，得到所述图像细化的边缘；通过双阙值法将所述细化的边缘进行连接，得到所述目标文本图像集的文本布局特征集。

进一步地，本申请通过预设两个阙值T ₁和T ₂(T ₁<T ₂)，得到两个阙值边缘图像N ₁[i,j]和N ₂[i,j]。所述双阙值法在所述N ₂[i,j]中是把所述细化的边缘连接成完整的轮廓，因此当到达边缘的间断点时，就在所述N ₁[i,j]的邻域内寻找可以连接的边缘，直到N ₂[i,j]中的所有间断点连接起来为止，从而得到所述文本布局特征集。

S4、利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集。

本申请较佳实施例中，搭建包括BP神经网络的特征提取模型，其中，所述BP神经网络包含输入层、隐藏层以及输出层，所述BP神经网络是一种多层前馈神经网络，该网络的主要特点是信号前向传递，误差反向传播，在前向传递中，输入信号从输入层经过隐藏层逐层处理，直至输出层。每一层的神经元状态只影响下一层神经元状态。如果输出层得不到期望输出，则转入反向传播，根据预测误差调整网络权值和阈值，从而使网络预测输出不断逼近期望输出。所述输入层是整个神经网络唯一数据输入入口，输入层的神经元节点数目和文本的数值向量维数相同，每一个神经元的值对应数值向量的每个项的值。所述隐藏层是对主要用来对输入层输入的数据进行非线性化处理，以激励函数为基础对输入的数据进行非线性拟合可以有效保证模型的预测能力。所述输出层在隐藏层之后，是整个模型的唯一输出。输出层的神经元节点数目和文本的类别数目相同。

进一步地，本申请较佳实施例中，所述输入层接收所述数值向量文本集和所述文本布局特征集；所述隐藏层对输入层接收的所述数值向量文本集和所述文本布局特征集执行如下操作：

其中，O _q表示隐藏层第q个单元的输出值，i表示所述输入层的输入单元，X _i表示所述输入层的输入单元i的参数值，q表示所述隐藏层单元，

表示输入层单元i与隐层单元q之间的连接权；

所述输出层接收所述隐藏层的输出值，并执行如下操作：

其中，y _j表示所述输出层第j单元的输出值，

表示所述隐藏层单元q与所述输出层单元j之间的连接权，δ _j为阙值，j＝1,2,…,m；

预设特征X _i以及特征X _k为所述数值向量文本集或所述文本布局特征集中任意的两个特征输出值。

根据复合函数求偏导数的链式法则求出所述特征X _i的灵敏度δ _ij和所述特征X _k的灵敏度δ _kj之差，完成对特征X _i和特征X _k的特征选择，从而得到所述文本语义特征集和文本分布特征。其中，所述特征X _i的灵敏度δ _ij和特征X _k的灵敏度δ _kj之差计算公式为：

其中，

当

则得到δ _ij>δ _kj，即特征X _i对第j类模式的分类能力比特征X _k的强。于是，本申请利用所述搭建包括BP神经网络的特征提取模型，分别对上述数值向量文本集和上述文本布局特征集进行特征选择，得到所述文本语义特征集和所述文本分布特征集。

S5、根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局。

所述随机森林算法是利用袋装算法的有放回抽样，从原始样本中抽取多个样本子集，并通过所述多个样本子集对多个决策树模型训练，在训练过程中采用借鉴随机特征子空间方法，在特征集中抽取部分特征进行决策树的分裂，最后集成多个决策树称为一个集成分类器，所述集成分类器称为随机森林模型。所述随机森林算法流程分为三部分：子样本集的生成、决策树的构建以及投票产生结果。

进一步地，本申请较佳实施例中，原始样本为上述PDF文本集，根据所述PDF文本页数不同，对其进行划分，形成多个子样本，并分别将所述文本语义特征和文本分布特征作为决策树的节点，通过投票，产生相应结果。优选地，本申请通过所述随机森林模型对所述PDF文本中文字布局是基于多分栏的PDF文本还是基于标题内容的PDF文本进行分类。其中，所述分类具体实施步骤为：通过交叉认证对所述PDF文本集的文本进行划分，得到子样本集；将所述文本的文本语义特征和所述文本分布特征作为所述随机森林模型的决策树子节点；根据所述决策树的子节点对所述子样本集进行分类，得到所述子样本的分类结果，将所述子样本的分类结果进行累加，并将累加值最大的子样本作为所述文本的分类结果，从而完成所述文本的文字布局，即得到所述PDF文本文字布局是基于多分栏的PDF文本还是基于标题内容的PDF文本。

发明还提供一种电子设备。参照图2所示，为本申请一实施例提供的电子设备的内部结构示意图。

在本实施例中，所述电子设备1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该电子设备1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的硬盘。存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如文字布局程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit, CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行文字布局程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在所述电子设备1与其他电子设备之间建立通信连接。

可选地，所述电子设备1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及文字布局程序01的电子设备1，本领域技术人员可以理解的是，图1示出的结构并不构成对电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的电子设备1实施例中，存储器11中存储有文字布局程序01；处理器12执行存储器11中存储的文字布局程序01时实现如下步骤：

步骤一、获取半结构化的文本集，对所述半结构化的文本集进行预处理操作，得到数值向量文本集。

a.去重：

b.去停用词：

c.分词：

d.权重计算包括：

计算所述特征词W _i和W _j的引力：

得到特征词W _i和W _j之间的关联强度为：

weight(W _i,W _j)＝Dep(W _i,W _j)*f _grav(W _i,W _j)

建立无向图G＝(V,E)，其中V是顶点的集合，E是边的集合；

计算出特征词W _i的重要度得分：

其中，

是与顶点W _i有关的集合，η为阻尼系数；

步骤二、将所述半结构化的文本集转换为文本图像集，对所述文本图像集进行对比度增强处理和阈值化操作，得到目标文本图像集。

D _b＝f(D _a)＝a*D _a+b

u＝w ₀*u ₀+w ₁*u ₁，

所述灰度图像的前景和背景图象的方差为：

步骤三、通过边缘检测算法对所述目标文本图像集进行检测，得到文本布局特征集。

步骤四、利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集。

表示输入层单元i与隐层单元q之间的连接权；

所述输出层接收所述隐藏层的输出值，并执行如下操作：

其中，y _j表示所述输出层第j单元的输出值，

其中，

当

步骤五、根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局。

参照图3所示，为本申请的文字布局装置02的模块示意图，该实施例中，所述文字布局装置02可以被分割为文本预处理模块10、特征提取模块20、文本分类模块30示例性地：

所述文本预处理模块10用于：获取半结构化的文本集，对所述半结构化的文本集进行预处理操作，得到数值向量文本集；将所述半结构化的文本集转换为文本图像集，对所述文本图像集进行对比度增强处理和阈值化操作，得到目标文本图像集，通过边缘检测算法对所述目标文本图像集进行检测，得到文本布局特征集。

所述特征提取模块20用于：利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集。

所述文本分类模块30用于：根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集中的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局。

上述文本预处理模块10、特征提取模块20、文本分类模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读存储介质上存储有文字布局程序，所述文字布局程序可被一个或多个处理器执行，以实现如下操作：

本申请计算机可读存储介质具体实施方式与上述电子设备和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种文字布局方法，其中，所述方法包括：

获取半结构化的文本集，对所述半结构化的文本集进行预处理操作，得到数值向量文本集；

将所述半结构化的文本集转换为文本图像集，对所述文本图像集进行对比度增强处理和阈值化操作，得到目标文本图像集；

通过边缘检测算法对所述目标文本图像集进行检测，得到文本布局特征集；

利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集；

根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集中的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局。
如权利要求1所述的文字布局方法，其中，所述预处理操作包括去重、去停用词、分词以及权重计算；

其中，所述去重包括：

利用欧式距离公式对所述文本集进行去重操作，所述欧式距离公式如下：

其中，d表示所述文本数据之间的距离，w _1j和w _2j分别为任意2个文档数据；

所述去停用词包括：

通过预先构建好的停用词表和去重后的所述文本集中词语进行一一匹配，其中，当去重后的所述文本集中词语与所述停用词表匹配成功时，将所述匹配成功的词语过滤，当去重后的所述文本集中词语与所述停用词表匹配不成功时，将所述匹配不成功的词语保留；

所述分词包括：

通过预设的策略将去停用词后的所述文本集中的词语与预设的词典中的词条进行匹配，得到去停用词后的所述文本集的特征词，并将所述特征词用空格符号隔开；及

所述权重计算包括：

通过构建依存关系图计算所述特征词之间的关联强度，并通过所述关联强度计算出所述特征词的重要度得分，得到所述特征词的权重。
如权利要求1所述的文字布局方法，其中，所述通过边缘检测算法对所述目标文本图像集进行检测，得到所述文本布局特征集，包括：

通过高斯滤波器对所述目标文本图像集的图像进行平滑滤波；

利用一阶偏导的有限差分计算平滑滤波后的所述图像的梯度幅度和方向，并将所述梯度非局部极大值点的幅度置为零，得到所述图像细化的边缘；

通过双阙值法将所述细化的边缘进行连接，得到所述文本布局特征集。
如权利要求1所述的文字布局方法，其中，所述利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集，包括：

构建包括BP神经网络的特征提取模型，其中，所述BP神经网络包含输入层、隐藏层以及输出层；其中：

所述输入层接收所述数值向量文本集和所述文本布局特征集；

所述隐藏层对输入层接收的所述数值向量文本集和所述文本布局特征集执行如下操作：

其中，O _q表示隐藏层第q个单元的输出值，i表示所述输入层的输入单元，X _i表示所述输入层的输入单元i的参数值，q表示所述隐藏层单元，
表示输入层单元i与隐层单元q之间的连接权；

所述输出层接收所述隐藏层的输出值，并执行如下操作：

其中，y _j表示所述输出层第j单元的输出值，
表示所述隐藏层单元q与所述输出层单元j之间的连接权，δ _j为阙值，j＝1,2,…,m；

预设特征X _i以及特征X _k为所述数值向量文本集或所述文本布局特征集中任意的两个特征输出值。

根据复合函数求偏导数的链式法则求出所述特征X _i的灵敏度δ _ij和所述特征X _k的灵敏度δ _kj之差，完成对特征X _i和特征X _k的特征选择，从而得到所述文本语义特征集和文本分布特征。
如权利要求1至4中任一项所述的文字布局方法，其中，所述根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集中的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局，包括：

通过交叉认证对所述半结构化的文本集中的文本进行划分，得到子样本集；

将所述文本中的文本语义特征和所述文本分布特征作为所述随机森林模型的决策树子节点；

根据所述决策树的子节点对所述子样本集进行分类，得到所述子样本的分类结果，将所述子样本的分类结果进行累加，并将累加值最大的子样本作为所述文本的分类结果，从而完成所述文本的文字布局。
如权利要求1所述的文字布局方法，其中，所述半结构化文本集由若干个具有独立语义的、离散的模块内容模块组成。
如权利要求2所述的文字布局方法，其中，所述预设的词典包含统计词典和前缀词典；

所述分词进一步包括：利用所述统计词典得到去停用词后的所述文本集的可能的分词结果，并通过所述前缀词典根据分词的切分位置，得到最终的切分形式，从而得到去停用词后的所述文本集的特征词。
一种文字布局装置，其中，该装置包括：

文本预处理模块：用于获取半结构化的文本集，对所述半结构化的文本集进行预处理操作，得到数值向量文本集；

将所述半结构化的文本集转换为文本图像集，对所述文本图像集进行对比度增强处理和阈值化操作，得到目标文本图像集；

通过边缘检测算法对所述目标文本图像集进行检测，得到文本布局特征集；

特征提取模块：用于利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集；

文本分类模块：用于根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集中的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局。
一种电子设备，其中，所述电子设备包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的文字布局程序，所述文字布局程序被所述处理器执行时实现如下步骤：

获取半结构化的文本集，对所述半结构化的文本集进行预处理操作，得到数值向量文本集；

将所述半结构化的文本集转换为文本图像集，对所述文本图像集进行对比度增强处理和阈值化操作，得到目标文本图像集；

通过边缘检测算法对所述目标文本图像集进行检测，得到文本布局特征集；

利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集；

根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集中的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局。
如权利要求9所述的电子设备，其中，所述预处理操作包括去重、去停用词、分词以及权重计算；

其中，所述去重包括：

利用欧式距离公式对所述文本集进行去重操作，所述欧式距离公式如下：

其中，d表示所述文本数据之间的距离，w _1j和w _2j分别为任意2个文档数据；

所述去停用词包括：

通过预先构建好的停用词表和去重后的所述文本集中词语进行一一匹配，其中，当去重后的所述文本集中词语与所述停用词表匹配成功时，将所述匹配成功的词语过滤，当去重后的所述文本集中词语与所述停用词表匹配不成功时，将所述匹配不成功的词语保留；

所述分词包括：

通过预设的策略将去停用词后的所述文本集中的词语与预设的词典中的词条进行匹配，得到去停用词后的所述文本集的特征词，并将所述特征词用空格符号隔开；及

所述权重计算包括：

通过构建依存关系图计算所述特征词之间的关联强度，并通过所述关联强度计算出所述特征词的重要度得分，得到所述特征词的权重。
如权利要求9所述的电子设备，其中，所述通过边缘检测算法对所述目标文本图像集进行检测，得到所述文本布局特征集，包括：

通过高斯滤波器对所述目标文本图像集的图像进行平滑滤波；

利用一阶偏导的有限差分计算平滑滤波后的所述图像的梯度幅度和方向，并将所述梯度非局部极大值点的幅度置为零，得到所述图像细化的边缘；

通过双阙值法将所述细化的边缘进行连接，得到所述文本布局特征集。
如权利要求9所述的电子设备，其中，所述利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集，包括：

构建包括BP神经网络的特征提取模型，其中，所述BP神经网络包含输入层、隐藏层以及输出层；其中：

所述输入层接收所述数值向量文本集和所述文本布局特征集；

所述隐藏层对输入层接收的所述数值向量文本集和所述文本布局特征集执行如下操作：

其中，O _q表示隐藏层第q个单元的输出值，i表示所述输入层的输入单元，X _i表示所述输入层的输入单元i的参数值，q表示所述隐藏层单元，
表示输入层单元i与隐层单元q之间的连接权；

所述输出层接收所述隐藏层的输出值，并执行如下操作：

其中，y _j表示所述输出层第j单元的输出值，
表示所述隐藏层单元q与所述输出层单元j之间的连接权，δ _j为阙值，j＝1,2,…,m；

预设特征X _i以及特征X _k为所述数值向量文本集或所述文本布局特征集中任意的两个特征输出值。

根据复合函数求偏导数的链式法则求出所述特征X _i的灵敏度δ _ij和所述特征X _k的灵敏度δ _kj之差，完成对特征X _i和特征X _k的特征选择，从而得到所述文本语义特征集和文本分布特征。
如权利要求9至12任一项所述的电子设备，其中，所述根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集中的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局，包括：

通过交叉认证对所述半结构化的文本集中的文本进行划分，得到子样本集；

将所述文本中的文本语义特征和所述文本分布特征作为所述随机森林模型的决策树子节点；

根据所述决策树的子节点对所述子样本集进行分类，得到所述子样本的分类结果，将所述子样本的分类结果进行累加，并将累加值最大的子样本作为所述文本的分类结果，从而完成所述文本的文字布局。
如权利要求9所述的电子设备，其中，所述半结构化文本集由若干个具有独立语义的、离散的模块内容模块组成。
如权利要求10所述的电子设备，其中，所述预设的词典包含统计词典和前缀词典；

所述分词进一步包括：利用所述统计词典得到去停用词后的所述文本集的可能的分词结果，并通过所述前缀词典根据分词的切分位置，得到最终的切分形式，从而得到去停用词后的所述文本集的特征词。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有文字布局程序，所述文字布局程序可被一个或者多个处理器执行，以实现如下步骤：

获取半结构化的文本集，对所述半结构化的文本集进行预处理操作，得到数值向量文本集；

将所述半结构化的文本集转换为文本图像集，对所述文本图像集进行对比度增强处理和阈值化操作，得到目标文本图像集；

通过边缘检测算法对所述目标文本图像集进行检测，得到文本布局特征集；

利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集；

根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集中的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局。
如权利要求16所述的计算机可读存储介质，其中，所述预处理操作包括去重、去停用词、分词以及权重计算；

其中，所述去重包括：

利用欧式距离公式对所述文本集进行去重操作，所述欧式距离公式如下：

其中，d表示所述文本数据之间的距离，w _1j和w _2j分别为任意2个文档数据；

所述去停用词包括：

通过预先构建好的停用词表和去重后的所述文本集中词语进行一一匹配，其中，当去重后的所述文本集中词语与所述停用词表匹配成功时，将所述匹配成功的词语过滤，当去重后的所述文本集中词语与所述停用词表匹配不成功时，将所述匹配不成功的词语保留；

所述分词包括：

通过预设的策略将去停用词后的所述文本集中的词语与预设的词典中的词条进行匹配，得到去停用词后的所述文本集的特征词，并将所述特征词用空格符号隔开；及

所述权重计算包括：

通过构建依存关系图计算所述特征词之间的关联强度，并通过所述关联强度计算出所述特征词的重要度得分，得到所述特征词的权重。
如权利要求16所述的计算机可读存储介质，其中，所述通过边缘检测算法对所述目标文本图像集进行检测，得到所述文本布局特征集，包括：

通过高斯滤波器对所述目标文本图像集的图像进行平滑滤波；

利用一阶偏导的有限差分计算平滑滤波后的所述图像的梯度幅度和方向，并将所述梯度非局部极大值点的幅度置为零，得到所述图像细化的边缘；

通过双阙值法将所述细化的边缘进行连接，得到所述文本布局特征集。
如权利要求16所述的计算机可读存储介质，其中，所述利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择，分别得到文本语义特征集和文本分布特征集，包括：

构建包括BP神经网络的特征提取模型，其中，所述BP神经网络包含输入层、隐藏层以及输出层；其中：

所述输入层接收所述数值向量文本集和所述文本布局特征集；

所述隐藏层对输入层接收的所述数值向量文本集和所述文本布局特征集执行如下操作：

其中，O _q表示隐藏层第q个单元的输出值，i表示所述输入层的输入单元， X _i表示所述输入层的输入单元i的参数值，q表示所述隐藏层单元，
表示输入层单元i与隐层单元q之间的连接权；

所述输出层接收所述隐藏层的输出值，并执行如下操作：

其中，y _j表示所述输出层第j单元的输出值，
表示所述隐藏层单元q与所述输出层单元j之间的连接权，δ _j为阙值，j＝1,2,…,m；

预设特征X _i以及特征X _k为所述数值向量文本集或所述文本布局特征集中任意的两个特征输出值。

根据复合函数求偏导数的链式法则求出所述特征X _i的灵敏度δ _ij和所述特征X _k的灵敏度δ _kj之差，完成对特征X _i和特征X _k的特征选择，从而得到所述文本语义特征集和文本分布特征。
如权利要求16至19中任一项所述的计算机可读存储介质，其中，所述根据所述文本语义特征集和所述文本分布特征集，利用随机森林模型对所述半结构化的文本集中的文本进行分类，得到所述文本的分类结果，从而完成所述文本的文字布局，包括：

通过交叉认证对所述半结构化的文本集中的文本进行划分，得到子样本集；

将所述文本中的文本语义特征和所述文本分布特征作为所述随机森林模型的决策树子节点；

根据所述决策树的子节点对所述子样本集进行分类，得到所述子样本的分类结果，将所述子样本的分类结果进行累加，并将累加值最大的子样本作为所述文本的分类结果，从而完成所述文本的文字布局。