WO2020233332A1

WO2020233332A1 - 文本结构化信息提取方法、服务器及存储介质

Info

Publication number: WO2020233332A1
Application number: PCT/CN2020/086292
Authority: WO
Inventors: 韦峰; 徐国强; 邱寒
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2019-05-20
Filing date: 2020-04-23
Publication date: 2020-11-26
Also published as: CN110287785A

Abstract

本申请涉及数据处理技术，提供了一种文本结构化信息提取方法、服务器及存储介质。该方法首先获取待提取结构化信息的原始文档，将原始文档输入训练好的第一分割模型，得到原始文档的多个一级标签，根据第一预设规则获取各一级标签对应的一级文本内容。之后，将各一级文本内容输入训练好的第二分割模型，得到多个二级标签，再根据第二预设规则获取各二级标签对应的二级文本内容，将得到的各标签及文本内容作为逻辑页存储至预设数据库，并生成相应的文件反馈至客户端。利用本申请，通过利用分割模型确定原始文档中的各一级标签及二级标签，然后根据标签内容提取出结构信息，自动实现文档的结构化信息的提取，便捷高效

Description

文本结构化信息提取方法、服务器及存储介质

本申请要求于2019年5月20日提交中国专利局、申请号为201910419888.5，发明名称为“文本结构化信息提取方法、服务器及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，尤其涉及一种文本结构化信息提取方法、服务器及存储介质。

背景技术

便携式文档格式(Portable Document Format,PDF)用于与应用程序、操作系统、硬件无关的方式进行文件交换，属于版式文档，会忠实地再现原稿的每一个字符、颜色以及图像，但是PDF的存储是非结构化的数据存储格式，没有记录文档的逻辑结构、表格等逻辑元素。

发明人意识到，目前，提取PDF文档的信息，通常采用光学字符识别(Optical Character Recognition，OCR)技术，但采用OCR技术所提取出来的PDF文档的信息，是以矢量的方式进行的渲染，每个字符之间是没有逻辑关系的，提取出来的字符形成的文本仅是x、y、z三个坐标加上旋转量来渲染的矩阵，这样的文本存在格式和位置随意性大的问题，而且无法便利地得到结构化信息，这是本领域技术人员亟待解决的问题。

发明内容

鉴于以上内容，本申请提供一种文本结构化信息提取方法、服务器及存储介质，其目的在于解决提取文档信息时，存在格式和文字位置随意性大，且无法便利地得到结构化信息的问题。

为实现上述目的，本申请提供一种文本结构化信息提取方法，该方法包括：

接收所述客户端发出的提取文本结构化信息的请求，获取待提取结构化信息的原始文档；

将所述原始文档输入预先训练好的第一分割模型，得到所述原始文档的多个一级标签，再根据第一预设规则从所述原始文档获取各所述一级标签对应的一级文本内容；

将各所述一级文本内容输入预先训练好的第二分割模型，得到各所述一级文本内容对应的二级标签，再根据第二预设规则从所述原始文档获取各所述二级标签对应的二级文本内容；及

将各一级标签、二级标签、一级文本内容及二级文本内容作为逻辑页存储至预设数据库，并将所述逻辑页按预设格式生成相应的文件反馈至所述客户端。

第二方面，本申请还提供一种服务器，所述服务器包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现一种文本结构化信息提取方法，所述方法包括：

第三方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现一种文本结构化信息提取方法，所述方法包括：

本申请提出的文本结构化信息提取方法、服务器及存储介质，解决了提取文档信息时，存在格式和文字位置随意性大，且无法便利地得到结构化信息的问题，通过利用分割模型确定原始文档中的各一级标签及二级标签，然后根据标签内容提取出结构信息。自动的实现文档的结构化信息的提取，避免手工处理，便捷高效。

附图说明

图1为本申请文本结构化信息提取方法较佳实施例的应用环境图；

图2为本申请服务器较佳实施例的示意图；

图3为图2中文本结构化信息提取程序较佳实施例的模块示意图；

图4为本申请文本结构化信息提取方法较佳实施例的流程图；

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1所示，是本申请文本结构化信息提取方法较佳实施例的应用环境图。服务器1安装有文本结构化信息提取程序10。多个客户端3通过网络2连接服务器1。网络2可以为互联网、云网络、无线保真(Wi-Fi)网络、个人网(PAN)、局域网(LAN)和/或城域网(MAN)。网络环境中的各种设备可以被配置为根据各种有线和无线通信协议连接到通信网络。这样的有线和无线通信协议的例子可以包括但不限于以下中的至少一个：传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备对设备通信、蜂窝通信协议和/或蓝牙(Blue Tooth)通信协议或其组合。客户端3可以为桌上型计算机、笔记本、平板电脑、手机，或其它安装有应用软件，可以通过网络2与服务器1进行通信的终端装置。数据库4用于存储每级标签及每级标签对应的文本内容等数据。

参照图2所示，为本申请服务器1较佳实施例的示意图。

该服务器1包括但不限于：存储器11、处理器12、显示器13及网络接口14。所述服务器1通过网络接口14连接网络，获取原始数据。其中，所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、通话网络等无线或有线网络。

其中，存储器11至少包括一种类型的可读存储介质，计算机可读存储介质可以是非易失性，也可以是易失性。所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述服务器1的内部存储单元，例如该服务器1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述服务器1的外部存储设备，例如该服务器1配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述服务器1的内部存储单元也包括其外部存储设备。本实施例中，存储器11通常用于存储安装于所述服务器1的操作系统和各类应用软件，例如文本结构化信息提取程序10的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行文本结构化信息提取程序10的程序代码等。

显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器13用于显示在服务器1中处理的信息以及用于显示可视化的工作界面，例如显示数据统计的结果。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，该网络接口14通常用于在所述服务器1与其它电子设备之间建立通信连接。

图2仅示出了具有组件11-14以及文本结构化信息提取程序10的服务器1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，所述服务器1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在服务器1中处理的信息以及用于显示可视化的用户界面。

该服务器1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在上述实施例中，处理器12执行存储器11中存储的文本结构化信息提取程序10时可以实现如下步骤：

接收步骤：接收所述客户端发出的提取文本结构化信息的请求，获取待提取结构化信息的原始文档；

第一获取步骤：将所述原始文档输入预先训练好的第一分割模型，得到所述原始文档的多个一级标签，再根据第一预设规则从所述原始文档获取各所述一级标签对应的一级文本内容；

第二获取步骤：将各所述一级文本内容输入预先训练好的第二分割模型，得到各所述一级文本内容对应的二级标签，再根据第二预设规则从所述原始文档获取各所述二级标签对应的二级文本内容；及

反馈步骤：将各一级标签、二级标签、一级文本内容及二级文本内容作为逻辑页存储至预设数据库，并将所述逻辑页按预设格式生成相应的文件反馈至所述客户端。

关于上述步骤的详细介绍，请参照下述图3关于文本结构化信息提取程序10实施例的程序模块图以及图4关于文本结构化信息提取方法实施例的流程图的说明。

在其他实施例中，所述文本结构化信息提取程序10可以被分割为多个模块，该多个模块被存储于存储器12中，并由处理器13执行，以完成本申请。本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段。

参照图3所示，为图2中文本结构化信息提取程序10一实施例的程序模块图。在本实施例中，所述文本结构化信息提取程序10可以被分割为：接收模块110、第一获取模块120、第二获取模块130及反馈模块140。

接收模块110，用于接收所述客户端发出的提取文本结构化信息的请求，获取待提取结构化信息的原始文档。

在本实施例中，请求中可以包括待结构化的原始文档，也可以包括待结构化的原始文档的存储路径及唯一的标识。也就是说，原始文档可以是用户在提交文本结构化请求时一并录入，也可以是用户提交文本结构化请求之后从请求指定的地址中获取。例如：原始文档可以是公文、招标书等企业文档，其格式为PDF。

在一个实施例中，接收模块110还对发起文本结构化信息提取请求的客户端的用户进行用户身份信息鉴定，用户身份信息鉴定通过则执行后续步骤，用户身份信息鉴定失败则拒绝所述文本结构化信息提取请求并生成预警信息。例如，接收模块110获取用户的身份信息，根据用户身份信息判断用户是否具备文本结构化信息提取请求的权限，若具备，继续执行后续步骤，若不具备，则拒绝文本结构化信息提取的请求并生成预警信息。

第一获取模块120，用于将所述原始文档输入预先训练好的第一分割模型，得到所述原始文档的多个一级标签，再根据第一预设规则从所述原始文档获取各所述一级标签对应的一级文本内容。

在本实施例中，第一分割模型是通过对条件随机场(Conditional Random Field，CRF)模型进行训练得到的。具体地训练步骤包括：

获取第一预设数量(例如10万篇)的PDF文档样本，对每一篇PDF文档样本进行格式转换，例如转换成可扩展标记语言(Extensible Markup Language，XML)格式的文档，通过进行格式转换，可使计算机能读取到原始文档的信息(例如：文档中文字的位置坐标、字体等信息)，以便于执行后续的一级标签获取的步骤。

对转换后的XML格式的文档分配唯一的第一预设标签，其中，标签包括但不限于：封面、标题、索引、正文、脚注、眉批、参考文献、附录等。以封面为例，对文档的封面标注：“封面”。再根据预先确定的特征向量提取算法提取出各标签的预设特征向量，具体地，该提取步骤包括：

把每个标签输入预先训练好的词向量模型(word2vec模型)，生成一个词语级别(word-level)的向量r ^wrd；把组成每个标签的字符输入预先训练好的卷积神经网络模型(Convolutional Neural Network，CNN)，生成该标签对应的字符级别(character-level)的向量r ^wch；将所述word-level的向量和character-level的向量组合得到一个新的向量u _n＝[r ^wrd,r ^wch]，作为每个标签的特征向量。其中，r ^wrd表示利用word2vec模型训练得到的向量，其处理方式与现有的word2vec模型一致，r ^wch表示通过卷积神经网络训练得到的向量，训练过程可从现有技术中获取，在此不再赘述。

之后，将各预设特征向量作为变量X、将各所述预设标签作为因变量Y并生成样本集，将样本集按照第一预设比例(例如4:1)分成第一训练集和第一验证集。其中，第一训练集中的样本数量大于所述第一验证集中的样本数量。

利用第一训练集中的各个变量X和各个因变量Y对条件随机场模型进行训练，每隔预设周期(例如：每进行1000次迭代)使用第一验证集对条件随机场模型进行验证，利用第一验证集中各个所述变量X和各个因变量Y对该第一分割模型的准确率进行验证，当验证的准确率大于第一预设阈值(例如：95％)时，结束训练，得到所述第一分割模型，如果验证的准确率小于第二预设阈值(例如：95％)时则增加样本的数量，并基于增加的文档样本重新执行上述训练步骤。

将待提取结构化信息的原始文档输入训练好的第一分割模型，得到所述原始文档的多个一级标签后，根据第一预设规则获取各一级标签对应的一级文本内容。其中，第一预设规则包括根据预设的一级标签与层级的映射关系，确定得到的多个一级标签对应的层级。其中，各一级标签的层级是预先确定的，例如：封面、标题、正文、参考文献、附录等为第一层级，索引、脚注、眉批为第二层级，第一层级优先于第二层级。提取第一层级的每个一级标签，提取当前一级标签与下一个第一层级的一级标签之间的文本内容，作为与当前一级标签对应的文本内容，若当前一级标签为最后一个一级标签时，提取当前一级标签之后的文本内容，作为与当前一级标签对应的文本内容。一级标签分类结束后，整篇文档被分割成为多个部分，每个部分都属于一个一级标签的类别。

第二获取模块130，用于将各所述一级文本内容输入预先训练好的第二分割模型，得到各所述一级文本内容对应的二级标签，再根据第二预设规则从所述原始文档获取各所述二级标签对应的二级文本内容。

在本实施例中，获取第二预设数量的一级文本内容样本，对各所述一级文本内容样本分配唯一的第二预设标签，以标题内容为一级标签的文本为例，第二预设标签包括但不限于：大标题、副标题、作者等。

将一级文本内容样本按照第二预设比例(例如3:1)分成第二训练集和第二验证集。其中，第二训练集中的样本数量大于所述第二验证集中的样本数量。

将所述第二训练集中的一级文本内容样本输入所述条件随机场模型进行训练，每隔预设周期使用所述第二验证集对所述条件随机场模型进行验证，利用所述第二验证集中各所述一级文本内容和各所述第二预设标签对该第二分割模型的准确率进行验证，当验证的准确率大于第二预设阈值(例如：97％)时，结束训练，得到所述第二分割模型，如果验证的准确率小于第二预设阈值(例如：97％)时，则增加一级文本内容样本的数量，并基于增加的样本重新执行训练步骤。

将各一级文本内容输入训练好的第二分割模型，得到多个一级文本内容对应的二级标签后，根据第二预设规则获取各二级标签对应的各二级文本内容。其中，确定各二级标签对应的各二级文本内容的步骤包括：

根据预先确定的二级标签与层级的映射关系，确定得到的多个二级标签对应的层级。其中，各二级标签的层级是预先确定的。例如，一级小标题为第一层级、二级小标题为第二层级、三级小标题为第三层级、依次类推。为了使得到的小标题更完整，小标题可以包括：一级小标题、二级小标题、三级小标题及四级小标题，若还存在五级小标题，则将所有五级小标题均划分至对应的四级小标题对应的内容。

提取当前M级二级标签与下一个M级二级标签之间的文本内容，作为与当前M级二级标签对应的文本内容，若当前M级二级标签为最后一个M级二级标签时，提取当前M级二级标签之后的文本内容，作为与当前M级二级标签对应的文本内容。然后从当前M级二级标签对应的文本内容中提取M+1级二级标签，重复上述步骤提取出各M级二级标签对应的M+1级二级标签对应的文本内容。直到确定M级二级标签对应的所有下一层级的标签对应的文本内容为止。其中，M为大于或等于1的正整数。

反馈模块140，用于将各一级标签、二级标签、一级文本内容及二级文本内容作为逻辑页存储至预设数据库，并将所述逻辑页按预设格式生成相应的文件反馈至所述客户端。

在本实施例中，结构化存储一级标签、及各一级标签对应的二级标签，将每个一级标签、二级标签及隶属于每个一级标签、二级标签的文本内容作为一个逻辑页进行存储。其中，各标签的文本内容作为与该标签对应的内容。将得到的逻辑页按照预设格式生成相应的文件，例如：word文档。输出结果是一个排版好、处理好的文件，还可根据用户的需求进行文档格式转换。

在一个实施例中，预先为生成的相应的文件建立密钥，在发送给客户端的过程中对该文件进行加密推送，当输入的密钥验证成功时，可查看生成的相应的文件。

参照图4所示，是本申请文本结构化信息提取方法较佳实施例的流程图。

步骤S10：接收所述客户端发出的提取文本结构化信息的请求，获取待提取结构化信息的原始文档。

步骤S20：将所述原始文档输入预先训练好的第一分割模型，得到所述原始文档的多个一级标签，再根据第一预设规则从所述原始文档获取各所述一级标签对应的一级文本内容。

将待提取结构化信息的原始文档输入训练好的第一分割模型，得到所述原始文档的多个一级标签后，根据第一预设规则获取各一级标签对应的一级文本内容。其中，第一预设规则包括根据预设的一级标签与层级的映射关系，确定得到的多个一级标签对应的层级。其中，各一级标签的层级是预先确定的，例如：封面、标题、正文、参考文献、附录等为第一层级；索引、脚注、眉批为第二层级，第一层级优先于第二层级。提取第一层级的每个一级标签；提取当前一级标签与下一个第一层级的一级标签之间的文本内容，作为与当前一级标签对应的文本内容；若当前一级标签为最后一个一级标签时，提取当前一级标签之后的文本内容，作为与当前一级标签对应的文本内容。一级标签分类结束后，整篇文档被分割成为多个部分，每个部分都属于一个一级标签的类别。

步骤S30：将各所述一级文本内容输入预先训练好的第二分割模型，得到各所述一级文本内容对应的二级标签，再根据第二预设规则从所述原始文档获取各所述二级标签对应的二级文本内容。

步骤S40:将各一级标签、二级标签、一级文本内容及二级文本内容作为逻辑页存储至预设数据库，并将所述逻辑页按预设格式生成相应的文件反馈至所述客户端。

此外，本申请实施例还提出一种计算机可读存储介质，该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括文本结构化信息提取程序10，所述文本结构化信息提取程序10被处理器执行时实现如下操作：

本申请之计算机可读存储介质的具体实施方式与上述文本结构化信息提取方法的具体实施方式大致相同，在此不再赘述。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质，计算机可读存储介质可以是非易失性，也可以是易失性(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种文本结构化信息提取方法，应用于服务器，所述服务器通信连接一个或多个客户端，所述方法包括：

接收所述客户端发出的提取文本结构化信息的请求，获取待提取结构化信息的原始文档；

将所述原始文档输入预先训练好的第一分割模型，得到所述原始文档的多个一级标签，再根据第一预设规则从所述原始文档获取各所述一级标签对应的一级文本内容；

将各所述一级文本内容输入预先训练好的第二分割模型，得到各所述一级文本内容对应的二级标签，再根据第二预设规则从所述原始文档获取各所述二级标签对应的二级文本内容；及

将各一级标签、二级标签、一级文本内容及二级文本内容作为逻辑页存储至预设数据库，并将所述逻辑页按预设格式生成相应的文件反馈至所述客户端。
如权利要求1所述的文本结构化信息提取方法，所述第一分割模型是通过条件随机场模型训练得到的，训练过程包括如下步骤：

获取第一预设数量的原始文档样本，对所述原始文档样本进行预处理；

对各所述预处理后的文档分配唯一的第一预设标签，根据预先确定的特征向量提取算法提取出各所述第一预设标签的预设特征向量，将各所述预设特征向量作为变量X、各所述第一预设标签作为因变量Y生成样本集；

将所述样本集按照第一预设比例分成第一训练集及第一验证集；

利用所述第一训练集中的各所述变量X及各所述因变量Y对所述条件随机场模型进行训练，每隔预设周期使用所述第一验证集对所述条件随机场模型进行验证，利用所述第一验证集中各所述变量X及各所述因变量Y对该第一分割模型的第一准确率进行验证；及

当验所述第一准确率大于第一预设阈值时，结束训练，得到所述第一分割模型。
如权利要求1或2所述的文本结构化信息提取方法，所述第一预设规则包括：

提取第N个一级标签与第N+1个一级标签之间的文本内容，作为所述第N个一级标签对应的文本内容，其中，N为大于或等于1的正整数。
如权利要求3所述的文本结构化信息提取方法，所述第二分割模型是通过条件随机场模型训练得到的，训练过程包括如下步骤：

获取第二预设数量的一级文本内容样本，对各所述一级文本内容样本分配唯一的第二预设标签；

将所述一级文本内容样本按照第二预设比例分成第二训练集及第二验证集；

将所述第二训练集中的一级文本内容样本输入所述条件随机场模型进行训练，每隔预设周期使用所述第二验证集对所述条件随机场模型进行验证，利用所述第二验证集中各所述一级文本内容和各所述第二预设标签对该第二分割模型的第二准确率进行验证；及

当所述第二准确率大于第二预设阈值时，结束训练，得到所述第二分割模型。
如权利要求1所述的文本结构化信息提取方法，所述第二预设规则包括：

提取第M个二级标签与第M+1个二级标签之间的文本内容，作为所述第M个二级标签对应的文本内容，其中，M为大于或等于1的正整数。
一种服务器，所述服务器包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现一种文本结构化信息提取方法，所述方法包括：

接收所述客户端发出的提取文本结构化信息的请求，获取待提取结构化信息的原始文档；

将所述原始文档输入预先训练好的第一分割模型，得到所述原始文档的多个一级标签，再根据第一预设规则从所述原始文档获取各所述一级标签对应的一级文本内容；

将各所述一级文本内容输入预先训练好的第二分割模型，得到各所述一级文本内容对应的二级标签，再根据第二预设规则从所述原始文档获取各所述二级标签对应的二级文本内容；及

将各一级标签、二级标签、一级文本内容及二级文本内容作为逻辑页存储至预设数据库，并将所述逻辑页按预设格式生成相应的文件反馈至所述客户端。
如权利要求6所述的服务器，所述第一分割模型是通过条件随机场模型训练得到的，训练过程包括如下步骤：

获取第一预设数量的原始文档样本，对所述原始文档样本进行预处理；

对各所述预处理后的文档分配唯一的第一预设标签，根据预先确定的特征向量提取算法提取出各所述第一预设标签的预设特征向量，将各所述预设特征向量作为变量X、各所述第一预设标签作为因变量Y生成样本集；

将所述样本集按照第一预设比例分成第一训练集及第一验证集；

利用所述第一训练集中的各所述变量X及各所述因变量Y对所述条件随机场模型进行训练，每隔预设周期使用所述第一验证集对所述条件随机场模型进行验证，利用所述第一验证集中各所述变量X及各所述因变量Y对该第一分割模型的第一准确率进行验证；及

当验所述第一准确率大于第一预设阈值时，结束训练，得到所述第一分割模型。
如权利要求6或7所述的服务器，所述第一预设规则包括：

提取第N个一级标签与第N+1个一级标签之间的文本内容，作为所述第N个一级标签对应的文本内容，其中，N为大于或等于1的正整数。
如权利要求8所述的服务器，所述第二分割模型是通过条件随机场模型训练得到的，训练过程包括如下步骤：

获取第二预设数量的一级文本内容样本，对各所述一级文本内容样本分配唯一的第二预设标签；

将所述一级文本内容样本按照第二预设比例分成第二训练集及第二验证集；

将所述第二训练集中的一级文本内容样本输入所述条件随机场模型进行训练，每隔预设周期使用所述第二验证集对所述条件随机场模型进行验证，利用所述第二验证集中各所述一级文本内容和各所述第二预设标签对该第二分割模型的第二准确率进行验证；及

当所述第二准确率大于第二预设阈值时，结束训练，得到所述第二分割模型。
如权利要求6所述的服务器，所述第二预设规则包括：

提取第M个二级标签与第M+1个二级标签之间的文本内容，作为所述第M个二级标签对应的文本内容，其中，M为大于或等于1的正整数。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现一种文本结构化信息提取方法，所述方法包括：

接收所述客户端发出的提取文本结构化信息的请求，获取待提取结构化信息的原始文档；

将所述原始文档输入预先训练好的第一分割模型，得到所述原始文档的多个一级标签，再根据第一预设规则从所述原始文档获取各所述一级标签对应的一级文本内容；

将各所述一级文本内容输入预先训练好的第二分割模型，得到各所述一级文本内容对应的二级标签，再根据第二预设规则从所述原始文档获取各所述二级标签对应的二级文本内容；及

将各一级标签、二级标签、一级文本内容及二级文本内容作为逻辑页存储至预设数据库，并将所述逻辑页按预设格式生成相应的文件反馈至所述客户端。
如权利要求11所述的计算机可读存储介质，所述第一分割模型是通过条件随机场模型训练得到的，训练过程包括如下步骤：

获取第一预设数量的原始文档样本，对所述原始文档样本进行预处理；

对各所述预处理后的文档分配唯一的第一预设标签，根据预先确定的特征向量提取算法提取出各所述第一预设标签的预设特征向量，将各所述预设特征向量作为变量X、各所述第一预设标签作为因变量Y生成样本集；

将所述样本集按照第一预设比例分成第一训练集及第一验证集；

利用所述第一训练集中的各所述变量X及各所述因变量Y对所述条件随机场模型进行训练，每隔预设周期使用所述第一验证集对所述条件随机场模型进行验证，利用所述第一验证集中各所述变量X及各所述因变量Y对该第一分割模型的第一准确率进行验证；及

当验所述第一准确率大于第一预设阈值时，结束训练，得到所述第一分割模型。
如权利要求11或12所述的计算机可读存储介质，所述第一预设规则包括：

提取第N个一级标签与第N+1个一级标签之间的文本内容，作为所述第N个一级标签对应的文本内容，其中，N为大于或等于1的正整数。
如权利要求13所述的计算机可读存储介质，所述第二分割模型是通过条件随机场模型训练得到的，训练过程包括如下步骤：

获取第二预设数量的一级文本内容样本，对各所述一级文本内容样本分配唯一的第二预设标签；

将所述一级文本内容样本按照第二预设比例分成第二训练集及第二验证集；

将所述第二训练集中的一级文本内容样本输入所述条件随机场模型进行训练，每隔预设周期使用所述第二验证集对所述条件随机场模型进行验证，利用所述第二验证集中各所述一级文本内容和各所述第二预设标签对该第二分割模型的第二准确率进行验证；及

当所述第二准确率大于第二预设阈值时，结束训练，得到所述第二分割模型。
如权利要求11所述的计算机可读存储介质，所述第二预设规则包括：

提取第M个二级标签与第M+1个二级标签之间的文本内容，作为所述第M个二级标签对应的文本内容，其中，M为大于或等于1的正整数。