WO2019227584A1

WO2019227584A1 - 简历数据信息解析处理方法、装置、设备及存储介质

Info

Publication number: WO2019227584A1
Application number: PCT/CN2018/094392
Authority: WO
Inventors: 张师琲
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-05-31
Filing date: 2018-07-04
Publication date: 2019-12-05
Also published as: CN108874928B; CN108874928A

Abstract

本申请涉及计算机技术领域，提供了一种简历数据信息解析处理方法、装置、计算机设备及存储介质，该简历数据信息解析处理方法包括：接收用户上传的简历文件；按照预设的文本格式，对简历文件进行格式转换，得到简历文件对应的简历文本；对简历文本进行标签提取，得到标题标签；根据预设的关键词，将标题标签与关键词进行匹配，将匹配成功的标题标签确定为有效关键词；针对每个有效关键词，按照该有效关键词对应的数据解析方式，对简历文本进行解析，获取简历文本中每个有效关键词对应的数据信息。本申请实现了对简历文本数据信息的完整提取，有效提高对简历文本的解析准确率。

Description

简历数据信息解析处理方法、装置、设备及存储介质

本申请以2018年05月31日提交的申请号为201810548844.8，名称为“简历数据信息解析处理方法、装置、设备及存储介质”的中国发明专利申请为基础，并要求其优先权。

技术领域

本申请涉及计算机技术领域，尤其涉及一种简历数据信息解析处理方法、装置、设备及存储介质。

背景技术

在日常生活中，简历是作者用于求职或展示人生阅历的一类重要文本，它包含了作者的基本情况、工作经验和教育经验等信息，而各种个人简历的设计风格以及个人的书写习惯会不同，个人简历信息的具体格式也因人而异，各企业想要获取人才资料，需要管理人员从大量的简历中筛选解析出所需的简历信息。

目前，传统的简历数据解析方法通常由人工完成，手动收集简历文件并对简历文件中的简历文本进行人工分类处理，手动分类录入简历数据信息存入数据库，由于人工分类处理往往带有主观因素，也容易出现信息重复录入或信息缺失的情况，导致简历数据信息解析准确率不高。

发明内容

基于此，有必要针对上述技术问题，提供一种可以提高简历数据信息解析准确率的简历数据信息解析处理方法、装置、设备及存储介质。

一种简历数据信息解析处理方法，包括：

接收用户上传的简历文件；

按照预设的文本格式，对所述简历文件进行格式转换，得到所述简历文件对应的简历文本；

对所述简历文本进行标签提取，得到标题标签；

根据预设的关键词，将所述标题标签与所述关键词进行匹配，将匹配成功的所述标题标签确定为有效关键词；

针对每个所述有效关键词，按照该有效关键词对应的数据解析方式，对所述简历文本进行解析，获取所述简历文本中每个所述有效关键词对应的所述数据信息；

根据预设的标准简历模板中模板标签，将所述有效关键词与所述模板标签进行匹配，并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置，生成标准简历报告并保存在简历库中。

一种简历数据信息解析处理装置，包括：

文件接收模块，用于接收用户上传的简历文件；

文件转换模块，用于按照预设的文本格式，对所述简历文件进行格式转换，得到所述简历文件对应的简历文本；

标签提取模块，用于对所述简历文本进行标签提取，得到标题标签；

标签匹配模块，用于根据预设的关键词，将所述标题标签与所述关键词进行匹配，将匹配成功的所述标题标签确定为有效关键词；

文本解析模块，用于针对每个所述有效关键词，按照该有效关键词对应的数据解析方式，对所述简历文本进行解析，获取所述简历文本中每个所述有效关键词对应的所述数据信息；

信息导入模块，用于根据预设的标准简历模板中模板标签，将所述有效关键词与所述模板标签进行匹配，并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置，生成标准简历报告并保存在简历库中。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述简历数据信息解析处理方法的步骤。

一个或多个存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行时实现上述简历数据信息解析处理方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中简历数据信息解析处理方法的一应用环境示意图；

图2是本申请一实施例中简历数据信息解析处理方法的一流程图；

图3是本申请一实施例中简历数据信息解析处理方法中步骤S30的实现流程图；

图4是本申请一实施例中简历数据信息解析处理方法中步骤S50的一实现流程图；

图5是本申请一实施例中简历数据信息解析处理方法中步骤S50的另一实现流程图；

图6是本申请一实施例中简历数据信息解析处理方法中对教育经历或工作经历中对基础时间段进行分析处理的一流程图；

图7是本申请一实施例中简历数据信息解析处理方法中对简历下载请求进行处理的一流程图；

图8是本申请一实施例中简历数据信息解析处理装置的一示意图；

图9是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1示出了本申请实施例提供的应用环境，该应用环境包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，客户端用于采集简历文件，并且将采集到的简历文件发送到服务端，客户端具体可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备；服务端用于对简历文件进行处理，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本申请实施例提供的简历数据信息解析处理方法应用于服务端。

请参阅图2，图2示出本实施例提供的简历数据信息解析处理方法的实现流程。详述如下：

S10：接收用户上传的简历文件。

在本实施例中，简历文件的文件类型可以包括但不限于：doc、pdf或html等，简历文件的语言类型可以包括但不限于：中文、英文或日文等，应理解的，此处所列举的文件类型和语言类型仅仅是作为示例，实际也可以是其他更多文件类型或语言类型，此处不做具体限制。

S20：按照预设的文本格式，对简历文件进行格式转换，得到简历文件对应的简历文本。

需要说明的是，预设的文本格式具体可以xml、pdf或者doc等，但并不限于此，其具体可以根据实际应用需求进行设置，此处不做限制。

对简历文件进行文本格式转换可以采用解析类库Tika工具，或者是其他工具进行处理，此处不做限制。

优选地，采用Tika工具对接收到的简历文件进行格式转换，Tika工具是用于文件类型检测和从各种格式的文件中进行内容提取的库，Tika使用各种文件解析器和文档类型的检测技术来检测和提取数据，Tika提供的格式转换插件对多种文件格式的数据进行格式转换，可以实现将不规则的简历文本格式转换为统一的预设的文本格式。

具体地，对步骤S1中接收到的各类不同文本格式的简历文件，按照预设的文本格式，采用Tika工具中的格式转换插件对接收到的简历文件进行格式转换，得到格式统一的简历文本，可以实现将不规则的简历文本统一规范化，有利于后续对简历文本的数据信息的解析和提取。

作为示例，按照预设的文本格式，采用Tika软件中的格式转换插件对各类不同文本格式的简历文件进行格式转换，可以用“*”表示空格，例如，doc简历文本的格式为“姓名****李雷****”，pdf简历文本的格式为“**姓名**李雷**”，通过格式转换插件将这两种不同格式的简历文本按照预设的文本格式进行转换，如转换成“**姓名****李雷**”的文本格式。

S30：对简历文本进行标签提取，得到标题标签。

在本实施例中，标题标签是简历文本中内容的提炼和标识，用于描述简历中的专业、学历和工作经历等表示个人特点的一系列标签，其中，标题标签具体可以是“姓名”、“学历”、“教育经历”或“工作经历”等。

标签提取的方式可以是特征提取，还可以是其他提取方式，此处不做限制。

具体地，根据预设的标签词典，遍历简历文本，检索到与标签词典中的标签相同的文本，将该文本标记为标题标签。

S40：根据预设的关键词，将标题标签与关键词进行匹配，将匹配成功的标题标签确定为有效关键词。

在本实施例中，预设的关键词具体可以是姓名、学校、专业、教育经历或工作经历等，但不限于此，其具体可以根据实际应用需求进行设置，此处不做限制。有效关键词是简历文本中与预设的关键词相匹配的标题标签。

将标题标签与关键词进行匹配，可以是通过条件匹配，还可以通过其他方式进行匹配，此处不做限制，其中，条件匹配中的条件可以根据实际应用需求进行设置，此处不做限制。

优选地，本实施例采用的匹配方式为条件匹配，条件匹配的过程具体可以是根据预设的词库确定标题标签与关键词的词义是否相同，其中，预设的词库中定义了与每个关键词对应的近义词集合，如“教育经验”的近义词集合包括“教育经验”、“教育经历”、“教育程度”等，“工作经验”的近义词集合包括“工作经验”、“工作经历”、“履历”等，若标题标签属于关键词的近义词集合，则确认该标题标签与该关键词的词义相同，即匹配成功；条件匹配的过程还可以是计算标题标签与关键词的文本相似度，若该文本相似度大于或等于预设的相似度阈值，则匹配成功，其中，预设的相似度阈值具体可以是80％，也可以是其他数值，具体可以根据实际应用需求进行设置，此处不做限制。

S50：针对每个有效关键词，按照该有效关键词对应的数据解析方式，对简历文本进行解析，获取简历文本中每个有效关键词对应的数据信息。

在本实施例中，数据信息是指有效关键词对应的具体简历文本内容。

不同的有效关键词，其对应的数据解析方式可以相同也可以不相同，数据解析方式可以包括但不限于：数据划分法、正则表达式和分值算法等，具体可以根据实际应用需求进行设置，此处不做具体限制。

需要说明的是，数据划分法是选定文本中分界标识，以分界标识为间隔，将文本划分为单独的分界标识和每个分界标识对应的文本块，其中，分界标识具体为简历文本中有效关键词，每个分界标识对应的文本块即为每个有效关键词对应的数据信息。

具体地，根据有效关键词对应的数据解析方式，对步骤S20中得到的简历文本中的内容的进行划分和提取，得到简历文本中每个有效关键词对应的数据信息，可以保证对简历文本的内容提取的完整性。

S60：根据预设的标准简历模板中模板标签，将有效关键词与模板标签进行匹配，并将匹配成功的有效关键词对应的数据信息导入模板标签对应的位置，生成标准简历报告并保存在简历库中。

在本实施例中，预设的标准简历模板是根据实际应用需求进行设置的，此处不做限制。模板标签具体可以是姓名、学历、教育经历和工作经历等，但不限于此，具体可以根据实际应用需求进行设置，此处不做限制。

具体地，遍历预设的标准简历报告中的模板标签，检索到有效关键词与模板标签相同的文本，即有效关键词成功匹配到模板标签，将匹配成功的有效关键词对应的数据信息导入模板标签对应的位置，生成标准简历报告并保存在简历库中。

进一步地，对有效关键词与模板标签进行匹配，可以是通过条件匹配的方式，条件匹配的方式具体可以采用与步骤S40中标题标签与关键词进行条件匹配相同的匹配方式，此处不再赘述。

在本实施例中，根据预设的文本格式，对接收到的简历文件进行格式转换，得到该简历文件对应的简历文本，有利于后续对简历文本中的数据信息的提取，通过对简历文本进行标签提取，得到标题标签，根据预设的关键词，将标题标签与该关键词进行匹配，并将匹配成功的标题标签确定为有效关键词，可以根据该有效关键词实现对所要提取的数据信息的位置的快速锁定，从而针对每个有效关键词，按照该有效关键词对应的数据解析方式，对简历文本进行解析，获取简历文本中有效关键词对应的数据信息，可以实现对已锁定的数据信息的进一步确认，保证得到的数据信息的准确性，以及保证对简历文本数据信息的提取的完整性，从而实现对简历文本数据信息的精确解析，有效提高对简历文本的解析准确率，同时，根据预设的标准简历模板中模板标签，将有效关键词与模板标签进行匹配，并将匹配成功的有效关键词对应的数据信息导入模板标签对应的位置，生成标准简历报告并保存在简历库中，实现对不规则的简历文本的统一规范化，便于对简历信息的维护和管理。

在一实施例中，如图3所示，步骤S30中，即对简历文本进行标签提取，得到标题标签具体包括如下步骤：

S301：获取简历文本中的文本行。

在本实施例中，文本行是简历文本中单独位于一行的一个词或一个句子。

S302：按照预设的特征指标对文本行进行特征提取，得到特征向量。

在本实施例中，预设的特征指标作为特征提取的标准，具体可以包括但不限于：该文本行独处一行、该文本行的文本长度小于预设的长度、该文本行不含有标点符号、该文本行在预设的标签字典中、该文本行的字体与全文文字占比最多的字体不同，以及该文本行的字体是以标签字典中的父级元素开头等，预设的特征指标还可以是其他指标，具体可以根据实际应用需求进行设置，此处不做限制。其中，预设的标签字典包括元素和标签，标签包括但不限于：姓名、学历、教育经历和工作经历等，具体可以根据实际应用需求进行设置，此处不做限制，元素包括但不限于：父级元素、子级元素和行内元素等，其中，父级元素包括设定好的字体的大小、高度和宽度等，字体具体可以是宋体、计算机字体Courier或者英文有衬线字体serif等，还可以是其他字体，此处不做限制。

特征向量是用于描述文本行的属性特征的一组向量。

需要说明的是，对文本行进行特征提取的方式可以是采用信息标记法，也可以采用其他方式，此处不做限制。

优选地，采用信息标记法对文本行进行特征提取，具体可以是将满足预设的特征指标要求的文本行特征标记为1，不满足预设的特征指标要求的文本行特征标记为0。

例如，某一文本行满足“该文本行独处一行”、“该文本行的文本长度小于预设的长度”、“该文本行不含有标点符号”和“该文本行在预设的标签字典中”等特征指标，则各自对应标记为1，该文本行不满足“该文本行的字体与全文文字占比最多的字体不同”和“该文本行的字体是以标签字典中的父级元素开头”，则各自对应标记为0，得到该文本行的特征向量为(1，1，1，1，0，0)。

S303：若特征向量满足预设的标签条件，则将文本行标识为标题标签。

具体地，判断步骤S302得到的特征向量是否满足预设的标签条件，若特征向量满足预设的标签条件，则将该特征向量对应的文本行标识为标题标签。

需要说明的是，预设的标签条件具体可以是特征向量中的分量“1”的个数大于或者等于预设数量，但并不限于此，其具体可以根据实际应用需求进行设置，此处不做限制。

继续以步骤S302的例子中文本行的特征向量(1，1，1，1，0，0)为例进行说明，若预设的标签条件为特征向量中的分量“1”的个数大于或者等于4，则该文本行的特征向量中的分量“1”的个数为4，满足预设的标签条件，则该文本行被标识为标题标签。

在本实施例中，根据预设的特征指标，对获取到的简历文本中的文本行进行特征提取，可以得到文本行对应的特征向量，可以实现对简历文本的文本行的精确读取，便于后续对标题标签的确认，同时，以预设的标签条件为标准，若特征向量满足预设的标签条件，则将该特征向量对应的文本行标识为标题标签，可以保证对标题标签的准确提取，从而有利于后续对简历文本的数据信息的解析和获取。

在一实施例中，有效关键词包括姓名，如图4所示，步骤S50中，针对每个有效关键词，按照该有效关键词对应的数据解析方式，对简历文本进行解析，获取简历文本中每个有效关键词对应的数据信息具体包括如下步骤：

S501：获取姓名对应的名字数据块。

在本实施例中，名字数据块是指有效关键词“姓名”在简历文本中对应的数据块。

名字数据块的获取方式具体可以是进行有效关键词检索，检索到的“姓名”的有效关键词，同时，按照有效关键词出现的先后顺序将有效关键词“姓名”和下一个有效关键词之间的内容作为有效关键词“姓名”的对应的名字数据块，名字数据块的获取方式还可以是其他方式，此处不做限制。

S502：根据预设的姓名正则表达式，对名字数据块进行姓名数据识别，将识别出的姓名数据作为姓名对应的数据信息。

在本实施例中，预设的姓名正则表达式可以是常用的姓名提取正则表达式，用于识别简历文本中的姓名数据。常用的姓名提取正则表达式为：

^[\u4E00-\u9FA5]{2，5}(？:·[\u4E00-\u9FA5]){2，5}$

其中，符号“^”表示姓名中的“姓”匹配开始部分，符号“$”表示姓名中“名”匹配结束部分，“[\u4E00-\u9FA5]”表示所有中文字符的unicode编码，符号“[]”表示在“[\u4E00-\u9FA5]”限定范围内的汉字，“{2，5}”表示选取2至5个“[\u4E00-\u9FA5]”限定范围的汉字，“？”表示字符个数不做限定，“:”表示逻辑或的关系。

需要说明的是，正则表达式是用于处理数据中的字符串，通过使用一些特定字符来描述字符串里字符出现的规则，匹配、识别、提取或者替换符合该规则的字符串，正则表达式还可以用来查找、删除和替换字符串，使用正则表达式能够实现快速查找和精准查找。其中，特定字符如“[\u4E00-\u9FA5]”、“{2，5}”或者“[1-9]\d{3}”等。

具体地，对步骤S501中获取到的名字数据块，采用常用的姓名正则表达式中的特定字符，作为描述名字数据块的姓名数据字符串里对应的字符出现的规则，识别出该名字数据块中符合字符出现的规则的字符串，则将该字符串确定为该名字数据块的姓名数据。

在本实施例中，根据预设的姓名正则表达式，对获取到的名字数据块，进行姓名数据识别，将识别出的姓名数据作为姓名对应的数据信息，可以实现对姓名对应的数据信息进一步确认和提取，对提取的数据信息有针对性，有利于保证得到数据信息的完整性和准确性，从而有利于提高对数据信息解析的准确性。

在一实施例中，有效关键词包括教育经历或工作经历，如图5所示，步骤S50中，针对每个有效关键词，按照该有效关键词对应的数据解析方式，对简历文本进行解析，获取简历文本中每个有效关键词对应的数据信息具体包括如下步骤：

S503：获取教育简历或工作经历对应的数据块。

在本实施例中，教育简历或工作经历对应的数据块是指有效关键词“教育简历或工作经历”在简历文本中对应的数据块。

需要说明的是，对教育简历或工作经历对应的数据块的获取，可以采用与步骤S501中获取名字数据块相同的获取方式进行获取，此处不再赘述。

S504：根据预设的分值算法，对数据块进行分值计算，得到数据块的分数值。

在本实施例中，预设的分值算法具体可以根据实际应用需求进行设置，用于计算教育简历或工作经历对应的数据块的分值，具体可以是对简历文本中的预设标签设置对应的分数，其中，预设标签包括时间、学校、专业和学位等。

具体地，采用预设的分值算法对数据块进行分值计算，可以是对教育简历或工作经历中的预设标签设置相应的分数，如时间2分、学校2分、专业1分和学位1分等，在对数据块进行分值计算时，遍历数据块，在数据块中，检索预设标签，并根据检索到的预设标签进行分值计算，例如，若检索到“时间”则标记“2分”，检索到“专业”则标记“1分”等，遍历完成后对标记的分数进行累加求和，得到的求和结果作为该数据块的分数值。

S505：若分数值大于预设的分数阈值，则将该分数值对应的目标数据块，确定为教育简历或工作经历对应的数据信息。

在本实施例中，目标数据块是分数值大于预设的分数阈值的数据块，预设的分数阈值具体可以根据实际应用需求进行设置，此处不做限制。

例如，假设预设的分数阈值为4分，以时间2分、学校2分，专业1分和学位1分为例，若某一数据块包含标签“时间”、“学校”和“专业”，则按照预设的分值算法，对标签进行分数标记，分别是“时间”标记“2分”、“学校”标记“2分”和“专业”标记“1分”，对标记的分数进行累加求和，得到的分数值为5分，该分数值大于预设的分数阈值，因此，可以将该数据块确定为教育简历或工作经历对应的数据信息。

在本实施例中，根据预设的分值算法，对获取到的教育简历或工作经历对应的数据块进行分值计算，得到数据块的分数值，通过将该分数值与预设的分数阈值进行比较，若分数值大于预设的分数阈值，则将该分数值对应的目标数据块，确定为教育简历或工作经历对应的数据信息，可以实现对教育简历或工作经历对应的数据信息快速确认和提取，从而有利于提高对数据信息获取效率。

在一实施例中，如图6所示，步骤S505之后，该简历数据信息解析处理方法还包括如下步骤：

S506：根据预设的时间正则表达式，识别目标数据块中的基础时间段。

在本实施例中，预设的时间正则表达式可以是常用的时间正则表达式，用于识别简历文本中的基础时间段。基础时间段包括起始时间点和结束时间点，用于表示教育简历或工作经历的从开始至结束的时间。

其中，常用的时间正则表达式为：

^[1-9]\d{3}.(0[1-9]1[0-2])-[1-9]\d{3}.(0[1-9]1[0-2])$

其中，“[1-9]\d{3}”表示年份，“(0[1-9]1[0-2])”表示日期，“^[1-9]\d{3}.(0[1-9]1[0-2])”表示起始时间点，“[1-9]\d{3}.(0[1-9]1[0-2])$”表示结束时间点，符号“.”“-”表示时间的格式符，如“2010.01-2011.04”。

具体地，对步骤S505中得到的教育简历或工作经历对应的数据信息，采用常用的时间正则表达式中的特定字符，作为描述数据信息的基础时间段字符串里对应的字符出现的规则，识别出该数据信息中符合字符出现的规则的字符串，则将该字符串确定为该数据信息的基础时间段。

S507：分析基础时间段的时间包含关系，确定基础时间段中的主时间段和子时间段；

在本实施例中，基础时间段可以是主时间段或者子时间段，其中，主时间段包含一个或多个子时间段。时间的包含关系是指时间段与时间段之间的关系，等同于集合与集合之间的关系，其中，包含关系包括包含、不包含和相等的关系，如将时间段通过集合的形式来进行描述，则时间的包含关系等同于集合中的有包含、空集和相等的关系。

需要说明的是，对基础时间段进行主时间段和子时间段的确认，是为了实现对教育简历或工作经历对应的数据信息进一步确认和提取，有利于保证数据信息的完整性，可以清晰反映出数据信息的分布情况。

具体地，根据时间的包含关系，确定基础时间段中的主时间段和子时间段，是按照基础时间段中的起始时间点和结束时间点，确定不同时间点之间的先后顺序，根据该先后顺序，得到基础时间段之间的时间包含关系，并根据该包含关系确定主时间段和子时间段，其中，被包含的基础时间段为子时间段。

例如，基础时间段中有时间段“2010.01-2014.04”和时间段“2011.04-2012.04”，将时间段“2010.01-2014.04”和时间段“2011.04-2012.04”的起始时间点和结束时间点分别进行比较，得到“2010.01”先于“2011.04”且“2014.04”晚于“2012.04”，即时间段“2011.04-2012.04”包含于时间段“2010.01-2014.04”，时间段“2011.04-2012.04”为子时间段。

S508：按照主时间段对目标数据块进行拆分，得到每个主时间段对应的阶段数据信息。

在本实施例中，对目标数据块进行拆分是指将目标数据块的整体，分割成每个单独的主时间段和主时间段对应的阶段数据信息。

具体地，根据步骤S507中得到的主时间段，将目标数据块拆分成主时间段和每个主时间段对应的阶段数据信息，可以避免提取后的数据信息混乱，保证数据信息的完整性，从而有利于提高对数据信息解析的准确性。

在本实施例中，根据预设的时间正则表达式，识别目标数据块中的基础时间段，并对识别出的基础时间段进行排序，同时，根据时间的包含关系，确定基础时间段中的主时间段和子时间段，按照主时间段对目标数据块进行拆分，可以得到每个主时间段对应的阶段数据信息，可以实现对教育简历或工作经历对应的数据信息进一步确认和提取，有利于保证数据信息的完整性，可以清晰反映出数据信息的分布情况，避免提取后的数据信息混乱，从而有利于提高对数据信息解析的准确性。

在一实施例中，如图7所示，步骤S60之后，该简历数据信息解析处理方法还包括如下步骤：

S70：若接收到用户发送的简历信息查询请求，则获取简历信息查询请求中的查询条件信息，其中，查询条件信息包括查询条件项和查询条件值；

在本实施例中，查询条件信息可以包括一个或多个查询条件项，以及与查询条件项对应的查询条件值，其中，查询条件项用于匹配模板标签，可以实现对简历信息的查询，查询条件项具体可以是“学校”，对应的查询条件值具体可以是“初中”、“高中”或“大学”等，查询条件项是“学历”对应的查询条件值可以是“大专”、“本科”或“研究生”等，查询条件项是“工作经历”对应的查询条件值可以是“国企”或“外企”等，还可以是其他查询条件项和查询条件值，此处不做限制。

S80：将查询条件项与标准简历报告中的模板标签进行匹配，获取匹配成功的模板标签对应的目标数据信息。

在本实施例中，目标数据信息是标准简历报告中，与查询条件项相匹配的模板标签对应的数据信息。

具体地，基于步骤S70中的查询条件项，将查询条件项与标准简历报告中的模板标签进行匹配，可以是遍历标准简历报告，查找与查询条件项相同的模板标签，并获取该模板标签对应的数据信息。

S90：将目标数据信息与查询条件值进行相似度比较，获取满足预设相似度条件的目标数据信息所在的标准简历报告。

在本实施例中，预设相似度条件用作提取目标数据信息所在标准简历报告的标准，具体可以根据实际应用需求进行设置，此处不做限制。

例如，预设相似度条件可以是目标数据信息与查询条件值中的文本相似度大于等于预设的相似度阈值。

预设相似度条件可以是查询条件值包含在目标数据信息中，即相似度比较过程为：遍历目标数据信息，若查询条件值在目标数据信息中存在，则确认该目标数据信息满足预设相似度条件。

预设相似度条件还可以是查询条件值在目标数据信息中出现的次数大于等于预设的相似度阈值，即相似度比较过程为：对查询条件值与目标数据信息的文本分别进行分词处理，得到查询条件值词汇单元和目标数据信息词汇单元，若查询条件值词汇单元中的单词在目标数据信息词汇单元中出现一次，则标记为“1”，出现两次则标记为“2”，同理，出现N次则标记为“N”，没有出现，则标记为“0”，最终获取查询条件值词汇单元中的单词在目标数据信息词汇单元中出现的总次数，若该总次数大于或者等于相似度阈值，则确认该目标数据信息满足预设相似度条件。示例如下：

假设预设的相似度阈值为2，查询条件值为“北京大学”，对查询条件值进行分词得到的查询条件值词汇单元为unit1：北京/大学，对目标数据信息分词后的目标数据信息词汇单元为unit2：毕业/于/北京/大学/修习/北京/大学/中文/系/汉语/专业/担任/学生会/学生/主席，则unit1中的单词在unit2中出现的次数为4，该次数大于预设的相似度阈值2，则确认该目标数据信息满足预设相似度条件要求。

需要说明的是，分词处理可以采用具有分词功能的工具，如solr搜索引擎的分词插件，还可以采用其他工具，此处不做限制。

具体地，根据预设相似度条件，将步骤S80中获取的目标数据信息，与步骤S70中获取的查询条件值进行相似度比较，若比较结果满足预设相似度条件，则获取该目标数据信息所在的标准简历报告。

在本实施例中，根据接收到用户发送的简历信息下载请求中的查询条件项，匹配标准简历包括中的模板标签，获取匹配成功的模板标签对应的目标数据信息，通过将目标数据信息与查询条件值进行相似度比较，获取满足预设相似度条件的目标数据信息所在的标准简历报告，可以快速准确筛选出所需要的简历信息，从而通过标准简历报告，能够更准确的得到查询结果，实现简历报告的统一规范化，便于对简历信息的查看和管理。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种简历数据信息解析处理装置，该简历数据信息解析处理装置与上述实施例中简历数据信息解析处理方法一一对应。如图8所示，该简历数据信息解析处理装置包括文件接收模块801、文件转换模块802、标签提取模块803、标签匹配模块804、文本解析模块805和信息导入模块806。各功能模块详细说明如下：

文件接收模块801，用于接收用户上传的简历文件；

文件转换模块802，用于按照预设的文本格式，对简历文件进行格式转换，得到简历文件对应的简历文本；

标签提取模块803，用于对简历文本进行标签提取，得到标题标签；

标签匹配模块804，用于根据预设的关键词，将标题标签与关键词进行匹配，将匹配成功的标题标签确定为有效关键词；

文本解析模块805，用于针对每个有效关键词，按照该有效关键词对应的数据解析方式，对简历文本进行解析，获取简历文本中每个有效关键词对应的数据信息；

信息导入模块806，用于根据预设的标准简历模板中模板标签，将有效关键词与模板标签进行匹配，并将匹配成功的有效关键词对应的数据信息导入模板标签对应的位置，生成标准简历报告并保存在简历库中。

进一步地，标签提取模块803包括：

文本获取单元8031，用于获取简历文本中的文本行；

特征提取单元8032，用于按照预设的特征指标对文本行进行特征提取，得到特征向量；

标签确定单元8033，用于若特征向量满足预设的标签条件，则将文本行标识为标题标签。

进一步地，文本解析模块805包括：

名字获取单元8051，用于获取姓名对应的名字数据块；

名字识别单元8052，用于根据预设的姓名正则表达式，对名字数据块进行姓名数据识别，将识别出的姓名数据作为姓名对应的数据信息。

进一步地，文本解析模块805还包括：

数据获取单元8053，用于获取教育简历或工作经历对应的数据块；

分值计算单元8054，用于根据预设的分值算法，对数据块进行分值计算，得到数据块的分数值；

数据确定单元8055，用于若分数值大于预设的分数阈值，则将该分数值对应的目标数据块，确定为教育简历或工作经历对应的数据信息。

进一步地，该简历数据信息解析处理装置还包括：

时间识别单元8056，用于根据预设的时间正则表达式，识别目标数据块中的基础时间段；

时间确定单元8057，用于分析基础时间段的时间包含关系，确定基础时间段中的主时间段和子时间段；

数据拆分单元8058，用于按照主时间段对目标数据块进行拆分，得到每个主时间段对应的阶段数据信息。

进一步地，该简历数据信息解析处理装置还包括：

请求接收模块807，用于若接收到用户发送的简历信息查询请求，则获取简历信息查询请求中的查询条件信息，其中，查询条件信息包括查询条件项和查询条件值；

条件匹配模块808，用于将查询条件项与标准简历报告中的模板标签进行匹配，获取匹配成功的模板标签对应的目标数据信息；

报告获取模块809，用于将目标数据信息与查询条件值进行相似度比较，获取满足预设相似度条件的目标数据信息所在的标准简历报告。

关于简历数据信息解析处理装置的具体限定可以参见上文中对于简历数据信息解析处理方法的限定，在此不再赘述。上述简历数据信息解析处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于保存简历信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种简历数据信息解析处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现上述实施例简历数据信息解析处理方法的步骤，例如图2所示的步骤S10至步骤S60。或者，处理器执行计算机可读指令时实现上述实施例中简历数据信息解析处理装置的各模块/单元的功能，例如图8所示模块801至模块806的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种非易失性存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述方法实施例中简历数据信息解析处理方法，或者，该计算机可读指令被处理器执行时实现上述装置实施例中简历数据信息解析处理装置中各模块/单元的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种简历数据信息解析处理方法，其特征在于，所述简历数据信息解析处理方法包括：

接收用户上传的简历文件；

按照预设的文本格式，对所述简历文件进行格式转换，得到所述简历文件对应的简历文本；

对所述简历文本进行标签提取，得到标题标签；

根据预设的关键词，将所述标题标签与所述关键词进行匹配，将匹配成功的所述标题标签确定为有效关键词；

针对每个所述有效关键词，按照该有效关键词对应的数据解析方式，对所述简历文本进行解析，获取所述简历文本中每个所述有效关键词对应的所述数据信息；

根据预设的标准简历模板中模板标签，将所述有效关键词与所述模板标签进行匹配，并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置，生成标准简历报告并保存在简历库中。
如权利要求1所述的简历数据信息解析处理方法，其特征在于，所述对所述简历文本进行标签提取，得到标题标签包括：

获取所述简历文本中的文本行；

按照预设的特征指标对所述文本行进行特征提取，得到特征向量；

若所述特征向量满足预设的标签条件，则将所述文本行标识为所述标题标签。
如权利要求1所述的简历数据信息解析处理方法，其特征在于，所述有效关键词包括姓名，所述针对每个所述有效关键词，按照该有效关键词对应的数据解析方式，对所述简历文本进行解析，获取所述简历文本中每个所述有效关键词对应的所述数据信息包括：

获取所述姓名对应的名字数据块；

根据预设的姓名正则表达式，对所述名字数据块进行姓名数据识别，将识别出的所述姓名数据作为所述姓名对应的数据信息。
如权利要求1所述的简历数据信息解析处理方法，其特征在于，所述有效关键词包括教育经历或工作经历，所述针对每个所述有效关键词，按照该有效关键词对应的数据解析方式，对所述简历文本进行解析，获取所述简历文本中每个所述有效关键词对应的所述数据信息包括：

获取所述教育简历或所述工作经历对应的数据块；

根据预设的分值算法，对所述数据块进行分值计算，得到所述数据块的分数值；

若所述分数值大于预设的分数阈值，则将该分数值对应的目标数据块，确定为所述教育简历或所述工作经历对应的所述数据信息。
如权利要求4所述的简历数据信息解析处理方法，其特征在于，所述数据信息包括主时间段和每个主时间段对应的阶段数据信息，所述若所述分数值大于预设的分数阈值，则将该分数值对应的目标数据块，确定为所述教育简历或所述工作经历对应的所述数据信息之后，所述简历数据信息解析处理方法还包括：

根据预设的时间正则表达式，识别所述目标数据块中的基础时间段；

分析所述基础时间段的时间包含关系，确定所述基础时间段中的主时间段和子时间段；

按照所述主时间段对所述目标数据块进行拆分，得到每个所述主时间段对应的阶段数据信息。
如权利要求1至5任一项所述的简历数据信息解析处理方法，其特征在于，在所述根据预设的标准简历模板中模板标签，将所述有效关键词与所述模板标签进行匹配，并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置，生成标准简历报告并保存在简历库中之后，所述简历数据信息解析处理方法还包括：

若接收到所述用户发送的简历信息查询请求，则获取所述简历信息查询请求中的查询条件信息，其中，所述查询条件信息包括查询条件项和查询条件值；

将所述查询条件项与所述标准简历报告中的所述模板标签进行匹配，获取匹配成功的所述模板标签对应的目标数据信息；

将所述目标数据信息与所述查询条件值进行相似度比较，获取满足预设相似度条件的目标数据信息所在的标准简历报告。
一种简历数据信息解析处理装置，其特征在于，所述简历数据信息解析处理装置包括：

文件接收模块，用于接收用户上传的简历文件；

文件转换模块，用于按照预设的文本格式，对所述简历文件进行格式转换，得到所述简历文件对应的简历文本；

标签提取模块，用于对所述简历文本进行标签提取，得到标题标签；

标签匹配模块，用于根据预设的关键词，将所述标题标签与所述关键词进行匹配，将匹配成功的所述标题标签确定为有效关键词；

文本解析模块，用于针对每个所述有效关键词，按照该有效关键词对应的数据解析方式，对所述简历文本进行解析，获取所述简历文本中每个所述有效关键词对应的所述数据信息；

信息导入模块，用于根据预设的标准简历模板中模板标签，将所述有效关键词与所述模板标签进行匹配，并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置，生成标准简历报告并保存在简历库中。
如权利要求7所述的简历数据信息解析处理装置，其特征在于，所述标签提取模块包括：

文本获取单元，用于获取所述简历文本中的文本行；

特征提取单元，用于按照预设的特征指标对所述文本行进行特征提取，得到特征向量；

标签确定单元，用于若所述特征向量满足预设的标签条件，则将所述文本行标识为所述标题标签。
如权利要求7所述的简历数据信息解析处理装置，其特征在于，所述文本解析模块包括：

文本解析模块，用于获取所述姓名对应的名字数据块；

名字识别单元，用于根据预设的姓名正则表达式，对所述名字数据块进行姓名数据识别，将识别出的所述姓名数据作为所述姓名对应的数据信息。
如权利要求7所述的简历数据信息解析处理装置，其特征在于，所述文本解析模块还包括：

数据获取单元，用于获取所述教育简历或所述工作经历对应的数据块；

分值计算单元，用于根据预设的分值算法，对所述数据块进行分值计算，得到所述数据块的分数值；

数据确定单元，用于若所述分数值大于预设的分数阈值，则将该分数值对应的目标数据块，确定为所述教育简历或所述工作经历对应的所述数据信息。
如权利要求10所述的简历数据信息解析处理装置，其特征在于，所述简历数据信息解析处理装置还包括：

时间识别单元，用于根据预设的时间正则表达式，识别所述目标数据块中的基础时间段；

时间确定单元，用于分析所述基础时间段的时间包含关系，确定所述基础时间段中的主时间段和子时间段；

数据拆分单元，用于按照所述主时间段对所述目标数据块进行拆分，得到每个所述主时间段对应的阶段数据信息。
如权利要求7至11任一项所述的简历数据信息解析处理装置，其特征在于，所述简历数据信息解析处理装置还包括：

请求接收模块，用于若接收到所述用户发送的简历信息查询请求，则获取所述简历信息查询请求中的查询条件信息，其中，所述查询条件信息包括查询条件项和查询条件值；

条件匹配模块，用于将所述查询条件项与所述标准简历报告中的所述模板标签进行匹配，获取匹配成功的所述模板标签对应的目标数据信息；

报告获取模块，用于将所述目标数据信息与所述查询条件值进行相似度比较，获取满足预设相似度条件的目标数据信息所在的标准简历报告。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

接收用户上传的简历文件；

按照预设的文本格式，对所述简历文件进行格式转换，得到所述简历文件对应的简历文本；

对所述简历文本进行标签提取，得到标题标签；

根据预设的关键词，将所述标题标签与所述关键词进行匹配，将匹配成功的所述标题标签确定为有效关键词；

针对每个所述有效关键词，按照该有效关键词对应的数据解析方式，对所述简历文本进行解析，获取所述简历文本中每个所述有效关键词对应的所述数据信息；

根据预设的标准简历模板中模板标签，将所述有效关键词与所述模板标签进行匹配，并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置，生成标准简历报告并保存在简历库中。
如权利要求13所述的计算机设备，其特征在于，所述对所述简历文本进行标签提取，得到标题标签包括：

获取所述简历文本中的文本行；

按照预设的特征指标对所述文本行进行特征提取，得到特征向量；

若所述特征向量满足预设的标签条件，则将所述文本行标识为所述标题标签。
如权利要求13所述的计算机设备，其特征在于，所述有效关键词包括姓名，所述针对每个所述有效关键词，按照该有效关键词对应的数据解析方式，对所述简历文本进行解析，获取所述简历文本中每个所述有效关键词对应的所述数据信息包括：

获取所述姓名对应的名字数据块；

根据预设的姓名正则表达式，对所述名字数据块进行姓名数据识别，将识别出的所述姓名数据作为所述姓名对应的数据信息。
如权利要求13所述的计算机设备，其特征在于，所述有效关键词包括教育经历或工作经历，所述针对每个所述有效关键词，按照该有效关键词对应的数据解析方式，对所述简历文本进行解析，获取所述简历文本中每个所述有效关键词对应的所述数据信息包括：

获取所述教育简历或所述工作经历对应的数据块；

根据预设的分值算法，对所述数据块进行分值计算，得到所述数据块的分数值；

若所述分数值大于预设的分数阈值，则将该分数值对应的目标数据块，确定为所述教育简历或所述工作经历对应的所述数据信息。
如权利要求16所述的计算机设备，其特征在于，所述数据信息包括主时间段和每个主时间段对应的阶段数据信息，所述若所述分数值大于预设的分数阈值，则将该分数值对应的目标数据块，确定为所述教育简历或所述工作经历对应的所述数据信息之后，所述处理器执行所述计算机可读指令时还实现如下步骤：

根据预设的时间正则表达式，识别所述目标数据块中的基础时间段；

分析所述基础时间段的时间包含关系，确定所述基础时间段中的主时间段和子时间段；

按照所述主时间段对所述目标数据块进行拆分，得到每个所述主时间段对应的阶段数据信息。
如权利要求13至17任一项所述的计算机设备，其特征在于，在所述根据预设的标准简历模板中模板标签，将所述有效关键词与所述模板标签进行匹配，并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置，生成标准简历报告并保存在简历库中之后，所述处理器执行所述计算机可读指令时还实现如下步骤：

若接收到所述用户发送的简历信息查询请求，则获取所述简历信息查询请求中的查询条件信息，其中，所述查询条件信息包括查询条件项和查询条件值；

将所述查询条件项与所述标准简历报告中的所述模板标签进行匹配，获取匹配成功的所述模板标签对应的目标数据信息；

将所述目标数据信息与所述查询条件值进行相似度比较，获取满足预设相似度条件的目标数据信息所在的标准简历报告。
一个或多个存储有计算机可读指令的非易失性可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

接收用户上传的简历文件；

按照预设的文本格式，对所述简历文件进行格式转换，得到所述简历文件对应的简历文本；

对所述简历文本进行标签提取，得到标题标签；

根据预设的关键词，将所述标题标签与所述关键词进行匹配，将匹配成功的所述标题标签确定为有效关键词；

针对每个所述有效关键词，按照该有效关键词对应的数据解析方式，对所述简历文本进行解析，获取所述简历文本中每个所述有效关键词对应的所述数据信息；

根据预设的标准简历模板中模板标签，将所述有效关键词与所述模板标签进行匹配，并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置，生成标准简历报告并保存在简历库中。
如权利要求19所述的非易失性可读存储介质，其特征在于，所述对所述简历文本进行标签提取，得到标题标签包括：

获取所述简历文本中的文本行；

按照预设的特征指标对所述文本行进行特征提取，得到特征向量；

若所述特征向量满足预设的标签条件，则将所述文本行标识为所述标题标签。