WO2021174919A1

WO2021174919A1 - 简历数据信息解析及匹配方法、装置、电子设备及介质

Info

Publication number: WO2021174919A1
Application number: PCT/CN2020/131916
Authority: WO
Inventors: 侯丽; 周慧娟
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-03-06
Filing date: 2020-11-26
Publication date: 2021-09-10
Also published as: CN111428488A

Abstract

一种简历数据信息解析及匹配方法、装置、电子设备及介质。该方法能够对调取的简历进行预处理，得到待解析简历，并根据预先构建的分词词典构建词语切分有向无环图以切分所述待解析简历，进而能够快速得到待解析简历的分词结果，得到简历文本，进一步根据简历文本构建共现矩阵，并基于共现矩阵确定所述简历文本的关键词，并获取所述关键词中的字序列，利用词表示模型对所述字序列进行词表示处理，得到所述字序列的词表示，提升了解析效果，将所述词表示输入到简历标签解析模型中，得到简历标签序列，进一步计算简历标签序列中的每个标签与每个岗位的标签的相似度以确定与每个岗位匹配的简历，实现对岗位与简历快速且准确地智能匹配。

Description

简历数据信息解析及匹配方法、装置、电子设备及介质

本申请要求于2020年3月6日提交中国专利局、申请号为202010151399.9，发明名称为“简历数据信息解析及匹配方法、装置、电子设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种简历数据信息解析及匹配方法、装置、电子设备及介质。

背景技术

现有技术方案中，发明人意识到在进行简历匹配时，通常需要人工筛选，并匹配到与岗位相关联的简历，不仅要耗费大量的人力成本，且耗时较长。

而目前对简历的智能化筛选还只停留在去掉某些不符合要求的简历的初级阶段(如筛除掉不满足学历条件的简历)，还无法实现岗位与简历的自动匹配。

发明内容

鉴于以上内容，有必要提供一种简历数据信息解析及匹配方法、装置、电子设备及介质，能够实现对岗位与简历快速且准确地智能匹配。

一种简历数据信息解析及匹配方法，所述方法包括：

从数据库中调取简历，并对调取的简历进行预处理，得到待解析简历；

根据预先构建的分词词典构建词语切分有向无环图，并根据构建的词语切分有向无环图切分所述待解析简历，得到分词处理后的简历文本；

根据经过分词处理的所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词；

获取所述关键词中的字序列，并利用词表示模型对所述字序列进行处理，得到所述字序列的词表示；

将所述词表示输入到构建的简历标签解析模型中，得到预测的简历标签序列；

计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历。

一种简历数据信息解析及匹配装置，所述装置包括：

预处理单元，用于从数据库中调取简历，并对调取的简历进行预处理，得到待解析简历；

构建单元，用于根据预先构建的分词词典构建词语切分有向无环图，并根据构建的词语切分有向无环图切分所述待解析简历，得到分词处理后的简历文本；

确定单元，用于根据经过分词处理的所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词；

处理单元，用于获取所述关键词中的字序列，并利用词表示模型对所述字序列进行处理，得到所述字序列的词表示；

预测单元，用于将所述词表示输入到构建的简历标签解析模型中，得到预测的简历标签序列；

所述确定单元，还用于计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历。

一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现如下步骤：

一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现如下步骤：

附图说明

图1是本申请简历数据信息解析及匹配方法的较佳实施例的流程图。

图2是本申请简历数据信息解析及匹配装置的较佳实施例的功能模块图。

图3是本申请实现简历数据信息解析及匹配方法的较佳实施例的电子设备的结构示意图。

图4是本申请实现简历数据信息解析及匹配方法的较佳实施例中的共现矩阵的示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本申请进行详细描述。

如图1所示，是本申请简历数据信息解析及匹配方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

所述简历数据信息解析及匹配方法应用于一个或者多个电子设备中，所述电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit， ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television，IPTV)、智能式穿戴式设备等。

所述电子设备还可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。

所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

S10，从数据库中调取简历，并对调取的简历进行预处理，得到待解析简历。

在本申请的至少一个实施例中，所述数据库可以是与所述电子设备相通信的数据库，也可以是所述电子设备的内部数据库，根据不同的需求，可以进行自定义配置。

例如：所述数据库可以是人才库。所述电子设备从所述人才库中进行简历的调取和整理，得到大量简历。所述简历可以归纳成一个名词集合{姓名、性别、生日、政貌、学校、学历、专业、联系方式、籍贯、教育经历、技能……}，其中的每一项内容都有展开描述，并且每一项都有分隔符分开。由于求职这一社会行为的特殊性以及人与人之间的模仿，很多求职人员在描述自身特点方面有相当大的共性。所述电子设备从大量的具有共性的简历之中解析出包括简历挑选者感兴趣和关心的内容的简历，形成一个大致收敛的有限的简历集合，作为调取的简历。

在本申请的至少一个实施例中，由于在求职过程中，同一人有可能发送多份简历，因此所述电子设备可以首先将重复的简历进行剔除，从而实现简历的去重。

进一步地，由于简历中还存在一些冗余的停用词，同样会对解析产生不利影响，因此，还需要剔除停用词，即对调取的简历进行预处理。

具体地，所述电子设备对调取的简历进行预处理包括：

所述电子设备采用停用词表过滤方法对所述调取的简历进行去停用词处理。

其中，所述停用词是文本数据功能词中没有实际意义的词，对文本的分类没有影响，但是出现的频率高，具体可以包括常用的代词、介词等。所述停用词会降低文本分类效果的准确性。

进一步地，所述电子设备可以将调取的简历中的词语与预先构建好的停用词表进行一一匹配，如果匹配成功，那么该词语就是停用词，所述电子设备将该词删除。

S11，根据预先构建的分词词典构建词语切分有向无环图，并根据构建的词语切分有向无环图切分所述待解析简历，得到经过分词处理的简历文本。

在本申请的至少一个实施例中，所述分词词典可以包括前缀字典、自定义字典等。

其中，所述前缀词典包括统计的词典中每一个分词的前缀，例如：词典中的词“北京大学”的前缀分别是“北”、“北京”、“北京大”；词“大学”的前缀是“大”；所述自定义词典也可以称为专有名词词典，是在统计的词典中不存在，但是某领域特定、专有的词，如简历、工作经历等。

进一步地，所述电子设备根据预先构建的分词词典构建词语切分有向无环图，其中，每个词对应图中的一条有向边，并赋给相应的边长(权值)。进一步地，所述电子设备在起点到终点的所有路径中，求出长度值，并按严格升序排列(即：任何两个不同位置上的值一定不等，下同)，依次为第1，第2，…，第i，…，第N的路径集合，作为相应的粗分结果集。如果两条或两条以上路径的长度相等，那么他们的长度并列为第i，都要列入所述粗分结果集，而且不影响其他路径的排列序号，最后的粗分结果集的大小大于或等于N，据此得到经过分词处理的简历文本。

通过上述实施方式，能够利用分词词典及有向无环图快速得到简历文本的分词结果。

S12，根据经过分词处理的所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词。

在本申请的至少一个实施例中，所述电子设备根据所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词包括：

所述电子设备根据所述简历文本中每个分词出现的次数构建所述共现矩阵，并从所述共现矩阵中提取每个分词的词频(freq)及度(deg)，所述电子设备根据每个分词的词频及度计算每个分词的得分，进一步根据每个分词的得分对每个分词进行降序输出，得到所述简历文本的关键词。

例如：所述电子设备根据每个分词的得分对每个分词降序输出，得到前n个词语，如按score大小降序输出前1/3的词语作为所述简历文本的关键词。

其中，所述共现矩阵是通过统计一个事先指定大小的窗口内的词语的共现次数，以词语周边的共现词的次数作为当前词语的向量。

例如，当所述简历文本中有如下语料：

我擅长研究。(该语料中包括分词：“我”、“擅长”、“研究”及“。”，下面两个语料采取类似的分词方式，将不再一一列举)

我擅长编程。

我享受阅读。

根据上述简历文本中的语料，构建的共现矩阵X如图4所示。在本申请的至少一个实施例中，在得到所述简历文本的关键词后，所述方法还包括：

当有两个关键词在同一文档中相邻的次数大于预设值时，所述电子设备将所述两个关键词合并为新的关键词。

其中，所述预设值可以是2次等。

通过上述实施方式，能够将相似的关键词进一步合并，避免出现冗余关键词。

S13，获取所述关键词中的字序列，并利用词表示模型对所述字序列进行词表示处理，得到所述字序列的词表示。

在本申请的至少一个实施例中，所述电子设备利用词表示模型对所述字序列进行处理，得到所述字序列的词表示包括：

所述电子设备将所述关键词中的字序列输入所述词表示模型，并通过正向读取所述字序列生成包含所述字序列以及所述字序列的上文信息的第一向量，及通过反向读取所述字序列生成包含所述字序列以及所述字序列的下文信息的第二向量，所述电子设备连接所述第一向量及所述第二向量，得到包含所述字序列及所述字序列的上下文信息的词表示。

例如：对于给定一个包含n个关键字的非结构化文本简历的字序列Char＝(char ₁,char ₂…,char _n)，其中char _n是一个维度为d维的字向量，将所述非结构化文本字序列输入到词表示模型中，从而利用该词表示模型对字序列进行建模，通过正向读取字序列，以生成一个包含字序列以及字序列上文信息的向量，表示为CharF _i，同理，通过反向读取字序列，以生成一个包含字序列以及字序列下文信息的向量，表示为CharB _i，然后将CharF _i和CharB _i连接，形成一个包含字序列以及上下文信息的词表示：

Wd＝[CharF _i:CharB _i]

据此，所述电子设备得到所述字序列的词表示。

需要说明的是，在进行自然语言处理时，可以利用各种词表示模型将“词”这一符号信息表示成数学上的向量形式。词的向量表示可以作为各种机器学习模型的输入来使用。现有的词表示模型可以包括两大类：一类是syntagmatic models，一类是paradigmatic models。

进一步地，对于该词表示，所述电子设备还可以进一步使用正则表达匹配对其进行格式化处理，进而解析、分类，存入指定数据库中，以供后续使用。

S14，将所述词表示输入到构建的简历标签解析模型中，得到预测的简历标签序列。

在本申请的至少一个实施例中，所述简历标签解析模型是以大量的简历数据作为训练样本进行训练，并以验证集进行验证而得到。利用所述简历标签解析模型对非结构化的词表示进行解析，能够输出相对应的标签以形成所述简历标签序列。

例如：所述简历标签序列中的标签可以包括，但不限于：本科生、研究生、熟练掌握WORD等。

在本申请的至少一个实施例中，所述方法还包括：

所述电子设备获取简历数据，拆分所述简历数据，得到训练集和验证集，进一步地，利用所述验证集训练CRF模型，并采用条件对数似然函数及最大分值公式预测目标标签序列，以所述验证集验证所述目标标签序列，当所述目标标签序列通过验证时，停止训练并得到所述简历标签解析模型。

其中，所述是指预测的最适合的标签序列。

具体地，所述电子设备采用CRF(conditional random field，条件随机场)进行建模。假定得到非结构化文本的关键字信息的输出目标序列(即对应的标签序列)为：y＝(y ₁,…y _n)。为了有效获得非结构化文本简历信息的目标序列，模型的分值公式定义如下：

其中，P表示双向LSTM算法(Long short-term memory，长短期记忆算法)的输出分值矩阵，其大小为n×k，k表示目标标签的数量，所述目标标签即对该简历的概述评价，n表示词序列的长度，A表示转移分值矩阵。当j＝0时，y ₀表示的是一个序列开始的标志，当j＝n时，y _n+1表示的是一个序列结束的标志，A方阵的大小为k+2。

在所有简历信息的标签序列上，CRF生成目标序列y的概率为：

其中，Y _Wd代表简历信息序列Wd对应的所有可能标签序列。在训练过程中，为了获得简历信息正确的标签序列，将采用最大化正确标签序列的条件对数似然函数进行计算，并使用最大分值公式预测最合适的标签序列：

通过上述实施方式，结合条件对数似然函数及最大分值公式，能够提升模型的准确率。

S15，计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历。

在本申请的至少一个实施例中，所述电子设备计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历包括：

所述电子设备计算每个标签与每个岗位的标签之间的余弦距离，当存在目标标签与目标岗位之间的余弦距离小于或者等于预设距离时，所述电子设备从所述待解析简历中调取所述目标标签对应的目标简历，并确定所述目标简历与所述目标岗位相匹配。

具体地，所述余弦距离是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似。

例如：对于所得到的简历标签序列X和入职岗位所需要的简历标签序列Y，利用下列式子进行计算，式中X _i表示简历标签序列X中第i个向量，Y _i表示入职岗位所需要的简历标签序列Y中第i个向量：

产生的相似性范围从-1到1，其中，-1意味着两个向量指向的方向正好截然相反，1表示它们的指向是完全相同的，0通常表示它们之间是独立的，而在这之间的值则表示中度的相似性或相异性，根据这一算法，能够对每份岗位选取标签相似度较高的简历，以进行快速匹配入职。

在本申请的至少一个实施例中，所述电子设备还可以根据得到的简历标签序列及配置的相应的权重(如：研究生标签在简历评分中所占权重为0.2，而本科生标签在简历评分中所占权重为0.1)，将所述简历标签序列通过得分进行表示，进一步根据得分快速筛选出所需的员工。

由以上技术方案可以看出，本申请能够从数据库中调取简历，并对调取的简历进行预处理，得到待解析简历，根据预先构建的分词词典构建词语切分有向无环图，并根据构建的词语切分有向无环图切分所述待解析简历，得到分词处理后的简历文本，进而能够快速得到待解析简历的分词结果，进一步根据所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词，获取所述关键词中的字序列，并利用词表示模型对所述字序列进行处理，得到所述字序列的词表示，提升了解析效果，将所述词表示输入到构建的简历标签解析模型中，得到预测的简历标签序列，进一步计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历，实现对岗位与简历快速且准确地智能匹配。

如图2所示，是本申请简历数据信息解析及匹配装置的较佳实施例的功能模块图。所述简历数据信息解析及匹配装置11包括预处理单元110、构建单元111、确定单元112、处理单元113、预测单元114、合并单元115、训练单元116、获取单元117、拆分单元118、验证单元119。本申请所称的模块/单元是指一种能够被处理器13所执行，并且能够完成固定功能的一系列计算机程序段，其存储在存储器12中。在本实施例中，关于各模块/单元的功能将在后续的实施例中详述。

预处理单元110从数据库中调取简历，并对调取的简历进行预处理，得到待解析简历。

在本申请的至少一个实施例中，所述数据库可以是与电子设备相通信的数据库，也可以是所述电子设备的内部数据库，根据不同的需求，可以进行自定义配置。

例如：所述数据库可以是人才库。所述预处理单元110从所述人才库中进行简历的调取和整理，得到大量简历。所述简历可以归纳成一个名词集合{姓名、性别、生日、政貌、学校、学历、专业、联系方式、籍贯、教育经历、技能……}，其中的每一项内容都有展开描述，并且每一项都有分隔符分开。由于求职这一社会行为的特殊性以及人与人之间的模仿，很多求职人员在描述自身特点方面有相当大的共性。所述预处理单元110从大量的具有共性的简历之中解析出包括简历挑选者感兴趣和关心的内容的简历，形成一个大致收敛的有限的简历集合，作为所述调取的简历。

在本申请的至少一个实施例中，由于在求职过程中，同一人有可能发送多份简历，因此可以首先将重复的简历进行剔除，从而实现简历的去重。

具体地，所述预处理单元110对调取的简历进行预处理包括：

所述预处理单元110采用停用词表过滤方法对所述调取的简历进行去停用词处理。

进一步地，所述预处理单元110可以将调取的简历中的词语与预先构建好的停用词表进行一一匹配，如果匹配成功，那么该词语就是停用词，所述预处理单元110将该词删除。

构建单元111根据预先构建的分词词典构建词语切分有向无环图，并根据构建的词语切分有向无环图切分所述待解析简历，得到分词处理后的简历文本。

进一步地，所述构建单元111根据预先构建的分词词典构建词语切分有向无环图，其中，每个词对应图中的一条有向边，并赋给相应的边长(权值)。进一步地，所述构建单元111在起点到终点的所有路径中，求出长度值，并按严格升序排列(即：任何两个不同位置上的值一定不等，下同)，依次为第1，第2，…，第i，…，第N的路径集合，作为相应的粗分结果集。如果两条或两条以上路径的长度相等，那么他们的长度并列为第i，都要列入所述粗分结果集，而且不影响其他路径的排列序号，最后的粗分结果集的大小大于或等于N，据此得到经过分词处理的简历文本。

确定单元112根据所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词。

在本申请的至少一个实施例中，所述确定单元112根据所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词包括：

所述确定单元112根据所述简历文本中每个分词出现的次数构建所述共现矩阵，并从所述共现矩阵中提取每个分词的词频(freq)及度(deg)，所述确定单元112根据每个分词的词频及度计算每个分词的得分，进一步根据每个分词的得分对每个分词进行降序输出，得到所述简历文本的关键词。

例如：所述确定单元112根据每个分词的得分对每个分词降序输出，得到前n个词语，如按score大小降序输出前1/3的词语作为所述简历文本的关键词。

例如，当所述简历文本中有如下语料：

我擅长编程。

我享受阅读。

当有两个关键词在同一文档中相邻的次数大于预设值时，合并单元115将所述两个关键词合并为新的关键词。

其中，所述预设值可以是2次等。

处理单元113获取所述关键词中的字序列，并利用词表示模型对所述字序列进行词表示处理，得到所述字序列的词表示。

在本申请的至少一个实施例中，所述处理单元113利用词表示模型对所述字序列进行处理，得到所述字序列的词表示包括：

所述处理单元113将所述关键词中的字序列输入所述词表示模型，并通过正向读取所述字序列生成包含所述字序列以及所述字序列的上文信息的第一向量，及通过反向读取所述字序列生成包含所述字序列以及所述字序列的下文信息的第二向量，所述处理单元113连接所述第一向量及所述第二向量，得到包含所述字序列及所述字序列的上下文信息的词表示。

Wd＝[CharF _i:CharB _i]

据此，所述处理单元113得到所述字序列的词表示。

预测单元114将所述词表示输入到构建的简历标签解析模型中，得到预测的简历标签序列。

在本申请的至少一个实施例中，训练所述简历标签解析模型包括：

获取单元117获取简历数据，拆分单元118拆分所述简历数据，得到训练集和验证集，进一步地，验证单元119利用所述验证集训练CRF模型，训练单元116采用条件对数似然函数及最大分值公式预测目标标签序列，以所述验证集验证所述目标标签序列，当所述目标标签序列通过验证时，所述训练单元116停止训练并得到所述简历标签解析模型。

其中，所述是指预测的最适合的标签序列。

具体地，所述训练单元116采用CRF(conditional random field，条件随机场)进行建模。假定得到非结构化文本的关键字信息的输出目标序列(即对应的标签序列)为：y＝(y ₁,…y _n)。为了有效获得非结构化文本简历信息的目标序列，模型的分值公式定义如下：

在所有简历信息的标签序列上，CRF生成目标序列y的概率为：

其中，Y _Wd代表简历信息序列Wd对应的所有可能标签序列。在训练过程中，为了获得简历信息正确的标签序列，所述训练单元116将采用最大化正确标签序列的条件对数似然函数进行计算，并使用最大分值公式预测最合适的标签序列：

所述确定单元112计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历。

在本申请的至少一个实施例中，所述确定单元112计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历包括：

所述确定单元112计算每个标签与每个岗位的标签之间的余弦距离，当存在目标标签与目标岗位之间的余弦距离小于或者等于预设距离时，所述确定单元112从所述待解析简历中调取所述目标标签对应的目标简历，并确定所述目标简历与所述目标岗位相匹配。

在本申请的至少一个实施例中，所述确定单元112还可以根据得到的简历标签序列及配置的相应的权重(如：研究生标签在简历评分中所占权重为0.2，而本科生标签在简历评分中所占权重为0.1)，将所述简历标签序列通过得分进行表示，进一步根据得分快速筛选出所需的员工。

由以上技术方案可以看出，本申请能够从数据库中调取简历，并对调取的简历进行预处理，得到待解析简历，根据预先构建的分词词典构建词语切分有向无环图，并根据构建的词语切分有向无环图切分所述待解析简历，得到简历文本，进而能够快速得到待解析简历的分词结果，进一步根据所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词，获取所述关键词中的字序列，并利用词表示模型对所述字序列进行处理，得到所述字序列的词表示，提升了解析效果，将所述词表示输入到构建的简历标签解析模型中，得到预测的简历标签序列，进一步计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历，实现对岗位与简历快速且准确地智能匹配。

如图3所示，是本申请实现简历数据信息解析及匹配方法的较佳实施例的电子设备的结构示意图。

所述电子设备1可以包括存储器12、处理器13和总线，还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如简历数据信息解析及匹配程序。

本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，所述电子设备1既可以是总线型结构，也可以是星形结构，所述电子设备1还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置，例如所述电子设备1还可以包括输入输出设备、网络接入设备等。

需要说明的是，所述电子设备1仅为举例，其他现有的或今后可能出现的电子产品如可适应于本申请，也应包含在本申请的保护范围以内，并以引用方式包含于此。

其中，存储器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地，存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如简历数据信息解析及匹配程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器13在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述电子设备1的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备1的各个部件，通过运行或执行存储在所述存储器12内的程序或者模块(例如执行简历数据信息解析及匹配程序等)，以及调用存储在所述存储器12内的数据，以执行电子设备1的各种功能和处理数据。

所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个简历数据信息解析及匹配方法实施例中的步骤，例如图1所示的步骤S10、S11、S12、S13、S14、S15。

或者，所述处理器13执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如：

根据分词处理后的所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词；

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如，所述计算机程序可以被分割成预处理单元110、构建单元111、确定单元112、处理单元113、预测单元114、合并单元115、训练单元116、获取单元117、拆分单元118、验证单元119。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中，所述计算机可读存储介质可以是非易失性，也可以是易失性。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。

所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指示相关的硬件设备来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。

其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，在图3中仅用一根箭头表示，但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。

尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器13逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

图3仅示出了具有组件12-13的电子设备1，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

结合图1，所述电子设备1中的所述存储器12存储多个指令以实现一种简历数据信息解析及匹配方法，所述处理器13可执行所述多个指令从而实现：

具体地，所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

一种简历数据信息解析及匹配方法，其中，所述方法包括：

从数据库中调取简历，并对调取的简历进行预处理，得到待解析简历；

根据预先构建的分词词典构建词语切分有向无环图，并根据构建的词语切分有向无环图切分所述待解析简历，得到分词处理后的简历文本；

根据经过分词处理的所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词；

获取所述关键词中的字序列，并利用词表示模型对所述字序列进行词表示处理，得到所述字序列的词表示；

将所述词表示输入到构建的简历标签解析模型中，得到预测的简历标签序列；

计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历。
如权利要求1所述的简历数据信息解析及匹配方法，其中，所述对调取的简历进行预处理包括：

采用停用词表过滤方法对所述调取的简历进行去停用词处理。
如权利要求1所述的简历数据信息解析及匹配方法，其中，所述根据所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词包括：

根据所述简历文本中每个分词出现的次数构建所述共现矩阵；

从所述共现矩阵中提取每个分词的词频及角度；

根据每个分词的词频及角度计算每个分词的得分；

根据每个分词的得分对每个分词进行降序输出，得到所述简历文本的关键词。
如权利要求3所述的简历数据信息解析及匹配方法，其中，在得到所述简历文本的关键词后，所述方法还包括：

当有两个关键词在同一文档中相邻的次数大于预设值时，将所述两个关键词合并为新的关键词。
如权利要求1所述的简历数据信息解析及匹配方法，其中，所述利用词表示模型对所述字序列进行词表示处理，得到所述字序列的词表示包括：

将所述关键词中的字序列输入所述词表示模型，并通过正向读取所述字序列生成包含所述字序列以及所述字序列的上文信息的第一向量，及通过反向读取所述字序列生成包含所述字序列以及所述字序列的下文信息的第二向量；

连接所述第一向量及所述第二向量，得到包含所述字序列及所述字序列的上下文信息的词表示。
如权利要求1所述的简历数据信息解析及匹配方法，其中，所述方法还包括：

获取简历数据；

拆分所述简历数据，得到训练集和验证集；

利用所述验证集训练CRF模型，并采用条件对数似然函数及最大分值公式预测目标标签序列；

以所述验证集验证所述目标标签序列；

当所述目标标签序列通过验证时，停止训练并得到所述简历标签解析模型。
如权利要求1所述的简历数据信息解析及匹配方法，其中，所述计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历包括：

计算每个标签与每个岗位的标签之间的余弦距离；

当存在目标标签与目标岗位之间的余弦距离小于或者等于预设距离时，从所述待解析简历中调取所述目标标签对应的目标简历；

确定所述目标简历与所述目标岗位相匹配。
一种简历数据信息解析及匹配装置，其中，所述装置包括：

预处理单元，用于从数据库中调取简历，并对调取的简历进行预处理，得到待解析简历；

构建单元，用于根据预先构建的分词词典构建词语切分有向无环图，并根据构建的词语切分有向无环图切分所述待解析简历，得到分词处理后的简历文本；

确定单元，用于根据经过分词处理的所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词；

处理单元，用于获取所述关键词中的字序列，并利用词表示模型对所述字序列进行词表示处理，得到所述字序列的词表示；

预测单元，用于将所述词表示输入到构建的简历标签解析模型中，得到预测的简历标签序列；

所述确定单元，还用于计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历。
一种电子设备，其中，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现如下步骤：

从数据库中调取简历，并对调取的简历进行预处理，得到待解析简历；

根据预先构建的分词词典构建词语切分有向无环图，并根据构建的词语切分有向无环图切分所述待解析简历，得到分词处理后的简历文本；

根据经过分词处理的所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词；

获取所述关键词中的字序列，并利用词表示模型对所述字序列进行词表示处理，得到所述字序列的词表示；

将所述词表示输入到构建的简历标签解析模型中，得到预测的简历标签序列；

计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历。
如权利要求9所述的电子设备，其中，所述对调取的简历进行预处理包括：

采用停用词表过滤方法对所述调取的简历进行去停用词处理。
如权利要求9所述的电子设备，其中，所述根据所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词包括：

根据所述简历文本中每个分词出现的次数构建所述共现矩阵；

从所述共现矩阵中提取每个分词的词频及角度；

根据每个分词的词频及角度计算每个分词的得分；

根据每个分词的得分对每个分词进行降序输出，得到所述简历文本的关键词。
如权利要求11所述的电子设备，其中，在得到所述简历文本的关键词后，所述方法还包括：

当有两个关键词在同一文档中相邻的次数大于预设值时，将所述两个关键词合并为新的关键词。
如权利要求9所述的电子设备，其中，所述利用词表示模型对所述字序列进行词表示处理，得到所述字序列的词表示包括：

将所述关键词中的字序列输入所述词表示模型，并通过正向读取所述字序列生成包含所述字序列以及所述字序列的上文信息的第一向量，及通过反向读取所述字序列生成包含所述字序列以及所述字序列的下文信息的第二向量；

连接所述第一向量及所述第二向量，得到包含所述字序列及所述字序列的上下文信息的词表示。
如权利要求9所述的电子设备，其中，执行所述存储器中存储的指令时还实现如下步骤：

获取简历数据；

拆分所述简历数据，得到训练集和验证集；

利用所述验证集训练CRF模型，并采用条件对数似然函数及最大分值公式预测目标标签序列；

以所述验证集验证所述目标标签序列；

当所述目标标签序列通过验证时，停止训练并得到所述简历标签解析模型。
如权利要求9所述的电子设备，其中，所述计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历包括：

计算每个标签与每个岗位的标签之间的余弦距离；

当存在目标标签与目标岗位之间的余弦距离小于或者等于预设距离时，从所述待解析简历中调取所述目标标签对应的目标简历；

确定所述目标简历与所述目标岗位相匹配。
一种计算机可读存储介质，其中：所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现如下步骤：

从数据库中调取简历，并对调取的简历进行预处理，得到待解析简历；

根据预先构建的分词词典构建词语切分有向无环图，并根据构建的词语切分有向无环图切分所述待解析简历，得到分词处理后的简历文本；

根据经过分词处理的所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词；

获取所述关键词中的字序列，并利用词表示模型对所述字序列进行词表示处理，得到所述字序列的词表示；

将所述词表示输入到构建的简历标签解析模型中，得到预测的简历标签序列；

计算所述简历标签序列中的每个标签与每个岗位的标签的相似度，并根据计算的相似度从所述待解析简历中确定与每个岗位匹配的简历。
如权利要求16所述的计算机可读存储介质，其中，所述对调取的简历进行预处理包括：

采用停用词表过滤方法对所述调取的简历进行去停用词处理。
如权利要求16所述的计算机可读存储介质，其中，所述根据所述简历文本构建共现矩阵，并基于所述共现矩阵确定所述简历文本的关键词包括：

根据所述简历文本中每个分词出现的次数构建所述共现矩阵；

从所述共现矩阵中提取每个分词的词频及角度；

根据每个分词的词频及角度计算每个分词的得分；

根据每个分词的得分对每个分词进行降序输出，得到所述简历文本的关键词。
如权利要求18所述的计算机可读存储介质，其中，在得到所述简历文本的关键词后，所述方法还包括：

当有两个关键词在同一文档中相邻的次数大于预设值时，将所述两个关键词合并为新的关键词。
如权利要求16所述的计算机可读存储介质，其中，所述利用词表示模型对所述字序列进行词表示处理，得到所述字序列的词表示包括：

将所述关键词中的字序列输入所述词表示模型，并通过正向读取所述字序列生成包含所述字序列以及所述字序列的上文信息的第一向量，及通过反向读取所述字序列生成包含所述字序列以及所述字序列的下文信息的第二向量；

连接所述第一向量及所述第二向量，得到包含所述字序列及所述字序列的上下文信息的词表示。