WO2021169111A1 - 简历筛选方法、装置、计算机设备和存储介质 - Google Patents

简历筛选方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2021169111A1
WO2021169111A1 PCT/CN2020/098678 CN2020098678W WO2021169111A1 WO 2021169111 A1 WO2021169111 A1 WO 2021169111A1 CN 2020098678 W CN2020098678 W CN 2020098678W WO 2021169111 A1 WO2021169111 A1 WO 2021169111A1
Authority
WO
WIPO (PCT)
Prior art keywords
resume
text
target
similarity
detected
Prior art date
Application number
PCT/CN2020/098678
Other languages
English (en)
French (fr)
Inventor
杨志专
Original Assignee
平安国际智慧城市科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安国际智慧城市科技股份有限公司 filed Critical 平安国际智慧城市科技股份有限公司
Publication of WO2021169111A1 publication Critical patent/WO2021169111A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

一种简历筛选方法、装置、计算机设备和存储介质,涉及人工智能领域,该方法包括:获取多个待检测简历文本;对每个待检测简历文本进行实体识别,得到简历关键词,根据简历关键词得到简历关键词向量;将简历关键词向量输入已建立的简历筛选模型中,得到每个待检测简历文本的通过概率,根据通过概率确定至少一个第一目标简历文本;获取职位描述文本,提取职位描述文本中的职位关键词,根据职位关键词得到职位关键词向量;获取每个第一目标简历文本对应的简历关键词向量,根据第一目标简历文本对应的简历关键词向量和职位关键词向量计算文本相似度;根据文本相似度确定第二目标简历文本。

Description

简历筛选方法、装置、计算机设备和存储介质
相关申请的交叉引用
本申请要求于2020年02月28日提交中国专利局,申请号为2020101284237,申请名称为“简历筛选方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及一种简历筛选方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,求职者通常通过招聘网站投递简历,从而寻找工作。而企业通常在招聘网站发布职位相关信息来获取求职者投递的简历,往往一个职位通常会得到大量的简历投递。目前,企业是按照预先设置好的规则通过服务器对简历进行筛选检测,筛选掉大量不合格的简历,从而提高简历筛选的效率。
然而,发明人意识到服务器通过预先设置好的规则进行筛选检测,存在简历筛选检测准确性低的情况,导致漏筛或者错筛。
发明内容
根据本申请公开的各种实施例,提供一种简历筛选方法、装置、计算机设备和存储介质。
一种简历筛选方法,所述方法包括:
接收简历筛选指令,根据简历筛选指令获取多个待检测简历文本;
对每个待检测简历文本进行实体识别,得到每个待检测简历文本对应的简历关键词,将每个待检测简历文本对应的简历关键词向量化,得到每个待检测简历文本对应的简历关键词向量;
将每个待检测简历文本对应的简历关键词向量输入到预先建立的简历分类模型中,得到每个待检测简历文本对应的通过概率,根据通过概率确定至少一个第一目标简历文本;
获取职位描述文本,提取职位描述文本中的职位关键词,将职位关键词向量化,得到职位关键词向量;
获取每个第一目标简历文本对应的简历关键词向量,根据第一目标简历文本对应的简历关键词向量和职位关键词向量计算每个第一目标简历文本与职位描述文本的各个文本相似度;及
根据各个文本相似度从所述第一目标简历文本中确定第二目标简历文本。
一种简历筛选装置,所述装置包括:
文本获取模块,用于接收简历筛选指令,根据简历筛选指令获取多个待检测简历文本;
简历向量得到模块,用于对每个待检测简历文本进行实体识别,得到每个待检测简历文本对应的简历关键词,将每个待检测简历文本对应的简历关键词向量化,得到每个待检 测简历文本对应的简历关键词向量;
第一文本确定模块,用于将每个待检测简历文本对应的简历关键词向量输入到预先建立的简历分类模型中,得到每个待检测简历文本对应的通过概率,根据通过概率确定至少一个第一目标简历文本;
职位向量得到模块,用于获取职位描述文本,提取职位描述文本中的职位关键词,将职位关键词向量化,得到职位关键词向量;
文本相似度计算模块,用于获取每个第一目标简历文本对应的简历关键词向量,根据第一目标简历文本对应的简历关键词向量和职位关键词向量计算每个第一目标简历文本与职位描述文本的各个文本相似度;及
第二文本确定模块,用于根据各个文本相似度从所述第一目标简历文本中确定第二目标简历文本。
一种计算机设备,包括存储器和一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述一个或多个处理器执行以下步骤:
接收简历筛选指令,根据简历筛选指令获取多个待检测简历文本;
对每个待检测简历文本进行实体识别,得到每个待检测简历文本对应的简历关键词,将每个待检测简历文本对应的简历关键词向量化,得到每个待检测简历文本对应的简历关键词向量;
将每个待检测简历文本对应的简历关键词向量输入到预先建立的简历分类模型中,得到每个待检测简历文本对应的通过概率,根据通过概率确定至少一个第一目标简历文本;
获取职位描述文本,提取职位描述文本中的职位关键词,将职位关键词向量化,得到职位关键词向量;
获取每个第一目标简历文本对应的简历关键词向量,根据第一目标简历文本对应的简历关键词向量和职位关键词向量计算每个第一目标简历文本与职位描述文本的各个文本相似度;及
根据各个文本相似度从所述第一目标简历文本中确定第二目标简历文本。
一个或多个存储有计算机可读指令的计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
接收简历筛选指令,根据简历筛选指令获取多个待检测简历文本;
对每个待检测简历文本进行实体识别,得到每个待检测简历文本对应的简历关键词,将每个待检测简历文本对应的简历关键词向量化,得到每个待检测简历文本对应的简历关键词向量;
将每个待检测简历文本对应的简历关键词向量输入到预先建立的简历分类模型中,得到每个待检测简历文本对应的通过概率,根据通过概率确定至少一个第一目标简历文本;
获取职位描述文本,提取职位描述文本中的职位关键词,将职位关键词向量化,得到职位关键词向量;
获取每个第一目标简历文本对应的简历关键词向量,根据第一目标简历文本对应的简历关键词向量和职位关键词向量计算每个第一目标简历文本与职位描述文本的各个文本相似度;及
根据各个文本相似度从所述第一目标简历文本中确定第二目标简历文本。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据一个或多个实施例中简历筛选方法的应用场景图;
图2为根据一个或多个实施例中简历筛选方法的流程示意图;
图3为根据一个或多个实施例中得到简历关键词的流程示意图;
图4为根据一个或多个实施例中确定文本相似度的流程示意图;
图5为根据一个或多个实施例中确定第三目标简历文本的流程示意图;
图6为根据一个或多个实施例中根据文本信息筛选检测的流程示意图;
图7为根据一个或多个具体实施例中简历筛选方法的示意图;
图8为根据一个或多个实施例中简历筛选装置的框图;
图9为根据一个或多个实施例中计算机设备的框图。
具体实施方式
为了使本申请的技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的简历筛选方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104接收终端102发送的简历筛选指令,根据简历筛选指令获取多个待检测简历文本;服务器104对每个待检测简历文本进行实体识别,得到每个待检测简历文本对应的简历关键词,将每个待检测简历文本对应的简历关键词向量化,得到每个待检测简历文本对应的简历关键词向量;服务器104将每个待检测简历文本对应的简历关键词向量输入到预先建立的简历分类模型中,得到每个待检测简历文本对应的通过概率,根据通过概率确定至少一个第一目标简历文本;服务器104获取职位描述文本,提取职位描述文本中的职位关键词,将职位关键词向量化,得到职位关键词向量;服务器104获取每个第一目标简历文本对应的简历关键词向量,根据第一目标简历文本对应的简历关键词向量和职位关键词向量计算每个第一目标简历文本与职位描述文本的各个文本相似度;根据各个文本相似度从所述第一目标简历文本中确定第二目标简历文本。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一些实施例中,如图2所示,提供了一种简历筛选方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,接收简历筛选指令,根据简历筛选指令获取多个待检测简历文本;
S204,对每个待检测简历文本进行实体识别,得到每个待检测简历文本对应的简历关 键词,将每个待检测简历文本对应的简历关键词向量化,得到每个待检测简历文本对应的简历关键词向量。
待检测简历文本是指需要进行筛选检测的简历文本,该简历文本中包括了求职者的简历信息。比如,简历文本中可以包括求职者的性别、年龄、学历、毕业学校、已工作单位、已工作年限、工作地点、项目经历信息、工作技能信息等等。该各个待检测简历文本是预先存储到简历数据库中的。实体识别是指识别出待检测简历文本中具有特定意义的实体词。简历关键词是指对待检测文本进行解析和后结构化处理,提取出的关键词,比如,项目经历信息中的简历关键词可能有机器学习、深度学习、图像处理、java(面向对象编程语言)、python(一种跨平台的计算机可读指令设计语言)等等。简历关键词向量是将简历关键词向量化后得到的,可以使用已训练的神经网络语言模型(NNLM,NerualNetworkLanguageModel)进行向量化。
具体地,企业管理终端向服务器发送简历筛选指令,服务器接收到简历筛选指令,根据简历筛选指令从简历数据库中获取需要进行筛选多个待检测简历文本,分别对每个待检测简历文本进行实体识别,得到每个待检测简历文本对应的简历关键词,其中,每个待检测简历文本对应有多个简历关键词,不同的待检测简历文本会有不同的简历关键词。将每个简历关键词向量化,得到每个待检测简历文本对应的简历关键词向量。
S206,将每个待检测简历文本对应的简历关键词向量输入到已建立的简历分类模型中,得到每个待检测简历文本对应的通过概率,根据通过概率确定至少一个第一目标简历文本。
其中,已建立的简历分类模型是根据历史简历文本和对应的历史筛选结果使用机器学习分类算法进行训练得到的。其中,机器学习分类算法可以是决策树或者随机森林或者GBDT(GradientBoostingDecisionTree,梯度提升迭代决策树)等树类分类预测算法。该已建立的简历分类模型的主要目的是保证召回率,该已建立的简历分类模型在训练时使用的特征为历史简历文本中的基础信息(比如性别,年龄,学历,教育背景等),即非职位专业信息。通过概率是指经过已建立的简历分类模型进行预测后得到的待检测简历文本的筛选通过概率。第一目标简历文本是经过已建立的简历筛选模型进行初步筛选后得到的待筛选简历文本。
具体地,服务器分别将每个待检测简历文本对应的简历关键词向量输入到已建立的简历分类模型中进行筛选,得到每个待检测简历文本对应的通过概率,根据通过概率确定至少一个第一目标简历文本。也可以将通过概率超过预设阈值的待检测简历文本作为第一目标简历文本。
S208,获取职位描述文本,提取职位描述文本中的职位关键词,将职位关键词向量化,得到职位关键词向量。
其中,职位描述文本是指企业发布在招聘网站中的职位描述信息。职位描述是指又叫职位界定,对经过职位分析得到的关于某一特定职位的职责和工作内容进行的一种书面记录。主要包括工作名称、工作职责、任职条件、工作所要求的技能等等。职位关键词是指职位描述文本中的关键词,可以使用关键词提取算法进行提取,关键词提取算法可以是TextRank、TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)和LDA(Latent Dirichlet Allocation,文档主题生成模型)等等,也可以是通过已训练的神经 网络语言模型进行提取。
具体地,服务器获取到职位描述文本,该职位描述文本是各个待检测简历文本对应的投递职位描述文本。使用关键词提取算法提取职位描述文本中的职位关键词,将职位关键词使用词袋模型向量化,得到职位关键词向量,其中词袋模型是指one-hot模型、TF-IDF模型、Huffman编码模型等。也可以使用Skip-gram(Continuous Skip-gram Model,跳字模型)或者cbow(Continuous Bag-of-Words Model,连续词袋模型)模型将职位关键词使用词袋模型向量化,得到职位关键词向量。
S210,获取每个第一目标简历文本对应的简历关键词向量,根据第一目标简历文本对应的简历关键词向量和职位关键词向量计算每个第一目标简历文本与职位描述文本的文本相似度。
具体地,服务器获取到各个第一目标简历文本对应的简历关键词向量,可以使用距离相似度算法计算第一目标简历文本对应的简历关键词向量与职位关键词向量的相似度,其中,距离相似度算法可以使用欧几里得距离算法、余弦相似度算法等等。将得到的相似度作为对应的第一目标简历文本与职位描述文本的文本相似度,计算出各个第一目标简历文本与职位描述文本的各个文本相似度。
S212,根据文本相似度从第一目标简历文本中确定第二目标简历文本。
其中,第二目标简历文本是指与职位描述文本进行相似度筛选检测后得到的第一目标简历文本。
具体地,服务器可以根据预先设置好的文本相似度阈值从各个文本相似度中选取超过文本相似度阈值的文本相似度,并确定超过文本相似度阈值的文本相似度对应的第一目标简历文本,将第一目标简历文本作为第二目标简历文本。可以将第二目标简历文本作为简历筛选通过的待检测简历文本,然后将通过的待检测简历文本返回到管理终端进行展示。
在上述简历筛选方法中,通过获取到每个待检测简历文本,将每个待检测简历文本先通过已建立的简历筛选模型进行第一次的筛选检测,从每个待检测简历文本中确定至少一个第一目标简历文本。此时获取职位描述文本,通过计算职位描述文本和每个第一目标简历文本之间的相似度,根据相似度从第一目标简历文本中确定第二目标简历文本,将第二目标简历文本作为筛选通过的简历文本,通过二次筛选检测,提高了简历文本筛选检测的准确性,使得到的检测通过的简历文本更加准确。
在一些实施例中,如图3所示,步骤S204,即对每个待检测简历文本进行实体识别,得到每个待检测简历文本对应的简历关键词,包括步骤:
S302,获取待检测简历文本中基础字段和专业字段。
其中,基础字段是指待检测简历文本描述求职者基础信息的字段,比如,年龄、性别、毕业学校、学历、过往工作公司,工作年限,工作地点等等。专业字段是指待检测简历文本中描述求职者与职位相关的专业信息字段,比如:项目经历信息、工作经验信息、获得证书信息、编程语言信息和工作技能信息等等。
具体地,服务器获取到待检测简历文本中基础字段和专业字段。
S304,提取基础字段对应的基础关键词。
具体地,基础关键词是指基础字段对应的关键词,由于基础字段描述求职者的基础信息,服务器可以直接使用基础字段的内容作为基础关键词。
S306,将专业字段输入到已训练的实体识别模型中,得到专业字段对应的专业关键词,根据基础关键词和专业关键词得到待检测简历文本对应的简历关键词。
其中,已训练的实体识别模型是指预先根据已有的职位专业信息使用CRF(conditional random field,条件随机场)和biLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆神经网络)进行训练得到的。其中,Bi-LSTM和CRF是在原来的Bi-LSTM和最大熵的基础上优化过来的,通过在Bi-LSTM的上面挂了一层条件随机场模型作为模型的解码层,在条件随机场模型里面考虑预测结果之间的合理性,提高了识别的准确性。
具体的,服务器将专业字段输入到已训练的实体识别模型中,得到专业字段对应的专业关键词,将基础关键词和专业关键词作为待检测简历文本对应的简历关键词。
在上述实例中,通过对基础字段进行提取,对专业字段使用实体识别模型识别,提高了得到待检测简历文本对应的简历关键词的识别效率。
在一些实施例中,步骤S204,即将每个待检测简历文本对应的简历关键词向量化,得到每个待检测简历文本对应的简历关键词向量,包括步骤:
将每个待检测简历文本对应的简历关键词输入到已训练的神经网络语言模型中,得到每个待检测简历文本对应的简历关键词向量,已训练的神经网络语言模型是根据已有的语料库使用深度神经网络进行训练得到的。
其中,已有的语料库是根据历史简历文本搭建的语料数据库。
具体地,服务器预先根据已有的语料库使用NNLM进行训练,当达到预设完成阈值或者最大迭代次数时,得到已训练的神经网络语言模型,其中,激活函数可以使用tanh(双曲正切)函数。然后将已训练的深度神经网络语言模型部署到服务器中进行使用。在使用时,服务器将各个待检测简历文本对应的简历关键词输入到已训练的神经网络语言模型中,得到各个待检测简历文本对应的简历关键词向量。通过使用已训练的神经网络语言模型中进行向量化,提高了向量化的效率和准确性。
在一些实施例中,如图4所示,步骤S210,即根据第一目标简历文本对应的简历关键词向量和职位关键词向量计算每个第一目标简历文本与职位描述文本的各个文本相似度,包括步骤:
S402,获取第一目标简历文本对应的简历关键词数量和职位描述文本对应的职位关键词数量。
S404,计算第一目标简历文本对应的简历关键词向量与职位描述文本对应的职位关键词向量之间的向量相似度。
其中,向量相似度是指简历关键词向量与职位关键词向量的相似度。
具体地,服务器计算得到第一目标简历文本中的简历关键词数和职位描述文本中的职位关键词数量。使用距离相似度算法计算每个简历关键词向量与每个职位关键词向量之间的相似度。
S406,从向量相似度中确定第一目标简历文本对应的简历关键词的简历词相似度,根据简历关键词的简历词相似度和简历关键词数量得到第一目标相似度。
其中,简历词相似度是指简历关键词向量与每个职位关键词向量之间的相似度中的最大相似度。第一目标相似度是指第一目标简历文本与职位描述文本的相似度。
具体地,服务器从各个向量相似度中确定简历关键词向量与每个职位关键词向量之间 的各个相似度,将各个相似度进行比较,得到最大相似度,将该最大相似度作为该简历关键词对应的简历词相似度。比如,服务器确定简历年龄向量和所有职位关键词向量之间的各个年龄相似度,比较得到的各个年龄相似度,根据比较结果确定最大的年龄相似度,该最大的年龄相似度是简历年龄向量与职位年龄向量之间的年龄相似度,将该最大的年龄相似度作为年龄关键词的简历词相似度。服务器确定出每个简历关键词的简历词相似度。将每个简历关键词的简历词相似度进行加和,服务器计算加和结果和简历关键词数量的比值,将比值结果作为第一目标相似度。
S408,从向量相似度中确定职位描述文本对应的职位关键词向量的职位词相似度,根据职位关键词向量的职位词相似度和职位关键词数量得到第二目标相似度。
其中,职位词相似度是指职位关键词向量与每个简历关键词向量之间的相似度中的最大相似度。第二相似度是指职位描述文本与第一目标简历文本的相似度。
具体地,服务器从各个向量相似度中确定职位关键词向量与每个简历关键词向量之间的相似度,将各个相似度进行比较,得到最大相似度,将该最大相似度作为该职位关键词对应的职位词相似度,服务器确定出每个职位关键词的职位词相似度。将每个职位关键词的职位词相似度进行加和,服务器计算加和结果和职位关键词数量的比值,将比值结果作为第二目标相似度。
S410,根据第一目标相似度和第二目标相似度确定第一目标简历文本和职位描述文本之间的文本相似度。
具体地,服务器计算第一目标相似度和第二目标相似度和平均值得到第一目标简历文本和职位描述文本之间的文本相似度。
在一个具体的实施例中,服务器可以使用如下公式(1)计算得到文本相似度。公式(1)如下所示:
Figure PCTCN2020098678-appb-000001
S1是指第一目标简历文本,S2是指职位描述文本。SIM(S1,S2)表示第一目标简历文本和职位描述文本之间的文本相似度。nums(S1)表示简历关键词数量,nums(S2)表示职位关键词数量。w1i是指简历关键词向量,w2j是指职位关键词向量。sim(w1i,w2j)是指简历关键词向量与职位关键词向量之间的相似度。max[sim(w1i,w2j)]是指简历关键词向量与每个职位关键词向量之间的相似度中的最大相似度,即简历词相似度。sim(w2j,w1i)是指职位关键词向量与简历关键词向量之间的相似度。max[sim(w2j,w1i)]是指职位关键词向量与每个简历关键词向量之间的相似度中的最大相似度,即职位词相似度。∑ w1imax[sim(w1i,w2j)]表示各个简历词相似度的和。∑ w2jmax[sim(w2j,w1i)]是指各个职位词相似度的和。
Figure PCTCN2020098678-appb-000002
是指第一目标相似度,
Figure PCTCN2020098678-appb-000003
是指第二目标相似度,
在上述实施例中,通过根据第一目标相似度和第二目标相似度确定第一目标简历文本和职位描述文本之间的文本相似度,提高了得到的文本相似度的准确性。
在一些实施例中,步骤S212,即根据文本相似度从第一目标简历文本中确定第二目标简历文本,包括步骤:
将文本相似度排序,得到排序结果,根据排序结果选取预设数量的第一目标简历文本,得到第二目标简历文本。
具体地,服务器将各个文本相似度进行排序,得到排序结果,按照排序结果中的大小,依次从文本相似度最大的第一目标简历文本进行选取,直到选取了预设数量的第一目标简历文本,将选取的预设数量的第一目标简历文本作为各个第二目标简历文本,提高了得到第二目标简历文本的效率。
在一些实施例中,如图5所示,在步骤S212之后,即在根据文本相似度从第一目标简历文本中确定第二目标简历文本之后,还包括步骤:
S502,获取第二目标简历文本对应的简历关键词向量,将第二目标简历文本对应的简历关键词向量进行聚类,得到聚类结果。
S504,根据聚类结果从第二目标简历文本中确定第三目标简历文本。
其中,聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。可以使用聚类算法进行聚类,例如:k均值聚类算法、DBscan密度聚类算法、凝聚层次聚类等等。
具体地,服务器获取到各个第二目标简历文本对应的简历关键词向量,将各个第二目标简历文本对应的简历关键词向量使用聚类算法进行聚类计算,得到聚类结果。然后将聚类结果中明显异常的第二目标简历文本进行筛选,其中,明显异常是指聚类结果中超过预先设置好的聚类阈值的第二目标简历文本。将未明显异常的第二目标简历文本作为第三目标简历文本。在该实施例中,通过将第二目标简历文本进行聚类筛选检测,得到各个第三目标简历文本,进一步提高了得到筛选检测通过的第三目标简历文本的准确性。
在一些实施例中,如图6所示,简历筛选方法,还包括步骤:
S602,根据通过概率确定每个待检测简历文本对应的第一文本信息。
其中,第一文本信息是指对待检测简历文本的模型评价信息,该模型评价信息是根据通过概率得到的。该模型评价信息具体可以是评价分值。比如,待检测简历文本的通过概率为0.8,则第一文本信息可以为80分。
具体地,服务器根据通过概率确定各个待检测简历文本的第一文本信息。
S604,计算每个待检测简历文本对应的简历关键词向量与职位关键词向量的目标相似度,根据目标相似度确定每个待检测简历文本对应的第二文本信息。
其中,目标相似度是指简历关键词向量与职位关键词向量之间的相似度,第二文本信息是对待检测简历文本的相似评价信息,该相似评价信息是根据目标相似度确定的。
具体地,服务器分别计算每个待检测简历文本对应的简历关键词向量与职位关键词向量的目标相似度,根据目标相似度确定各个待检测简历文本对应的第二文本信息。比如, 可以计算每个待检测简历文本中所有简历关键词对应的目标相似度的凭借值,根据平均相似度确定该待检测简历文本的第二文本信息。例如,平均相似度为75%,则得到的第二文本信息就可以是75分。
在一些实施例中,可以根据各个目标相似度使用公式(1)进行计算,得到每个待检测简历文本对应的文本相似度,根据文本相似度确定最终的第二文本信息。
S606,获取预设权重,根据预设权重、第一文本信息和第二文本信息确定每个待检测简历文本对应的目标文本信息。
S608,根据目标文本信息确定筛选通过的待检测简历文本。
其中,预设权重是指预先设置好的第一文本信息和第二文本信息对应的权重。比如,第一文本信息的预设权重可以是0.4,第二文本信息的预设权重可以是0.6。目标文本信息是指对待检测简历文本最终的评价信息。
具体的,服务器获取到预先设置好的权重,然后根据预设权重、第一文本信息和第二文本信息计算各个待检测简历文本对应的目标文本信息。比如,根据第一文本信息80,第二文本信息就可以是75。第一文本信息的预设权重可以是0.4,第二文本信息的预设权重可以是0.6。计算得到的目标文本信息可以是(80*0.4+75*0.6)/2=54.5。然后服务器计算出各个待检测简历文本对应的目标文本信息。然后可以按照预先设置好的文本信息对各个目标文本信息进行筛选,将各个目标文本信息中超过预先设置好的文本信息的待检测简历文本作为检测通过的待检测简历文本。通过对模型检测结果和相似度检测结果设置权重,根据设置的权重计算得到最终的检测结果,即提高了检测通过的待检测简历文本的准确性,从而提高了简历筛选的准确性。
在一个具体的实施例中,如图7所示,为简历筛选的示意图。具体来说;
服务区预先通过简历数据库训练得到命名实体模型和神经网络语言模型。然后获取到各个待检测简历文本和职位描述文本,将各个待检测简历文本和职位描述文本进行文本解析并进行后结构处理,即通过命名实体模型进行实体识别得到实体,将实体通过神经网络语言模型进行向量化处理,得到简历关键词向量和职位关键词向量。然后将简历关键词向量输入到已建立的简历筛选模型中进行模型检测,根据模型检测结果进行待检测简历的初步筛选,得到各个第一目标简历文本,然后根据第一目标简历文本对应的简历关键词向量和职位关键词向量进行文本匹配,即进行文本相似度计算,得到文本相似度计算结果,根据文本相似度计算结果进行二次精筛,即对文本相似度计算结果进行排序,根据排序结果从大到小依次选取预设数量的第一目标简历文本,得到各个第二目标简历文本,则各个第二目标简历文本即为简历筛选结果。
应该理解的是,虽然图2-图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一些实施例中,如图8所示,提供了一种简历筛选装置800,包括:文本获取模块 802、简历向量得到模块804、第一文本确定模块806、职位向量得到模块808、文本相似度计算模块810和第二文本确定模块812,其中:
文本获取模块802,用于接收简历筛选指令,根据简历筛选指令获取多个待检测简历文本;
简历向量得到模块804,用于对每个待检测简历文本进行实体识别,得到每个待检测简历文本对应的简历关键词,将每个待检测简历文本对应的简历关键词向量化,得到每个待检测简历文本对应的简历关键词向量;
第一文本确定模块806,用于将每个待检测简历文本对应的简历关键词向量输入到预先建立的简历分类模型中,得到每个待检测简历文本对应的通过概率,根据通过概率确定至少一个第一目标简历文本;
职位向量得到模块808,用于获取职位描述文本,提取职位描述文本中的职位关键词,将职位关键词向量化,得到职位关键词向量;
文本相似度计算模块810,用于获取每个第一目标简历文本对应的简历关键词向量,根据第一目标简历文本对应的简历关键词向量和职位关键词向量计算每个第一目标简历文本与职位描述文本的各个文本相似度;
第二文本确定模块812,用于根据各个文本相似度从所述第一目标简历文本中确定第二目标简历文本。
在一些实施例中,简历向量得到模块804,包括:
字段获取单元,用于获取待检测简历文本中基础字段和专业字段;
提取单元,用于提取基础字段对应的基础关键词;
识别单元,用于将专业字段输入到已训练的实体识别模型中,得到专业字段对应的专业关键词,根据基础关键词和专业关键词得到待检测简历文本对应的简历关键词。
在一些实施例中,简历向量得到模块804,包括:
模型向量化单元,用于将每个待检测简历文本对应的简历关键词输入到已训练的神经网络语言模型中,得到每个待检测简历文本对应的简历关键词向量,已训练的神经网络语言模型是根据已有的语料库使用深度神经网络进行训练得到的。
在一些实施例中,文本相似度计算模块810,包括:
数量获取单元,用于获取第一目标简历文本对应的简历关键词数量和职位描述文本对应的职位关键词数量;
向量计算单元,用于计算第一目标简历文本对应的简历关键词向量与职位描述文本对应的职位关键词向量之间的向量相似度;
第一目标得到单元,用于从向量相似度中确定第一目标简历文本对应的简历关键词的简历词相似度,根据简历关键词的简历词相似度和简历关键词数量得到第一目标相似度;
第二目标得到单元,用于从向量相似度中确定职位描述文本对应的职位关键词向量的职位词相似度,根据职位关键词向量的职位词相似度和职位关键词数量得到第二目标相似度;
文本相似度确定单元,用于根据第一目标相似度和第二目标相似度确定第一目标简历文本和职位描述文本之间的文本相似度。
在一些实施例中,第二文本确定模块812,包括:
排序单元,用于将文本相似度排序,得到排序结果,根据排序结果选取预设数量的第一目标简历文本,得到第二目标简历文本。
在一些实施例中,简历筛选装置800,还包括:
聚类检测模块,用于获取每个第二目标简历文本对应的简历关键词向量,将每个第二目标简历文本对应的简历关键词向量进行聚类,得到聚类结果;根据聚类结果从第二目标简历文本中确定第三目标简历文本。
在一些实施例中,简历筛选装置800,还包括:
文本信息确定模块,用于根据通过概率确定每个待检测简历文本对应的第一文本信息;计算每个待检测简历文本对应的简历关键词向量与职位关键词向量的目标相似度,根据目标相似度确定每个待检测简历文本对应的第二文本信息;
目标信息确定模块,用于获取预设权重,根据预设权重、第一文本信息和第二文本信息确定每个待检测简历文本对应的目标文本信息;
文本确定模块,用于根据目标文本信息确定筛选通过的待检测简历文本。
关于简历筛选装置的具体限定可以参见上文中对于简历筛选方法的限定,在此不再赘述。上述简历筛选装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储简历文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种简历筛选方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种计算机设备,包括存储器和一个或多个处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得一个或多个处理器执行以下步骤:接收简历筛选指令,根据简历筛选指令获取多个待检测简历文本;对每个待检测简历文本进行实体识别,得到每个待检测简历文本对应的简历关键词,将每个待检测简历文本对应的简历关键词向量化,得到每个待检测简历文本对应的简历关键词向量;将每个待检测简历文本对应的简历关键词向量输入到预先建立的简历分类模型中,得到每个待检测简历文本对应的通过概率,根据通过概率确定至少一个第一目标简历文本;获取职位描述文本,提取职位描述文本中的职位关键词,将职位关键词向量化,得到职位关键词向量;获取每个第一目标简历文本对应的简历关键词向量,根据第一目标简历文本对应的简历关键词向量和职位关键词向量计算每个第一目标简历文本与职位描述文本的各个文本相似度;及根据各个文本相似度从所述第一目标简历文本中确定第二目标简历文本。
在一些实施例中,处理器执行计算机可读指令时还实现以下步骤:获取待检测简历文 本中基础字段和专业字段;提取基础字段对应的基础关键词;及将专业字段输入到已训练的实体识别模型中,得到专业字段对应的专业关键词,根据基础关键词和专业关键词得到待检测简历文本对应的简历关键词。
在一些实施例中,处理器执行计算机可读指令时还实现以下步骤:将每个待检测简历文本对应的简历关键词输入到已训练的神经网络语言模型中,得到每个待检测简历文本对应的简历关键词向量,已训练的神经网络语言模型是根据已有的语料库使用深度神经网络进行训练得到的。
在一些实施例中,处理器执行计算机可读指令时还实现以下步骤:获取第一目标简历文本对应的简历关键词数量和职位描述文本对应的职位关键词数量;计算第一目标简历文本对应的简历关键词向量与职位描述文本对应的职位关键词向量之间的向量相似度;从向量相似度中确定第一目标简历文本对应的简历关键词的简历词相似度,根据简历关键词的简历词相似度和简历关键词数量得到第一目标相似度;从向量相似度中确定职位描述文本对应的职位关键词向量的职位词相似度,根据职位关键词向量的职位词相似度和职位关键词数量得到第二目标相似度;及根据第一目标相似度和第二目标相似度确定第一目标简历文本和职位描述文本之间的文本相似度。
在一些实施例中,处理器执行计算机可读指令时还实现以下步骤:将文本相似度排序,得到排序结果,根据排序结果选取预设数量的第一目标简历文本,得到第二目标简历文本。
在一些实施例中,处理器执行计算机可读指令时还实现以下步骤:获取每个第二目标简历文本对应的简历关键词向量,将第二目标简历文本对应的简历关键词向量进行聚类,得到聚类结果;及根据聚类结果从第二目标简历文本中确定第三目标简历文本。
在一些实施例中,处理器执行计算机可读指令时还实现以下步骤:根据通过概率确定每个待检测简历文本对应的第一文本信息;计算每个待检测简历文本对应的简历关键词向量与职位关键词向量的目标相似度,根据目标相似度确定每个待检测简历文本对应的第二文本信息;获取预设权重,根据预设权重、第一文本信息和第二文本信息确定每个待检测简历文本对应的目标文本信息;及根据目标文本信息确定筛选通过的待检测简历文本。
一个或多个存储有计算机可读指令的计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:接收简历筛选指令,根据简历筛选指令获取多个待检测简历文本;对每个待检测简历文本进行实体识别,得到每个待检测简历文本对应的简历关键词,将每个待检测简历文本对应的简历关键词向量化,得到每个待检测简历文本对应的简历关键词向量;将每个待检测简历文本对应的简历关键词向量输入到预先建立的简历分类模型中,得到每个待检测简历文本对应的通过概率,根据通过概率确定至少一个第一目标简历文本;获取职位描述文本,提取职位描述文本中的职位关键词,将职位关键词向量化,得到职位关键词向量;获取每个第一目标简历文本对应的简历关键词向量,根据第一目标简历文本对应的简历关键词向量和职位关键词向量计算每个第一目标简历文本与职位描述文本的各个文本相似度;及根据各个文本相似度从所述第一目标简历文本中确定第二目标简历文本。其中,该计算机可读存储介质可以是非易失性,也可以是易失性的。
在一些实施例中,计算机可读指令被处理器执行时还实现以下步骤:获取待检测简历文本中基础字段和专业字段;提取基础字段对应的基础关键词;及将专业字段输入到已训 练的实体识别模型中,得到专业字段对应的专业关键词,根据基础关键词和专业关键词得到待检测简历文本对应的简历关键词。
在一些实施例中,计算机可读指令被处理器执行时还实现以下步骤:将每个待检测简历文本对应的简历关键词输入到已训练的神经网络语言模型中,得到每个待检测简历文本对应的简历关键词向量,已训练的神经网络语言模型是根据已有的语料库使用深度神经网络进行训练得到的。
在一些实施例中,计算机可读指令被处理器执行时还实现以下步骤:获取第一目标简历文本对应的简历关键词数量和职位描述文本对应的职位关键词数量;计算第一目标简历文本对应的简历关键词向量与职位描述文本对应的职位关键词向量之间的向量相似度;从向量相似度中确定第一目标简历文本对应的简历关键词的简历词相似度,根据简历关键词的简历词相似度和简历关键词数量得到第一目标相似度;从向量相似度中确定职位描述文本对应的职位关键词向量的职位词相似度,根据职位关键词向量的职位词相似度和职位关键词数量得到第二目标相似度;及根据第一目标相似度和第二目标相似度确定第一目标简历文本和职位描述文本之间的文本相似度。
在一些实施例中,计算机可读指令被处理器执行时还实现以下步骤:将文本相似度排序,得到排序结果,根据排序结果选取预设数量的第一目标简历文本,得到第二目标简历文本。
在一些实施例中,计算机可读指令被处理器执行时还实现以下步骤:获取每个第二目标简历文本对应的简历关键词向量,将第二目标简历文本对应的简历关键词向量进行聚类,得到聚类结果;及根据聚类结果从第二目标简历文本中确定第三目标简历文本。
在一些实施例中,计算机可读指令被处理器执行时还实现以下步骤:根据通过概率确定每个待检测简历文本对应的第一文本信息;计算每个待检测简历文本对应的简历关键词向量与职位关键词向量的目标相似度,根据目标相似度确定每个待检测简历文本对应的第二文本信息;获取预设权重,根据预设权重、第一文本信息和第二文本信息确定每个待检测简历文本对应的目标文本信息;及根据目标文本信息确定筛选通过的待检测简历文本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾, 都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (22)

  1. 一种简历筛选方法,包括:
    接收简历筛选指令,根据所述简历筛选指令获取多个待检测简历文本;
    对每个所述待检测简历文本进行实体识别,得到所述每个待检测简历文本对应的简历关键词,将所述每个待检测简历文本对应的简历关键词向量化,得到所述每个待检测简历文本对应的简历关键词向量;
    将所述每个待检测简历文本对应的简历关键词向量输入到预先建立的简历分类模型中,得到所述每个待检测简历文本对应的通过概率,根据所述通过概率确定至少一个第一目标简历文本;
    获取职位描述文本,提取所述职位描述文本中的职位关键词,将所述职位关键词向量化,得到职位关键词向量;
    获取每个所述第一目标简历文本对应的简历关键词向量,根据所述第一目标简历文本对应的简历关键词向量和所述职位关键词向量计算所述每个第一目标简历文本与所述职位描述文本的文本相似度;及
    根据所述文本相似度从所述第一目标简历文本中确定第二目标简历文本。
  2. 根据权利要求1所述的方法,其中,所述对每个待检测简历文本进行实体识别,得到所述每个待检测简历文本对应的简历关键词,包括:
    获取待检测简历文本中基础字段和专业字段;
    提取所述基础字段对应的基础关键词;及
    将所述专业字段输入到已训练的实体识别模型中,得到所述专业字段对应的专业关键词,根据所述基础关键词和所述专业关键词得到所述待检测简历文本对应的简历关键词。
  3. 根据权利要求1所述的方法,其中,将所述每个待检测简历文本对应的简历关键词向量化,得到所述每个待检测简历文本对应的简历关键词向量,包括:
    将所述每个待检测简历文本对应的简历关键词输入到已训练的神经网络语言模型中,得到每个待检测简历文本对应的简历关键词向量,所述已训练的神经网络语言模型是根据已有的语料库使用深度神经网络进行训练得到的。
  4. 根据权利要求1所述的方法,其中,根据所述第一目标简历文本对应的简历关键词向量和所述职位关键词向量计算所述每个第一目标简历文本与所述职位描述文本的各个文本相似度,包括:
    获取第一目标简历文本对应的简历关键词数量和所述职位描述文本对应的职位关键词数量;
    计算所述第一目标简历文本对应的简历关键词向量与所述职位描述文本对应的职位关键词向量之间的向量相似度;
    从所述向量相似度中确定所述第一目标简历文本对应的简历关键词的简历词相似度,根据所述简历关键词的简历词相似度和所述简历关键词数量得到第一目标相似度;
    从所述向量相似度中确定所述职位描述文本对应的职位关键词向量的职位词相似度,根据所述职位关键词向量的职位词相似度和所述职位关键词数量得到第二目标相似度;及根据所述第一目标相似度和所述第二目标相似度确定所述第一目标简历文本和所述职位描述文本之间的文本相似度。
  5. 根据权利要求1所述的方法,其中,所述根据所述文本相似度从所述第一目标简历文本中确定第二目标简历文本,包括:
    将所述文本相似度排序,得到排序结果,根据所述排序结果选取预设数量的第一目标简历文本,得到第二目标简历文本。
  6. 根据权利要求1所述的方法,其中,在所述根据所述文本相似度从所述第一目标简历文本中确定第二目标简历文本之后,所述方法还包括:
    获取第二目标简历文本对应的简历关键词向量,将所述第二目标简历文本对应的简历关键词向量进行聚类,得到聚类结果;及
    根据所述聚类结果从所述第二目标简历文本中确定第三目标简历文本。
  7. 根据权利要求1所述的方法,其中,还包括:
    根据所述通过概率确定所述每个待检测简历文本对应的第一文本信息;
    计算所述每个待检测简历文本对应的简历关键词向量与所述职位关键词向量的目标相似度,根据所述目标相似度确定所述每个待检测简历文本对应的第二文本信息;
    获取预设权重,根据所述预设权重、所述第一文本信息和所述第二文本信息确定所述每个待检测简历文本对应的目标文本信息;及
    根据所述目标文本信息确定筛选通过的待检测简历文本。
  8. 一种简历筛选装置,包括:
    文本获取模块,用于接收简历筛选指令,根据所述简历筛选指令获取多个待检测简历文本;
    简历向量得到模块,用于对每个待检测简历文本进行实体识别,得到所述每个待检测简历文本对应的简历关键词,将所述每个待检测简历文本对应的简历关键词向量化,得到所述每个待检测简历文本对应的简历关键词向量;
    第一文本确定模块,用于将所述每个待检测简历文本对应的简历关键词向量输入到预先建立的简历分类模型中,得到所述每个待检测简历文本对应的通过概率,根据所述通过概率确定至少一个第一目标简历文本;
    职位向量得到模块,用于获取职位描述文本,提取所述职位描述文本中的职位关键词,将所述职位关键词向量化,得到职位关键词向量;
    文本相似度计算模块,用于获取每个第一目标简历文本对应的简历关键词向量,根据所述第一目标简历文本对应的简历关键词向量和所述职位关键词向量计算所述每个第一目标简历文本与所述职位描述文本的文本相似度;及
    第二文本确定模块,用于根据所述文本相似度从所述第一目标简历文本中确定至少一个第二目标简历文本。
  9. 一种计算机设备,包括存储器及一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    接收简历筛选指令,根据所述简历筛选指令获取多个待检测简历文本;
    对每个待检测简历文本进行实体识别,得到所述每个待检测简历文本对应的简历关键词,将所述每个待检测简历文本对应的简历关键词向量化,得到所述每个待检测简历文本对应的简历关键词向量;
    将所述每个待检测简历文本对应的简历关键词向量输入到预先建立的简历分类模型中,得到所述每个待检测简历文本对应的通过概率,根据所述通过概率确定至少一个第一目标简历文本;
    获取职位描述文本,提取所述职位描述文本中的职位关键词,将所述职位关键词向量化,得到职位关键词向量;
    获取每个第一目标简历文本对应的简历关键词向量,根据所述第一目标简历文本对应的简历关键词向量和所述职位关键词向量计算所述每个第一目标简历文本与所述职位描述文本的文本相似度;及
    根据所述文本相似度从所述第一目标简历文本中确定第二目标简历文本。
  10. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    获取待检测简历文本中基础字段和专业字段;
    提取所述基础字段对应的基础关键词;及
    将所述专业字段输入到已训练的实体识别模型中,得到所述专业字段对应的专业关键词,根据所述基础关键词和所述专业关键词得到所述待检测简历文本对应的简历关键词。
  11. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    将所述每个待检测简历文本对应的简历关键词输入到已训练的神经网络语言模型中,得到每个待检测简历文本对应的简历关键词向量,所述已训练的神经网络语言模型是根据已有的语料库使用深度神经网络进行训练得到的。
  12. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    获取第一目标简历文本对应的简历关键词数量和所述职位描述文本对应的职位关键词数量;
    计算所述第一目标简历文本对应的简历关键词向量与所述职位描述文本对应的职位关键词向量之间的向量相似度;
    从所述向量相似度中确定所述第一目标简历文本对应的简历关键词的简历词相似度,根据所述简历关键词的简历词相似度和所述简历关键词数量得到第一目标相似度;
    从所述向量相似度中确定所述职位描述文本对应的职位关键词向量的职位词相似度,根据所述职位关键词向量的职位词相似度和所述职位关键词数量得到第二目标相似度;及根据所述第一目标相似度和所述第二目标相似度确定所述第一目标简历文本和所述职位描述文本之间的文本相似度。
  13. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    将所述文本相似度排序,得到排序结果,根据所述排序结果选取预设数量的第一目标简历文本,得到第二目标简历文本。
  14. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    获取第二目标简历文本对应的简历关键词向量,将所述第二目标简历文本对应的简历 关键词向量进行聚类,得到聚类结果;及
    根据所述聚类结果从所述第二目标简历文本中确定第三目标简历文本。
  15. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    根据所述通过概率确定所述每个待检测简历文本对应的第一文本信息;
    计算所述每个待检测简历文本对应的简历关键词向量与所述职位关键词向量的目标相似度,根据所述目标相似度确定所述每个待检测简历文本对应的第二文本信息;
    获取预设权重,根据所述预设权重、所述第一文本信息和所述第二文本信息确定所述每个待检测简历文本对应的目标文本信息;及
    根据所述目标文本信息确定筛选通过的待检测简历文本。
  16. 一个或多个存储有计算机可读指令的计算机可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    接收简历筛选指令,根据所述简历筛选指令获取多个待检测简历文本;
    对每个待检测简历文本进行实体识别,得到所述每个待检测简历文本对应的简历关键词,将所述每个待检测简历文本对应的简历关键词向量化,得到所述每个待检测简历文本对应的简历关键词向量;
    将所述每个待检测简历文本对应的简历关键词向量输入到预先建立的简历分类模型中,得到所述每个待检测简历文本对应的通过概率,根据所述通过概率确定至少一个第一目标简历文本;
    获取职位描述文本,提取所述职位描述文本中的职位关键词,将所述职位关键词向量化,得到职位关键词向量;
    获取每个第一目标简历文本对应的简历关键词向量,根据所述第一目标简历文本对应的简历关键词向量和所述职位关键词向量计算所述每个第一目标简历文本与所述职位描述文本的文本相似度;及
    根据所述文本相似度从所述第一目标简历文本中确定第二目标简历文本。
  17. 根据权利要求16所述的存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:
    获取待检测简历文本中基础字段和专业字段;
    提取所述基础字段对应的基础关键词;及
    将所述专业字段输入到已训练的实体识别模型中,得到所述专业字段对应的专业关键词,根据所述基础关键词和所述专业关键词得到所述待检测简历文本对应的简历关键词。
  18. 根据权利要求16所述的存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:
    将所述每个待检测简历文本对应的简历关键词输入到已训练的神经网络语言模型中,得到每个待检测简历文本对应的简历关键词向量,所述已训练的神经网络语言模型是根据已有的语料库使用深度神经网络进行训练得到的。
  19. 根据权利要求16所述的存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:
    获取第一目标简历文本对应的简历关键词数量和所述职位描述文本对应的职位关键 词数量;
    计算所述第一目标简历文本对应的简历关键词向量与所述职位描述文本对应的职位关键词向量之间的向量相似度;
    从所述向量相似度中确定所述第一目标简历文本对应的简历关键词的简历词相似度,根据所述简历关键词的简历词相似度和所述简历关键词数量得到第一目标相似度;
    从所述向量相似度中确定所述职位描述文本对应的职位关键词向量的职位词相似度,根据所述职位关键词向量的职位词相似度和所述职位关键词数量得到第二目标相似度;及根据所述第一目标相似度和所述第二目标相似度确定所述第一目标简历文本和所述职位描述文本之间的文本相似度。
  20. 根据权利要求16所述的存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:
    将所述文本相似度排序,得到排序结果,根据所述排序结果选取预设数量的第一目标简历文本,得到第二目标简历文本。
  21. 根据权利要求16所述的存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:
    获取第二目标简历文本对应的简历关键词向量,将所述第二目标简历文本对应的简历关键词向量进行聚类,得到聚类结果;及
    根据所述聚类结果从所述第二目标简历文本中确定第三目标简历文本。
  22. 根据权利要求16所述的存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:
    根据所述通过概率确定所述每个待检测简历文本对应的第一文本信息;
    计算所述每个待检测简历文本对应的简历关键词向量与所述职位关键词向量的目标相似度,根据所述目标相似度确定所述每个待检测简历文本对应的第二文本信息;
    获取预设权重,根据所述预设权重、所述第一文本信息和所述第二文本信息确定所述每个待检测简历文本对应的目标文本信息;及
    根据所述目标文本信息确定筛选通过的待检测简历文本。
PCT/CN2020/098678 2020-02-28 2020-06-29 简历筛选方法、装置、计算机设备和存储介质 WO2021169111A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010128423.7A CN111461637A (zh) 2020-02-28 2020-02-28 简历筛选方法、装置、计算机设备和存储介质
CN202010128423.7 2020-02-28

Publications (1)

Publication Number Publication Date
WO2021169111A1 true WO2021169111A1 (zh) 2021-09-02

Family

ID=71682467

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/098678 WO2021169111A1 (zh) 2020-02-28 2020-06-29 简历筛选方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN111461637A (zh)
WO (1) WO2021169111A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780996A (zh) * 2021-09-16 2021-12-10 湖北天天数链技术有限公司 岗位数据检测方法、模型训练方法、装置及电子设备
CN113886562A (zh) * 2021-10-02 2022-01-04 智联(无锡)信息技术有限公司 一种ai简历筛选方法、系统、设备和存储介质
CN113988045A (zh) * 2021-12-28 2022-01-28 浙江口碑网络技术有限公司 文本相似度确定方法、文本处理方法、相应的装置和设备
CN114282106A (zh) * 2021-12-22 2022-04-05 北京网聘咨询有限公司 一种职位信息快速投递方法
CN115879901A (zh) * 2023-02-22 2023-03-31 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台
CN116562837A (zh) * 2023-07-12 2023-08-08 深圳须弥云图空间科技有限公司 人岗匹配方法、装置、电子设备及计算机可读存储介质
CN116644184A (zh) * 2023-07-27 2023-08-25 浙江厚雪网络科技有限公司 基于数据聚类的人力资源信息管理系统
CN117540917A (zh) * 2023-11-14 2024-02-09 大能手教育科技(北京)有限公司 一种培训平台辅助培训方法、装置、设备以及介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100492A (zh) * 2020-09-11 2020-12-18 河北冀联人力资源服务集团有限公司 一种不同版本的简历的批量投递方法和系统
CN112417154B (zh) * 2020-11-25 2023-01-24 上海创米数联智能科技发展股份有限公司 确定文献相似度的方法和装置
US20220215196A1 (en) * 2021-01-04 2022-07-07 Atos It Solutions And Services, Inc. Devices, systems and methods for assessing a match between job descriptions and resumes
CN113298495A (zh) * 2021-05-27 2021-08-24 中国科学院深圳先进技术研究院 简历筛选方法、简历筛选装置、终端设备及存储介质
CN113672705A (zh) * 2021-08-27 2021-11-19 工银科技有限公司 简历筛选方法、装置、设备、介质及程序产品
CN113806544A (zh) * 2021-09-23 2021-12-17 湖北天天数链技术有限公司 简历信息处理方法、装置、电子设备及存储介质
CN117390173B (zh) * 2023-11-02 2024-03-29 江苏优丞信息科技有限公司 一种语义相似度匹配的海量简历筛选方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117863A (zh) * 2015-09-28 2015-12-02 北京橙鑫数据科技有限公司 简历职位匹配方法及装置
US20180240072A1 (en) * 2017-02-17 2018-08-23 Walmart Apollo, Llc Automated resume screening
CN108550019A (zh) * 2018-03-22 2018-09-18 阿里巴巴集团控股有限公司 一种简历筛选方法及装置
CN110263148A (zh) * 2019-06-27 2019-09-20 中国工商银行股份有限公司 智能简历筛选方法及装置
CN110399475A (zh) * 2019-06-18 2019-11-01 平安科技(深圳)有限公司 基于人工智能的简历匹配方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117863A (zh) * 2015-09-28 2015-12-02 北京橙鑫数据科技有限公司 简历职位匹配方法及装置
US20180240072A1 (en) * 2017-02-17 2018-08-23 Walmart Apollo, Llc Automated resume screening
CN108550019A (zh) * 2018-03-22 2018-09-18 阿里巴巴集团控股有限公司 一种简历筛选方法及装置
CN110399475A (zh) * 2019-06-18 2019-11-01 平安科技(深圳)有限公司 基于人工智能的简历匹配方法、装置、设备及存储介质
CN110263148A (zh) * 2019-06-27 2019-09-20 中国工商银行股份有限公司 智能简历筛选方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780996A (zh) * 2021-09-16 2021-12-10 湖北天天数链技术有限公司 岗位数据检测方法、模型训练方法、装置及电子设备
CN113886562A (zh) * 2021-10-02 2022-01-04 智联(无锡)信息技术有限公司 一种ai简历筛选方法、系统、设备和存储介质
CN114282106A (zh) * 2021-12-22 2022-04-05 北京网聘咨询有限公司 一种职位信息快速投递方法
CN114282106B (zh) * 2021-12-22 2023-07-25 北京网聘咨询有限公司 一种职位信息快速投递方法
CN113988045A (zh) * 2021-12-28 2022-01-28 浙江口碑网络技术有限公司 文本相似度确定方法、文本处理方法、相应的装置和设备
CN113988045B (zh) * 2021-12-28 2022-04-12 浙江口碑网络技术有限公司 文本相似度确定方法、文本处理方法、相应的装置和设备
CN115879901A (zh) * 2023-02-22 2023-03-31 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台
CN115879901B (zh) * 2023-02-22 2023-07-28 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台
CN116562837A (zh) * 2023-07-12 2023-08-08 深圳须弥云图空间科技有限公司 人岗匹配方法、装置、电子设备及计算机可读存储介质
CN116644184A (zh) * 2023-07-27 2023-08-25 浙江厚雪网络科技有限公司 基于数据聚类的人力资源信息管理系统
CN116644184B (zh) * 2023-07-27 2023-10-20 浙江厚雪网络科技有限公司 基于数据聚类的人力资源信息管理系统
CN117540917A (zh) * 2023-11-14 2024-02-09 大能手教育科技(北京)有限公司 一种培训平台辅助培训方法、装置、设备以及介质

Also Published As

Publication number Publication date
CN111461637A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
WO2021169111A1 (zh) 简历筛选方法、装置、计算机设备和存储介质
CN110021439B (zh) 基于机器学习的医疗数据分类方法、装置和计算机设备
WO2020077895A1 (zh) 签约意向判断方法、装置、计算机设备和存储介质
US20210150338A1 (en) Identification of fields in documents with neural networks without templates
US11775746B2 (en) Identification of table partitions in documents with neural networks using global document context
US11170249B2 (en) Identification of fields in documents with neural networks using global document context
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
CN109063217B (zh) 电力营销系统中的工单分类方法、装置及其相关设备
CN110008250B (zh) 基于数据挖掘的社保数据处理方法、装置和计算机设备
US11562203B2 (en) Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
CN108491406B (zh) 信息分类方法、装置、计算机设备和存储介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN110705489B (zh) 目标识别网络的训练方法、装置、计算机设备和存储介质
US11741734B2 (en) Identification of blocks of associated words in documents with complex structures
CN112395500A (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
Zhang et al. Semisupervised particle swarm optimization for classification
CN110555103A (zh) 生物医学实体展示平台的构建方法、装置和计算机设备
CN108229358B (zh) 索引建立方法和装置、电子设备、计算机存储介质
CN114495113A (zh) 文本分类方法和文本分类模型的训练方法、装置
CN112541055A (zh) 一种确定文本标签的方法及装置
US20230134218A1 (en) Continuous learning for document processing and analysis
US20230138491A1 (en) Continuous learning for document processing and analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20921928

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 09/01/2023)

122 Ep: pct application non-entry in european phase

Ref document number: 20921928

Country of ref document: EP

Kind code of ref document: A1