WO2019227584A1 - 简历数据信息解析处理方法、装置、设备及存储介质 - Google Patents

简历数据信息解析处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2019227584A1
WO2019227584A1 PCT/CN2018/094392 CN2018094392W WO2019227584A1 WO 2019227584 A1 WO2019227584 A1 WO 2019227584A1 CN 2018094392 W CN2018094392 W CN 2018094392W WO 2019227584 A1 WO2019227584 A1 WO 2019227584A1
Authority
WO
WIPO (PCT)
Prior art keywords
resume
text
data information
preset
tag
Prior art date
Application number
PCT/CN2018/094392
Other languages
English (en)
French (fr)
Inventor
张师琲
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2019227584A1 publication Critical patent/WO2019227584A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources

Definitions

  • the present application relates to the field of computer technology, and in particular, to a method, a device, a device, and a storage medium for analyzing and processing resume data information.
  • a resume In daily life, a resume is an important type of text used by the author to apply for a job or show life experience. It contains information such as the author's basic situation, work experience and education experience, and various personal resume design styles and personal writing habits. It will be different, and the specific format of personal resume information will also vary from person to person. To obtain talent information, companies need to select and analyze the required resume information from a large number of resumes.
  • the traditional resume data analysis method is usually completed manually.
  • a method for analyzing and processing resume data information includes:
  • a resume data information analysis and processing device includes:
  • File receiving module for receiving resume files uploaded by users
  • a file conversion module configured to perform format conversion on the resume file according to a preset text format to obtain a resume text corresponding to the resume file;
  • a tag extraction module configured to perform tag extraction on the resume text to obtain a title tag
  • a tag matching module configured to match the title tag with the keyword according to a preset keyword, and determine the title tag that is successfully matched as a valid keyword
  • a text parsing module is configured to parse the resume text according to the data parsing method corresponding to the valid keywords for each of the valid keywords, and obtain the corresponding text corresponding to each of the valid keywords in the resume text. Mentioned data information;
  • An information import module is configured to match the valid keywords with the template tags according to a template tag in a preset standard resume template, and import the data information corresponding to the valid keywords that successfully match into the data At the corresponding position of the template label, a standard resume report is generated and saved in the resume library.
  • a computer device includes a memory, a processor, and computer-readable instructions stored in the memory and executable on the processor, and the processor implements the computer-readable instructions to implement the analysis of the resume data information. Steps of the processing method.
  • One or more non-volatile readable storage media storing computer-readable instructions, where the computer-readable instructions are executed by one or more processors, so that the one or more processors implement the above-mentioned resume when executed Steps of the data information analysis processing method.
  • FIG. 1 is a schematic diagram of an application environment of a method for analyzing and processing resume data information according to an embodiment of the present application
  • FIG. 2 is a flowchart of a method for analyzing and processing resume data information in an embodiment of the present application
  • FIG. 3 is an implementation flowchart of step S30 in a method for analyzing and processing resume data information according to an embodiment of the present application
  • step S50 is an implementation flowchart of step S50 in a method for analyzing and processing resume data information in an embodiment of the present application
  • FIG. 5 is another implementation flowchart of step S50 in the method for analyzing and processing resume data information according to an embodiment of the present application
  • FIG. 6 is a flowchart of analyzing and processing a basic time period in an education experience or a work experience in a resume data information analysis and processing method according to an embodiment of the present application;
  • FIG. 7 is a flowchart of processing a resume download request in a resume data information analysis processing method according to an embodiment of the present application
  • FIG. 8 is a schematic diagram of a resume data information analysis and processing device according to an embodiment of the present application.
  • FIG. 9 is a schematic diagram of a computer device in an embodiment of the present application.
  • FIG. 1 shows an application environment provided by an embodiment of the present application.
  • the application environment includes a server and a client.
  • the server and the client are connected through a network.
  • the client is used to collect resume files and
  • the resume file is sent to the server, the client can specifically but not limited to various personal computers, laptops, smartphones, tablets and portable wearable devices;
  • the server is used to process the resume file, and the server can be used independently Server or multiple server clusters.
  • the method for analyzing and processing resume data information provided in the embodiment of the present application is applied to the server.
  • FIG. 2 illustrates an implementation flow of a resume data information analysis processing method provided in this embodiment.
  • the details are as follows:
  • the file type of the resume file may include, but is not limited to, doc, pdf, or html
  • the language type of the resume file may include, but is not limited to, Chinese, English, or Japanese. It should be understood that the The file type and language type are just examples, and other file types or language types can also be used in practice, which are not specifically limited here.
  • the preset text format may specifically be xml, pdf, or doc, but is not limited thereto, and may be specifically set according to actual application requirements, and is not limited herein.
  • the text format conversion of the resume file can be processed by the analysis library Tika tool or other tools, which is not limited here.
  • Tika tool is used to convert the received resume file format.
  • Tika tool is a library for file type detection and content extraction from files in various formats.
  • Tika uses various file parsers and document type detection. Technology to detect and extract data.
  • the format conversion plug-in provided by Tika performs format conversion on data in multiple file formats, which can realize the conversion of irregular resume text format into a uniform preset text format.
  • the resume files of different text formats received in step S1 are converted into the received resume files according to a preset text format by using a format conversion plug-in in the Tika tool to obtain a uniformly formatted resume text. It can realize the unified and normalization of irregular resume texts, which is conducive to subsequent analysis and extraction of data information of resume texts.
  • the format conversion plug-in in Tika software is used to convert the resume files in various text formats. You can use "*" to indicate spaces.
  • the format of the doc resume text is "name *” *** Li Lei **** "
  • the format of the pdf resume text is” ** Name ** Li Lei ** "
  • the resume text of these two different formats is converted by the format conversion plug-in according to the preset text format , Such as the text format of "** Name **** ⁇ **".
  • the title tag is a refinement and identification of the content in the resume text, and is used to describe a series of tags representing personal characteristics such as the major, education, and work experience in the resume.
  • the title tag may specifically be "name”, “Academic qualifications,” “educational experience,” or “work experience.”
  • the label extraction method can be feature extraction or other extraction methods, which is not limited here.
  • the resume text is traversed, the same text as the tag in the tag dictionary is retrieved, and the text is marked as a title tag.
  • the preset keywords may specifically be names, schools, majors, education experience, work experience, etc., but are not limited thereto, and they may be specifically set according to actual application requirements, which are not limited here.
  • Valid keywords are title tags that match the preset keywords in the resume text.
  • Matching the title tag with the keywords can be performed through conditional matching or other methods. There is no limitation here.
  • the conditions in the condition matching can be set according to the actual application requirements, and there is no limitation here.
  • the matching method used in this embodiment is conditional matching.
  • the process of conditional matching may specifically determine whether the word meanings of the title tag and the keyword are the same according to a preset lexicon.
  • a set of synonyms corresponding to each keyword such as "educational experience”, which includes “educational experience”, “educational experience”, “education level”, etc., and a set of synonyms that includes “work experience”, “work experience”, “work experience” , “Resume”, etc., if the title tag belongs to the set of synonyms of the keyword, confirm that the title tag has the same meaning as the keyword, that is, the match is successful; the process of condition matching can also be to calculate the text similarity between the title tag and the keyword If the text similarity is greater than or equal to a preset similarity threshold, the match is successful.
  • the preset similarity threshold may be 80% or other values, which can be set according to actual application requirements. There are no restrictions here.
  • the data information refers to specific resume text content corresponding to valid keywords.
  • the data parsing methods may include, but are not limited to, data partitioning methods, regular expressions, and scoring algorithms. They can be set according to actual application requirements. There are no specific restrictions here.
  • the data division method is to select the delimitation mark in the selected text, and divide the text into separate delimitation marks and text blocks corresponding to each delimitation mark with the delimitation mark as an interval.
  • the delimitation mark is valid in the resume text.
  • Keywords the text block corresponding to each delimitation identifier is the data information corresponding to each valid keyword.
  • the content in the resume text obtained in step S20 is divided and extracted, and the data information corresponding to each effective keyword in the resume text is obtained, which can ensure the resume text. Integrity of content extraction.
  • S60 Match the effective keywords with the template tags according to the template tags in the preset standard resume template, and import the data information corresponding to the successfully matched effective keywords into the corresponding positions of the template tags to generate a standard resume report and save it in the resume In the library.
  • the preset standard resume template is set according to actual application requirements, and there is no limitation here.
  • the template label can be name, education, education experience, work experience, etc., but it is not limited to this. It can be set according to actual application requirements, and there is no limitation here.
  • the template tags in the preset standard resume report are traversed, and the effective keywords are the same as the template tags, that is, the effective keywords are successfully matched to the template tags, and the data information corresponding to the successfully matched effective keywords is imported into the template. Label the corresponding position to generate a standard resume report and save it in the resume library.
  • matching the effective keywords with the template tags may be performed by using a condition matching method.
  • the method of condition matching may specifically adopt the same matching method as the conditional matching of the title tag and the keywords in step S40, which is not repeated here. .
  • the received resume file is format converted according to a preset text format, and the resume text corresponding to the resume file is obtained, which is beneficial to the subsequent extraction of data information in the resume text.
  • Extract the tags to obtain the title tags match the title tags with the keywords based on the preset keywords, and determine the successfully matched title tags as valid keywords, which can realize the data information to be extracted based on the effective keywords
  • Quickly lock the position of the resume so that for each effective keyword, according to the data analysis method corresponding to the effective keyword, the resume text is parsed to obtain the data information corresponding to the effective keyword in the resume text, which can realize the locked data
  • Further confirmation of the information guarantees the accuracy of the obtained data information and the integrity of the extraction of the resume text data information, so as to achieve accurate analysis of the resume text data information and effectively improve the accuracy of the resume text analysis.
  • Template tags based on preset standard resume templates Match effective keywords with template tags, and import data information corresponding to successfully matched effective keywords into the corresponding positions of template tags, generate standard resume reports and save them in the resume database, and achieve unified and standardized irregular resume text To facilitate the maintenance and management of resume information.
  • step S30 that is, extracting the label of the resume text, and obtaining the title label specifically includes the following steps:
  • the text line is a word or a sentence in a resume text on a separate line.
  • S302 Perform feature extraction on a text line according to a preset feature index to obtain a feature vector.
  • the preset feature index is used as a feature extraction criterion, and may specifically include, but is not limited to, a single line of the text line, a text length of the text line being shorter than a preset length, the text line not containing punctuation marks,
  • the text line is in a preset tag dictionary, the font of the text line is different from the font with the largest proportion of the full text, and the font of the text line starts with the parent element in the tag dictionary. It can be other indicators, which can be set according to actual application requirements, and there is no limitation here.
  • the preset tag dictionary includes elements and tags. Tags include, but are not limited to, names, academic qualifications, education experience, and work experience. They can be set according to actual application requirements. There are no restrictions here.
  • Elements include but are not limited to: Parent element, child element, and inline element, etc.
  • the parent element includes the set font size, height, and width, etc.
  • the font can specifically be Song Dynasty, computer font Courier, or English serif font, etc. Can be other fonts, there is no restriction here.
  • a feature vector is a set of vectors used to describe the attribute characteristics of a text line.
  • the method for extracting features from a text line may be an information tagging method or other methods, which is not limited here.
  • the feature extraction is performed on the text line by using the information marking method. Specifically, the feature of the text line that satisfies the preset feature index requirement is marked as 1, and the feature of the text line that does not meet the preset feature index requirement is marked as 0.
  • a text line satisfies “the text line is on its own line”, “the text line is less than the preset length”, “the text line does not contain punctuation” and “the text line is in a preset tag dictionary "And other characteristic indicators, the corresponding corresponding mark is 1, the text line does not meet the” the font of the text line is different from the font with the largest proportion of full text "and” the font of the text line starts with the parent element in the tag dictionary ", Then each corresponding mark is 0, and the feature vector of the text line is (1,1,1,1,0,0).
  • step S302 it is determined whether the feature vector obtained in step S302 satisfies a preset label condition. If the feature vector meets a preset label condition, the text line corresponding to the feature vector is identified as a title label.
  • the preset label condition may specifically be that the number of components “1” in the feature vector is greater than or equal to the preset number, but is not limited thereto, and it may be specifically set according to actual application requirements, which is not described here. Make restrictions.
  • step S302 Continue to take the feature vector (1, 1, 1, 1, 0, 0) of the text line in the example of step S302 as an example for description. If the preset label condition is that the number of components "1" in the feature vector is greater than or If it is equal to 4, then the number of components "1" in the feature vector of the text line is 4, and if a preset label condition is met, the text line is identified as a title label.
  • a feature vector corresponding to the text line can be obtained, which can accurately read the text lines of the resume text, which is convenient
  • Subsequent confirmation of the title tag is also based on the preset tag conditions. If the feature vector meets the preset tag conditions, the text line corresponding to the feature vector is identified as the title tag, which can ensure accurate extraction of the title tag. , Which is conducive to subsequent analysis and acquisition of the data information of the resume text.
  • the effective keywords include a name.
  • the resume text is parsed according to the data analysis method corresponding to the effective keyword, and the resume text is obtained.
  • the data information corresponding to each valid keyword includes the following steps:
  • the name data block refers to a data block corresponding to the effective keyword "name" in the resume text.
  • the method of obtaining the name data block may be to perform a valid keyword search and retrieve the valid keywords of "name”. At the same time, according to the order in which the valid keywords appear, the effective keyword "name" and the next valid keyword The content of the time is used as the corresponding name data block of the effective keyword "name”.
  • the method of obtaining the name data block may also be other methods, which is not limited here.
  • S502 Perform name data recognition on the name data block according to a preset name regular expression, and use the recognized name data as data information corresponding to the name.
  • the preset name regular expression may be a commonly used name extraction regular expression for identifying name data in the resume text.
  • Commonly used regular expressions for name extraction are:
  • regular expressions are used to process strings in data. By using some specific characters to describe the rules for the occurrence of characters in strings, matching, identifying, extracting or replacing strings that meet the rules, regular expressions Can also be used to find, delete, and replace strings, using regular expressions to achieve fast and precise lookups. Among them, specific characters such as "[ ⁇ u4E00- ⁇ u9FA5]", “ ⁇ 2,5 ⁇ ” or “[1-9] ⁇ d ⁇ 3 ⁇ ” and so on.
  • a specific character in a regular name regular expression is used as a rule for describing the appearance of the corresponding character in the name data string of the name data block to identify the name data block.
  • Character string in a character string that meets the rules for character appearance is determined as the name data of the name data block.
  • name data recognition is performed on the obtained name data block, and the identified name data is used as the data information corresponding to the name, which can further realize the data information corresponding to the name.
  • Confirmation and extraction are targeted to the extracted data information, which is conducive to ensuring the integrity and accuracy of the obtained data information, and thus to improving the accuracy of the analysis of the data information.
  • the effective keywords include education experience or work experience.
  • the resume text is parsed according to the data analysis method corresponding to the effective keyword. Obtaining data information corresponding to each valid keyword in the resume text includes the following steps:
  • the data block corresponding to the education resume or work experience refers to the data block corresponding to the effective keyword “education resume or work experience” in the resume text.
  • the acquisition of the data block corresponding to the education resume or work experience can be obtained by using the same acquisition method as the step of obtaining the name data block in step S501, which is not repeated here.
  • S504 Perform a score calculation on the data block according to a preset score algorithm to obtain a score value of the data block.
  • the preset score algorithm can be specifically set according to the actual application requirements, and is used to calculate the score of the data block corresponding to the education resume or work experience. Specifically, it can be set to correspond to the preset label in the resume text. Scores, where preset labels include time, school, major, and degree.
  • a preset score algorithm is used to calculate the score of the data block, which can be set corresponding scores on preset tags in the education resume or work experience, such as time 2 points, school 2 points, major 1 points, and degree 1 point.
  • a score calculation on a data block traverse the data block, retrieve preset tags in the data block, and perform score calculation based on the retrieved preset tags. For example, if "time” is retrieved, Mark “2 points”, retrieve "Professional”, mark “1 point”, etc. After the traversal is completed, the marked points are accumulated and summed, and the obtained sum is used as the score value of the data block.
  • S505 If the score value is greater than a preset score threshold, determine the target data block corresponding to the score value as data information corresponding to the education resume or work experience.
  • the target data block is a data block with a score value greater than a preset score threshold.
  • the preset score threshold may be specifically set according to actual application requirements, and is not limited herein.
  • the preset score threshold is 4 points, taking time 2 points, schools 2 points, major 1 points, and degree 1 points as examples. If a data block contains the tags "time”, “school”, and “major”, According to the preset scoring algorithm, the labels are scored, which are "time” mark “2 points”, “school” mark “2 points” and “professional” mark “1 point”, and the marked scores are accumulated. After the sum, the obtained score value is 5 points, and the score value is greater than a preset score threshold. Therefore, the data block may be determined as data information corresponding to the education resume or work experience.
  • a score calculation is performed on the obtained data block corresponding to the education resume or work experience to obtain a score value of the data block.
  • a score value By comparing the score value with a preset score threshold
  • the target data block corresponding to the score value is determined as the data information corresponding to the education resume or work experience, and the data information corresponding to the education resume or work experience can be quickly confirmed.
  • extraction which is conducive to improving the efficiency of data information acquisition.
  • the method for analyzing and processing resume data information further includes the following steps:
  • S506 Identify a basic time period in the target data block according to a preset time regular expression.
  • the preset time regular expression may be a commonly used time regular expression for identifying a basic time period in a resume text.
  • the basic time period includes a start time point and an end time point, and is used to indicate the time from the beginning to the end of the educational resume or work experience.
  • step S505 For the data information corresponding to the education resume or work experience obtained in step S505, specific characters in a commonly used time regular expression are used as rules for the appearance of corresponding characters in the character string of the basic time period describing the data information to identify If a character string in the data message that meets the rules for the appearance of characters is found, the character string is determined as the basic time period of the data message.
  • S507 Analyze the time inclusion relationship of the basic time period, and determine the main time period and the sub time period in the basic time period;
  • the basic time period may be a main time period or a sub-time period, where the main time period includes one or more sub-time periods.
  • the inclusion relationship of time refers to the relationship between time periods and time periods, which is equivalent to the relationship between collections and collections. Among them, the inclusion relationship includes include, exclude, and equality relationships. For example, the time period is performed in the form of a collection. Description, the inclusion relationship of time is equivalent to the inclusion, empty set, and equality relationships in the set.
  • confirmation of the main time period and the sub-time period for the basic time period is to further confirm and extract the data information corresponding to the education resume or work experience, which is beneficial to ensure the integrity of the data information and can clearly reflect The distribution of data information.
  • the main time period and the sub time period in the basic time period are determined according to the inclusion relationship of time.
  • the sequence between different time points is determined according to the start time point and the end time point in the basic time period.
  • Sequentially, the time containing relationship between the basic time periods is obtained, and the main time period and the sub time period are determined according to the containing relationship, where the included base time period is a sub time period.
  • the basic time period has a time period "2010.01-2014.04” and a time period "2011.04-2012.04".
  • the start time point and the end time point of the time period "2010.01-2014.04” and the time period "2011.04-2012.04” are performed separately.
  • “2010.01” precedes “2011.04” and “2014.04” is later than "2012.04”
  • the period "2011.04-2012.04” is included in the period "2010.01-2014.04”
  • the period "2011.04-2012.04" is a sub-time period .
  • S508 Split the target data block according to the main time period to obtain the phase data information corresponding to each main time period.
  • splitting the target data block refers to dividing the entirety of the target data block into each individual main time period and phase data information corresponding to the main time period.
  • the target data block is divided into the main time period and the phase data information corresponding to each main time period, which can avoid confusion of the extracted data information and ensure the integrity of the data information. , which helps to improve the accuracy of data analysis.
  • the basic time period in the target data block is identified according to a preset time regular expression, and the identified basic time periods are sorted.
  • the The main time period and sub-time period, the target data block is divided according to the main time period, and the phase data information corresponding to each main time period can be obtained.
  • the data information corresponding to the education resume or work experience can be further confirmed and extracted. It is beneficial to ensure the integrity of the data information, can clearly reflect the distribution of the data information, and avoid confusion of the extracted data information, which is conducive to improving the accuracy of the analysis of the data information.
  • the method for analyzing and processing resume data information further includes the following steps:
  • the query condition information may include one or more query condition items and query condition values corresponding to the query condition items, wherein the query condition items are used to match template tags, which can realize the query and query of resume information.
  • the condition item can specifically be "school”, and the corresponding query condition value can be "junior high school", “high school” or “university”, etc.
  • the query condition value can be "college degree”, “undergraduate” “Or” graduate “, etc., the query condition item is" Work Experience ", the query condition value can be” State-owned enterprise “or” foreign enterprise “, etc., or other query condition items and query condition values, which are not limited here.
  • the target data information is data information corresponding to a template tag that matches a query condition item in a standard resume report.
  • the query condition item is matched with the template label in the standard resume report. It may be to traverse the standard resume report, find the same template label as the query condition item, and obtain the template label corresponding Data information.
  • the preset similarity condition is used as a standard for extracting the target resume information of the standard resume report, which can be specifically set according to actual application requirements, and is not limited here.
  • the preset similarity condition may be that the similarity between the target data information and the text in the query condition value is greater than or equal to a preset similarity threshold.
  • the preset similarity condition may be that the query condition value is included in the target data information, that is, the similarity comparison process is: traverse the target data information. If the query condition value exists in the target data information, it is confirmed that the target data information meets the preset similarity Degree condition.
  • the preset similarity condition may also be that the number of times that the query condition value appears in the target data information is greater than or equal to a preset similarity threshold, that is, the similarity comparison process is: word segmentation processing for the text of the query condition value and the target data information, The query condition value vocabulary unit and the target data information vocabulary unit are obtained. If a word in the query condition value vocabulary unit appears once in the target data information vocabulary unit, it is marked as "1", and it appears twice as "2". It is marked as "N” if it appears N times, and as "0” if it does not appear. Finally, the total number of times the words in the query condition value vocabulary unit appear in the target data information vocabulary unit. If the total number is greater than or If it is equal to the similarity threshold, it is confirmed that the target data information meets a preset similarity condition. Examples are as follows:
  • the query condition value is "Peking University”
  • the query condition value vocabulary unit obtained by segmenting the query condition value is unit1: Beijing / University.
  • the target data information vocabulary after segmentation of target data information The unit is unit2: graduated from / Beijing / University / Study / Beijing / University / Chinese / Department / Chinese / Professional / Student Union / Student / Chairman, the number of words in unit1 in unit2 is 4, If the number of times is greater than the preset similarity threshold value 2, it is confirmed that the target data information meets the preset similarity condition requirements.
  • word segmentation processing can use a tool with a word segmentation function, such as the word segmentation plug-in of the solr search engine, and other tools can also be used, which is not limited here.
  • the target data information obtained in step S80 is compared with the query condition value obtained in step S70. If the comparison result meets the preset similarity condition, the target data information is obtained.
  • the standard resume report is a report that is a report that is a list of possible matches the target data information.
  • the template tags included in the standard resume are matched, and the target data information corresponding to the successfully matched template tags is obtained.
  • the condition values are compared for similarity, and the standard resume report where the target data information that meets the preset similarity conditions is located can be quickly and accurately screened for the required resume information.
  • the standard resume report Through the standard resume report, the query results can be obtained more accurately and the resume can be achieved.
  • the unified and standardized report makes it easy to view and manage resume information.
  • a resume data information analysis and processing device corresponds to the resume data information analysis and processing method in the above embodiment in a one-to-one correspondence.
  • the resume data information analysis processing device includes a file receiving module 801, a file conversion module 802, a label extraction module 803, a label matching module 804, a text analysis module 805, and an information import module 806.
  • the detailed description of each function module is as follows:
  • a file conversion module 802 configured to convert the resume file according to a preset text format to obtain the resume text corresponding to the resume file;
  • a tag extraction module 803, configured to extract tags from the resume text to obtain a title tag
  • a tag matching module 804 is configured to match a title tag with a keyword according to a preset keyword, and determine a successfully matched title tag as a valid keyword;
  • the text parsing module 805 is configured to parse the resume text according to the data parsing method corresponding to the valid keywords for each valid keyword, and obtain data information corresponding to each valid keyword in the resume text;
  • An information importing module 806 is configured to match valid keywords with template tags according to preset template resume template tags, and import data information corresponding to successfully matched effective keywords into corresponding positions of template tags to generate a standard resume Report and save in resume library.
  • the label extraction module 803 includes:
  • a text obtaining unit 8031 configured to obtain a text line in a resume text
  • a feature extraction unit 8032 configured to perform feature extraction on a text line according to a preset feature index to obtain a feature vector
  • the label determining unit 8033 is configured to identify the text line as a title label if the feature vector meets a preset label condition.
  • the text parsing module 805 includes:
  • a name obtaining unit 8051 configured to obtain a name data block corresponding to the name
  • the name recognition unit 8052 is configured to perform name data recognition on the name data block according to a preset name regular expression, and use the recognized name data as data information corresponding to the name.
  • the text parsing module 805 further includes:
  • a data obtaining unit 8053 configured to obtain a data block corresponding to an education resume or a work experience
  • the score calculation unit 8054 is configured to perform a score calculation on the data block according to a preset score algorithm to obtain a score value of the data block;
  • the data determining unit 8055 is configured to determine the target data block corresponding to the score value as data information corresponding to the education resume or work experience if the score value is greater than a preset score threshold.
  • the resume data information analysis processing device further includes:
  • a time recognition unit 8056 configured to identify a basic time period in a target data block according to a preset time regular expression
  • the time determining unit 8057 is configured to analyze a time inclusion relationship in the basic time period, and determine a main time period and a sub time period in the basic time period.
  • the data splitting unit 8058 is configured to split the target data block according to the main time period to obtain the phase data information corresponding to each main time period.
  • the resume data information analysis processing device further includes:
  • the request receiving module 807 is configured to obtain the query condition information in the resume information query request if the resume information query request sent by the user is received, where the query condition information includes a query condition item and a query condition value;
  • a condition matching module 808 is configured to match query condition items with template tags in a standard resume report, and obtain target data information corresponding to the template tags that are successfully matched;
  • the report acquisition module 809 is configured to compare the similarity of the target data information with the query condition value, and obtain a standard resume report where the target data information meets the preset similarity condition.
  • each module in the resume data information analysis and processing device may be implemented in whole or in part by software, hardware, and a combination thereof.
  • the above-mentioned modules may be embedded in the hardware in or independent of the processor in the computer device, or may be stored in the memory of the computer device in the form of software, so that the processor can call and execute the operations corresponding to the above modules.
  • a computer device is provided.
  • the computer device may be a server, and its internal structure diagram may be as shown in FIG. 9.
  • the computer device includes a processor, a memory, a network interface, and a database connected through a system bus.
  • the processor of the computer device is used to provide computing and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system, computer-readable instructions, and a database.
  • the internal memory provides an environment for the operation of the operating system and computer-readable instructions in a non-volatile storage medium.
  • the computer equipment database is used to store resume information.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • the computer-readable instructions are executed by a processor to implement a method for analyzing and processing resume data information.
  • a computer device including a memory, a processor, and computer-readable instructions stored on the memory and executable on the processor.
  • the processor implements the computer-readable instructions to implement the resume data of the foregoing embodiment.
  • the steps of the information analysis processing method are, for example, steps S10 to S60 shown in FIG. 2.
  • the processor executes the computer-readable instructions, the functions of the modules / units of the resume data information analysis processing device in the foregoing embodiment are implemented, for example, the functions of modules 801 to 806 shown in FIG. 8. To avoid repetition, we will not repeat them here.
  • a non-volatile storage medium on which computer-readable instructions are stored, and when the computer-readable instructions are executed by a processor, the method for analyzing and processing resume data information in the foregoing method embodiment is implemented, or, When the computer-readable instructions are executed by the processor, the functions of the modules / units in the resume data information analysis and processing device in the above device embodiment are implemented. To avoid repetition, we will not repeat them here.
  • Non-volatile memory may include read-only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • Volatile memory can include random access memory (RAM) or external cache memory.
  • RAM is available in various forms, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), dual data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous chain (Synchlink), DRAM (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM).

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及计算机技术领域,提供了一种简历数据信息解析处理方法、装置、计算机设备及存储介质,该简历数据信息解析处理方法包括:接收用户上传的简历文件;按照预设的文本格式,对简历文件进行格式转换,得到简历文件对应的简历文本;对简历文本进行标签提取,得到标题标签;根据预设的关键词,将标题标签与关键词进行匹配,将匹配成功的标题标签确定为有效关键词;针对每个有效关键词,按照该有效关键词对应的数据解析方式,对简历文本进行解析,获取简历文本中每个有效关键词对应的数据信息。本申请实现了对简历文本数据信息的完整提取,有效提高对简历文本的解析准确率。

Description

简历数据信息解析处理方法、装置、设备及存储介质
本申请以2018年05月31日提交的申请号为201810548844.8,名称为“简历数据信息解析处理方法、装置、设备及存储介质”的中国发明专利申请为基础,并要求其优先权。
技术领域
本申请涉及计算机技术领域,尤其涉及一种简历数据信息解析处理方法、装置、设备及存储介质。
背景技术
在日常生活中,简历是作者用于求职或展示人生阅历的一类重要文本,它包含了作者的基本情况、工作经验和教育经验等信息,而各种个人简历的设计风格以及个人的书写习惯会不同,个人简历信息的具体格式也因人而异,各企业想要获取人才资料,需要管理人员从大量的简历中筛选解析出所需的简历信息。
目前,传统的简历数据解析方法通常由人工完成,手动收集简历文件并对简历文件中的简历文本进行人工分类处理,手动分类录入简历数据信息存入数据库,由于人工分类处理往往带有主观因素,也容易出现信息重复录入或信息缺失的情况,导致简历数据信息解析准确率不高。
发明内容
基于此,有必要针对上述技术问题,提供一种可以提高简历数据信息解析准确率的简历数据信息解析处理方法、装置、设备及存储介质。
一种简历数据信息解析处理方法,包括:
接收用户上传的简历文件;
按照预设的文本格式,对所述简历文件进行格式转换,得到所述简历文件对应的简历文本;
对所述简历文本进行标签提取,得到标题标签;
根据预设的关键词,将所述标题标签与所述关键词进行匹配,将匹配成功的所述标题标签确定为有效关键词;
针对每个所述有效关键词,按照该有效关键词对应的数据解析方式,对所述简历文本进行解析,获取所述简历文本中每个所述有效关键词对应的所述数据信息;
根据预设的标准简历模板中模板标签,将所述有效关键词与所述模板标签进行匹配,并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置,生成标准简历报告并保存在简历库中。
一种简历数据信息解析处理装置,包括:
文件接收模块,用于接收用户上传的简历文件;
文件转换模块,用于按照预设的文本格式,对所述简历文件进行格式转换,得到所述简历文件对应的简历文本;
标签提取模块,用于对所述简历文本进行标签提取,得到标题标签;
标签匹配模块,用于根据预设的关键词,将所述标题标签与所述关键词进行匹配,将匹配成功的所述标题标签确定为有效关键词;
文本解析模块,用于针对每个所述有效关键词,按照该有效关键词对应的数据解析方式,对所述简历文本进行解析,获取所述简历文本中每个所述有效关键词对应的所述数据 信息;
信息导入模块,用于根据预设的标准简历模板中模板标签,将所述有效关键词与所述模板标签进行匹配,并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置,生成标准简历报告并保存在简历库中。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述简历数据信息解析处理方法的步骤。
一个或多个存储有计算机可读指令的非易失性可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行时实现上述简历数据信息解析处理方法的步骤。
本申请的一个或多个实施例的细节在下面的附图和描述中提出,本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例中简历数据信息解析处理方法的一应用环境示意图;
图2是本申请一实施例中简历数据信息解析处理方法的一流程图;
图3是本申请一实施例中简历数据信息解析处理方法中步骤S30的实现流程图;
图4是本申请一实施例中简历数据信息解析处理方法中步骤S50的一实现流程图;
图5是本申请一实施例中简历数据信息解析处理方法中步骤S50的另一实现流程图;
图6是本申请一实施例中简历数据信息解析处理方法中对教育经历或工作经历中对基础时间段进行分析处理的一流程图;
图7是本申请一实施例中简历数据信息解析处理方法中对简历下载请求进行处理的一流程图;
图8是本申请一实施例中简历数据信息解析处理装置的一示意图;
图9是本申请一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了本申请实施例提供的应用环境,该应用环境包括服务端和客户端,其中,服务端和客户端之间通过网络进行连接,客户端用于采集简历文件,并且将采集到的简历文件发送到服务端,客户端具体可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备;服务端用于对简历文件进行处理,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本申请实施例提供的简历数据信息解析处理方法应用于服务端。
请参阅图2,图2示出本实施例提供的简历数据信息解析处理方法的实现流程。详述 如下:
S10:接收用户上传的简历文件。
在本实施例中,简历文件的文件类型可以包括但不限于:doc、pdf或html等,简历文件的语言类型可以包括但不限于:中文、英文或日文等,应理解的,此处所列举的文件类型和语言类型仅仅是作为示例,实际也可以是其他更多文件类型或语言类型,此处不做具体限制。
S20:按照预设的文本格式,对简历文件进行格式转换,得到简历文件对应的简历文本。
需要说明的是,预设的文本格式具体可以xml、pdf或者doc等,但并不限于此,其具体可以根据实际应用需求进行设置,此处不做限制。
对简历文件进行文本格式转换可以采用解析类库Tika工具,或者是其他工具进行处理,此处不做限制。
优选地,采用Tika工具对接收到的简历文件进行格式转换,Tika工具是用于文件类型检测和从各种格式的文件中进行内容提取的库,Tika使用各种文件解析器和文档类型的检测技术来检测和提取数据,Tika提供的格式转换插件对多种文件格式的数据进行格式转换,可以实现将不规则的简历文本格式转换为统一的预设的文本格式。
具体地,对步骤S1中接收到的各类不同文本格式的简历文件,按照预设的文本格式,采用Tika工具中的格式转换插件对接收到的简历文件进行格式转换,得到格式统一的简历文本,可以实现将不规则的简历文本统一规范化,有利于后续对简历文本的数据信息的解析和提取。
作为示例,按照预设的文本格式,采用Tika软件中的格式转换插件对各类不同文本格式的简历文件进行格式转换,可以用“*”表示空格,例如,doc简历文本的格式为“姓名****李雷****”,pdf简历文本的格式为“**姓名**李雷**”,通过格式转换插件将这两种不同格式的简历文本按照预设的文本格式进行转换,如转换成“**姓名****李雷**”的文本格式。
S30:对简历文本进行标签提取,得到标题标签。
在本实施例中,标题标签是简历文本中内容的提炼和标识,用于描述简历中的专业、学历和工作经历等表示个人特点的一系列标签,其中,标题标签具体可以是“姓名”、“学历”、“教育经历”或“工作经历”等。
标签提取的方式可以是特征提取,还可以是其他提取方式,此处不做限制。
具体地,根据预设的标签词典,遍历简历文本,检索到与标签词典中的标签相同的文本,将该文本标记为标题标签。
S40:根据预设的关键词,将标题标签与关键词进行匹配,将匹配成功的标题标签确定为有效关键词。
在本实施例中,预设的关键词具体可以是姓名、学校、专业、教育经历或工作经历等,但不限于此,其具体可以根据实际应用需求进行设置,此处不做限制。有效关键词是简历文本中与预设的关键词相匹配的标题标签。
将标题标签与关键词进行匹配,可以是通过条件匹配,还可以通过其他方式进行匹配,此处不做限制,其中,条件匹配中的条件可以根据实际应用需求进行设置,此处不做限制。
优选地,本实施例采用的匹配方式为条件匹配,条件匹配的过程具体可以是根据预设的词库确定标题标签与关键词的词义是否相同,其中,预设的词库中定义了与每个关键词对应的近义词集合,如“教育经验”的近义词集合包括“教育经验”、“教育经历”、“教育程度”等,“工作经验”的近义词集合包括“工作经验”、“工作经历”、“履历”等,若标题标签属于关键词的近义词集合,则确认该标题标签与该关键词的词义相同,即匹配成功;条件匹配的过程还可以是计算标题标签与关键词的文本相似度,若该文本相似度大 于或等于预设的相似度阈值,则匹配成功,其中,预设的相似度阈值具体可以是80%,也可以是其他数值,具体可以根据实际应用需求进行设置,此处不做限制。
S50:针对每个有效关键词,按照该有效关键词对应的数据解析方式,对简历文本进行解析,获取简历文本中每个有效关键词对应的数据信息。
在本实施例中,数据信息是指有效关键词对应的具体简历文本内容。
不同的有效关键词,其对应的数据解析方式可以相同也可以不相同,数据解析方式可以包括但不限于:数据划分法、正则表达式和分值算法等,具体可以根据实际应用需求进行设置,此处不做具体限制。
需要说明的是,数据划分法是选定文本中分界标识,以分界标识为间隔,将文本划分为单独的分界标识和每个分界标识对应的文本块,其中,分界标识具体为简历文本中有效关键词,每个分界标识对应的文本块即为每个有效关键词对应的数据信息。
具体地,根据有效关键词对应的数据解析方式,对步骤S20中得到的简历文本中的内容的进行划分和提取,得到简历文本中每个有效关键词对应的数据信息,可以保证对简历文本的内容提取的完整性。
S60:根据预设的标准简历模板中模板标签,将有效关键词与模板标签进行匹配,并将匹配成功的有效关键词对应的数据信息导入模板标签对应的位置,生成标准简历报告并保存在简历库中。
在本实施例中,预设的标准简历模板是根据实际应用需求进行设置的,此处不做限制。模板标签具体可以是姓名、学历、教育经历和工作经历等,但不限于此,具体可以根据实际应用需求进行设置,此处不做限制。
具体地,遍历预设的标准简历报告中的模板标签,检索到有效关键词与模板标签相同的文本,即有效关键词成功匹配到模板标签,将匹配成功的有效关键词对应的数据信息导入模板标签对应的位置,生成标准简历报告并保存在简历库中。
进一步地,对有效关键词与模板标签进行匹配,可以是通过条件匹配的方式,条件匹配的方式具体可以采用与步骤S40中标题标签与关键词进行条件匹配相同的匹配方式,此处不再赘述。
在本实施例中,根据预设的文本格式,对接收到的简历文件进行格式转换,得到该简历文件对应的简历文本,有利于后续对简历文本中的数据信息的提取,通过对简历文本进行标签提取,得到标题标签,根据预设的关键词,将标题标签与该关键词进行匹配,并将匹配成功的标题标签确定为有效关键词,可以根据该有效关键词实现对所要提取的数据信息的位置的快速锁定,从而针对每个有效关键词,按照该有效关键词对应的数据解析方式,对简历文本进行解析,获取简历文本中有效关键词对应的数据信息,可以实现对已锁定的数据信息的进一步确认,保证得到的数据信息的准确性,以及保证对简历文本数据信息的提取的完整性,从而实现对简历文本数据信息的精确解析,有效提高对简历文本的解析准确率,同时,根据预设的标准简历模板中模板标签,将有效关键词与模板标签进行匹配,并将匹配成功的有效关键词对应的数据信息导入模板标签对应的位置,生成标准简历报告并保存在简历库中,实现对不规则的简历文本的统一规范化,便于对简历信息的维护和管理。
在一实施例中,如图3所示,步骤S30中,即对简历文本进行标签提取,得到标题标签具体包括如下步骤:
S301:获取简历文本中的文本行。
在本实施例中,文本行是简历文本中单独位于一行的一个词或一个句子。
S302:按照预设的特征指标对文本行进行特征提取,得到特征向量。
在本实施例中,预设的特征指标作为特征提取的标准,具体可以包括但不限于:该文本行独处一行、该文本行的文本长度小于预设的长度、该文本行不含有标点符号、该文本 行在预设的标签字典中、该文本行的字体与全文文字占比最多的字体不同,以及该文本行的字体是以标签字典中的父级元素开头等,预设的特征指标还可以是其他指标,具体可以根据实际应用需求进行设置,此处不做限制。其中,预设的标签字典包括元素和标签,标签包括但不限于:姓名、学历、教育经历和工作经历等,具体可以根据实际应用需求进行设置,此处不做限制,元素包括但不限于:父级元素、子级元素和行内元素等,其中,父级元素包括设定好的字体的大小、高度和宽度等,字体具体可以是宋体、计算机字体Courier或者英文有衬线字体serif等,还可以是其他字体,此处不做限制。
特征向量是用于描述文本行的属性特征的一组向量。
需要说明的是,对文本行进行特征提取的方式可以是采用信息标记法,也可以采用其他方式,此处不做限制。
优选地,采用信息标记法对文本行进行特征提取,具体可以是将满足预设的特征指标要求的文本行特征标记为1,不满足预设的特征指标要求的文本行特征标记为0。
例如,某一文本行满足“该文本行独处一行”、“该文本行的文本长度小于预设的长度”、“该文本行不含有标点符号”和“该文本行在预设的标签字典中”等特征指标,则各自对应标记为1,该文本行不满足“该文本行的字体与全文文字占比最多的字体不同”和“该文本行的字体是以标签字典中的父级元素开头”,则各自对应标记为0,得到该文本行的特征向量为(1,1,1,1,0,0)。
S303:若特征向量满足预设的标签条件,则将文本行标识为标题标签。
具体地,判断步骤S302得到的特征向量是否满足预设的标签条件,若特征向量满足预设的标签条件,则将该特征向量对应的文本行标识为标题标签。
需要说明的是,预设的标签条件具体可以是特征向量中的分量“1”的个数大于或者等于预设数量,但并不限于此,其具体可以根据实际应用需求进行设置,此处不做限制。
继续以步骤S302的例子中文本行的特征向量(1,1,1,1,0,0)为例进行说明,若预设的标签条件为特征向量中的分量“1”的个数大于或者等于4,则该文本行的特征向量中的分量“1”的个数为4,满足预设的标签条件,则该文本行被标识为标题标签。
在本实施例中,根据预设的特征指标,对获取到的简历文本中的文本行进行特征提取,可以得到文本行对应的特征向量,可以实现对简历文本的文本行的精确读取,便于后续对标题标签的确认,同时,以预设的标签条件为标准,若特征向量满足预设的标签条件,则将该特征向量对应的文本行标识为标题标签,可以保证对标题标签的准确提取,从而有利于后续对简历文本的数据信息的解析和获取。
在一实施例中,有效关键词包括姓名,如图4所示,步骤S50中,针对每个有效关键词,按照该有效关键词对应的数据解析方式,对简历文本进行解析,获取简历文本中每个有效关键词对应的数据信息具体包括如下步骤:
S501:获取姓名对应的名字数据块。
在本实施例中,名字数据块是指有效关键词“姓名”在简历文本中对应的数据块。
名字数据块的获取方式具体可以是进行有效关键词检索,检索到的“姓名”的有效关键词,同时,按照有效关键词出现的先后顺序将有效关键词“姓名”和下一个有效关键词之间的内容作为有效关键词“姓名”的对应的名字数据块,名字数据块的获取方式还可以是其他方式,此处不做限制。
S502:根据预设的姓名正则表达式,对名字数据块进行姓名数据识别,将识别出的姓名数据作为姓名对应的数据信息。
在本实施例中,预设的姓名正则表达式可以是常用的姓名提取正则表达式,用于识别简历文本中的姓名数据。常用的姓名提取正则表达式为:
^[\u4E00-\u9FA5]{2,5}(?:·[\u4E00-\u9FA5]){2,5}$
其中,符号“^”表示姓名中的“姓”匹配开始部分,符号“$”表示姓名中“名”匹 配结束部分,“[\u4E00-\u9FA5]”表示所有中文字符的unicode编码,符号“[]”表示在“[\u4E00-\u9FA5]”限定范围内的汉字,“{2,5}”表示选取2至5个“[\u4E00-\u9FA5]”限定范围的汉字,“?”表示字符个数不做限定,“:”表示逻辑或的关系。
需要说明的是,正则表达式是用于处理数据中的字符串,通过使用一些特定字符来描述字符串里字符出现的规则,匹配、识别、提取或者替换符合该规则的字符串,正则表达式还可以用来查找、删除和替换字符串,使用正则表达式能够实现快速查找和精准查找。其中,特定字符如“[\u4E00-\u9FA5]”、“{2,5}”或者“[1-9]\d{3}”等。
具体地,对步骤S501中获取到的名字数据块,采用常用的姓名正则表达式中的特定字符,作为描述名字数据块的姓名数据字符串里对应的字符出现的规则,识别出该名字数据块中符合字符出现的规则的字符串,则将该字符串确定为该名字数据块的姓名数据。
在本实施例中,根据预设的姓名正则表达式,对获取到的名字数据块,进行姓名数据识别,将识别出的姓名数据作为姓名对应的数据信息,可以实现对姓名对应的数据信息进一步确认和提取,对提取的数据信息有针对性,有利于保证得到数据信息的完整性和准确性,从而有利于提高对数据信息解析的准确性。
在一实施例中,有效关键词包括教育经历或工作经历,如图5所示,步骤S50中,针对每个有效关键词,按照该有效关键词对应的数据解析方式,对简历文本进行解析,获取简历文本中每个有效关键词对应的数据信息具体包括如下步骤:
S503:获取教育简历或工作经历对应的数据块。
在本实施例中,教育简历或工作经历对应的数据块是指有效关键词“教育简历或工作经历”在简历文本中对应的数据块。
需要说明的是,对教育简历或工作经历对应的数据块的获取,可以采用与步骤S501中获取名字数据块相同的获取方式进行获取,此处不再赘述。
S504:根据预设的分值算法,对数据块进行分值计算,得到数据块的分数值。
在本实施例中,预设的分值算法具体可以根据实际应用需求进行设置,用于计算教育简历或工作经历对应的数据块的分值,具体可以是对简历文本中的预设标签设置对应的分数,其中,预设标签包括时间、学校、专业和学位等。
具体地,采用预设的分值算法对数据块进行分值计算,可以是对教育简历或工作经历中的预设标签设置相应的分数,如时间2分、学校2分、专业1分和学位1分等,在对数据块进行分值计算时,遍历数据块,在数据块中,检索预设标签,并根据检索到的预设标签进行分值计算,例如,若检索到“时间”则标记“2分”,检索到“专业”则标记“1分”等,遍历完成后对标记的分数进行累加求和,得到的求和结果作为该数据块的分数值。
S505:若分数值大于预设的分数阈值,则将该分数值对应的目标数据块,确定为教育简历或工作经历对应的数据信息。
在本实施例中,目标数据块是分数值大于预设的分数阈值的数据块,预设的分数阈值具体可以根据实际应用需求进行设置,此处不做限制。
例如,假设预设的分数阈值为4分,以时间2分、学校2分,专业1分和学位1分为例,若某一数据块包含标签“时间”、“学校”和“专业”,则按照预设的分值算法,对标签进行分数标记,分别是“时间”标记“2分”、“学校”标记“2分”和“专业”标记“1分”,对标记的分数进行累加求和,得到的分数值为5分,该分数值大于预设的分数阈值,因此,可以将该数据块确定为教育简历或工作经历对应的数据信息。
在本实施例中,根据预设的分值算法,对获取到的教育简历或工作经历对应的数据块进行分值计算,得到数据块的分数值,通过将该分数值与预设的分数阈值进行比较,若分数值大于预设的分数阈值,则将该分数值对应的目标数据块,确定为教育简历或工作经历对应的数据信息,可以实现对教育简历或工作经历对应的数据信息快速确认和提取,从而有利于提高对数据信息获取效率。
在一实施例中,如图6所示,步骤S505之后,该简历数据信息解析处理方法还包括如下步骤:
S506:根据预设的时间正则表达式,识别目标数据块中的基础时间段。
在本实施例中,预设的时间正则表达式可以是常用的时间正则表达式,用于识别简历文本中的基础时间段。基础时间段包括起始时间点和结束时间点,用于表示教育简历或工作经历的从开始至结束的时间。
其中,常用的时间正则表达式为:
^[1-9]\d{3}.(0[1-9]1[0-2])-[1-9]\d{3}.(0[1-9]1[0-2])$
其中,“[1-9]\d{3}”表示年份,“(0[1-9]1[0-2])”表示日期,“^[1-9]\d{3}.(0[1-9]1[0-2])”表示起始时间点,“[1-9]\d{3}.(0[1-9]1[0-2])$”表示结束时间点,符号“.”“-”表示时间的格式符,如“2010.01-2011.04”。
具体地,对步骤S505中得到的教育简历或工作经历对应的数据信息,采用常用的时间正则表达式中的特定字符,作为描述数据信息的基础时间段字符串里对应的字符出现的规则,识别出该数据信息中符合字符出现的规则的字符串,则将该字符串确定为该数据信息的基础时间段。
S507:分析基础时间段的时间包含关系,确定基础时间段中的主时间段和子时间段;
在本实施例中,基础时间段可以是主时间段或者子时间段,其中,主时间段包含一个或多个子时间段。时间的包含关系是指时间段与时间段之间的关系,等同于集合与集合之间的关系,其中,包含关系包括包含、不包含和相等的关系,如将时间段通过集合的形式来进行描述,则时间的包含关系等同于集合中的有包含、空集和相等的关系。
需要说明的是,对基础时间段进行主时间段和子时间段的确认,是为了实现对教育简历或工作经历对应的数据信息进一步确认和提取,有利于保证数据信息的完整性,可以清晰反映出数据信息的分布情况。
具体地,根据时间的包含关系,确定基础时间段中的主时间段和子时间段,是按照基础时间段中的起始时间点和结束时间点,确定不同时间点之间的先后顺序,根据该先后顺序,得到基础时间段之间的时间包含关系,并根据该包含关系确定主时间段和子时间段,其中,被包含的基础时间段为子时间段。
例如,基础时间段中有时间段“2010.01-2014.04”和时间段“2011.04-2012.04”,将时间段“2010.01-2014.04”和时间段“2011.04-2012.04”的起始时间点和结束时间点分别进行比较,得到“2010.01”先于“2011.04”且“2014.04”晚于“2012.04”,即时间段“2011.04-2012.04”包含于时间段“2010.01-2014.04”,时间段“2011.04-2012.04”为子时间段。
S508:按照主时间段对目标数据块进行拆分,得到每个主时间段对应的阶段数据信息。
在本实施例中,对目标数据块进行拆分是指将目标数据块的整体,分割成每个单独的主时间段和主时间段对应的阶段数据信息。
具体地,根据步骤S507中得到的主时间段,将目标数据块拆分成主时间段和每个主时间段对应的阶段数据信息,可以避免提取后的数据信息混乱,保证数据信息的完整性,从而有利于提高对数据信息解析的准确性。
在本实施例中,根据预设的时间正则表达式,识别目标数据块中的基础时间段,并对识别出的基础时间段进行排序,同时,根据时间的包含关系,确定基础时间段中的主时间段和子时间段,按照主时间段对目标数据块进行拆分,可以得到每个主时间段对应的阶段数据信息,可以实现对教育简历或工作经历对应的数据信息进一步确认和提取,有利于保证数据信息的完整性,可以清晰反映出数据信息的分布情况,避免提取后的数据信息混乱,从而有利于提高对数据信息解析的准确性。
在一实施例中,如图7所示,步骤S60之后,该简历数据信息解析处理方法还包括如下步骤:
S70:若接收到用户发送的简历信息查询请求,则获取简历信息查询请求中的查询条件信息,其中,查询条件信息包括查询条件项和查询条件值;
在本实施例中,查询条件信息可以包括一个或多个查询条件项,以及与查询条件项对应的查询条件值,其中,查询条件项用于匹配模板标签,可以实现对简历信息的查询,查询条件项具体可以是“学校”,对应的查询条件值具体可以是“初中”、“高中”或“大学”等,查询条件项是“学历”对应的查询条件值可以是“大专”、“本科”或“研究生”等,查询条件项是“工作经历”对应的查询条件值可以是“国企”或“外企”等,还可以是其他查询条件项和查询条件值,此处不做限制。
S80:将查询条件项与标准简历报告中的模板标签进行匹配,获取匹配成功的模板标签对应的目标数据信息。
在本实施例中,目标数据信息是标准简历报告中,与查询条件项相匹配的模板标签对应的数据信息。
具体地,基于步骤S70中的查询条件项,将查询条件项与标准简历报告中的模板标签进行匹配,可以是遍历标准简历报告,查找与查询条件项相同的模板标签,并获取该模板标签对应的数据信息。
S90:将目标数据信息与查询条件值进行相似度比较,获取满足预设相似度条件的目标数据信息所在的标准简历报告。
在本实施例中,预设相似度条件用作提取目标数据信息所在标准简历报告的标准,具体可以根据实际应用需求进行设置,此处不做限制。
例如,预设相似度条件可以是目标数据信息与查询条件值中的文本相似度大于等于预设的相似度阈值。
预设相似度条件可以是查询条件值包含在目标数据信息中,即相似度比较过程为:遍历目标数据信息,若查询条件值在目标数据信息中存在,则确认该目标数据信息满足预设相似度条件。
预设相似度条件还可以是查询条件值在目标数据信息中出现的次数大于等于预设的相似度阈值,即相似度比较过程为:对查询条件值与目标数据信息的文本分别进行分词处理,得到查询条件值词汇单元和目标数据信息词汇单元,若查询条件值词汇单元中的单词在目标数据信息词汇单元中出现一次,则标记为“1”,出现两次则标记为“2”,同理,出现N次则标记为“N”,没有出现,则标记为“0”,最终获取查询条件值词汇单元中的单词在目标数据信息词汇单元中出现的总次数,若该总次数大于或者等于相似度阈值,则确认该目标数据信息满足预设相似度条件。示例如下:
假设预设的相似度阈值为2,查询条件值为“北京大学”,对查询条件值进行分词得到的查询条件值词汇单元为unit1:北京/大学,对目标数据信息分词后的目标数据信息词汇单元为unit2:毕业/于/北京/大学/修习/北京/大学/中文/系/汉语/专业/担任/学生会/学生/主席,则unit1中的单词在unit2中出现的次数为4,该次数大于预设的相似度阈值2,则确认该目标数据信息满足预设相似度条件要求。
需要说明的是,分词处理可以采用具有分词功能的工具,如solr搜索引擎的分词插件,还可以采用其他工具,此处不做限制。
具体地,根据预设相似度条件,将步骤S80中获取的目标数据信息,与步骤S70中获取的查询条件值进行相似度比较,若比较结果满足预设相似度条件,则获取该目标数据信息所在的标准简历报告。
在本实施例中,根据接收到用户发送的简历信息下载请求中的查询条件项,匹配标准简历包括中的模板标签,获取匹配成功的模板标签对应的目标数据信息,通过将目标数据 信息与查询条件值进行相似度比较,获取满足预设相似度条件的目标数据信息所在的标准简历报告,可以快速准确筛选出所需要的简历信息,从而通过标准简历报告,能够更准确的得到查询结果,实现简历报告的统一规范化,便于对简历信息的查看和管理。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一实施例中,提供一种简历数据信息解析处理装置,该简历数据信息解析处理装置与上述实施例中简历数据信息解析处理方法一一对应。如图8所示,该简历数据信息解析处理装置包括文件接收模块801、文件转换模块802、标签提取模块803、标签匹配模块804、文本解析模块805和信息导入模块806。各功能模块详细说明如下:
文件接收模块801,用于接收用户上传的简历文件;
文件转换模块802,用于按照预设的文本格式,对简历文件进行格式转换,得到简历文件对应的简历文本;
标签提取模块803,用于对简历文本进行标签提取,得到标题标签;
标签匹配模块804,用于根据预设的关键词,将标题标签与关键词进行匹配,将匹配成功的标题标签确定为有效关键词;
文本解析模块805,用于针对每个有效关键词,按照该有效关键词对应的数据解析方式,对简历文本进行解析,获取简历文本中每个有效关键词对应的数据信息;
信息导入模块806,用于根据预设的标准简历模板中模板标签,将有效关键词与模板标签进行匹配,并将匹配成功的有效关键词对应的数据信息导入模板标签对应的位置,生成标准简历报告并保存在简历库中。
进一步地,标签提取模块803包括:
文本获取单元8031,用于获取简历文本中的文本行;
特征提取单元8032,用于按照预设的特征指标对文本行进行特征提取,得到特征向量;
标签确定单元8033,用于若特征向量满足预设的标签条件,则将文本行标识为标题标签。
进一步地,文本解析模块805包括:
名字获取单元8051,用于获取姓名对应的名字数据块;
名字识别单元8052,用于根据预设的姓名正则表达式,对名字数据块进行姓名数据识别,将识别出的姓名数据作为姓名对应的数据信息。
进一步地,文本解析模块805还包括:
数据获取单元8053,用于获取教育简历或工作经历对应的数据块;
分值计算单元8054,用于根据预设的分值算法,对数据块进行分值计算,得到数据块的分数值;
数据确定单元8055,用于若分数值大于预设的分数阈值,则将该分数值对应的目标数据块,确定为教育简历或工作经历对应的数据信息。
进一步地,该简历数据信息解析处理装置还包括:
时间识别单元8056,用于根据预设的时间正则表达式,识别目标数据块中的基础时间段;
时间确定单元8057,用于分析基础时间段的时间包含关系,确定基础时间段中的主时间段和子时间段;
数据拆分单元8058,用于按照主时间段对目标数据块进行拆分,得到每个主时间段对应的阶段数据信息。
进一步地,该简历数据信息解析处理装置还包括:
请求接收模块807,用于若接收到用户发送的简历信息查询请求,则获取简历信息查询请求中的查询条件信息,其中,查询条件信息包括查询条件项和查询条件值;
条件匹配模块808,用于将查询条件项与标准简历报告中的模板标签进行匹配,获取匹配成功的模板标签对应的目标数据信息;
报告获取模块809,用于将目标数据信息与查询条件值进行相似度比较,获取满足预设相似度条件的目标数据信息所在的标准简历报告。
关于简历数据信息解析处理装置的具体限定可以参见上文中对于简历数据信息解析处理方法的限定,在此不再赘述。上述简历数据信息解析处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于保存简历信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种简历数据信息解析处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现上述实施例简历数据信息解析处理方法的步骤,例如图2所示的步骤S10至步骤S60。或者,处理器执行计算机可读指令时实现上述实施例中简历数据信息解析处理装置的各模块/单元的功能,例如图8所示模块801至模块806的功能。为避免重复,这里不再赘述。
在一个实施例中,提供了一种非易失性存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述方法实施例中简历数据信息解析处理方法,或者,该计算机可读指令被处理器执行时实现上述装置实施例中简历数据信息解析处理装置中各模块/单元的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者 替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (20)

  1. 一种简历数据信息解析处理方法,其特征在于,所述简历数据信息解析处理方法包括:
    接收用户上传的简历文件;
    按照预设的文本格式,对所述简历文件进行格式转换,得到所述简历文件对应的简历文本;
    对所述简历文本进行标签提取,得到标题标签;
    根据预设的关键词,将所述标题标签与所述关键词进行匹配,将匹配成功的所述标题标签确定为有效关键词;
    针对每个所述有效关键词,按照该有效关键词对应的数据解析方式,对所述简历文本进行解析,获取所述简历文本中每个所述有效关键词对应的所述数据信息;
    根据预设的标准简历模板中模板标签,将所述有效关键词与所述模板标签进行匹配,并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置,生成标准简历报告并保存在简历库中。
  2. 如权利要求1所述的简历数据信息解析处理方法,其特征在于,所述对所述简历文本进行标签提取,得到标题标签包括:
    获取所述简历文本中的文本行;
    按照预设的特征指标对所述文本行进行特征提取,得到特征向量;
    若所述特征向量满足预设的标签条件,则将所述文本行标识为所述标题标签。
  3. 如权利要求1所述的简历数据信息解析处理方法,其特征在于,所述有效关键词包括姓名,所述针对每个所述有效关键词,按照该有效关键词对应的数据解析方式,对所述简历文本进行解析,获取所述简历文本中每个所述有效关键词对应的所述数据信息包括:
    获取所述姓名对应的名字数据块;
    根据预设的姓名正则表达式,对所述名字数据块进行姓名数据识别,将识别出的所述姓名数据作为所述姓名对应的数据信息。
  4. 如权利要求1所述的简历数据信息解析处理方法,其特征在于,所述有效关键词包括教育经历或工作经历,所述针对每个所述有效关键词,按照该有效关键词对应的数据解析方式,对所述简历文本进行解析,获取所述简历文本中每个所述有效关键词对应的所述数据信息包括:
    获取所述教育简历或所述工作经历对应的数据块;
    根据预设的分值算法,对所述数据块进行分值计算,得到所述数据块的分数值;
    若所述分数值大于预设的分数阈值,则将该分数值对应的目标数据块,确定为所述教育简历或所述工作经历对应的所述数据信息。
  5. 如权利要求4所述的简历数据信息解析处理方法,其特征在于,所述数据信息包括主时间段和每个主时间段对应的阶段数据信息,所述若所述分数值大于预设的分数阈值,则将该分数值对应的目标数据块,确定为所述教育简历或所述工作经历对应的所述数据信息之后,所述简历数据信息解析处理方法还包括:
    根据预设的时间正则表达式,识别所述目标数据块中的基础时间段;
    分析所述基础时间段的时间包含关系,确定所述基础时间段中的主时间段和子时间段;
    按照所述主时间段对所述目标数据块进行拆分,得到每个所述主时间段对应的阶段数据信息。
  6. 如权利要求1至5任一项所述的简历数据信息解析处理方法,其特征在于,在所述 根据预设的标准简历模板中模板标签,将所述有效关键词与所述模板标签进行匹配,并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置,生成标准简历报告并保存在简历库中之后,所述简历数据信息解析处理方法还包括:
    若接收到所述用户发送的简历信息查询请求,则获取所述简历信息查询请求中的查询条件信息,其中,所述查询条件信息包括查询条件项和查询条件值;
    将所述查询条件项与所述标准简历报告中的所述模板标签进行匹配,获取匹配成功的所述模板标签对应的目标数据信息;
    将所述目标数据信息与所述查询条件值进行相似度比较,获取满足预设相似度条件的目标数据信息所在的标准简历报告。
  7. 一种简历数据信息解析处理装置,其特征在于,所述简历数据信息解析处理装置包括:
    文件接收模块,用于接收用户上传的简历文件;
    文件转换模块,用于按照预设的文本格式,对所述简历文件进行格式转换,得到所述简历文件对应的简历文本;
    标签提取模块,用于对所述简历文本进行标签提取,得到标题标签;
    标签匹配模块,用于根据预设的关键词,将所述标题标签与所述关键词进行匹配,将匹配成功的所述标题标签确定为有效关键词;
    文本解析模块,用于针对每个所述有效关键词,按照该有效关键词对应的数据解析方式,对所述简历文本进行解析,获取所述简历文本中每个所述有效关键词对应的所述数据信息;
    信息导入模块,用于根据预设的标准简历模板中模板标签,将所述有效关键词与所述模板标签进行匹配,并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置,生成标准简历报告并保存在简历库中。
  8. 如权利要求7所述的简历数据信息解析处理装置,其特征在于,所述标签提取模块包括:
    文本获取单元,用于获取所述简历文本中的文本行;
    特征提取单元,用于按照预设的特征指标对所述文本行进行特征提取,得到特征向量;
    标签确定单元,用于若所述特征向量满足预设的标签条件,则将所述文本行标识为所述标题标签。
  9. 如权利要求7所述的简历数据信息解析处理装置,其特征在于,所述文本解析模块包括:
    文本解析模块,用于获取所述姓名对应的名字数据块;
    名字识别单元,用于根据预设的姓名正则表达式,对所述名字数据块进行姓名数据识别,将识别出的所述姓名数据作为所述姓名对应的数据信息。
  10. 如权利要求7所述的简历数据信息解析处理装置,其特征在于,所述文本解析模块还包括:
    数据获取单元,用于获取所述教育简历或所述工作经历对应的数据块;
    分值计算单元,用于根据预设的分值算法,对所述数据块进行分值计算,得到所述数据块的分数值;
    数据确定单元,用于若所述分数值大于预设的分数阈值,则将该分数值对应的目标数据块,确定为所述教育简历或所述工作经历对应的所述数据信息。
  11. 如权利要求10所述的简历数据信息解析处理装置,其特征在于,所述简历数据信息解析处理装置还包括:
    时间识别单元,用于根据预设的时间正则表达式,识别所述目标数据块中的基础时间段;
    时间确定单元,用于分析所述基础时间段的时间包含关系,确定所述基础时间段中的主时间段和子时间段;
    数据拆分单元,用于按照所述主时间段对所述目标数据块进行拆分,得到每个所述主时间段对应的阶段数据信息。
  12. 如权利要求7至11任一项所述的简历数据信息解析处理装置,其特征在于,所述简历数据信息解析处理装置还包括:
    请求接收模块,用于若接收到所述用户发送的简历信息查询请求,则获取所述简历信息查询请求中的查询条件信息,其中,所述查询条件信息包括查询条件项和查询条件值;
    条件匹配模块,用于将所述查询条件项与所述标准简历报告中的所述模板标签进行匹配,获取匹配成功的所述模板标签对应的目标数据信息;
    报告获取模块,用于将所述目标数据信息与所述查询条件值进行相似度比较,获取满足预设相似度条件的目标数据信息所在的标准简历报告。
  13. 一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
    接收用户上传的简历文件;
    按照预设的文本格式,对所述简历文件进行格式转换,得到所述简历文件对应的简历文本;
    对所述简历文本进行标签提取,得到标题标签;
    根据预设的关键词,将所述标题标签与所述关键词进行匹配,将匹配成功的所述标题标签确定为有效关键词;
    针对每个所述有效关键词,按照该有效关键词对应的数据解析方式,对所述简历文本进行解析,获取所述简历文本中每个所述有效关键词对应的所述数据信息;
    根据预设的标准简历模板中模板标签,将所述有效关键词与所述模板标签进行匹配,并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置,生成标准简历报告并保存在简历库中。
  14. 如权利要求13所述的计算机设备,其特征在于,所述对所述简历文本进行标签提取,得到标题标签包括:
    获取所述简历文本中的文本行;
    按照预设的特征指标对所述文本行进行特征提取,得到特征向量;
    若所述特征向量满足预设的标签条件,则将所述文本行标识为所述标题标签。
  15. 如权利要求13所述的计算机设备,其特征在于,所述有效关键词包括姓名,所述针对每个所述有效关键词,按照该有效关键词对应的数据解析方式,对所述简历文本进行解析,获取所述简历文本中每个所述有效关键词对应的所述数据信息包括:
    获取所述姓名对应的名字数据块;
    根据预设的姓名正则表达式,对所述名字数据块进行姓名数据识别,将识别出的所述姓名数据作为所述姓名对应的数据信息。
  16. 如权利要求13所述的计算机设备,其特征在于,所述有效关键词包括教育经历或工作经历,所述针对每个所述有效关键词,按照该有效关键词对应的数据解析方式,对所述简历文本进行解析,获取所述简历文本中每个所述有效关键词对应的所述数据信息包括:
    获取所述教育简历或所述工作经历对应的数据块;
    根据预设的分值算法,对所述数据块进行分值计算,得到所述数据块的分数值;
    若所述分数值大于预设的分数阈值,则将该分数值对应的目标数据块,确定为所述教育简历或所述工作经历对应的所述数据信息。
  17. 如权利要求16所述的计算机设备,其特征在于,所述数据信息包括主时间段和每个主时间段对应的阶段数据信息,所述若所述分数值大于预设的分数阈值,则将该分数值对应的目标数据块,确定为所述教育简历或所述工作经历对应的所述数据信息之后,所述处理器执行所述计算机可读指令时还实现如下步骤:
    根据预设的时间正则表达式,识别所述目标数据块中的基础时间段;
    分析所述基础时间段的时间包含关系,确定所述基础时间段中的主时间段和子时间段;
    按照所述主时间段对所述目标数据块进行拆分,得到每个所述主时间段对应的阶段数据信息。
  18. 如权利要求13至17任一项所述的计算机设备,其特征在于,在所述根据预设的标准简历模板中模板标签,将所述有效关键词与所述模板标签进行匹配,并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置,生成标准简历报告并保存在简历库中之后,所述处理器执行所述计算机可读指令时还实现如下步骤:
    若接收到所述用户发送的简历信息查询请求,则获取所述简历信息查询请求中的查询条件信息,其中,所述查询条件信息包括查询条件项和查询条件值;
    将所述查询条件项与所述标准简历报告中的所述模板标签进行匹配,获取匹配成功的所述模板标签对应的目标数据信息;
    将所述目标数据信息与所述查询条件值进行相似度比较,获取满足预设相似度条件的目标数据信息所在的标准简历报告。
  19. 一个或多个存储有计算机可读指令的非易失性可读存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如下步骤:
    接收用户上传的简历文件;
    按照预设的文本格式,对所述简历文件进行格式转换,得到所述简历文件对应的简历文本;
    对所述简历文本进行标签提取,得到标题标签;
    根据预设的关键词,将所述标题标签与所述关键词进行匹配,将匹配成功的所述标题标签确定为有效关键词;
    针对每个所述有效关键词,按照该有效关键词对应的数据解析方式,对所述简历文本进行解析,获取所述简历文本中每个所述有效关键词对应的所述数据信息;
    根据预设的标准简历模板中模板标签,将所述有效关键词与所述模板标签进行匹配,并将匹配成功的所述有效关键词对应的所述数据信息导入所述模板标签对应的位置,生成标准简历报告并保存在简历库中。
  20. 如权利要求19所述的非易失性可读存储介质,其特征在于,所述对所述简历文本进行标签提取,得到标题标签包括:
    获取所述简历文本中的文本行;
    按照预设的特征指标对所述文本行进行特征提取,得到特征向量;
    若所述特征向量满足预设的标签条件,则将所述文本行标识为所述标题标签。
PCT/CN2018/094392 2018-05-31 2018-07-04 简历数据信息解析处理方法、装置、设备及存储介质 WO2019227584A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810548844.8 2018-05-31
CN201810548844.8A CN108874928B (zh) 2018-05-31 2018-05-31 简历数据信息解析处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
WO2019227584A1 true WO2019227584A1 (zh) 2019-12-05

Family

ID=64336044

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/094392 WO2019227584A1 (zh) 2018-05-31 2018-07-04 简历数据信息解析处理方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN108874928B (zh)
WO (1) WO2019227584A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434674A (zh) * 2021-06-25 2021-09-24 平安国际智慧城市科技股份有限公司 数据解析方法、装置、电子设备及可读存储介质
CN114201617A (zh) * 2022-02-08 2022-03-18 杭州元声象素科技有限公司 一种针对社区零散信息的信息整合方法及装置

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684614A (zh) * 2018-11-30 2019-04-26 南京越博动力系统股份有限公司 一种车辆性能仿真报告自动生成系统及其生成方法
CN109766438A (zh) * 2018-12-12 2019-05-17 平安科技(深圳)有限公司 简历信息提取方法、装置、计算机设备和存储介质
CN109753909B (zh) * 2018-12-27 2021-08-10 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN109857992B (zh) * 2018-12-29 2023-08-04 医渡云(北京)技术有限公司 医疗数据结构化解析方法、装置、可读介质及电子设备
CN110059923A (zh) * 2019-03-13 2019-07-26 平安科技(深圳)有限公司 岗位画像和简历信息的匹配方法、装置、设备及存储介质
CN109992778B (zh) * 2019-03-26 2022-12-13 深圳八爪网络科技有限公司 基于机器学习的简历文档判别方法及装置
CN109948120B (zh) * 2019-04-02 2023-03-14 深圳市前海欢雀科技有限公司 一种基于二元化的简历解析方法
CN110020327A (zh) * 2019-04-16 2019-07-16 上海大易云计算股份有限公司 一种基于垂直搜索引擎的简历解析系统
CN110287785A (zh) * 2019-05-20 2019-09-27 深圳壹账通智能科技有限公司 文本结构化信息提取方法、服务器及存储介质
CN110399453A (zh) * 2019-05-21 2019-11-01 平安普惠企业管理有限公司 征信报告处理方法及装置、电子设备和非暂态存储介质
CN110377560B (zh) * 2019-07-18 2021-11-26 鼎富智能科技有限公司 一种简历信息的结构化方法及装置
CN110516036A (zh) * 2019-07-18 2019-11-29 平安科技(深圳)有限公司 法律文书信息提取方法、装置、计算机设备及存储介质
CN110533511A (zh) * 2019-08-29 2019-12-03 欧冶国际电商有限公司 基于电子邮件的贸易询单自动生成方法、装置及存储介质
CN110866393B (zh) * 2019-11-19 2023-06-23 北京网聘咨询有限公司 基于领域知识库的简历信息抽取方法及系统
CN111190946A (zh) * 2019-12-10 2020-05-22 平安医疗健康管理股份有限公司 报告生成方法、装置、计算机设备和存储介质
CN111105209B (zh) * 2019-12-17 2023-07-21 上海沃锐企业发展有限公司 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN111143517B (zh) * 2019-12-30 2023-09-05 浙江阿尔法人力资源有限公司 人选标签预测方法、装置、设备和存储介质
CN111192025A (zh) * 2019-12-31 2020-05-22 广东德诚科教有限公司 职业信息匹配方法、装置、计算机设备和存储介质
CN111325031B (zh) * 2020-02-17 2023-06-23 抖音视界有限公司 简历解析方法及装置
CN111414523A (zh) * 2020-03-11 2020-07-14 中国建设银行股份有限公司 一种数据获取方法和装置
CN111352979B (zh) * 2020-03-31 2024-01-12 中国建设银行股份有限公司 一种基于简历信息的行业分析方法及系统
TWI776146B (zh) * 2020-04-30 2022-09-01 中國信託商業銀行股份有限公司 履歷評分方法及其系統
CN111639491B (zh) * 2020-05-18 2024-05-03 华青融天(北京)软件股份有限公司 时间数据提取方法、装置和电子设备
CN113782194B (zh) * 2020-06-09 2023-05-05 京东方科技集团股份有限公司 数据处理方法、数据处理装置和健康管理装置
CN112036150A (zh) * 2020-07-07 2020-12-04 远光软件股份有限公司 电价政策条款解析方法、存储介质及计算机
CN111967848A (zh) * 2020-08-19 2020-11-20 工银科技有限公司 获取简历的方法、装置、系统及介质
CN112035408B (zh) * 2020-09-01 2023-10-31 文思海辉智科科技有限公司 文本处理方法、装置、电子设备及存储介质
CN112149389A (zh) * 2020-09-27 2020-12-29 南方电网数字电网研究院有限公司 简历信息结构化处理方法、装置、计算机设备和存储介质
CN112269872B (zh) * 2020-10-19 2023-12-19 北京希瑞亚斯科技有限公司 简历解析方法、装置、电子设备及计算机存储介质
CN112463931B (zh) * 2020-12-11 2024-05-28 中国人寿保险股份有限公司 一种保险产品条款的智能化解析方法及相关设备
CN112700221A (zh) * 2020-12-31 2021-04-23 南京硕材信息科技有限公司 青少年素质发展记录册标签体系与解析系统
CN112699633A (zh) * 2020-12-31 2021-04-23 南京硕材信息科技有限公司 通用中小学教材格式标签及对应的解析方法
CN113095075A (zh) * 2021-04-02 2021-07-09 上海中通吉网络技术有限公司 一种简历文件解析方法
CN114416911A (zh) * 2021-05-21 2022-04-29 深圳市智尊宝数据开发有限公司 分析报告生成方法及相关装置和介质和程序
CN113641794A (zh) * 2021-08-17 2021-11-12 中国民生银行股份有限公司 简历文本的评估方法、装置及服务器
CN114697286B (zh) * 2022-04-18 2024-04-26 上海迎盾科技有限公司 即时通信数据的处理方法及装置、计算机可读存储介质
CN117058699B (zh) * 2023-08-28 2024-04-19 深圳夸夸菁领科技有限公司 一种基于LayoutLMv3模型的简历版块划分方法、系统及存储介质
CN117540917B (zh) * 2023-11-14 2024-05-28 大能手教育科技(北京)有限公司 一种培训平台辅助培训方法、装置、设备以及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1702617A (zh) * 2004-05-28 2005-11-30 微软公司 用于在起始模板和目标模板之间映射内容的方法和系统
CN104063505A (zh) * 2014-07-09 2014-09-24 深圳市亚典科技有限公司 网络招聘求职方法和网络招聘求职系统
CN107943911A (zh) * 2017-11-20 2018-04-20 北京大学深圳研究院 数据抽取方法、装置、计算机设备及可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425741A (zh) * 2013-07-16 2013-12-04 北京中科汇联信息技术有限公司 一种信息展示方法和装置
CN104050532A (zh) * 2014-06-19 2014-09-17 高海逵 简历生成方法及简历生成系统
CN105787047A (zh) * 2016-02-29 2016-07-20 河南中欧企业咨询有限公司 一种简历信息的抽取解析转换方法
CN106096913A (zh) * 2016-06-14 2016-11-09 嘉兴飞刀软件科技有限公司 一种基于云服务的简历邮件解析系统及方法
CN106600298B (zh) * 2016-12-23 2020-09-01 国网山东省电力公司信息通信公司 基于工单数据分析的电力信息系统客服知识库构建方法
CN107563725B (zh) * 2017-08-25 2021-04-06 浙江网新恒天软件有限公司 一种优化繁琐人才招聘过程的招聘系统
CN107870976A (zh) * 2017-09-25 2018-04-03 平安科技(深圳)有限公司 简历识别装置、方法及计算机可读存储介质
CN108038095A (zh) * 2017-12-15 2018-05-15 四川汉科计算机信息技术有限公司 一种文档自动生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1702617A (zh) * 2004-05-28 2005-11-30 微软公司 用于在起始模板和目标模板之间映射内容的方法和系统
CN104063505A (zh) * 2014-07-09 2014-09-24 深圳市亚典科技有限公司 网络招聘求职方法和网络招聘求职系统
CN107943911A (zh) * 2017-11-20 2018-04-20 北京大学深圳研究院 数据抽取方法、装置、计算机设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434674A (zh) * 2021-06-25 2021-09-24 平安国际智慧城市科技股份有限公司 数据解析方法、装置、电子设备及可读存储介质
CN114201617A (zh) * 2022-02-08 2022-03-18 杭州元声象素科技有限公司 一种针对社区零散信息的信息整合方法及装置

Also Published As

Publication number Publication date
CN108874928B (zh) 2024-02-02
CN108874928A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
WO2019227584A1 (zh) 简历数据信息解析处理方法、装置、设备及存储介质
WO2019227585A1 (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
US20210382878A1 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN112035653B (zh) 一种政策关键信息提取方法和装置、存储介质、电子设备
WO2021068339A1 (zh) 文本分类方法、装置及计算机可读存储介质
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
WO2019174132A1 (zh) 数据处理方法、服务器及计算机存储介质
CN111680634B (zh) 公文文件处理方法、装置、计算机设备及存储介质
US9852122B2 (en) Method of automated analysis of text documents
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
WO2022222300A1 (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN108319583B (zh) 从中文语料库提取知识的方法与系统
CN111460131A (zh) 公文摘要提取方法、装置、设备及计算机可读存储介质
CN113961685A (zh) 信息抽取方法及装置
CN110991163A (zh) 一种文档比对分析方法、装置、电子设备及存储介质
CN114861677B (zh) 信息抽取方法、装置、电子设备以及存储介质
CN116244410B (zh) 一种基于知识图谱和自然语言的指标数据分析方法及系统
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
CN114372153A (zh) 基于知识图谱的法律文书结构化入库方法及系统
CN116796726A (zh) 简历解析方法、装置、终端设备及介质
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
JP5020352B2 (ja) 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 17.03.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 18920852

Country of ref document: EP

Kind code of ref document: A1