WO2016045153A1

WO2016045153A1 - 基于文本履历信息的信息可视化方法及智能可视分析系统

Info

Publication number: WO2016045153A1
Application number: PCT/CN2014/088601
Authority: WO
Inventors: 王浩; 张晨; 徐帆江; 王微
Original assignee: 中国科学院软件研究所
Priority date: 2014-09-25
Filing date: 2014-10-15
Publication date: 2016-03-31
Also published as: CN104318340B; US20170200125A1; CN104318340A

Abstract

本发明公开了一种基于文本履历信息的信息可视化方法及智能可视分析系统。本方法为：1）对每一文本履历信息中的经历信息，进行经历等级量化计算，得到成长轨迹序列数据，并将该数据可视化；2）选取多份文本履历信息的成长轨迹序列数据进行关联计算，得到文本履历间的潜在社交关系，并将该潜在社交关系进行社交网络可视化；3）基于履历间的潜在社交关系，将具有单位交集的履历转化成相应人员所在单位的组织层级关系，并将该组织层级关系进行组织机构可视化。本发明通过数据挖掘与信息可视化技术能够获得履历所代表的个人的时空成长经历，发现人员之间的潜在社交关系，还原出人员间的组织层级关系，从而获得群体成长模式及社交关系的深层次认知。

Description

基于文本履历信息的信息可视化方法及智能可视分析系统

技术领域

本发明属于计算机应用技术领域，涉及一种基于文本履历信息的智能可视分析系统及信息可视化方法。

背景技术

履历信息是一种总结个人经历的信息，它存在于履历数据中，主要包括个人基本信息以及个人经历资料的简要说明。个人基本信息包括姓名、性别、出生年月、民族、教育程度、政治面貌、宗教信仰、主要家庭成员、主要社会关系、婚姻与个人健康状况等。个人经历作为履历的重要内容通常包括个人过去的学习经历、任职经历等。

个人履历数据作为人员测评的重要依据，它从多个方面反映了个人过去的行为以及当前的能力。履历分析基于履历数据所体现出来的人员过去的行为来预测将来的行为，从而广泛应用于各企事业单位的人事选拔与招聘，政府部门的干部考核与管理，以及科技人才流动研究与评价。

随着信息技术的不断发展，近年来电子履历数据呈爆炸方式增长与传播。电子履历从来源上划分主要包括：①存在于互联网上的公开履历；②存在于各企事业单位以及人才招聘系统中的非公开履历。此外，电子履历从形态上划分可以分为结构化履历和非结构化履历两种：①结构化履历。通常为表格形式，来源于人事招聘系统或单位内部的管理系统，其履历结构较规范且固定，便于统一管理。但是，结构化履历因其结构固定且扩展性较弱，很难对其进行基于语义的深层次分析。②非结构化履历。通常为文本形式，其来源较广，例如互联网各大新闻站点或社交媒体。非结构化履历结构多样，不便于统一分析与管理。但是，非结构化履历因其以文本作为载体，其中往往蕴含丰富的语义信息，故可以对其进行基于语义的智能分析，例如语义查找与分类等任务。

与此同时，随着履历数据量的不断增加，传统的基于人工的履历分析方法因其效率较低，在快速处理大量履历数据的任务中往往显得力不从心。因此，依靠计算机强大处理能力的履历分析系统(Curriculum Vitae Analysis System，CVAS)应运而生。CVAS主要针对结构化履历数据进行自动化的履历分析与管理。它借助于计算机其强大的处理与分析能力，能够基于履历数据快速过滤不符合要求的履历，大大提高履历分析的效率。而且，它也可以根据具体应用需求，对履历数据进行定量分析与科学评估，使得履历分析结构更加合理可靠。所以，近年来CVAS越来越受到企事业单位人事管理部门的重视，被广泛地用于人员选拔等人事资源管理活动中。

综上所述，履历分析技术的发展经历了最初的手工分析技术，到互联网时代下的计算机自动分析技术。尤其是近年来出现的CVAS，运用计算机强大处理能力极大地提高了履历分析的效率，得到了各领域的广泛应用。

但是，现有CVAS依然存在着如下不足之处：(1)当前系统不适用于针对非结构化履历数据的分析。非结构化履历通常为纯文本形式存储(例如txt、word、pdf等形式)，格式不统一且变化较大，很难直接应用于当前的CVAS。换句话说，当前CVAS缺乏将非结构化履历转化为结构化履历的能力。(2)当前系统的分析能力主要体现在简单规则下的定性分析与定量计算(例如履历筛选与打分)以及统计管理方面(例如生成履历信息报表)，而忽略了对于履历中所蕴含的潜在模式的智能挖掘以及直观可视分析，尤其是忽略了从履历中挖掘出个人成长模式以及对于成长模式的直观可视化，从而无法帮助用户完成一些复杂任务，例如基于语义的履历查找与分类、人事任免推荐、职业生涯规划等。(3)当前系统仅针对单个履历进行孤立分析，而忽视了履历之间的关联性。履历间的潜在关联能够反映人员之间的潜在社交关系，该关系由个人的潜在经历交集产生，例如同学、同事、同乡、战友、合作者、竞争对手等关系。基于该关系能够还原并构建出人员之间的潜在社交网络，该网络对于履历的科学管理、用户掌握人员间的潜在社会关联、发现人员间的组织机构层级关系从而获得深层次认知能够起到促进作用。

发明内容

本发明技术解决的问题：克服现有方法与系统的不足，提供一种基于文本履历信息的智能可视分析系统及信息可视化方法，充分利用履历数据中的潜在模式信息，基于自然语言处理、数据挖掘、机器学习以及信息可视化技术构建履历信息可视分析环境，帮助用户理解履历中的潜在成长模式及履历间的潜在关联信息，从而为基于语义的履历查找与分类、人事任免推荐、职业生涯规划以及人际关系把握等任务提供支持。该发明技术为通用框架，旨在发现履历数据中所蕴含的潜在成长模式以及人员间的潜在社交关系，并将这些模式特征以及社交关系以直观的可视化方式加以表达。它可以广泛应用于职员履历、干部履历、企业高管履历以及科研人员履历的智能挖掘及信息可视化领域。

本发明技术解决方案：一种基于文本履历信息的智能可视分析系统，包括：文本履历预处理模块；个人成长经历量化模块；个人成长模式挖掘模块；群体潜在社交关系挖掘模块；组织机构生成模块；履历信息可视化模块；履历可视分析模块。其中：

文本履历预处理模块。该模块将非结构化的文本履历数据进行预处理，抽取履历信息中的有效要素(包括个人基本信息以及经历信息)，得到结构化的履历要素XML数据(Extensible Markup Language，可扩展标记语言)。该模块借助自然语言处理技术将格式不统一的多源履历文本转化为具有统一结构的履历要素数据，为后续模块的处理提供了数据基础。

个人成长经历量化模块。该模块针对履历要素中的经历信息，进行经历等级的量化计算，从而得到成长轨迹序列数据。该模块利用自然语言处理技术将履历要素中的经历信息量化为等级信息，为后续模块的挖掘及可视化提供了基础。

个人成长模式挖掘模块。该模块利用机器学习以及数据挖掘技术，对成长轨迹序列数据进行时间维度以及空间维度的类型分析，得到履历的时空成长模式。

群体潜在社交关系挖掘模块。该模块利用数据挖掘中的关联算法，对多份履历的成长轨迹序列数据进行关联计算，得到履历间的潜在社交关系(例如同学、同事、同乡、战友、合作者、竞争对手等关系)。

组织机构生成模块。该模块以多份履历所代表群体的潜在社交关系为基础，能够从群体的单位交集信息中提取并还原出组织机构的层级信息。

履历信息可视化模块。该模块以一种基于文本履历信息的信息可视化方法为基础，借助可视化隐喻手段，将前面提及的履历成长轨迹序列数据以及各挖掘模块所输出的挖掘结果转化成直观易于理解的信息可视化图。所生成的可视化图能够帮助用户快速掌握履历数据的特征以及其中蕴含的知识。

履历可视分析模块。该模块基于信息可视化图构建履历信息可视分析环境，利用人机交互技术帮助用户从时间和空间维度来理解履历中的潜在信息及模式特征，从而获得深层次的认知。

一种基于文本履历信息的信息可视化方法，其实现步骤为：

1.履历时空轨迹可视化算法。该算法基于成长隐喻思想，将履历中的抽象成长信息转化为形象的时空轨迹可视化表达。该算法生成的时空轨迹可视化图通过对成长轨迹序列数据的可视化，能够将原本抽象的个人成长信息以时空图的方式直观地表达出来。

2.履历潜在社交网络可视化算法。该算法基于履历间的潜在社交关系，构建履历社交网络可视化表达。该算法基于挖掘得到的履历间潜在关系，构建履历社交网络可视化表达，所生成的潜在关系图能够将原本抽象的履历间潜在关系以网络图的方式直观地表达出来。

3.履历组织层级可视化算法。该算法基于履历间的潜在社交关系，构建人员所在单位的组织层级可视化表达。该算法从履历信息中抽取出履历间的单位交集信息，将具有单位交集的履历转化成相应单位的组织层级关系，并将这种关系以基于表格结构的组织机构图的方式可视化出来。

与现有技术相比，本发明的积极效果为：

1.本发明与传统方法相比，以非结构化文本形式的履历数据作为数据源，基于自然语言处理技术，通过履历结构化要素提取机制满足了多源异构履历数据的统一处理需求，大大增强了系统及方法的适用范围。

2.本发明与传统方法相比，侧重于对履历数据中所蕴含的潜在模式信息进行智能挖掘，同时针对履历模式信息进行深层次的可视分析，能够得到履历数据中的成长轨迹模式与成长类别模式，从而能够对一些基于语义的履历查找与分类、人事考核与任免推荐等履历信息深层次分析任务提供支持。

3.本发明与传统方法相比，创新性地将履历间的潜在关联引入分析过程，通过挖掘与信息可视化技术能够获得履历所代表的人员之间的潜在社交关系。基于该潜在关系能够构建一个人员间的潜在社交网络。基于该社交网络能够还原出人员间的组织层级关系，从而将大量履历所体现出的模式特征以一个宏观视角提供给用户，从而获得群体社交关系的深层次认知。

附图说明

图1是本发明组成模块框图。

图2系统架构图。

图3是履历时间维度成长轨迹类别定义范例图，其中：(a)图为成长型轨迹图，(b)图为稳健型轨迹图，(c)图为波动型轨迹图，(d)图为衰退型轨迹图。各图中实线为个人成长轨迹，虚线为总体样本的成长轨迹平均值。

图4是履历空间维度成长轨迹类别定义范例图，其中：(a)图为“地方→中央”型轨迹图，(b)图为“地方→中央→地方”型轨迹图，(c)图为“中央→地方”型轨迹图，(c)图为“中央→地方→地方→中央”型轨迹图。

图5是个人成长轨迹分类结果示意图。

图6是群体潜在关系挖掘结果展示示意图，其中：(a)图为成长轨迹相似性关系图，(b)图为经历交集关系图。

图7是个人成长图，其中：(a)图为时间维度的成长轨迹图，(b)图为空间维度的成长轨迹图。

图8是潜在关系图。

图9是组织机构图。

图10是履历轨迹的信息统计分析示意图。

图11是履历轨迹的时空关联交互分析示意图。其中(a)为时间轨迹图，(b)为空间轨迹图，且(a)中虚线框所示的经历段与(b)中的虚线箭头所示的成长轨迹相对应。

图12是履历时空轨迹的模式可视分析示意图。图中展示了个人成长过程中所体现出来的“成长期”、“瓶颈期”和“突破期”等模式。以官员升迁为例，“成长期”代表生涯初期的快速升迁；“瓶颈期”代表生涯中期遇到了瓶颈，升迁较慢；“突破期”代表生涯末期突破瓶颈，继续升迁。

图13是履历社交网络交互可视分析示意图。其中(a)为时间轨迹图，(b)为空间轨迹图，(c)社交网络图。(a)中的虚线框与(b)中的虚线框在时空维度上相对应，且其履历交集的具体信息在(c)中显示。

具体实施方式

为了使本发明的目的、技术方案和发明优势更加清楚明白，以下对本发明的实施方式做具体介绍。

名词定义

人员：履历所代表的主体，例如企事业单位员工，政府部门干部，企业高管以及科研人员。

用户：系统使用者，通常为决策者，例如领导以及其他企事业单位管理层人员。

履历：政府部门的干部履历、企事业单位的职员履历、企业高管履历、科研人员履历、明星履历等。

本发明所涉及思想、算法以及系统为通用框架，均可以推广到上述各类型的履历数据分析任务中。这里为便于说明本发明内容，以政府部门的“干部履历”为例进行阐述。

本发明基于自然语言处理、数据挖掘、机器学习和信息可视化技术，构建履历信息可视分析环境，可以充分利用文本履历数据中的信息，将履历信息中对决策起重要作用的潜在知识提取出来，并将这些潜在知识以基于成长隐喻的直观可视化方式进行展示，从而帮助用户理解履历所表达的潜在模式特征及履历间的潜在关联信息，从而为履历模糊查找与智能分类、自动人事任免、职业生涯规划以及人际关系把握等任务提供支持。

如图1所示，本发明包括：文本履历预处理模块、个人成长经历量化模块、个人成长模式挖掘模块、群体潜在社交关系挖掘模块、组织机构生成模块、履历信息可视化模块以及履历可视分析模块。本发明的系统架构图如图2所示。其中：

1.文本履历预处理模块

该模块将非结构化的履历文本数据进行预处理，通过格式过滤、中文分词以及命名实体识别等自然语言处理技术抽取履历信息中的有效要素，得到结构化的履历要素XML数据(Extensible Markup Language，可扩展标记语言)。

XML数据格式按照履历数据的特征设计而成。XML数据为层级结构，其结构如下所示。

如上所示，XML数据包含两部分履历要素：履历基本信息和经历信息表。履历基本信息包括姓名、性别、民族、出生地等人员基本信息；经历信息表为一个表结构，表头包含开始时间、终止时间、地点、单位、职务等字段，表中的每一条记录代表人员的一条经历要素，即该人员在一定时间内的经历(任职或学习)情况。

非结构化的履历文本数据主要包括来自于互联网的文本履历(html格式)、来自于人事系统的文本履历(txt、word、pdf等格式)以及其他人事档案履历(存储于数据库)。其中互联网文本履历如下所示，该数据通常由网络爬虫从互联网上爬取得到，因其格式复杂且不统一，故针对其的预处理也最为复杂。

该模块具体包括如下步骤：

1)利用html解析算法从原始履历文本中剔除广告、html格式等噪音，获得包含履历信息的纯履历文本。纯履历文本数据如下所示。该数据由两部分文本段组成：基本信息段和经历信息段。需要指出的是，该步骤仅针对互联网文本履历数据。

张三，男，汉族，1975年8月2日生，湖南长沙人。1990年1月参加工作，1991年12月加入中国共产党。现任湖南省省长。

1989-1992年湖南省宁乡县卫生局党支部书记。

1992-1995年湖南省宁乡县县委书记。

1995-1998年湖南省长沙市副市长。

1998-2002年湖南省长沙市市委书记。

2002-2010年湖南省副省长。

2010-至今湖南省省长。

2)针对纯履历文本，利用自然语言处理技术对文本进行分词与命名实体识别，并利用履历要素抽取算法，将非结构化的履历文本进行履历特征要素抽取，处理得到包含履历要素的结构化文本块。结构化文本块如下所示，主要包括基本信息以及经历信息。其中“/NAME”、“/TIME”、“/TITLE”等结构化标识符分别代表“姓名”、“时间”、“职务”等履历要素。

张三/NAME 男/GENDER 汉族/NATION 1975年8月2日/BIRTHDATE 湖南长沙/BIRTHPLACE 1990年1月1日/WORK TIME 1991年12月1日/PARTYTIME 湖南省省长/CURRENTTITLE

{1989-1992}/TIME 湖南省宁乡县/POS 卫生局党支部/ORG 书记/TITLE

{1992-1995}/TIME 湖南省宁乡县/POS 县委/ORG 书记/TITLE

{1995-1998}/TIME 湖南省长沙市/POS 市委/ORG 副市长/TITLE

{1998-2002}/TIME 湖南省长沙市/POS 市委/ORG 书记/TITLE

{2002-2010}/TIME 湖南省/POS 省委/ORG 副省长/TITLE

{2010-2014}/TIME 湖南省/POS 省委/ORG 省长/TITLE

3)将包含履历要素的结构化文本块进行格式转化，按照如下所示的层级结构，形成结构化的履历要素XML数据。该层级结构将履历信息按照基本信息段(basic_info)和经历信息段(office_record_array)两部分内容进行组织。其中基本信息段保存着履历的基本信息，其结构为固定的列表形式。经历信息段设计为树状结构，树节点为各个不同的经历段(office_record)。该树状结构具有良好的可扩展性，可以很容易且快速的对其进行扩充与查询。该结构能够显著提高大规模履历数据的要素匹配计算的效率。

这里给出一个XML数据的完整范例：

其中，步骤2中提及的履历要素抽取算法为该模块的核心算法，主要采取正则表达式匹配法对各要素进行抽取。该算法具体包括如下步骤：

2-1)基本信息的抽取：采用正则匹配的方法，对其中的人名、姓名、籍贯、出生日期、工作日期、入党日期等信息进行抽取。

2-2)经历信息的抽取：

①对于“时间”和“地点”要素，采用正则匹配的方法对其进行抽取。例如，以“年”作为正则匹配的关键词抽取“时间”要素，以“省”、“市”、“县”、“乡”等作为正则匹配的关键词进行“地点”要素的抽取；

②对于“单位”要素，采用关键词匹配法，利用设计好的单位关键词词典(如表1所示)对其进行抽取。单位关键词词典中每一行元素包括两部分：“关键字”(和“辅助关键字”。其中“辅助关键字”包括R型和L型两种，多个“辅助关键字”用逗号相隔。利用单位关键词词典进行单位要素识别的原则为：当识别到了词典中的某一“关键字”，且其右侧无R型“辅助关键字”，同时左侧无L型“辅助关键字”时，则识别成功；反之，识别失败。

表1单位关键词词典

举例说明：表1第4行元素代表着关键字为“部”，其R型“辅助关键字”为“长” 和“队”，其L型“辅助关键字”为“干”。识别时，当“部”的右侧没有出现“长”和“队”，且左侧没有出现“干”时，则认为单位要素识别成功。换句话说，“部队”、“部长”和“干部”都不应作为单位要素出现。

③对于“职务”要素，在抽取得到的“单位”要素的文本段之后，利用正则匹配法对其进行抽取。

2.个人成长经历量化模块

该模块从履历要素XML数据中获得成长轨迹序列数据。如表2所示，该序列数据中的元素为六元组，即<起始时间，终止时间，地点，单位，职务，量化等级>，其中最后一个字段“量化等级”表征了该经历段的等级大小。

表2成长轨迹序列数据表

起始时间	终止时间	地点	单位	职务	量化等级
起始时间	终止时间	地点	单位	职务	量化等级	1989	1992	湖南省宁乡县	卫生局党支部	书记	0
1992	1995	湖南省宁乡县	县委	书记	2	1989	1992	湖南省宁乡县	卫生局党支部	书记	0
1992	1995	湖南省宁乡县	县委	书记	2	1995	1998	湖南省长沙市	市委	副市长	3
1995	2002	湖南省长沙市	市委	书记	4	1995	1998	湖南省长沙市	市委	副市长	3
1995	2002	湖南省长沙市	市委	书记	4	2002	2010	湖南省	省委	副省长	5
2010	2014	北京市	市委	市长	6	2002	2010	湖南省	省委	副省长	5

该模块的核心算法为经历等级量化识别算法。该算法具体包括如下步骤：

1)对每一文本履历信息的经历信息表按照“开始时间”字段进行升序排序，得到有序经历信息表。

2)逐条扫描有序经历信息表中的记录。从每一条记录中提取出“地点”、“单位”与“职务”字段，并将各个字段值分别与已有的经历等级量化库(如表3所示)进行比对识别，对匹配的实体赋予一定的数字量级。数字大小代表着等级的高低，例如：0代表基层干部，1代表科级干部，2代表处级干部，…，5代表国家级干部。

3)反复执行步骤2，直至有序经历信息表扫描并处理完毕。将包含不同量级大小的经历段集合组成有序序列，得到成长轨迹序列数据(见表2)。

表3等级量化库

其中，步骤2中提及的经历等级量化库如表3所示。该量化库为字典结构，字典中的元素为<单位，职务，量化等级>三元组。该字典作为个人成长经历量化模块的基础，通过人机交互的方式构建：

2-1)对于“单位”和“职务”字段，可以通过文本履历预处理模块从履历语料中抽取得到，同时用户也可自行添加并修改。

2-2)对于“量化等级”字段，首先通过计算机依据一定的等级量化规则计算出量化初始值，其次用户可以根据自身知识与经验对一些特殊情况(见下文中的特殊情况解释)进行处理，保证了调整后的量化值的正确性。

其中，步骤2-2中提及的等级量化规则要视具体的应用场景而定：

①以政府部门的“干部履历”为例，根据我国的行政级别可以将干部的量化等级划分为：国家级(量化为5)、省部级(量化为4)、司厅局级(量化为3)、县处级(量化为2)、乡镇科级(量化为1)等级别，其中各级别按照其正副职还可以作进一步细分。

②以科研院所的“科研人员履历”为例，根据职称级别可以将科研人员的量化等级划分为：院士(量化为5)、正研究员(量化为4)、副研究员(量化为3)、助理研究员(量化为2)、实习研究员(量化为1)等级别。

虽然根据等级量化规则在一般情况下能够得到正确的量化结果，但是还存在一些特殊情况需要人对量化结果作相应调整。例如：计算机根据“XX市长”的职务字段能够计算出其级别为司厅局级(量化为3)，这在一般情况下是正确的；但是，如果职务字段为“北京市长”、“上海市长”等直辖市市长，则应该按照其行政特殊性将其量化为省部级(量化为4)。

3.个人成长模式挖掘模块

该模块中的成长模式分类算法创新性地将有监督的机器学习分类算法(例如朴素贝叶斯、SVM(Support Vector Machine，支持向量机)等算法)以及序列模式挖掘算法应用于履历数据，从而能够基于已知履历的成长模式自动地对未知履历进行分类，帮助用户快速掌握该履历所属的成长类型，并且基于成长模式对履历未来的发展趋势进行预测。该算法具体包括如下步骤：

1)定义一些个人成长轨迹类型。

①时间维度。可以定义履历随时间变迁的成长类型，例如定义如下四类成长类型(见图3)：成长型、稳定型、波动型和衰退型。

该四种个人成长轨迹类型(见图3中的实线)的定义是相对于整体样本的平均值(见图3中的虚线)而言的。通过度量个人成长轨迹中各等级所经历的时间跨度可以得到个人成长速度(图3中的曲线斜率)。成长型的成长速度在整个时间维度上均要明显大于样本平均值；稳定型的成长速度与样本平均值大致相等；波动型的成长速度在时间维度上的某些阶段要大于样本平均值，而在其他阶段又小于样本平均值；衰退型的成长速度在整个时间维度上均要明显小于样本平均值。

②空间维度。可以定义履历随空间迁移的成长类型，例如定义如图4所示的四类成长类型(在数据挖掘范畴中也称作“序列模式”)：“地方→中央”型、“地方→中央→地方”型、“中央→地方”型、“中央→地方→中央”型。其中“中央”可以代表北京，而“地方”可以代表其他省市。此外，“地方”可以依据需要细分为“东南沿海”、“西部地区”、“边远山区”等较小的空间尺度。注意：上述类型只涵盖了空间迁移特征明显的类型；不失一般性，像“地方→地方”、“中央→中央”等迁移特征不明显的类型可以用本方法同等对待，但这里暂不做考虑。

2)定义成长轨迹类型的特征。此处的“特征”属于机器学习与数据挖掘范畴，用于刻画不同类型的成长轨迹序列数据，机器学习/数据挖掘算法只有通过数据的特征才能学习得到数据所对应的类型/挖掘得到数据的模式。

①时间维度的特征。由步骤1所述的时间维度类型可知，成长轨迹序列数据的成长速度可以作为其时间维度特征。该成长速度可以量化为如下两类特征：

a.各等级时间跨度，代表个人在不同等级所经历的时间跨度。其形式化表达为：“<量化等级1，时间跨度1>，<量化等级2，时间跨度2>，…，<量化等级n，时间跨度n>”。其中n代表成长轨迹序列数据的序列长度(序列数据中元素的数目)，时间跨度可以由序列数据中各元素的“终止时间”与“起始时间”相减得到。举例说明，表2所示的序列数据的各等级时间跨度特征为：“<0，3>，<1，0>，<2，3>，<3，3>，<4，4>，<5，8>，<6，4>，<7，0>，<8，0>”。

b.时序成长斜率，代表个人在不同时间阶段的成长轨迹斜率值。其形式化表达为：“<时间阶段1，斜率1>，<时间阶段2，斜率2>，…，<时间阶段m，斜率m>”。其中m代表时间阶段的数目，该数目一般由经验给定，例如m＝10代表对成长轨迹序列数据在时间维度上取10等份。这里需要注意，对于不同的成长轨迹序列数据，其时间跨度一般不相等，不能直接进行斜率的比较。故需要对序列数据的时间维度作归一化处理，将时间跨度归一化到[时间点1，时间点m]上。举例说明，表2所示的序列数据可以分为“1989.1.1～1991.6.1”、“1991.6.1～1994.1.1”、…、“2011.6.1～2014.1.1”等10个时间阶段，每个时间阶段的成长轨迹斜率为该阶段末端的量化等级与该阶段开端的量化等级之差，故其时序成长斜率特征为：“<1，0>，<2，2>，<3，1>，<4，1>，<5，0>，<6，1>，<7，0>，<8，0>，<9，1>，<10，0>”。

需要说明的是，上述两类时间维度特征在机器学习过程中可以单独使用，也可以结合使用。

②空间维度的特征(也称作“空间序列”)。由步骤1所述的空间维度类型可知，个人所在单位的地理位置可以作为成长轨迹序列数据的空间维度特征。该特征形式化为：“<地点类型1，地点类型2，…，地点类型k>”。其中“地点类型”由步骤1所述的“中央”、“地方”等特征属性表征，k代表成长轨迹序列数据中的“地点”字段的地点类型数目。举例说明，表2所示的序列数据的空间维度的特征为：“<地方，中央>”。需要指出，这里的空间维度的特征在序列模式挖掘中称作“序列”，步骤1所述的空间维度成长类型即为从若干“序列”中找到的“序列模式”。

3)针对已知的履历要素XML数据中的成长轨迹序列数据(称作“样本数据”)，按照步骤1所述的各时间维度成长类型定义以及步骤2所述的时间维度类型特征，人工标记其时间维度成长类型。

4)基于标记好的成长轨迹序列数据及其时间维度类型特征，利用机器学习分类器进行分类训练，学习得到分类器模型参数。

5)基于已有的成长轨迹序列数据，针对其空间维度特征，利用序列模式挖掘算法，挖掘得到其序列模式。这里的“序列模式”与步骤1所述的空间维度的成长类型相对应，可由人工标记其空间维度成长类型。

6)针对时间维度成长类型未知的履历数据，在得到其成长轨迹序列数据之后，提取其时空维度的特征，利用步骤4训练得到的分类器对该序列数据进行分类，计算得出该履历的时间维度成长类型。

7)针对空间维度成长类型未知的履历数据，在得到其成长轨迹序列数据之后，提取其空间维度的特征(即空间序列)，利用序列模式挖掘算法对该序列进行挖掘，计算得出该履历的空间维度成长类型。其中，具体计算方法为如下：在挖掘得到未知类型的空间序列的序列模式之后，将其与步骤5挖掘得到的已知类型的空间序列的序列模式进行对比：

①如果找到相同的已知序列模式，则将该已知序列模式的类型作为未知序列的类型；

②如果没有找到，则认为该序列模式是样本数据中没有出现过的空间序列模式，可以作为一种新的空间维度成长类型，并且可以由人工给出其类型定义，用于将来的履历分类任务。

图5为分类结果示意图。其中，人员A为成长型，人员B为稳健型，人员C为波动型。

8)基于计算得到的履历成长类型及其目前的成长等级，预测该履历所代表的个人未来的时空成长趋势。举例说明，计算得到某人的时间维度成长类型为“成长型”，那么他将来的成长速度很可能会大于样本平均值，此外，根据他当前的成长等级能够预测他未来(例如10年后)所能够达到的成长等级。

4.群体潜在社交关系挖掘模块

该模块中的社交关系挖掘算法，创新性地利用成长轨迹距离度量算法以及关联规则算法，能够挖掘出履历间的潜在社交关系R(例如同学、同事、同乡、战友、合作者、竞争对手等关系)。该算法具体包括如下步骤：

1)已知履历库M，M的大小为n，代表所有履历的数目。M中各元素M₁～M_n代表各履历的履历要素XML数据)。

2)针对履历库M，利用余弦相似性算法度量M中任意两个履历M_i与M_j之间的成长轨迹序列数据的相似性sim(i，j)，得到相似性矩阵sim。

3)针对履历库M，利用履历要素匹配度算法度量M中任意履历M_i与M_j之间的匹配度mch(i，j)，得到匹配度矩阵mch。

4)扫描sim，如果sim(i，j)＞s0，则认为M_i与M_j的成长轨迹具有相似性，且sim(i，j)越大，二者越相似。换句话说，sim(i，j)的大小能够度量相似性的强弱。其中，s₀为相似性阈值。

5)扫描mch，如果mch(i，j)＞0，则认为M_i与M_j的成长经历具有某种交集，且mch(i，j)越大，二者交集越突出。二者的经历交集细节可由履历要素交集its(i，j)表征，它体现了履历信息中所反映出的人员之间的同学、同事、同乡、战友等潜在关系。

6)反复执行步骤4和步骤5，直至M中所有履历全部扫描并处理完毕，得到所有履历间的潜在社交关系R。潜在社交关系分两种，一种是基于相似度矩阵sim得到的成长轨迹相似性关系，另一种是基于匹配度矩阵mch得到的经历交集关系。图6为潜在关系挖掘结果展示示意图。

其中，步骤3中提及的履历要素匹配度算法，其输入为M_i与M_j，输出为M_i与M_j的匹配度mch(i，j)，M_i相对于M_j的差异要素成分err(i，j)，以及M_i与M_j的履历要素交集its(i，j)。该算法具体包括如下步骤：

3-1)定义两个初始值为0的计数器C_t和C_r：C_t代表M_i与M_j之间进行要素比对的次数：C_r代表M_i与M_j要素比对时出现相同要素的次数。定义一个差异要素成分列表err(i，j)，其元素为M_i与M_j之间不相同的履历要素。定义一个履历要素交集列表its(i，j)，其元素为M_i与M_j之间相同的履历要素。

3-2)逐项扫描M_i和M_j的各基本信息要素(例如姓名、性别、民族、出生地等人员基本信息)，每扫描一个要素，C_t加1。同时，针对任意要素f，如果f(M_i)＝f(M_j)，则C_r加1，并将该要素f添加至its(i，j)；反之，则将该要素f添加至err(i，j)。比如人员i出生于北京，人员j出生于上海，则当扫描到要素“出生地”时，f(Mi)＝北京，f(Mj)＝上海。

3-3)逐行扫描M_i和M_j的经历信息表。针对每一行经历段，逐项扫描该经历段所包含的时间、地点、单位、职务等要素。每扫描一个要素，C_t加1。同时，针对任意要素e，如果e(M_i)＝e(M_j)，则C_r加1，并将该要素e添加至its(i，j)；反之，则将该经历段中的要素e添加至err(i，j)。

3-4)反复执行步骤3和步骤4，直至M_i和M_j中履历要素全部扫描并处理完毕。按照如下公式计算得到M_i与M_j的匹配度mch(i，j)：

mch(i，j)＝C_r/C_t

5.组织机构生成模块

该模块中的组织机构生成算法，创新性地从多份履历间的群体潜在社交关系中提取并还原出组织机构的层级关系，为后续组织机构图的可视化算法提供了基础。该算法具体包括如下步骤：

1)已知履历潜在社交关系矩阵R。R由群体潜在社交关系挖掘模块输出得来，其大小为n×n，其中各元素R₁₁～R_nn代表各履历间的潜在社交关系，矩阵元素R_ij代表履历M_i和履历M_j之间的潜在社交关系。

2)定义组织机构库V，用于保存所有的组织机构及其成员信息。该库为列表结构：<V₁，V₂，…，V_m>。列表中每个元素V_i(i＝1，2，…，m)代表一个组织机构，m为组织机构的数目。该库中元素为树状结构，树的根节点为“组织名称”，叶节点为“成员信息”。该库中元素具体结构如下：<组织名称，<成员1，职务1，是否现任>，<成员2，职务2，是否现任>，…，<成员m，职务m，是否现任>>。

3)定义计数器k(初始值为零)。

4)遍历R。如果R_ij所代表的履历M_i和履历M_j存在单位交集，则将该单位以及履历M_i和履历M_j保存至V_k，同时k加1。并且将V_k保存至V；V_k是V中的一个元素。

5)反复执行步骤4，直至R遍历完毕。此时V中的所有元素即为所要求的组织机构信息。

6.履历信息可视化模块

该模块基于信息可视化技术，将履历信息以一种直观的方式表达给用户，供用户查看并帮助用户正确理解履历信息。该模块共包含三种可视化算法：履历时空轨迹可视化算法、履历潜在社交网络可视化算法、履历组织机构可视化算法。基于该三种算法，可以生成如下可视化图：个人成长图、潜在关系图、组织机构图。

6.1个人成长图

如图7所示，个人成长图基于履历时空轨迹可视化算法绘制而成。该算法利用成长隐喻思想，生成的时空轨迹可视化图通过对成长轨迹序列数据的可视化，能够将原本抽象的个人成长信息以时空图的方式直观地表达出来。该算法具体步骤如下：

1)定义时间维度的轨迹可视化坐标轴。横轴为时间轴，包括“年代”与“年龄”两种展示方式；纵轴为等级轴，代表成长轨迹序列数据的“量化等级”维度(以干部为例，包括“科级”、“处级”、“厅局级”等若干等级；以研究人员为例，包括“实习研究员”、“助理研究员”、“副研究员”、“正研究员”、“院士”等若干等级)。

2)定义空间维度的轨迹可视化坐标轴。横轴为时间轴，包括“年代”与“年龄”两种展示方式；纵轴为空间轴，以二维地图作为空间参考系，代表成长轨迹序列数据的“地点”与“单位”等空间维度。

3)定义成长轨迹序列数据可视化思想。一份履历的成长轨迹序列数据由一系列经历段组成，每个经历段代表成长轨迹序列数据的基本单元。

①时间维度的轨迹可视化：经历段以固定宽度、可变长度、颜色填充的水平矩形块作为其可视化隐喻表达方式。矩形块的横轴位置与时间轴相对应，其宽度代表经历段的时间间隔(左侧代表“起始时间”，右侧代表“终止时间”)。矩形块的纵轴位置与等级轴相对应，代表该经历段的“量化等级”。矩形块之间按照所属经历段的时间先后顺序由垂直的直线相连而成，构成了完整的时间维度成长轨迹可视化表达。不同履历的时间维度成长轨迹可视化由其所包含的矩形块的填充颜色加以区别。

②空间维度的轨迹可视化：经历段为可变半径、颜色填充的圆圈作为其可视化隐喻表达方式。圆圈的位置映射到空间轴的二维地图中，代表该经历段的“地点”、“单位”等地理信息。圆圈之间按照所属经历段的时间先后顺序由宽度可变、颜色填充的有向箭头相连而成，构成了完整的空间维度成长轨迹可视化表达，其中有向箭头的宽度由起点向终点渐变，代表经历段之间的“量化等级”的变化(宽度大小表征等级高低)。不同履历的空间维度成长轨迹可视化由其所包含的矩形块的填充颜色加以区别。

4)针对所输入的履历成长轨迹序列数据，按照上述步骤1～3的定义，分配相应的填充颜色，对其进行可视化绘制，从而得到履历时空成长轨迹图。

6.2潜在关系图

如图8所示，潜在关系图基于潜在社交网络可视化算法绘制而成。该算法利用挖掘得到的履历间潜在关系，构建履历社交网络可视化表达，所生成的潜在关系图能够将原本抽象的履历间潜在关系以网络图的方式直观地表达出来。该算法具体步骤如下：

1)定义履历可视化方式。履历以圆角矩形作为其可视化隐喻表达方式。圆角矩形以其内部标识的履历基本信息中的“姓名”作为矩形ID，不同ID的矩形代表不同的履历。

2)定义履历间潜在关系可视化方式。履历间的潜在关系按照挖掘算法的不同分为如下两类：

①相似的成长轨迹。圆角矩形之间用线段相连代表履历间的成长轨迹具有一定程度的相似性。履历间的成长轨迹相似性体现了履历间的成长经历是相似的，例如履历所代表的人员A和B从“处级干部”到“厅局级干部”的成长时间如果相近，那么A和B的成长轨迹具有相似性。线段长度表征了相似性的大小：线段越短(两矩形之间距离越小)，则相似性越大；反之亦然。其中，A和B的相似性大小由群体潜在社交关系挖掘模块中提及的相似性矩阵sim表征。

②具有交集的履历要素。圆角矩形之间用线段相连代表履历间具有某种程度的要素交集。要素交集体现了履历所代表的人员之间的交集关系，例如同学关系，同乡关系，同事关系等。

3)针对所输入的履历XML数据，以及对该数据的挖掘结果，按照上述步骤1～2的定义，对其进行可视化绘制，从而得到潜在关系图(见图8)。

6.3组织机构图

如图9所示，组织机构图基于组织机构可视化算法绘制而成。该算法从履历信息中抽取出履历间的单位交集信息，将具有单位交集的履历转化成相应单位的组织机构关系，并将这种关系以表格形式的组织机构图可视化出来。该算法具体步骤如下：

1)定义组织机构图的表头。表头横轴为人员轴，代表该单位的人员组成；表格纵轴为等级轴，代表该单位所拥有的职务等级，且等级轴按照自上而下的降序排列，即职务等级越高，其位置越靠上。

2)定义组织机构图的表格元素。表格元素为履历所代表的人员头像。元素所在横行代表该履历在该单位的职务等级，元素所在纵列代表该履历所代表的人员。表格元素有两种状态：①激活状态(人员头像为彩色)，说明元素所在的单位及职务是该人员的目前状态(例如该人员现任该单位的相应职务)；②非激活状态(人员头像为灰色)，说明元素所在的单位及职务是该人员的历史状态(例如该人员曾任该单位的相应职务，但是目前不再担任该职务)。

3)针对所输入的履历XML数据，按照上述步骤1～2的定义，对其进行可视化绘制，从而得到相应单位的组织机构图。

7.履历可视分析模块

该模块将人机交互技术引入针对履历数据的可视分析环境，在各挖掘模块以及履历信息可视化模块的基础之上，帮助用户深入理解履历中的潜在信息及大量履历所体现的模式特征，从而获得深层次的认知。该模块具体包括如下步骤：

1)履历轨迹的信息统计分析。如图10所示，基于履历成长轨迹序列数据中的“量化等级”信息，提供履历所代表人员在各等级经历的时间分布统计图(横坐标为“等级”，纵坐标为“时间”)。根据该统计分布图可以将个人成长的一般模式呈现给用户。

2)履历轨迹的时空关联交互分析。如图11所示，基于履历轨迹成长时空图，从人机交互角度提供关联分析的功能，供用户从时间和空间两个角度联合查看履历的轨迹变化，从而发现轨迹时空模式。此外，根据现有的轨迹时空模式预测将来的履历轨迹成长方向也是交互可视分析的重要内容。

3)履历时空轨迹的模式可视分析。如图12所示，基于履历轨迹成长时空图，用户可以从多份履历的对比展示中发现不同履历成长轨迹的类别模式，从而快速发现感兴趣的轨迹类别。例如用户可以从如图12所示的官员升迁可视化中感知得到个人成长所经历的三个阶段：成长期(生涯初期，升迁较快)、瓶颈期(生涯中期，升迁遇到瓶颈)、突破期(生涯末期，突破瓶颈继续升迁)。为避免交互过程中轨迹图过于复杂，降低用户理解可视化图的难度，可视分析环境作如下定义：同一时刻的轨迹图中，最多可供3份履历的成长轨迹进行比较分析，且不同履历的时空轨迹在各自的时间轴和空间轴均有一定的错位，以此在不降低可视化精度的同时减少轨迹图中不同轨迹之间的遮挡。

4)履历社交网络交互可视分析。如图13所示，基于群体的潜在关系图，用户可以根据自身兴趣，有选择性地选取目标履历及与该履历有潜在关系的履历组成特定的社交网络。同时，基于该社交网络提供人机交互编辑与查看功能，引导用户有目的地查看重要的潜在关系。

5)支持交互的履历信息挖掘。基于各挖掘模块，提供人机交互的机制，允许用户在挖掘结果的基础之上将专家知识与认知能力引入挖掘过程(例如修改挖掘参数、标记履历类别等)，通过迭代地修正完善挖掘结果来帮助用户对履历所蕴含的潜在知识进行深入理解，从而获得深层次的认知。

Claims

一种基于文本履历信息的信息可视化方法，其步骤为：

1)对每一文本履历信息中的经历信息，进行经历等级量化计算，得到成长轨迹序列数据，并将该数据进行可视化；

2)选取多份文本履历信息的成长轨迹序列数据进行关联计算，得到文本履历间的潜在社交关系，并将该潜在社交关系进行社交网络可视化；

3)基于履历间的潜在社交关系，构建人员所在单位的组织层级可视化表达，将具有单位交集的履历转化成相应单位的组织层级关系，并将该组织层级关系进行组织机构可视化。
如权利要求1所述的方法，其特征在于如果履历为非结构化文本履历，则首先将其转换为结构化的文本履历信息，其方法为：

1)对非结构化文本履历进行格式过滤，获得包含履历信息的纯履历文本；

2)利用自然语言处理技术对纯履历文本进行分词与命名实体识别，然后进行履历特征要素抽取，处理得到包含履历要素的结构化文本块；

3)将包含履历要素的结构化文本块进行格式转化，形成结构化的文本履历信息。
如权利要求2所述的方法，其特征在于所述结构化的文本履历信息包括：履历基本信息和经历信息表；所述履历基本信息包括姓名、性别、民族和出生地，所述经历信息表为一个表结构，表头包含开始时间、终止时间、地点、单位、职务字段。
如权利要求3所述的方法，其特征在于对于单位履历特征要素，采用关键字匹配算法进行履历特征要素的抽取：首先创建一单位关键词词典，所述单位关键词词典中每一行元素包括关键字和辅助关键字两部分信息，其中，辅助关键字包括R型和L型两种，多个辅助关键字用逗号相隔；然后利用单位关键词词典进行单位要素识别：当识别到了词典中的某一关键字，且其右侧无R型辅助关键字，同时左侧无L型辅助关键字时，则识别成功；反之，识别失败；对于其他履历特征要素，采取正则表达式匹配法进行履历特征要素的抽取。
如权利要求3所述的方法，其特征在于得到所述成长轨迹序列数据的方法为：

1)对每一文本履历信息的经历信息表按照开始时间字段进行升序排序，得到有序经历信息表；

2)逐条扫描有序经历信息表中的记录，从每一条记录中提取出地点、单位与职务字段，并将各个字段值分别与已有的经历等级量化库进行比对识别，对匹配的实体赋予设定的量化量级；

3)将包含不同量级大小的经历段集合组成有序序列，得到所述成长轨迹序列数据。
如权利要求1或5所述的方法，其特征在于所述成长轨迹序列数据为一六元组，即＜起始时间，终止时间，地点，单位，职务，量化等级＞。
如权利要求1～5任一所述的方法，其特征在于得到所述潜在社交关系的方法为：

1)选取n份履历的成长轨迹序列数据，计算其中任意两个履历M_i与M_j之间的成长轨迹序列数据的相似性sim(i，j)，得到一相似性矩阵sim；

2)扫描矩阵sim，如果sim(i，j)＞s0，则认为M_i与M_j的成长轨迹具有相似性，s₀为相似性阈值；

3)计算该n份履历的成长轨迹序列数据中任意两履历M_i与M_j之间的匹配度mch(i，j)，并将二者的经历交集细节记录到一履历要素交集its(i，j)；

4)根据匹配度mch(i，j)，判断M_i与M_j的成长经历之间是否具有交集，如果有，则根据对应的交集its(i，j)确定M_i与M_j之间的潜在关系，并且根据sim(i，j)确定M_i与M_j之间的密切程度。
如权利要求7所述的方法，其特征在于计算该n份履历的成长轨迹序列数据中任意两履历M_i与M_j之间的匹配度mch(i，j)，并将二者的经历交集细节记录到一履历要素交集its(i，j)的方法为：

1)设置两个初始值为0的计数器C_t和C_r：C_t代表M_i与M_j之间进行要素比对的次数：C_r代表M_i与M_j要素比对时出现相同要素的次数；定义一个差异要素成分列表err(i，j)，其元素为M_i与M_j之间不相同的履历要素；定义一个履历要素交集列表its(i，j)，其元素为M_i与M_j之间相同的履历要素；

2)逐项扫描M_i和M_j的各基本信息要素，每扫描一个要素，C_t加1；同时，针对任意要素f，如果其值在M_i和M_j中相同，则C_r加1，并将该要素f添加至its(i，j)；反之，则将该要素f添加至err(i，j)；

3)逐行扫描M_i和M_j的经历信息表，针对每一行经历段，逐项扫描该经历段所包含的时间、地点、单位、职务字段，且每扫描一个字段，C_t加1；同时，针对任意字段e，如果其值在M_i和M_j中相同，则C_r加1，并将该要素添加至its(i，j)；反之，则将该要素添加至err(i，j)；

4)根据公式mch(i，j)＝C_r/C_t计算M_i与M_j的匹配度mch(i，j)。
如权利要求1～5任一所述的方法，其特征在于所述基于履历间的潜在社交关系，构建人员所在单位的组织层级的组织机构生成方法，该方法为：

1)将所述潜在社交关系记录为一矩阵R，矩阵元素R_ij代表履历M_i和履历M_j之间的潜在社交关系；

2)建立一组织机构库V，用于保存所有的组织机构及其成员信息；其中库中元素为树状结构，树的根节点为组织名称，叶节点为成员信息，其具体结构为：＜组织名称，＜成员1，职务1，是否现任＞，＜成员2，职务2，是否现任＞，…，＜成员m，职务m，是否现任＞＞；

3)遍历矩阵R，如果R_ij所代表的履历M_i和履历M_j存在单位交集，则将该单位以及履历M_i和履历M_j保存至该组织机构库V；

4)将V中的所有元素按照所述树状结构，采用组织机构可视化方法进行可视化表达。
如权利要求1或2所述的方法，其特征在于对每一成长轨迹序列数据进行时间维度以及空间维度的类型分析，得到对应文本履历的时空成长模式；其中，得到所述时空成长模式的方法为：首先定义履历随时间变迁的成长类型和履历随空间迁移的成长类型，并确定每一成长类型的特征；其中，随时间变迁的成长类型特征包括：等级时间跨度特征和或时序成长斜率特征，根据履历中的单位地理位置确定随空间迁移的成长类型特征；选取一部分成长轨迹序列数据作为样本数据，根据确定的成长类型特征标记其成长类型；利用机器学习分类器对样本数据进行分类训练，得到分类器模型参数，然后对未标记成长轨迹序列数据进行分类标记。
一种基于文本履历信息的智能可视分析系统，其特征在于包括个人成长经历量化模块、群体潜在社交关系挖掘模块、组织机构生成模块和履历信息可视化模块，其中：

个人成长经历量化模块，用于对履历要素中的经历信息进行经历等级的量化计算，得到成长轨迹序列数据；

群体潜在社交关系挖掘模块，用于对多份履历的成长轨迹序列数据进行关联计算，得到履历间的潜在社交关系；

组织机构生成模块，用于以多份履历所代表群体的潜在社交关系为基础，从群体的单位交集信息中提取并还原出组织机构的层级信息；

履历信息可视化模块，用于将履历的成长轨迹序列数据以及群体潜在社交关系挖掘模块、组织机构生成模块所输出的结果转化成信息可视化图。
如权利要求11所述的系统，其特征在于所述系统还包括文本履历预处理模块和个人成长模式挖掘模块；其中，文本履历预处理模块，用于将非结构化的文本履历数据进行预处理，抽取履历信息中的要素，得到结构化的履历要素XML数据；个人成长模式挖掘模块，用于对成长轨迹序列数据进行时间维度以及空间维度的类型分析，得到履历的时空成长模式。