WO2017193472A1

WO2017193472A1 - 一种东巴经典古籍数字化释读库的建立方法

Info

Publication number: WO2017193472A1
Application number: PCT/CN2016/090275
Authority: WO
Inventors: 徐小力; 吴国新; 王红军; 李宁; 蒋章雷; 王少红
Original assignee: 北京信息科技大学
Priority date: 2016-05-10
Filing date: 2016-07-18
Publication date: 2017-11-16
Also published as: US10380065B2; CN106021354A; US20190057085A1

Abstract

本发明涉及一种东巴经典古籍数字化释读库的建立方法，其步骤：对现有东巴经典古籍资料进行采集并建立东巴经典古籍释读资料库，该释读资料库包括图形模板库、音频模板库和视频模板库；根据东巴经典古籍释读资料库建立东巴经典古籍释读数据库，释读数据库包括词意数据库、句意数据库和事件数据库；建立东巴经典古籍释读知识库对释读数据库进行管理：释读知识库根据释读规则对三种释读数据库进行释读内容的组合，并利用推理引擎促进释读数据库中词意数据库、句意数据库、事件数据库之间的融合；建立东巴经典古籍释读优化库，通过知识挖掘工具对释读数据库、释读知识库的内容进行频繁模式挖掘以及聚类分析，为释读数据库、释读知识库的释读规则优化及更新提供支持。

Description

一种东巴经典古籍数字化释读库的建立方法

技术领域

本发明涉及一种文字数字化释读库的建立方法，特别是关于一种面向复杂象形文字的东巴经典古籍数字化释读库的建立方法。

背景技术

中国西南部地区居住的纳西族是中国的一个少数民族，该民族自古以来使用的东巴象形文被国际学界认为是当今世界上唯一还在使用的象形文字；东巴经典古籍是由具有独特图形及发音的东巴象形文写成，2003年被联合国教科文组织列为“世界记忆遗产”，确立了中国纳西族东巴文化在世界及中国的文化发展史上的重要地位。

东巴象形文的形、音、义都极其复杂，往往一字多形、多音、多义，也有异形同义的。自古以来，东巴文化的传承都是以东巴家族内部口传心授的形式进行的，目前能释读东巴经典古籍的老东巴祭司已年逾古稀。东巴经典古籍的释读在象形文字的图形、语音及内容方面具有明显的复杂性、不确定性，现有的英文、汉字等识别系统及翻译系统不能适用。

发明内容

针对上述问题，本发明的目的是提供一种东巴经典古籍数字化释读库的建立方法，该方法实现了东巴经典古籍的数字化保存，并为东巴经典古籍数据库、知识库的建立及运行提供支撑。

为实现上述目的，本发明采取以下技术方案：一种东巴经典古籍数字化释读库的建立方法，其特征在于，该方法包括以下步骤：1)对现有东巴经典古籍资料进行采集并建立东巴经典古籍释读资料库，该释读资料库包括图形模板库、音频模板库和视频模板库；2)根据东巴经典古籍释读资料库建立东巴经典古籍释读数据库，释读数据库包括词意数据库、句意数据库和事件数据库；3)建立东巴经典古籍释读知识库对释读数据库进行管理：释读知识库根据释读规则对三种释读数据库进行释读内容的组合，并利用推理引擎促进释读数据库中词意数据库、句意数据库、事件数据库之间的融合；4)建立东巴经典古籍释读优化库，通过知识挖掘工具对释读数据库、释读知识库的内容进行频繁模式挖掘以及聚类分析，为释读数据库、释读知识库的释读规则优化及更新提供支持。

在一个优选实施例中，所述步骤1)中，所述图形模板库内包括唯一图形代码、标准字形、异形字；其中图形模板库中的图形内容有东巴象形文字、东巴语句和东巴事件；所述音频模板库内包括唯一音频代码、音频存储路径和纳西音标；其中音频模板库中的音频内容也包括东巴文字、东巴语句和东巴事件；所述视频模板库内包括唯一视频代码和视频存储路径；其中视频模板库中的视频内容也包括东巴文字、东巴语句和东巴事件。

在一个优选实施例中，所述步骤2)中，所述词意数据库：提取现有东巴经典中的东巴象形文字作为标准字模，采用Unicode对每个字符进行编码，并利用现有TrueType方法建立东巴象形文标准模板库；将东巴象形文标准模板库中的文字已有释读资料进行整理录入；所述词意数据库的字段包括词意编码Unicode、图形代码、对应汉字、分类、对应英文、翻译员、中文释义、音频代码、纳西音标和视频代码；所述句意数据库包括句意编码、东巴语句、对应汉语、语句含义、分类、图形代码、音频代码和视频代码；所述事件数据库包括事件名称代码、事件名称、分类、事件内容、图形代码、音频代码和视频代码，其中内容分类包括：哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术。

在一个优选实施例中，所述步骤3)中，所述释读规则如下：3.1)定义S为规则集，C＝{C1、C2...Cn}为条件属性集，V＝(Vc1,Vc2...Vcn)是条件属性和决策属性的值域，D是决策属性集，(d1,d2,d3...dv)为决策值；3.2)规则为：如果输入条件属性C1为值域V中的某一值Vc1，那么决策属性D为对应的决策值d1，即输出满足Vc1时相应字段对应的属性；如果输入两个条件属性C2、C3，其中C2为值域V中的某一值Vc2，C3为值域V中的某一值Vc3，那么决策属性D为决策值d2，即输出满足Vc2、Vc3时相应字段对应的属性。

在一个优选实施例中，所述步骤3)中，所述推理引擎过程如下：①匹配：当前求解问题在释读数据库中的相关事实是否与释读知识库中规则的条件部分相匹配，如果两者匹配，则启用释读知识库中的规则，进入步骤③按规则的执行操作部分去执行；若同时存在多条规则的条件部分与求解问题相关事实相匹配，则进入步骤②；②冲突消解：预先给所有规则的条件部分设定优先级，当存在多条规则的条件部分与求解问题相关事实相匹配时，优先启用条件部分优先级较高的规则；③执行操作：执行启用规则的操作部分，经执行操作后，得到新的事实，将所得新事实送入当前释读数据库。

在一个优选实施例中，所述步骤3)中，所述词意数据库、句意数据库和事件数据库的融合方法包括以下步骤：①根据词意数据库编码唯一确定一个东巴文字，根据东巴文字的图形代码、音频代码、视频代码，同步检索出对应东巴文字的图形、音频及视频，呈现出东巴文字的内容与含义；②根据词意数据库中的对应汉字以及所属分类，模糊检索句意数据库，搜索出满足同一分类的东巴语句，即根据单独的东巴文字匹配出东巴语句，从而根据句意数据库中图形代码、音频代码、视频代码，检索出对应东巴语句的图形、音频及视频；③根据词意数据库中的对应汉字以及所属分类，模糊检索事件数据库，搜索出满足同一分类的东巴事件名称，即根据单独的东巴文字匹配出东巴事件，从而根据事件数据库中图形代码、音频代码、视频代码，检索出对应东巴事件的图形、音频及视频，从而实现词意数据库、句意数据库、事件数据库的融合。

在一个优选实施例中，所述步骤4)中，所述频繁模式挖掘过程为：对释读数据库中的词意数据库、句意数据库、事件数据库进行频繁模式挖掘，得到词意数据库、句意数据库、事件数据库中频繁使用的词意组合、句意组合；对释读知识库中的规则进行频繁模式挖掘，归纳出频繁使用的条件属性与决策值的组合；将频繁项输出给释读知识库，在对东巴象形文进行释读过程中提供与当前释语句最匹配的词意组合、句意组合，作为释读选项供选择；采用FP-growth算法，频繁模式挖掘以词意数据库为例：①扫描词意数据库，找出频繁使用的词意以及使用次数，做出频繁项的列表L，按照使用次数递减排序；②再次扫描数据库，由每个词意不断构建FP-Tree：将FP-Tree的根节点设为null；把每个词意项逐个添加到FP-Tree的分枝上去；③做出头结点表，将所有相同的项链接起来；④根据头结点表找出以某个词意为结尾的路径，即词意的后缀模式；⑤词意的前缀路径构成词意的条件模式基；⑥根据条件模式基构建词意的条件FP-树，得到条件频繁项集；⑦条件频繁项集和词意的后缀模式合并，得到词意的频繁项集。

在一个优选实施例中，所述步骤4)中，所述聚类分析方法如下：①将事件数据库中事件的个数作为聚类分析的类别数，将事件编码、事件名称、分类、事件内容、图形代码信息作为源数据，采用模糊C均值方法计算事件的聚类中心；②将释读过程中的连续两个词意对应的词意数据库中的词意编码、图形代码、对应汉字、分类、中文释义信息作为样本，计算样本隶属于某个聚类中心的隶属度；③将具有最大数值的隶属度所对应的事件作为词意的隐含事件，将词意与事件之间的关联关系输出给释读知识库，改进释读知识库中的融合方法。

本发明由于采取以上技术方案，其具有以下优点：1、本发明通过建立东巴经典古籍释读资料库，实现了东巴经典古籍的数字化保存，并为东巴经典古籍数据库、知识库的建立及运行提供支撑。2、本发明建立的东巴经典古籍释读库能够实现复杂象形文的图形、音频、视频的同步检索，能够提供复杂象形文的词意、句意、事件等内在关联信息，为解决东巴经典古籍释读的复杂性、隐涵性难题提供帮助。3、本发明建立的东巴经典古籍释读库具备自学习能力，通过对信息的不断挖掘可以实现对释读规则的优化，提高释读的准确性。

附图说明

图1是本发明的整体流程示意图。

本发明最佳实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1所示，本发明提供一种东巴经典古籍数字化释读库的建立方法，其步骤如下：

1)对现有东巴经典古籍资料进行采集并建立东巴经典古籍释读资料库，该释读资料库包括图形模板库、音频模板库和视频模板库。

图形模板库是将通过非接触式古籍扫描仪和专业数码照相机采集的东巴经典古籍资料图片进行数字化录入及图像处理，保存为JPG格式文件。图形模板库内包括唯一图形代码、标准字形(JPG)、异形字(JPG)；其中图形模板库中的图形内容有东巴象形文字、东巴语句和东巴事件。

音频模板库是采用音频编辑软件对通过数字录音设备获取的高采样数字频率音频资源进行剪辑，保存为mp3格式文件；其中高采样频率为320kb/s。音频模版库内包括唯一音频代码、音频存储路径(纳西读音)和纳西音标；其中音频模板库中的音频内容也包括东巴文字、东巴语句和东巴事件。

视频模板库是将采集到的东巴经典古籍资料的视频资源进行剪辑，加载解说音频、解说字幕或配乐，保存为wmv格式文件。视频模版库内包括唯一视频代码和视频存储路径(视频内容包括歌舞、祭祀仪式等)；其中视频模板库中的视频内容也包括东巴文字、东巴语句和东巴事件。

2)根据东巴经典古籍释读资料库建立东巴经典古籍释读数据库，释读数据库包括词意数据库、句意数据库和事件数据库。

词意数据库：提取现有东巴经典(例如方国瑜先生的《纳西象形文字谱》)中的东巴象形文字作为标准字模，采用Unicode对每个字符进行编码，并利用现有TrueType方法建立东巴象形文标准模板库；将东巴象形文标准模板库中的文字已有释读资料进行整理录入。

词意数据库的字段包括词意编码(Unicode)(词意编码为主键)、图形代码(PId)、对应汉字(chinese)、分类(category)、对应英文(English)、翻译员(interpreter)、中文释义(Translation)、音频代码(AId)、纳西音标(NaxiP)和视频代码(VId)，如表1所示。

表1词意数据库字段

句意数据库包括句意编码、东巴语句、对应汉语、语句含义、分类、图形代码、音频代码和视频代码。

事件数据库包括事件名称代码、事件名称、分类、事件内容、图形代码、音频代码和视频代码。其中内容分类包括：哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术。

3)建立东巴经典古籍释读知识库对释读数据库进行管理：释读知识库根据释读规则对三种释读数据库进行释读内容的组合，并利用推理引擎促进释读数据库中词意数据库、句意数据库、事件数据库之间的融合。

3.1)释读规则如下：

3.1.1)定义S为规则集，C＝{C1、C2...Cn}为条件属性集，V＝(Vc1,Vc2...Vcn)是条件属性和决策属性的值域，D是决策属性集，(d1,d2,d3...dv)为决策值。

3.1.2)规则为：如果输入条件属性C1为值域V中的某一值Vc1，那么决策属性D为对应的决策值d1，即输出满足Vc1时相应字段对应的属性；如果输入两个条件属性C2、C3，其中C2为值域V中的某一值Vc2，C3为值域V中的某一值Vc3，那么决策属性D为决策值d2，即输出满足Vc2、Vc3时相应字段对应的属性。

例如：当输入条件属性C1为‘词意编码’属性时，通过规则进行判断，若Vc1＝E900时，则D为d1，即输出相应字段对应的属性，如Category为天象，Chinese为天等信息，如下表：

3.2)推理引擎过程如下：

①匹配：当前求解问题在释读数据库中的相关事实是否与释读知识库中规则的条件部分相匹配，如果两者匹配，则启用释读知识库中的规则，进入步骤③按规则的执行操作部分去执行；若同时存在多条规则的条件部分与求解问题相关事实相匹配，则进入步骤②；

②冲突消解：预先给所有规则的条件部分设定优先级，即值域V中的优先级为：Vc1>Vc2>…>Vcn，当存在多条规则的条件部分与求解问题相关事实相匹配时，优先启用条件部分优先级较高的规则；

③执行操作：执行启用规则的操作部分，经执行操作后，得到新的事实，将所得新事实送入当前释读数据库。

3.3)词意数据库、句意数据库和事件数据库的融合方法包括以下步骤：

①根据词意数据库编码唯一确定一个东巴文字，根据东巴文字的图形代码、音频代码、视频代码，同步检索出对应东巴文字的图形、音频及视频，呈现出东巴文字的内容与含义；

②根据词意数据库中的对应汉字以及所属分类，模糊检索句意数据库，搜索出满足同一分类的东巴语句，即根据单独的东巴文字匹配出东巴语句，从而根据句意数据库中图形代码、音频代码、视频代码，检索出对应东巴语句的图形、音频及视频；

③根据词意数据库中的对应汉字以及所属分类，模糊检索事件数据库，搜索出满足同一分类的东巴事件名称，即根据单独的东巴文字匹配出东巴事件，从而根据事件数据库中图形代码、音频代码、视频代码，检索出对应东巴事件的图形、音频及视频，从而实现词意数据库、句意数据库、事件数据库的融合。

4)建立东巴经典古籍释读优化库，通过知识挖掘工具对释读数据库、释读知识库的内容进行频繁模式挖掘以及聚类分析，为释读数据库、释读知识库的释读规则优化及更新提供支持。

4.1)频繁模式挖掘过程为：对释读数据库中的词意数据库、句意数据库、事件数据库进行频繁模式挖掘，得到词意数据库、句意数据库、事件数据库中频繁使用的词意组合、句意组合；对释读知识库中的规则进行频繁模式挖掘，归纳出频繁使用的条件属性与决策值的组合。将频繁项输出给释读知识库，在对东巴象形文进行释读过程中提供与当前释语句最匹配的词意组合、句意组合，作为释读选项供选择。

采用FP-growth算法，以词意数据库为例阐述频繁模式挖掘：

①扫描词意数据库，找出频繁使用的词意以及使用次数，做出频繁项的列表L，按照使用次数递减排序。

②再次扫描数据库，由每个词意不断构建FP-Tree：将FP-Tree的根节点设为null；把每个词意项逐个添加到FP-Tree的分枝上。

③做出头结点表，将所有相同的项链接起来。

④根据头结点表找出以某个词意为结尾的路径，即词意的后缀模式。

⑤词意的前缀路径构成词意的条件模式基。

⑥根据条件模式基构建词意的条件FP-树，得到条件频繁项集。

⑦条件频繁项集和词意的后缀模式合并，得到词意的频繁项集。

4.2)聚类分析方法如下：

①将事件数据库中事件的个数作为聚类分析的类别数，将事件编码、事件名称、分类、事件内容、图形代码等信息作为源数据，采用模糊C均值方法计算事件的聚类中心。

②将释读过程中的连续两个词意对应的词意数据库中的词意编码、图形代码、对应汉字、分类、中文释义等信息作为样本，计算样本隶属于某个聚类中心的隶属度。

③将具有最大数值的隶属度所对应的事件作为词意的隐含事件，将词意与事件之间的关联关系输出给释读知识库，改进释读知识库中的融合方法。

上述各实施例仅用于说明本发明，各部件的结构、尺寸、设置位置及形状都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别部件进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

一种东巴经典古籍数字化释读库的建立方法，其特征在于，该方法包括以下步骤：

1)对现有东巴经典古籍资料进行采集并建立东巴经典古籍释读资料库，该释读资料库包括图形模板库、音频模板库和视频模板库；

2)根据东巴经典古籍释读资料库建立东巴经典古籍释读数据库，释读数据库包括词意数据库、句意数据库和事件数据库；

3)建立东巴经典古籍释读知识库对释读数据库进行管理：释读知识库根据释读规则对三种释读数据库进行释读内容的组合，并利用推理引擎促进释读数据库中词意数据库、句意数据库、事件数据库之间的融合；

4)建立东巴经典古籍释读优化库，通过知识挖掘工具对释读数据库、释读知识库的内容进行频繁模式挖掘以及聚类分析，为释读数据库、释读知识库的释读规则优化及更新提供支持。
如权利要求1所述的一种东巴经典古籍数字化释读库的建立方法，其特征在于：所述步骤1)中，所述图形模板库内包括唯一图形代码、标准字形、异形字；其中图形模板库中的图形内容有东巴象形文字、东巴语句和东巴事件；所述音频模板库内包括唯一音频代码、音频存储路径和纳西音标；其中音频模板库中的音频内容也包括东巴文字、东巴语句和东巴事件；所述视频模板库内包括唯一视频代码和视频存储路径；其中视频模板库中的视频内容也包括东巴文字、东巴语句和东巴事件。
如权利要求1所述的一种东巴经典古籍数字化释读库的建立方法，其特征在于：所述步骤2)中，所述词意数据库：提取现有东巴经典中的东巴象形文字作为标准字模，采用Unicode对每个字符进行编码，并利用现有TrueType方法建立东巴象形文标准模板库；将东巴象形文标准模板库中的文字已有释读资料进行整理录入；所述词意数据库的字段包括词意编码Unicode、图形代码、对应汉字、分类、对应英文、翻译员、中文释义、音频代码、纳西音标和视频代码；所述句意数据库包括句意编码、东巴语句、对应汉语、语句含义、分类、图形代码、音频代码和视频代码；所述事件数据库包括事件名称代码、事件名称、分类、事件内容、图形代码、音频代码和视频代码，其中内容分类包括：哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术。
如权利要求1所述的一种东巴经典古籍数字化释读库的建立方法，其特征在于：所述步骤3)中，所述释读规则如下：

3.1)定义S为规则集，C＝{C1、C2...Cn}为条件属性集，V＝(Vc1,Vc2...Vcn)是条件属性和决策属性的值域，D是决策属性集，(d1,d2,d3...dv)为决策值；

3.2)规则为：如果输入条件属性C1为值域V中的某一值Vc1，那么决策属性D为对应的决策值d1，即输出满足Vc1时相应字段对应的属性；如果输入两个条件属性C2、C3，其中C2为值域V中的某一值Vc2，C3为值域V中的某一值Vc3，那么决策属性D为决策值d2，即输出满足Vc2、Vc3时相应字段对应的属性。
如权利要求1所述的一种东巴经典古籍数字化释读库的建立方法，其特征在于：所述步骤3)中，所述推理引擎过程如下：

①匹配：当前求解问题在释读数据库中的相关事实是否与释读知识库中规则的条件部分相匹配，如果两者匹配，则启用释读知识库中的规则，进入步骤③按规则的执行操作部分去执行；若同时存在多条规则的条件部分与求解问题相关事实相匹配，则进入步骤②；

②冲突消解：预先给所有规则的条件部分设定优先级，当存在多条规则的条件部分与求解问题相关事实相匹配时，优先启用条件部分优先级较高的规则；

③执行操作：执行启用规则的操作部分，经执行操作后，得到新的事实，将所得新事实送入当前释读数据库。
如权利要求1所述的一种东巴经典古籍数字化释读库的建立方法，其特征在于：所述步骤3)中，所述词意数据库、句意数据库和事件数据库的融合方法包括以下步骤：

①根据词意数据库编码唯一确定一个东巴文字，根据东巴文字的图形代码、音频代码、视频代码，同步检索出对应东巴文字的图形、音频及视频，呈现出东巴文字的内容与含义；

②根据词意数据库中的对应汉字以及所属分类，模糊检索句意数据库，搜索出满足同一分类的东巴语句，即根据单独的东巴文字匹配出东巴语句，从而根据句意数据库中图形代码、音频代码、视频代码，检索出对应东巴语句的图形、音频及视频；

③根据词意数据库中的对应汉字以及所属分类，模糊检索事件数据库，搜索出满足同一分类的东巴事件名称，即根据单独的东巴文字匹配出东巴事件，从而根据事件数据库中图形代码、音频代码、视频代码，检索出对应东巴事件的图形、音频及视频，从而实现词意数据库、句意数据库、事件数据库的融合。
如权利要求1所述的一种东巴经典古籍数字化释读库的建立方法，其特征在于：所述步骤4)中，所述频繁模式挖掘过程为：对释读数据库中的词意数据库、句意数据库、事件数据库进行频繁模式挖掘，得到词意数据库、句意数据库、事件数据库中频繁使用的词意组合、句意组合；对释读知识库中的规则进行频繁模式挖掘，归纳出频繁使用的条件属性与决策值的组合；将频繁项输出给释读知识库，在对东巴象形文进行释读过程中提供与当前释语句最匹配的词意组合、句意组合，作为释读选项供选择；采用FP-growth算法，频繁模式挖掘以词意数据库为例：

①扫描词意数据库，找出频繁使用的词意以及使用次数，做出频繁项的列表L，按照使用次数递减排序；

②再次扫描数据库，由每个词意不断构建FP-Tree：将FP-Tree的根节点设为null；把每个词意项逐个添加到FP-Tree的分枝上去；

③做出头结点表，将所有相同的项链接起来；

④根据头结点表找出以某个词意为结尾的路径，即词意的后缀模式；

⑤词意的前缀路径构成词意的条件模式基；

⑥根据条件模式基构建词意的条件FP-树，得到条件频繁项集；

⑦条件频繁项集和词意的后缀模式合并，得到词意的频繁项集。
如权利要求1所述的一种东巴经典古籍数字化释读库的建立方法，其特征在于：所述步骤4)中，所述聚类分析方法如下：

①将事件数据库中事件的个数作为聚类分析的类别数，将事件编码、事件名称、分类、事件内容、图形代码信息作为源数据，采用模糊C均值方法计算事件的聚类中心；

②将释读过程中的连续两个词意对应的词意数据库中的词意编码、图形代码、对应汉字、分类、中文释义信息作为样本，计算样本隶属于某个聚类中心的隶属度；

③将具有最大数值的隶属度所对应的事件作为词意的隐含事件，将词意与事件之间的关联关系输出给释读知识库，改进释读知识库中的融合方法。