WO2012079245A1

WO2012079245A1 - 知识获取装置及方法

Info

Publication number: WO2012079245A1
Application number: PCT/CN2010/079937
Authority: WO
Inventors: 徐金安; 孟凡东; 陈恰; 潘栩; 达珍; 孟庆辰
Original assignee: 北京交通大学
Priority date: 2010-12-17
Filing date: 2010-12-17
Publication date: 2012-06-21
Also published as: CN103119585A; CN103119585B

Description

知识获取装置及方法

技术领域本发明涉及自然语言处理研究领域，具体涉及一种知识获取装置及方

背景技术网络技术的发展催生了信息大爆炸，自然语言处理技术作为信息处理的重要技术，在给人们带来便利的同时，依然遭遇诸多的技术难题。特别是在诸如信息检索、语音识别及机器翻译等方面，语言知识的自动获取技术自语料库诞生以来，已经成为自然语言理解关联研究的重要基础研究课题之一。

要使计算机具有高性能的自然语言理解能力，一般而言，需要实现赋予系统大量的知识。如为了解决自然语言处理研究中的语义消歧问题，需要赋予系统相应的语义消歧规则、实例或统计模型。一个简单的例子是英语单词

"plant" 有 "植物" 和 "工场" 两种语义，当句子中 "plant" 和 "life" 或者 "eat" 同时出现时，语义为 "植物" 概率要远远大于 "工场"；但是当句子中 "plant" 和 "manufacturing" 同时出现是，其语义则以 "工场" 为主。如果赋予计算机相应的语义分析知识，计算机则具备相应的语义消歧能力。

在自然语言处理研究领域中，作为语义消歧的基本技术之一，广为人知的一种语法结构被称格语法，它是一种以 "格位框架" 表现语言结构的形式语法模型（参照《自然语言处理的形式模式》，冯志伟著，中国科技大学出版社，第 293页， 2010年 1月第一版）。格语法最早由美国语言学家 C. Fillmore 提出，并定义了施事格（agentive )、经验格（ patient )、工具格（ instrumental )、客体格 ( objective )、处所格 ( locative )、受格 ( dative )、使成格 ( factitive )、受益格 ( benefactive )、时间格 ( time )、源点格 ( Source )、终点格 ( goal )、伴随格 ( comitative )等。每一个格位框架以动词或形容词为中心词，并拥有相应的格槽（case slot ), 格槽具有相应的属性特征，如表现动作的行为人的施事格（句子的主语）、对象格（句子的宾语），以及表示时间场所、工具等信息的属性等等。众所周知，由于语言的多样性和复杂性，消歧是自然语言处理研究的根本任务之一，消歧任务几乎遍布自然语言处理的各个研究领域，在诸如分词、词性标注、句法结构分析、语义分析、目标语言生成等，在机器翻译、语音识别、对话系统和信息检索等领域也都必须解决消歧问题。消歧问题中，句法结构消歧的任务十分艰巨，尤其是在机器翻译领域中，动词等谓语成分的句法结构往往是源语言分析到目标语言生成时的桥梁，关系到生产语言的正确性和流程程度，是机器翻译研究的关键技术之一。

句法结构消歧还是语义消歧的前提和关键因素之一。句法结构消歧的困难在于同一个动词拥有多数的不同结构，体现在动词格位框架的多样性上。动词格位框架的复杂程度越高，句法结构消歧时分析的难度也越大。传统的自然语言处理系统往往釆用人工方式构筑动词的格位框架，但是由于格位框架的模式数量庞大，全部由人工构筑需要花费大量的人力资源。

因而，从大量的语料中自动抽取动词的格位框架技术得到了一定的发展，如专利文献 1提出了一种基于概率依存图的机器学习方法来实现格位框架的定格化处理。非专利文献 1和非专利文献 2提出的基于 WEB的大规模格位 4ϋ架构建方法。

【专利文献 1】日本国专利第 3353578号；

【非专利文献 1】河原大輔，黒橋禎夫. 高性能計算環境^用 Web 力、 D大規模格 7 —厶構築；

日本国情報処理学会自然言語処理研究会 171-12, pp.67-73, 2006;

【非专利文献 2】河原大輔，黒橋禎夫：格 7 厶辞書 D漸次的自動構築，日本国自然言語処理学会志， Vol.12, Νο.2, ρρ.109-131, 2005。

但是，上述传统技术文献中，仅仅解决了动词的格位框架自动抽取问题，没有对抽取的动词格位框架进行进一步的处理，得到的动词格位框架的复杂度较高，动词格位框架的数量不精简，使得在实际运用过程中会造成增加句法结构消歧和语义消歧的难度等问题。

因而，如何简化动词格位框架的复杂程度，减少动词格位框架的数量，提高动词格位框架的抽象程度和质量，是一个必须解决的高难度研究课题。成功地解决这一难题，将会降低句法结构消歧和语义消歧的难度，提高句法结构分析和语义分析的精度，提高机器翻译、信息检索以及语音识别等应用系统的精度。发明内容：本发明的第一目的是提出一种高效的知识获取装置。

本发明的第二目的是提出一种高效的知识获取方法。

为实现上述第一目的，本发明提供了一种知识获取装置，包括：格位框架特征抽取单元，用于抽取输入语句中谓语成分的格位框架要素及其属性信息；模型库，用于存储任意格模型；任意格判定单元，用于对格位框架特征抽取单元的抽取结果及任意格模型进行模式匹配，确定谓语成分的格位框架中的任意格信息。

为实现上述第二目的，本发明提供了一种知识获取方法，包括：抽取输入语句中谓语成分的格位框架要素及其属性信息；对抽取结果及存储的任意格模型进行模式匹配，确定谓语成分的格位框架中的任意格信息。

本发明各个实施例中，通过根据存储的任意格模型与谓语成分的格位框架进行模式匹配，进而实现对该谓语成分的格位框架进行必须格和任意格的自动获取和有效区分，提高自然语言处理的结构消歧和语义消歧的能力。附图说明：附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一并用于解释本发明，并不构成对本发明的限制。在附图中：图 1为本发明的知识获取方法的实施例一流程图；

图 2为本发明的知识获取方法的实施例二流程图；

图 3为本发明的知识获取方法的实施例三流程图；

图 4为本发明的知识获取装置的实施例一结构图；

图 5为本发明的知识获取装置的实施例二结构图；

图 6为日语句子的句法结构分析示意图；

图 7为抽取的动词格位框架特征示意图。具体实施方式：以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明各个实施例，主要基于区分谓语成分的格位框架中的任意格的思路，比如：日语中的句子：

1.彼自転車図書館〜行〈；

2.自転車彼図書館〜行〈；

3.彼図書館〜自転車 "Γ' 行〈；

4.彼図書館〜行〈，自転車 Τ'.

根据背景技术中的传统技术方法从上述句子抽取动词 [行〈 ]的格位框架时，其结果将会是复数个，而不是一个；而实际上，在上述句子中， [自転車 Τ']的 [Τ']表示的是使用交通工具的道具格，属于任意格。任意格的特点是可以在动词 [行：]的格位框架中可有可无，可以在句子中任意移动，而句子所表达的意思不会改变。上述句子中的 [彼的 [ ]属于施事格，是句子的主语，为必须格； [図書館〜]的 [〜] 属于处所格，是句子的宾语，为必须格。所谓必须格为动词格位框架中必不可少的格，而任意格则是在动词的格位框架中可有可无的格。如果按照必须格和任意格进行划分，对上述句子进行动词格位框架进行抽取处理时，得到的动词格位框架将是唯一的。由此可以见，对句子中动词等谓语成分的格位框架进行自动抽取时，对动词格位框架要素进行必须格和任意格的区分处理，会大大减少动词格位框架的数量，简化动词格位框架结构，降低在机器翻译、对话系统等自然语言理解为核心的应用系统中的句子分析、句法结构消歧和语义消歧的难度。

方法实施例

图 1为本发明的知识获取方法的实施例一流程图。如图 1所示，本实施例包括：

步骤 102: 抽取输入语句中谓语成分的格位框架要素及其属性信息；步骤 104: 对抽取结果及存储的任意格模型进行模式匹配，确定谓语成分的格位框架中的任意格信息。

本实施例通过根据存储的任意格模型与谓语成分的格位框架进行模式匹配，进而实现对该谓语成分的格位框架进行必须格和任意格的自动获取和有效区分，提高自然语言处理的结构消歧和语义消歧的能力。

图 2为本发明的知识获取方法的实施例二流程图。本实施例利用日语的动词格位框架的必须格和任意格的关系判定为例来解释说明，本领域技术人员可以理解，本发明各实施例不限于日语，可适用于其他任何语言。如图 2 所示，本实施例包括：

步骤 201 , 接收输入语句，如接收句子 [彼自転車図書館〜行〈] , 具体操作时，还可以将接收的句子读入内存；

步骤 202, 对输入语句进行词法和句法分析，具体如：

首先，进行词法分析，包括分词和词的属性特征的获取等两个步骤，分词是对句子的单词进行分割，如上述句子可以分割为 [彼 / /自転車 /Τ 図書館 /〜/行〈] , 词的属性特征的赋予可以从机读词典中获取，如词性、动词的活用形等等；

其次，进行句法分析处理，句法分析的任务是分析出句子的结构，图 6 为曰语句子 [彼自転車図書館〜行：]的句法结构分析结果，根据图 6所示的分析结果，可以得出句子的中心词为动词 [行〈] , 句子的主语为日语代名词 [彼] , 宾语为表示场所的名词 [図書館];

再次，在完成了词法句法分析处理之后，记忆分析结果；本领域技术人员可以理解，进行词法及句法分析的方法为现有技术，不再赘述；

步骤 203 , 对输入语句进行格位框架特征抽取；具体如：

首先，将知识库的信息读入内存；

其次，对于步骤 202的分析结果，从读取的知识库信息中获取关键词的语义和概念信息；具体在进行动词等谓语成份的格位框架的特征提取时，需要事先确定需要提取的谓语词的特征要素，如词、词性、语义、概念、适用的领域等，然后根据制定的特征要素的每一个成分，从步骤 202的分析结果和知识库中提取相应的特征要素的属性值；如句子 [彼自転車図書館〜行〈] , 可以分别以 [彼]、 [自転車]、 [図書館]、 [行：]为关键词，对读入内存中的知识库信息进行检索，从中分别获取 [彼]、 [自転車]、 [図書館]的语义、概念等属性特征（或称为属性信息）；如从日语句子 [彼自転車図書館〜行〈 ]抽取的动词 [行〈 ]的格位框架如图 7所示；

具体地，从知识库中可以得到 [彼]的属性 [人 /动物]、 [自転車]的属性 [交通工具 /物品]、 [図書館]的属性 [建筑物 /场所]等；本领域技术人员可以理解，知识库的具体实例可以根据输入的语言种类和选取的特征来选定，当输入语言是日语时，可以使用日本情报通信机构研发的 EDR词典，英语可以使用 WordNet , 中文可以使用 HowNet等等；

步骤 204, 将模式库中存储的任意格模型与步骤 203所抽取的谓语词的格位框架进行模式匹配，确定该谓语词的格位框架中的任意格信息；简述如下，具体可参见图 3的解释说明；

如：从日语句子 [彼自転車図書館〜行：]的抽取的格位框架如图 7 所示时，句子中的词 [自転車 ]可以从上述知识库中获取语义信息 [交通手段] , 符合模型库中 [交通手段 ·Γ']为任意格的判定模型，则可以得知 [自転車 ·τ']为任意格；

步骤 205, 输出步骤 204的确定结果；优选地，还可以将确定结果输送给知识库，以用于格框架特征抽取单元的处理，以提高系统的知识获取的性能和效率；

具体操作时，输出的数据可以根据需要，以一定的格式进行组合，输出的形式可以是文件，也可以直接存入数据库，如对应于上述步骤 204的确定结果，可以是 [自転車 Τ'] , 也可以是 [交通手段 Τ'],即确定结果可以为任意格的短语，或包含语义信息和特定格助词的片段；还可以为了方便信息处理以及简化动词格位框架的处理，把句子中判定出的任意格模式和句子中的谓语成分一起进行输出，或者输出任意格抽取以后的任意格短语和去除任意格短语的句子。

本实施例通过对句子中动词等谓语成分的格位框架与任意格的关系的判定，实现对格位框架中必须格和任意格的正确区分，使得动词等谓语成分的结构简洁，从而大大提高动词格位框架的覆盖率，并提高句法结构分析和语义分析中的结构消歧和语义消歧的精准度，为信息检索、机器翻译、对话系统等自然语言理解研究领域提供高效可信的知识获取方法。

图 3为本发明的知识获取方法的实施例三流程图。其主要用于说明根据机器学习方法构建模型库的过程，本领域技术人员可以理解，该模型库可以根据各种机器学习方法基于学习数据而建立，以下以支持向量机 S VM为例对使用机器学习方法建立模型库予以解释说明。如图 3所示，本实施例包括：步骤 301 , 特征提取；支持向量机的理论算法可以参考如下的非专利文献：【【非非专专利利文文献献 33】】方方瑞瑞明明，，支支持持向向理理机机理理论论及及其其应应用用分分析析;;中中国国电电力力出出版版社社,, 22000077年年 1100月月 11 日日，， IISSBBNN:: 99778877550088336600337799..

【【非非专专利利文文献献 44】】邓邓乃乃扬扬，，田田英英杰杰，，支支持持向向量量机机：：理理论论、、算算法法与与拓拓展展，，科科学学出出版版社社，， 22000099年年 88月月 11 日日，， IISSBBNN:: 99778877003300225500331155..

目目前前，，支支持持向向量量机机的的机机器器学学习习模模块块有有很很多多开开放放源源代代码码，，如如参参见见

【【非非专专利利文文献献 55】】

hhttttpp ::////wwwwww..ccss.. ccoorrnneellll..eedduu//PPeeooppllee//ttjj// ssvvmm lliigghhtt// oolldd// ssvvmm—— lliigghhtt—— vv44..0000.. hhttmmll

【【专专 ll文文献献 όό】】 hhttttpp::////wwwwww..ccssiiee..nnttuu..eedduu..ttww//~~ccjjlliinn//lliibbssvvmm//

根根据据支支持持向向量量机机的的理理论论算算法法原原理理，，使使用用不不同同的的核核函函数数可可以以解解决决数数据据的的线线性性分分类类或或非非线线性性分分类类问问题题，，一一般般可可以以使使用用多多项项式式核核函函数数、、 RRBBFF (( RRaaddiiaall BBaassiiss FFuunnccttiioonn ))核核函函数数、、 SSiiggmmooiidd核核函函数数等等等等，，上上述述【【非非专专利利文文献献 55】】和和【【非非专专利利文文献献 66】】提提供供的的模模块块中中，，可可以以通通过过对对所所使使用用学学习习模模块块的的命命令令，，如如 SSVVMM LLiigghhtt 的的 ssvvmm—— lleeaarrnniinngg学学习习命命令令，，通通过过预预先先设设定定该该命命令令的的参参数数进进行行核核函函数数的的选选定定；；同同时时，，使使用用支支持持向向量量机机时时，，还还涉涉及及特特征征向向量量空空间间的的生生成成、、特特征征选选择择和和特特征征权权重重的的计计算算方方法法等等问问题题；；特特征征向向量量空空间间可可以以根根据据使使用用的的学学习习数数据据，，如如对对文文本本文文件件进进行行单单词词分分割割处处理理，，计计算算词词频频或或词词的的概概率率，，或或 NN元元模模型型的的出出现现频频率率或或概概率率，，并并进进行行去去除除部部分分高高频频词词部部分分等等工工作作完完成成特特征征选选择择；；特特征征权权重重的的计计算算方方法法有有很很多多，，如如布布尔尔权权重重、、绝绝对对词词频频（（TTFF ))、、倒倒排排文文档档频频度度（（IIDDFF ))、、 TTFF--IIDDFF、、 TTFFCC、、 IITTCC、、熵熵权权重重以以及及 TTFF--IIWWFF等等等等；；

另另外外，，使使用用 SSVVMM分分类类器器时时，，需需要要对对学学习习数数据据进进行行预预处处理理，，预预处处理理除除了了上上述述的的特特征征向向量量空空间间的的生生成成、、特特征征选选择择和和特特征征权权重重的的计计算算方方法法的的选选取取等等工工作作之之外外，，还还需需要要事事先先对对学学习习数数据据进进行行分分类类，，如如正正确确的的事事例例标标识识为为类类 ++11 ,, 错错误误的的事事例例标标识识为为类类 --11 ;; 除除此此以以外外，，还还需需要要根根据据特特征征向向量量空空间间的的各各个个元元素素对对学学习习数数据据中中所所有有的的正正例例和和负负例例进进行行数数据据化化的的格格式式转转换换，，进进行行格格式式转转换换工工作作时时，，一一般般可可以以使使用用特特征征向向量量空空间间集集合合中中各各个个特特征征元元素素的的行行号号来来代代替替学学习习数数据据中中的的词词或或短短语语；；例例如如：：

正正例例：：彼彼自自転転車車図図書書館館〜〜行行〈〈

自自転転車車彼彼図図書書館館〜〜行行〈〈

彼彼図図書書館館〜〜自自転転車車行行〈〈

二 CD 本後読

^f^ 楽 L L、旅 t ¾ 按上述思路，统计词频，假设得到表 1所示的状态向量空间（即提取的特征），为例举，不应做限定解释；

表 1

果以布尔权重对上述正例和负例进行格式转换，可以得到以下的数据正例： 1: 1 3: 1 11: 14: 1 7: 1 12: 1 2:

11: 1 4: 1 1: 1 3: 1 7: 1 12: 12:

1: 1 3: 1 7: 1 12: 12: 1 11: 14:

1: 1 3: 1 7: 1 12: 12: 1 8: 113: 负例： 9: 1 5: 1 3: 1 6: 1 4: 1 7:

14: 1 7: 1 15: 1 16: 1 17: 1 18: 步骤 302, 根据上述提取的特征及机器学习方法，进行建模；如上所述，如使用 SVMLight时，可以使用把上述 svm— learning完成机器学习任务，得到基于 SVM的模型库，得到的模型库中的模型如：

11: 14: 1 7: 1 12: 1 2: 1 8: 1 +0.92411687 本领域技术人员可以理解，当使用 SVM模型，任意格判定单元的处理的实质即使用 SVMLight的 svm— classify模块对新数据（输入语句）在基于相应的特征向量集合（必要时可以进行格式转换）时进行分类，以判断是否含有任意格；如果对分类结果的权重给予适当的阔值，即可以判定句子中是否含有任意格，如对句子 [二 D 学生自転車学校〜行：]中的 [自転車 Τ']的部分判定为任意格；同理，若特征向量空间中包含 [自転車]的语义信息 [交通手段] , 可以推论，当学习数据充分时，可以获取诸如 [交通手段 τ']为任意格的模型，并能够对新数据进行判定。

需要说明的是，图 2中步骤 203所抽取的谓语词的特征要素和模型库之间存在匹配关系，即抽取的特征要素要符合模型库中的模型的构成要素的要求；如使用 SVM分类器构建的模型库时，当学习数据经过上述格位框架特征抽取单元的处理，从知识库中获取了句子中词或短语的概念、语义等信息时，用于 SVM学习的特征向量空间应包含知识库中的语义、概念、适用的领域等。同时，对学习数据以及待分类的数据，可以根据需要进行适当的格式转换，然后分别完成学习数据的机器学习任务和待分类数据的分类任务。详细方法可以参考【非专利文献 3】、【非专利文献 4】、【非专利文献 5】和【非专利文献 6】。

本实施例基于词和布尔加权的 SVM学习方法进行解释说明，具体操作时还可以使用其他方法，如监督学习方法、无监督学习方法以及半监督学习方法、聚类算法、相关算法、复杂特征集和合一运算、概率上下文无关文法、 Ν元模型、隐马尔可夫模型 ΗΜΜ、朴素的贝叶斯、决策树模型、最大熵模型、基于错误驱动的转换方法、神经元网络、条件随机场 (CRF)、 bootstrapping, Co-Training等方法中的至少一种。

装置实施例

图 4为本发明的知识获取装置的实施例一结构图。图 1-3所示的各方法实施例均可适用于本实施例。本实施例包括：格位框架特征抽取单元 420 , 用于抽取输入语句中谓语成分的格位框架要素及其属性信息；模型库 4020 , 用于存储任意格模型；任意格判定单元 430, 用于对格位框架特征抽取单元的抽取结果及任意格模型进行模式匹配，确定谓语成分的格位框架中的任意格信息。

具体操作时，还可以包括输入语句记忆单元 400 , 词法句法分析单元 410, 知识库 4010和输出单元 440。本实施例中的各模块及各单元与图 2、图 3及图 4中的各模块及各单元对应，如图 2中的知识库对应于本实施例中的知识库 4010。各单元具体解释如下：输入语句记忆单元 400 , 用于接收输入语句，具体操作时可以利用各种通用输入模块，如键盘、定点装置、手写字符识别、光学字符读取器、语音输入识别进行语句的输入，或通过文本文件或数据库形式进行输入；输入语句记忆单元 400可以为现有各种能够执行处理用于获得语言信息的输入语句的单元；

词法句法分析单元 410,用于对输入语句进行分词处理和句法结构分析；其中，分词处理包括对输入的句子进行切分，并对每一个词赋予词性等相关属性特征；句法结构分析包括对输入的句子的结构，例如对中文句子进行句法结构分析判断出句子的主语、谓语、宾语、定语、状语和补语等部分；知识库 4010用于给出词法句法分析单元 410的输出结果中，即句子的各个构成要素的词或短语的语义、概念等属性特征；例如英语的 WordNet、中文的 HowNet等；增加语义和概念属性特征的目的在于对抽取的格位框架进行抽象化处理；比如日语句子 [彼自転車図書館〜行：]的施事格 [彼的属性可以代表人称，工具格 [自転車 Τ']可以是交通工具，处所格闺書館〜]可以是场所等等；

格位框架特征抽取单元 420用于针对词法句法分析单元 410的输出结果、以及从知识库 4010 中获取的语义、概念等属性特征，抽取对象动词的格位框架的特征，为任意格判定单元 430和模型库 4020之间进行的模式匹配处理提供数据条件和依据；格位框架特征抽取单元 420的特征选取方法有很多，一般可以使用基于文档频率的特征提取方法，信息增益法， χ2统计方法和互信息方法等等。特征权重的计算方法也有很多，如布尔权重、绝对词频（TF )、倒排文档频度（IDF )、 TF-IDF、 TFC、 ITC、熵权重、 TF-IWF等；模型库 4020可以根据统计方法使用学习数据获得，用于为格位框架特征抽取单元 420抽取的格位框架特征进行判断 , 从而判定和区分出动词等谓语成分的格框架要素中的必须格和任意格。模型库中的模型可以使用学习数据由统计机器学习方法获得，如支持向量机、决策树等算法；

任意格判定单元 430用于对格位框架特征抽取单元 420抽取的动词格位框架特征和模型库 4020之间进行的模式匹配，对动词等谓语成分的格框架的要素进行判定，区分出必须格和任意格；具体如使用支持向量机 SVM建立的模型库 4020,当模型库 4020中存在诸如 [交通手段 Τ']的任意格模型时，句子 [彼汽車会社 : 行：]中的词 [汽車]可以从知识库中获取语义信息 [交通手段] , 符合模型库 4020 中 [交通手段 τ']为任意格的判定模型，则可以得知 [汽車 τ']为任意格；

输出单元 440用于对任意格判定单元的结果进行输出，输出的形式多种多样，可以是文件输出，也可以是显示器输出等；对应于上述任意格判定单元 430处理的输入语句，输出可以是 [汽車 Τ'],或者 [汽車 Τ']和 [彼会社 (：行：]等，此外也可以根据用户的需要进行输出。

优选地，输出单元 440将其输出结果写入知识库 4010,直接用于格框架特征抽取单元 420的处理，以提高系统的知识获取的性能和效率。

本实施例通过任意格判定单元 430可以成功地将动词的格位框架中的格要素划分为必须格和任意格，并把动词的任意格从动词格位框架中分离出来，达到简化动词的格位框架，压缩格位框架的数量之目的，同时，还可以降低句法结构消歧和语义消歧的难度，提高句法分析和语义分析的精准度，对机器翻译、信息检索以及语音识别等相关研究和应用领域起到良好的促进和改善作用。

图 5为本发明的知识获取装置的实施例三结构图。图 1-3所示的各方法实施例均可适用于本实施例。如图 5所示，本实施例的构成单元及连接关系与图 5所示的知识获取装置大体相同，不同点在于：增加了用于存储学习数据的数据库 5030 (如大规模语料库）及机器学习单元 510, 该机器学习单元 510可以釆用如支持向量机、决策树等方法，使用学习用数据库 5030中的数据进行机器学习，从而构建模型库 4020 , 详细参见图 3的解释说明。

最后应说明的是：以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1. 一种知识获取装置，其特征在于，包括：

格位框架特征抽取单元，用于抽取输入语句中谓语成分的格位框架要素及其属性信息；

模型库，用于存储任意格模型；

任意格判定单元，用于对所述格位框架特征抽取单元的抽取结果及所述任意格模型进行模式匹配，确定所述谓语成分的格位框架中的任意格信息。

2. 根据权利要求 1所述的知识获取装置，其特征在于，还包括：数据库，用于存储预设的学习数据；

机器学习单元，用于从所述数据库获取所述学习数据，并根据预设的机器学习方法基于所述学习数据训练学习得到所述任意格模型 , 以及将所述任意格模型发送至所述模型库。

3. 根据权利要求 1或 2所述的知识获取装置，其特征在于，还包括：知识库，用于存储语句构成要素的属性信息，为所述格位框架特征抽取单元提供所述谓语成分的格位框架要素的属性信息。

4. 根据权利要求 3所述的知识获取装置，其特征在于，还包括：输出单元，用于输出所述任意格判定单元的确定结果，并将所述确定结果发送至所述知识库。

5. 根据上述权利要求 4所述的知识获取装置，其特征在于，还包括：词法句法分析单元，用于所述输入语句进行词法分析及句法结构分析，并将分析结果发送至所述格位框架特征抽取单元。

6. 根据上述权利要求 5所述的知识获取装置，其特征在于，还包括：输入语句记忆单元，用于接收所述输入语句，并将所述输入语句转发至所述词法句法分析单元。

7. 一种知识获取方法，其特征在于，包括：

抽取输入语句中谓语成分的格位框架要素及其属性信息；

对所述抽取结果及存储的任意格模型进行模式匹配，确定所述谓语成分的格位框架中的任意格信息。

8. 根据权利要求 7所述的知识获取方法，其特征在于，在所述对所述抽取结果及存储的任意格模型进行模式匹配的步骤之前包括：

根据预设的机器学习方法基于预设的学习数据训练学习得到所述任意格模型；

存储所述任意格模型。

9. 根据权利要求 7或 8所述的知识获取方法，其特征在于，在所述确定所述谓语成分的格位框架中的任意格信息的步骤之后还包括：

输出所述确定结果，并将所述确定结果发送至知识库，所述知识库用于存储语句构成要素的属性信息 , 并提供所述谓语成分的格位框架要素的属性信息。

10. 根据权利要求 8所述的知识获取方法，其特征在于，所述预设的机器学习方法包括：监督学习方法、无监督学习方法、半监督学习方法、聚类算法、相关算法、复杂特征集和合一运算、概率上下文无关文法、 N元模型、隐马尔可夫模型、朴素的贝叶斯、支持向量机、决策树模型、最大熵模型、基于错误驱动的转换方法、神经网络、条件随机场中的至少一种。