WO2014169857A1

WO2014169857A1 - 数据处理装置、数据处理方法以及电子设备

Info

Publication number: WO2014169857A1
Application number: PCT/CN2014/075776
Authority: WO
Inventors: 张姝; 孟遥; 于浩
Original assignee: 富士通株式会社
Priority date: 2013-04-19
Filing date: 2014-04-21
Publication date: 2014-10-23
Also published as: CN104111917A; JP2016519370A; CN104111917B

Abstract

本发明提供了数据处理装置、数据处理方法以及电子设备，以克服现有的语言数据处理技术所存在的处理精度不高的问题。上述数据处理装置包括：语义角色标注单元，用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注，以获得源语言语义角色序列以及多个目标语言语义角色序列；匹配单元，用于基于预定双语语料库获得上述源语言语义角色序列分别与每个上述目标语言语义角色序列之间的匹配分数；以及调序结果确定单元，用于将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。本发明的上述技术能够应用于数据处理领域。

Description

数据处理装置、数据处理方法以及电子设备

技术领域

[01] 本发明涉及数据处理领域，尤其涉及数据处理装置、数据处理方法以及电子设备。

背景技术

[02] 数据处理是当前较为热门的一个技术领域。在数据处理领域中，由于数据信息的种类的丰富性和多样性，处理的目的和要求也不尽相同。

[03] 语言数据作为众多类型数据中的一种，在人们的日常生活、工作中是极为常见的。例如，电子邮件、手机间互发的短消息以及人们学习和工作中需要处理的各种文件中所包含的文字信息，都是语言数据。在利用现有的用于处理语言数据的技术对如上所述的语言数据进行处理时，尤其是将一种模式的语言数据转换为另一种模式时，其处理的准确度和 /或精度往往较低。

发明内容

[04] 在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以筒化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

[05] 鉴于此，本发明提供了数据处理装置、数据处理方法以及电子设备，精度不高的问题。

[06] 根据本发明的一个方面，提供了一种数据处理装置，该数据处理装置包括：语义角色标注单元，用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注，以获得源语言语义角色序列以及多个目标语言语义角色序列；匹配单元，用于基于预定双语语料库获得上述源语言语义角色序列分别与每个上述目标语言语义角色序列之间的匹配分数，其中，上述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对；以及调序结果确定单元，用于将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。

[07] 根据本发明的另一个方面，还提供了一种数据处理方法，该数据处理方法包括：对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注，以获得源语言语义角色序列以及多个目标语言语义角色序列；基于预定双语语料库获得上述源语言语义角色序列分别与每个上述目标语言语义角色序列之间的匹配分数，其中，上述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对；以及将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。

[08] 根据本发明的另一个方面，还提供了一种电子设备，该电子设备包括如上所述的数据处理装置。

[09] 根据本发明的又一个方面，还提供了一种存储有机器可读取的指令代码的程序产品，上述程序产品在执行时能够使上述机器执行如上所述的数据处理方法。

[10] 此外，根据本发明的其他方面，还提供了一种计算机可读存储介质，其上存储有如上所述的程序产品。

[11] 上述根据本发明实施例的数据处理装置、数据处理方法以及电子设备，其针对作为源语言语句的译文的候选调序结果的多个目标语言语句，能够利用预定双语语料库来获得上述多个目标语言语句对应的多个目标匹配分数，以在上述多个目标语言语句中确定最终的调序结果，由此能够获得至少以下益处之一：处理结果的准确度较高；计算量小，计算速度快；以及处理效率较高。

[12] 通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

[13] 本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解幹本发明的原理和优点。在附图中：

[14] 图 1是示意性地示出根据本发明的实施例的数据处理装置的一种示例结构的框图。

[15] 图 2是示意性地示出如图 1所示的匹配单元的一种可能的示例结构的框图。

[16] 图 3是示意性地示出根据本发明的实施例的数据处理方法的一种示例性处理的流程图。

[17] 图 4是示出了可用来实现根据本发明的实施例的数据处理装置和数据处理方法的一种可能的信息处理设备的硬件配置的结构简图。

[18] 本领域技术人员应当理解，附图中的元件仅仅是为了简单和清见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

[19] 在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

[20] 在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和 /或处理步驟，而省略了与本发明关系不大的其他细节。

[21] 本发明的实施例提供了一种数据处理装置，该数据处理装置包括：语义角色标注单元，用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注，以获得源语言语义角色序列以及多个目标语言语义角色序列；匹配单元，用于基于预定双语语料库获得上配分数，其中，上述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对；以及调序结果确定单元，用于将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。

[22] 在根据本发明的实施例的数据处理装置的具体实现方式中，源语言例如可以是为英语、汉语、德语、法语、日语等众多语言中的任意一种语言，而目标语言可以是与作为源语言的语种之间具有相同的主谓宾结构的、上述众多语言中的另一种语言。其中，需要说明的是，这里所说的相同的主谓宾结构中的 "主谓宾结构" 并不限于 "主语 +谓语 +宾语" 这种顺序，也可以是其他顺序，例如 "主语 +宾语 +谓语" 等顺序，但所选定的源语言和目标语言的 "主谓宾结构" 是相同的。例如，源语言和目标语言都是 "主语 +谓语 +宾语" 顺序的 "主谓宾结构 "，或者都是 "主语 +宾语 +谓语" 顺序的 "主谓宾结构" 等。

[23] 在下文中，将主要以源语言为汉语、目标语言为英语的情况为例来给出本发明各实施例的相关描述，对于釆用其他语言作为源语言或目标语言的示例将不再进行详细描述。其中，汉语和英语均是具有 "主语 +谓语 +宾语" 这种顺序的主谓宾结构的语言。

[24] 在一些数据处理过程中，对于某个源语言语句，可能存在多个候选译文，在这种情况下，可以在这多个候选译文中挑选出与该源语言语句最匹配的那个。在本发明的实施例中，数据处理装置能够通过确定每个候选译文中的各语义角色之间的顺序与源语言语句之间的匹配程度，来进一步确定哪一个候选译文与该源语言语句最匹配。需要说明的是，在上述数据处理过程中，多个候选译文相当于在将源语言语句从源语言模式转换为目标语言模式的过程中所得到的多个候选的处理结果。

[25] 下面结合图 1来详细描述根据本发明的实施例的数据处理装置的一个示例。

[26] 如图 1所示，根据本发明的实施例的数据处理装置 100包括语义角色标注单元 110、匹配单元 120以及调序结果确定单元 130。

[27] 下文中，以某个源语言语句以及作为该源语言语句的候选调序结果的多个目标语言语句为例来描述如何在这多个目标语言语句中选择与该源语言语句最匹配的那个。

[28] 在实际处理中，对于处理多个源语言语句的情况以及处理整篇源语言文章等的情况来说，处理的过程是类似的，将不再详述。

[29] 如图 1所示，在根据本发明的实施例的数据处理装置 100中，语义角色标注单元 110通过对源语言语句进行语义角色标注而获得该源语言语句的源语言语义角色序列。此外，语义角色标注单元 110还对上述多个目标语言语句分别进行语义角色标注，以获得多个目标语言语句各自的目标语言语义角色序列，即，获得多个目标语言语义角色序列。

[30] 在根据本发明的实施例的数据处理装置的具体实现方式中，可以采用如 FrameNet、 PropBank或 NomBank中的语义角色标注技术来对英语语句（作为目标语言语句的示例）进行语义角色标注，以及可以采用如 CPB ( Chinese Proposition Bank ) 中的语义角色标注技术来对汉语语句（作为源语言语句的示例）进行语义角色标注。需要说明的是，语义角色标注技术对于本领域的技术人员来说是可以根据本领域公知常识所获知的，故这里不再详述。

[31] 此外，在才艮据本发明的实施例的数据处理装置的具体实现方式中，源语言语句不限于完整语句（如 "他就是我昨天看见的那个老师。"：)，也可以是完整语句中的部分句子成分（诸如 "我昨天看见的那个老师" 之类的具有主谓宾结构的句子成分）。

[32] 举例来说，假设源语言语句为 "我昨天看见的那个老师"，并假设目标语言语句 "The teacher I saw yesterday"以及目标语言语句 "I yesterday saw the teacher" 是上述源语言语句的两个候选调序结果。在该例子中，源语言为汉语，目标语言为英语。需要说明的是，在该例子中，上述源语言语句的两个候选调序结果相当于在将源语言语句从源语言模式转换为目标语言模式的过程中所得到的候选的处理结果。

[33] 通过语义角色标注单元 110对源语言语句 "我昨天看见的那个老师" 进行语义角色标注，可以得到如下的标注结果：

[34] [我] _ar_gL_s 昨天 [看见] _Vs 的那个 [老师 ]_ar_gR_s

[35] 在该标注结果中， [...]— Vs 的方括号中的内容表示源语言语句 "我昨天看见的那个老师" 中的源语言谓词， [...]— ar_gL_s的方括号中的内容表示源语言语句 "我昨天看见的那个老师" 中的位于源语言谓词左侧的一个语义角色， [...]— ar_gR_s的方括号中的内容表示源语言语句 "我昨天看见的那个老师" 中的位于源语言谓词右侧的一个语义角色。

[36] 由此，根据对源语言语句 "我昨天看见的那个老师" 进行语义角色标注的结果，按照各个语义角色以及源语言谓词在源语言语句 "我昨天看见的那个老师" 中的顺序，可以得到如下的源语言语义角色序列 S: [37] argL_s看见 argR_s

[38] 例如，假设 argL_s标注的是主语， argR_s标注的是宾语，则上述源语言语义角色序列 S对应于 "主语 +谓语 +宾语" 顺序的主谓宾结构。

[39] 需要说明的是，在该例子中，源语言谓词左侧只有一个语义角色，其右侧也只有一个语义角色，但在本发明实施例的数据处理装置的其他例子中，源语言谓词左侧和 /或右侧的语义角色可以多于一个。

[40] 类似地，通过语义角色标注单元 110对目标语言语句 "The teacher I saw yesterday" 进行语义角色标注，可以得到如下的标注结果：

[41] The [teacher]_argL_Ti2 [I]_ argL_T1l [saw]_Vtl yesterday

[42] 在该标注结果中， [...]— Vtl的方括号中的内容表示目标语言语句 "The teacher I saw yesterday" 中的目标语言谓词， […： |_argL_T1l的方括号中的内容表示目标语言语句 "The teacher I saw yesterday" 中的位于目标语言谓词左侧的一个语义角色， [...]— ar_gL_T12 的方括号中的内容表示目标语言语句 "The teacher I saw yesterday" 中的位于目标语言谓词左侧的另一个语义角色。

[43] 由此，根据对目标语言语句 "The teacher I saw yesterday" 进行语义角色标注的结果，按照各个语义角色以及目标语言谓词在目标语言语句 "The teacher I saw yesterday" 中的顺序，可以得到如下的目标语言语义角色序列 T1:

[44] argL_Ti2 argL_Til saw

[45] 例如，假设 argL_T12标注的是宾语， argL_T1l标注的是主语，则上述目标语言语义角色序列 T1对应于 "宾语 +主语 +谓语" 顺序的主谓宾结构。

[46] 此外，对于目标语言语句 "I yesterday saw the teacher" , 可以类似地得到如下的标注结果：

[47] [I] _ argL_T2l yesterday [saw]Vt2 the [teacher]— argR_T2l

[48] 在该标注结果中， [...]— Vt2 的方括号中的内容表示目标语言语句 "I yesterday saw the teacher" 中的目标语言谓词， [...]_argL_T2l的方括号中的内容表示目标语言语句 "I yesterday saw the teacher" 中的位于目标语言谓词左侧的一个语义角色， [...]— ar_gR_T2l 的方括号中的内容表示目标语言语句 "I yesterday saw the teacher" 中的位于目标语言谓词右侧的另一个语义角色。 [49] 根据该标注结果，按照各个语义角色以及目标语言谓词在目标语言语句 "I yesterday saw the teacher" 中的顺序，可以得到如下的目标语言语义角色序列 T2:

[50] argL_T2l saw argR_T2l

[51] 例如，假设 argL_T2l标注的是主语， argR_T2l标注的是宾语，则上述目标语言语义角色序列 T1对应于 "主语 +谓语 +宾语"顺序的主谓宾结构。

[52] 这样，通过语义角色标注单元 110的处理，针对某个源语言语句，可以得到该源语言语句的源语言语义角色序列 S，以及可以得到作为该源语言语句的候选调序结果的多个目标语言语句对应的多个目标语言语义角色序列 Tl、 Τ2 ΤΝ, 其中， Ν为大于 1的整数。由此，基于预定双语语料库，匹配单元 120可以获得上述源语言语义角色序列 S分别与上述多个目标语言语义角色序列 Tl、 Τ2 ΤΝ中的每一个之间的匹配分数。

[53] 其中，上述预定双语语料库包括多个源语言和目标语言的双语句对，这些双语句对是预先经过语义角色标注的。需要说明的是，预定双语语料库可以包括通用领域的双语语料库和 /或专有领域的双语语料库等。

[54] 在才艮据本发明的实施例的数据处理装置的一种实现方式中，匹配单元 120可以具有如图 2所示的一种示例结构。如图 2所示，在该实现方式中，匹配单元 120可以包括相关程度获得子单元 210和匹配分数确定子单元 220。

[55] 对于多个目标语言语义角色序列 Tl、 Τ2 ΤΝ中的每个目标语言语义角色序列来说，相关程度获得子单元 210可以针对该目标语言语义角色序列中的每个目标语言谓词，利用上述预定双语语料库来获得该目标语言语义角色序列的包含该目标语言谓词的至少部分子序列与源语言语义角色序列之间的相关程度。

[56] 下面以多个目标语言语义角色序列 Tl、 Τ2 ΤΝ中的任一个目标语义角色序列之间的匹配分数。下文中，用 Tg表示上述 "任一个目标语言语义角色序列"，其中 Tg=Tl，T2，...，TN。

[57] 在一个示例中，假设目标语言语义角色序列 Tg中包含至少一个目标语言谓词，则针对目标语言语义角色序列 Tg 中的每个目标语言谓词，相关程度获得子单元 210可以获得如下多种相关程度中的任一种或多种：目标语言语义角色序列 Tg的仅包括该目标语言谓词的子序列（即该目标语言谓词本身，以下简称为第一类子序列）与源语言语义角色序列 S之间的相关程度；目标语言语义角色序列 Tg的包括位于该目标语言谓词左侧的至少一个语义角色的子序列（以下简称为第二类子序列）与源语言语义角色序列 S之间的相关程度；目标语言语义角色序列 Tg的包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列（以下简称为第三类子序列）与源语言语义角色序列 S之间的相关程度；以及目标语言语义角色序列 Tg的第一类子序列、第二类子序列以及第三类子序列中的至少两种子序列与源语言语义角色序列 S之间的相关程度。

[58] 下面以上文所描述的源语言语义角色序列 S为 "ar_gL_s看见 ar_gR_s"、目标语言语义角色序列 T1为 "argL_T12 argL_T1l saw" 以及目标语言语义角色序列 T2为 "argL_T2l saw argR_T2l"的情况为例来描述一个示例。

[59] 针对目标语言语义角色序列 Tl "argL_T12 argL_T1l saw" 来说，其对应的第一类子序列例如可以为 "saw" , 第二类子序列例如可以为 "argL_T12"、 "argL_T1l"和 "argL_T12 argL_T1l" 中的任一个，第三类子序列例如可以为 ^wargL_Til saw" 、 "argL_T12 saw"和 "argL_T12 argL_T1l saw" 中的任一个。

[60] 由此， "saw" 与 "argL_s看见 argR_s" 之间的相关程度例如可以作为上述第一类子序列与源语言语义角色序列 S之间的相关程度(下文称为"第一类相关程度"）的一个示例。其中， "saw" 与 "ar_gL_s看见 ar_gR_s" 之间的相关程度例如可以由上述预定双语语料库中 "saw" 与 "ar_gL_s看见 argR_s ^w 同时出现在一个双语句对中的概率来反映，或者，也可以由上述预定双语语料库中包含 "ar_gL_s看见 ar_gR_s" 结构的所有中文语句对应的所有英文语句中出现 "saw" 的概率来反映。

[61] 其中，需要说明的是， "ar_gL_s看见 ar_gR_s" 出现在一个双语句对中是指：在这个双语句对的汉语语句中，根据其语义角色标注的结果，假设按照这个汉语语句中的各个语义角色及谓词在该汉语语句中的出现顺序所得到的语义角色序列为 S。，则 "ar_gL_s看见 ar_gR_s"为 S。的子序列。例如，假设 S₀为 "Wl W2 W3 W4 W5" , 则 ^wargL_s看见 argR_s" 例如可以是 "W2 W4 W5"，等等。需要注意的是，某个序列的子序列可以是该序列本身。

[62] 举例来说，假设 argL_s表示主语， argR_s表示宾语，则 "argL_s看见 argR_s" 的结构对应于 "主语 + '看见， +宾语" 这种结构。于是，假设双语句对 C1包括 "我看见猫"和 "I saw a cat" ,另一个双语句对 C2包括 "他看见许多书" 和 "He found many books"，由于根据 "我看见猫" 和 "他看见许多书"的语义角色标注结果所得到的语义角色序列均为 "主语 + '看见， +宾语" 这种结构，因此可以判定 "主语 + '看见， +宾语" 即 "_argL_s 看见 argR_s" 出现在双语句对 C1中、也出现在双语句对 C2中。同时，在双语句对 C1的英语语句 "I saw a cat"中出现了上述第一类子序列 "saw", 而在双语句对 C2的英语语句 "He found many books" 中没有出现上述第一类子序列 "saw"。因此，上述预定双语语料库中包含 "ar_gL_s 看见 argRs" 结构的所有中文语句对应的所有英文语句中出现 "saw" 的概率例如可以为 50% (在该预定双语语料库中只包含双语句对 C1和 C2的情况下）。

[63] 此外， "argL_T12"、 "argL_T1l" 和 "argL_T12 argL_T1l" 中的任一个与 MargL_s看见 ar_gR_s" 之间的相关程度例如可以作为上述第二类子序列与源语言语义角色序列 S之间的相关程度（下文称为 "第二类相关程度"）的一个示例。类似地，第二类相关程度例如可以由上述第二类子序列与源语言语义角色序列 S同时出现在上述预定双语语料库的一个双语句对中的概率来反映，或者，也可以由上述预定双语语料库中包含源语言语义角色序列 S的所有中文语句对应的所有英文语句中出现上述第二类子序列的概率来反映，计算概率的方法可以与上文相类似，这里不再赘述。

[64] 此夕卜, "argL_T1l saw"、 "argL_T12 saw，，和 "argL_T12 argL_Til saw" 中的任一个与 "ar_gL_s看见 ar_gR_s" 之间的相关程度例如可以作为上述第三类子序列与源语言语义角色序列 S之间的相关程度（下文称为 "第三类相关程度"）的一个示例。类似地，第三类相关程度例如可以由上述第三类子序列与源语言语义角色序列 S同时出现在上述预定双语语料库的一个双语句对中的概率来反映，或者，也可以由上述预定双语语料库中包含源语言语义角色序列 S的所有中文语句对应的所有英文语句中出现上述第三类子序列的概率来反映，计算概率的方法可以与上文相类似，这里不再赘述。

[65] 类似地，可以获得上，第一类子序列、第二类†序列以及第三类序为 "第四类相关程度"；)。

[66] 例如，假设选择第一类子序列和第三类子序列作为上述至少两种子序列的示例，并假设第一类子序列为 "saw"、第三类子序列为 "ar_gL_T12 saw" , 则第一类子序列和第三类子序列与源语言语义角色序列 S之间的相关程度可以由上述第一类子序列 "saw"、第三类子序列 "ar_gL_T12 saw" 以及源语言语义角色序列 S同时出现在上述预定双语语料库的一个双语句对中的概率来反映，或者，也可以由上述预定双语语料库中包含源语言语义角色序列 S的所有中文语句对应的所有英文语句中同时出现上述第一类子序列 "saw" 和第三类子序列 "ar_gL_T12 saw" 的概率来反映，其中，计算概率的方法可以与上文相类似，这里不再赘述。

[67] 再如，假设选择第一类子序列和第二类子序列作为上述至少两种子序列的示例，并假设第一类子序列为 "saw"、第二类子序列为 "ar_gL_T12 argL_T1l" , 则第一类子序列和第二类子序列与源语言语义角色序列 S之间的相关程度可以由上述第一类子序列 "saw"、第二类子序列为 "ar_gL_T12 ar_gL_T1l"以及源语言语义角色序列 S同时出现在上述预定双语语料库的一个双语句对中的概率来反映，或者，也可以由上述预定双语语料库中包含源语言语义角色序列 S的所有中文语句对应的所有英文语句中同时出现上述第一类子序列 "saw"和第二类子序列为 "ar_gL_T12 ar_gL_T1l" 的概率来反映，其中，计算概率的方法可以与上文相类似，这里不再赞述。

[68] 以上举例说明了如何获得第一类至第四类相关程度，但需要注意的是，相关程度获得子单元 210可以获得上述第一类至第四类相关程度中的任一种或多种，而不一定需要计算第一类至第四类相关程度的全部。另外，需要说明的是，相关程度获得子单元 210所计算的相关程度中可以包括多个同类别的相关程度，例如，可以包括两个第二类相关程度（这两个第二类相关程度所对应的第二类子序列可以不同），等等。

[69] 这样，匹配分数确定子单元 220可以基于相关程度获得子单元 210针对每个目标语言语义角色序列所获得的各种相关程度（如上述第一类至第四类相关程度中的任一种或多种中的任一种或多种），来确定每个目标语言语义角色序列与源语言语义角色序列之间的匹配分数。在一种实现方式中，针对每个目标语言语义角色序列，匹配分数确定子单元 220可以将与该目标语言语义角色序列有关的相关程度的值彼此相乘，而将得到的乘积作为该目标语言语义角色序列与源语言语义角色序列之间的匹配分数。在另一种实现方式中，针对每个目标语言语义角色序列，匹配分数确定子单元 220也可以通过对与该目标语言语义角色序列有关的相关程度的值进行加权计算（例如加权求和）所得到的结果作为该目标语言语义角色序列与源语言语义角色序列之间的匹配分数。

[70] 在一个例子中，匹配分数确定子单元 220可以根据如下的公式一来获得上述匹配分数。

、 score(S, T) = P( V_T | S)*P( α_λ | V_T ,S)

公式一 = h k . »

*ΠΡ( a, I a,__x , V_T ,S)*P( ^|V_T,S)*nP( b_j | V_T ,b _l ,S)

[71] 在公式一中， S表示源语言语义角色序列， T表示与源语言语义角色序列 S对应的多个目标语言语句中的任一个目标语言语义角色序列， V_T 为 T中的目标语言谓词，为 T中位于 V_T左侧的第 i个语义角色， h为 V_T左侧的语义角色数量，为 T中位于 V_T右侧的第 j个语义角色， k为 V_T右侧的语义角色数量， P(v_T|s)为用于表示 S与 T的子序列 {V_T}之间的相关程度的条件概率， P(A|V_T,S)为用于表示 S与 T的子序列 {V_T}和 {«_bV_T}之间的相关程度的条件概率， Ρ(Ω,| A— 1， V_T,S)为用于表示 S与 T的子序列

和 A VT}之间的相关程度的条件概率， P(^|V_T,S)为用于表示 S与 T的子序列 {V_T}和 {V_T?^}之间的相关程度的条件概率，以及 P IVTAPS)为用于表示 S与 T的子序列^^ ^和^^^ ^之间的相关程度的条件概率。

[72] 在一种实现方式中， P(v_T|s)例如可以等于在上述预定双语语料库中包含源语言语义角色序列 S的所有预定源语言语句对应的所有预定目标语言语句中出现子序列 {V_T}的概率。为方便描述，下文中将 "上述预定双语语料库中包含源语言语义角色序列 S的所有预定源语言语句对应的所有预定目标语言语句" 所构成的集合称为预定集合。这样， P(A|V_T,S)例如可以等于在上述预定集合中已经出现子序列 {V_T}的预定目标语言语句中出现子序列 { ，V_t}的概率， ρ(_Ω,μ, pV^s)例如可以等于在上述预定集合中已经出现子序列 {β_Μ，ν_τ}的预定目标语言语句中出现子序列 ,ί^,ντ}的概率， P(^|V_T,S) 例如可以等于在上述预定集合中已经出现子序列 {V_T}的预定目标语言语句中出现子序列 {V_T?^}的概率， p(b」v_T, ,,s)例如可以在上述预定集合中已经出现子序列 {VT^-J的预定目标语言语句中出现子序列 {ν_τ，^_-1?^}的概率。

[73] 需要说明的是，在公式一中，距离 V_T越近，语义角色的序号越小。例如， ^为 T中位于 V_T左侧且距离 V_T最近的第一个语义角色，而 β₂为 Τ 中位于 V_T左侧且距离 V_T最近的第二个语义角色，等等。

[75] 公式二: _P(V |_S)

[76] 公式三：

,V_S [77] 公式四： P(a \a. ,,^,5) = ^^^^'^··^'' ^^'"-^'^

' ' C (a^ ,Y_T,a'_h,,...,a ,Y_s,b ,...,b'_k,) [78] 公式五：，、

[79] 公式 7 :

[80] 在以上公式二至公式六中， V_s为 S中的源语言谓词，为 S中位于 V_s左侧的 /ί，个语义角色， ,...,^为 S中位于 V_s右侧的 :，个语义角色，由此，序列 {Ω ,.,.,ΩΊ,ν»,^}即为源语言语义角色序列 S„

[81]

,...,^)表示在包含源语言语义角色序列 S (即 { _¾, Ί ,v_s })的所有预定源语言语句所属的双语句对中的所有预定目标语言语句中出现序列 {^}的次数。下面将包含源语言语义角色序列 S (即 { ,,..., ,v_s,^,...,^})的所有预定源语言语句所属的所有双语句对称为待统计句对。表示包含序列 { }的所有预定源语言语句的数量，表示在待统计句对中的预定目标语言语句中出现序列 { a_x ,V_T }的次数，

表示在待统计句对中的预定目标语言语句中出现序列 { α,,α,^,Υ, }的次数，表示在待统计句对中的预定目标语言语句中出现序列 ₁₅^}的次数，（^^，^ ，…，，^，^，… ^表示在待统计句对中的预定目标语言语句中出现序列 {V_T }的次数，

示在待统计句对中的预定目标语言语句中出现序列 { V_TA ^ }的次数，

C( V_T , bj__x ,α , ,···,α , V_S ,b ,...,b ,)表示在待统计句对中的预定目标语言语句中出现序列（ ^的次数。

[82] 在另一个例子，匹配分数确定子单元 220也可以根据如下的公式七来获得上述匹配分数。 score(S, T) = P( V_T | S)*P( a_x I V_T ,S)*P( a₂1 a_x ,V_T ,S)* Π P( a_t , a_{t 2}V_T ,S)

[83] 公式七： _k ³

*P( b_x I V_T ,S)*P( b₂1 V_T ,b, ,S)* Π P( b_j | V_T ,bj_₂ ! ,S)

[84] 与公式一不同的是，公式七中的 Ρ(",.|ί ρΩ,.— ₂V_T,S)为用于表示 S与 T的子序列 {" A^VT}和， α^α^Υτ}之间的相关程度的条件概率， p( |v_T, ,,s)为用于表示 S与 T的子序列 {V_T， ^w}和 {V_T， b^bj-^j}之间的相关程度的条件概率。

[85] 其中，公式七中的 P(V_T|S)例如可以根据公式二来计算， P(i¾|V_T,S)例如可以根据公式三来计算，例如可以根据公式四来计算， P(^|V_T,S) 例如可以根据公五来计算， ρ( |ν„)例如可以根据公式六来计算。此夕卜，

如可以根据如下的公式九来计算。

[86] 公式八： PiaU.

「一，，\ j? C(V_T,b. ,b. ,,b.,a , ,.,.,α', ,ν,έ»' ...,b',,)

[87] 公式九： V{b, V_T ； ₂,bi ,,S)= ^{T 2 1 3 h 1 s 1 k}

[88] 其中, ₂,ν_τ, ) 示在待统计句对中的预定目标语言语句中出现序列 {Ω,,Ω, ρΩ, ₂,V_T}的次数，

示在待统计句对中的预定目标语言语句中出现序列 { α,^,Υ, }的次数， c(v_T , bj_₂ ,b _X ,_{Ω ¾}, ,... ,_Ω Ί ,v_s Ί ,... _λ, )表示在待统计句对中的预定目标语言语句中出现序列 { V_T Α· ₂ , A }的次数， ( V_T , bj_₂ ,b _X ,a ,,...,a\,V_s,b\,...,b ,)表示在待统计句对中的预定目标语言语句中出现序列 { V_{T 2} ,b_}_, }的次数。

[89] 通过以上描述可知，在上述结合图 2所描述的例子中，通t^关程度获得子单元 210和匹配分数确定子单元 220的处理，能够同时考虑源语言语句以及目标语言语句中的谓词信息，相比于传统技术能够使得处理所得到的结果更加准确。

[90] 由此，通过匹配单元 120的处理可以得到多个目标语言语义角色序列 Tl、 Τ2、 …、 ΤΝ中的每一个与源语言语义角色序列 S之间的匹配分数。然后，调序结果确定单元 130可以将与源语言语义角色序列 S之间的匹配分数最高的那个目标语言语义角色序列所对应的候选调序结果确定为最终调序结果。需要说明的是，上述最终调序结果相当于在将源语言语句从源语言模式转换为目标语言模式的过程中所得到的最终的处理结果。

[91] 例如，假设源语言语句为 "我昨天看见的那个老师"，并假设目标语言语句 "The teacher I saw yesterday"以及目标语言语句 "I yesterday saw the teacher" 是上述源语言语句的两个候选调序结果，则才艮据上文描述可知，语义角色标注单元 110可以得到目标语言语义角色序列 Tl ^wargL_T12 argLxil saw"以及目标语言语义角色序列 T2 "argL_T2l saw argR_T2l"。

[92] 针对目标语言语义角色序列 Tl "argL_T12 argL_T1l saw" , 根据公式一至公式六，匹配单元 120可以获得目标语言语义角色序列 T1与源语言语义角色序列 S ^aargL_s看见 argR_s" 之间的匹配分数，假设为 0.8。

[93] 类似地，匹配单元 120可以得到目标语言语义角色序列 T2与源语言语义角色序列 S "argL_s看见 argR_s" 之间的匹配分数，假设为 0.5。

[94] 于是，调序结果确定单元 130可以将目标语言语义角色序列 T2对应的候选调序结果（即 "The teacher I saw yesterday" )确定为最终调序结果。

[95] 在才艮据本发明的实施例的数据处理装置的另一种实现方式中，在源语言语句包含两个或两个以上谓词的情况下，语义角色标注单元 110可以将每个源语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的源语言语义角色序列，并将与该源语言谓词对应的目标语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的目标语言语义角色序列。在这种情况下，匹配单元 120可以获得与同一个源语言谓词对应的源语言语义角色序列和目标语言语义角色序列之间的匹配分数。这样，在这种实现方式中语义角色标注单元 110和匹配单元 120对每个谓词可以分别执行与上文中结合图 1和 /或图 2所描述的语义角色标注单元 110 和匹配单元 120的处理相类似的处理。需要说明的是， "与同一个源语言谓词对应的源语言语义角色序列和目标语言语义角色序列" 是这样的两个序列：该源语言语义角色序列中包含谓词 Vaa，该目标语言语义角色序列中包含谓词 Vbb，则谓词 Vaa和谓词 Vbb互为译文。

[96] 例如，假设源语言语句 S，包含两个谓词 Vsl和 Vs2，并假设目标语言语句 Ml以及目标语言语句 M2是上述源语言语句 S，的两个候选调序结果，其中，目标语言语句 Ml包含谓词 Vtal (对应于 Vsl )和 Vta2 (对应于 Vs2 ), 目标语言语句 M2包含谓词 Vtbl (对应于 Vsl )和 Vtb2 (对应于 Vs2 )。 [97] 将源语言语句中的谓词 Vsl及与谓词 Vsl有关的语义角色所组成的序列称为序列 Sl，，源语言语句中的谓词 Vs2及与谓词 Vs2有关的语义角色所组成的序列称为序列 S2，。

[98] 将目标语言语句 Ml中的谓词 Vtal及与谓词 Vtal有关的语义角色所组成的序列称为序列 Tla，，目标语言语句中的谓词 Vta2及与谓词 Vta2有关的语义角色所组成的序列称为序列 T2a，。

[99] 将目标语言语句 M2中的谓词 Vtbl及与谓词 Vtbl有关的语义角色所组成的序列称为序列 Tlb，，目标语言语句中的谓词 Vtb2及与谓词 Vtb2 有关的语义角色所组成的序列称为序列 T2b，。

[100] 这样，针对谓词 Vsl, 匹配单元 120可以得到序列 Tla，与序列 SI，之间的匹配分数（以下称为分数一），以及可以得到序列 Tlb，与序列 S1，之间的匹配分数（以下称为分数二 )„

[101] 类似地，针对谓词 Vs2，匹配单元 120可以得到序列 T2a，与序列 S2，之间的匹配分数（以下称为分数三），以及可以得到序列 T2b，与序列 S2，之间的匹配分数 (以下称为分数四）。

[102] 其中，可以根据词对应关系来确定目标语言语句中的谓词与源语言语句中哪个谓词对应，例如，可以把目标语言语句中与源语言语句中互为译词（或译文）的谓词（或语义角色）确定为相互对应。

[103] 调序结果确定单元 130可以通过结合针对每个源语言谓词的匹配分数来确定最终调序结果。

[104] 例如，由于序列 Tla，和序列 T2a，与目标语言语句 Ml相关，调序结果确定单元 130可以将分数一和分数三的加权和（例如权重分别为 1 )作为衡量目标语言语句 Ml中的各语义角色之间的顺序与源语言语句之间的匹配程度的值，该值越大，表明二者之间越匹配。

[105] 类似地，由于序列 Tib，和序列 T2b，与目标语言语句 M2相关，调序结果确定单元 130可以将分数二和分数四的加权和（例如权重分别为 1 ) 作为衡量目标语言语句 M2中的各语义角色之间的顺序与源语言语句之间的匹配程度的值，该值越大，表明二者之间越匹配。

[106] 这样，调序结果确定单元 130可以在所有的目标语言语句中选择与源语言语句最匹配的那个来作为最终的调序结果。

[107] 通过以上描述可知，上述根据本发明的实施例的数据处理装置针对作为源语言语句的译文的候选调序结果的多个目标语言语句，能够利用预定双语语料库来获得上述多个目标语言语句对应的多个目标语言语义角色序列分别与源语言语句对应的源语言语义角色序列之间的匹配分数，以便在上述多个目标语言语句中确定最终的调序结果。上述根据本发明的实施例的数据处理装置根据目标语言和源语言之间主谓宾结构的一致性来确定最终的调序结果，使得利用本发明实施例的上述数据处理装置所得到的处理结果较传统方法而言更准确。

[108] 此外，在一些实施例中，采用如公式一和 /或公式二至公式六来获得上述匹配分数，使得计算量小，计算速度快，由此使得处理的效率较高。

[109] 此外，本发明的实施例还提供了一种数据处理方法，该数据处理方法包括：对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注，以获得源语言语义角色序列以及多个目标语言语义角色序列；基于预定双语语料库获得上述源语言语义角色序列分别与每个上述目标语言语义角色序列之间的匹配分数，其中，上述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对；以及将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。

[110] 在根据本发明的实施例的数据处理方法的具体实现方式中，源语言例如可以是为英语、汉语、德语、法语、日语等众多语言中的任意一种语言，而目标语言可以是与作为源语言的语种之间具有相同的主谓宾结构的、上述众多语言中的另一种语言。其中，这里所说的 "主谓宾结构" 可以具有与上文描述的 "主谓宾结构" 相同的含义，故这里省略其详细描述。下文中，将主要以源语言为汉语、目标语言为英语的情况为例来给出本发明各实施例的相关描述。

[111] 下面结合图 3来描述上述数据处理方法的一种示例性处理。

[112] 如图 3所示，根据本发明的实施例的数据处理方法的处理流程 300开始于步骤 S310, 然后执行步骤 S320。

[113] 在步骤 S320 中，对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注，以获得源语言语义角色序列以及多个目标语言语义角色序列。然后执行步骤 S330。其中，步骤 S320中所执行的处理例如可以与上文中结合图 1所描述的语义角色标注单元 110的处理相同，并能够达到类似的技术效果，在此不再赘述。 [114] 在步骤 S330 中，基于预定双语语料库获得源语言语义角色序列分别与每个目标语言语义角色序列之间的匹配分数，其中，预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对。然后执行步骤 S340。其中，步骤 S330中所执行的处理例如可以与上文中结合图 1所描述的匹配单元 120的处理相同，并能够达到类似的技术效果，在此不再赞述。

[115] 在一个实现方式中，例如可以通过如下方式来实现步骤 S330 中的处理：针对每个目标语言语义角色序列中的每个目标语言谓词，利用预定双语语料库，获得该目标语言语义角色序列的包含该目标语言谓词的至少部分子序列与源语言语义角色序列之间的相关程度；以及针对每个目标语言语义角色序列，基于获得的与该目标语言语义角色序列有关的相关程度来确定该目标语言语义角色序列与源语言语义角色序列之间的匹配分数。

[116] 在一个例子中，在步骤 S330 中，针对每个目标语言语义角色序列中的每个目标语言谓词，例如可以利用预定双语语料库获得如下多种相关程度中的任一种或多种：该目标语言语义角色序列的仅包括该目标语言谓词的子序列与源语言语义角色序列之间的相关程度；该目标语言语义角色序列的包括位于该目标语言谓词左侧的至少一个语义角色的子序列与源语言语义角色序列之间的相关程度；该目标语言语义角色序列的包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列与源语言语义角色序列之间的相关程度；以及该目标语言语义角色序列的仅包括该目标语言谓词的子序列、包括位于该目标语言谓词左侧的至少一个语义角色的子序列、以及包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列中的至少两种子序列与源语言语义角色序列之间的相关程度。

,

这里不再赘述。

[118] 需要说明的是，在根据本发明的实施例的数据处理方法的一个实现方式中，假设源语言语句包含至少两个源语言谓词，则可以将每个源语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的源语言语义角色序列，并将与该源语言谓词对应的目标语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的目标语言语义角色序列。然后，获得与同一个源语言谓词对应的源语言语义角色序列和目标语言语义角色序列之间的匹配分数，并通过结合针对每个源语言谓词的匹配分数来确定最终调序结果。

[119] 在步骤 S340 中，将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。然后执行步骤 S350。其中，步骤 S340 中所执行的处理例如可以与上文中结合图 1 所描述的调序结果确定单元 130的处理相同，并能够达到类似的技术效果，在此不再赞述。

[120] 处理流程 300结束于步骤 S350„

[121] 通过以上描述可知，上述根据本发明的实施例的数据处理方法针对作为源语言语句的译文的候选调序结果的多个目标语言语句，能够利用预定双语语料库来获得上述多个目标语言语句对应的多个目标语言语义角色序列分别与源语言语句对应的源语言语义角色序列之间的匹配分数，以便在上述多个目标语言语句中确定最终的调序结果。上述才艮据本发明的实施例的数据处理方法根据目标语言和源语言之间主谓宾结构的一致性来确定最终的调序结果，使得利用本发明实施例的上述数据处理方法所得到的处理结果较传统方法而言更准确。

[122] 此外，本发明的实施例还提供了一种电子设备，该电子设备包括如上所述的数据处理装置。在根据本发明的实施例的上述电子设备的具体实现方式中，上述电子设备可以是以下设备中的任意一种设备：计算机（如台式机、笔记本电脑等）；平板电脑；个人数字助理；多媒体播放设备；手机（如智能手机）；电子词典；以及电纸书等等。其中，该电子设备具有上述数据处理装置的各种功能和技术效果，这里不再赘述。

[123] 上述根据本发明的实施例的数据处理装置中的各个组成单元、子单元、模块等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的机器（例如图 4所示的通用机器 400 )安装构成该软件或固件的程序，该机器在安装有各种程序时，能够执行上述各组成单元、子单元的各种功能。

[124] 图 4是示出了可用来实现根据本发明的实施例的数据处理装置和数据处理方法的一种可能的信息处理设备的硬件配置的结构简图。

[125] 在图 4中，中央处理单元 (CPU) 401根据只读存储器 (ROM) 402中存储的程序或从存储部分 408加载到随机存取存储器 (RAM) 403的程序执行各种处理。在 RAM 403中，还根据需要存储当 CPU 401执行各种处理等等时所需的数据。 CPU 401、 ROM 402和 RAM 403经由总线 404彼此连接。输输出接口 405也连接到总线 404。

[126] 下述部件也连接到输输出接口 405: 输入部分 406 (包括键盘、鼠标等等）、输出部分 407 (包括显示器，例如阴极射线管 (CRT)、液晶显示器 (LCD)等，和扬声器等）、存储部分 408 (包括硬盘等）、通信部分 409 (包括网络接口卡例如 LAN卡、调制解调器等）。通信部分 409经由网络例如因特网执行通信处理。根据需要，驱动器 410也可连接到输输出接口 405。可拆卸介质 411例如磁盘、光盘、磁光盘、半导体存储器等等可以才艮据需要被安装在驱动器 410上，使得从中读出的计算机程序可才艮据需要被安装到存储部分 408中。

[127] 在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介盾 411安装构成软件的程序。

[128] 本领域的技术人员应当理解，这种存储介质不局限于图 4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质 411。可拆卸介质 411 的例子包含磁盘 (包含软盘)、光盘 (包含光盘只读存储器 (CD-ROM)和数字通用盘 (DVD))、磁光盘（包含迷你盘 (MD)(注册商标)) 和半导体存储器。或者，存储介质可以是 ROM 402、存储部分 408中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

[129] 此外，本发明还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时，可执行上述根据本发明的实施例的数据处理方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。

[130] 在上面对本发明具体实施例的描述中，针对一种实施方式描述和 /或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

[131] 此外，本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

[132] 此外，显然，根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

[133] 而且，本发明的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介盾直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元（CPU )读出并执行上述程序代码。

[134] 此时，只要该系统或者设备具有执行程序的功能，则本发明的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚序等。

[135] 上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

[136] 另外，客户计算机通过连接到因特网上的相应网站，并且将依据本发明的计算机程序代码下栽和安装到计算机中然后执行该程序，也可以实现本发明。

[137] 最后，还需要说明的是，在本文中，诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语 "包括"、 "包含" 或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句 "包括一个…… " 限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

[138] 综上，在根据本发明的实施例中，本发明提供了如下方案但不限于此：

[139] 附记 1. 一种数据处理装置，包括：

语义角色标注单元，用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注，以获得源语言语义角色序列以及多个目标语言语义角色序列；

匹配单元，用于基于预定双语语料库获得所述源语言语义角色序列分别与每个所述目标语言语义角色序列之间的匹配分数，其中，所述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对；以及调序结果确定单元，用于将所述匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。

[140] 附记 2. ¾1据附记 1所述的数据处理装置，其中，所述匹配单元包括：相关程度获得子单元，用于针对每个所述目标语言语义角色序列中的每个目标语言谓词，利用所述预定双语语料库，获得该目标语言语义角色序列的包含该目标语言谓词的至少部分子序列与所述源语言语义角色序列之间的相关程度；以及

匹配分数确定子单元，用于针对每个所述目标语言语义角色序列，基于获得的与该目标语言语义角色序列有关的所述相关程度来确定该目标语言语义角色序列与所述源语言语义角色序列之间的匹配分数。

[141] 附记 3.根据权利要求 2所述的数据处理装置，其中，所^目关程度谓词，获得如下多种相关程度中的任一种或多种：

该目标语言语义角色序列的仅包括该目标语言谓词的子序列与所述源语言语义角色序列之间的相关程度；

该目标语言语义角色序列的包括位于该目标语言谓词左侧的至少一个语义角色的子序列与所述源语言语义角色序列之间的相关程度；

该目标语言语义角色序列的包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列与所述源语言语义角色序列之间的相关程度；以及

该目标语言语义角色序列的仅包括该目标语言谓词的子序列、包括位于该目标语言谓词左侧的至少一个语义角色的子序列、以及包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列中的至少两种子序列与所述源语言语义角色序列之间的相关程度。

[142] 附记 4.根据附记 2或 3所述的数据处理装置，其中，所述匹配分数确定子单元用于根据下式获得所述匹配分数：

score(S, T) = P( V_T | S)*P( α_λ | V_T,S)

*ΠΡ( a_t I α,_ , V_T ,S)*P( | V_T ,S)* Π | V_T ,b ,S) ，其中， S为所述源语言语义角色序列， T为所述目标语言语义角色序列， V_T为 T中的目标语言谓词，为 Τ中位于 V_T左侧的第 i个语义角色， h为 V_T左侧的语义角色数量，为 T中位于 V_T右侧的第 j个语义角色， k 为 V_T右侧的语义角色数量， P(V_T|S)为用于表示 S与 T的子序列 {V_T}之间的相关程度的条件概率， P(A|V_T,S)为用于表示 S与 T的子序列 {V_T}和 { _bV_T} 之间的相关程度的条件概率， Ρ(Ω,| A— 1， V_T,S)为用于表示 S 与 T 的子序列 ^^^和，^^^ 之间的相关程度的条件概率， P(^|V_T,S)为用于表示 S与 T的子序列 {V_T}和 {V_TA}之间的相关程度的条件概率，以及 P^VTA^S)为用于表示 S与 T的子序列 {¥^^.₁}和^^， ^. j}之间的相关程度的条件概率。

[144] 附记 6.根据附记 5所述的数据处理装置，其中，所述相关程度获得子单元用于根据以下公式获得 P(V_T|S)、 P(i¾|V_T,S)、 Ρ(

P( |V_T,S)以及 p( |v_T, — pS):

，

v _b C(V_T, — '_¾, Vs^ ,... ' ,）· 其中， V_s为 S中的源语言谓词， ^，…，为 S中位于 V_s左侧的 /ί，个语义角色， b\, b'_k,为 S 中位于 V_s 右侧的 :，个语义角色，表示在包含序列{ }的预定源语言双语句对中的预定目标语言语句中出现序列 {^}的次数，

}的预定源语言语句的数量，表示在所述预定目标语言语句中出现序列 { ,^}的次数， c( ,, , pV_T, ,v_s ,… ' )表示在所述预定目标语言语句中出现序列（ '， ' ^^的次数， c( , pV_T, ,v_s Ί,,.υ表示在所述预定目标语言语句中出现序列 { , pV_T }的次数， c(v_T, K , v_s 表示在所述预定目标语言语句中出现序列 { V_TA } 的次数，表示在所述预定目标语言语句中出现序列

{ ν_τ, ,bj }的次数， (V_T , b _l ,a , ,...,a ,V_S ,b ,...,b 表示在所述预定目标语言语句中出现序列 {V_TA J的次数。

[145] 附记 7.才艮据附记 2所述的数据处理装置，其中，

所述语义角色标注单元用于在所述源语言语句包含至少两个源语言谓词的情况下，将每个源语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的源语言语义角色序列，并将与该源语言谓词对应的目标语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的目标语言语义角色序列；所述匹配单元用于获得与同一个源语言谓词对应的源语言语义角色序列和目标语言语义角色序列之间的匹配分数；以及所述调序结果确定单元用于通过结合针对每个源语言谓词的匹配分数来确定最终调序结果。

[146] 附记 8.根据附记 1-7中任一项所述的数据处理装置，其中，所述源语言为汉语，所述目标语言为英语。

[147] 附记 9. 一种数据处理方法，包括：

对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注，以获得源语言语义角色序列以及多个目标语言语义角色序列；

基于预定双语语料库获得所述源语言语义角色序列分别与每个所述目标语言语义角色序列之间的匹配分数，其中，所述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对；以及

将所述匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。 [148] 附记 10.根据附记 9所述的数据处理方法，其中，获得所述源语言语骤包括：

针对每个所述目标语言语义角色序列中的每个目标语言谓词，利用所述预定双语语料库，获得该目标语言语义角色序列的包含该目标语言谓词的至少部分子序列与所述源语言语义角色序列之间的相关程度；以及

针对每个所述目标语言语义角色序列，基于获得的与该目标语言语义角色序列有关的所述相关程度来确定该目标语言语义角色序列与所述源语言语义角色序列之间的匹配分数。

[149] 附记 11.根据附记 10所述的数据处理方法，其中，针对每个所述目标语言语义角色序列中的每个目标语言谓词，获得如下多种相关程度中的任一种或多种：

[150] 附记 12. 据附记 10或 11所述的数据处理方法，其中，所述匹配分数 4艮据下式确定：

score(S, T) = P( V_T | S)*P( α_λ | V_T ,S)

k

* Π Ρ( a, I a,__x , V_T ,S)*P( | V_T ,S)* Π P(bj | V_T ,b ,S) 其中， S为所述源语言语义角色序列， T为所述目标语言语义角色序列， V_T为 T中的目标语言谓词，为 Τ中位于 V_T左侧的第 i个语义角色， h为 V_T左侧的语义角色数量，为 T中位于 V_T右侧的第 j个语义角色， k 为 V_T右侧的语义角色数量， P( V_T |S)为用于表示 S与 T的子序列 {V_T}之间的相关程度的条件概率， P(A|V_T,S)为用于表示 S与 T的子序列 {V_T}和 {"_bV_T} 之间的相关程度的条件概率， Ρ(Ω,| A— 1， V_T,S)为用于表示 s 与 τ 的子序列 VT}和 ,ί^,ντ}之间的相关程度的条件概率， P(^|V_T,S)为用于表示 S与 T的子序列 {V_T}和 {V_TA}之间的相关程度的条件概率，

用于表示 S与 T的子序列 {¥₁ .₁}和^^， ^. j}之间的相关程度的条件概率。

[151] 附记 13.根据附记 12所述的数据处理方法，其中，根据极大似然法获得 P(V_T|S；)、 P(^|V_T,S)^ P( pV S；)、？！；^^^；！以及!⁵!^」^, —^)。

，

I C V_T,b- ,,b.,a , ,...,a ,Y,,b ,...,b ,)

P(^,. ν_τΛ. ,,S)= ^T 其中， V_s为 S中的源语言谓词， ^，…，为 S中位于 V_s左侧的 /ί，个语义角色， b\, b'_k,为 S 中位于 V_s 右侧的 :，个语义角色，表示在包含序列{ }的预定源语言语句所属双语句对中的预定目标语言语句中出现序列 {^}的次数，

,V_S ,… ' )表示包含序列 { ，^ ，！，… ，^的预定源语言语句的数量，表示在所述预定目标语言语句中出现序列 { ,^}的次数， c( ,, , pV_T, ,v_s ,… ' )表示在所述预定目标语言语句中出现序列 pV_T}的次数， c( , pV_T, ,v_s Ί,,.υ表示在所述预定目标语言语句中出现序列 { , pV_T}的次数，（：！^，^，…，，^，^，…，^；！表示在所述预定目标语言语句中出现序列 { V_TA } 的次数，表示在所述预定目标语言语句中出现序列

{ V_T A！ ,bj }的次数， (V_T , b _l ,a , ,...,a ,V_S ,b ,...,b 表示在所述预定目标语言语句中出现序列 {^,^}的次数。

[153] 附记 15.根据附记 10所述的数据处理方法，还包括：

在所述源语言语句包含至少两个源语言谓词的情况下，将每个源语言言语义角色序列，并将与该源语言谓词对应的目标语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的目标语言语义角色序列；获得与同一个源语言谓词对应的源语言语义角色序列和目标语言语义角色序列之间的匹配分数；以及通过结合针对每个源语言谓词的匹配分数来确定最终调序结果。

[154] 附记 16.根据附记 9-15中任一项所述的数据处理方法，其中，所述源语言为汉语，所述目标语言为英语。

[155] 附记 17. —种电子设备，包括如附记 1-8中任一所述的数据处理装置。

[156] 附记 18.根据附记 17所述的电子设备，其中，所述电子设备是以下设备中的任意一种：

计算机；平板电脑；个人数字助理；多媒体播放设备；手机；电子词典；以及电纸书。

[157] 附记 19. 一种存储有机器可读取的指令代码的程序产品，所述程序产品在执行时能够使所述机器执行根据附记 9-16 中任一所述的数据处理方法。

[158] 附记 20. —种计算机可读存储介质，其上存储有根据附记 19所述的程序产品。

Claims

权利要求书

1. 一种数据处理装置，包括：

匹配单元，用于基于预定双语语料库获得所述源语言语义角色序列分别与每个所述目标语言语义角色序列之间的匹配分数，其中，所述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对；以及

调序结果确定单元，用于将所述匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。

2.根据权利要求 1所述的数据处理装置，其中，所述匹配单元包括：相关程度获得子单元，用于针对每个所述目标语言语义角色序列中的每个目标语言谓词，利用所述预定双语语料库，获得该目标语言语义角色序列的包含该目标语言谓词的至少部分子序列与所述源语言语义角色序列之间的相关程度；以及

3.根据权利要求 2所述的数据处理装置，其中，所目关程度获得子单元用于针对每个所述目标语言语义角色序列中的每个目标语言谓词，获得如下多种相关程度中的任一种或多种：

4.根据权利要求 2或 3所述的数据处理装置，其中，所述匹配分数确定子单元用于根据下式获得所述匹配分数：

score(S, T) = P( V_T | S)*P( α_λ |V_T,S)

*ΠΡ( a, I a,__x , V_T ,S)*P( | V_T ,S)* Π V{b_j | V_T ,b ,S) ，其中， S为所述源语言语义角色序列， T为所述目标语言语义角色序列， V_T为 T中的目标语言谓词，为 Τ中位于 V_T左侧的第 i个语义角色， h为 V_T左侧的语义角色数量，为 T中位于 V_T右侧的第 j个语义角色， k 为 V_T右侧的语义角色数量， P(V_T|S)为用于表示 S与 T的子序列 {V_T}之间的相关程度的条件概率， P(A|V_T,S)为用于表示 S与 T的子序列 {V_T}和 {«_bV_T} 之间的相关程度的条件概率， Ρ(Ω,| A— 1， V_T,S)为用于表示 S 与 T 的子序列 ^^^和，^^ ^ 之间的相关程度的条件概率， p(^|v_T,s)为用于表示 S与 T的子序列 {V_T}和 {V_TA}之间的相关程度的条件概率，以及 P^VTA^S)为用于表示 S与 T的子序列 {¥1 .₁}和^^， ^. j}之间的相关程度的条件概率。

6.根据权利要求 5所述的数据处理装置，其中，所^目关程度获得子单元用于才艮据以下公式菝得 P(V_T|S)、

, Ρ(Ω,|Ω, pV S POjV S)以及

_P 5 ₌

其中， V_s为 S中的源语言谓词， ^，…，为 S中位于 V_s左侧的 /ί，个语义角色， b\,...,b'_k,为 S 中位于 V_s 右侧的 :，个语义角色，表示在包含序列{ }的预定源语言语句所属双语句对中的预定目标语言语句中出现序列 {^}的次数，

,V_S ,… ' )表示包含序列 { ，^ ，！，… ，^的预定源语言语句的数量，表示在所述预定目标语言语句中出现序列 { ,^}的次数，（^( '， '！，^，^，…，，^，^，…，^；！表示在所述预定目标语言语句中出现序列 {Ω,,Ω, pV_T}的次数， C( , pV_T, ,v_s Ί,,.υ表示在所述预定目标语言语句中出现序列 !,^}的次数， Cdbpa ...^^,.."^)表示在所述预定目标语言语句中出现序列 { V_TA } 的次数，表示在所述预定目标语言语句中出现序列

{ ν_τ, ,bj }的次数， (V_T , b _l ,a , ,...,a ,V_S ,b ,...,b '_λ )表示在所述预定目标语言语句中出现序列 {^,^}的次数。

7.根据权利要求 2所述的数据处理装置，其中，

8.根据权利要求 1-7中任一项所述的数据处理装置，其中，所述源语言为汉语，所述目标语言为英语。

9. 一种数据处理方法，包括：

将所述匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。

10. 一种电子设备，包括如权利要求 1-8 中任一项所述的数据处理装置。