WO2015043071A1

WO2015043071A1 - 一种译文检查方法及其系统

Info

Publication number: WO2015043071A1
Application number: PCT/CN2013/088743
Authority: WO
Inventors: 叶茂; 王元龙; 金立峰; 汤帜; 徐剑波
Original assignee: 北大方正集团有限公司; 北京方正阿帕比技术有限公司; 北京大学
Priority date: 2013-09-29
Filing date: 2013-12-06
Publication date: 2015-04-02
Also published as: CN104516870B; CN104516870A

Abstract

本发明提供一种译文检查方法及其系统，包括初始化处理和检查判定处理。所述初始化处理，基于一批语料来训练二元语法模型，作为检查评分模型，为所述检查判定处理时给译文打分提供依据。所述检查判定处理，通过所述检查评分模型给译文打分，将译文得分与预设判定阈值比较，将得分小于所述预设判定阈值的译文判定为"错误"，否则判定为"正确"。上述技术方案有效避免了现有技术中对译文检测方法很大程度上依赖于双语专家或高质量的人工翻译译文作为参照，同时不能判断正确与否，只能判断评测译文的好差程度的问题。

Description

一种译女检查方法及其系统

技术领域本发明涉及一种译文检查方法及其系统，具体是一种基于二元语法模型的译文检查方法及其系统，属于电数字数据处理方法技术领域。背景技术

近年来，机器翻译 ( Machine Translation )的应用越来越广泛，而且对机器翻"^文的盾量要求越来越高。在翻译领域内，即使最好的翻译人员也达到翻译界所要求的最高标准 "信、达、雅"，因此机器翻译评价成为一个重要而困难的 i果题。

由于要对译文盾量评价至少要懂得两种语言，译文盾量评价成为一项难度很大的智力活动，因此对机器翻译的译文盾量的评价通常由专家来进行，而且价格成本不菲，评价过程也非常耗时而且不可重用。一般机器译文的评价出发点为 "有多好，，和"哪个更好"，如果在人工对译文评价之前，将译文中"不正确，，或的译文筛选出来，将大大缩减人工评价译文的成本和时间。在翻译需求中，有一类是针对领域短语的翻译，由于领域短语包含的文字不多且通常具备显著的领域特征，因此通过一定量的领域语料，能够从不同角现其跳并建立模型。现有技术中 IBM提出的基于 N元匹配的 BLEU机器翻 "i ^测方法需要不同的双语专家对原文进行翻译得到参考译文，然后计算机器译文与这多个参考译文的字符串相似度，从而实现对机器翻译译文盾量的评测。该方法进行评测译文时，需要提供人工翻译的高质量译文作为参照，获取大量高质量译文的成 ^艮高；同时在很大程度上依赖于双语专家，其成本仍然艮大；另外该方法只能评测译文有"多好，，，而不能判断翻译译文是否 " ^"。现有技术中还公开了一种机器翻译自纠错的方法，首先定义翻译错误类别，将翻译错误类别定义为正确、一般错误、次序错误、集外词错误、其他错类；训练分类器，对翻译进行分类；将翻译映射到源语言端并构建复述词图网络；最后得到词图解码并加以校正。该方法首先通过抽取与具体语言相关的字、词、词性标注、句法、语法、语义特征建立语料库，构造训练模型，需要大量语料的准备有艮大的难度；其次该方法是基于动态概率潜变量模型的算法也需要大规模的语料准备数据；另外，该方法只能检查所定义的翻译错误类别，如果译文的错误类别不属于所定义的翻译错误类别，则不能判断翻译译否" ，，。发明内容本发 Ϊ

于双语专家，同时不能判断正确与否，只能判断评测译文的好差程度，从而提供一种通过学习领域语料，训练出二元语法模型，通过该模型自动将领域相关的海量译文中 "不正确，，或" 的短语译文过滤掉的译文检查方法。为解决上述技术问题，本发明是通过以下技术方案实现的：

一种译文检查方法，包括初始化处理和检查判定处理，

所述初始化处理，基于一批语料，通过统计语料二元切分条目的概率信息，来获得二元语法模型，作为检查评分模型，为所述检查判定处理时给译文打分提供依据；所述检查判定处理，通过所述检查评分模型给译文打分，将译文得分与预设判定阈值比较，将得分小于所述预设判定阈值的译文判定为 " ^"，否则判定为"正确"。

可选地，所述初始化处理的步骤如下：获取文本集 D， ά≡Ό, 其中 d表示所述文本集 D的一个文本；将所述文本集 D中的每一个文本 d分句后获得的句子进行二元切分，并 ^个二元切分条目存入列表 L，其中， = 1,2,···， η-1 , η为一个句子所包含的字符个数， _Wi表示句子中的一个字符， ^₊₁表示字符 ^后的一个字符；将所述列表 L中的每个二元切分条目存入集合 Q，根据所述集合 Q计算以 τν,开始时^出现的概率^ (_Wi， )，其中 τν,、 ^分别表示二元切分条目中的第一字符和第二字符；将计算得到的所有 f_p (w,， . )保存为所述检查评分模型。可选地，所述检查判定处理的步骤如下：获取短语的译文；对所述译文做二元切分，获得所述译文的二元切分条目；根据所述检查评分模型对所述译文进行打 ^^估；根据所述译文的评分判定所述译文是否。

可选地，所述将所述文本集 D中的每一个文本 d分句后获得的句子进行二元切分，并将每个二元切分条目（_W;W;+1)存入列表 L的处理包括如下步骤：对所述集合 D中的每一个文本 d分句，得到 m个句子，其中 m为非负整数；对所述每一个句子做二元切分，通过得到 k 个二元切分条目每一个句子包含的字符的个数为 k+1个；将每个二元切分条目存入列表

可选地，所述计算以 _W 始时 _Wj.出现的概率 f_p (w_t， Wj )的方法为：

其中， /, , )表示以开始且^结尾的二元切分条目在列表 L 中的出现次数，表示以开始的二元切分条目在列表 L中的出现次数。

可选地，所述计算以 τν,开始时^出现的概率的方法为：从列表 L 中得到所有以开始的二元切分条目，将二元切分条目中的第二个字符^加入字符串 S; 将所述字符串 S中的每个字符存入集合 T; 统计所述字符串 S的长度 n，对于集合 T中的每一个字符，统计所述字符^在字符串 S中出现的次数 m; 则以 w,开始时^出现的概率为：

A(w,，w )=m/n

其中， m， n的初始值为零。

可选地，对所述译文做二元切分的方法与所述初始化处理的方法相同。可选地，所述二元切分采用 CJK分词器进行二元切分。可选地，所述对所述译文进行打分评估的方法为：

Score译― Min{Score_i — 2, · · ·, η— 1} 其中， Sco 是一条二元切分条目的评分， Sco^ = f_p (w_; , w.) , f_p (w_t，）为译文中的二元切分条目在模型中对应的值。

可选地，所述对所述译文进行打分评估的方法为：

Score^ - avg {Score _t , z = 1, 2, · · · , « - 1} 其中， Score,是一条二元切分条目的评分， Scores fp iW M^ , (_Wi，_w 为译文中的二元切分条目 )在模型中对应的值。

可选地，所述对所述译文进行打分评估的方法为：

Score^ = Π Score_i 其中， = 1, 2,… , "— 1， Score,是一条二元切分条目的评分， Score, = f_p (w_t , Wj ) , f_p (w_t， Wj )为译文中的二元切分条目（w, )在模型中对应的值。

可选地，所述评分判定的方法为：

r . ― ί错误 Score^<5

r^eSUlt― 正确 &ore译≥<? 其中，为所述预设判定阈值， 0 < ≤1。

可选地，所述预设判定阈值的取值范围为 0 < ≤0.3，优选地，所述预设判定阈值 = 0.00055。

可选地，所述将所有在文本文件或二进制文件中。

一种译文检查系统，包括初始化处理装置和检查判定处理装置，

所述初始化处理装置，用于基于一批语料，通过统计语料二元切分条目的概率信息，来获得二元语法模型，作为检查评分模型，为所述检查判定处理时给译文打分提供依据；所述检查判定处理装置，用于通过所述检查评分模型给译文打分，将译文得分与预设判定阈值比较，将得分小于所述预设判定阈值的译文判定为 " ^"，否则判定为"正确"。

可选地，所述初始化处理装置包括：获取文本集子装置，用于获取文本集 D, ά≡Ό, 其中 d表示所述文本集 D的一个文本；第一二元切分子装置，用于将所述文本集 D中的每一个文本 d分句后获得的句子进行二元切分，并将每个二元切分条目（_W;W;+1)存入列表 L，其中， = 1,2,···， n-l， n为一个句子所包含的字符个数，表示句子中的一个字符， ^₊₁表示字符后的一个字符；概率计算子装置，用于将所述列表 L中的每个二元切分条目存入集合 Q，根据所述集合 Q计算以开始时^出现的概率^ 子装置，其中分别表示二元切分条目中的第一字符和第二字符；检查评分模型生成子装置，用于将计算得到的所有为所述检查评分模型；所述检查判定处理装置包括：获取短语译文子装置，用于获取短语的译文；第二二元切分子装置，用于对所述译文做二元切分，获得所述译文的二元切分条目；译文打分评估子装置，用于根据所述检查评分模型对所述译文进行打分评估；判定子装置，用于根据所述译文的评分判定所述译文是否错误。可选地，所述第一二元切分子装置包括：文本分句模块，用于对所述集合中的每一个 L^ d分句，得到 m个句子 , ，其中 m为非负整数； L^ 分句切分模块，用于对所述每一个句子做二元切分，通过得到 k个二元切分条目每一个句子包含的字符的个数为 k+1个;保存模块，用于^ H r个二元切分条目存入列表 L。可选地，所述计算以 _W 始时 _Wj.出现的概率 f_p (w_t， Wj )的方法为：

其中， /, , )表示以 τν,开始且^结尾的二元切分条目在列表 L 中的出现次数，表示以 w,开始的二元切分条目在列表 L中的出现次数。可选地，所述计算以 τν,开始时^出现的概率的方法为：从列表 L 中得到所有以开始的二元切分条目，将二元切分条目中的第二个字符^加入字符串 S; 将所述字符串 S中的每个字符存入集合 T; 统计所述字符串 S的长度 n，对于集合 T中的每一个字符，统计所述字符^在字符串 S中出现的次数 m; 则以开始时^出现的概率为： (^,. , ν₇.)=ιη/η 其中， m， n的初始值为零。可选地，对所述译文做二元切分的方法与初始化处理阶段的方法相同。可选地，所述二元切分采用 CJK分词器进行二元切分。

可选地，所述对所述译文进行打分评估的方法为：

其中， Score是一条二元切分条目的评分， Sco = f_p (w_t , f_p (w_t，）为译文中的二元切分条目 )在模型中对应的值。

可选地，所述对所述译文进行打分评估的方法为：

Score^ - avg {Score _t , z = 1, 2, · · · , « - 1} 其中， Sco 是一条二元切分条目的评分， Sco^ = f_p (w_{， w. ) A w, , )为译文中的二元切分条目（w, )在模型中对应的值。

可选地，所述对所述译文进行打分评估的方法为：

Score^ = Π Score_i 其中， = 1, 2,… , "— 1， Score,是一条二元切分条目的评分， Score, = f_p (w_t , w. ) f_p (w_t， Wj )为译文中的二元切分条目（w, )在模型中对应的值。

可选地，所述评分判定的方法为：

Score^ <δ

re ult = Score^ >δ 其中，为所述预设判定阈值， 0 < ≤1。

可选地，所述预设判定阈值的取值范围为 0 <^≤0.3，优选地，所述预设判定阈值 = 0.00055。

可选地，所述所有在文本文件或二进制文件中。

一种或多种具有计算机可执行指令的计算机可读介盾，所述指令在由计算机执行时，执行译文检查方法，该方法包括初始化处理和检查判定处理，其中：所述初始化处理，基于一批语料，通过统计所述语料二元切分条目的概率信息，来获得二元语法模型，作为检查评分模型，为所述检查判定处理时给译文打分提供依据；所述检查判定处理，通过所述检查评分模型给译文打分，将译文得分与预设判定阈值比较，将得分小于所述预设判定阈值的译文判定为 "餘 "，否则判定为"正确"

开的上述技术方案相比现有技术具有以下一个或多个优点：

( 1 )本公开所述的译文检查方法，包括初始化处理和检查判定处理。所述初始化处理，基于一批语料，通过统计语料二元切分条目的概率信息，来获得二元语法模型，作为检查评分模型，为所述检查判定处理时给译文打分提供依据。所述检查判定处理，通过所述检查评分模型给译文打分，将译文得分与预设判定阈值比较，将得分小于所述预设判定阈值的译文判定为"错误"，否则判定为 "正确，，。上述译文检查方法有效避免了现有技术中对译文检测方法很大程 Lb依赖于双语专家或高质量的人工翻译译文作为参照，同时不能判断正确与否，只能判断评测译文的好差程度的问题。

( 2 )本公开所述的译文检查方法，采用二元语法切分，采用 CJK分词器进行二元切分，算法简单，运算速度快，易于实现。

( 3 )本公开所述的译文检查方法，以 TV,开始且^结尾的二元切分条目在列表 L中的出现次数和以 ,开始的二元切分条目在列表 L中的出现次数的比值作为以 IV,开始时^出现的概率的值，构思巧妙，算法简单，易于实现。

( 4 )本公开所述的译文检查方法，计算以 v,开始时^出现的概率 f^w^ wj ) 的方法为统计所述字符串 S的长度 n和所述集合 T中的每一个字符^在字符串 S中出现的次数 m，然后以字符串 S的长度 n和所述集合 T中的每一个字符在字符串 S中出现的次数 m的比值作为以 τν,开始时^出现的概率^ 的值，构思巧妙，算法简单，易于实现。

( 5 )本公开所述的译文检查方法，将切分完的二元切分条目存入列表，方 ^续计算时取词，也便于建立模型。

( 6 )本公开所述的译文检查方法，给译文评分的方法采用直接取译文中最小的评分作为整个译文的评分，通过分值的大小可以直接判断出译文是否 ^。

( 7 )本公开所述的译文检查方法，给译文评分的方法采用取译文中每个二元切分条目对应概率的平均值，可以有效避免因一些二元切分条目没有纳入模型造成的误评分。

( 8 )本公开所述的译文检查方法，给译文评分的方法采用取译文中评分的乘积作为整个译文的评分，在判断整个译文的正确与否的同时可以根据分值的大小判断整个译文的翻译盾量。

( 9 )本公开所述的译文检查方法，将打分结果与预设判定阈值进行比较，直接自动将相关的海文中 "不正确"或" ，的短语译文过滤掉。

( 10 )本公开所述的译文检查系统，利用译文检查方法，有效避免了现有技术中对译文检测方法很大程度上于双语专家或高质量的人工翻文作为参照，同时不能判断正确与否，只能判断评测译文的好差程度的问题。附图说明为了使本发明的内容更容易被清楚的理解，下面结合附图，对本发明作进一步详细的说明，其中，图 1是本发明一个实施例的一种译文检查方法的方法流程图；图 2是本发明一个实施例的一种译文检查方法的获取地理、历史和文学领域的语料示意图；图 3是本发明一个实施例的一种译文检查方法的部分二元切分条目统计概率示意图；图 4是本发明一个实施例的不同的翻译系统对一段英语短语的译文二元切分后打分并判定结果示意图；图 5A是本发明一个实施例的译文检查系统的结构图；图 5B是本发明一个实施例中第一二元切分子装置的结构图。

具体实施方式实施例 1: 本实施例中提供一种译文检查方法，其方法流程图如图 1所示，其包括初始化处理和检查判定处理。

51,初始化处理，基于一批语料，所述语料为某领域的语料，通过统计领域语料二元切分条目的概率信息，来获得二元语法模型，作为检查评分模型，为所述检查判定处理时给译文打分提^ I据。

52,检查判定处理，通过所述检查评分模型给领域译文打分，将译文得分与预设判定阈值比较，将得分小于所述预设判定阈值的译文判定为"错误"，否则判定为 "正确"。

在一个实施例中，初始化处理的步骤如下：

S11: 获取一批某领域的文本集 D， ά≡Ό, 其中 d表示所述文本集 D的一个 L^。

根据通过若干个某领域内的关键词或图书分类号获取一批某领域的文本集

D = {d_i ,i = \,2,- > 通过图书分类号获取地理、历史和文学领域的语料保存为文件，如图 2所示。

S12: 将所述文本集 D中的每一个文本 d分句进行二元切分，并将每个二元切分条目（v_;W;+1)存入列表 L，其中 _Wi表示句子中的一个字符， ^,₊₁表示字符后的一个字符。将切分完的二元切分条目存入列表中，方^续的计^^词，也便于建立模型。

在本实施中，所述二元切分采用 CJK分词器进行二元切分，算法简单，运算速度快，易于实现。在其他实施例中，还可以采用其他程序实现，例如定制的程序，只需达到二元切分的效果即可。

所述步骤 S12包括如下步骤：

S121: 对所述集合 D中的每一个文本 d分句，得到 m个句子

S122: 对所述每一个句子做二元切分，通过得到 k个二元切分条目

(w₁w_z)(w_zw₃ )- - -(w_kw_k+1 )，每一个句子包含的字符的个数为 k+1个。

例如：有一个字符串 S由 n个字符組成，按照字符的次序排序，该字符串文本 S表示如下:

其中，表示在字符串 S中的第 i个字符， i = \,2,.-.,n。若对该字符串 S进行二元切分，则该字符串 S的二元切分结果表示为：

其中，表示该字符串 S的第 i个二元切分条目。

S123: 个二元切分条目存入列表。

S13: 将所述列表 L中的每个二元切分条目存入集合 Q，根据所述集合 Q 计算以 TV,开始时 _Wj出现的概率 f_p (_Wi ,Wj)_a 所述集合 Q中不存在重复的二元切分条目，所述集合 Q的二元切分条目数小于等于列表 L的二元切分条目数。对所述集合 Q中的每个二元切分条目计算以开始时^出现的概率，计算以 TV,开始时^出现的概率（w,,w )的方法为：

其中， ; , )表示以 τν,开始且^结尾的二元切分条目在列表 L 中的出现次数，表示以开始的二元切分条目在列表 L中的出现次数。该算法构思巧妙，算法简单，易于实现。

S14: 将计算得到的所有保存为所述检查评分模型。即将所有

^ ,Μ^ 在文件或二进制文件中。

通过对语料中每个文本进行分句、二元切分、统计二元切分结果等步骤，为模型，得到以 "要，，开头的部分二元切分条目及其统计概率如图 3所在一个实施例中，检查判定处理的步骤如下：

S21: 获取所述领域内短语的译文。例如： "Future Sound of Retro"在百度翻译系统中翻译为"复古未来的声音"。如图 4所示。

S22: 对所述译文做二元切分，获得所述译文的二元切分条目。对所述译文做二元切分的方法与所述步骤 S12的方法相同。

如文"复古未来的声音，，进行二元切分，得到的二元切分条目为： "复古"、 "古未，，、 "未来，，、 "来的，，、 "的声，，、 "声音，，。

S23: 根据所述检查评分模型对所述译文进行打分评估。本实施中，所述译文进行打^ ^估的方法为：

Score译― Min{Score_i — 2, · · ·, η— 1} 其中， Sco 是一条二元切分条目的评分， Score; = f_p (w_; , f_p (w_t，）为译文中的二元切分条目（w, )在模型中对应的值。

则对所述译文 "复古未来的声音"的二元切分条目进行打分，则每个二元切分条目的评分 Score, = (w w .)如下：

复- >古：0.0093

古- >未： 0.0003

未- >来： 0.3120

来- >的：0.1094

的- >声：0.0014

声- >音： 0.1592 在本实施中，所述译文"复古未来的声音，，的得分取其二元切分条目的最小值，为 0.0003。通过不同的翻译系统获取一段英语短语的译文，对译文的打分结果如图 4 所示。本实施例所提供的译文检查方法，给译文评分的方法采用取译文中最小的评分作为整个译文的评分，通过分值的大小可以直接判断出译文是否。

S24: 根据所述译文的评分判定所述译文是否 4W。所述评分判定的方法

其中，为所述预设判定阈值， 0 < ^ < 1 . 一般取0 < ≤0.3。

在本实施例中，所述预设判定阈值 δ = 0.00055。

由于 0.0003<0.00055，则所述译文"复古未来的声音"判定为错误的翻译。通过不同的翻译系统获取一段英语短语的译文，对译文的判定结果如图 4 所示。

在其他实施例中，所述预设判定阈值可以取 0.0005、 0.0007、 0.0008、 0.0009、

0.001等不同的值，根据初始化处理建立的所述检查评分模型的特征择不同的判定阈值。

本实施例所提供的译文检查方法，将打分结果与预设判定阈值进行比较，直接自动将领域相关的海量译文中 "不正确"或"搛 "的短语译文过滤掉。

实施例 2:

本实施例中除步骤 S13与实施例 1不同，其他步骤与实施例 1相同，所述步骤 S1³中计算以 w,开始时 _Wj出现的概率 f_p (_Wi , _Wj )的方法为：

从列表 L中得到所有以 τν,开始的二元切分条目，将二元切分条目中的第二个字符^加入字符串 S;

将所述字符串 S中的每个字符存入集合 T;

统计所述字符串 S的长度 n，对于集合 T中的每一个字符，统计所述字符^在字符串 S中出现的次数 m;

则以 IV,开始时出现的概率 f_p (w,. , )为其中， m， n的初始值为零。首先统计所述字符串 S的长度 n和所述集合 T中的每一个字符，统计所述字符^在字符串 S中出现的次数 m，然后以 n、m的比值作为以 τν,开始时^出现的概率的值，构思巧妙，算法简单，易于实现。

实施例 3:

本实施例中除步骤 S23与实施例 1不同，其他步骤与实施例 1相同，所述步骤 S23中对所述译文进行打分评估的方法为：

Score^ - avg {Score _j , z = 1, 2, · · · , « - 1} 其中， Sco 是一条二元切分条目的评分， Score; = f_p (w_; , f_p (w_t，）为译文中的二元切分条目 )在模型中对应的值。

本实施例所提供的译文检查方法，给译文评分的方法采用取译文中每个二元条目的平均值，可以有效避免因一些二元条目没有纳入模型造成的误评分。

实施例 4:

本实施例中除步骤 S12与实施例 1不同，其他步骤与实施例 1相同，所述步骤 S23中对所述译文进行打分评估的方法为：

Score^ = Π Score_i 其中， = 1,2 ..,"— 1， Score,是一条二元切分条目的评分， Score, ^ f^w^ Wj ) , f_p (w_t， Wj )为译文中的二元切分条目 )在模型中对应的值。

本实施例所提供的译文检查方法，给译文评分的方法采用取译文中评分的乘积作为整个译文的评分，在判断整个译文的正确与否的同时可以根据分值的大小判断整个译文的翻译盾量。

本系统所述的译文检查方法，包括初始化处理和检查判定处理。所述初始化处理，基于一批语料，通过统计领域语料二元切分条目的概率信息，来获得二元语法模型，作为检查评分模型，为所述检查判定处理时给译文打分提供依据。所述检查判定处理，通过所述检查评分模型给领域译文打分，将译文得分与预设判定阈值比较，将得分小于所述预设判定阈值的译文判定为"错误"，否则判定为 "正确，，。上述译文检查方法有效避免了现有技术中对译文检测方法很大程度上依赖于双语专家或高质量的人工翻译译文作为参照，同时不能判断正确与否，只能判断评测译文的好差程度的问题。

实施例 5: 图 5A是本发明一个实施例的译文检查系统的结构图。本实施例提供一种译文检查系统，包括初始化处理装置 51和检查判定处理装置 52。第一、所述初始化处理装置 51，用于基于一批语料，所述语料为某领域的语料，通过统计领域语料二元切分条目的概率信息，来获得二元语法模型，作为检查评分模型，为所述检查判定处理时给译文打分提供依据。

在一个实施例中，该初始化处理装置 51具体包括：获取文本集子装置 511，用于获取一批某领域的文本集 D， ά≡Ό, 其中 d 表示所述文本集 D的一个文本。第一二元切分子装置 512 , 用于将所述文本集 D中的每一个文本 d分句后获得的句子进行二元切分，并 ^个二元切分条目 ν_;+1)存入列表 L，其中， = 1,2,···， η-1 , η为一个句子所包含的字符个数，表示句子中的一个字符， w_M 表示字符 w_t后的一个字符。

在一个实施例中，如图 5B所示，该第一二元切分子装置 512具体包括：分句模块 5121，用于对所述集合/)中的每一个文本 d分句，得到 m个句子，其中 m为非负整数； L^分句切分模块 5122，用于对每一个句子做二元切分，通过得到 k个二元切分条目

. O^H )，每一个句子包含的字符的个数为 k+1个；

5123，用于 ^个二元切分条目存入列表 L。

概率计算子装置 513 , 用于将所述列表 L中的每个二元切分条目存入集合 Q , 根据所述集合 Q计算以开始时^出现的概率^ (_Wi, )，其中，分别表示二元切分条目中的第一字符和第二字符。

所述计算以 W,开始时 _W.出现的概率 f_p (w_t , Wj )的方法为：

其中，表示以 v,开始且^结尾的二元切分条目在列表 L中的出现次数，表示以开始的二元切分条目在列表 L中的出现次数。

作为可替换的实施例，所述计算以开始时^出现的概率的方法为：

从列表 L中得到所有以 TV,开始的二元切分条目，将二元切分条目中的第二个字符^加入字符串 S;

将所述字符串 S中的每个字符存入集合 T;

则以 τν,开始时出现的概率 f_p (w,. , 为

其中， m， n的初始值为零。检查评分模型生成子装置 514，用于将计算得到的所有保存为所述检查评分模型。所述所有 (w, , )^^^ ^文件或二进制文件中。

第二、所述检查判定处理装置 52，用于通过所述检查评分模型给译文打分，将译文得分与预设判定阈值比较，将得分小于所述预设判定阈值的译文判定为否则判定为"正确"。在一个实施例中，该检查判定处理装置 52具体包括：

获取短语译文子装置 521，用于获取所述领域内短语的译文。

第二二元切分子装置 522，用于对所述译文做二元切分，获得所述译文的二元切分条目。所述对所述译文做二元切分的方法与所述初始化处理阶段的方法相同。所述二元切分采用 CJK分词器进行二元切分。

译文打分评估子装置 523，用于根据所述检查评分模型对所述译文进行打分评估。

对所述译文进行打分评估的方法为：

Score译― Min{Score_i — 2, · · ·, η— 1} 其中， Sco^是一条二元切分条目的评分， Sco = f_p (w_t Λ , )为译文中的二元切分条目（w, )在模型中对应的值。

作为可替换的实施例，对所述译文进行打分评估的方法为：

Score^ - avg {Score _j , z = 1, 2, · · · , « - 1} 其中， Sco 是一条二元切分条目的评分， Score = f_p (w_t /_P(^w,，^w,)为译文中的二元切分条目 )在模型中对应的值。

作为可替换的实施例，对所述译文进行打分评估的方法为：

Score^ = Π Score_i 其中， = 1,2,...," - 1， Score,是一条二元切分条目的评分， Scores f^ Wj ) , f_p (w_t， Wj )为译文中的二元切分条目 )在模型中对应的值。

判定子装置 524，用于根据所述译文的评分判定所述译文是否错误。所述评分判定的方法为：

/ — /错误 Score^<5

= 正确 &_ore译≥<? 其中，为所述预设判定阈值， 0 < ≤1。在本实施中，所述预设判定阈值 = 0.00055。在其他实施例中，所述预设判定阈值的取值范围为 0 < ≤0.3。本发明所述的译文检查系统，利用译文检查方法，有效避免了现有技术中对译文检测方法很大程度上依赖于双语专家或高质量的人工翻译译文作为参照 , 同时不能判断正确与否，只能判断评测译文的好差程度的问题。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由

.明创 ϋ

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介盾 (包括但不限于磁盘存储器、

CD-ROM, 光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、 i殳备（系统）、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 / 或方框图中的每一流程和 /或方框、以及流程图和 /或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程 i殳备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在¾½图一个或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技^ 员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落发明范围的所有变更和修改。

Claims

权利要求

1. 一种译文检查方法，包括初始化处理和检查判定处理，其特征在于：所述初始化处理，基于一批语料，通过统计所述语料二元切分条目的概率信息，来获得二元语法模型，作为检查评分模型，为所述检查判定处理时给译文打分提据；所述检查判定处理，通过所述检查评分模型给译文打分，将译文得分与预设判定阈值比较，将得分小于所述预设判定阈值的译文判定为"错误"，否则判定为"正确"。

2. 根据权利要求 1所述的译文检查方法，其特征在于：所述初始化处理的步骤如下：获取文本集 D， ά≡Ό, 其中 d表示所述文本集 D的一个文本；将所述文本集 D中的每一个文本 d分句后获得的句子进行二元切分，并将每个二元切分条目（^ ^₊₁₎存入列表 L，其中， = 1,2,···， n-l， n为一个句子所包含的字符个数， ^表示句子中的一个字符， ^₊₁表示字符后的一个字符；将所述列表 L中的每个二元切分条目存入集合 Q,根据所述集合 Q计算以开始时 Wj出现的概率 f_p (W_; , Wj ) , 其中、 Wj分别表示二元切分条目中的第一字符和第二字符；将计算得到的所有保存为所述检查评分模型。

3. 根据权利要求 1所述的译文检查方法，其特征在于：所述检查判定处理的步骤如下：

获取短语的译文；对所述译文做二元切分，获得所述译文的二元切分条目；根据所述检查评分模型对所述译文进行打 ^^估；根据所述译文的评分判定所述译否 ^。

4. 根据权利要求 2所述的译文检查方法，其特^于，所述将所 i^ L^集 D中的每一个分句后获得的句子进行二元切分，并 ^个二元切分条目存入列表 L的处理包括如下步骤：对所述集合 D中的每一个文本 d进行分句处理，得到 m个句子，其中 m为非负整数；对所述每一个句子做二元切分，通过得到 k 个二元切分条目每一个句子包含的字符的个数为 k+1个；

jj^H r个二元切分条目存入列表 L。

5. 根据权利要求 2所述的译文检查方法，其特征在于，所述计算以 ,开始时出现的概率 f_p (w_t , Wj )的方法为：

其中， v, , )表示以 τν,开始且^结尾的二元切分条目在列表 L 中的出现次数，表示以 w,开始的二元切分条目在列表 L中的出现次数。

6. 根据权利要求 2或 4或 5所述的译文检查方法，其特 ^于，所述计算以 TV,开始时出现的概率 f_p (w_t , Wj )的方法为：

从列表 L中得到所有以 TV,开始的二元切分条目，将二元切分条目中的第二个字符^加入字符串 S; 将所述字符串 S中的每个字符存入集合 T;

则以 τν,开始时出现的概率 f_p (w_t , 为

A(w,，w )=m/n 其中， m， n的初始值为零。

7. 根据权利要求 2或 5或 6所述的译文检查方法，其特征在于：所述对所述译文做二元切分的方法与所述初始化处理的方法相同；或，所述二元切分采用 CJK分词器进行二元切分。

8. 根据权利要求 2-7任一所述的译文检查方法，其特征在于，所述对所述译文进行打^^估的方法为：

Score译― Min{Score_i , / = 1, 2, · · ·, η— 1} 其中， Sco 是一条二元切分条目的评分， Sco = f_p (w_t , f_p (w_t，）为译文中的二元切分条目（w, )在模型中对应的值；或，

所述对所述译文进行打分评估的方法为：

Score^ - avg {Score _j ,ί - 1, 2, · · ·,η 1} 其中，。 re,是一条二元切分条目的评分， Score;

文中的二元切分条目（_W, )在模型中对应的值；或，

所述对所述译文进行打分评估的方法为：

Score^ = Π Score_i 其中， = 1, 2,… , "— 1， Score,是一条二元切分条目的评分， Score, = f_p (w_t f_p (w_t， Wj )为译文中的二元切分条目（w, )在模型中对应的值。

9.根据权利要求 1-8任一所述的译文检查方法，其特征在于：所述评分判定的方法为：

j, ― ί错误 Score^<5

r^eSUlt― j正确 &ore译≥<?

其中，为所述预设判定阈值， 0 < ≤1。

10.根据权利要求 1-9任一所述的译文检查方法，其特 ^于：所述预设判定阈值 δ的取值范围为 0 < ≤ 0.3，优选地所述预设判定阈值 δ = 0.00055。

11.根据权利要求 1-9任一所述的译文检查方法，其特征在于，所述将所有 (w_t ^ 在文件或二进制文件中。

12. 一种译文检查系统，包括初始化处理装置和检查判定处理装置，其特于：

所述初始化处理装置，用于基于一批语料，通过统计所述语料二元切分条目的概率信息，来获得二元语法模型，作为检查评分模型，为所述检查判定处理时给译文打分提^ ^据；

所述检查判定处理装置，用于通过所述检查评分模型给译文打分，将译文得分与预设判定阈值比较，将得分小于所述预设判定阈值的译文判定为"餘 "，否则判定为"正确"。

13. 根据权利要求 12所述的译文检查系统，其特征在于：所述初始化处理装置包括：

获取文本集子装置，用于获取文本集 D， ά≡Ό, 其中 d表示所述文本集 D 的一个文本；

第一二元切分子装置，用于将所述文本集 D中的每一个文本 d分句后获得的句子进行二元切分，并将每个二元切分条目（_w;w;+1)存入列表 L，其中， = 1,2,···， η-1 , η为一个句子所包含的字符个数，表示句子中的一个字符， w_M 表示字符 Wi后的一个字符；

概率计算子装置，用于将所述列表 L中的每个二元切分条目存入集合 Q，根据所述集合 Q计算以开始时^出现的概率^ 子装置，其中， _Wi、分别表示二元切分条目中的第一字符和第二字符；检查评分模型生成子装置，用于将计算得到的所有 ^ , )保存为所述检查评分模型。

14. 根据权利要求 12所述的译文检查系统，其特征在于：所述检查判定处理装置包括：

获取短语译文子装置，用于获取短语的译文；

第二二元切分子装置，用于对所述译文做二元切分，获得所述译文的二元切分条目；译文打分评估子装置，用于根据所述检查评分模型对所述译文进行打分评估；

判定子装置，用于根据所述译文的评分判定所述译文是否错误。

15. 根据权利要求 13所述的译文检查系统，其特征在于，所述第一二元切分子装置包括：

文本分句模块，用于对所述集合 D中的每一个文本 d分句，得到 m个句子 s^₂ , -,s_m , 其中 m为非负整数；文本分句切分模块，用于对每一个句子做二元切分，通过得到 k个二元切分条目（W! W₂ )(W₂W₃ )■■■ (w_kW_k+1 )，每一个句子包含的字符的个数为 k+1个；模块，用于 ^个二元切分条目存入列表 L。

16. 根据权利要求 13所述的译文检查系统，其特于，所述计算以 τν,开始时^出现的概率 f_p (w_t , 方法为：

其中， /, , )表示以 τν,开始且^结尾的二元切分条目在列表 L 中的出现次数，表示以 w,开始的二元切分条目在列表 L中的出现次数。

17. 根据权利要求 13或 15或 16所述的译文检查系统，其特征在于，所述计算以 TV,开始时出现的概率 f_p (_Wi , _Wj )的方法为：

将所述字符串 S中的每个字符存入集合 T;

则以 τν,开始时出现的概率 f_p (w,. , 为

A (w,，w )=m/n

其中， m， n的初始值为零。

18. 根据权利要求 13或 16或 17所述的译文检查系统，其特征在于：所述对所述译文做二元切分的方法与所述初始化处理阶段的方法相同；或，

所述二元切分采用 CJK分词器进行二元切分。

19. 根据权利要求 13-18任一所述的译文检查系统，其特征在于，所述对所述译文进行打分评估的方法为：

所述对所述译文进行打分评估的方法为：

Score^ - avg {Score _j ,ί - 1, 2, · · ·,η 1}

其中，。 re,是一条二元切分条目的评分， Score;

文中的二元切分条目（_W, )在模型中对应的值；

或，

所述对所述译文进行打分评估的方法为：

Score^ = Π Score_i 其中， = 1, 2,… , "— 1， Score,是一条二元切分条目的评分， Score, = f_p (w_; f_p (w_t， Wj )为译文中的二元切分条目（w, )在模型中对应的值。

20.根据权利要求 12-19任一所述的译文检查系统，其特征在于：所述评分判定的方法为：

γρ^,η― /错误 & 译

,^ 〃— 正确 &ore译≥<?

其中，为所述预设判定阈值， 0 < ≤1。

21.根据权利要求 12-18任一所述的译文检查系统，其特征在于：所述预设判定阈值 δ的取值范围为 0 < ≤ 0.3，优选所述预设判定阈值 δ = 0.00055。

22.根据权利要求 12-20任一所述的译文检查系统，其特征在于，所述所有

^ ,Μ^ 在文件或二进制文件中。

23. 一种或多种具有计算机可执行指令的计算机可读介盾，所述指令在由计算机执行时，执行译文检查方法，该方法包括初始化处理和检查判定处理，其中：

所述初始化处理，基于一批语料，通过统计所述语料二元切分条目的概率信息，来获得二元语法模型，作为检查评分模型，为所述检查判定处理时给译文打分提据；所述检查判定处理，通过所述检查评分模型给译文打分，将译文得分与预设判定阈值比较，将得分小于所述预设判定阈值的译文判定为"错误"，否则判定为"正确"。