WO2015043071A1 - 一种译文检查方法及其系统 - Google Patents

一种译文检查方法及其系统 Download PDF

Info

Publication number
WO2015043071A1
WO2015043071A1 PCT/CN2013/088743 CN2013088743W WO2015043071A1 WO 2015043071 A1 WO2015043071 A1 WO 2015043071A1 CN 2013088743 W CN2013088743 W CN 2013088743W WO 2015043071 A1 WO2015043071 A1 WO 2015043071A1
Authority
WO
WIPO (PCT)
Prior art keywords
translation
score
binary
entry
check
Prior art date
Application number
PCT/CN2013/088743
Other languages
English (en)
French (fr)
Inventor
叶茂
王元龙
金立峰
汤帜
徐剑波
Original Assignee
北大方正集团有限公司
北京方正阿帕比技术有限公司
北京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北大方正集团有限公司, 北京方正阿帕比技术有限公司, 北京大学 filed Critical 北大方正集团有限公司
Publication of WO2015043071A1 publication Critical patent/WO2015043071A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Definitions

  • the present invention relates to a translation check method and system thereof, and more particularly to a translation check method and system based on a binary grammar model, and belongs to the technical field of electrical digital data processing methods. Background technique
  • the BL-based machine based on N-matching proposed by IBM requires different bilingual experts to translate the original text to obtain a reference translation, and then the computer translation and the string similarity of the multiple reference translations, thereby To achieve the evaluation of the machine translation translation.
  • This method needs to provide a high-quality translation of human translation as a reference to obtain a large number of high-quality translations; at the same time, it relies heavily on bilingual experts. The cost is still huge; in addition, the method can only evaluate how good the translation is, and cannot judge whether the translated translation is " ⁇ ".
  • the prior art also discloses a method for machine translation self-correction, first defining a translation error category, and defining a translation error category as correct, general error, order error, out-of-group word error, other errors.
  • Class training classifier, classifying translation; mapping translation to source language and constructing a network of paraphrasing; finally obtaining word graph decoding and correcting it.
  • the method constructs the corpus by extracting the corpus of words, words, part-of-speech tag, syntax, grammar and semantic features related to the specific language, and constructs the training model. It requires a lot of difficulty to prepare a large amount of corpus.
  • the method is based on the dynamic probability latent variable.
  • the algorithm of the model also requires large-scale corpus preparation data; in addition, the method can only check the defined translation error category. If the error category of the translation does not belong to the defined translation error category, then the translation translation cannot be judged.
  • a translation check method including initialization processing and check determination processing
  • the initialization process based on a batch of corpus, obtains a binary grammar model by statistically categorizing the probability information of the binary sharding entry, as a check scoring model, and providing a basis for scoring the translation for the check and determination process;
  • the determination process is performed by scoring the translation by the inspection scoring model, comparing the translation score with a preset determination threshold, and determining a translation whose score is smaller than the preset determination threshold as " ⁇ ", otherwise determining as "correct”.
  • the step of the initializing process is as follows: acquiring a text set D, ⁇ , where d represents a text of the text set D; and obtaining each text d in the text set D
  • ⁇ +1 represents one character after the character ⁇ ; each binary segmentation entry in the list L is stored in the set Q, and the probability of occurrence of ⁇ at the beginning ⁇ is calculated according to the set Q ⁇ ( Wi , ), where ⁇ ,, ⁇ respectively represent the first character and the second character in the binary segmentation entry; and all of the calculated f p (w,, . ) are saved as the check score model.
  • the step of the check determining process is as follows: acquiring a translation of a phrase; performing binary segmentation on the translation to obtain a binary segmentation entry of the translation; and performing the translation according to the check scoring model Judging; determining whether the translation is based on the score of the translation.
  • the sentence obtained after each text d clause in the text set D is binary-segmented, and each binary segmentation entry ( W; W; +1 ) is stored in the list.
  • the processing of L includes the following steps: dividing each text d in the set D to obtain m sentences, where m is a non-negative integer; performing binary splitting on each of the sentences, and obtaining k two The number of characters in each sentence of the meta-segment entry is k+1; each binary segment entry is stored in the list.
  • the method for calculating the probability of occurrence of ⁇ at the beginning is: obtaining all the binary split entries starting with the list L, and adding the second character ⁇ of the binary split entry to the character String S; storing each character in the string S into the set T; counting the length n of the string S, for each character in the set T, counting the occurrence of the character ⁇ in the string S The number of times m; then the probability of occurrence of ⁇ at the beginning of ⁇ is:
  • the initial value of m, n is zero.
  • the method of performing binary segmentation on the translation is the same as the method of the initialization process.
  • the binary segmentation is performed by a CJK tokenizer for binary segmentation.
  • the method for performing scoring assessment on the translation is:
  • Score translation Min ⁇ Score i — 2, ⁇ ⁇ ⁇ , ⁇ — 1 ⁇
  • Sco is the score of a binary segmentation entry
  • Sco ⁇ f p (w ; , w.) , f p (w t , ) for translation
  • the binary segmentation entry in the text corresponds to the value in the model.
  • the method for performing scoring assessment on the translation is:
  • Score ⁇ - avg ⁇ Score t , z 1, 2, ⁇ ⁇ ⁇ , « - 1 ⁇
  • Score is the score of a binary segmentation entry
  • the method for performing scoring assessment on the translation is:
  • the method for determining the score is:
  • the preset determination threshold has a value range of 0 ⁇ ⁇ 0.3, and preferably, the preset determination threshold is 0.00055.
  • the all will be in a text file or a binary file.
  • a translation checking system comprising an initialization processing device and an inspection determination processing device,
  • the initialization processing device is configured to obtain a binary grammar model by using a probability information of a corpus binary segmentation entry based on a batch of corpus, as a check score model, and provide a basis for scoring the translation for the check and determination process;
  • the check determination processing device is configured to score the translation by the check score model, compare the translation score with a preset decision threshold, and determine a translation whose score is less than the preset determination threshold as " ⁇ ", otherwise determine as " correct”.
  • the first binary singular molecular device comprises: a text clause module, configured to, for each L ⁇ d clause in the set, obtain m sentences, where m is a non-negative integer; ⁇ a clause segmentation module, which is used for binary segmentation of each sentence, by obtaining k binary segmentation entries, each sentence contains the number of characters k+1; the save module is used for ⁇ H r binary segment entries are stored in the list L.
  • a text clause module configured to, for each L ⁇ d clause in the set, obtain m sentences, where m is a non-negative integer
  • a clause segmentation module, which is used for binary segmentation of each sentence, by obtaining k binary segmentation entries, each sentence contains the number of characters k+1
  • the save module is used for ⁇ H r binary segment entries are stored in the list L.
  • the method of binary segmentation of the translation is the same as the method of initializing the processing phase.
  • the binary segmentation is performed by a CJK tokenizer for binary segmentation.
  • the method for performing scoring assessment on the translation is:
  • Score is the score of a binary segmentation entry
  • Sco f p (w t , f p (w t , ) is the binary segmentation entry in the translation) corresponding value in the model.
  • the method for performing scoring assessment on the translation is:
  • Score ⁇ - avg ⁇ Score t , z 1, 2, ⁇ ⁇ ⁇ , « - 1 ⁇
  • Sco is the score of a binary segmentation entry
  • Sco ⁇ f p (w ⁇ , w. )
  • a w, , ) is the corresponding value in the model for the binary segmentation entry (w, ) in the translation.
  • the method for performing scoring assessment on the translation is:
  • the method for determining the score is:
  • Re ult Score ⁇ > ⁇ where, for the preset decision threshold, 0 ⁇ ⁇ 1.
  • the preset determination threshold has a value range of 0 ⁇ 0.3, and preferably, the preset determination threshold is 0.00055.
  • the all are in a text file or a binary file.
  • One or more computer readable medium shields having computer executable instructions, the instructions, when executed by a computer, perform a translation check method, the method comprising an initialization process and a check decision process, wherein: the initialization process is based on a The batch corpus obtains a binary grammar model by counting probability information of the corpus binary segmentation entry, and serves as a check score model, and provides a basis for scoring the translation for the check determination process; The review scoring model scores the translation, compares the translation score with a preset determination threshold, and determines a translation whose score is less than the preset determination threshold as "remaining". Otherwise judged as "correct"
  • the translation checking method of the present disclosure includes an initialization process and a check determination process.
  • the initialization process based on a batch of corpus, obtains a binary grammar model by using the probability information of the corpus binary segmentation entry, as a check scoring model, and provides a basis for scoring the translation for the check determination process.
  • the checking determination process the translation score is scored by the inspection scoring model, the translation score is compared with a preset determination threshold, and the translation whose score is less than the preset determination threshold is determined as “error”, otherwise the determination is “correct,
  • Lb relies on bilingual experts or high-quality human translation translations as a reference, and cannot judge whether it is correct or not, and can only judge the degree of difference in the evaluation translation. The problem.
  • the translation check method described in the present disclosure adopts a binary syntax segmentation, and uses a CJK tokenizer to perform binary segmentation, and the algorithm is simple, the operation speed is fast, and the implementation is easy.
  • the translation checking method is to count the length n of the character string S and each character in the set T ⁇ the number of occurrences m in the character string S, and then the ratio of the length n of the character string S and the number m of occurrences of each character in the set T in the character string S as the probability of occurrence of ⁇ at the beginning.
  • the value of ⁇ is cleverly conceived, the algorithm is simple, and easy to implement.
  • the translation check method described in the present disclosure stores the divided binary segmentation entries into the list, and extracts the words when the calculation is continued, which is also convenient for establishing the model.
  • the method for checking the translation according to the present disclosure the method of scoring the translation adopts the minimum score in the translation as the score of the entire translation, and the score can directly determine whether the translation is ⁇ .
  • the method for checking the translation adopts the average value of the corresponding probability of each binary segmentation entry in the translation, which can effectively avoid the fact that some binary segmentation entries are not included in the model. The wrong score caused by the type.
  • the translation check method of the present disclosure adopts the product of the score in the translation as the score of the entire translation, and judges whether the whole translation is correct or not, and can judge the entire translation according to the size of the score. Translate the shield.
  • the translation checking method compares the scoring result with a preset judgment threshold, and directly filters out the phrase translation of the phrase "incorrect” or "in” in the relevant maritime.
  • FIG. 1 is a flowchart of a method of a translation checking method according to an embodiment of the present invention
  • 2 is a schematic diagram of corpus acquisition of geographic, historical and literary fields in a translation check method according to an embodiment of the present invention
  • FIG. 3 is a schematic diagram showing statistical probability of partial binary segmentation entries in a translation check method according to an embodiment of the present invention
  • 4 is a schematic diagram showing the binary translation of a translation of an English phrase by a different translation system according to an embodiment of the present invention, and determining the result
  • FIG. 5A is a structural diagram of a translation checking system according to an embodiment of the present invention
  • Example 1 In this embodiment, a translation check method is provided, and a method flowchart thereof is shown in FIG. 1, which includes an initialization process and an check determination process.
  • the corpus is a corpus of a certain domain, and obtaining a binary grammar model by using a probability information of a binary sharding entry of a statistical domain corpus, as a check scoring model, for the check and determination process When the score is given to the translation.
  • the steps of the initialization process are as follows:
  • S11 Obtain a batch of text sets D of a certain field, where d represents an L ⁇ of the text set D.
  • S12 binaryly segment each text d clause in the text set D, and store each binary segmentation entry (v ; W; +1 ) in the list L, where Wi represents the sentence A character, ⁇ , +1 represents a character after the character. It is also convenient to build a model by storing the divided binary segmentation entries in the list and continuing the calculation of the ⁇ words.
  • the binary segmentation uses the CJK tokenizer for binary segmentation, the algorithm is simple, the operation speed is fast, and the implementation is easy.
  • other programs may be implemented, such as a customized program, which only needs to achieve the effect of binary segmentation.
  • the step S12 includes the following steps:
  • the steps of the check determination process are as follows:
  • the binary split entries are: “retro”, “ ancient,”, “future,,,” “coming,,,”,” sound, , “Sound,,.
  • S23 Perform scoring evaluation on the translation according to the inspection scoring model.
  • the method for performing the evaluation of the translated text is:
  • Score translation Min ⁇ Score i — 2, ⁇ ⁇ ⁇ , ⁇ — 1 ⁇
  • the binary split entry (w, ) corresponds to the value in the model.
  • the translation "retro-future voice,” scores the minimum value of its binary-segment entry, which is 0.0003.
  • the score of the translation is shown in Figure 4.
  • the method of scoring the translation adopts the smallest score in the translation as the score of the entire translation, and the score can directly determine whether the translation is.
  • the preset determination threshold ⁇ 0.00055.
  • the preset determination threshold may be 0.0005, 0.0007, 0.0008, 0.0009,
  • Different values such as 0.001 are selected based on the characteristics of the check score model established by the initialization process.
  • the translation checking method provided in this embodiment compares the scoring result with the preset judgment threshold, and directly filters out the phrase translation of the phrase "incorrect” or " ⁇ " in the domain-related massive translation.
  • step S13 which is different from the first embodiment, the other steps are the same as those of the first embodiment.
  • the method for calculating the probability f p ( Wi , Wj ) at the beginning of Wj in the step S1 3 is:
  • Each character in the string S is stored in the set T;
  • the probability of occurrence at the beginning f p (w,. , ) is Among them, the initial value of m, n is zero.
  • the length n of the character string S and each character in the set T are counted, and the number m of occurrences of the character ⁇ in the character string S is counted, and then the ratio of n and m is taken as ⁇ , at the beginning ⁇
  • the value of the probability of occurrence cleverly conceived, simple algorithm, easy to implement.
  • step S23 is different from the first embodiment, the other steps are the same as those in the first embodiment.
  • the method for performing the scoring evaluation on the translation in the step S23 is:
  • Score ⁇ - avg ⁇ Score j , z 1, 2, ⁇ ⁇ ⁇ , « - 1 ⁇
  • Sco is the score of a binary segmentation entry
  • Score; f p (w ; , f p (w t , ) is the corresponding value in the model for the binary segmentation entry in the translation.
  • the method of scoring the translation adopts the average value of each binary item in the translation, which can effectively avoid the false scoring caused by the fact that some binary items are not included in the model.
  • step S12 is different from the first embodiment, the other steps are the same as those in the first embodiment.
  • the method for performing the scoring evaluation on the translation in the step S23 is:
  • the method of scoring the translation adopts the product of the score in the translation as the score of the entire translation, and judges whether the entire translation is correct or not, and can determine the translation shield of the entire translation according to the size of the score. the amount.
  • the translation checking method described in the system includes an initialization process and a check determination process.
  • the initialization process based on a batch of corpus, obtains a binary grammar model by using probability information of a binary shard entry of a statistical domain corpus, as a check score model, and provides a basis for scoring the translation for the check and determination process According to.
  • the check determination process the domain translation is scored by the inspection scoring model, the translation score is compared with a preset determination threshold, and the translation whose score is less than the preset determination threshold is determined as “error”, otherwise the determination is “correct,
  • the above-mentioned translation check method effectively avoids the prior art that the translation detection method largely relies on bilingual experts or high-quality human translation translations as a reference, and can not judge whether it is correct or not, and can only judge the goodness of the evaluation translation. The extent of the problem.
  • FIG. 5A is a structural diagram of a translation check system according to an embodiment of the present invention.
  • the present embodiment provides a translation checking system including an initialization processing device 51 and an inspection determination processing device 52.
  • the initialization processing device 51 is configured to obtain a binary grammar model as a check scoring model by using a batch of corpus, the corpus is a corpus of a certain domain, and using a probability information of a binary categorization entry of a statistical domain corpus. , providing a basis for scoring the translation for the check determination process.
  • the initialization processing device 51 specifically includes: a text set sub-device 511 for acquiring a batch of text sets D of a certain field, where d represents a text of the text set D.
  • the first binary-cutting molecular device 512 specifically includes: a clause module 5121 for using a clause d for each text in the set/) to obtain m sentences.
  • m is a non-negative integer
  • L ⁇ clause segmentation module 5122 which is used to perform binary segmentation on each sentence, by obtaining k binary segmentation entries . O ⁇ H ), the number of characters in each sentence is k+1; 5123, for ⁇ binary split entries are stored in the list L.
  • a probability calculation sub-device 513 configured to store each binary segmentation entry in the list L into a set Q, calculating a probability ⁇ ( Wi , ) appearing at the beginning of the set according to the set Q, wherein the first character and the second character in the binary split entry are respectively represented.
  • the number of occurrences of the binary segmentation entry starting with v and ending in ⁇ , in the list L indicates the number of occurrences of the binary segmentation entry in the list L.
  • the method of calculating the probability of occurrence at the beginning is:
  • Each character in the string S is stored in the set T;
  • the scoring model generation sub-device 514 is used to save all of the calculated values as the check scoring model. All of the (w, , ) ⁇ files or binary files.
  • the check determination processing device 52 is configured to score the translation by the check scoring model, compare the translation score with a preset determination threshold, and determine that the translation whose score is less than the preset determination threshold is determined as otherwise. correct".
  • the check determination processing means 52 specifically includes:
  • the phrase translation sub-device 521 is configured to obtain a translation of the phrase in the domain.
  • the second binary singularity means 522 is configured to perform binary singulation on the translation to obtain a binary sharding entry of the translation.
  • the method for performing binary segmentation on the translation and the method for initializing the processing phase the same.
  • the binary segmentation is performed by a CJK tokenizer for binary segmentation.
  • the translation score evaluation sub-device 523 is configured to score the translation based on the inspection scoring model.
  • the method of scoring the translation is:
  • Score translation Min ⁇ Score i — 2, ⁇ ⁇ ⁇ , ⁇ — 1 ⁇
  • Sco ⁇ is the score of a binary segmentation entry
  • Sco f p (w t ⁇ , ) is the binary segmentation in the translation The corresponding value of the entry (w, ) in the model.
  • the method of scoring the translation is:
  • Score ⁇ - avg ⁇ Score j , z 1, 2, ⁇ ⁇ ⁇ , « - 1 ⁇
  • Sco is the score of a binary segmentation entry
  • Score f p (w t / P ( w ,, w , ) is the corresponding value in the model for the binary segmentation entry in the translation.
  • the method of scoring the translation is:
  • the binary split entry corresponds to the value in the model.
  • the determining sub-device 524 is configured to determine whether the translation is erroneous based on the score of the translation.
  • the method for judging the score is:
  • the preset determination threshold is 0.00055. In other embodiments, the preset determination threshold has a value range of 0 ⁇ ⁇ 0.3.
  • embodiments of the present invention can be provided as a method, system, or computer program product.
  • the present invention can take the form of an entirely hardware embodiment, an entirely software embodiment, or a combination of software and hardware.
  • the present invention may employ a computer usable storage medium (including but not limited to disk storage, in one or more of which contains computer usable program code.
  • the computer program instructions can also be stored in a computer readable memory that can direct a computer or other programmable data processing device to operate in a particular manner, such that the instructions stored in the computer readable memory produce an article of manufacture comprising the instruction device.
  • the apparatus implements the functions specified in one or more blocks of a flow or a flow and/or block diagram of the flowchart.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种译文检查方法及其系统,包括初始化处理和检查判定处理。所述初始化处理,基于一批语料来训练二元语法模型,作为检查评分模型,为所述检查判定处理时给译文打分提供依据。所述检查判定处理,通过所述检查评分模型给译文打分,将译文得分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为"错误",否则判定为"正确"。上述技术方案有效避免了现有技术中对译文检测方法很大程度上依赖于双语专家或高质量的人工翻译译文作为参照,同时不能判断正确与否,只能判断评测译文的好差程度的问题。

Description

一种译女检查方法及其系统
技术领域 本发明涉及一种译文检查方法及其系统, 具体是一种基于二元语法模型的 译文检查方法及其系统, 属于电数字数据处理方法技术领域。 背景技术
近年来, 机器翻译 ( Machine Translation )的应用越来越广泛, 而且对机 器翻"^文的盾量要求越来越高。 在翻译领域内, 即使最好的翻译人员也 达到翻译界所要求的最高标准 "信、 达、 雅", 因此机器翻译评价成为一个重要 而困难的 i果题。
由于要对译文盾量评价至少要懂得两种语言, 译文盾量评价成为一项难度 很大的智力活动, 因此对机器翻译的译文盾量的评价通常由专家来进行, 而且 价格成本不菲, 评价过程也非常耗时而且不可重用。 一般机器译文的评价出发点为 "有多好,,和"哪个更好", 如果在人工对译文 评价之前, 将译文中"不正确,,或 的译文筛选出来, 将大大缩减人工评价 译文的成本和时间。 在翻译需求中, 有一类是针对领域短语的翻译, 由于领域短语包含的文字 不多且通常具备显著的领域特征, 因此通过一定量的领域语料, 能够从不同角 现其跳 并建立模型。 现有技术中 IBM提出的基于 N元匹配的 BLEU机器翻 "i ^测方法需要不 同的双语专家对原文进行翻译得到参考译文, 然后计算机器译文与这多个参考 译文的字符串相似度, 从而实现对机器翻译译文盾量的评测。 该方法进行评测 译文时, 需要提供人工翻译的高质量译文作为参照, 获取大量高质量译文的成 ^艮高; 同时在很大程度上依赖于双语专家, 其成本仍然艮大; 另外该方法只 能评测译文有"多好,,, 而不能判断翻译译文是否 " ^"。 现有技术中还公开了一种机器翻译自纠错的方法,首先定义翻译错误类别, 将翻译错误类别定义为正确、 一般错误、 次序错误、 集外词错误、 其他错 类; 训练 分类器, 对翻译 进行分类; 将翻译映射到源语言端并构建复 述词图网络; 最后得到词图解码并加以校正。 该方法首先通过抽取与具体语言 相关的字、词、词性标注、 句法、语法、语义特征建立语料库,构造训练模型, 需要大量语料的准备有艮大的难度; 其次该方法是基于动态概率潜变量模型的 算法也需要大规模的语料准备数据; 另外, 该方法只能检查所定义的翻译错误 类别, 如果译文的错误类别不属于所定义的翻译错误类别, 则不能判断翻译译 否" ,,。 发明内容 本发 Ϊ
于双语专家, 同时不能判断正确与否, 只能判断评测译文的好差程度, 从而提 供一种通过学习领域语料, 训练出二元语法模型, 通过该模型自动将领域相关 的海量译文中 "不正确,,或" 的短语译文过滤掉的译文检查方法。 为解决上述技术问题, 本发明是通过以下技术方案实现的:
一种译文检查方法, 包括初始化处理和检查判定处理,
所述初始化处理,基于一批语料,通过统计语料二元切分条目的概率信息, 来获得二元语法模型, 作为检查评分模型, 为所述检查判定处理时给译文打分 提供依据; 所述检查判定处理, 通过所述检查评分模型给译文打分, 将译文得 分与预设判定阈值比较, 将得分小于所述预设判定阈值的译文判定为 " ^", 否则判定为"正确"。
可选地, 所述初始化处理的步骤如下: 获取文本集 D, ά≡Ό, 其中 d表示 所述文本集 D的一个文本;将所述文本集 D中的每一个文本 d分句后获得的句 子进行二元切分,并 ^个二元切分条目 存入列表 L,其中, = 1,2,···, η-1 , η为一个句子所包含的字符个数, Wi表示句子中的一个字符, ^+1表示字符 ^后 的一个字符; 将所述列表 L中的每个二元切分条目存入集合 Q, 根据所述集合 Q计算以 τν,开始时^出现的概率^ (Wi, ), 其中 τν,、 ^分别表示二元切分条目 中的第一字符和第二字符; 将计算得到的所有 fp (w,, . )保存为所述检查评分模 型。 可选地, 所述检查判定处理的步骤如下: 获取短语的译文; 对所述译文做 二元切分, 获得所述译文的二元切分条目; 根据所述检查评分模型对所述译文 进行打 ^^估; 根据所述译文的评分判定所述译文是否 。
可选地, 所述将所述文本集 D中的每一个文本 d分句后获得的句子进行二 元切分, 并将每个二元切分条目(W;W;+1)存入列表 L的处理包括如下步骤: 对所 述集合 D中的每一个文本 d分句, 得到 m个句子 , 其中 m为非负整 数; 对所述每一个句子 做二元切分, 通过 得到 k 个二元切分条目 每一个句子 包含的字符的个数为 k+1个; 将每个二元切 分条目存入列表
可选地, 所述计算以 W 始时 Wj.出现的概率 fp (wt, Wj )的方法为:
Figure imgf000005_0001
其中, /, , )表示以 开始且^结尾的二元切分条目在列表 L 中的出现 次数, 表示以 开始的二元切分条目在列表 L中的出现次数。
可选地, 所述计算以 τν,开始时^出现的概率 的方法为: 从列表 L 中得到所有以 开始的二元切分条目, 将二元切分条目中的第二个字符^加入 字符串 S; 将所述字符串 S中的每个字符存入集合 T; 统计所述字符串 S的长 度 n, 对于集合 T中的每一个字符 , 统计所述字符^在字符串 S中出现的次 数 m; 则以 w,开始时^出现的概率 为:
A(w,,w )=m/n
其中, m, n的初始值为零。
可选地, 对所述译文做二元切分的方法与所述初始化处理的方法相同。 可选地, 所述二元切分采用 CJK分词器进行二元切分。 可选地, 所述对所述译文进行打分评估的方法为:
Score译― Min{Scorei — 2, · · ·, η— 1} 其中, Sco 是一条二元切分条目的评分, Sco^ = fp (w; , w.) , fp (wt, )为译 文中的二元切分条目 在模型中对应的值。
可选地, 所述对所述译文进行打分评估的方法为:
Score^ - avg {Score t , z = 1, 2, · · · , « - 1} 其中, Score,是一条二元切分条目的评分, Scores fp iW M^ , (Wiw 为译 文中的二元切分条目 )在模型中对应的值。
可选地, 所述对所述译文进行打分评估的方法为:
Score^ = Π Scorei 其中, = 1, 2,… , "— 1, Score,是一条二元切分条目的评分, Score, = fp (wt , Wj ) , fp (wt, Wj )为译文中的二元切分条目(w, )在模型中对应的值。
可选地, 所述评分判定的方法为:
r . ― ί错误 Score^<5
reSUlt― 正确 &ore译≥<? 其中, 为所述预设判定阈值, 0 < ≤1。
可选地, 所述预设判定阈值 的取值范围为 0 < ≤0.3,优选地, 所述预设判 定阈值 = 0.00055。
可选地, 所述将所有 在文本文件或二进制文件中。
一种译文检查系统, 包括初始化处理装置和检查判定处理装置,
所述初始化处理装置, 用于基于一批语料, 通过统计语料二元切分条目的 概率信息, 来获得二元语法模型, 作为检查评分模型, 为所述检查判定处理时 给译文打分提供依据; 所述检查判定处理装置, 用于通过所述检查评分模型给 译文打分, 将译文得分与预设判定阈值比较, 将得分小于所述预设判定阈值的 译文判定为 " ^", 否则判定为"正确"。
可选地, 所述初始化处理装置包括: 获取文本集子装置, 用于获取文本集 D, ά≡Ό, 其中 d表示所述文本集 D的一个文本; 第一二元切分子装置, 用于 将所述文本集 D中的每一个文本 d分句后获得的句子进行二元切分, 并将每个 二元切分条目(W;W;+1)存入列表 L, 其中, = 1,2,···, n-l, n为一个句子所包含的 字符个数, 表示句子中的一个字符, ^+1表示字符 后的一个字符; 概率计算 子装置, 用于将所述列表 L中的每个二元切分条目存入集合 Q, 根据所述集合 Q计算以 开始时^出现的概率^ 子装置, 其中 分别表示二元切 分条目中的第一字符和第二字符; 检查评分模型生成子装置, 用于将计算得到 的所有 为所述检查评分模型; 所述检查判定处理装置包括:获取短语译文子装置,用于获取短语的译文; 第二二元切分子装置, 用于对所述译文做二元切分, 获得所述译文的二元切分 条目; 译文打分评估子装置, 用于根据所述检查评分模型对所述译文进行打分 评估; 判定子装置, 用于根据所述译文的评分判定所述译文是否错误。 可选地,所述第一二元切分子装置包括:文本分句模块,用于对所述集合 中的每一个 L^ d分句, 得到 m个句子 , , 其中 m为非负整数; L^ 分句切分模块, 用于对所述每一个句子 做二元切分, 通过 得到 k个二元切分 条目 每一个句子 包含的字符的个数为 k+1个;保存模块, 用于^ H r个二元切分条目存入列表 L。 可选地, 所述计算以 W 始时 Wj.出现的概率 fp (wt, Wj )的方法为:
Figure imgf000007_0001
其中, /, , )表示以 τν,开始且^结尾的二元切分条目在列表 L 中的出现 次数, 表示以 w,开始的二元切分条目在列表 L中的出现次数。 可选地, 所述计算以 τν,开始时^出现的概率 的方法为: 从列表 L 中得到所有以 开始的二元切分条目, 将二元切分条目中的第二个字符^加入 字符串 S; 将所述字符串 S中的每个字符存入集合 T; 统计所述字符串 S的长 度 n, 对于集合 T中的每一个字符 , 统计所述字符^在字符串 S中出现的次 数 m; 则以 开始时^出现的概率 为: (^,. , ν7.)=ιη/η 其中, m, n的初始值为零。 可选地, 对所述译文做二元切分的方法与初始化处理阶段的方法相同。 可选地, 所述二元切分采用 CJK分词器进行二元切分。
可选地, 所述对所述译文进行打分评估的方法为:
Figure imgf000008_0001
其中, Score是一条二元切分条目的评分, Sco = fp (wt , fp (wt, )为译 文中的二元切分条目 )在模型中对应的值。
可选地, 所述对所述译文进行打分评估的方法为:
Score^ - avg {Score t , z = 1, 2, · · · , « - 1} 其中, Sco 是一条二元切分条目的评分, Sco^ = fp (w{, w. ) A w, , )为译 文中的二元切分条目(w, )在模型中对应的值。
可选地, 所述对所述译文进行打分评估的方法为:
Score^ = Π Scorei 其中, = 1, 2,… , "— 1, Score,是一条二元切分条目的评分, Score, = fp (wt , w. ) fp (wt, Wj )为译文中的二元切分条目(w, )在模型中对应的值。
可选地, 所述评分判定的方法为:
Score^ <δ
re ult = Score^ >δ 其中, 为所述预设判定阈值, 0 < ≤1。
可选地, 所述预设判定阈值 的取值范围为 0 <^≤0.3,优选地, 所述预设判 定阈值 = 0.00055。
可选地, 所述所有 在文本文件或二进制文件中。
一种或多种具有计算机可执行指令的计算机可读介盾, 所述指令在由计算 机执行时,执行译文检查方法,该方法包括初始化处理和检查判定处理,其中: 所述初始化处理,基于一批语料,通过统计所述语料二元切分条目的概率信息, 来获得二元语法模型, 作为检查评分模型, 为所述检查判定处理时给译文打分 提供依据; 所述检查判定处理, 通过所述检查评分模型给译文打分, 将译文得 分与预设判定阈值比较, 将得分小于所述预设判定阈值的译文判定为 "餘 ", 否则判定为"正确"
开的上述技术方案相比现有技术具有以下一个或多个优点:
( 1 )本公开所述的译文检查方法, 包括初始化处理和检查判定处理。 所述 初始化处理, 基于一批语料, 通过统计语料二元切分条目的概率信息, 来获得 二元语法模型, 作为检查评分模型, 为所述检查判定处理时给译文打分提供依 据。 所述检查判定处理, 通过所述检查评分模型给译文打分, 将译文得分与预 设判定阈值比较, 将得分小于所述预设判定阈值的译文判定为"错误", 否则判 定为 "正确,,。 上述译文检查方法有效避免了现有技术中对译文检测方法很大程 Lb依赖于双语专家或高质量的人工翻译译文作为参照, 同时不能判断正确与 否, 只能判断评测译文的好差程度的问题。
( 2 )本公开所述的译文检查方法, 采用二元语法切分, 采用 CJK分词器 进行二元切分, 算法简单, 运算速度快, 易于实现。
( 3 )本公开所述的译文检查方法, 以 TV,开始且^结尾的二元切分条目在列 表 L中的出现次数和以 ,开始的二元切分条目在列表 L中的出现次数的比值作 为以 IV,开始时^出现的概率 的值, 构思巧妙, 算法简单, 易于实现。
( 4 )本公开所述的译文检查方法, 计算以 v,开始时^出现的概率 f^w^ wj ) 的方法为统计所述字符串 S的长度 n和所述集合 T中的每一个字符^在字符串 S中出现的次数 m,然后以字符串 S的长度 n和所述集合 T中的每一个字符 在 字符串 S中出现的次数 m的比值作为以 τν,开始时^出现的概率^ 的值, 构思巧妙, 算法简单, 易于实现。
( 5 )本公开所述的译文检查方法, 将切分完的二元切分条目存入列表, 方 ^续计算时取词, 也便于建立模型。
( 6 )本公开所述的译文检查方法, 给译文评分的方法采用直接取译文中最 小的评分作为整个译文的评分,通过分值的大小可以直接判断出译文是否 ^。
( 7 )本公开所述的译文检查方法, 给译文评分的方法采用取译文中每个二 元切分条目对应概率的平均值, 可以有效避免因一些二元切分条目没有纳入模 型造成的误评分。
( 8 )本公开所述的译文检查方法, 给译文评分的方法采用取译文中评分的 乘积作为整个译文的评分, 在判断整个译文的正确与否的同时可以根据分值的 大小判断整个译文的翻译盾量。
( 9 )本公开所述的译文检查方法, 将打分结果与预设判定阈值进行比较, 直接自动将相关的海 文中 "不正确"或" ,的短语译文过滤掉。
( 10 )本公开所述的译文检查系统, 利用译文检查方法, 有效避免了现有 技术中对译文检测方法很大程度上 于双语专家或高质量的人工翻 文作 为参照, 同时不能判断正确与否, 只能判断评测译文的好差程度的问题。 附图说明 为了使本发明的内容更容易被清楚的理解, 下面结合附图, 对本发明作 进一步详细的说明, 其中, 图 1是本发明一个实施例的一种译文检查方法的方法流程图; 图 2是本发明一个实施例的一种译文检查方法的获取地理、历史和文学领 域的语料示意图; 图 3是本发明一个实施例的一种译文检查方法的部分二元切分条目统计 概率示意图; 图 4是本发明一个实施例的不同的翻译系统对一段英语短语的译文二元 切分后打分并判定结果示意图; 图 5A是本发明一个实施例的译文检查系统的结构图; 图 5B是本发明一个实施例中第一二元切分子装置的结构图。
具体实施方式 实施例 1: 本实施例中提供一种译文检查方法, 其方法流程图如图 1所示, 其包括初 始化处理和检查判定处理。
51,初始化处理, 基于一批语料, 所述语料为某领域的语料, 通过统计领 域语料二元切分条目的概率信息, 来获得二元语法模型, 作为检查评分模型, 为所述检查判定处理时给译文打分提^ I据。
52,检查判定处理, 通过所述检查评分模型给领域译文打分, 将译文得分与 预设判定阈值比较, 将得分小于所述预设判定阈值的译文判定为"错误", 否则 判定为 "正确"。
在一个实施例中, 初始化处理的步骤如下:
S11: 获取一批某领域的文本集 D, ά≡Ό, 其中 d表示所述文本集 D的一 个 L^。
根据通过若干个某领域内的关键词或图书分类号获取一批某领域的文本集
D = {di ,i = \,2,- > 通过图书分类号获取地理、历史和文学领域的语料保存为文 件, 如图 2所示。
S12: 将所述文本集 D中的每一个文本 d分句进行二元切分, 并将每个二 元切分条目(v;W;+1)存入列表 L, 其中 Wi表示句子中的一个字符, ^,+1表示字符 后的一个字符。 将切分完的二元切分条目存入列表中, 方^续的计^^词, 也便于建立模型。
在本实施中, 所述二元切分采用 CJK分词器进行二元切分, 算法简单, 运 算速度快, 易于实现。 在其他实施例中, 还可以采用其他程序实现, 例如定制 的程序, 只需达到二元切分的效果即可。
所述步骤 S12包括如下步骤:
S121: 对所述集合 D中的每一个文本 d分句,得到 m个句子
S122: 对所述每一个句子 做二元切分, 通过 得到 k个二元切分条目
(w1wz)(wzw3 )- - -(wkwk+1 ), 每一个句子 包含的字符的个数为 k+1个。
例如: 有一个字符串 S由 n个字符組成, 按照字符的次序排序, 该字符串文本 S表示如下:
其中, 表示在字符串 S中的第 i个字符, i = \,2,.-.,n。 若对该字符串 S进行二元切分, 则该字符串 S的二元切分结果 表示 为:
其中, 表示该字符串 S的第 i个二元切分条目。
S123: 个二元切分条目 存入列表 。
S13: 将所述列表 L中的每个二元切分条目存入集合 Q, 根据所述集合 Q 计算以 TV,开始时 Wj出现的概率 fp (Wi ,Wj)a 所述集合 Q中不存在重复的二元切分条目,所述集合 Q的二元切分条目数 小于等于列表 L的二元切分条目数。对所述集合 Q中的每个二元切分条目 计算以 开始时^出现的概率 , 计算以 TV,开始时^出现的概率 (w,,w )的方法为:
Figure imgf000012_0001
其中, ; , )表示以 τν,开始且^结尾的二元切分条目在列表 L 中的出现 次数, 表示以 开始的二元切分条目在列表 L中的出现次数。 该算法构 思巧妙, 算法简单, 易于实现。
S14: 将计算得到的所有 保存为所述检查评分模型。 即将所有
^ ,Μ^ 在 文件或二进制文件中。
通过对语料中每个文本进行分句、 二元切分、 统计二元切分结果等步骤, 为模型, 得到以 "要,,开头的部分二元切分条目及其统计概率如图 3所 在一个实施例中, 检查判定处理的步骤如下:
S21: 获取所述领域内短语的译文。 例如: "Future Sound of Retro"在百度翻译系统中翻译为"复古未来的声音"。 如图 4所示。
S22: 对所述译文做二元切分, 获得所述译文的二元切分条目。 对所述译文 做二元切分的方法与所述步骤 S12的方法相同。
如 文"复古未来的声音,,进行二元切分,得到的二元切分条目为: "复古"、 "古未,,、 "未来,,、 "来的,,、 "的声,,、 "声音,,。
S23: 根据所述检查评分模型对所述译文进行打分评估。本实施中, 所述译 文进行打^ ^估的方法为:
Score译― Min{Scorei — 2, · · ·, η— 1} 其中, Sco 是一条二元切分条目的评分, Score; = fp (w; , fp (wt, )为译 文中的二元切分条目(w, )在模型中对应的值。
则对所述译文 "复古未来的声音"的二元切分条目进行打分, 则每个二元切 分条目的评分 Score, = (w w .)如下:
复- >古 :0.0093
古- >未: 0.0003
未- >来 : 0.3120
来- >的 :0.1094
的- >声 :0.0014
声- >音 : 0.1592 在本实施中, 所述译文"复古未来的声音,,的得分取其二元切分条目的最小 值, 为 0.0003。 通过不同的翻译系统获取一段英语短语的译文, 对译文的打分结果如图 4 所示。 本实施例所提供的译文检查方法, 给译文评分的方法采用取译文中最小的 评分作为整个译文的评分, 通过分值的大小可以直接判断出译文是否 。
S24: 根据所述译文的评分判定所述译文是否 4W。 所述评分判定的方法
Figure imgf000014_0001
其中, 为所述预设判定阈值, 0 < ^ < 1 . 一般取0 < ≤0.3。
在本实施例中, 所述预设判定阈值 δ = 0.00055。
由于 0.0003<0.00055, 则所述译文"复古未来的声音"判定为错误的翻译。 通过不同的翻译系统获取一段英语短语的译文, 对译文的判定结果如图 4 所示。
在其他实施例中,所述预设判定阈值 可以取 0.0005、 0.0007、 0.0008、 0.0009、
0.001等不同的值,根据初始化处理建立的所述检查评分模型的特征 择不同 的判定阈值。
本实施例所提供的译文检查方法, 将打分结果与预设判定阈值进行比较, 直接自动将领域相关的海量译文中 "不正确"或"搛 "的短语译文过滤掉。
实施例 2:
本实施例中除步骤 S13与实施例 1不同, 其他步骤与实施例 1相同, 所述 步骤 S13中计算以 w,开始时 Wj出现的概率 fp (Wi , Wj )的方法为:
从列表 L中得到所有以 τν,开始的二元切分条目, 将二元切分条目中的第二 个字符^加入字符串 S;
将所述字符串 S中的每个字符存入集合 T;
统计所述字符串 S的长度 n, 对于集合 T中的每一个字符 , 统计所述字 符^在字符串 S中出现的次数 m;
则以 IV,开始时 出现的概率 fp (w,. , )为 其中, m, n的初始值为零。 首先统计所述字符串 S的长度 n和所述集合 T中的每一个字符 , 统计所 述字符^在字符串 S中出现的次数 m,然后以 n、m的比值作为以 τν,开始时^出 现的概率 的值, 构思巧妙, 算法简单, 易于实现。
实施例 3:
本实施例中除步骤 S23与实施例 1不同, 其他步骤与实施例 1相同, 所述 步骤 S23中对所述译文进行打分评估的方法为:
Score^ - avg {Score j , z = 1, 2, · · · , « - 1} 其中, Sco 是一条二元切分条目的评分, Score; = fp (w; , fp (wt, )为译 文中的二元切分条目 )在模型中对应的值。
本实施例所提供的译文检查方法, 给译文评分的方法采用取译文中每个二 元条目的平均值, 可以有效避免因一些二元条目没有纳入模型造成的误评分。
实施例 4:
本实施例中除步骤 S12与实施例 1不同, 其他步骤与实施例 1相同, 所述 步骤 S23中对所述译文进行打分评估的方法为:
Score^ = Π Scorei 其中, = 1,2 ..,"— 1, Score,是一条二元切分条目的评分, Score, ^ f^w^ Wj ) , fp (wt, Wj )为译文中的二元切分条目 )在模型中对应的值。
本实施例所提供的译文检查方法, 给译文评分的方法采用取译文中评分的 乘积作为整个译文的评分, 在判断整个译文的正确与否的同时可以根据分值的 大小判断整个译文的翻译盾量。
本系统所述的译文检查方法, 包括初始化处理和检查判定处理。 所述初始 化处理, 基于一批语料, 通过统计领域语料二元切分条目的概率信息, 来获得 二元语法模型, 作为检查评分模型, 为所述检查判定处理时给译文打分提供依 据。 所述检查判定处理, 通过所述检查评分模型给领域译文打分, 将译文得分 与预设判定阈值比较, 将得分小于所述预设判定阈值的译文判定为"错误", 否 则判定为 "正确,,。 上述译文检查方法有效避免了现有技术中对译文检测方法很 大程度上依赖于双语专家或高质量的人工翻译译文作为参照, 同时不能判断正 确与否, 只能判断评测译文的好差程度的问题。
实施例 5: 图 5A是本发明一个实施例的译文检查系统的结构图。本实施例提供一种译 文检查系统, 包括初始化处理装置 51和检查判定处理装置 52。 第一、 所述初始化处理装置 51, 用于基于一批语料, 所述语料为某领域的 语料, 通过统计领域语料二元切分条目的概率信息, 来获得二元语法模型, 作 为检查评分模型, 为所述检查判定处理时给译文打分提供依据。
在一个实施例中, 该初始化处理装置 51具体包括: 获取文本集子装置 511, 用于获取一批某领域的文本集 D, ά≡Ό, 其中 d 表示所述文本集 D的一个文本。 第一二元切分子装置 512 , 用于将所述文本集 D中的每一个文本 d分句后 获得的句子进行二元切分, 并 ^个二元切分条目 ν;+1)存入列表 L, 其中, = 1,2,···, η-1 , η为一个句子所包含的字符个数, 表示句子中的一个字符, wM 表示字符 wt后的一个字符。
在一个实施例中, 如图 5B所示, 该第一二元切分子装置 512具体包括: 分句模块 5121, 用于对所述集合/)中的每一个文本 d分句, 得到 m个句子 , 其中 m为非负整数; L^分句切分模块 5122, 用于对每一个句子 做二元切分, 通过 得到 k个二元切分条目
Figure imgf000016_0001
. O^H ), 每一个句子 包含的字符的个数为 k+1个;
Figure imgf000016_0002
5123, 用于 ^个二元切分条目存入列表 L。
概率计算子装置 513 , 用于将所述列表 L中的每个二元切分条目存入集合 Q , 根据所述集合 Q计算以 开始时^出现的概率^ (Wi, ), 其中, 分 别表示二元切分条目中的第一字符和第二字符。
所述计算以 W,开始时 W.出现的概率 fp (wt , Wj )的方法为:
Figure imgf000017_0001
其中, 表示以 v,开始且^结尾的二元切分条目在列表 L中的出现次 数, 表示以 开始的二元切分条目在列表 L中的出现次数。
作为可替换的实施例, 所述计算以 开始时^出现的概率 的方法 为:
从列表 L中得到所有以 TV,开始的二元切分条目, 将二元切分条目中的第二 个字符^加入字符串 S;
将所述字符串 S中的每个字符存入集合 T;
统计所述字符串 S的长度 n, 对于集合 T中的每一个字符 , 统计所述字 符^在字符串 S中出现的次数 m;
则以 τν,开始时 出现的概率 fp (w,. , 为
其中, m, n的初始值为零。 检查评分模型生成子装置 514,用于将计算得到的所有 保存为所述 检查评分模型。 所述所有 (w, , )^^^ ^文件或二进制文件中。
第二、所述检查判定处理装置 52,用于通过所述检查评分模型给译文打分, 将译文得分与预设判定阈值比较, 将得分小于所述预设判定阈值的译文判定为 否则判定为"正确"。 在一个实施例中, 该检查判定处理装置 52具体包 括:
获取短语译文子装置 521, 用于获取所述领域内短语的译文。
第二二元切分子装置 522,用于对所述译文做二元切分,获得所述译文的二 元切分条目。 所述对所述译文做二元切分的方法与所述初始化处理阶段的方法 相同。 所述二元切分采用 CJK分词器进行二元切分。
译文打分评估子装置 523,用于根据所述检查评分模型对所述译文进行打分 评估。
对所述译文进行打分评估的方法为:
Score译― Min{Scorei — 2, · · ·, η— 1} 其中, Sco^是一条二元切分条目的评分, Sco = fp (wt Λ , )为译 文中的二元切分条目(w, )在模型中对应的值。
作为可替换的实施例, 对所述译文进行打分评估的方法为:
Score^ - avg {Score j , z = 1, 2, · · · , « - 1} 其中, Sco 是一条二元切分条目的评分, Score = fp (wt /P(w,,w,)为译 文中的二元切分条目 )在模型中对应的值。
作为可替换的实施例, 对所述译文进行打分评估的方法为:
Score^ = Π Scorei 其中, = 1,2,...," - 1, Score,是一条二元切分条目的评分, Scores f^ Wj ) , fp (wt, Wj )为译文中的二元切分条目 )在模型中对应的值。
判定子装置 524,用于根据所述译文的评分判定所述译文是否错误。所述评 分判定的方法为:
/ — /错误 Score^<5
= 正确 &ore译≥<? 其中, 为所述预设判定阈值, 0 < ≤1。 在本实施中, 所述预设判定阈值 = 0.00055。 在其他实施例中, 所述预设判定阈值 的取值范围为 0 < ≤0.3。 本发明所述的译文检查系统, 利用译文检查方法, 有效避免了现有技术中 对译文检测方法很大程度上依赖于双语专家或高质量的人工翻译译文作为参照 , 同时不能判断正确与否, 只能判断评测译文的好差程度的问题。
显然, 上述实施例仅仅是为清楚地说明所作的举例, 而并非对实施方式的 限定。 对于所属领域的普通技术人员来说, 在上述说明的基础上还可以做出其 它不同形式的变化或变动。 这里无需也无法对所有的实施方式予以穷举。 而由
.明创 ϋ
本领域内的技术人员应明白, 本发明的实施例可提供为方法、 系统、 或计 算机程序产品。 因此, 本发明可采用完全硬件实施例、 完全软件实施例、 或结 合软件和硬件方面的实施例的形式。 而且, 本发明可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介盾 (包括但不限于磁盘存储器、
CD-ROM, 光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、 i殳备(系统)、和计算机程序产品 的流程图和 /或方框图来描述的。 应理解可由计算机程序指令实现流程图和 / 或方框图中的每一流程和 /或方框、 以及流程图和 /或方框图中的流程和 /或 方框的结合。 可提供这些计算机程序指令到通用计算机、 专用计算机、 嵌入式 处理机或其他可编程数据处理设备的处理器以产生一个机器, 使得通过计算机 或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流 程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备 以特定方式工作的计算机可读存储器中, 使得存储在该计算机可读存储器中的 指令产生包括指令装置的制造品, 该指令装置实现在流程图一个流程或多个流 程和 /或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使 得在计算机或其他可编程 i殳备上执行一系列操作步骤以产生计算机实现的处理, 从而在计算机或其他可编程设备上执行的指令提供用于实现在¾½图一个 或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。 尽管已描述了本发明的优选实施例, 但本领域内的技^ 员一旦得知了基 本创造性概念, 则可对这些实施例作出另外的变更和修改。 所以, 所附权利要 求意欲解释为包括优选实施例以及落 发明范围的所有变更和修改。

Claims

权 利 要 求
1. 一种译文检查方法, 包括初始化处理和检查判定处理, 其特征在于: 所述初始化处理, 基于一批语料, 通过统计所述语料二元切分条目的概率 信息, 来获得二元语法模型, 作为检查评分模型, 为所述检查判定处理时给译 文打分提 据; 所述检查判定处理, 通过所述检查评分模型给译文打分, 将译文得分与预 设判定阈值比较, 将得分小于所述预设判定阈值的译文判定为"错误", 否则判 定为"正确"。
2. 根据权利要求 1所述的译文检查方法, 其特征在于: 所述初始化处理的 步骤如下: 获取文本集 D, ά≡Ό, 其中 d表示所述文本集 D的一个文本; 将所述文本集 D中的每一个文本 d分句后获得的句子进行二元切分, 并将 每个二元切分条目(^ ^+1)存入列表 L, 其中, = 1,2,···, n-l, n为一个句子所包 含的字符个数, ^表示句子中的一个字符, ^+1表示字符 后的一个字符; 将所述列表 L中的每个二元切分条目存入集合 Q,根据所述集合 Q计算以 开始时 Wj出现的概率 fp (W; , Wj ) , 其中 、 Wj分别表示二元切分条目中的第一 字符和第二字符; 将计算得到的所有 保存为所述检查评分模型。
3. 根据权利要求 1所述的译文检查方法, 其特征在于: 所述检查判定处理 的步骤如下:
获取短语的译文; 对所述译文做二元切分, 获得所述译文的二元切分条目; 根据所述检查评分模型对所述译文进行打 ^^估; 根据所述译文的评分判定所述译 否 ^。
4. 根据权利要求 2所述的译文检查方法, 其特^于, 所述将所 i^ L^集 D中的每一个 分句后获得的句子进行二元切分, 并 ^个二元切分条目 存入列表 L的处理包括如下步骤: 对所述集合 D中的每一个文本 d进行分句处理, 得到 m个句子 , 其中 m为非负整数; 对所述每一个句子 做二元切分, 通过 得到 k 个二元切分条目 每一个句子 包含的字符的个数为 k+1个;
jj^H r个二元切分条目存入列表 L。
5. 根据权利要求 2所述的译文检查方法, 其特征在于, 所述计算以 ,开始 时 出现的概率 fp (wt , Wj )的方法为:
Figure imgf000021_0001
其中, v, , )表示以 τν,开始且^结尾的二元切分条目在列表 L 中的出现 次数, 表示以 w,开始的二元切分条目在列表 L中的出现次数。
6. 根据权利要求 2或 4或 5所述的译文检查方法, 其特 ^于, 所述计算 以 TV,开始时 出现的概率 fp (wt , Wj )的方法为:
从列表 L中得到所有以 TV,开始的二元切分条目, 将二元切分条目中的第二 个字符^加入字符串 S; 将所述字符串 S中的每个字符存入集合 T;
统计所述字符串 S的长度 n, 对于集合 T中的每一个字符 , 统计所述字 符^在字符串 S中出现的次数 m;
则以 τν,开始时 出现的概率 fp (wt , 为
A(w,,w )=m/n 其中, m, n的初始值为零。
7. 根据权利要求 2或 5或 6所述的译文检查方法, 其特征在于: 所述对所 述译文做二元切分的方法与所述初始化处理的方法相同; 或, 所述二元切分采用 CJK分词器进行二元切分。
8. 根据权利要求 2-7任一所述的译文检查方法, 其特征在于, 所述对所述 译文进行打^^估的方法为:
Score译― Min{Scorei , / = 1, 2, · · ·, η— 1} 其中, Sco 是一条二元切分条目的评分, Sco = fp (wt , fp (wt, )为译 文中的二元切分条目(w, )在模型中对应的值; 或,
所述对所述译文进行打分评估的方法为:
Score^ - avg {Score j ,ί - 1, 2, · · ·,η 1} 其中, 。 re,是一条二元切分条目的评分, Score;
文中的二元切分条目(W, )在模型中对应的值; 或,
所述对所述译文进行打分评估的方法为:
Score^ = Π Scorei 其中, = 1, 2,… , "— 1, Score,是一条二元切分条目的评分, Score, = fp (wt fp (wt, Wj )为译文中的二元切分条目(w, )在模型中对应的值。
9.根据权利要求 1-8任一所述的译文检查方法,其特征在于: 所述评分判定 的方法为:
j, ― ί错误 Score^<5
reSUlt― j正确 &ore译≥<?
其中, 为所述预设判定阈值, 0 < ≤1。
10.根据权利要求 1-9任一所述的译文检查方法,其特 ^于: 所述预设判 定阈值 δ的取值范围为 0 < ≤ 0.3, 优选地所述预设判定阈值 δ = 0.00055。
11.根据权利要求 1-9任一所述的译文检查方法,其特征在于, 所述将所有 (wt ^ 在 文件或二进制文件中。
12. 一种译文检查系统, 包括初始化处理装置和检查判定处理装置, 其特 于:
所述初始化处理装置, 用于基于一批语料, 通过统计所述语料二元切分条 目的概率信息, 来获得二元语法模型, 作为检查评分模型, 为所述检查判定处 理时给译文打分提^ ^据;
所述检查判定处理装置, 用于通过所述检查评分模型给译文打分, 将译文 得分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为"餘 ", 否则判定为"正确"。
13. 根据权利要求 12所述的译文检查系统, 其特征在于: 所述初始化处理 装置包括:
获取文本集子装置, 用于获取文本集 D, ά≡Ό, 其中 d表示所述文本集 D 的一个文本;
第一二元切分子装置, 用于将所述文本集 D中的每一个文本 d分句后获得 的句子进行二元切分, 并将每个二元切分条目(w;w;+1)存入列表 L, 其中, = 1,2,···, η-1 , η为一个句子所包含的字符个数, 表示句子中的一个字符, wM 表示字符 Wi后的一个字符;
概率计算子装置, 用于将所述列表 L中的每个二元切分条目存入集合 Q, 根据所述集合 Q计算以 开始时^出现的概率^ 子装置,其中, Wi、 分 别表示二元切分条目中的第一字符和第二字符; 检查评分模型生成子装置, 用于将计算得到的所有 ^ , )保存为所述检 查评分模型。
14. 根据权利要求 12所述的译文检查系统, 其特征在于: 所述检查判定处 理装置包括:
获取短语译文子装置, 用于获取短语的译文;
第二二元切分子装置, 用于对所述译文做二元切分, 获得所述译文的二元 切分条目; 译文打分评估子装置, 用于根据所述检查评分模型对所述译文进行打分评 估;
判定子装置, 用于根据所述译文的评分判定所述译文是否错误。
15. 根据权利要求 13所述的译文检查系统, 其特征在于, 所述第一二元切 分子装置包括:
文本分句模块, 用于对所述集合 D中的每一个文本 d分句, 得到 m个句子 s^2 , -,sm , 其中 m为非负整数; 文本分句切分模块, 用于对每一个句子 做二元切分, 通过 得到 k个二元 切分条目(W! W2 )(W2W3 )■■■ (wkWk+1 ), 每一个句子 包含的字符的个数为 k+1个; 模块, 用于 ^个二元切分条目存入列表 L。
16. 根据权利要求 13所述的译文检查系统, 其特 于, 所述计算以 τν,开 始时^出现的概率 fp (wt , 方法为:
Figure imgf000024_0001
其中, /, , )表示以 τν,开始且^结尾的二元切分条目在列表 L 中的出现 次数, 表示以 w,开始的二元切分条目在列表 L中的出现次数。
17. 根据权利要求 13或 15或 16所述的译文检查系统, 其特征在于, 所述 计算以 TV,开始时 出现的概率 fp (Wi , Wj )的方法为:
从列表 L中得到所有以 TV,开始的二元切分条目, 将二元切分条目中的第二 个字符^加入字符串 S;
将所述字符串 S中的每个字符存入集合 T;
统计所述字符串 S的长度 n, 对于集合 T中的每一个字符 , 统计所述字 符^在字符串 S中出现的次数 m;
则以 τν,开始时 出现的概率 fp (w,. , 为
A (w,,w )=m/n
其中, m, n的初始值为零。
18. 根据权利要求 13或 16或 17所述的译文检查系统, 其特征在于: 所述 对所述译文做二元切分的方法与所述初始化处理阶段的方法相同; 或,
所述二元切分采用 CJK分词器进行二元切分。
19. 根据权利要求 13-18任一所述的译文检查系统, 其特征在于, 所述对 所述译文进行打分评估的方法为:
Score译― Min{Scorei , / = 1, 2, · · ·, η— 1} 其中, Sco 是一条二元切分条目的评分, Sco = fp (wt , fp (wt, )为译 文中的二元切分条目(w, )在模型中对应的值; 或,
所述对所述译文进行打分评估的方法为:
Score^ - avg {Score j ,ί - 1, 2, · · ·,η 1}
其中, 。 re,是一条二元切分条目的评分, Score;
文中的二元切分条目(W, )在模型中对应的值;
或,
所述对所述译文进行打分评估的方法为:
Score^ = Π Scorei 其中, = 1, 2,… , "— 1, Score,是一条二元切分条目的评分, Score, = fp (w; fp (wt, Wj )为译文中的二元切分条目(w, )在模型中对应的值。
20.根据权利要求 12-19任一所述的译文检查系统, 其特征在于: 所述评分 判定的方法为:
γρ^,η― /错误 & 译
,^ 〃— 正确 &ore译≥<?
其中, 为所述预设判定阈值, 0 < ≤1。
21.根据权利要求 12-18任一所述的译文检查系统,其特征在于: 所述预设 判定阈值 δ的取值范围为 0 < ≤ 0.3, 优选所述预设判定阈值 δ = 0.00055。
22.根据权利要求 12-20任一所述的译文检查系统,其特征在于,所述所有
^ ,Μ^ 在 文件或二进制文件中。
23. 一种或多种具有计算机可执行指令的计算机可读介盾, 所述指令在由 计算机执行时, 执行译文检查方法, 该方法包括初始化处理和检查判定处理, 其中:
所述初始化处理, 基于一批语料, 通过统计所述语料二元切分条目的概率 信息, 来获得二元语法模型, 作为检查评分模型, 为所述检查判定处理时给译 文打分提 据; 所述检查判定处理, 通过所述检查评分模型给译文打分, 将译文得分与预 设判定阈值比较, 将得分小于所述预设判定阈值的译文判定为"错误", 否则判 定为"正确"。
PCT/CN2013/088743 2013-09-29 2013-12-06 一种译文检查方法及其系统 WO2015043071A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310456548.2 2013-09-29
CN201310456548.2A CN104516870B (zh) 2013-09-29 2013-09-29 一种译文检查方法及其系统

Publications (1)

Publication Number Publication Date
WO2015043071A1 true WO2015043071A1 (zh) 2015-04-02

Family

ID=52741912

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/088743 WO2015043071A1 (zh) 2013-09-29 2013-12-06 一种译文检查方法及其系统

Country Status (2)

Country Link
CN (1) CN104516870B (zh)
WO (1) WO2015043071A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354188A (zh) * 2015-11-18 2016-02-24 成都优译信息技术有限公司 用于翻译教学系统的批量评分方法
CN108228576B (zh) * 2017-12-29 2021-07-02 科大讯飞股份有限公司 文本翻译方法及装置
CN108073571B (zh) * 2018-01-12 2021-08-13 中译语通科技股份有限公司 一种多语言文本质量评估方法及系统、智能文本处理系统
CN109118109B (zh) * 2018-08-31 2021-06-01 传神语联网网络科技股份有限公司 基于etm的质量评估
CN109522301A (zh) * 2018-11-07 2019-03-26 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及存储介质
CN111046679B (zh) * 2020-03-13 2020-07-28 腾讯科技(深圳)有限公司 翻译模型的质量信息获取方法、装置及计算机设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100555270C (zh) * 2004-01-13 2009-10-28 中国科学院计算技术研究所 一种机器翻译自动评测方法及其系统
CN101739867B (zh) * 2008-11-19 2012-03-28 中国科学院自动化研究所 运用计算机对口语翻译质量进行评分的方法
CN101777044B (zh) * 2010-01-29 2012-07-25 中国科学院声学研究所 利用语句结构信息的机器翻译自动评测系统及实现方法
US8775155B2 (en) * 2010-10-25 2014-07-08 Xerox Corporation Machine translation using overlapping biphrase alignments and sampling
US9471667B2 (en) * 2012-03-26 2016-10-18 Educational Testing Service Systems and methods for evaluating multilingual text sequences

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DING, HUAFU ET AL.: "Practice on Automatic Evaluation of Machine Translation Quality", JOURNAL OF HEILONGJIANG INSTITUTE OF TECHNOLOGY, vol. 16, no. 03, 30 September 2002 (2002-09-30), pages 56 - 60 *
PAN, LU ET AL.: "Automatically Evaluating the MT Quality Based on Language Model", PROCEEDINGS OF THE 3RD NATIONAL CONFERENCE ON INFORMATION RETRIEVAL AND CONTENT SECURITY, 1 November 2007 (2007-11-01), pages 364 *
XU, JIN'AN ET AL.: "A N-gram based Automatic MT Evaluation Method without Reference Translations", RESEARCH PROGRESS OF MACHINE TRANSLATION-PROCEEDINGS OF SYMPOSIUM ON THE 7 TH CHINA WORKSHOP ON MACHINE TRANSLATION, 30 September 2011 (2011-09-30), pages 231 *
YIN, BAOSHENG ET AL.: "Research on Automatic Translation Quality Evaluation Technology without Translation References for Large-Scale Translations", JOURNAL OF SHENYANG AEROSPACE UNIVERSITY, vol. 29, no. 1, 29 February 2012 (2012-02-29), pages 71 - 74 *

Also Published As

Publication number Publication date
CN104516870B (zh) 2018-08-07
CN104516870A (zh) 2015-04-15

Similar Documents

Publication Publication Date Title
CN109871545B (zh) 命名实体识别方法及装置
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN110427618B (zh) 对抗样本生成方法、介质、装置和计算设备
US9672817B2 (en) Method and apparatus for optimizing a speech recognition result
US20170031901A1 (en) Method and Device for Machine Translation
JP6335898B2 (ja) 製品認識に基づく情報分類
WO2015043071A1 (zh) 一种译文检查方法及其系统
WO2014048172A1 (en) Method and system for correcting text
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN109062912B (zh) 一种翻译质量评价方法及装置
WO2014117553A1 (en) Method and system of adding punctuation and establishing language model
US9811517B2 (en) Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text
WO2022042297A1 (zh) 文本聚类方法、装置、电子设备及存储介质
US9020803B2 (en) Confidence-rated transcription and translation
CN111324831A (zh) 一种欺诈网站的检测方法及装置
Chiu et al. Chinese spell checking based on noisy channel model
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN112183117B (zh) 一种翻译评价的方法、装置、存储介质及电子设备
CN114444491A (zh) 新词识别方法和装置
Fialho et al. INESC-ID at ASSIN:: measuring semantic similarity and recognizing textual entailment
Mengyao et al. Grouping microblog users of trending topics based on sentiment analysis
Mansikkaniemi et al. Adaptation of morph-based speech recognition for foreign names and acronyms
KR101288900B1 (ko) 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템
US20240126991A1 (en) Automated interaction processing systems
Elyashar et al. How does that name sound? Name representation learning using accent-specific speech generation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13894154

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13894154

Country of ref document: EP

Kind code of ref document: A1