WO2016206582A1 - 计算机辅助翻译方法及程序 - Google Patents

计算机辅助翻译方法及程序 Download PDF

Info

Publication number
WO2016206582A1
WO2016206582A1 PCT/CN2016/086628 CN2016086628W WO2016206582A1 WO 2016206582 A1 WO2016206582 A1 WO 2016206582A1 CN 2016086628 W CN2016086628 W CN 2016086628W WO 2016206582 A1 WO2016206582 A1 WO 2016206582A1
Authority
WO
WIPO (PCT)
Prior art keywords
language
translation
computer
markup
template
Prior art date
Application number
PCT/CN2016/086628
Other languages
English (en)
French (fr)
Inventor
张云鹏
Original Assignee
张云鹏
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 张云鹏 filed Critical 张云鹏
Publication of WO2016206582A1 publication Critical patent/WO2016206582A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Definitions

  • the present invention relates to a Computer Aided Translation (CAT) method.
  • CAT Computer Aided Translation
  • RBMT statistic-based machine translation
  • SMT instance-based machine translation
  • TBMT template-based machine translation
  • TM computer-aided translation technologies
  • Both machine translation and computer-assisted translation are sentences that translate a statement of a language to be translated (hereinafter, referred to as a first language) into a target language (hereinafter, referred to as a second language).
  • a first language a statement of a language to be translated
  • a target language hereinafter, referred to as a second language
  • the first language is on the left side
  • the second language as a translation result is located on the right side.
  • a language segment refers to each component of a sentence, which can be roughly classified into a vocabulary having an actual meaning and an element representing only grammatical information (for example, a prompting subject in Japanese or the like), etc. For example, eated can also be classified. For the segment portion "eat” which represents the actual meaning and the fragment portion "ed” which represents the syntax of the state.
  • the correspondence relationship can be displayed only one by one.
  • the change of word order cannot be displayed.
  • English is a typical subject-predicate (SVO) word order
  • Japanese is SOV.
  • Word order the product shown in Figure 1 can not display the original word order position of the sub-unit in the second language, you must refer to the display on the left to grasp the original word order position.
  • the syntax elements of the first language that have been hidden, and the like cannot be displayed in the second language. For example, "s" in apples means plural, and Chinese, Japanese, etc. often do not use plurals. Therefore, only referring to "apple” in the second language, it is impossible to know whether Apple corresponds to "apples" or "apple,” .
  • the present invention provides a computer-assisted translation method, which is executed by a computer, wherein the computer-assisted translation method includes the following processing:
  • the computer-assisted translation method further includes the following markup element clearing process: the markup element is cleared in response to an indication by the user to clear the markup element.
  • the corresponding location may include adjusting the position before the word order and adjusting the position after the word order.
  • the corresponding location may include a location at which splitting occurs.
  • the marking element may be a character or a picture.
  • a computer-assisted translation program that causes a computer to perform the following processing:
  • pre-translation processing processing each language segment in the statement of the first language into a language segment of the second language
  • the computer-assisted translation program also causes the computer to perform the following markup element clearing process: the markup element is cleared in response to an indication by the user to clear the markup element.
  • the corresponding location may include adjusting the position before the word order and adjusting the position after the word order.
  • the corresponding location may include a location at which splitting occurs.
  • the marking element may be a character or a picture.
  • FIG. 1 shows an example for explaining a correspondence relationship in an existing translation product.
  • FIG. 2 shows the composition of the auxiliary translation program P.
  • FIG. 3 shows an example of a translation template.
  • FIG. 4 shows an example of a markup template corresponding to a translation template.
  • FIG. 5 shows an example of a translation result showing a marked element.
  • FIG. 6 shows an example of a tag template in which a tag element is attached in a dictionary.
  • FIG. 7 shows an example of a dictionary with part of speech.
  • the computer-aided translation method of the present invention can be implemented, for example, by the PC 1 as a personal computer executing the auxiliary translation program P.
  • the auxiliary translation program P is stored, for example, in a network accessible by a computer or a readable medium such as a CDROM or the like.
  • the personal computer PC1 may be a usual personal computer having a processor, a memory, a display, a mouse and keyboard, and the like.
  • the personal computer PC1 performs translation processing by downloading and executing the auxiliary translation program P from the network or from the CDROM medium storing the auxiliary translation program P.
  • the auxiliary translation program P is configured to include a pre-translation module P1, a mark element display module P2, and a mark element clearing module P3.
  • the user instructs the auxiliary translation program P to perform translation processing through a keyboard or a mouse.
  • the pre-translation module P1 the pre-translation is performed based on the existing translation method for the statement of the first language to be translated.
  • pre-translation processing each language segment in the first language sentence into a second language The language segment, and adjust the word order.
  • template-based machine translation technology can be employed for pre-translation.
  • TBMT template-based machine translation
  • a template is composed of two languages, a source language (first language) and a target language (second language), including variables (specific language fragments) and variables (variable language fragments). String.
  • the template also shows the corresponding translation relationship between strings in both languages.
  • a translation template such as "I like [A] ⁇ private "[ ⁇ ] 4 ⁇ , inch” is stored in a translation template library implemented by a text file.
  • the words "I” and “like” in the template are constant fragments (specific word fragments) in the first language, and [A] are variable fragments (variable word fragments) in the first language.
  • the "private sum" in the template is ⁇ 'inch' as a constant fragment of the second language (specific word fragment), [A] is a variable fragment of the second language (variable word fragment).
  • the template with the highest degree of similarity is first selected from the translation template library.
  • the degree of approximation can be calculated based on the number of occurrence constants in the statement to be translated, and the more the number of constants that appear, the more the degree of approximation.
  • the template shown in Figure 3 the template shown by "I eat [A]” appears only in the statement to be translated, and "eat” does not appear in the statement to be translated, that is, the degree of similarity is 1.
  • the pre-translation module P1 records, for example, the start and end positions of the respective constants and variables in the translation result in the memory.
  • the constant "private start position and end position are 1 and 2, respectively, and the variable corresponding to "Lin”
  • the starting and ending positions of "[A]” are 3 and 4, respectively, and the initial and ending positions of the constant "'good ⁇ 'inch” are 5 and 9, respectively.
  • the markup element display module P2 the markup element is displayed based on the markup template for the result of the pre-translation. For example, as shown in FIG. 4, a markup template such as "I like [eight] - private li ⁇ like > [A] ⁇ good ⁇ 'inch> ⁇ like>" is stored in the markup template library implemented by the text file.
  • the tag template can be obtained by adding a tag element based on the translation template.
  • the markup template is divided into the following three parts:
  • the left part shown by "I like [A]” corresponds to the first language part in the translation template, which is the name of the template, which can be used as a key to uniquely identify the template;
  • Like>[A] ⁇ good ⁇ T inch>” The middle part is obtained by adding a markup element to the second language part of the translation template (as with the translation template, ⁇ showing the first language part and the second language)
  • the corresponding part of the relationship; the right part shown by " ⁇ like>” is used to clear the markup element in the processing described later.
  • a ⁇ " equal separator can be used to separate each markup element.
  • the marked elements can be displayed in bold italics.
  • the mark element is displayed according to the start position and the end position of each constant and variable recorded by the pre-translation module PI, and finally The result of "I like apple” becomes “private « like leak f good Ti;, after displaying the mark element.
  • the markup element display module P2 can save the position of the markup element.
  • the start and end positions of the marker elements shown by ⁇ like> are 3 and 6, respectively.
  • the marker elements have a start position and an end position of 10 and 13, respectively.
  • the word order of the first language is adjusted to the word order of the second language, and in the translation result as the second language, respectively, the position before the language segment is adjusted and the adjusted word order
  • the subsequent position displays the markup element so that the user can intuitively grasp the correspondence and relative position between the segment in which the word order transformation occurs and the segment before the translation in the translation result.
  • the auxiliary translation program P can be instructed by a keyboard or a mouse to clear the marker element.
  • the shortcut F8 can be assigned to the operation of "clearing marker elements".
  • the markup element clearing module P3 responds to the indication made by the user, based on the portion of the markup template that needs to be cleared, based on the start position and end of the markup element recorded in the markup element display module P2. Position, clear the markup element in the translation result.
  • mark element clearing module P3 is not necessary.
  • the markup element clearing module P3 can also be omitted. In this case, the user can manually clear the marker element, and the right part of the marker template can also be omitted.
  • the translation template and the markup template are stored in different files.
  • the translation template since the left and middle portions of the markup template are obtained by adding markup elements to the translation template, the translation template can be used, and the translation template file can be omitted.
  • the method in which the constants shown above appear in the number is only an example,
  • the approximation of the order of occurrence of the constant in the template and the similarity of the order of occurrence of the constant in the translation ie, the similarity of the word order, etc.
  • the approximation of the order of occurrence of the constant in the template and the similarity of the order of occurrence of the constant in the translation can be used to increase the approximation of the calculation template and the sentence to be translated.
  • other methods can be used to select the template that best matches the statement to be translated.
  • pre-translation may be performed by other methods.
  • rule-based machine translation techniques can be employed for pre-translation.
  • RBMT rule-based machine translation technology
  • a markup template is created corresponding to each translation rule in the library in which the translation rule is stored, and the markup element is displayed for the rule-based pre-translated result.
  • the processing in this example includes pre-translation processing, mark element display processing, and mark element clear processing. Since only the pre-translation processing is different from the first and second embodiments, only the pre-translation processing will be described in the following description.
  • rules A1 to A5 which indicate the sentence structure of an English sentence (hereinafter, rules A1 to A5 are collectively referred to as rule A).
  • Gauge 1JA1 SI ⁇ NP VP
  • the rule Al indicates that the English sentence SI can be composed of the noun phrase NP, the auxiliary word "and the verb phrase VP"
  • Rule A2 indicates that the noun phrase NP can be composed of a helper word and two noun phrases NP.
  • Rule A3 indicates that the noun phrase NP can be composed of the noun N (for the sake of simplicity, in this example, the pronoun is also interpreted as a noun).
  • Rule A4 indicates that the verb phrase VP can be composed of the noun phrase NP and the verb phrase VP.
  • Rule A5 indicates that the verb phrase VP can be composed of the verb V.
  • rule Bl indicates that the sentence S2 can be composed of the noun phrase NP, the auxiliary word and the verb phrase VP.
  • Rule B2 indicates that the noun phrase NP can be composed of a helper word connecting two noun phrases NP.
  • Rule B3 indicates that the noun phrase NP can be composed of the noun N (for simplicity of explanation, in this example, the pronoun is also interpreted as a noun).
  • Rule B4 indicates that the verb phrase VP can be composed of the noun phrase NP, the auxiliary word composition 3 ⁇ 4, and the verb phrase VP.
  • Rule B5 indicates that the verb phrase VP can be composed of the verb V.
  • the rules Al, Bl, rules A2, B2, rules A3, B3, rules A4, B4, and rules A5, B5 are respectively corresponding translation relations.
  • the noun N and the verb V can be translated by finding a dictionary.
  • the term "terminal” refers to the smallest unit in which rule analysis can be performed in rule-based translation processing.
  • " ⁇ " and “>” are used to indicate a markup element, and thus ⁇ ?> in rule B4 is a markup element.
  • each character is composed of an English word, a corresponding Japanese word, and part of speech.
  • the pre-translation processing is performed based on the rule-based method and the display processing of the comparison elements is performed, and the same effects as those of the first and second embodiments can be obtained.
  • the translation rule may be described in the template file, or may be built in the program, which is not limited thereto.
  • Other variants may be described in the template file, or may be built in the program, which is not limited thereto.
  • the mark element is cleared according to the display position of the mark element. However, it can also be cleared based on the display information (text content, font color, bold, italic, underline, etc.) of the marker element or the display information and position of the combination marker element.
  • the display of the markup element can be recorded in, for example, an internal memory, so that the markup element can directly access the memory in the subsequent process, and the text content, display mode, etc. of the markup element to be cleared can be obtained. Information, and based on this information to clear the markup element.
  • the mark element may be displayed using a color specific to the mark element, and in the display mark clearing process, the clear is performed by determining whether the color of the translation result is a dedicated color.
  • the mark element may be displayed using a color specific to the mark element, and in the display mark clearing process, the clear is performed by determining whether the color of the translation result is a dedicated color.
  • the display method of the markup element is built-in, but it is also possible to add a content for specifying how the markup element is displayed in the markup template file, and the color and size of the displayed font are specified by the user. Wait. This allows the user to change to their preferred display mode by editing the marker template.
  • the mark element is realized by adjusting the display mode (font color, etc.) of the text, but it may be displayed by means of a picture.
  • a picture showing "like” and “good ⁇ , inch” can be generated, and a picture can be inserted and inserted at a position corresponding to "like", and corresponding to "good ⁇ 'inch”
  • the location overlay displays the image.
  • the picture that plays the mark function can be cleared.
  • the markup template for the pair of markup elements such as the word-order transformation, in addition to the font, the color, and the like, it is preferable to embody the semantic correspondence in the markup element.
  • the markup element corresponding to "good” it is preferable to use a display mode such as "like” which can express the corresponding semantics.
  • a markup element may be added to the dictionary to define a markup template as shown in Fig. 6. Similar to the above description, the markup template is divided into three parts: the left side is the template's key; the middle part is used to display the markup element; and the right side is used to clear the markup element in subsequent processing.
  • mark element display module P2 for example, "apples” is processed as “Apple s”, so that the user can intuitively view in the statement of the second language as a result of the translation
  • grammatical elements that have been hidden or cleared (for example, singular, plural, negative, positive, etc.), so that users can easily translate the results based on these grammatical elements. Make corrections.
  • the text file-based translation template library and the tag template library shown above are only examples, and may also adopt X.
  • the above description is made by a personal computer, but the computer can also be made with a network (package) Including a local area network, a virtual local area network, the Internet, etc.
  • a connection is made to deploy one or more modules of the auxiliary translation program P to servers on the network.
  • the pre-translation module P1 the markup element display module P2 may be deployed on a server on the Internet
  • the markup element clearing module P3 may be deployed on the client, thereby forming an auxiliary translation system composed of a server and a client.
  • the auxiliary translation programs P may all be deployed on a server on the Internet for using the functions provided by the auxiliary translation program P through the browser.
  • the present invention can be applied to a computer-assisted translation method or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种计算机辅助翻译方法,其由计算机执行,其中,所述计算机辅助翻译方法包含如下处理:预翻译处理,将第一语言的语句中的各个语言片段处理为第二语言的语言片段,并对语序进行调整;以及标记元素显示处理,在通过所述预翻译处理得到的作为第二语言的预翻译结果中,在与所述第一语言的语言片段相应的位置显示标记元素。所述计算机辅助翻译方法还可以包含如下标记元素清除处理:响应于用户做出的用于清除标记元素的指示,将所述标记元素清除。由此,可使用户便于识别第一语言和第二语言的对应关系。

Description

计算机辅助翻译方法及程序 技术领域
[0001] 本发明涉及计算机辅助翻译 (CAT: Computer Aided Translation) 方法。
背景技术
[0002] 目前, 基于计算机实现的机器翻译 (MT) 技术有可分为基于规则的机器翻译
(RBMT) 、 基于统计的机器翻译 (SMT) 、 基于实例的机器翻译 (EBMT) 、 基于模板的机器翻译 (TBMT) 的机器翻译技术等。 另外, 还存在以翻译记忆 ( translation memory, TM) 技术为代表的计算机辅助翻译技术。
技术问题
[0003] 无论是机器翻译还是计算机辅助翻译, 都是将待翻译语言 (以下, 有吋记作第 一语言) 的语句翻译成目标语言 (以下, 有吋记作第二语言) 的语句。 但在目 前的计算机翻译 (包括计算机机器翻译和计算机辅助翻译) 产品中, 在第一语 言和第二语言之间的对应关系的显示方面存在许多问题。
[0004] 例如, 如图 1所示, 第一语言位于左侧, 作为翻译结果的第二语言位于右侧。
它们分别由多个语言片段 (以下有吋简称做片段) 构成。 所谓语言片段是指句 子的各个组成部分, 它们可大体分类为具有实际含义的词汇以及仅表示语法信 息的元素 (例如, 日语等中的提示主语的' ") 等。 例如, 也可以将 eated分为 作为表示实际含义的片段部分" eat"和表示吋态语法的片段部分 "ed"。
[0005] 如图 1所示, 在现有的翻译产品中, 例如, 如果将鼠标放置在第二语言的语句 的某个语言片段上, 则在第一语言的语句中以阴影的方法显示对应的语言片段 。 这种显示方法存在如下问题, 首先, 必须通过鼠标等切换到显示对应关系的 模式, 例如, 在图 1所示例子中, 需要将鼠标放置在某个片段上, 切换到显示对 应关系的模型, 才显示对应关系。 如果鼠标不指示某个片段, 则不显示两种语 言的子元素之间的对应关系。
[0006] 此外, 例如如图 1所示的例子那样, 只能一个一个地显示对应关系。 此外, 不 能显示语序的变化, 例如, 英语是典型的主谓宾 (SVO) 语序, 而日语是 SOV 语序, 图 1所示的产品不能在第二语言中显示出子单位原来的语序位置, 必须参 考左侧的显示才能掌握原来的语序位置。 此外, 不能在第二语言中显示出已被 隐藏的第一语言的语法元素等。 例如, 诸如 apples中的 "s"表示复数, 而中文、 日 语等往往不使用复数, 因此, 仅参照第二语言中的 "苹果", 则无法知晓苹果对应 的是" apples"还是" apple,,。
问题的解决方案
技术解决方案
[0007] 针对上述问题, 本发明提供一种计算机辅助翻译方法, 其由计算机执行, 其中 [0008] 所述计算机辅助翻译方法包含如下处理:
[0009] 预翻译处理, 将第一语言的语句中的各个语言片段处理为第二语言的语言片段 ; 以及
[0010] 标记元素显示处理, 在通过所述预翻译处理得到的作为第二语言的预翻译结果 中, 在与所述第一语言的语言片段相应的位置显示标记元素。
[0011] 此外, 所述计算机辅助翻译方法还包含如下标记元素清除处理: 响应于用户做 出的用于清除标记元素的指示, 将所述标记元素清除。
[0012] 此外, 所述相应的位置可以包括调整语序之前的位置和调整语序之后的位置。
[0013] 此外, 所述相应的位置可以包括发生拆分的位置。
[0014] 此外, 所述标记元素可以是字符或图片。
[0015] 一种计算机辅助翻译程序, 其使计算机执行如下处理:
[0016] 预翻译处理, 将第一语言的语句中的各个语言片段处理为第二语言的语言片段 ; 以及
[0017] 标记元素显示处理, 在通过所述预翻译处理得到的作为第二语言的预翻译结果 中, 在与所述第一语言的语言片段相应的位置显示标记元素。
[0018] 此外, 所述计算机辅助翻译程序还使计算机执行如下标记元素清除处理: 响应 于用户做出的用于清除标记元素的指示, 将所述标记元素清除。
[0019] 此外, 所述相应的位置可以包括调整语序之前的位置和调整语序之后的位置。
[0020] 此外, 所述相应的位置可以包括发生拆分的位置。 [0021] 此外, 所述标记元素可以是字符或图片。
发明的有益效果
有益效果
[0022] 通过以上方式, 可以在作为第二语言的翻译结果中, 直观地表现出第二语言的 片段与第一语言的片段之间的对应关系。 对附图的简要说明
附图说明
[0023] 图 1示出了用于说明现有的翻译产品中显示对应关系的例子。
[0024] 图 2示出了辅助翻译程序 P的组成结构。
[0025] 图 3示出了翻译模板的例子。
[0026] 图 4示出了与翻译模板对应的标记模板的例子。
[0027] 图 5示出了显示有标记元素的翻译结果的例子。
[0028] 图 6示出了在词典中附加标记元素的标记模板的例子。
[0029] 图 7示出了带有词性的词典的例子。
实施该发明的最佳实施例
本发明的最佳实施方式
[0030] 实施方式 1
[0031] 本发明的计算机辅助翻译方法例如可由作为个人计算机的 PC1执行辅助翻译程 序 P来实现。 辅助翻译程序 P例如存储于计算机可以访问的网络或者可读的介质 例如 CDROM等中。 个人计算机 PC1可以是通常的个人计算机, 其具有处理器、 存储器、 显示器和鼠标键盘等。 个人计算机 PC1通过从网络下载或者从存储有辅 助翻译程序 P的 CDROM介质中读取辅助翻译程序 P并执行, 来进行翻译处理。 辅 助翻译程序 P构成为包括预翻译模块 P1、 标记元素显示模块 P2和标记元素清除模 块 P3。
[0032] 例如, 用户通过键盘或鼠标指示辅助翻译程序 P进行翻译处理。 响应于该指示 , 在预翻译模块 P1中, 针对待翻译的第一语言的语句, 基于现有的翻译方法进 行预翻译。 在预翻译中, 将第一语言的语句中的各个语言片段处理为第二语言 的语言片段, 并对对语序进行调整。
[0033] 例如, 可以采用基于模板的机器翻译 (TBMT) 技术来进行预翻译。 在基于模 板的机器翻译中, 模板是包含由源语 (第一语言) 和目标语 (第二语言) 这两 种语言书写的、 包含变量 (具体语言片段) 和变量 (可变语言片段) 的字符串 。 模板还示出了两种语言的字符串之间的对应翻译关系。
[0034] 例如, 如图 3所示, 在由文本文件实现的翻译模板库中保存有诸如" I like [A]→ 私《[Α] 4ϊ§τ、寸"这样的翻译模板。 该模板中的单词 "I "和" like"为第一语言的 常量片段 (具体词语片段) , [A]为第一语言的变量片段 (可变词语片段) 。 该 模板中的"私 和" 好§ '寸"为第二语言的常量片段 (具体词语片段) , [A] 为第二语言的变量片段 (可变词语片段) 。 该模板中的"→ "示出两种语言之间的 对应关系, 即将"1 111^ [八]"翻译为"私^;[八] ;^好§ 、寸"。 同样地, 图 3中的 "I eat [A]"所示的模板表示将 "I eat [A]"翻译为 "私《;[^ 食 "。
[0035] 例如, 针对" I like apple"这样的待翻译语句, 在预翻译模块 P1中, 首先从翻译 模板库中选择近似度最高的模板。 例如, 可根据在待翻译语句中的出现常量个 数来计算近似度, 出现的常量个数越多则近似度越多。 在图 3所示的模板中, "I eat [A]"所示的模板仅 "I"出现于待翻译语句, 而" eat"未出现于待翻译语句, 即近 似度为 1。 与之相比, "I like"中的 T和" like"均出现于待翻译语句, 即近似度为 2 , 因此 "I like [A]"所示的模板与待翻译语句的相似度高于 "I eat [A]"所示的模板, 且 T和" like"对应于模板中的常量, 而" apple"对应于模板中的变量 [A]。
[0036] 因此, 例如在翻译" I like apple"吋, 选择" I like [A]"所示的模板作为近似度最高 的模板来进行翻译。 根据模板所示的" I like [A]"与"私 ϋ[Α]^ϊ§τ '寸"之间的关 系, 将 "I like apple'¾ ¥ ' ¾ [A] i^ § Ti""。 然后, 针对与 "apple"对应的变 量 [A], 通过査找例如图 7所示那样的词典等方法, 得到 apple的对应单词是"林檎" 。 将作为变量 [A]置换为 "林檎", 从而最终将" I like apple"翻译为 "私 林檎 ;Η子
[0037] 此外, 为了便于在后续处理中显示标记元素, 预翻译模块 P1例如在内存中记录 翻译结果中的各个常量和变量的幵始位置和结束位置。 例如, 在以字符为单位 的情况下, 常量"私 的幵始位置和结束位置分别为 1和 2, 与"林檎"对应的变量 "[A]"的幵始位置和结束位置分别为 3和 4, 常量" '好§ '寸"的幵始位置和结束 位置分别为 5和 9。
[0038] 在标记元素显示模块 P2中, 针对预翻译的结果, 基于标记模板来显示标记元素 。 例如, 如图 4所示, 在由文本文件实现的标记模板库中保存有 "I like [八]→私 li<like>[A] <好 § '寸> <like> "这样的标记模板。 标记模板可以通过在翻译模 板的基础上增加标记元素来得到的。 标记模板分为如下三部分: "I like [A]"所示 的左侧部分对应于翻译模板中的第一语言部分, 其为模板的名称, 可作为键来 唯一标识模板; "私 ii<like>[A] <好 § T寸> "所示的中间部分是对翻译模板中 的第二语言部分增加标记元素而得到的 (与翻译模板同样, 示出第一语言部 分与第二语言部分的对应关系) ; "<like> "所示的右侧部分用于在后述处理中清 除标记元素。 在存在多个要清除的标记元素的情况下, 例如可以使用 Ί"等分隔 符来分隔各个标记元素。
[0039] 例如, 在 "I like apple"的情况下, 由于在预翻译模块 P1中所使用的翻译模板为 "I like [A]"所示的模板, 因此根据" I like [A]"来检索相应的标记模板, 从而得到"私 i <like>[A] <^ § '1">"。 其中, "< "和 ">"所包围的部位为标记元素, 在本例 中, 为<111^>和<好 § τ、寸 >。 它们分别表示在" <iike> "和" <好 § τ、1 "所处的位 置显示标记元素。
[0040] 例如, 可以用粗斜体来显示标记元素。 这样, 如图 5所示, 针对作为预翻译结 果的"私《林檎 好 § τ'寸", 根据预翻译模块 PI所记录的各个常量和变量的幵始 位置和结束位置来显示标记元素, 最终, "I like apple"的翻译结果在显示标记元 素后成为"私 « like漏 f 好 Ti;,。
[0041] 为了便于在后续处理中清除标记元素, 标记元素显示模块 P2可以保存标记元素 的位置。 例如, <like>所示的标记元素的幵始位置和结束位置分别为 3和 6, <好 所示的标记元素的幵始位置和结束位置分别为 10和 13。
[0042] 由此, 根据翻译模板, 例如将第一语言的语序调整为第二语言的语序, 且在作 为第二语言的翻译结果中, 分别在语言片段被调整语序之前的位置和被调整语 序之后的位置显示标记元素, 使得用户可以直观地在翻译结果中掌握发生语序 变换的片段与翻译之前的片段之间的对应关系和相对位置。 [0043] 用户基于标记元素显示的对应关系, 能够容易的理解预翻译的翻译结果, 并对 翻译结果进行修正。 然后, 如果用户对翻译结果满意, 可通过键盘或鼠标等指 示辅助翻译程序 P来清除标记元素。 例如, 可以对 "清除标记元素"的操作分配快 捷键 F8。 在用户按下 F8吋, 标记元素清除模块 P3响应于用户作出的指示, 针对 上述标记模板中的需要清除的标记元素的部分, 基于在标记元素显示模块 P2记 录的标记元素的幵始位置和结束位置, 将翻译结果中的标记元素清除。
[0044] 例如, 在" I like [A]→私 <1^^>[八] '<好§ 、寸> <like> "所示的标记模板中 , 右侧部分表示将<1^^>所示的标记元素清除。 根据标记元素显示模块 P2记录的 标记元素的位置, 翻译结果中的 3到 6的" like"部分为标记元素, 因此将其清除。 而由于标记模板未指示清除 <好§ 寸>, 因此, 在标记元素清除处理中, "好 "^ "被作为翻译结果保留。 由此, 针对图 5所示的例子中的发挥标记元素的作 用的" //Are"和"^ ', 仅"/ /Are"部分被清除, 从而得到清除标记元素后的翻 译结果、 即"私 林檎 '^ "。
[0045] 需要指出的是, 标记元素清除模块 P3不是必须的。 也可以省略标记元素清除模 块 P3。 在这种情况下, 用户可以手动地清除标记元素, 且标记模板的右侧部分 也可以省略。
[0046] 实施方式 2
[0047] 在以上说明中, 将翻译模板和标记模板分幵保存在不同文件中。 不过, 由于标 记模板中的左侧部分和中间部分是在翻译模板上增加标记元素而得到的, 因此 可以发挥翻译模板的作用, 因而可以省略翻译模板文件。
[0048] 例如, 在省略翻译模板文件的情况下, 在翻译 "I like apple"吋, 利用上述的计 算近似度的方法, 得到对应的模板" Hike [A]→私 i <like>[A] <^§ Tl"> <like>"。 与以上说明的基于翻译模板的预翻译处理同样地, 使用" 1 1^^ [ ]私 li<like>[A] '<好 § 、寸> "作为翻译模板, 将 "I like apple"翻译为 "私 ii<like>[A] '<好§ '寸>"。 然后査找词典, 将变量 [A]替换为 "林檎", 得到"私 ii<like>林檎 <好§ 、寸 >"。 以下的显示标记的处理与以上说明的没有区别, 因此不再记述
[0049] 此外, 关于模板近似度的计算, 以上所示的常量出现个数的方法仅为实例, 例 如还可在计算常量出现个数的基础上, 通过比对常量在模板中的出现顺序与常 量在待翻译中的出现顺序的相似度即词序相似度等来增加计算模板与待翻译语 句的近似度吋的准确性等。 此外, 也可以采用其他方式来选择与待翻译语句最 匹配的模板。
[0050] 变形例 1
[0051] 以上, 使用了 TBMT技术来进行预翻译, 但不限于此, 也可以通过其他方法来 进行预翻译。 例如, 可以采用基于规则的机器翻译技术来进行预翻译。 在基于 规则 (RBMT) 的机器翻译技术情况下, 与以上说明同样地, 与存储翻译规则的 库中的各个翻译规则对应地建立标记模板, 针对基于规则的预翻译结果显示标 记元素。 与实施方式 1、 2同样地, 本例中的处理包含预翻译处理、 标记元素显 示处理和标记元素清除处理。 由于仅预翻译处理与实施方式 1、 2不同, 因此在 以下的说明中仅对预翻译处理进行说明。
[0052] 例如, 存在如下的规则 A1〜A5, 它们表示英语句子的句子结构 (以下有吋将 规则 A1〜A5统称为规则 A) 。
[0053] 规贝 1JA1 : SI→NP VP
[0054] 规则 A2: NP→ NP and NP
[0055] 规则 A3: NP→N
[0056] 规则 A4: VP→ VP NP
[0057] 规则 A5: VP→ V
[0058] 其中, 规则 Al表示英语句子 SI可以由名词短语 NP、 助词《和动词短语 VP构成
[0059] 规则 A2表示名词短语 NP可以由助词 and连接两个名词短语 NP构成。
[0060] 规则 A3表示名词短语 NP可以由名词 N构成 (为了简化说明, 在本例中, 将代词 也解析为名词) 。
[0061] 规则 A4表示动词短语 VP可以由名词短语 NP和动词短语 VP构成。
[0062] 规则 A5表示动词短语 VP可以由动词 V构成。
[0063] 如下的规则 B1〜B5表示与规则 A1〜A5对应的日语。
[0064] 规则 Bl : S2→ NPliVP [0065] 规则 B2: NP→NP ^ NP
[0066] 规则 B3: NP→N
[0067] 规贝 1JB4: VP→ <VP>NP¾VP
[0068] 规则 B5: VP→ V
[0069] 其中, 规则 Bl表示句子 S2可以由名词短语 NP、 助词 和动词短语 VP构成。
[0070] 规则 B2表示名词短语 NP可以由助词 连接两个名词短语 NP构成构成。
[0071] 规则 B3表示名词短语 NP可以由名词 N构成 (为了简化说明, 在本例中, 将代词 也解析为名词) 。
[0072] 规则 B4表示动词短语 VP可以由名词短语 NP、 助词构成¾和动词短语 VP构成。
[0073] 规则 B5表示动词短语 VP可以由动词 V构成。
[0074] 此外, 规则 Al、 Bl、 规则 A2、 B2、 规则 A3、 B3、 规则 A4、 B4、 规则 A5、 B5 分别为对应的翻译关系。 作为终结词的名词 N和动词 V可以通过査找字典的方法 完成翻译, 此处, 所谓终结词, 是指在基于规则的翻译处理中, 可以进行规则 分析的最小单位。 与实施方式 1、 2类似地, 用" < "和 ">"表示标记元素, 因而规则 B4中的<¥?>为标记元素。
[0075] 以下, 以 "I eat apple"为例, 对基于 RBMT的预翻译进行说明。 在图 7所示的词 典中, 各字条分别由英文单词、 对应的日文单词和词性构成。
[0076] 在基于规则 A、 B对 "I eat apple"进行翻译吋, 首先, 例如可以基于图 7所示的词 典来分析各个单词的词性。 基于词典进行分析, 可知单词 I、 单词 apple为名词且 符合规则 A3, 单词 eat为动词且符合规则 A5。 进而, "eat apple"符合规则 A4。 进 而, "I eat apple"符合规则 Al。 基于 Al与 Bl、 A4与 B4的对应关系, 将 "I eat apple "翻译为" I <eat>apple¾eat"。 然后, 基于 A3与 B3、 A5与 B5的对应关系, 通过査 找词典, 将" I <eat>apple¾eat"处理为 "私 ii<eat>林檎 ¾食 "。 其他的显示元 素的 <eat>的显示处理、 刪除处理等与实施方式 1、 2没有区别, 因此省略说明。
[0077] 在本例中, 基于规则的方法来进行预翻译处理并进行比较元素的显示处理, 可 以得到与实施方式 1、 2相同的效果。
[0078] 此外, 在本例中, 翻译规则可以记载于模板文件, 也可以内置于程序中, 对此 没有限定。 [0079] 其他变形例
[0080] 此外, 在以上说明中, 根据标记元素的显示位置来清除标记元素。 但也可以根 据标记元素的显示信息 (文本内容、 字体颜色、 粗体、 斜体、 下划线等显示方 式等) 或者组合标记元素的显示信息和位置来进行清除。 例如, 在标记元素显 示模块 P2中, 可以将标记元素的显示记录在例如内存中, 以便于在后续处理中 清除标记元素直接访问内存, 即可得到待清除的标记元素的文本内容、 显示方 式等信息, 并根据这些信息来清除标记元素。
[0081] 例如, 可以使用标记元素专用的颜色来显示标记元素, 在显示标记清除处置中 , 通过判断翻译结果的颜色是否为专用颜色来进行清除。 这样, 既便于使得用 户通过显示方式而容易分辨出标记元素以及容易判断出片段之间的对应关系, 又便于在后续的处理中可以根据显示方式等来清除标记元素。 类似地, 可以用 标记元素专用的字体、 下划线、 字体大小等其他方式来标记元素, 只要能够使 标记元素与句子的其它部分的显示方式不同即可。
[0082] 此外, 在以上说明中, 标记元素的显示方法是内置的, 不过也可以在标记模板 文件中, 增加用于规定标记元素如何显示的内容, 由用户来规定显示的字体的 颜色、 大小等。 由此, 用户可以通过编辑标记模板, 改变为自己喜欢的显示方 式。
[0083] 此外, 在以上说明中, 标记元素是通过调整文本的显示方式 (字体颜色等) 来 实现的, 但也可以采用图片的方式进行显示。 例如, 在图 5所示的例子中, 可以 生成显示有" like"和"好§ 、寸"的图片, 在" like"对应的位置插入地显示图片, 而 在"好§ '寸"对应的位置覆盖地显示图片。 在清除处理中, 将起到标记作用的图 片清除即可。
[0084] 此外, 在建立标记模板吋, 针对诸如发生语序变换这样的成对的标记元素, 除 了字体、 颜色等方式以外, 优选在标记元素中体现出语义的对应关系。 例如, 在与"好§ 寸"对应的标记元素中, 优选采用" like"这样的可以表现对应语义的 显示方式。
[0085] 在以上说明中, 示出了作为形容动词的" like"的语序发生调整的例子, 但不限 于此。 同样地, 其他语序调整也可以通过标记模板来显示。 例如, 日语的 "〇〇 ί二 T "对应的英文为 "abOUt〇〇"。 对于这样的包含介词的发生语序调整的语 言片段, 也可以基于" [A] t T→about[A]< t T> <【二 T> "这样的 标记模板来显示 "about"所对应的 " T "在语序调整之前的位置。 对该模板的 处理与以上说明的方式相同, 因此不再记述。
[0086] 此外, 对于没有发生语序调整的片段, 也可以通过显示标记元素来使得用户能 够容易理解预翻译结果的语句片段与翻译之前的语句片段的对应关系。 例如, 英语等印欧语系的语言往往具有单复数形式, 而中文、 日文通常不使用复数。 为了便于在作为翻译结果的第二语言的语句中直观地显示第一语言的单复数等 语言信息, 例如可以在字典的基础上增加标记元素, 定义图 6所示那样的标记模 板。 与以上说明类似地, 该标记模板分为三部分: 左侧为模板的键; 中间部分 用于显示标记元素; 右侧用于在后续处理中清除标记元素。
[0087] 由此, 通过标记元素显示模块 P2显示这样的标记元素, 例如, 将" apples"处理 为"苹果 s", 使得用户可以在作为翻译结果的第二语言的语句中, 能够直观地看 到在以往的翻译产品中无法看到的对应关系, 以及已经被隐藏或清除的语法元 素 (例如, 单复数、 吋态、 阴性阳性等) , 从而使得用户可以基于这些语法元 素方便地对翻译结果进行修正。
[0088] 此外, 类似地, 对于包含 which之类的带有从句的复杂英语长句, 在翻译吋通 常根据情况拆分成容易理解的短句。 例如, 通过在作为第二语言的翻译结果中 的原来的 which的位置嵌入式地显示标记元素, 可以使得用户容易理解原有的句 子结构而方便地进行修改。 例如, 针对" Acroponics is another method for growing plants without soil, a technique in which plants are suspended and the roots misted with a nutrient solution"这个句子, 在翻译结果中, 以斜体字的方式嵌入地显示 "in which" , 得到如下结果: "气培法是另外一种无土栽培方法, ^ v/^W这是一种 把植物悬挂起来并将其根部浸入营养液的技术"。 在本例中, 通过斜体字 which], 使得用户容易识别翻译结果中的定语从句与第一语言之间的对应关系。
[0089] 以上所示的基于文本文件的翻译模板库和标记模板库仅为示例, 也可以采用 X
ML文件、 数据库等方式。
[0090] 此外, 上面以个人计算机来进行了说明, 但也可以使该计算机可以与网络 (包 括局域网、 虚拟局域网、 互联网等) 连接, 将辅助翻译程序 P的一个或多个模块 部署于网络上的服务器。 例如, 可以将预翻译模块 Pl、 标记元素显示模块 P2部 署于互联网上的服务器, 而将标记元素清除模块 P3部署于可以客户端, 由此构 成由服务器和客户端构成的辅助翻译系统。 此外, 也可以将辅助翻译程序 P全部 部署于互联网上的服务器, 用于通过浏览器来使用辅助翻译程序 P提供的功能。
[0091] 此外, 以上所述各变形例可以与实施方式 1、 2自由组合。
工业实用性
[0092] 本发明可以应用于计算机辅助翻译方法等。

Claims

权利要求书
[权利要求 1] 一种计算机辅助翻译方法, 其由计算机执行, 其中,
所述计算机辅助翻译方法包含如下处理:
预翻译处理, 将第一语言的语句中的各个语言片段处理为第二语言的 语言片段; 以及
标记元素显示处理, 在通过所述预翻译处理得到的作为第二语言的预 翻译结果中, 在与所述第一语言的语言片段相应的位置显示标记元素
[权利要求 2] 根据权利要求 1所述的计算机辅助翻译方法, 其中,
所述计算机辅助翻译方法还包含如下标记元素清除处理: 响应于用户 做出的用于清除标记元素的指示, 将所述标记元素清除。
[权利要求 3] 根据权利要求 1所述的计算机辅助翻译方法, 其中,
所述相应的位置包括调整语序之前的位置和调整语序之后的位置。
[权利要求 4] 根据权利要求 1所述的计算机辅助翻译方法, 其中,
所述标记元素为字符或图片。
[权利要求 5] —种计算机辅助翻译程序, 其使计算机执行如下处理:
预翻译处理, 将第一语言的语句中的各个语言片段处理为第二语言的 语言片段;
标记元素显示处理, 在通过所述预翻译处理得到的作为第二语言的预 翻译结果中, 在与所述第一语言的语言片段相应的位置显示标记元素 ; 以及
标记元素清除处理: 响应于用户做出的用于清除标记元素的指示, 将 所述标记元素清除,
所述相应的位置包括调整语序之前的位置和调整语序之后的位置。
PCT/CN2016/086628 2015-06-22 2016-06-21 计算机辅助翻译方法及程序 WO2016206582A1 (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201510357332 2015-06-22
CN201510357332.X 2015-06-22
CN201510627948.4A CN105069001A (zh) 2015-06-22 2015-09-28 计算机辅助翻译方法
CN201510627948.4 2015-09-28

Publications (1)

Publication Number Publication Date
WO2016206582A1 true WO2016206582A1 (zh) 2016-12-29

Family

ID=54498375

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/086628 WO2016206582A1 (zh) 2015-06-22 2016-06-21 计算机辅助翻译方法及程序

Country Status (2)

Country Link
CN (2) CN105069001A (zh)
WO (1) WO2016206582A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664545A (zh) * 2018-03-26 2018-10-16 商洛学院 一种英语翻译学习用数据处理方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069001A (zh) * 2015-06-22 2015-11-18 张云鹏 计算机辅助翻译方法
KR20190099299A (ko) * 2018-01-19 2019-08-26 가부시키가이샤 구루나비 서버의 제어 방법, 서버, 및 서버의 제어 프로그램
CN108491400A (zh) * 2018-04-09 2018-09-04 江苏省舜禹信息技术有限公司 一种辅助翻译智能系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708097A (zh) * 2012-04-27 2012-10-03 曾立人 一种计算机在线翻译方法及其翻译系统
CN104679735A (zh) * 2013-11-30 2015-06-03 赵会军 语用机器翻译方法
CN105069001A (zh) * 2015-06-22 2015-11-18 张云鹏 计算机辅助翻译方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708097A (zh) * 2012-04-27 2012-10-03 曾立人 一种计算机在线翻译方法及其翻译系统
CN104679735A (zh) * 2013-11-30 2015-06-03 赵会军 语用机器翻译方法
CN105069001A (zh) * 2015-06-22 2015-11-18 张云鹏 计算机辅助翻译方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664545A (zh) * 2018-03-26 2018-10-16 商洛学院 一种英语翻译学习用数据处理方法

Also Published As

Publication number Publication date
CN105069001A (zh) 2015-11-18
CN106257442A (zh) 2016-12-28

Similar Documents

Publication Publication Date Title
Pasha et al. Madamira: A fast, comprehensive tool for morphological analysis and disambiguation of arabic.
US9122674B1 (en) Use of annotations in statistical machine translation
US20180011830A1 (en) Annotation Assisting Apparatus and Computer Program Therefor
US8370126B2 (en) Incorporation of variables into textual content
JP2002215617A (ja) 品詞タグ付けをする方法
JPH1011447A (ja) パターンに基づく翻訳方法及び翻訳システム
WO2016206582A1 (zh) 计算机辅助翻译方法及程序
Stroppa et al. Example-based machine translation of the Basque language
JP2004220266A (ja) 機械翻訳装置および機械翻訳方法
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JP2016057810A (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Sennrich et al. A tree does not make a well-formed sentence: Improving syntactic string-to-tree statistical machine translation with more linguistic knowledge
Amrani et al. A semi-automatic system for tagging specialized corpora
Tambouratzis Conditional Random Fields versus template-matching in MT phrasing tasks involving sparse training data
Frunza Automatic identification of cognates, false friends, and partial cognates
KR20160050652A (ko) 신규 언어의 트리뱅크를 구축하는 방법
Rajalingam A rule based iterative affix stripping stemming algorithm for Tamil
JP2003058536A (ja) 翻訳装置
JP3696765B2 (ja) 辞書作成装置、辞書作成方法、辞書作成プログラムを記録したコンピュータで読取可能な記録媒体および翻訳装置
Cordova et al. Processing Quechua and Guarani historical texts query expansion at character and word level for information retrieval
KR101638442B1 (ko) 중국어 구문 분절 방법 및 장치
JPS63109572A (ja) 派生語処理方式
Arnoult Adjunction in hierarchical phrase-based translation
JP2817497B2 (ja) 辞書編集装置
JP2928246B2 (ja) 翻訳支援装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16813698

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 23/05/2018)

122 Ep: pct application non-entry in european phase

Ref document number: 16813698

Country of ref document: EP

Kind code of ref document: A1