WO2009144890A1 - 翻訳前換言規則生成システム - Google Patents

翻訳前換言規則生成システム Download PDF

Info

Publication number
WO2009144890A1
WO2009144890A1 PCT/JP2009/002218 JP2009002218W WO2009144890A1 WO 2009144890 A1 WO2009144890 A1 WO 2009144890A1 JP 2009002218 W JP2009002218 W JP 2009002218W WO 2009144890 A1 WO2009144890 A1 WO 2009144890A1
Authority
WO
WIPO (PCT)
Prior art keywords
translation
paraphrase
elements
translated
paraphrase rule
Prior art date
Application number
PCT/JP2009/002218
Other languages
English (en)
French (fr)
Inventor
定政邦彦
安藤真一
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2009144890A1 publication Critical patent/WO2009144890A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Definitions

  • the present invention relates to a pre-translation paraphrase rule generation system, a pre-translation paraphrase rule generation method, and a recording medium storing a pre-translation paraphrase rule generation program.
  • Patent Document 1 An example of a pre-translation paraphrase system using this technique 1 (a system that performs paraphrase before translation) is described in Patent Document 1. Note that Patent Document 1 also describes that a user designates whether to modify a selected rule group using a keyboard or the like.
  • elements such as sentence, phrase (phrase), word, and partial structure of a syntax tree for a pair of a source language document and a target language document obtained by manually translating the source language document in the past.
  • search for an example having a source language expression that matches each element of the input sentence and statistically determine the target language expression of the example.
  • a translation method called example translation that creates a translated sentence of an input sentence by combining with the above is widely known. In example translation, if an example that matches each partial structure of the input sentence cannot be obtained because the number of examples is not sufficient, high translation accuracy cannot be obtained.
  • Patent Document 2 An example of an apparatus using the technique 2 is described in Patent Document 2.
  • the apparatus described in Patent Literature 2 collects sentences with the same translation as synonyms, extracts DP synonym pairs by applying DP (dynamic programming) matching to each synonym pair, ”And“ Co-occurrence ”are filtered to obtain paraphrase rules.
  • Patent Document 2 also describes that the most frequent expression is a representative.
  • Non-Patent Documents 1 and 2 describe a method for mechanically obtaining a pair of an original sentence and a translated sentence to which a correspondence relationship of each element is given.
  • Non-Patent Documents 3 to 5 describe examples of a bilingual expression acquisition system using technology 3.
  • JP-A-6-139274 (paragraphs 0018-0058) JP 2003-323426 A (paragraph 0062)
  • paraphrase rule is automatically constructed using the technology 2 for the pre-translation paraphrase system, there is a possibility that a paraphrase rule that is originally unnecessary for the pre-translation paraphrase system may be obtained.
  • automatically constructed paraphrase rules contain errors at a certain rate. Therefore, by acquiring unnecessary paraphrase rules, the error of paraphrase rules also increases, and as a result, translation errors of documents to which the paraphrase rules are applied also increase.
  • the present invention provides a pre-translation paraphrase rule generation system, a pre-translation paraphrase rule generation method and a pre-translation paraphrase rule generation method capable of generating a paraphrase rule for paraphrasing an expression in a document to be translated without including unnecessary rules.
  • An object is to provide a pretranslation paraphrase rule generation program.
  • a pre-translation paraphrase rule generation system is a pre-translation paraphrase rule generation system that generates a paraphrase rule that replaces a representation of a translation target document described in a source language, and the source text expressed in the source language and the source text Bilingual data storage means for storing bilingual data that is a pair of translations translated from the target language into the target language, and in which the correspondence between the source text elements and the translation text elements is determined,
  • Translatability determination means for determining whether or not each element of the source sentence can be translated into each element of the corresponding translation, and elements on the source language side and target language side whose correspondence is defined by parallel translation data
  • Element pair forming means for defining an element pair group that is a set of element pairs having the same target language side elements, and elements on the source language side of the element pairs belonging to the element pair group Of these, a rule that replaces an element determined to be untranslatable by the translatability determining means with an element determined to be translatable by the translatability determining means among the elements
  • the pre-translation paraphrase rule generation method of the present invention is a pre-translation paraphrase rule generation method for generating a paraphrase rule that replaces the expression of the document to be translated described in the source language, wherein the parallel translation data storage means is expressed in the source language.
  • a translatability determination step for determining whether or not each element of the source sentence can be translated into each element of the corresponding translation, and the elements on the source language side and the target language side for which the correspondence is defined in the parallel translation data Of the element pairs that are element pairs, an element pair group forming step that defines an element pair group that is a set of element pairs having the same target language side elements, and elements on the source language side of element pairs that belong to the element pair group
  • the rule that replaces the element determined to be untranslatable in the translatability determination step with the element determined to be translatable in the translatability determination step among the elements on the source language side of the element pair belonging to the same element pair group A paraphrase rule generation step for generating as a paraphrase rule.
  • the pre-translation paraphrase rule generation program of the present invention is a data paired with an original sentence expressed in the original language and a translated sentence translated from the original sentence into the target language, and corresponds to the elements of the original sentence and the elements of the translated sentence.
  • a program for generating pre-translational paraphrase rules installed in a computer having bilingual data storage means for storing bilingual data, which is data for which a relationship is defined, wherein each element of the original text in the bilingual data corresponds to the computer Translatability determination process for determining whether or not each element of the translation is translatable, out of element pairs that are pairs of source language elements and target language elements whose correspondence is defined in the parallel translation data , Element pair group formation processing for defining an element pair group that is a set of element pairs having the same target language side elements, and translation of the source language side elements of the element pairs belonging to the element pair group A rule that replaces an element determined to be untranslatable by the performance determination process with an element determined to be translatable by the translatability determination process from the elements
  • the paraphrase rule for paraphrasing the expression in the translation target document can be generated without including unnecessary rules.
  • an element pair is an original sentence or a part of a translated sentence obtained by separating the original sentence and the translated sentence. Whether or not the source language side element can be translated into the corresponding target language side element is referred to as translatability.
  • machine language translation system in Japanese corresponds to “a machine translation system”.
  • FIG. FIG. 1 is a block diagram showing a configuration example of the first embodiment of the present invention.
  • the pre-translation paraphrase rule generation system of the present invention includes an input unit 1, a data processing device 2 that operates under program control, a storage device 3, and an output unit 4.
  • the data processing device 2 includes a translatability determination unit 21, a synonym expression cluster generation unit 22, and a paraphrase rule generation unit 23.
  • the storage device 3 includes a parallel translation structure storage unit 31 and a translation knowledge storage unit 32.
  • the translatability determination means 21, the synonym expression cluster generation means 22, and the paraphrase rule generation means 23 are realized by a CPU that operates according to a program (pre-translation paraphrase rule generation program), for example.
  • the CPU may read the pre-translation paraphrase rule generation program stored in the storage device and operate as the translatability determination unit 21, the synonym expression cluster generation unit 22, and the paraphrase rule generation unit 23 according to the program. .
  • the translatability determination means 21, the synonym expression cluster generation means 22, and the paraphrase rule generation means 23 may each be realized by separate circuits.
  • the parallel translation structure storage unit 31 stores structured parallel translation data.
  • Structured bilingual data is data that consists of the original text expressed in the source language and the translated text translated from the source text into the target language. The correspondence between the source text elements and the translated text elements is determined. Data.
  • the original sentence and the translated sentence are separated by, for example, morphemes or clauses. Further, syntax information such as morpheme and phrase dependency may be added to the original sentence and the translated sentence. Examples of elements include morphemes, clauses, their arrangement (referred to as phrases or phrases), partial structure of a syntax tree, and partial character strings of original and translated sentences.
  • the structured parallel translation data is referred to as structured parallel translation data.
  • the structured parallel translation data stored in the parallel translation structure storage unit 31 is input via the input unit 1.
  • the translation knowledge storage means 32 stores information (denoted as translation knowledge) used for machine translation processing.
  • the translation knowledge storage means 32 stores translation knowledge such as dictionary data, translation rules, and statistical information.
  • the translation knowledge storage means 32 may store translation knowledge used for machine translation of the translation target document after being paraphrased according to the paraphrase rules.
  • the translatability determination means 21 can translate each element on the source language side (ie, each element of the source sentence) in the structured parallel translation data into a corresponding target language side element (ie, a corresponding translated element). It is determined whether or not. For example, the translatability determining means 21 performs a dictionary lookup using the translation knowledge stored in the translation knowledge storage means 32 to identify a translated word, and the translated word matches the element on the target language side corresponding to the element. If it does not match, it is determined that translation is impossible. Also, the translatability determining means 21 distinguishes the source language side elements into elements that can be translated and elements that cannot be translated.
  • the synonym expression cluster generation means 22 collects element pairs having the same target language side elements among the element pairs in the structured parallel translation data.
  • a set of element pairs having the same target language side elements is referred to as a synonym expression cluster.
  • an element pair is a pair of an element on the source language side and a corresponding element on the target language side.
  • the paraphrase rule generation unit 23 is based on the translatability determination result determined for each element of the original text by the translatability determination unit 21 and the synonym expression cluster that is a set of element pairs collected by the synonym expression cluster generation unit 22. To generate a paraphrase rule. In other words, the paraphrase rule generation means 23 selects the element pairs belonging to the same synonym expression cluster from the elements determined to be untranslatable by the translatability determination means 21 among the elements on the source language side of the element pairs belonging to the synonym expression cluster. A rule that replaces the element on the source language side that is determined to be translatable by the translatability determination means 21 is generated as a paraphrase rule. The paraphrase rule generation unit 23 outputs the generated paraphrase rule from the output unit 4.
  • the output mode of the paraphrase rule is not particularly limited.
  • the output unit 4 may be a display device, and the paraphrase rule generation unit 23 may display the paraphrase rule on the display device.
  • the input means 1 is an input interface for inputting structured parallel translation data.
  • FIG. 2 is a flowchart showing an example of processing progress of the first embodiment of the present invention.
  • the structured parallel translation data received from the input means 1 is stored in the parallel translation structure storage means 31 (step S1).
  • the data processing apparatus 2 may store the structured parallel translation data input via the input unit 1 in the parallel translation structure storage unit 31.
  • the translatability determining means 21 determines whether each element on the source language side in the structured parallel translation data can be translated into an element on the corresponding target language side. Then, the translatability determining means 21 distinguishes each element on the source language side that has performed the determination into an element that can be translated and an element that cannot be translated (step S2).
  • step S 2 the translatability determining means 21 specifies, for example, the translated word for the source language side element using the dictionary data stored in the translation knowledge storage means 32. Then, if the translated word matches the element on the target language side associated with the element on the source language side, it is determined that translation is possible, and if it does not match, it is determined that translation is impossible.
  • This process is an example of a translatability determination process, and the translatability may be determined by another method.
  • the synonym expression cluster generation means 22 collects element pairs having the same target language side elements from the element pairs in the structured parallel translation data and sets them as synonym expression clusters (step S3).
  • the paraphrase rule generation unit 23 converts the elements that are made untranslatable by the translatability determination unit 21 among the elements on the source language side in the synonym expression cluster obtained in step S3 in the same synonym expression cluster. Then, a rule to be replaced with the source language side element which can be translated by the translatability determining means 21 is generated as a paraphrase rule and output from the output means 4 (step S4).
  • the paraphrase rule generated in step S4 is used when a paraphrase (paraphrase) before translation processing is performed on a source language document to be translated. That is, if an expression that is supposed to be replaced in the paraphrase rule is in the document to be translated, the element is replaced with another expression according to the paraphrase rule. As a result, the expression of the translation target document is paraphrased so as to include a translatable element, and is translated with high accuracy in the subsequent translation processing.
  • the translatability determination means 21 determines the translatability of elements on the source language side in the structured parallel translation data. That is, it is determined whether or not the source language side element can be translated.
  • generation means 23 produces
  • the translatability determination unit 21 determines the translatability using the translation knowledge stored in the translation knowledge storage unit 32.
  • the pre-translation paraphrase rule generation system translates the original sentence into a translated sentence instead of the translation knowledge storage means 32, and also generates information indicating the correspondence between the elements of the original sentence and the translated words in the translated sentence (see FIG. 1). (Not shown).
  • the translatability determining means 21 causes the machine translation means to translate the original text of the structured parallel translation data, and the translation corresponding to the element of the original text specified in the translation process is included in the structured parallel translation data. What is necessary is just to determine whether it corresponds with the element of the translation sentence matched with the element.
  • the translation knowledge storage means 32 may be provided, and the machine translation means may perform machine translation using the translation knowledge.
  • FIG. FIG. 3 is a block diagram showing a configuration example of the second embodiment of the present invention. Constituent elements similar to those of the first embodiment are denoted by the same reference numerals as those in FIG. 1, and detailed description thereof is omitted.
  • the pre-translation paraphrase rule generation system includes an input unit 1, a data processing device 2 that operates under program control, a storage device 3, and an output unit 4.
  • the storage device 3 includes a bilingual structure storage unit 31 and a translation knowledge storage unit 32 as in the first embodiment.
  • the data processing apparatus 2 includes a translatability determining unit 21, a synonym expression cluster generating unit 22, a paraphrase rule generating unit 23, a paraphrase supporting unit 24, and a translating unit 25.
  • Translatability determination means 21, synonym expression cluster generation means 22, paraphrase rule generation means 23, paraphrase support means 24, and translation means 25 are realized, for example, by a CPU that operates according to a program (pre-translation paraphrase rule generation program). The The CPU may read the pre-translation paraphrase rule generation program stored in the storage device and operate as each of the above-described means according to the program.
  • the translatability determination unit 21, the synonym expression cluster generation unit 22, the paraphrase rule generation unit 23, the paraphrase support unit 24, and the translation unit 25 may be realized by separate circuits.
  • the translatability determining means 21, the synonymous expression cluster generating means 22, and the paraphrase rule generating means 23 are the same as those in the first embodiment.
  • the paraphrase support unit 24 identifies a part to which the paraphrase rule can be applied in the document, and determines whether or not the paraphrase rule can be applied to each part. Prompt the user and accept the applicability of the paraphrase rule from the user. For example, for each part, an instruction to perform a paraphrase according to the paraphrase rule and an instruction to not perform the paraphrase are input to the paraphrase support unit 24.
  • the paraphrase support means 24 determines a paraphrase according to the paraphrase rule for the expression of the designated part.
  • the translation unit 25 translates the translation target document to which the paraphrase support unit 24 performs the paraphrase of the expression into a target language document.
  • the translation unit 25 performs a translation process using the translation knowledge stored in the translation knowledge storage unit 32 during the translation.
  • FIG. 4 is a flowchart showing an example of processing progress of the second embodiment of the present invention.
  • the operations (steps S1 to S4) until the paraphrase rule generating unit 24 generates the paraphrase rules are the same as the operations of steps S1 to S4 described in the first embodiment.
  • the paraphrase support unit 24 receives the translation target document via the input unit 1 (step S5).
  • the paraphrase support unit 24 specifies a part where the paraphrase rule generated by the paraphrase rule generation unit 23 can be applied in the document to be translated input in step S5, and determines whether or not the paraphrase rule can be applied at that part. Prompt the user.
  • the paraphrase support unit 24 changes the expression of the part according to the paraphrase rule, and when an instruction to perform no paraphrase is input, the expression at the part is changed. No (step S6).
  • the paraphrase rule generation means 23 stores the paraphrase rule generated in step S4 in the storage device 3, and the paraphrase support means 24 refers to the paraphrase rules stored in the storage device 3 in step S6 described later. Also good.
  • the paraphrase support means 24 determines whether or not the process of step S6 has been completed for all the places where the paraphrase rule can be applied in the document to be translated (step S7). If not completed (No in step S7), the process of step S6 is repeated. If completed (Yes in step S7), the process proceeds to step S8.
  • step S8 the translation unit 25 translates the translation target document after the paraphrase process in step S6 into a document in the target language.
  • the translation unit 25 performs translation processing with reference to the translation knowledge stored in the translation knowledge storage unit 32.
  • the translation unit 25 outputs the translated document in the target language from the output unit 4.
  • the output mode of the translated document is not particularly limited.
  • the output unit 4 may be a display device, and the translation unit 25 may display the translated document on the display device.
  • the paraphrase rule is generated before the document to be translated is input has been described as an example.
  • the paraphrase rule may be generated after the document to be translated is input.
  • the pre-translation paraphrase rule generation system of the second embodiment is referred to as a machine translation system. You can also.
  • the paraphrase rule can be generated without including unnecessary rules.
  • the paraphrase support unit 24 identifies a location where the paraphrase rule can be applied in the document to be translated, and prompts the user to determine whether or not the paraphrase rule can be applied at the location, so that the user can change the expression according to the paraphrase rule. Can be confirmed.
  • unnecessary rules are not included in the paraphrase rules, the burden for such confirmation can be reduced.
  • the machine translation process for improving accuracy by paraphrasing uses Japanese as the source language (source language) and English as the destination language (target language) will be described as an example.
  • the source language is not limited to Japanese
  • the target language is not limited to English. Even if the source language or the target language is an arbitrary language, the effects of the present invention can be obtained.
  • the translation knowledge storage means 32 stores translation knowledge (for example, translation dictionary, translation rule, frequency information, etc.) used when machine translation is performed on the translation target document after being paraphrased according to the paraphrase rule.
  • translation knowledge for example, translation dictionary, translation rule, frequency information, etc.
  • structured parallel translation data when structured parallel translation data is input via the input means 1, the data processing apparatus stores the structured parallel translation data in the parallel translation structure storage means 31 (step S1).
  • structured data is data that is a combination of the original text expressed in the source language and the translated text translated from the source text into the target language. This is data for which a correspondence relationship is defined.
  • the process of dividing the original sentence and the translated sentence into elements may be performed manually. Alternatively, it may be performed by a morphological analysis system or a syntax analysis system. Also, the process of associating the original text element with the translated text element may be performed manually or by the information processing apparatus.
  • the information processing apparatus may generate structured parallel translation data by a method described in Non-Patent Document 1 or Non-Patent Document 2.
  • information that is not related to a type of element that is not used as a paraphrase unit does not necessarily have to be assigned to the structured parallel translation data. For example, if the paraphrasing rule at the tree structure level is not generated, the syntax information regarding the dependency may not be added to the structured parallel translation data.
  • FIG. 5 is an explanatory diagram showing an example of structured parallel translation data.
  • syntax tree information is given to the original sentence and the translated sentence in the structured parallel translation data, and the correspondence between words and phrases is defined.
  • the expression of the source language and the expression of the target language that are in a corresponding relationship are connected by a solid line.
  • the source language “machine” and the target language “machine” have a correspondence relationship, and similarly, “translated” and “Translation was performed” have a correspondence relationship.
  • a dotted line shown in FIG. 5 represents a phrase composed of words.
  • the solid tree structure shown above the original sentence and below the translated sentence represents the structure of the syntax tree, and the intersection of the lines represents the dependency. The side where the line extends before the intersection is the head (parent) on the syntax tree. For example, in “use machine translation system” and “use”, “use” becomes the head.
  • the definition of clauses and heads may differ depending on the implementation. The concept of clauses and heads is widely known among those who are engaged in language processing, so explanations are omitted.
  • step S2 the translatability determination means 21 translates each element on the source language side of each structured parallel translation data stored in the parallel translation structure storage means 31 into a corresponding target language side element. It is determined whether or not it is possible, and an element that can be translated is distinguished from an element that cannot be translated.
  • examples of the phrase level element include “machine translation system”, “using”, “translated” and the like on the source language side. On the target language side, “was performed”, “a machine translation system” and the like can be mentioned.
  • the phrase is preferably a grammatical unit that is used and referred to in the research and development of translation systems and the explanation and research of language analysis systems.
  • there are noun phrases, prepositional phrases, verb phrases, verbal noun phrases, etc. as examples of phrases, phrase in the case of Japanese, and chunk in the case of English.
  • “Machine translation system” is a noun phrase and a single phrase
  • “Using” is a long unit particle.
  • this example is only an example, and the unit of the element considered as the phrase level may be changed depending on the analysis means used for structuring and the definition of the paraphrase unit to be obtained.
  • the elements of the word arrangement level are arrangements of an arbitrary number of words that become a part of the original sentence or the translation sentence.
  • the source language side uses “translation system” and “system use”. “Translated”, “translated using *”, and the like.
  • this example is only an example, and the unit of the element considered as the word arrangement level may be changed mainly by the definition of the paraphrase unit to be obtained.
  • the interval is a portion indicating that one or more words are present. For example, in the example “translated using *”, “*” falls in between. In this example, the symbol “*” means that there is some expression by one or more words.
  • Technology 2 mainly deals with paraphrasing rules at the word alignment level.
  • An element at the subtree level of the syntax tree is an arbitrary part of the syntax tree.
  • the notation (A, B) represents a dependency structure in which the expression A is related to the expression B.
  • FIG. 5 (using a machine translation system), (using (*, using), translated), and the like can be subtree level elements of the syntax tree.
  • this example is an example, and the unit of the element considered as the subtree level may be changed mainly by the definition of the paraphrase unit to be obtained.
  • “*” indicates the presence of some expression. In other words, the behavior is often different depending on whether or not there are children on the tree structure, so it is important to be able to express an element with a symbol such as “*” which means that some expression exists. .
  • the translatability determining means 21 determines the translatability of each element, it first checks whether the word level and phrase level elements are translatable. A suitable example of this confirmation process is shown below.
  • the translatability determination means 21 uses machine translation means (not shown in FIG. 1) that improves translation accuracy by the paraphrase rules generated by the pre-translation paraphrase rule generation system of the present invention. Translate the entire language-side representation (the entire original text in the structured parallel translation data). This machine translation means may be, for example, the translation means 25 shown in the second embodiment. In general, machine translation means for performing mechanical translation also generates information indicating a correspondence relationship between each word or phrase included in the entire original sentence and which word or phrase in the translated sentence in the translation process.
  • the machine translation means for improving the translation accuracy also generates information indicating this correspondence.
  • the pre-translation paraphrase rule generation system does not necessarily include the translation knowledge storage means 32. Instead, the machine translation that receives the source text in the source language, translates it into the target language, and outputs it. Means.
  • the translatability determining means 21 translates the entire original text in the structured parallel translation data using the machine translation means, the translation result for the word in the original text is based on the information indicating the correspondence generated in the translation process. It is determined whether or not the character string matches the element of the translation corresponding to the word in the structured parallel translation data.
  • FIG. 6 is an explanatory diagram showing the correspondence in this translation.
  • the solid line shown in FIG. 6 indicates which word or phrase in the target language corresponds to the word or phrase in the source language.
  • the word “machine” has a translation of “machine”
  • the word “system” has a translation of “system”.
  • FIG. 7 is an explanatory diagram showing an example of information indicating the correspondence generated in the translation process.
  • the correspondence between words versus words will be described as an example.
  • the correspondence between the source language and the target language is determined by machine translation means other than words versus words (such as words versus phrases or phrases versus phrases). ), The following processing may be performed.
  • the translatability determining means 21 refers to the information indicating the correspondence relationship at the word and phrase level generated in the translation process, and the correspondence relationship of the elements defined in the structured parallel translation data. Then, the word or phrase included in the translation as corresponding to the element of the word or phrase included in the original sentence and the element determined to correspond to that element in the structured parallel translation data should match. For example, it is determined that the element can be translated, and if it does not match, it is determined that the element cannot be translated. For example, “machine” which is the first expression on the source language side shown in FIG. 5 corresponds to an element “machine” on the structured parallel translation data. Further, this “machine” matches the translated word “machine” by the machine translation means.
  • the translatability determining means 21 determines “translatable” for “machine”. Similarly, the second to fourth expressions on the source language side shown in FIG. 5 are also determined to be “translatable”, but the fifth expression “translated” is associated with the structured parallel translation data “ “translation was performed” and the translated word “be translated” by the machine translation means are different, so it is determined as “untranslatable”.
  • the translatability determining unit 21 determines the translatability at the word level and the phrase level by machine-translating the entire source language expression by the machine translating unit.
  • machine translation dictionary data in this example, a Japanese-English translation dictionary
  • the translation matches the element of the translation corresponding to the element of the original sentence, it may be determined that the translation is possible, and if it does not match, it may be determined that the translation is impossible. For example, as shown in FIG. 5, when “machine” and “machine” are associated with each other, if a translation of “machine” is obtained when “machine” is looked up with dictionary data, it is determined that translation is possible. May be.
  • the translatability determination means 21 may determine that the translation is possible if the candidates below the second candidate match. Even when a match is found below the second candidate, it becomes easier to obtain a desired translation by selecting a translation without rewriting the translation.
  • the translatability determination means 21 examines the translatability of a larger unit element based on the translatability at the word level / phrase level. If there is no “untranslatable” word or phrase included in the element of the large unit, the translatability determining means 21 determines that the element is “translatable” and the “untranslatable” If it exists, it is determined as “untranslatable”. For example, for a phrase level element pair of “machine translation system / machine translation system”, it is determined that translation is possible for each correspondence relationship of “machine and machine”, “translation and translation”, and “system and system” Since each component corresponds without excess or deficiency, translation is possible.
  • a word that has a clear meaning in the word itself such as a noun, verb, adjective, adverb, conjunction, some particle, or auxiliary verb contained in the element, in other words
  • the target language it is only necessary to determine whether or not the target language can be translated for a target language, and in the case of the target language, a word having a typical translation expression in the source language. For example, “O”, “a”, and “is” are not necessarily translated in the other language, and need not be checked.
  • the translatability determining means 21 also determines the translatability of each structured bilingual data for each element.
  • FIG. 8 is an explanatory diagram illustrating an example of a translatability determination result by the translatability determination unit 21.
  • FIG. 8 shows a part of the translatability determination result for the element pair of the structured parallel translation data.
  • the ID shown in FIG. 8 is identification information given to distinguish element pairs for convenience of explanation.
  • the appearance frequency is the number of times the corresponding element pair appears in the entire structured parallel translation data for which the translatability of the element is determined. That is, the appearance frequency is the number of element pairs in which the combination of elements on the source language side and elements on the target language side determined to correspond in the structured parallel translation data is the same combination.
  • the translatability determination means 21 counts the number of times each element pair appears in the entire structured parallel translation data at the time of translatability determination, and associates the element pair with the translatability determination result and the number of appearances. May be.
  • the synonym expression cluster generation means 22 classifies each element pair that has determined the translatability of the source language element for each element pair having the same target language side element.
  • the synonym expression cluster generation means 22 classifies the element pairs having IDs “1”, “3”, “4”, and “5”, which share the elements on the target language side, into the same group (step S3).
  • a set of element pairs having the same target language side element is a synonymous expression cluster.
  • the paraphrase rule generation means 23 generates a paraphrase rule from each synonym expression cluster generated in step S3.
  • the paraphrase rule generation unit 23 extracts, as a paraphrase rule, a rule that replaces an element that cannot be translated by the translatability determination unit 21 with an element on the source language side that can be translated in each synonym expression cluster. (Step S4). For example, in the synonymous expression cluster including the element pairs with the IDs “1”, “3”, “4”, and “5”, it is determined that the element pairs with the IDs “1” and “5” can be translated, and the ID “ID” It is determined that the element pair of 3 "and” 4 "cannot be translated.
  • the paraphrase rule generating means 23 determines a rule for replacing the source language side element in the ID “3” or ID “4” with the source language side element in the ID “1” or ID “5” as a paraphrase rule.
  • the paraphrase rule generation means 23 replaces a rule that replaces an untranslatable element on the source language side with an element on the source language side in an element pair that is a translatable element on the source language side and has a high appearance frequency. It is preferable to define as follows. For example, when the appearance frequencies of the element pair with ID “5” and the element pair with ID “1” are compared, 3270> 124, and the element pair with ID “1” has a higher appearance frequency. Therefore, the paraphrase rule generation means 23 may use a rule that replaces the source language side element of ID “3” or ID “4” with the source language side element of ID “1”. In other words, the paraphrase rules “automatic translation system ⁇ machine translation system” and “automatic interpretation system ⁇ machine translation system” may be determined. Note that “P ⁇ Q” represents a paraphrase rule “replace P with Q”.
  • an untranslatable source language side element is selected as an element pair with a low appearance frequency (for example, the appearance frequency is maximum).
  • a rule that replaces a source language side element of an element pair other than the element pair) may be excluded from the paraphrase rule. Then, for example, a rule that replaces an element that cannot be translated with an element on the source language side of the element pair that is determined to be translatable and has the highest appearance frequency may be defined as a paraphrase rule.
  • the translatability determining unit 21 determines whether or not the source language side element is translatable, and the paraphrase rule generating unit 23 can translate the element determined to be untranslatable.
  • a paraphrase rule that replaces the determined element is generated. Therefore, an unnecessary paraphrase rule that replaces an element that can be translated from the beginning with another element is not generated, and the occurrence of the above problem can be suppressed.
  • the first modification is shown.
  • a plurality of types of elements on the target language side may be associated with common elements on the source language side. That is, there may be a plurality of element pairs having the same source language side element.
  • the synonym expression cluster generation unit 22 excludes only the higher-frequency element pairs from belonging to the synonym expression cluster and the other element pairs from belonging to the synonym expression cluster. It is good. For example, among the element pairs having the same source language side element, only the element pair having the highest appearance frequency may belong to the synonym expression cluster, and the other element pairs may be excluded from the object to belong to the synonym expression cluster.
  • generation means 23 may produce
  • a synonym expression cluster to which an element pair with a target language element that is infrequent for the source language element belongs is likely to be a synonym expression cluster including a paraphrase that is less frequently used for the source language element.
  • a paraphrase rule for an expression that is less frequently used is generated from the synonymous expression cluster, and a paraphrase based on such a paraphrase rule may not be appropriate.
  • the synonym expression cluster generation unit 22 suppresses generation of a paraphrase rule from a synonym expression cluster including an element pair with a low appearance frequency by causing only the element pair with the highest appearance frequency to belong to the synonym expression cluster. Generation of paraphrase rules can be suppressed.
  • the synonym expression cluster generation means 22 causes each element pair having the same source language side element to belong to the synonym expression cluster, and the paraphrase rule generation means determines that the element pair other than the element pair having the highest appearance frequency among the element pairs.
  • the paraphrase rule for the source language element in the element pair may be excluded from the paraphrase rule. In this case, the same effect can be obtained.
  • a second modification is shown. It is assumed that there are a plurality of element pairs having the same source language side element in the structured data. It is assumed that there is one element pair (denoted as a first element pair) in which the source language side element is determined to be translatable. Furthermore, when the appearance frequency of the first element pair is higher than the appearance frequency of another element pair (denoted as a second element pair) in which the source language side element in the plurality of element pairs is determined to be untranslatable. To do. In this case, the synonym expression cluster generation unit 22 may exclude the second element pair from belonging to the synonym expression cluster. That is, there are a plurality of element pairs having the same source language side element, and among them, there are element pairs that are determined to be translatable. When it exists, you may exclude the element pair from the object which belongs to a synonymous expression cluster.
  • the source language side element of the first element pair is changed from the target language side element of the second element pair as the translation of the source language side element. Is more common. Therefore, in other words, the paraphrase action that enables the translation from the source language side element to the target language side element of the second element pair generally leads to a decrease in translation accuracy. Therefore, by operating as in the second modification, it is possible to suppress the generation of paraphrase rules that translate into source language side elements in the second element pair, and to suppress erroneous paraphrase rule generation. An effect is obtained.
  • the translated word “machine translation system” corresponding to the source language element “ID” “3” “automatic translation system” cannot be translated.
  • the synonym expression cluster generation unit 22 does not include the ID “3” in the synonym expression cluster, and as a result, the paraphrase rule generation unit 23 does not generate a paraphrase rule based on the ID “3”.
  • the translation term “automatic translation system” is more appropriate than the translation “machine translation system”. By replacing it with "system”, it is possible to prevent it from becoming a less suitable "machine translation system”.
  • the synonym expression cluster generation means 22 may cause the second element pair to belong to the synonym expression cluster. Even in this case, the same effect can be obtained by prohibiting the paraphrase rule generation unit 23 from generating the paraphrase rule from the element pair corresponding to the second element pair.
  • a method for creating the paraphrase rule as in the apparatus described in Patent Document 2, it may be created by a method of obtaining a difference portion on the source text side for a parallel translation having the same translation.
  • the paraphrase rule is a problem. It is easy to produce. For example, if it is too short, the condition for performing the paraphrase is not appropriately included in the unit of the paraphrase, so that the paraphrase in an inappropriate context increases, and as a result, an erroneous paraphrase is likely to occur. On the other hand, if the length is too long, there are few problems as a paraphrase, but the conditions for performing the paraphrase are too strict, so that the paraphrase is hardly performed in practice.
  • a paraphrase unit having an appropriate length For example, by excluding elements whose appearance frequency is below a certain level, it is possible to suppress elements that are too long or to suppress short and irregular translations.
  • a paraphrase that does not include an appropriate application condition can be obtained by performing a paraphrase rule acquisition process for only the most frequent translation. It is possible to suppress rules.
  • methods such as targeting only phrase units or only units that match a specific part-of-speech arrangement are useful for generating paraphrase rules in appropriate units.
  • the information stored in the translation knowledge storage means 32 is the same as in the first embodiment.
  • the operation (steps S1 to S4) from when the structured parallel translation data is input from the input unit 1 until the paraphrase rule generating unit 23 generates the paraphrase rule is the same as that of the first embodiment.
  • step S4 the document to be translated described in the source language is input to the paraphrase support unit 24 via the input unit 1.
  • the paraphrase support unit 24 displays the input translation target document.
  • the output unit 4 may be a display device, and the translation target document may be displayed on the display device.
  • the paraphrase support unit 24 identifies a part to which the paraphrase rule generated in step S4 can be applied in the translation target document. For example, a place where an expression matching the element to be replaced in the paraphrase rule may be specified as a place where the paraphrase rule can be applied. Further, the paraphrase support unit 24 prompts the user to determine whether or not to apply the paraphrase rule at that location. There are various modes of this operation.
  • the paraphrase support means 24 displays the result of performing the paraphrase by applying the paraphrase rule when displaying the translation target document, and the place where the paraphrase is performed. Is displayed in a display mode different from other parts in the document to be translated, thereby prompting the user to determine whether or not to confirm the paraphrase in the paraphrase part. Examples of displaying the place where the paraphrase is performed in a display mode different from other parts in the translation target document include, for example, changing the color, blinking, or displaying the paraphrase result as a separate list. . What is necessary is just to attract a user's attention with such a display mode and to make a user judge whether or not to perform a paraphrase.
  • the input of the instruction to confirm the paraphrase and the instruction not to perform the paraphrase may be performed through an input device such as a mouse or a keyboard.
  • the user determines whether or not the meaning of the expression of the paraphrase result to which the paraphrase rule is applied is different from the expression before the paraphrase rule is applied, and if not, inputs an instruction to confirm the paraphrase and the meaning is different.
  • an instruction not to perform the paraphrase may be input.
  • the paraphrase support unit 24 displays the display of the part instructed to be confirmed in the same display manner as other parts in the translation target document.
  • the expression of the portion instructed not to perform the paraphrase is returned to the original expression before the paraphrase rule is applied.
  • the method of accepting confirmation as to whether or not the paraphrase rules can be applied is not limited to the above method.
  • the translation unit 25 translates the source language document obtained as a result of appropriately applying the paraphrase rules according to the user's judgment into the target language (step S8).
  • the translation unit 25 outputs the target language document obtained by the translation to the output unit 4.
  • generation of unnecessary paraphrase rules is prevented, so that it is possible to suppress an increase in confirmation work as to whether or not to paraphrase the expression of the translation target document according to the generated paraphrase rules.
  • the paraphrase rule generation unit 23 generates a paraphrase rule that replaces an element determined to be untranslatable on the source language side with an element determined to be translatable on the source language side. Then, the user is prompted to determine whether or not to apply the paraphrase rule in the translation target document.
  • the translation target document, the element to be replaced, and the element to be replaced are also the source language. Therefore, it is possible to determine whether or not the result of applying the paraphrase rule becomes unnatural even if the user is not familiar with the target language. Therefore, it is possible to efficiently determine whether to apply the paraphrase rule even if the target language is not detailed.
  • FIG. 9 is an explanatory diagram showing an outline of the present invention.
  • the pre-translation paraphrase rule generation system of the present invention includes bilingual data storage means 71, translatability determination means 72, element pair group formation means 73, and paraphrase rule generation means 74.
  • the bilingual data storage means 71 (for example, the bilingual structure storage means 31) is data in which an original sentence expressed in the original language and a translated sentence translated from the original sentence into the target language are paired, and the elements of the original sentence and the translation sentence
  • the parallel translation data structured parallel translation data, which is the data in which the correspondence relationship is defined for the element, is stored.
  • the translatability determining means 72 determines whether or not each element of the original sentence in the parallel translation data can be translated into each element of the corresponding translated sentence.
  • the element pair group forming means 73 (for example, the synonym expression cluster generating means 22) is a target language among element pairs that are pairs of elements on the source language side and elements on the target language side that have a corresponding relationship defined in the parallel translation data. Define an element pair group, which is a set of element pairs with equal side elements.
  • the paraphrase rule generation unit 74 selects the same element pair from the elements determined to be untranslatable by the translatability determination unit 72 among the elements on the source language side of the element pairs belonging to the element pair group.
  • a rule that replaces the element of the element pair belonging to the group that is determined to be translatable by the translatability determining unit 72 is generated as a paraphrase rule.
  • the translatability determining unit 72 determines whether or not the source language side element can be translated, and the paraphrase rule generating unit 74 can translate the element determined to be untranslatable.
  • a paraphrase rule that replaces the determined element is generated. Therefore, a paraphrase rule that paraphrases the expression included in the translation target document into an untranslatable element does not occur, and the paraphrase rule can be generated without including such an unnecessary rule.
  • translation knowledge storage means for example, translation knowledge storage means 32 for storing translation knowledge for performing a dictionary lookup from the elements of the original text to the translated words of the object.
  • the possibility determination means 72 obtains a translation of the original text element in the parallel translation data by using the translation knowledge, and determines that the translation of the original text element is translatable when the translation matches the translation text element in the parallel translation data. In some cases, a configuration for determining that the original element is not translatable is disclosed.
  • the above-described embodiments and examples further include machine translation means for translating the original sentence into a translated sentence, associating the elements of the original sentence with the translated words in the translated sentence, and the translatability determining means 72 Translated by translation means and translated by the machine translation means, if the translated word matches the translated text element corresponding to the translated text data in the translated text, the translated text can be translated.
  • a configuration is disclosed in which it is determined that the translation element is untranslatable if the elements of the original text of the parallel translation data are not matched.
  • the first element pair that is the element pair in which the source language side element is determined to be translatable among the plurality of element pairs.
  • the first element pair that is the element pair in which the source language side element is determined to be translatable among the plurality of element pairs.
  • the paraphrase rule generation unit 74 has a plurality of elements determined to be translatable by the translatability determination unit 72 among the elements on the source language side of the element pair belonging to the same element pair group,
  • a configuration for generating a paraphrase rule that defines a replacement to an element on the source language side included in the element pair having the highest appearance frequency in the parallel translation data among the element pairs including the determined element on the source language side is disclosed.
  • a configuration including a paraphrase support unit (for example, the paraphrase support unit 24) for confirming that the expression of the part is to be replaced in accordance with the paraphrase rule on the condition that an instruction to apply the replacement is input by the user is disclosed. ing.
  • the paraphrase support means identifies a part in the translation target document where there is an expression that matches the element to be replaced in the paraphrase rule, and the expression of the part is identified as the paraphrase rule.
  • a configuration is disclosed in which the result of replacement is displayed, and the replacement of the expression of the location according to the paraphrase rule is provided on the condition that an instruction to apply the replacement is input by the user.
  • the present invention has been described as a hardware configuration, but the present invention is not limited to this.
  • the present invention can also realize arbitrary processing by causing a CPU (Central Processing Unit) to execute a computer program.
  • the computer program can be provided by being recorded on a recording medium, or can be provided by being transmitted via the Internet or another communication medium.
  • the storage medium includes, for example, a flexible disk, a hard disk, a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD, a ROM cartridge, a battery-backed RAM memory cartridge, a flash memory cartridge, and a nonvolatile RAM cartridge.
  • the communication medium includes a wired communication medium such as a telephone line, a wireless communication medium such as a microwave line, and the like.
  • the present invention can be suitably applied to a pre-translation paraphrase rule generation system that generates a paraphrase rule used when editing a translation target document before machine translation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

 翻訳対象文書中の表現を換言するための換言規則を、不必要な規則を含めないようにして生成する翻訳前換言規則生成システムを提供する。対訳データ記憶手段71は、原文と訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶する。翻訳可能性判定手段72は、対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する。要素対グループ形成手段73は、目的言語側の要素が等しい要素対の集合である要素対グループを定め、換言規則生成手段74は、要素対グループに属する要素対の原言語側の要素のうち翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能と判定された要素に置き換える規則を、換言規則として生成する。

Description

[規則37.2に基づきISAが決定した発明の名称] 翻訳前換言規則生成システム
 本発明は、翻訳前換言規則生成システム、翻訳前換言規則生成方法および翻訳前換言規則生成用プログラムを格納した記録媒体に関する。
 近年、計算機の処理能力の高まりに応じて、第1の言語(原言語)を第2の言語(目的言語)に機械的に翻訳する機械翻訳システムが人手での翻訳支援のために実用的に利用されるようになってきた。しかし、機械翻訳システムの翻訳精度が十分ではなく、機械翻訳システムが得意とする表現と不得意とする表現が存在する。
 そこで、機械翻訳システムが不得意とする表現を得意とする表現に置き換える換言規則(言い換え規則)を用意しておき、機械翻訳処理を行う前にその換言規則により翻訳対象文書中の不得意表現を予め換言することで、機械翻訳処理をより精度良く行う手法が提案されている。この技術を「技術1」と記す。そして、この技術1を用いた翻訳前換言システム(翻訳前に換言を行うシステム)の一例が特許文献1に記載されている。なお、特許文献1には、選択したルール群に対して修正を行うかどうかについての指定が使用者により、キーボードなどを利用して行われることも記載されている。
 また、原言語の文書と、その原言語文書を過去に人手で翻訳した目的言語の文書とのペア(対訳文書)に対して、文、フレーズ(句)、単語、構文木の部分構造といった要素での対応関係を用例として蓄積し、新たな翻訳対象となる入力文に対しては、その入力文の各要素と一致する原言語表現を持つ用例を捜し、その用例の目的言語表現を統計的に組み合わせることで入力文の翻訳文を作成する用例翻訳という翻訳方法が広く知られている。用例翻訳においては、用例の数が十分でない等の理由で入力文の各部分構造に一致する用例が得られない場合、高い翻訳精度を得ることができない。
 そこで原言語表現の換言(言い換え)を大量の対訳文書から自動獲得し、この換言を用いて入力文の部分構造と用例の一致率を高めることで翻訳精度を高める手法が提案されている。この技術を「技術2」と記す。技術2を用いた装置の一例が特許文献2に記載されている。特許文献2に記載された装置では、訳文が等しい文同士のことを同義文として収集し、同義文のペアの各々についてDP(dynamic Programming)マッチングを適用して同義表現ペアを抽出し、「頻度」や「共起」の側面からフィルタリングを行い換言規則を得る。また、特許文献2には、最頻表現を代表とすることも記載されている。
 また、各々の要素の対応関係が付与されている原文と訳文との組を機械的に求める方法が、例えば、非特許文献1,2に記載されている。
 また、大量の対訳文書から、機械翻訳システムにとって未知の原言語表現とその翻訳結果である目的言語表現のペア(対訳表現)を自動的・半自動的に獲得する手法が知られている。この技術を「技術3」と記す。技術3を用いた対訳表現獲得システムの例が非特許文献3~5に記載されている。
特開平6-139274号公報(段落0018-0058) 特開2003-323426号公報(段落0062)
Yuji Matsumoto,Hiroyuki Ishimoto (Kyoto University),and Takehito Utsuro,"Structural Matching of Parallel Texts",Proceedings of the 31th Annual Meeting of the Association for Computational Linguistics (ACL-93), pp.23-30, June 1993 荒牧英治,黒橋禎夫,佐藤理史,渡辺日出雄,「用例ベース翻訳のための対訳文の句アライメント」,自然言語処理,Vol.10,No.5,pp 75-92,2003 北村 美穂子,松本 裕治,「対訳コーパスを利用した対訳表現の自動抽出」, 情報処理学会論文誌,Vol38,No.4,pp727-736,1997 春野 雅彦,「対訳テキストから辞書を自動生成」,IPSJ Magazine,Vol.40, No.4,pp.374-379,Apr. 1999 梶 博行、相薗敏子,「共起語集合の類似度に基づく対訳コーパスからの対訳語抽出」,情報処理学会論文誌,Vol92,No.9,pp2248-2258,2001
 技術1を用いることにより翻訳前の文書に対して言い換えを行うシステムでは、事前に換言規則を構築しておく必要があるが、その構築には多大な手間がかかるという問題がある。換言規則を自動的に得るために、技術1に対して技術2を適用することが考えられる。
 しかし、翻訳前換言システム向けに技術2を用いて換言規則を自動構築すると、翻訳前換言システムにとっては本来必要のない換言規則を獲得してしまう可能性がある。一般に、自動構築された換言規則には一定の割合で誤りが含まれる。従って、不必要な換言規則を獲得することで換言規則の誤りも増加し、結果として換言規則を適用した文書の翻訳誤りも増加してしまう。
 そこで、本発明は、翻訳対象文書中の表現を換言するための換言規則を、不必要な規則を含めないようにして生成することができる翻訳前換言規則生成システム、翻訳前換言規則生成方法および翻訳前換言規則生成用プログラムを提供することを目的とする。
 本発明の翻訳前換言規則生成システムは、原言語で記載された翻訳対象文書の表現を置き換える換言規則を生成する翻訳前換言規則生成システムであって、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶する対訳データ記憶手段と、対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する翻訳可能性判定手段と、対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める要素対グループ形成手段と、要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段によって翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段によって翻訳可能と判定された要素に置き換える規則を、換言規則として生成する換言規則生成手段とを備えることを特徴とする。
 本発明の翻訳前換言規則生成方法は、原言語で記載された翻訳対象文書の表現を置き換える換言規則を生成する翻訳前換言規則生成方法であって、対訳データ記憶手段が、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶し、対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する翻訳可能性判定ステップと、対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める要素対グループ形成ステップと、要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定ステップで翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定ステップで翻訳可能と判定された要素に置き換える規則を、換言規則として生成する換言規則生成ステップとを含むことを特徴とする。
 本発明の翻訳前換言規則生成用プログラムは、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶する対訳データ記憶手段を備えたコンピュータに搭載される翻訳前換言規則生成用プログラムであって、コンピュータに、対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する翻訳可能性判定処理、対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める要素対グループ形成処理、および、要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定処理で翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定処理で翻訳可能と判定された要素に置き換える規則を、換言規則として生成する換言規則生成処理を実行させることを特徴とする。
 本発明によれば、翻訳対象文書中の表現を換言するための換言規則を、不必要な規則を含めないようにして生成することができる。
本発明の第1の実施形態の構成例を示すブロック図である。 本発明の第1の実施形態の処理経過の例を示すフローチャートである。 本発明の第2の実施形態の構成例を示すブロック図である。 本発明の第2の実施形態の処理経過の例を示すフローチャートである。 構造化対訳データの一例を示す説明図である。 翻訳における対応関係の例を示す説明図である。 翻訳過程で生成される対応関係を示す情報の例を示す説明図である。 翻訳可能性判定結果の例を示す説明図である。 本発明の概要を示す説明図である。
 以下、本発明の実施形態を図面を参照して詳細に説明する。
 以下の説明において、原言語側の要素とそれに対応する目的言語側の要素の対を要素対と呼ぶ。要素とは、原文と訳文を区切って得られる原文または訳文の一部分である。また、原言語側の要素を対応する目的言語側要素に翻訳可能であるか否かを翻訳可能性と呼ぶ。
 なお、以下の説明において
日本語の「機械」という言葉は、「machine」の意味に相当し、
日本語の「翻訳」という言葉は、「translation」の意味に相当し、
日本語の「用いて」という言葉は、「using」の意味に相当し、
日本語の「し」という言葉は、「performed」に相当し、
日本語の「た」という言葉は、「was」に相当し、
日本語の「機械語翻訳システム」という言葉は、「a machine translation system」に相当するものとする。
実施形態1.
 図1は、本発明の第1の実施形態の構成例を示すブロック図である。本発明の翻訳前換言規則生成システムは、入力手段1と、プログラム制御により動作するデータ処理装置2と、記憶装置3と、出力手段4とを備える。データ処理装置2は、翻訳可能性判定手段21と、同義表現クラスタ生成手段22と、換言規則生成手段23とを含む。記憶装置3は、対訳構造記憶手段31と、翻訳知識記憶手段32とを含む。翻訳可能性判定手段21、同義表現クラスタ生成手段22、および換言規則生成手段23は、例えば、プログラム(翻訳前換言規則生成用プログラム)に従って動作するCPUによって実現される。CPUが、記憶装置に記憶されている翻訳前換言規則生成用プログラムを読み込み、そのプログラムに従って、翻訳可能性判定手段21、同義表現クラスタ生成手段22、および換言規則生成手段23として動作してもよい。また、翻訳可能性判定手段21、同義表現クラスタ生成手段22、および換言規則生成手段23がそれぞれ別々の回路によって実現されていてもよい。
 対訳構造記憶手段31は、構造化された対訳データを記憶する。構造化された対訳データとは、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである。原文と訳文は、例えば、形態素や文節等で区切られる。また、原文や訳文に、形態素や文節の係り受け等の構文情報が付与されていてもよい。要素の例として、形態素、文節、それらの並び(フレーズあるいは句と呼ぶ。)、構文木の部分構造、原文や訳文の部分文字列等が挙げられる。以下、構造化された対訳データを、構造化対訳データと記す。対訳構造記憶手段31が記憶する構造化対訳データは、入力手段1を介して入力される。
 翻訳知識記憶手段32は、機械翻訳処理に用いられる情報(翻訳知識と記す。)を記憶する。例えば、翻訳知識記憶手段32は、辞書データや翻訳ルールや統計情報等の翻訳知識を記憶する。翻訳知識記憶手段32には、換言規則に従って換言された後の翻訳対象文書を機械翻訳する際に用いる翻訳知識を記憶させておけばよい。
 翻訳可能性判定手段21は、構造化対訳データにおける原言語側のそれぞれの要素(すなわち、原文のそれぞれの要素)について、対応する目的言語側の要素(すなわち、対応する訳文の要素)に翻訳可能であるか否かを判定する。翻訳可能性判定手段21は、例えば、翻訳知識記憶手段32が記憶する翻訳知識を用いて辞書引きを行って訳語を特定し、訳語がその要素に対応する目的言語側の要素と一致していれば翻訳可能と判定し、一致していなければ翻訳不能と判定する。また、翻訳可能性判定手段21は、原言語側の要素を、翻訳可能である要素と翻訳不能である要素とに区別する。
 同義表現クラスタ生成手段22は、構造化対訳データにおける要素対のうち目的言語側の要素が等しい要素対を集める。本発明において、目的言語側の要素が等しい要素対の集合を、同義表現クラスタと記す。なお、既に説明したとおり、要素対とは、原言語側の要素とそれに対応する目的言語側の要素の対である。
 換言規則生成手段23は、翻訳可能性判定手段21が原文の各要素について判定した翻訳可能性の判定結果と、同義表現クラスタ生成手段22が収集した要素対の集合である同義表現クラスタとに基づいて換言規則を生成する。すなわち、換言規則生成手段23は、同義表現クラスタに属する要素対の原言語側の要素のうち、翻訳可能性判定手段21によって翻訳不能と判定された要素から、同じ同義表現クラスタに属する要素対の原言語側の要素のうち、翻訳可能性判定手段21によって翻訳可能と判定された要素に置き換える規則を、換言規則として生成する。換言規則生成手段23は、生成した換言規則を出力手段4から出力する。
 なお、換言規則の出力態様は、特に限定されない。例えば、出力手段4がディスプレイ装置であって、換言規則生成手段23はそのディスプレイ装置に換言規則を表示させてもよい。
 また、入力手段1は、構造化対訳データが入力される入力インタフェースである。
 次に、動作について説明する。
 図2は、本発明の第1の実施形態の処理経過の例を示すフローチャートである。まず、入力手段1から受け付けた構造化対訳データを対訳構造記憶手段31に記憶させる(ステップS1)。例えば、データ処理装置2が、入力手段1を介して入力された構造化対訳データを対訳構造記憶手段31に記憶させればよい。
 次に、翻訳可能性判定手段21は、その構造化対訳データにおける原言語側のそれぞれの要素について、対応する目的言語側の要素に翻訳可能であるか否かを判定する。そして、翻訳可能性判定手段21は、その判定を行った原言語側の各要素を、翻訳可能である要素と翻訳不能である要素とに区別する(ステップS2)。
 ステップS2において、翻訳可能性判定手段21は、例えば、原言語側の要素に対する訳語を、翻訳知識記憶手段32に記憶されている辞書データにより特定する。そして、その訳語と、その原言語側の要素に対応付けられている目的言語側の要素とが一致するならば翻訳可能と判定し、一致しなければ翻訳不能と判定すればよい。なお、この処理は、翻訳可能性判定処理の一例であり、他の方法で翻訳可能性を判定してもよい。
 続いて、同義表現クラスタ生成手段22は、構造化対訳データにおける要素対のうち目的言語側の要素が等しい要素対を集め、同義表現クラスタとする(ステップS3)。
 次に、換言規則生成手段23は、ステップS3で求められた同義表現クラスタ中の原言語側の要素のうち、翻訳可能性判定手段21によって翻訳不能とされた要素を、同じ同義表現クラスタ中の、翻訳可能性判定手段21によって翻訳可能とされた原言語側の要素へ置き換える規則を換言規則として生成し、出力手段4から出力する(ステップS4)。
 ステップS4で生成された換言規則は、翻訳対象となる原言語の文書に対して、翻訳処理前の換言(言い換え)を行う際に用いられる。すなわち、換言規則において置き換えられるとされた表現が翻訳対象文書中にあれば、換言規則に従って、その要素を他の表現に置き換える。この結果、翻訳対象文書の表現は、翻訳可能な要素を含むように言い換えられ、その後の翻訳処理において、高い精度で翻訳される。
 次に、本実施の形態の効果について説明する。
 本実施の形態では、翻訳可能性判定手段21が、構造化対訳データにおける原言語側の要素について翻訳可能性を判定する。すなわち、原言語側の要素が翻訳可能であるか否かを判定する。そして、換言規則生成手段23が、翻訳不能と判定された要素を、翻訳可能と判定された要素に置き換える換言規則を生成する。従って、翻訳対象文書に含まれている表現を翻訳不能な要素に言い換える換言規則が生じることがなく、そのような不必要な規則を含めないようにして、換言規則を生成することができる。
 上記の例では、翻訳可能性判定手段21が、翻訳知識記憶手段32に記憶された翻訳知識を用いて翻訳可能性を判定する場合を例示した。翻訳前換言規則生成システムが、翻訳知識記憶手段32の代わりに、原文を訳文に翻訳するとともに、原文の要素と訳文における訳語との対応関係を示す情報も生成する機械翻訳手段(図1において図示せず)を備えていてもよい。この場合、翻訳可能性判定手段21は、機械翻訳手段に構造化対訳データの原文を翻訳させ、その翻訳過程で特定される原文の要素に対応する訳語が、構造化対訳データ中でその原文の要素に対応付けられている訳文の要素と一致しているか否かを判定すればよい。そして、一致していれば、その要素について翻訳可能と判定し、一致していなければ翻訳不能と判定すればよい。また、機械翻訳手段を用いて翻訳可能性を判定する場合においても、翻訳知識記憶手段32を備え、機械翻訳手段が翻訳知識を用いて機械翻訳を行ってもよい。
実施形態2.
 図3は、本発明の第2の実施形態の構成例を示すブロック図である。第1の実施形態の構成要素と同様の構成要素については、図1と同一の符号を付し、詳細な説明を省略する。
 第2の実施形態の翻訳前換言規則生成システムは、入力手段1と、プログラム制御により動作するデータ処理装置2と、記憶装置3と、出力手段4とを備える。記憶装置3は、第1の実施形態と同様に、対訳構造記憶手段31と、翻訳知識記憶手段32とを含む。
 第2の実施形態では、データ処理装置2は、翻訳可能性判定手段21と、同義表現クラスタ生成手段22と、換言規則生成手段23と、換言支援手段24と、翻訳手段25とを含む。翻訳可能性判定手段21、同義表現クラスタ生成手段22、換言規則生成手段23、換言支援手段24、および翻訳手段25は、例えば、プログラム(翻訳前換言規則生成用プログラム)に従って動作するCPUによって実現される。CPUが、記憶装置に記憶されている翻訳前換言規則生成用プログラムを読み込み、そのプログラムに従って、上記の各手段として動作してもよい。翻訳可能性判定手段21、同義表現クラスタ生成手段22、換言規則生成手段23、換言支援手段24、および翻訳手段25がそれぞれ別々の回路によって実現されていてもよい。
 翻訳可能性判定手段21、同義表現クラスタ生成手段22、および換言規則生成手段23は、第1の実施形態と同様である。
 換言支援手段24は、入力手段1を介して翻訳対象文書が入力されると、その文書の中で、換言規則が適用可能な箇所を特定し、そのそれぞれの箇所について、換言規則適用の可否をユーザに促し、ユーザから換言規則適用の可否を受け付ける。例えば、それぞれの箇所毎に、換言規則に従って換言を行うという指示や、換言を行わないという指示が換言支援手段24に入力される。
 さらに、換言支援手段24は、言い換えると指定された箇所の表現に対し、換言規則に従う換言を確定する。
 翻訳手段25は、換言支援手段24が表現の換言を行った翻訳対象文書を目的言語の文書に翻訳する。翻訳手段25は、この翻訳の際に、翻訳知識記憶手段32に記憶されている翻訳知識を用いて翻訳処理を行う。
 次に、第2の実施形態の動作について説明する。
 図4は、本発明の第2の実施形態の処理経過の例を示すフローチャートである。換言規則生成手段24が換言規則を生成するまでの動作(ステップS1~S4)は、第1の実施形態で説明したステップS1~S4の動作と同様である。
 換言規則が生成された後、換言支援手段24は、入力手段1を介して、翻訳対象文書を受け付ける(ステップS5)。
 続いて、換言支援手段24は、ステップS5で入力された翻訳対象の文書において、換言規則生成手段23が生成した換言規則が適用可能な箇所を特定し、その箇所における換言規則適用の可否判断をユーザに促す。換言支援手段24は、換言規則に従って換言を行うという指示が入力されたならば、その箇所の表現を換言規則に従って変更し、換言を行わないという指示が入力された場合、その箇所における表現は変更しない(ステップS6)。
 なお、換言規則生成手段23は、ステップS4で生成した換言規則を記憶装置3に記憶させ、換言支援手段24は、後述のステップS6において、記憶装置3に記憶されている換言規則を参照してもよい。
 換言支援手段24は、翻訳対象の文書において換言規則が適用可能な全ての箇所についてステップS6の処理を完了したか否かを判定する(ステップS7)。完了していなければ(ステップS7におけるNo)、ステップS6の処理を繰り返す。完了していれば(ステップS7におけるYes)、ステップS8に移行する。
 ステップS8において、翻訳手段25が、ステップS6の換言処理後の翻訳対象文書を目的言語の文書に翻訳する。翻訳手段25は、翻訳知識記憶手段32に記憶されている翻訳知識を参照して翻訳処理を行う。翻訳手段25は、翻訳された目的言語の文書を出力手段4から出力する。翻訳された文書の出力態様は、特に限定されない。例えば、出力手段4がディスプレイ装置であって、翻訳手段25はそのディスプレイ装置に翻訳後の文書を表示させてもよい。
 なお、本実施形態では、翻訳対象の文書が入力される前に、換言規則を生成する場合を例にして説明したが、翻訳対象の文書が入力された後に換言規則を生成してもよい。
 また、第2の実施形態では、換言規則が適用された翻訳対象文書に対して翻訳手段25が機械翻訳を行うので、第2の実施形態の翻訳前換言規則生成システムは機械翻訳システムと称することもできる。
 次に、本実施形態の効果について説明する。本実施形態では、第1の実施形態と同様に、不必要な規則を含めないようにして換言規則を生成することができる。また、換言支援手段24が、翻訳対象の文書において換言規則が適用可能な箇所を特定し、その箇所における換言規則適用の可否判断をユーザに促すので、ユーザは、換言規則に従った表現の変更が適切かを確認することができる。そして、換言規則には不必要な規則は含まれていないので、そのような確認のための負担は少なくて済む。
 次に、第1の実施形態および第2の実施形態の実施例をそれぞれ説明する。以下の説明では、換言により精度を向上させる機械翻訳処理が、日本語を翻訳元の言語(原言語)とし、英語を翻訳先の言語(目的言語)としている場合を例にして説明する。ただし、原言語は日本語に限定されるわけではなく、目的言語も英語に限定されない。原言語や目的言語が任意の言語であっても、本発明の効果を得ることができる。
 まず、第1の実施形態の実施例について、図1,2等を参照して説明する。
 翻訳知識記憶手段32は、換言規則に従って換言された後の翻訳対象文書を機械翻訳する際に用いる翻訳知識(例えば、翻訳辞書、翻訳規則、頻度情報等)を記憶する。
 例えば、入力手段1を介して構造化対訳データが入力されると、データ処理装置が、その構造化対訳データを対訳構造記憶手段31に記憶させる(ステップS1)。既に説明したように、構造化されたデータとは、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである。
 原文および訳文を要素(例えば形態素等の要素)に区切ったり、原文や訳文に構文情報を付与する処理は、人手で行ってもよい。あるいは、形態素解析システムや構文解析システムで行ってもよい。また、原文の要素と訳文の要素を対応付ける処理も、人手で行っても、あるいは、情報処理装置が行ってもよい。例えば、情報処理装置が、非特許文献1や非特許文献2に記載された方法で構造化対訳データを生成してもよい。また、換言の単位としない種類の要素に関係のない情報は、必ずしも構造化対訳データに付与されていなくてもよい。例えば、木構造レベルの換言規則を生成しなければ、構造化対訳データに係り受けに関する構文情報が付加されていなくてもよい。
 図5は、構造化対訳データの一例を示す説明図である。図5に示す例では、構造化対訳データにおける原文および訳文に、構文木の情報が付与され、単語やフレーズ単位の対応関係が定められている。
 図5に示す例では、対応関係にある原言語の表現と目的言語の表現とを実線で結んで示している。例えば、原言語の「機械」と目的言語の「machine 」とが対応関係にあり、同様に、「翻訳した」と「Translation was performed 」とが対応関係にある。また、図5に示す点線は単語からなる文節を表す。また、原文の上および訳文の下に示す実線による木構造は、構文木の構造を表し、線と線の交点が係り受けを表している。線が交点部分よりも先に延びている側が構文木上のヘッド(親)である。例えば、「機械翻訳システムを」と「用いて」では「用いて」の方がヘッドとなる。文節やヘッドの定義は実装形態により異なっていてもよい。文節やヘッドの概念は言語処理に従事する者の間では広く知られているため説明を省略する。
 翻訳可能性判定手段21は、ステップS2(図2参照)で、対訳構造記憶手段31に記憶されている各構造化対訳データの原言語側の各要素を、対応する目的言語側の要素に翻訳可能であるか否かを判定し、翻訳可能である要素とそうでない要素を区別する。
 例えば、構造化対訳データの1つとして、図5に例示するデータがあるとする。この構造化対訳データにおける要素の例は、次のようになる。
 図5に例示する構造化対訳データにおいて、単語レベルの要素として、原言語側では、「機械」、「翻訳」、「を」、「用いて」、「翻訳」、「し」、「た」等が挙げられる。
 また、目的言語側では、「translation 」、「was 」、「performed 」、「using 」、「a 」、「machine 」、「translation 」、「system」等が挙げられる。ただし、ここで示した単語レベルの要素は一例であり、単語の単位は、構造化する際(すなわち対応関係を定める際)に適宜定めてもよい。また、翻訳対象文書における換言の単位により、適宜定めてよい。
 図5に示す例において、フレーズレベルの要素として、原言語側では、「機械翻訳システムを」、「を用いて」、「翻訳した」等が挙げられる。目的言語側では、「was performed 」、「a machine translation system」等が挙げられる。フレーズは、好適には、翻訳システムの研究開発や言語解析システムの解説・研究の際に利用・言及される文法的な一単位であればよい。例えば、フレーズの例として、名詞句、前置詞句、動詞句、動名詞句等があり、日本語の場合には文節、英語の場合にはchunk 等が挙げられる。図5に示す例では、「機械翻訳システムを」は名詞句でありかつ一文節であり、「を用いて」は長単位助詞である。ただし、本例は一例であり、構造化する際に用いた解析手段や求めたい換言の単位の定義によりフレーズレベルとして考慮する要素の単位は変化してよい。
 単語の並びレベルの要素は、原文や訳文の一部分となる任意の数の単語の並びであり、図5に示す例では、例えば、原言語側では「翻訳システムを用いて」「システムを用いて翻訳した」「*を用いて翻訳した」等が挙げられる。ただし、本例は一例であり、単語の並びレベルとして考慮する要素の単位は主に求めたい換言の単位の定義により変化してよい。また、単語の並びの中に間が存在してもよい。間は、一つないし複数の単語が存在することを示す部分である。例えば、「*を用いて翻訳した」なる例では、「*」が間に該当する。本例では、記号「*」は、一つないし複数の単語による何らかの表現が存在することを意味する。なお、技術2においては、単語の並びレベルでの換言規則を主に扱っている。
 構文木の部分木レベルの要素は、構文木の任意の一部分である。例えば、(A,B)なる表記によって、Aという表現がBという表現に係るという係り受け構造を表すとする。図5に示す例では、(機械翻訳システムを,用いて)、((*を,用いて),翻訳した)等を、構文木の部分木レベルの要素とすることができる。ただし、本例は一例であり、部分木レベルとして考慮する要素の単位は主に求めたい換言の単位の定義により変化してよい。上記のように、「*」は何らかの表現の存在を表す。換言規則では、木構造上で子供がいるか否かによって挙動が異なることが多いため、何らかの表現が存在することを意味する「*」のような記号で要素を表現可能とすることが重要となる。
 翻訳可能性判定手段21は、各々の要素についての翻訳可能性を判定する際に、まず、単語レベルおよびフレーズレベルの要素について翻訳可能であるか否かを確認する。この確認処理の好適な例を以下に示す。翻訳可能性判定手段21は、本発明の翻訳前換言規則生成システムが生成する換言規則によって翻訳精度を向上させる機械翻訳手段(図1において図示せず。)を用いて、構造化対訳データの原言語側表現全体(構造化対訳データにおける原文全体)を翻訳する。なお、この機械翻訳手段は、例えば、第2の実施形態で示した翻訳手段25であってもよい。一般に、機械的に翻訳を行う機械翻訳手段は、原文全体に含まれる各々の単語や文節が、訳文におけるどの単語や文節と対応しているかという対応関係を示す情報も翻訳過程で生成する。
 本実施例では、翻訳精度を向上させる対象となる機械翻訳手段も、この対応関係を示す情報を生成するものとする。なお、この場合、翻訳前換言規則生成システムは、翻訳知識格納手段32を必須に備えている必要はなく、代わりに、原言語の原文の入力を受けて目的言語に翻訳して出力する機械翻訳手段を備える。翻訳可能性判定手段21は、機械翻訳手段を用いて構造化対訳データにおける原文全体を翻訳すると、翻訳過程で生成された上記の対応関係を示す情報に基づいて、原文における単語に対する翻訳結果が、構造化対訳データにおけるその単語に対応する訳文の要素と一致する文字列となっているか否かを判定する。
 例えば、図5に例示する構造化対訳データでは、原言語側表現全体(原文)は、「機械翻訳システムを用いて翻訳した」である。この原文を機械翻訳手段によって翻訳した結果が「It was translated using machine translation system. 」であったとする。図6は、この翻訳における対応関係を示す説明図である。図6に示す実線は、原言語の単語またはフレーズが、目的言語のどの単語またはフレーズに対応しているかを示している。本例では、「機械」という単語は「machine 」という訳語を持ち、「システム」という単語は「system」という訳語を持っていることが分かる。また、図7は、この翻訳過程で生成される対応関係を示す情報の例を示す説明図である。ここでは、説明を簡単にするために、単語対単語の関係を例にして説明するが、機械翻訳手段によって原言語と目的言語の対応関係が単語対単語以外(単語対フレーズやフレーズ対フレーズ等)について定められる場合であっても、以下の処理を行えばよい。
 翻訳可能性判定手段21は、翻訳過程で生成された単語およびフレーズレベルでの対応関係を示す情報と、構造化対訳データにおいて定められている要素の対応関係とを参照する。そして、原文に含まれる単語やフレーズの要素に対して翻訳過程で対応するとして訳文に含められた単語やフレーズと、構造化対訳データにおいてその要素に対応すると定められた要素とが一致していれば、その要素について翻訳可能であると判定し、一致していなければ翻訳不能であると判定する。例えば、図5に示す原言語側の1つめの表現である「機械」は、構造化対訳データ上で「machine 」という要素に対応している。また、この「機械」は、機械翻訳手段による訳語「machine 」と一致する。従って、翻訳可能性判定手段21は、「機械」に関して「翻訳可能」と判定する。図5に示す原言語側の2~4番目の表現も同様に「翻訳可能」と判定されるが、5番目の表現「翻訳した」に関しては、構造化対訳データ上で対応付けられている「translation was performed 」と、機械翻訳手段による訳語「be translated」とが異なるため、「翻訳不能」と判定される。
 また、上記の例では、翻訳可能性判定手段21が、原言語表現全体を機械翻訳手段で機械翻訳することによって単語レベル・フレーズレベルでの翻訳可能性を判定する場合を示した。機械翻訳を行う代わりに、翻訳精度を向上させる対象となる機械翻訳用の辞書データ(本例では日英翻訳辞書)で辞書引きすることにより、構造化対訳データ中の原文の要素に対応する訳語を求め、その訳語が、その原文の要素に対応する訳文の要素と一致するならば、翻訳可能と判定し、一致しなければ翻訳不能と判定してもよい。例えば、図5に示すように「機械」と「machine 」が対応付けられている場合に、「機械」を辞書データで辞書引きしたときに「machine 」という訳語が得られれば、翻訳可能と判定してもよい。
 また、機械翻訳手段によって機械翻訳を行う場合であっても、辞書データを用いて辞書引きを行う場合であっても、必ずしも、機械翻訳や辞書引きの結果得られる第1候補と構造化対訳データ中の訳文の要素とが一致していなくてもよい。第1候補が、構造化対訳データ中の訳文の要素と一致していなくても、第2候補以下の候補が一致するならば、翻訳可能性判定手段21は翻訳可能と判定してもよい。第2候補以下での一致を見る場合でも、訳文の書き換えを行わなくても訳語選択によって望みの訳文が得られるようになりやすくなる。
 次に、翻訳可能性判定手段21は、単語レベル・フレーズレベルでの翻訳可能性を元に、更に大きな単位の要素の翻訳可能性を調べる。その大きな単位の要素に含まれる単語やフレーズに「翻訳不能」なものが存在しなければ、翻訳可能性判定手段21は、その要素について「翻訳可能」と判定し、「翻訳不能」なものが存在していれば「翻訳不能」と判定する。例えば、「機械翻訳システム/machine translation system」というフレーズレベルの要素対に関しては、「機械とmachine 」、「翻訳とtranslation 」、「システムとsystem」というそれぞれの対応関係毎に翻訳可能と判定され、各々の構成要素が過不足無く対応しているので、翻訳可能とする。単語やフレーズより大きな要素の翻訳可能性を判定するときには、その要素に含まれる名詞、動詞、形容詞、副詞、接続詞や一部の助詞、助動詞など、単語自体に明らかな意味がある語、言い換えれば、原言語の場合は目的言語、目的言語の場合には原言語に典型的な訳出表現が存在する語について、翻訳可能であるか否かを判定していけばよい。例えば、「を」、「a 」、「is」については、他方の言語で訳出しないことが多いため、確認対象としなくてもよい。木構造レベルの要素対である「(((* を) 用いて) 翻訳した) /「(Translation (was performed) (using *))」に関しては、「翻訳した」に対応する表現である「be translated」が構造化対訳データに存在しないため、要素全体としての翻訳可能性も「翻訳不能」とする。
 翻訳可能性判定手段21は、他の構造化対訳データについても、要素毎に翻訳可能性を判定する。図8は、翻訳可能性判定手段21による翻訳可能性判定結果の例を示す説明図である。図8では、構造化対訳データの要素対に対する翻訳可能性判定結果のうちの一部を示している。図8に示すIDは、説明の便宜上、要素対を区別するために付した識別情報である。出現頻度は、要素の翻訳可能性を判定した構造化対訳データ全体の中で、該当する要素対が出現する回数である。すなわち、出現頻度とは、構造化対訳データにおいて対応すると定められた原言語側の要素と目的言語側の要素同士の組み合わせが同一の組み合わせとなっている要素対の数である。翻訳可能性判定手段21は、翻訳可能性判定時に、各要素対が、構造化対訳データ全体で出現する回数をカウントして、要素対と、翻訳可能性判定結果と、出現回数とを対応付けてもよい。
 以下、説明を簡単にするため、単語レベルやフレーズレベルに関して説明するが、他のレベルの要素に関しても同様に処理を行えばよい。
 各要素の翻訳可能性判定後、同義表現クラスタ生成手段22は、原言語の要素の翻訳可能性を判定した各要素対を、目的言語側の要素が等しい要素対毎に分類する。図8に示す例では、IDが"1","3","4","5"の要素対では、それぞれ目的言語側の要素が"machine translation system"であり等しい。従って、同義表現クラスタ生成手段22は、目的言語側の要素が共通となっているID"1","3","4","5"の要素対を同一グループに分類する(ステップS3)。この目的言語側要素を共通とする各要素対の集合が同義表現クラスタである。
 次に、換言規則生成手段23は、ステップS3で生成された各同義表現クラスタから換言規則を生成する。換言規則生成手段23は、個々の同義表現クラスタの中で、翻訳可能性判定手段21によって翻訳不能とされた要素を、翻訳可能とされた原言語側の要素へ置き換える規則を、換言規則として抽出する(ステップS4)。例えば、上記のID"1","3","4","5"の要素対を含む同義表現クラスタでは、ID"1","5"の要素対では翻訳可能と判定され、ID"3","4"の要素対では翻訳不能と判定されている。換言規則生成手段23は、ID"3"またはID"4"における原言語側の要素を、ID"1"またはID"5" における原言語側の要素に置き換える規則を換言規則として定める。
 ステップS4において、換言規則生成手段23は、原言語側の翻訳不能な要素を、原言語側の翻訳可能な要素であって出現頻度が高い要素対における原言語側の要素に置き換える規則を換言規則として定めることが好ましい。例えば、ID"5"の要素対とID"1"の要素対とで出現頻度を比較すると3270>124となっていて、ID"1"の要素対の方が出現頻度が多い。したがって、換言規則生成手段23は、ID"3"またはID"4"における原言語側の要素を、ID"1" における原言語側の要素に置き換える規則を換言規則とすればよい。つまり「自動翻訳システム→機械翻訳システム」、「自動通訳システム→機械翻訳システム」という換言規則を定めればよい。なお、「P→Q」は、「PをQに置き換える」という換言規則を表すものとする。
 このように、翻訳可能と判定された要素対が複数あり、その各要素対の出現頻度が異なる場合、翻訳不能な原言語側要素を、出現頻度が低い要素対(例えば、出現頻度が最大となる要素対以外の要素対)の原言語側要素に置き換える規則は換言規則から除外してもよい。そして、例えば、翻訳不能とされた要素を、翻訳可能と判定されていて、出現頻度が最大となっている要素対の原言語側の要素に置き換える規則を換言規則として定めてもよい。
 具体例を用いて、本発明の効果を技術2と対比して説明する。
 仮に、図8に例示する構造化対訳データに対して技術2を適用して換言規則を生成するとする。技術2では、「マシントランスレーションシステムおよびmachine translation system」という要素対に関しての翻訳可能性が考慮されないため、結果として「マシントランスレーションシステム→機械翻訳システム」という換言規則が得られてしまう。しかし、ID"5"の要素対に関しては「翻訳可能」であり、元々、「マシントランスレーションシステム」なる原言語表現を正しく"machine translation system"と翻訳することが可能となっている。翻訳精度を向上させようとする機械翻訳システムが不得意な表現を換言するという目的からは、元々、翻訳可能であった「マシントランスレーションシステム」を他の表現に変換する必要はない。技術2では、このように必要のない換言規則を獲得してしまうことにより、誤った換言規則を増やす危険性があった。
 一方、本発明では、翻訳可能性判定手段21が、原言語側の要素が翻訳可能であるか否かを判定し、換言規則生成手段23が、翻訳不能と判定された要素を、翻訳可能と判定された要素に置き換える換言規則を生成する。従って、最初から翻訳可能であった要素を他の要素に置き換えるような不必要な換言規則を生成することはなく、上記の問題の発生を抑制することができる。
 また、生成する換言規則の精度をさらに高めるための変形例を示す。
 第1の変形例を示す。構造化対訳データ内の複数の要素対において、目的言語側の複数種類の要素が原言語側の共通の要素に対応付けられている場合がある。すなわち、同一の原言語側要素を持つ要素対が複数存在する場合がある。そのような要素対が定められている場合、同義表現クラスタ生成手段22は、より高頻度の要素対のみを同義表現クラスタに属させて、他の要素対に関しては同義表現クラスタに属させる対象外としてもよい。例えば、同一の原言語側要素を持つ要素対のうち、出現頻度が最も高い要素対のみを同義表現クラスタに属させ、他の要素対は同義表現クラスタに属させる対象外としてもよい。そして、換言規則生成手段23は、そのように生成された同義表現クラスタを用いて換言規則を生成してもよい。
 一般に、目的言語表現が異なる場合は、同じ原言語表現でも若干意味合いが異なると考えられる。そのため、その原言語要素にとって低頻度な目的言語要素との要素対が属する同義表現クラスタは、その原言語要素にとって利用頻度の低い換言が含まれる同義表現クラスタである可能性が高い。例えば、その同義表現クラスタからは、利用頻度の少ない表現への換言規則が生成される可能性が高く、そのような換言規則による換言は適当でない場合がある。同義表現クラスタ生成手段22が、出現頻度の最も多い要素対のみを同義表現クラスタに属させることで、出現頻度の少ない要素対を含む同義表現クラスタから換言規則を生成することを抑制し、誤った換言規則生成を抑制することができる。
 なお、同義表現クラスタ生成手段22が、同一の原言語側要素を持つ要素対をそれぞれ同義表現クラスタに属させ、換言規則生成手段が、その要素対のうち、出現頻度の最も多い要素対以外の要素対における原言語の要素への換言規則を、換言規則から除外してもよい。この場合も、同様の効果が得られる。
 第2の変形例を示す。構造化データにおいて、同一の原言語側要素を持つ要素対が複数存在しているとする。そして、そのうち原言語側要素が翻訳可能と判定されたある一つの要素対(第1の要素対と記す。)が存在しているとする。さらに、第1の要素対の出現頻度が、その複数の要素対における原言語側要素が翻訳不能と判定された他の要素対(第2の要素対と記す。)の出現頻度よりも多いとする。この場合、同義表現クラスタ生成手段22が、その第2の要素対を同義表現クラスタに属させる対象外としてもよい。すなわち、同一の原言語側要素を持つ要素対が複数存在し、その中に翻訳可能と判定された要素対があり、その要素対よりも出現頻度が少なく、翻訳不能と判定された要素対が存在する場合、その要素対を同義表現クラスタに属させる対象から除外してもよい。
 共通の原言語側要素を持つ各要素対の出現頻度が違う場合、その原言語側要素の訳として、第2の要素対の目的言語側要素より、第1の要素対の目的言語側要素の方が一般的である。そのため、敢えて、その原言語側要素から第2の要素対の目的言語側要素に訳出可能にする換言行為は一般に翻訳精度の低下に繋がる。従って、第2の変形例のように動作することで、第2の要素対における原言語側要素に換言するような換言規則の生成を抑制することができ、誤った換言規則生成を抑制できるという効果が得られる。
 図8に示す例を用いて説明すると、ID"3"の「自動翻訳システム」という原言語要素に対して対応する"machine translation system"という訳語は翻訳不能である。一方、その「自動翻訳システム」という原言語側要素を持ち、出現頻度がID"3"より高い要素対(ID"2")が存在する。従って、同義表現クラスタ生成手段22は、ID"3"を同義表現クラスタに含めず、その結果、換言規則生成手段23は、ID"3"を元にした換言規則を生成しない。これにより、出現頻度から見ても、"machine translation system"という訳語より"automatic translation system"という訳語の方がふさわしい「自動翻訳システム」という原言語表現に対して換言規則を適用し、「機械翻訳システム」に置き換えることによって、よりふさわしくない"machine translation system"という訳になるのを防ぐことができる。
 同義表現クラスタ生成手段22が、第2の要素対も同義表現クラスタに属させてもよい。この場合であっても、換言規則生成手段23が第2の要素対に該当する要素対から換言規則を生成することを禁止することで同様の効果が得られる。
 また、換言規則の作成方法として、特許文献2に記載された装置のように、訳文が同一な対訳に関して原文側の差分箇所を求めるという方法で作成してもよい。
 また、実際には、換言の単位が1単語等短すぎる(要素が小さすぎる)場合でも、あるいは、逆に10単語等のように長すぎる(要素が大きすぎる)場合でも、換言規則としては問題を生じやすい。例えば、短すぎる場合には、換言を行うための条件が適切に換言の単位に含まれないため、不適切な文脈での換言が多くなり、結果として誤った換言となり易い。逆に長すぎる場合には、換言としては問題が少ないが、換言を行うための条件が厳密になりすぎるため、実際には換言が殆ど行われなくなってしまう。よって、本発明を実施するにあたっては、適切な長さ(要素の大きさ)の換言単位を選定することが好ましい。例えば、各要素の出現頻度が一定以下のものを除外することで、長すぎる要素を抑制したり、短くイレギュラーな翻訳を抑制したりできる。また、ある原言語の要素に対して、得られた訳が複数ある場合には、その最も頻度が高い訳をのみ対象にして換言規則獲得処理を行うことで適切な適用条件の含まれない換言規則を抑制したりといったことが可能となる。また、文節単位のみを対象としたり、特定の品詞の並び方に合致した単位のみを対象にするといった方法も適切な単位での換言規則の生成に役立つ。
 次に、第2の実施例について、図3,4を参照して説明する。
 翻訳知識記憶手段32が記憶する情報は、第1の実施例と同様である。また、入力手段1から構造化対訳データが入力され、換言規則生成手段23が換言規則を生成するまでの動作(ステップS1~S4)も第1の実施例と同様である。
 ステップS4の後、換言支援手段24には、入力手段1を介して、原言語で記述された翻訳対象の文書が入力される。
 続いて、換言支援手段24は、入力された翻訳対象文書を表示する。例えば、出力手段4がディスプレイ装置であり、そのディスプレイ装置に翻訳対象文書を表示させてもよい。翻訳対象文書を表示するときに、換言支援手段24は、その翻訳対象文書中で、ステップS4にて生成された換言規則が適用可能な箇所を特定する。例えば、換言規則において置き換えられる側の要素に合致する表現が存在する箇所を、換言規則が適用可能な箇所として特定すればよい。さらに、換言支援手段24は、その箇所において、換言規則を適用するか否かの判断をユーザに促す。この動作の態様は種々存在するが、好適には、換言支援手段24は、翻訳対象文書を表示するときに、換言規則を適用して換言を行った結果を表示し、その換言を行った箇所を、翻訳対象文書内の他の箇所とは異なる表示態様で表示させることで、換言箇所における換言を確定してよいか否かの判断をユーザに促す。換言を行った箇所を翻訳対象文書内の他の箇所とは異なる表示態様で表示する例として、例えば、色を変えたり、点滅させたり、換言結果を別リストとして表示させたりすることが挙げられる。このような表示態様でユーザの注意を引き付け、換言を行うか否かをユーザに判断させればよい。
 換言を確定するという指示や、換言を行わないという指示の入力は、例えば、マウスやキーボード等の入力装置を介して行う構成とすればよい。ユーザは、換言規則を適用した換言結果の表現と、換言規則適用前の表現とで意味が異なるか否かを判断し、異ならないならば、換言を確定するという指示を入力し、意味が異なれば、換言を行わないという指示を入力すればよい。換言支援手段24は、換言を確定するという指示が入力されると、確定と指示された箇所の表示を翻訳対象文書内の他の箇所と同様の表示態様で表示する。また、換言を行わないと指示された箇所の表現を、換言規則適用前の元の表現に戻す。
 換言規則を適用してよいか否かの確認の受付方法は、上記の方法に限定されない。例えば、これまでに数多く提案されている文書校正支援システムが校正対象と判断した表現を本当にシステムが用意した校正候補に置き換えてよいか否かの確認を受け付ける種々の方法を採用することが可能である。
 続いて、翻訳手段25は、換言規則をユーザの判断により適切に適用した結果の原言語文書を目的言語に翻訳する(ステップS8)。翻訳手段25は、翻訳によって得た目的言語の文書を出力手段4に出力する。
 具体例を用いて、本発明の効果を技術2と対比して説明する。
 実施例1で説明したとおり、図8に例示する構造化対訳データに対して技術2を適用して換言規則を生成する場合、「マシントランスレーションシステムおよびmachine translation system」という要素対に関しての翻訳可能性が考慮されないため、結果として「マシントランスレーションシステム→機械翻訳システム」という換言規則が得られてしまう。しかし、元々「マシントランスレーションシステム」なる原言語表現を正しく"machine translation system"と翻訳することが可能となっている。そのため、翻訳精度を向上させようとする機械翻訳システムが不得意な表現を換言するという目的からは、元々、翻訳可能であった「マシントランスレーションシステム」を他の表現に変換する必要はない。このような必要のない換言規則を生成してしまうことにより、その換言規則による換言を翻訳対象文書に適用するか否かという確認作業が増えてしまう。
 本実施例では、不必要な換言規則の生成を防止しているので、生成した換言規則に従って翻訳対象文書の表現の換言を行うか否かの確認作業の増加を抑制することができる。
 また、本発明の他の効果を、技術3と対比して説明する。
 特許の分野では、昨今の国際化社会の進展により、企業における外国出願による海外での発明権利化が重要視されており、明細書等をより速く正確に翻訳することが求められている。ただし、発明の技術分野に詳しく、かつ翻訳能力も高い人材を数多く揃えることは困難であるため、翻訳前に表現の曖昧性が無くなるように前編集する人間と、その後翻訳する人間とにより役割分担を行うようになってきた。さらに、翻訳者の負担を減らす目的で翻訳時に機械翻訳システムを利用する例も増えてきている。つまり、特許翻訳の分野では、翻訳対象文書の翻訳前に必ずしも目的言語に明るくない人間が翻訳対象文書に対して何らかの前編集を行い、その後、編集された文書に対して機械翻訳をかけるという作業フロー(分業翻訳作業フロー)が生じている。また、特許翻訳に限らず、翻訳結果に正確性が求められ、内容が多岐にわたり、多くの文書の翻訳する必要がある他分野の翻訳(例えば、契約文書等の法律文書の翻訳等)でも同様の作業フローが生じうる。技術3のように、対訳コーパスから翻訳知識の形で知識を獲得してしまうと、その適用結果の可否を判定するためには、目的言語表現の可否を判定することとなり、その結果、目的言語に詳しい人間にしか作業を行えなくなる。
 本発明では、換言規則生成手段23が、原言語側の翻訳不能と判定された要素を、原言語側の翻訳可能と判定された要素に置き換える換言規則を生成する。そして、翻訳対象文書においてその換言規則を適用するか否かの判断をユーザに促すが、翻訳対象文書も、置き換えられる要素および置き換わる要素も、原言語である。従って、目的言語に詳しくなくても、換言規則を適用した結果が不自然になるか否かを判断することができる。よって、換言規則を適用するか否かの判断を、目的言語に詳しくなくても効率的に行うことができる。
 次に、本発明の概要について説明する。図9は、本発明の概要を示す説明図である。本発明の翻訳前換言規則生成システムは、対訳データ記憶手段71と、翻訳可能性判定手段72と、要素対グループ形成手段73と、換言規則生成手段74とを備える。
 対訳データ記憶手段71(例えば、対訳構造記憶手段31)は、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データ(構造化対訳データ)を記憶する。
 翻訳可能性判定手段72(例えば、翻訳可能性判定手段21)は、対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する。
 要素対グループ形成手段73(例えば、同義表現クラスタ生成手段22)は、対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める。
 換言規則生成手段74(例えば、換言規則生成手段23)は、要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段72によって翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段72によって翻訳可能と判定された要素に置き換える規則を、換言規則として生成する。
 以上のような構成により、原言語側の要素が翻訳可能であるか否かを翻訳可能性判定手段72が判定し、換言規則生成手段74が、翻訳不能と判定された要素を、翻訳可能と判定された要素に置き換える換言規則を生成する。従って、翻訳対象文書に含まれている表現を翻訳不能な要素に言い換える換言規則が生じることがなく、そのような不必要な規則を含めないようにして、換言規則を生成することができる。
 また、上記の実施形態および実施例には、原文の要素から目的語の訳語への辞書引きを行うための翻訳知識を記憶する翻訳知識記憶手段(例えば、翻訳知識記憶手段32)を備え、翻訳可能性判定手段72が、翻訳知識を用いて対訳データにおける原文の要素の訳語を求め、その訳語と対訳データにおける訳文の要素とが一致する場合に原文の要素に関して翻訳可能と判定し、一致しない場合に原文の要素に関して翻訳不能と判定する構成が開示されている。
 また、上記の実施形態および実施例には、原文を訳文に翻訳し、原文の要素とその訳文における訳語とを対応付ける機械翻訳手段を備え、翻訳可能性判定手段72が、対訳データにおける原文を機械翻訳手段に翻訳させ、機械翻訳手段によって原文の要素に対応付けられた訳語が、対訳データで原文の要素に対応付けられている訳文の要素と一致する場合に対訳データの原文の要素に関して翻訳可能と判定し、一致しない場合に対訳データの原文の要素に関して翻訳不能と判定する構成が開示されている。
 また、対訳データで原言語側の要素が共通である複数の要素対が存在するときに、その複数の要素対のうち対訳データにおける出現頻度が最も高い要素対以外を、換言規則を生成するための要素対から除外する要素対除外手段(例えば、実施例1の第1の変形例で説明した同義表現クラスタ生成手段22)を備える構成が開示されている。
 また、対訳データで原言語側の要素が共通である複数の要素対が存在し、その複数の要素対のうち原言語側要素が翻訳可能と判定された要素対である第1の要素対の出現頻度が、その複数の要素対のうちの原言語側要素が翻訳不能と判定された他の要素対である第2の要素対の出現頻度よりも多いときに、換言規則を生成するための要素対から第2の要素対を除外する要素対除外手段(例えば、実施例1の第2の変形例で説明した同義表現クラスタ生成手段22)を備える構成が開示されている。
 また、換言規則生成手段74が、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段72によって翻訳可能と判定された要素が複数存在するときに、その翻訳可能と判定された原言語側の要素を含む要素対のうち対訳データにおける出現頻度が最も高い要素対に含まれる原言語側の要素への置き換えを定める換言規則を生成する構成が開示されている。
 また、換言規則生成手段74に生成された換言規則における置き換えられる側の要素に合致する表現が存在する箇所を翻訳対象文書中から特定し、その箇所の表現を換言規則に従って置き換えた結果を表示し、その置き換えを適用する旨の指示がユーザによって入力されることを条件に、その箇所の表現を換言規則に従って置き換えることを確定する換言支援手段(例えば、換言支援手段24)を備える構成が開示されている。
 また、換言支援手段が、翻訳対象文書が機械翻訳される前に、換言規則における置き換えられる側の要素に合致する表現が存在する箇所を翻訳対象文書中から特定し、その箇所の表現を換言規則に従って置き換えた結果を表示し、その置き換えを適用する旨の指示がユーザによって入力されることを条件に、その箇所の表現を換言規則に従って置き換えることを確定する構成が開示されている。
 上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の通信媒体を介して伝送することにより提供することも可能である。また、記憶媒体には、例えば、フレキシブルディスク、ハードディスク、磁気ディスク、光磁気ディスク、CD-ROM、DVD、ROMカートリッジ、バッテリバックアップ付きRAMメモリカートリッジ、フラッシュメモリカートリッジ、不揮発性RAMカートリッジ等が含まれる。また、通信媒体には、電話回線等の有線通信媒体、マイクロ波回線等の無線通信媒体等が含まれる。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2008年5月26日に出願された日本出願特願2008-136347を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、機械翻訳前に翻訳対象文書の編集を行う際に用いられる換言規則を生成する翻訳前換言規則生成システムに好適に適用可能である。
 1 入力手段
 2 データ処理装置
 3 記憶装置
 4 出力手段
 21 翻訳可能性判定手段
 22 同義表現クラスタ生成手段
 23 換言規則生成手段
 24 換言支援手段
 25 翻訳手段
 31 対訳構造記憶手段
 32 翻訳知識記憶手段

Claims (24)

  1.  原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶する対訳データ記憶手段と、
     前記対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する翻訳可能性判定手段と、
     前記対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める要素対グループ形成手段と、
     前記要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段によって翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段によって翻訳可能と判定された要素に置き換える規則を、換言規則として生成する換言規則生成手段とを備える
     ことを特徴とする翻訳前換言規則生成システム。
  2.  原文の要素から目的語の訳語への辞書引きを行うための翻訳知識を記憶する翻訳知識記憶手段を備え、
     翻訳可能性判定手段は、前記翻訳知識を用いて対訳データにおける原文の要素の訳語を求め、当該訳語と前記対訳データにおける訳文の要素とが一致する場合に前記原文の前記要素に関して翻訳可能と判定し、一致しない場合に前記原文の前記要素に関して翻訳不能と判定する
     請求項1に記載の翻訳前換言規則生成システム。
  3.  原文を訳文に翻訳し、原文の要素と前記訳文における訳語とを対応付ける機械翻訳手段を備え、
     翻訳可能性判定手段は、対訳データにおける原文を機械翻訳手段に翻訳させ、機械翻訳手段によって前記原文の要素に対応付けられた訳語が、前記対訳データで前記原文の要素に対応付けられている訳文の要素と一致する場合に対訳データの前記原文の前記要素に関して翻訳可能と判定し、一致しない場合に対訳データの前記原文の前記要素に関して翻訳不能と判定する
     請求項1に記載の翻訳前換言規則生成システム。
  4.  対訳データで原言語側の要素が共通である複数の要素対が存在するときに、前記複数の要素対のうち対訳データにおける出現頻度が最も高い要素対以外を、換言規則を生成するための要素対から除外する要素対除外手段を備える
     請求項1から請求項3のうちのいずれか1項に記載の翻訳前換言規則生成システム。
  5.  対訳データで原言語側の要素が共通である複数の要素対が存在し、前記複数の要素対のうち原言語側要素が翻訳可能と判定された要素対である第1の要素対の出現頻度が、前記複数の要素対のうちの原言語側要素が翻訳不能と判定された他の要素対である第2の要素対の出現頻度よりも多いときに、換言規則を生成するための要素対から前記第2の要素対を除外する要素対除外手段を備える
     請求項1から請求項3のうちのいずれか1項に記載の翻訳前換言規則生成システム。
  6.  換言規則生成手段は、
     同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段によって翻訳可能と判定された要素が複数存在するときに、その翻訳可能と判定された原言語側の要素を含む要素対のうち対訳データにおける出現頻度が最も高い要素対に含まれる原言語側の要素への置き換えを定める換言規則を生成する
     請求項1から請求項5のうちのいずれか1項に記載の翻訳前換言規則生成システム。
  7.  換言規則生成手段に生成された換言規則における置き換えられる側の要素に合致する表現が存在する箇所を翻訳対象文書中から特定し、当該箇所の表現を前記換言規則に従って置き換えた結果を表示し、その置き換えを適用する旨の指示がユーザによって入力されることを条件に、前記箇所の表現を換言規則に従って置き換えることを確定する換言支援手段を備える
     請求項1から請求項6のうちのいずれか1項に記載の翻訳前換言規則生成システム。
  8.  換言支援手段は、翻訳対象文書が機械翻訳される前に、換言規則における置き換えられる側の要素に合致する表現が存在する箇所を翻訳対象文書中から特定し、当該箇所の表現を前記換言規則に従って置き換えた結果を表示し、その置き換えを適用する旨の指示がユーザによって入力されることを条件に、前記箇所の表現を換言規則に従って置き換えることを確定する
     請求項7に記載の翻訳前換言規則生成システム。
  9.  対訳データ記憶手段が、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶し、
     前記対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する翻訳可能性判定ステップと、
     前記対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める要素対グループ形成ステップと、
     前記要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定ステップで翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定ステップで翻訳可能と判定された要素に置き換える規則を、換言規則として生成する換言規則生成ステップとを含む
     ことを特徴とする翻訳前換言規則生成方法。
  10.  翻訳知識記憶手段が、原文の要素から目的語の訳語への辞書引きを行うための翻訳知識を記憶し、
     翻訳可能性判定ステップで、前記翻訳知識を用いて対訳データにおける原文の要素の訳語を求め、当該訳語と前記対訳データにおける訳文の要素とが一致する場合に前記原文の前記要素に関して翻訳可能と判定し、一致しない場合に前記原文の前記要素に関して翻訳不能と判定する
     請求項9に記載の翻訳前換言規則生成方法。
  11.  翻訳可能性判定ステップで、対訳データにおける原文を機械翻訳手段に翻訳させるとともに、原文の要素と訳文における訳語とを対応付けさせ、機械翻訳手段によって前記原文の要素に対応付けられた訳語が、前記対訳データで前記原文の要素に対応付けられている訳文の要素と一致する場合に対訳データの前記原文の前記要素に関して翻訳可能と判定し、一致しない場合に対訳データの前記原文の前記要素に関して翻訳不能と判定する
     請求項9に記載の翻訳前換言規則生成方法。
  12.  対訳データで原言語側の要素が共通である複数の要素対が存在するときに、前記複数の要素対のうち対訳データにおける出現頻度が最も高い要素対以外を、換言規則を生成するための要素対から除外する
     請求項9から請求項11のうちのいずれか1項に記載の翻訳前換言規則生成方法。
  13.  対訳データで原言語側の要素が共通である複数の要素対が存在し、前記複数の要素対のうち原言語側要素が翻訳可能と判定された要素対である第1の要素対の出現頻度が、前記複数の要素対のうちの原言語側要素が翻訳不能と判定された他の要素対である第2の要素対の出現頻度よりも多いときに、換言規則を生成するための要素対から前記第2の要素対を除外する
     請求項9から請求項11のうちのいずれか1項に記載の翻訳前換言規則生成方法。
  14.  換言規則生成ステップで、
     同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定ステップで翻訳可能と判定された要素が複数存在するときに、その翻訳可能と判定された原言語側の要素を含む要素対のうち対訳データにおける出現頻度が最も高い要素対に含まれる原言語側の要素への置き換えを定める換言規則を生成する
     請求項9から請求項13のうちのいずれか1項に記載の翻訳前換言規則生成方法。
  15.  換言規則生成ステップで生成された換言規則における置き換えられる側の要素に合致する表現が存在する箇所を翻訳対象文書中から特定し、当該箇所の表現を前記換言規則に従って置き換えた結果を表示し、その置き換えを適用する旨の指示がユーザによって入力されることを条件に、前記箇所の表現を換言規則に従って置き換えることを確定する換言支援ステップを含む
     請求項9から請求項14のうちのいずれか1項に記載の翻訳前換言規則生成方法。
  16.  翻訳対象文書が機械翻訳される前に換言支援ステップを行う
     請求項15に記載の翻訳前換言規則生成方法。
  17.  原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶する対訳データ記憶手段を備えたコンピュータに搭載される翻訳前換言規則生成用プログラムを格納した記録媒体であって、
     コンピュータに、
     前記対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する翻訳可能性判定処理、
     前記対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める要素対グループ形成処理、および、
     前記要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定処理で翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定処理で翻訳可能と判定された要素に置き換える規則を、換言規則として生成する換言規則生成処理
     を実行させるための翻訳前換言規則生成用プログラムを格納した記録媒体。
  18.  コンピュータに、
     翻訳可能性判定処理で、原文の要素から目的語の訳語への辞書引きを行うための翻訳知識を用いて対訳データにおける原文の要素の訳語を求めさせ、当該訳語と前記対訳データにおける訳文の要素とが一致する場合に前記原文の前記要素に関して翻訳可能と判定させ、一致しない場合に前記原文の前記要素に関して翻訳不能と判定させる
     請求項17に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
  19.  コンピュータに、
     翻訳可能性判定処理で、対訳データにおける原文を翻訳させるとともに、原文の要素と訳文における訳語とを対応付けさせ、前記原文の要素に対応付けられた訳語が、前記対訳データで前記原文の要素に対応付けられている訳文の要素と一致する場合に対訳データの前記原文の前記要素に関して翻訳可能と判定させ、一致しない場合に対訳データの前記原文の前記要素に関して翻訳不能と判定させる
     請求項17に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
  20.  コンピュータに、
     対訳データで原言語側の要素が共通である複数の要素対が存在するときに、前記複数の要素対のうち対訳データにおける出現頻度が最も高い要素対以外を、換言規則を生成するための要素対から除外させる
     請求項17から請求項19のうちのいずれか1項に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
  21.  コンピュータに、
     対訳データで原言語側の要素が共通である複数の要素対が存在し、前記複数の要素対のうち原言語側要素が翻訳可能と判定された要素対である第1の要素対の出現頻度が、前記複数の要素対のうちの原言語側要素が翻訳不能と判定された他の要素対である第2の要素対の出現頻度よりも多いときに、換言規則を生成するための要素対から前記第2の要素対を除外させる
     請求項17から請求項19のうちのいずれか1項に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
  22.  コンピュータに、
     換言規則生成処理で、
     同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定処理で翻訳可能と判定された要素が複数存在するときに、その翻訳可能と判定された原言語側の要素を含む要素対のうち対訳データにおける出現頻度が最も高い要素対に含まれる原言語側の要素への置き換えを定める換言規則を生成させる
     請求項17から請求項21のうちのいずれか1項に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
  23.  コンピュータに、
     換言規則生成処理で生成された換言規則における置き換えられる側の要素に合致する表現が存在する箇所を翻訳対象文書中から特定し、当該箇所の表現を前記換言規則に従って置き換えた結果を表示し、その置き換えを適用する旨の指示がユーザによって入力されることを条件に、前記箇所の表現を換言規則に従って置き換えることを確定する換言支援処理を実行させる
     請求項17から請求項22のうちのいずれか1項に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
  24.  コンピュータに、
     翻訳対象文書が機械翻訳される前に換言支援処理を実行させる
     請求項23に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
PCT/JP2009/002218 2008-05-26 2009-05-20 翻訳前換言規則生成システム WO2009144890A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008136347A JP2011186507A (ja) 2008-05-26 2008-05-26 翻訳前換言規則生成システム、翻訳前換言規則生成方法および翻訳前換言規則生成用プログラム
JP2008-136347 2008-05-26

Publications (1)

Publication Number Publication Date
WO2009144890A1 true WO2009144890A1 (ja) 2009-12-03

Family

ID=41376780

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/002218 WO2009144890A1 (ja) 2008-05-26 2009-05-20 翻訳前換言規則生成システム

Country Status (2)

Country Link
JP (1) JP2011186507A (ja)
WO (1) WO2009144890A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491398A (zh) * 2018-03-26 2018-09-04 深圳市元征科技股份有限公司 一种对更新的软件文本进行翻译的方法及电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138414A (ja) * 2014-01-22 2015-07-30 富士通株式会社 機械翻訳装置、翻訳方法、及び、そのプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005222121A (ja) * 2004-02-03 2005-08-18 Advanced Telecommunication Research Institute International 言換え規則作成プログラム、当該プログラムを記録した記録媒体及び当該プログラムによりプログラムされたコンピュータ
JP2005250540A (ja) * 2004-03-01 2005-09-15 Advanced Telecommunication Research Institute International 換言規則選別装置及び方法、そのためのコンピュータプログラム、並びに当該コンピュータプログラムによりプログラムされたコンピュータ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005222121A (ja) * 2004-02-03 2005-08-18 Advanced Telecommunication Research Institute International 言換え規則作成プログラム、当該プログラムを記録した記録媒体及び当該プログラムによりプログラムされたコンピュータ
JP2005250540A (ja) * 2004-03-01 2005-09-15 Advanced Telecommunication Research Institute International 換言規則選別装置及び方法、そのためのコンピュータプログラム、並びに当該コンピュータプログラムによりプログラムされたコンピュータ

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491398A (zh) * 2018-03-26 2018-09-04 深圳市元征科技股份有限公司 一种对更新的软件文本进行翻译的方法及电子设备
CN108491398B (zh) * 2018-03-26 2021-09-07 深圳市元征科技股份有限公司 一种对更新的软件文本进行翻译的方法及电子设备

Also Published As

Publication number Publication date
JP2011186507A (ja) 2011-09-22

Similar Documents

Publication Publication Date Title
US6782384B2 (en) Method of and system for splitting and/or merging content to facilitate content processing
JP4940325B2 (ja) 文書校正支援装置、方法およびプログラム
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
Ofazer et al. Bootstrapping morphological analyzers by combining human elicitation and machine learning
JP6096489B2 (ja) 外国語文章作成支援装置、方法、及びプログラム
Blain et al. Phrase level segmentation and labelling of machine translation errors
Mrinalini et al. Pause-based phrase extraction and effective OOV handling for low-resource machine translation systems
Pinnis et al. Tilde MT platform for developing client specific MT solutions
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JP2017151553A (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
JP4476609B2 (ja) 中国語解析装置、中国語解析方法および中国語解析プログラム
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
JP4869281B2 (ja) 機械翻訳装置、プログラム及び方法
Van Zaanen et al. The development of Dutch and Afrikaans language resources for compound boundary analysis
Wu et al. On pronunciations in Wiktionary: Extraction and experiments on multilingual syllabification and stress prediction
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
Jabin et al. An online English-Khmer hybrid machine translation system
JP4203102B2 (ja) 中国語解析装置、中国語解析方法および中国語解析プログラム
JP4881399B2 (ja) 対訳情報作成装置、機械翻訳装置及びプログラム
Morris et al. Welsh automatic text summarisation
Clark et al. Towards a pre-processing system for casual english annotated with linguistic and cultural information

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09754399

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09754399

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP