WO2004107203A1 - 対訳文対応付け装置 - Google Patents
対訳文対応付け装置 Download PDFInfo
- Publication number
- WO2004107203A1 WO2004107203A1 PCT/JP2003/006869 JP0306869W WO2004107203A1 WO 2004107203 A1 WO2004107203 A1 WO 2004107203A1 JP 0306869 W JP0306869 W JP 0306869W WO 2004107203 A1 WO2004107203 A1 WO 2004107203A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- text
- correspondence
- segments
- segment
- segments constituting
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Definitions
- the present invention relates to a method of associating segments constituting each of the bilingual sentences with each other.
- Patent Document 1 FIG. 6 of Japanese Patent Application Laid-Open No. Hei 9-1197986 (ie, Patent No. 311 567) Products that detect and display such correspondences have already been sold.
- This kind of product for example, "WinaIign” which is attached to "Translator, s Workbench” of TRAD OS (http: www.trados.com/) is known.
- TRAD OS http: www.trados.com/
- the effect may be affected. May be over a wide range, which also reduces the accuracy of the association between segments.
- the above-described conventional technology includes an interface for allowing a user to correct an erroneous correspondence when an erroneous correspondence is detected.
- the accuracy of the correspondence between segments is low, the number of correction operations by the user increases. Disclosure of the invention
- An object of the present invention is to improve the accuracy in associating each segment constituting each of the bilingual sentences with each other.
- the bilingual sentence association device includes a plurality of segments constituting a first text described in a first language and a plurality of segments constituting a second text described in a second language.
- Receiving means for receiving, from a user, correspondence information indicating that the Correspondence between other segments in the plurality of segments constituting the first text and other segments in the plurality of segments constituting the second text based on the correspondence information received by the column.
- Detecting means for detecting the relationship; and output means for outputting information indicating the correspondence detected by the detecting means.
- the detecting means when examining the correspondence between a plurality of segments, some of the segments are determined in advance by the user, and the detecting means only examines the correspondence between the other remaining segments. Is fine. Therefore, the accuracy of associating segments is improved.
- the bilingual sentence association device of the present invention divides the first text and the second text into a plurality of paragraphs based on the correspondence information received by the reception unit, and forms the first text.
- Paragraph detecting means for detecting a correspondence between a plurality of paragraphs to be executed and a plurality of paragraphs forming the second text. In this case, the detecting means detects, for each paragraph, the correspondence between the segment forming the first text and the segment forming the second text. .
- the correspondence between paragraphs is detected based on the correspondence information. Therefore, even when the paragraphs are exchanged when the second text is obtained from the first text, the correspondence between the segments can be correctly performed. Also, since the correspondence between segments is performed for each paragraph, the number of segments to be compared is relatively small, and the accuracy of the correspondence is improved.
- the detecting means detects the correspondence between the segments constituting the first text and the segments constituting the second text based on the distance from the segment indicated by the correspondence information received by the receiving means. You can do it. In this case, assuming that the correspondence represented by the correspondence information is correct, the accuracy of the correspondence for other segments detected based on the correspondence also increases. You.
- the bilingual sentence association device of the present invention may further include a presentation unit that presents candidate information for allowing the user to input the correspondence information. In this case, the burden when the user specifies the correspondence information is reduced.
- FIG. 1 is a diagram for explaining an outline of a process of associating a bilingual sentence with each segment.
- FIG. 2 is a configuration diagram of the bilingual sentence association support system according to the embodiment of the present invention.
- FIG. 3 is a diagram for explaining a confirmed link.
- FIG. 4 is a diagram illustrating the association of paragraphs.
- 5A to 5C are diagrams showing examples of the correspondence between paragraphs.
- FIG. 6 is a diagram illustrating a result of a process performed by the segment association calculating unit.
- FIG. 7 is a diagram illustrating a flow of operation of the bilingual sentence association support system of the embodiment.
- FIG. 8 is a flowchart showing the operation of the confirmed link editing unit.
- FIG. 9 is a flowchart showing the operation of the paragraph associating unit.
- FIG. 10 is a flowchart showing the operation of the segment association calculation unit.
- FIG. 11 is a flowchart of an example of a process for detecting a correspondence between segments.
- FIG. 12 is a flowchart showing the operation of the correspondence editing unit.
- FIG. 13 is a configuration diagram of a bilingual sentence association support system according to another embodiment of the present invention.
- FIG. 14 is a diagram illustrating the operation of the segment association calculation unit.
- FIG. 15 is a flowchart showing the operation of the segment association calculation unit.
- FIG. 16 is a configuration diagram of a bilingual sentence association support system according to still another embodiment of the present invention.
- FIG. 17 is a configuration diagram of a bilingual sentence association support system according to yet another embodiment of the present invention.
- FIG. 18A and FIG. 18B are flowcharts showing the operation of the confirmed link candidate calculation unit.
- FIG. 19 is a configuration diagram of a computer that executes a program describing the processing of the present invention.
- FIG. 20 is a diagram illustrating a method of providing a software program according to the present invention.
- FIG. 1 is a diagram for explaining an outline of a process of associating a bilingual sentence with each segment.
- Fig. 1 is an example of a screen provided to the user, and the correspondence between segments is displayed graphically.
- a document written in English (hereinafter referred to as English text) is displayed in area 10 and a document described in Japanese (hereinafter referred to as Japanese text) is displayed in area 20.
- the English text and the Japanese text are each composed of multiple segments.
- the English sentence text is composed of segments 11 to 14
- the Japanese sentence text is composed of segments 21 to 24.
- “segment” means “sentence” here, but is not limited to this.
- a method of dividing a document for each segment can be realized by a known technique. In the example shown in FIG.
- the Japanese sentence text displayed in the area 20 is a translation obtained by translating the English sentence text displayed in the area 10.
- segments 21 to 24 are not necessarily obtained by translating segments 11 to 14 in order.
- segment 13 appears third in the English text
- segment 23 is obtained by converting segment 12 into Japanese.
- segment 24 similar to segment 23 exists.
- a segment whose corresponding segment does not exist in the English sentence text is added to the Japanese sentence text.
- two segments, segment 23 and segment 24 were obtained. That is, there is a one-to-two correspondence.
- segments that correspond to each other are detected, and the association is graphically displayed.
- the segments 11 and 21 correspond to each other, and the link 31 connecting them is displayed.
- a link 32 connecting the segments 13 and 22 is displayed.
- segments 23 and 24 are similar to each other.
- the association process may include a procedure for causing the user to add or modify the link connecting the segments.
- the user can Can be used to add / modify links.
- the user can, for example, delete link 34.
- the correspondence between the original document and the translated document can be obtained for each segment.
- association between the original document and the translated document is detected and displayed for each segment.
- support is provided for detecting and displaying the correspondence between the original document and the translated document for each segment.
- the present invention provides a function for solving this problem.
- FIG. 2 is a configuration diagram of the bilingual sentence association support system according to the embodiment of the present invention.
- the bilingual sentence association support system 40 is realized by executing a predetermined program using a computer.
- the text input section 41 reads the English sentence text file 51 and the Japanese sentence text file 52.
- the English sentence text and the Japanese sentence text are divided into segments and stored in the English sentence text file 51 and the Japanese sentence text file 52, respectively.
- the text input unit 41 may have a function of dividing the English text and the Japanese text into segments.
- the confirmed link editor 42 registers the confirmed link specified by the user in the confirmed link information tape by interacting with the user via a graphical user interface (GUI) 55.
- GUI graphical user interface
- the “fixed link” means, in this example, a case in which the user recognizes that a certain segment in the English text corresponds to a certain segment in the Japanese text. It indicates the correspondence.
- FIG. 3 is a diagram for explaining a confirmed link.
- the English sentence text displayed in the area 10 includes the segments 11 to 15 and the Japanese sentence text displayed in the area 20 includes the segments 21 to 25. I do.
- the segment numbers “1 1” to “1 5” are used as English segment IDs for identifying the respective segments constituting the English text, and the segment numbers “2 1” to “25” are used for the Japanese text.
- the confirmed link editing unit 42 confirms the two links specified by the user as “confirmed link 6 1” and “confirmed link 6 2”.
- the confirmed link editing unit 42 receives the correspondence information indicating one or a plurality of confirmed links specified by the user, and registers the confirmed links in the confirmed link information table 101.
- the paragraph associating unit 43 is based on the confirmed link specified by the user.
- the English text and the Japanese text into multiple paragraphs. Then, the paragraphs of the English text and the paragraphs of the Japanese text are associated with each other. At this time, the paragraph associating unit 43 performs the dividing process and the associating process according to the paragraph associating rule 53 prepared in advance.
- FIG. 4 is a diagram illustrating the association of paragraphs. Here, it is assumed that the confirmed links 61 and 62 are registered by the procedure described with reference to FIG.
- the paragraph associating unit 43 divides the English sentence text and the Japanese sentence text using the confirmed link.
- a confirmed link 61 is connected to segment 11 and a confirmed link 62 is connected to segment 13.
- the para-paragraph including the segment 11 is located between the segment 11 connected to the confirmed link 6 1 and the segment 13 connected to the next confirmed link 6 2
- the segment is extracted.
- segments 1 1 and 1 2 are extracted as segments belonging to one paragraph.
- segments 13 to 15 are extracted as segments belonging to one other paragraph.
- segments 21 to 23 are extracted as segments belonging to one paragraph
- segments 24 and 25 are extracted as segments belonging to another paragraph. Then, these extraction results are registered in the paragraph information table 102.
- the paragraph association section 43 detects an association between paragraphs. Specifically, the paragraphs connected to each other by the confirmed link are associated with each other. In the example shown in FIG. 4, since the segments 11 and 24 are connected to each other by the confirmed link 61, in this case, the parameter including the segment 11 is used. The graph and the paragraph including the segment 24 are associated with each other. Similarly, a paragraph including segment 13 and a paragraph including segment 21 are associated with each other. The result is registered in the paragraph correspondence table 103 using the English paragraph ID and the Japanese paragraph ID.
- the paragraph associating unit 43 divides each text into a plurality of paragraphs based on the determined link specified by the user, and associates the paragraphs with each other.
- each confirmed link connects one segment in the English text and one segment in the Japanese text. Therefore, assuming that the order of the segments is not changed during translation, the correspondence between paragraphs is as shown in Figure 5A. Also, assuming that the order of the segments is changed during translation, the correspondence between the paragraphs is as shown in FIG. 5B.
- paragraph A is associated with both paragraph a and paragraph X.
- the paragraph association unit 43 selects, for example, the paragraph that appears first in the text ⁇ ⁇ from the plurality of paragraphs.
- paragraph A is associated with paragraph a.
- the segment correspondence calculation section 44 uses the correspondence between paragraphs created by the paragraph correspondence section 43 to generate a plurality of segments constituting the English text and a plurality of segments constituting the Japanese text. Is associated with. That is, the correspondence between segments is performed for each paragraph.
- the method of matching each segment of the sentence is not particularly limited. For example, "A Program for Aligning Sentences in Bilingual Corpora" (Gale & Church 1993) is famous. By the way, this paper can be obtained from the following site.
- the segment association calculation unit 44 associates each segment belonging to the English paragraph 1.
- English paragraph 1 corresponds to Japanese paragraph 2. Therefore, the correspondence between segments 11 and 12 belonging to English paragraph 1 and segments 24 and 25 belonging to Japanese paragraph 2 is examined.
- Segment 1 1 1 is connected to segment 2 4 by firm link 6 1.
- segment 11 is associated with segment 24.
- segment 12 is associated with segments other than segment 24 in segments belonging to Japanese paragraph 2.
- segment 12 is associated with segment 25.
- the segment association calculation unit 44 associates each segment belonging to English paragraph 2 with each other.
- English paragraph 2 corresponds to Japanese paragraph 1. Therefore, the correspondence between segments 13 to 15 belonging to English paragraph 2 and segments 21 to 23 belonging to Japanese paragraph 1 is examined.
- Segment 1 3 is connected to segment 2 1 by firm link 6 2 You.
- segment 13 is associated with segment 21.
- segments 14 and 15 correspond to segments other than segment 21 (ie, segments 22 and 23) among the segments belonging to Japanese paragraph 1.
- the correspondence between the segments 14 and 15 and the segments 22 and 23 is obtained by, for example, the above-mentioned Gale & Church method.
- segments 14 and 15 are associated with segments 22 and 23, respectively.
- segments 1 1, 1, 2, 13, 3, 14 and 15 contained in the English sentence text become segments 24, 25, 21, 2, 2 and 23 contained in the Japanese sentence text, respectively. It will be correlated.
- FIG. 6 is a diagram showing the result of the processing by the segment association calculation unit 44.
- the correspondence between segments obtained by the segment correspondence calculation unit 44 is registered in the link information table 104.
- a confirmed link specified by the user is also registered in the link information table 104.
- the correspondence between these segments is displayed by the correspondence editing unit 45 via the graphical user interface 55.
- the correspondence editing unit 45 displays the correspondence between the segments obtained by the segment correspondence calculation unit 44 and edits the correspondence in accordance with an instruction from the user.
- the “instruction from the user” includes an instruction to add, delete, or change a link connecting the segments.
- “Correspondence editing” includes a process of updating the link information table 104 shown in FIG. 6 in accordance with an instruction from the user, and a process of drawing a link in accordance with the updated link information table 104. The user uses a mouse or the like to input a link addition / deletion / change instruction.
- the correspondence output unit 46 outputs the segment obtained by the segment association calculation unit 44.
- Information indicating the correspondence between the items is output to the correspondence file 54.
- the format of the file is not particularly limited.
- FIG. 7 is a diagram illustrating a flow of operation of the bilingual sentence association support system of the embodiment.
- the bilingual sentence association support system associates each segment according to the following procedure.
- the confirmed link editing unit 42 presents a form for allowing the user to specify a confirmed link via the graphical user interface 55.
- the confirmed link editing unit 42 registers the specified confirmed link in the confirmed link information table 101.
- the paragraph associating unit 43 divides the English text and the Japanese text into a plurality of paragraphs, respectively, based on the confirmed link specified by the user. Then, for each paragraph, the segments belonging to that paragraph are detected, and their correspondence is registered in the paragraph information table 102. Also, the paragraph association unit 43 detects an association between a plurality of English paragraphs and a plurality of Japanese paragraphs by using a confirmed link specified by the user. Then, those correspondences are registered in the paragraph correspondence table 103.
- the segment correspondence calculating unit 44 refers to the paragraph correspondence relation table 103 and performs the correspondence of the segments for each paragraph.
- the correspondence between the segments is registered in the link information table 104.
- the correspondence editing unit 45 presents the correspondence between the segments detected by the segment correspondence calculation unit 44 to the user via the graphical user interface 55. At this time, when the user instructs to add, delete, or change the link connecting the segments, the correspondence editing unit 45 follows the instruction.
- the link information table 104 is updated. Then, the contents of the link information table 104 are output to the correspondence file 54.
- the user is allowed to specify a confirmed link, and the segments are associated using the confirmed link. Therefore, the accuracy of association between segments is improved.
- each text is divided into a plurality of paragraphs based on the confirmed link specified by the user, and the plurality of paragraphs are associated with each other using the confirmed link. Is attached. Therefore, even if the order is changed in paragraph units when creating a translated document from the original document, each segment included in the original document is correctly replaced with each segment included in the translated document. Can be assigned.
- FIG. 8 is a flowchart showing the operation of the confirmed link editing unit 42.
- the user shall specify a confirmed link by drawing a “line” from an English segment to a Japanese segment using a mouse on the graphical user interface.
- step S1 an English segment indicated by the mouse pointer is detected.
- step S2 a drag operation by the mouse is detected. That is, it detects that the mouse cursor is moving while the left button of the mouse is pressed.
- step S3 the Japanese segment indicated by the mouse pointer is detected.
- Step S4 detects that the left mouse button has been released.
- step S5 a confirmed link specified by the user is registered. Specifically, the English segment detected in step S1 and the English segment detected in step S3 The Japanese segment is registered in the fixed link information table 101.
- FIG. 9 is a flowchart showing the operation of the paragraph association unit 43. This process is executed after the user has specified the confirmed link.
- step S11 the determined link information is obtained from the determined link information table 101. That is, it recognizes the confirmed link specified by the user.
- step S12 the English sentence text and the Japanese sentence text are each divided into a plurality of paragraphs based on the confirmed link. These paragraphs are registered in the paragraph information table 102. The method of dividing each text into paragraphs is realized by, for example, the procedure described with reference to FIG.
- step S13 a plurality of English paragraphs and a plurality of Japanese paragraphs are associated according to paragraph association rule 53.
- paragraph association rule 53 for example, as described with reference to FIG. 4, a procedure of associating paragraphs using a confirmed link is assumed.
- FIG. 10 is a flowchart showing the operation of the segment association calculation unit 44. This processing is executed after the association between paragraphs by the paragraph association section 43 is completed.
- step S21 one English paragraph is selected from the paragraph information table 102.
- step S22 the Japanese paragraph corresponding to the English paragraph selected in step S21 is selected with reference to the paragraph correspondence table 103.
- step S23 the segments belonging to the paragraph selected in steps S21 and S22 are read. Then, in step S 24, 23 Detect the correspondence between the segments read in 3.
- step S25 it is checked whether or not unselected English paragraphs remain. If any unselected paragraphs remain, in step S26, one English paragraph is selected from them and the process returns to step S22. The process ends when all English paragraphs have been selected. .
- FIG. 11 is a flowchart of an example of a process for detecting a correspondence between segments. Note that the processing of this flowchart corresponds to the processing of step S24 in FIG. That is, the processing of this flowchart is executed for each paragraph.
- step S31 the segment length of each segment belonging to the selected English paragraph and the segment length of each segment belonging to the corresponding Japanese paragraph are individually examined.
- the segment length is detected by, for example, the number of words or the number of characters.
- step S32 segments having the longest segment length are extracted from the English paragraph and the Japanese paragraph, and are registered in the link information table 104 as a pair of corresponding segments.
- step S33 the process of step S32 is repeatedly executed until there is no segment in the paragraph in either language.
- segments are extracted from the English paragraph and the Japanese paragraph in order from the one with the longest segment length, and are registered in the link information table 104 as corresponding segment pairs.
- FIG. 12 is a flowchart showing the operation of the correspondence editing unit 4.5. This process is executed after the correspondence between segments is registered in the link information table 104 by the segment correspondence calculation unit 44.
- step S41 the correspondence registered in the link information table 104 is drawn. That is, the link connecting the segments is drawn. After that, it waits for a user's instruction input via the graphical user interface 55.
- step S42 When an instruction to delete the link is detected in step S42, the correspondence represented by the link is deleted from the link information table 104 in step S43.
- step S44 When an instruction to add a link is detected in step S44, a corresponding relationship represented by the link is added to the link information table 104 in step S45.
- step S46 when an instruction to change the link is detected, in step S47, the content of the link information tape ⁇ 104 is updated in accordance with the instruction.
- the operation of the user when deleting, adding, or changing these links is basically the same as the operation for deleting, adding, or changing the confirmed link.
- the operation of the correspondence editing unit 45 when the user adds a link is basically the same as the operation of the confirmed link editing unit 42 shown in FIG.
- the fixed link editing unit 42 registers the fixed link specified by the user in the fixed link information table 101.
- the correspondence editing unit 45 stores the link specified by the user in the link information table 1. 0 Register in 4.
- FIG. 13 is a configuration diagram of a bilingual sentence association support system according to another embodiment of the present invention.
- the basic configuration of the bilingual sentence association support system 70 shown in FIG. 13 is the same as that of the bilingual sentence association support system 40 shown in FIG.
- the bilingual sentence association support system 40 includes a paragraph association unit 43, and the segment association calculation unit 44 detects an association between segments for each paragraph.
- the bilingual sentence association support system 70 does not include the paragraph association unit 43, and the segment association calculation unit 71 detects the association between segments without considering paragraphs. I do.
- FIG. 14 is a diagram illustrating the operation of the segment association calculation unit 71.
- the user has specified a definite link connecting segment 13 and segment 22.
- segments 21 and 24 have been obtained as an indication of segments obtained by translating segment 12 by a known technique. Then, as a result, it is assumed that two candidate links 73 and 74 are generated.
- the segment correspondence calculation unit 71 determines a more likely link based on the distance from the confirmed link to each of the catching links.
- the “distance” is obtained, for example, from the number of rows between segments.
- the distance between the confirmed link 7 2 and the candidate link 7 3 is “1” between the segment 13 and the segment 12 in the English text and the segment in the Japanese text. Since the distance between the statement 22 and the segment 21 is "1", the total value is "2".
- the distance between the confirmed link 7 2 and the candidate link 7 4 is “1” between the segment 13 and the segment 1 2 in the English text, and the segment 2 2 in the Japanese text. Since the distance between ⁇ and segment 24 is “2”, the total value is “3”.
- the candidate link 7 3 is closer to the confirmed link 7 2 than the candidate link 7 4, the candidate link 7 3 is selected as a more probable link. That is, segment 12 is associated with segment 21.
- the segment correspondence calculation unit 71 registers them in the link information table 104.
- FIG. 15 is a flowchart showing the operation of the segment association calculation unit 71. Note that the processing of this flowchart is executed when a plurality of candidate links are generated for a certain segment. Also, this process is executed for each segment in which a plurality of catch links are generated.
- step S51 the distance from the confirmed link is calculated for each competing lord link.
- step S52 the degree of certainty of each catching link is determined based on the calculated distance. Here, the smaller the distance from the confirmed link is, the higher the certainty is.
- step S53 the link with the highest certainty is selected from the competing candidate links. Then, the link selected in step S53 is registered in the link information table 104.
- the bilingual sentence association support system 70 shown in FIG. 13 when a plurality of candidates exist as a Japanese segment corresponding to a certain English segment, the English segment and those English segments are referred to.
- a plurality of candidate links each connecting the Japanese segment are generated, and the most probable candidate link is selected based on the distance between the confirmed link specified by the user and each candidate link. Then, the segments are associated with each other in accordance with the selected candidate link. Therefore, assuming that the correspondence by the confirmed link is correct, the accuracy of the correspondence between the segments is improved.
- FIG. 16 is a configuration diagram of a bilingual sentence association support system according to still another embodiment of the present invention.
- the basic configuration of the bilingual sentence association support system 80 shown in Fig. 16 is This is the same as the bilingual sentence association support system 40 shown in FIG.
- the bilingual sentence association support system 80 includes a confirmed link catch-up calculator 81, and can present a confirmed link candidate to the user. Then, the user can designate a confirmed link while referring to the confirmed link candidate presented by the confirmed link candidate calculation unit 81. Note that the processing after the user specifies the confirmed link is basically the same as that of the bilingual sentence association support system 40 shown in FIG.
- FIG. 17 is a configuration diagram of a bilingual sentence association support system according to yet another embodiment of the present invention.
- the basic configuration of the bilingual sentence association support system 90 shown in FIG. 17 is the same as that of the bilingual sentence association support system 70 shown in FIG.
- the bilingual sentence association support system 90 like the bilingual sentence association support system 80 shown in FIG. can do.
- FIG. 18A is a flowchart showing the operation of the confirmed link candidate calculation unit 81.
- the confirmed link candidate calculation section 81 is activated when the English text file 51 and the Japanese text file 52 are read by the text input section 41.
- step S61 each segment included in the English sentence text and each segment included in the Japanese sentence text are read.
- step S62 the correspondence between segments is calculated, and one or more fixed link candidates are determined.
- step S63 a confirmed link candidate t is output.
- the determined confirmed link candidate is presented to the user by the confirmed link editing unit 42 via the graphical user interface 55.
- FIG. 18B is a flowchart illustrating an example of processing for obtaining a confirmed link candidate. This process corresponds to the process of step S62 in FIG. 18A.
- step S71 a segment length is obtained for each segment constituting the English text and each segment constituting the Japanese text. The segment length is detected by, for example, the number of words or the number of characters included in each segment.
- step S72 first, one segment is selected from each of the English text and the Japanese text. Next, the “ratio” between the segment length of the segment selected from the English text and the segment length of the segment selected from the Japanese text is calculated. Then, based on the “ratio”, the degree of certainty that the Japanese segment is a translation of the English segment is calculated. In natural language translation, the ratio of the segment length of the original segment to the segment length of the translation segment is assumed to be approximately constant. Therefore, in step S72, the reliability is determined based on whether the ratio of the segment length calculated as described above is close to the ratio of the segment length estimated in the translation between English and Japanese. Can be
- step S73 if the certainty factor obtained in step S72 is higher than a predetermined threshold, the set of segments is written to the confirmed link information table 101. That is, the link connecting the set of segments is registered in the confirmed link information table 101 as a confirmed link candidate. Then, in step S74, the processing in steps S72 and S73 is executed for each segment combination.
- the definite link candidate calculation unit 81 presents to the user links connecting segments having a high degree of certainty regarding the correspondence with each other, as definitive link candidates. Then, the user can designate the confirmed link by referring to the confirmed link candidate. Therefore, the burden on the user when specifying the confirmed link is reduced.
- the method for determining the confirmed link candidate is not limited to the method described with reference to FIG. 18B. That is, for example, the distribution of the segment length of each segment included in the English text is compared with the distribution of the segment length of each segment included in the Japanese text, and a finalized link candidate is determined based on the comparison result. You may do so. Alternatively, prepare a translation dictionary to convert English text and Japanese text to each other, and refer to the translation dictionary when comparing the English segment with the Japanese segment to determine a confirmed link candidate. It may be decided.
- the confirmed link candidate calculation unit 81 presents the confirmed link candidate to the user, and the user specifies the confirmed link by referring to the presented catch.
- the present invention is not limited to this. That is, when the confirmed link candidate determined by the confirmed link candidate calculation unit 81 has a high degree of certainty, the confirmed link candidate may be used as a confirmed link without receiving the user's judgment. Good.
- the user sets a confirmed link only for a segment having a clear correspondence such as “chapter title” appearing in the middle of a document. It is conceivable that the parallel translation matching support system specifies the segments and matches them with other segments based on the determined links.
- FIG. 19 is a configuration diagram of a computer that executes a program describing the processing of the above-described flowchart.
- the CPU 201 loads a program describing the processing shown in the above-described flowchart from the storage device 202 to the memory 203 and executes it.
- the storage device 202 is, for example, a hard disk and stores the above program. Note that the storage device 202 may be an external storage device connected to the computer 200.
- the memory 203 is, for example, a semiconductor memory, and is used as a work area of the CPU 201.
- the recording medium driver 204 accesses the portable recording medium 205 according to the instruction of the CPU 201.
- the portable recording medium 205 is, for example, a semiconductor device (PC card, etc.), a medium for inputting / outputting information by magnetic action (flexible disk, magnetic tape, etc.), and an input / output of information by optical action. Media (such as optical disks) shall be included.
- the communication control unit 206 transmits and receives data via the network according to the instruction of the CPU 201.
- the input device 2007 is, for example, a keyboard and a mouse.
- the user uses this input device 207 to specify a confirmed link and to add, delete, or change the link.
- the output device 208 is a display device, and displays the correspondence between segments.
- FIG. 20 is a diagram illustrating a method of providing a software program according to the present invention.
- the program according to the present invention is provided by, for example, any of the following three methods. .
- the program stored in the portable recording medium 205 is basically installed in the storage device 202 via the recording medium driver 204.
- (c) Provided from a program server provided on the network.
- the computer 200 acquires the corresponding program by downloading from the program server.
- the program is executed in the server device, and the computer 200 executes the function corresponding to the program. Noh may be provided.
- the present invention is not limited to this. That is, the present invention is not limited to a document described in a natural language, but can be applied to, for example, correspondence between computer languages. Further, the present invention is not limited to the correspondence between a document described in the first language and a document described in the second language. Applicable.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
確定リンク編集部(42)は、ユーザにより指定される確定リンクを受け付ける。パラグラフ対応付け部(43)は、確定リンクに基づいて、英語文テキストおよび日本語文テキストをそれぞれ複数のパラグラフに分割する。セグメント対応付け計算部(44)は、パラグラフ毎に、英語セグメントと日本語セグメントとの対応付けを行う。対応関係編集部(45)は、セグメント対応付け計算部(44)により求められた対応関係をユーザに提示し、ユーザからの修正指示があれば、その指示に従って対応関係を編集する。
Description
対訳文対応付け装置 技術分野
本発明は、 対訳文のそれぞれを構成する各セグメント同士を対応付ける方法 に係わる。 背景技術
情報の国際化に伴って、 ある言語 (例えば、 英語) で記述されている文書が 他の言語(例えば、 日本語) に翻訳されることが頻繁に行われている。 ここで、 このような環境下では、 ォリジナル文書とその翻訳文とを対比する必要性がし ばしば発生する。 このような必要性は、 例えば、 機械翻訳装置で作成された対 訳文をチェックする場合、 翻訳支援ツールを作成する際に必要な知識を対訳テ キストから取得する場合、 などにおいて発生す.る。 そして、 この場合、 オリジ ナル文書および翻訳文書を構成する各セグメント同士の対応関係がわかると便 利である。 ここで、 「セグメント」 とは、 特に限定されるものではないが、 自然 言語の対訳文においては、 例えば、 文書を構成する 「文」 「句」 「単語」 などを 意味する。
このような要求に基づいて、 公知の技術として、 コンピュータを用いてオリ ジナル文書とその翻訳文書との対応関係をセグメント毎に自動的に検出し、 そ の対応関係をグラフィカルに表示する方法が提案されている (例えば、 特許文 献 1参照。)。
特許文献 1 :特開平 9一 1 7 9 8 6 8号公報 (すなわち、 特許 3 3 1 1 5 6 7号) の図 6
また、 そのような対応関係を検出して表示する製品も既に販売されている。 この種の製品としては、 例えば、 T R AD O S社 (http:〃 www.trados.com/) の 「Translator,s Workbench に付属している 「WinaIign」 が知られている。 しかし、 従来技術においては、 対比すべき文書の情報量が大きくなるにつれ て、 セグメント同士の対応付けの精度が低くなつていた。 また、 オリジナル文 書と翻訳文書との間で各文書を構成するパラグラフの順番が互いに異なってい る場合も、 セグメント同士の対応付けの精度が低くなつていた。 さらに、 オリ ジナル文書の中に存在するセグメントに対応するセグメントが翻訳文書の中に は存在しない場合や、 オリジナル文書には存在しないセグメントが翻訳文耆に 追加されている場合などには、 その影響が広い範囲に及ぶことがあり、 このこ とによってもセグメント同士の対応付けの精度が低くなつていた。
なお、 上述した従来技術は、 誤った対応関係が検出された場合に、 ユーザに その誤った対応関係を修正させるためのインタフェースを備えている。 し力 し、 セグメント同士の対応付けの精度が低いと、 ユーザによる修正作業が多くなつ しまう。 発明の開示
本発明の目的は、 対訳文のそれぞれを構成する各セグメント同士を対応づけ る際に、 その精度を向上させることである。
本発明の対訳文対応付け装置は、 第 1の言語により記述された第 1のテキス トを構成する複数のセグメントと第 2の言語により記述された第 2のテキスト を構成する複数のセグメントとの間の対応付けを行う装置であって、 上記第 1 のテキストを構成する複数のセグメントの中の一部のセグメントが上記第 2の テキストを構成する複数のセグメントの中の一部のセグメントに対応している ことを指示する対応関係情報をユーザから受け付ける受付手段と、 上記受付手
段が受け付けた対応関係情報に基づいて、 上記第 1のテキストを構成する複数 のセグメントの中の他のセグメントと上記第 2のテキストを構成する複数のセ グメントの中の他のセグメントとの対応関係を検出する検出手段と、 上記検出 手段により検出された対応関係を表す情報を出力する出力手段、 を有する。
この発明によれば、 複数のセグメント間の対応関係を調べる際に、 それらの 中の一部のセグメントについてはユーザによって予め確定され、 検出手段は、 他の残りのセグメント間の対応関係を調べるだけでよい。 したがって、 セグメ ント同士の対応付けの精度が向上する。
本発明の対訳文対応付け装置は、 上記受付手段が受け付けた対応関係情報に 基づいて、 上記第 1のテキストおよび第 2のテキストをそれぞれ複数のパラグ ラフに分割し、 それら第 1のテキストを構成する複数のパラグラフと第 2のテ キストを構成する複数のパラグラフの対応関係を検出するパラグラフ検出手段、 をさらに有するようにしてもよい。 この場合、 上記検出手段は、 パラグラフ毎 に、 上記第 1のテキストを構成するセグメントと上記第 2のテキストを構成す るセグメントとの対応関係を検出する。.
この発明によれば、 対応関係情報に基づいて、 パラグラフ間の対応関係が検 出される。 したがって、 第 1のテキストから第 2のテキストを得る際にパラグ ラフの入換えがあった場合でも、 セグメント間の対応付けを正しく行うことが できる。 また、 パラグラフ毎にセグメント間の対応付けが行われるので、 対比 すべきセグメントの数が比較的少ないので、 対応付けの精度が向上する。
なお、 上記検出手段は、 受付手段が受け付けた対応関係情報により指示され るセグメントからの距離に基づいて、 第 1のテキストを構成するセグメントと 第 2のテキストを構成するセグメントとの対応関係を検出するようにしてもよ レ、。 この場合、 対応関係情報により表される対応関係が正しいものとすると、 それに基づいて検出される他のセグメントについての対応関係の精度も高くな
る。
また、 本発明の対訳文対応付け装置は、 さらに、 ユーザに上記対応関係情報 を入力させるための候補情報を提示する提示手段を有するようにしてもよい。 この場合、 ユーザが対応関係情報を指定する際の負担が軽くなる。 図面の簡単な説明
図 1は、 対訳文をセグメント毎に対応付ける処理の概略を説明するための図 である。
図 2は、 本発明の実施形態の対訳文対応付け支援システムの構成図である。 図 3は、 確定リンクについて説明する図である。
図 4は、 パラグラフの対応付けについて説明する図である。
図 5 A〜図 5 Cは、 パラグラフの対応関係の例を示す図である。
図 6は、 セグメント対応付け計算部による処理の結果を示す図である。
図 7は、 実施形態の対訳文対応付け支援システムの動作の流れを説明する図 である。
図 8は、 確定リンク編集部の動作を示すフローチャートである。
図 9は、 パラグラフ対応付け部の動作を示すフローチヤ一トである。
図 1 0は、 セグメント対応付け計算部の動作を示すフローチャートである。 図 1 1は、 セグメント間の対応関係を検出する処理の一例のフローチャート である。
図 1 2は、 対応関係編集部の動作を示すフローチャートである。
図 1 3は、 本発明の他の実施形態の対訳文対応付け支援システムの構成図で ある。
図 1 4は、 セグメント対応付け計算部の動作を説明する図である。
図 1 5は、 セグメント対応付け計算部の動作を示すフローチャートである。
図 1 6は、 本発明のさらに他の実施形態の対訳文対応付け支援システムの構 成図である。
図 1 7は、 本発明のさらに他の実施形態の対訳文対応付け支援システムの構 成図である。
図 1 8 Aおよび図 1 8 Bは、 確定リンク候補計算部の動作を示すフローチヤ 一トである。
図 1 9は、 本発明の処理を記述したプログラムを実行するコンピュータの構 成図である。
図 2 0は、 本発明に係わるソフトウェアプログラムの提供方法を説明する図 である。 発明を実施するための最良の形態
以下、 本発明の実施形態について説明する。
図 1は、 対訳文をセグメント毎に対応付ける処理の概略を説明するための囪 である。 なお、 図 1は、 ユーザに対して堤供される画面の例であり、 セグメン ト同士の対応関係がグラフィカルに表示されている。
図 1に示す例では、 英語で記述された文書 (以下、 英語文テキスト) が領域 1 0に表示されており、 日本語で記述された文書 (以下、 日本語文テキスト) が領域 2 0に表示されている。 また、 英語文テキストおよび日本語文テキスト は、 それぞれ複数のセグメントから構成されている。 すなわち、 英語文テキス トは、 セグメント 1 1〜1 4から構成されており、 日本語文テキストは、 セグ メント 2 1〜2 4から構成されている。 なお、 「セグメント」 とは、 ここでは、 「文 (sentence)」 を意味するが、 これに限定されるものではなく、 自然言語の 場合は、 例えば、 「単語」 「句」 「章」 などであってもよい。 また、 文書をセグメ ント毎に分割する方法は、 公知に技術により実現可能である。
図 1に示す例では、 領域 2 0に表示される日本語文テキストは、 領域 1 0に 表示されている英語文テキストを翻訳することにより得られた翻訳文である。 ただし、 セグメント 2 1〜2 4は、 必ずしも、 セグメント 1 1〜1 4を順番に 翻訳することによって得られたものではない。 例えば、 セグメント 1 3は、 英 語文テキストの中で第 3番目に登場するが、 セグメント 1 3の翻訳文であるセ グメント 2 2は、 日本語文テキストの中で第 2番目に登場している。 また、 セ グメント 1 2を日本語に変換することによってセグメント 2 3が得られている 、 日本語文テキストの中には、 セグメント 2 3と類似するセグメント 2 4が 存在する。 すなわち、 日本語文テキストには、 対応するセグメントが英語文テ キストには存在しないセグメントが追加されている。 なお、 セグメント 1 2を 日本語に変換した結果、 セグメント 2 3およびセグメント 2 4という 2つのセ グメントが得られた、 という解釈も考えられる。 即ち、 1対 2対応である。 し かし、 ここでは、 前者の解釈で説明することにする。
対応付け処理においては、 互いに対応するセグメントが検出され、 その対応 関係がグラフィカルに表示される。 図 1 .に示す例では、 セグメント 1 1とセグ メント 2 1とが互いに対応していることが検出され、 それらを接続するリンク 3 1が表示されている。 同様に、 セグメント 1 3とセグメント 2 2とを接続す るリンク 3 2が表示されている。 他方、 セグメント 2 3およぴセグメント 2 4 は互いに類似している。 そして、 セグメント 1 2を翻訳した結果がセグメント 2 3またはセグメント 2 4のいずれであるのかを判断出来ないものとする。 こ の場合、 セグメント 1 2とセグメント 2 3とを接続するリンク 3 3、 およびセ グメント 1 2とセグメント 2 4とを接続するリンク 3 4が表示されることにな る。
対応付け処理は、 セグメント間を接続するリンクをユーザに追加 z修正させ るための手順を含むようにしてもよい。 この場合、 ユーザは、 例えばマウス等
を用いてリンクの追加/修正を行うことができる。 図 1に示す例では、 ユーザ は、 例えば、 リンク 3 4を削除することができる。 この結果、 元文書と翻訳文 書との対応関係がセグメント毎に得ることができる。
このように、 対応付け処理では、 元文書と翻訳文書との対応関係がセグメン ト毎に検出されて表示される。 あるいは、 元文書と翻訳文書との対応関係をセ グメント毎に検出して表示するための支援が行われる。
ただし、 従来の方法では、 元文書と翻訳文書との間でセグメントの順番が入 れ替わっていたり、 一方の文書にはない文書が他方に存在していた場合などに は、 対応付けの精度が低下することがあった。 そこで、 本発明は、 この問題を 解決するための機能を提供する。
図 2は、 本発明の実施形態の対訳文対応付け支援システムの構成図である。 ここで、 対訳文対応付け支援システム 4 0は、 コンピュータを用いて所定のプ ログラムを実行することにより実現される。
テキスト入力部 4 1は、 英語文テキストファイル 5 1および日本語文テキス トファイル 5 2を読み込む。 なお、 .ここでは、 英語文テキストおよび日本語文 テキストは、 それぞれ、 予めセグメント毎に分割されて英語文テキストフアイ ル 5 1および日本語文テキストファイル 5 2に格納されているものとする。 た だし、 テキスト入力部 4 1が英語文テキストおよび日本語文テキストをそれぞ れセグメント毎に分割する機能を備えるようにしてもよい。
確定リンク編集部 4 2は、 グラフィカルユーザインタフェース (G U I ) 5 5を介してユーザと対話をすることにより、 ユーザが指定する確定リンクを確 定リンク情報テープノレに登録する。 ここで、 「確定リンク」 とは、 この例では、 英語文テキストの中のあるセグメントが日本語文テキストの中のあるセグメン トに対応しているとユーザが認めた場合における、 それらのセグメント間の対 応関係を表すものである。
図 3は、 確定リンクについて説明する図である。 ここでは、 領域 1 0に表示 されている英語文テキストがセグメント 1 1〜1 5を含んでおり、 領域 2 0に 表示されている日本語文テキストがセグメント 2 1〜2 5を含んでいるものと する。 そして、 セグメント番号 「1 1」 〜 「1 5」 は、 英語文テキストを構成 する各セグメントを識別する英語セグメント I Dとして使用され、 セグメント 番号 「2 1」 〜 「2 5」 は、 日本語文テキストを構成する各セグメントを識別 する日本語セグメント I Dとして使用される。 なお、 日本語文テキストは、 英 語文テキストの翻訳文であるが、 セグメントの順番は互いに異なっている。 この状態において、 ユーザは、 セグメント 1 1が確かにセグメント 2 4に対 応しており、 セグメント 1 3が確かにセグメント 2 1に対応していると判断し たものとする。 この場合、 ユーザは、 マウス等を用いて、 セグメント 1 1とセ グメント 2 4とを接続するリンク、 およびセグメント 1 3とセグメント 2 1と を接続するリンクを插画する。
確定リンク編集部 4 2は、 グラフィカルユーザインタフェース 5 5を介して ユーザの操作を認識すると、 そのユーザにより指定された 2本のリンクを 「確 定リンク 6 1」 及び 「確定リンク 6 2」 として確定リンク情報テ一ブル 1 0 1 に登録する。 具体的には、 セグメント 1 1を識別する英語セグメント I D 「I D = l l」 とセグメント 2 4を識別する日本語セグメント I D 「I D = 2 4 J との組合せにより確定リンク 6 1が登録され、 セグメント 1 3を識別する英語 セグメント I D 「I D = 1 3」 とセグメント 2 1を識別する日本語セグメント I D 「I D == 2 1」 との組合せにより確定リンク 6 2が登録されている。
このように、 確定リンク編集部 4 2は、 ユーザが指示する 1または複数の確 定リンクを表す対応関係情報を受け付け、 それらの確定リンクを確定リンク情 報テーブル 1 0 1に登録する。
パラグラフ対応付け部 4 3は、 ユーザにより指定された確定リンクに基づい
て、 英語文テキストおよび日本語文テキストをそれぞれ複数のパラグラフに分 割する。 そして、 英語文テキストのパラグラフと日本語文テキストのパラグラ フとの対応付けを行う。 このとき、 パラグラフ対応付け部 4 3は、 予め用意さ れているパラグラフ対応付けルール 5 3に従って、 分割処理および対応付け処 理を行う。
図 4は、 パラグラフの対応付けについて説明する図である。 ここでは、 図 3 を参照しながら説明した手順により、 確定リンク 6 1、 6 2が登録されている ものとする。
パラグラフ対応付け部 4 3は、 まず、 確定リンクを利用して英語文テキスト および日本語文テキストをそれぞれ分割する。 例えば、 英語文テキストにおい ては、 セグメント 1 1に確定リンク 6 1が接続されており、 セグメント 1 3に 確定リンク 6 2が接続されている。 この場合、 セグメント 1 1を含むパラダラ フとして、 確定リンク 6 1が接続されているセグメント 1 1から次の確定リン クである確定リンク 6 2が接続されているセグメント 1 3までの間に位置する セグメントが抽出される。 この結果、 セグメント 1 1、 1 2力 ある 1つのパ ラグラフに属するセグメントとして抽出される。 同様に、 セグメント 1 3〜1 5が、 他の 1つのパラグラフに属するセグメントとして抽出される。 また、 日 本語文テキストにおいては、 セグメント 2 1〜2 3がある 1つのパラグラフに 属するセグメントとして抽出されると共に、 セグメント 2 4、 2 5が他の 1つ のパラグラフに属するセグメントとして抽出される。 そして、 これらの抽出結 果は、 パラグラフ情報テーブル 1 0 2に登録される。
続いて、パラグラフ対応付け部 4 3は、パラグラフ間の対応関係を検出する。 具体的には、 確定リンクにより互いに接続されているパラグラフ同士を対応付 ける。 図 4に示す例では、 セグメント 1 1およびセグメント 2 4が確定リンク 6 1により互いに接続されているので、 この場合、 セグメント 1 1を含むパラ
グラフとセグメント 2 4を含むパラグラフとが対応付けられる。 同様に、 セグ メント 1 3を含むパラグラフとセグメント 2 1を含むパラグラフとが対応付け られる。 そして、 この結果は、 英語パラグラフ I Dおよび日本語パラグラフ I Dを利用して、 パラグラフ対応関係テーブル 1 0 3に登録される。
このように、 パラグラフ対応付け部 4 3は、 ユーザにより指定された確定リ ンクに基づいて、 各テキストを複数のパラグラフに分割し、 それらのパラダラ フ間の対応付けを行う。
なお、 各確定リンクは、 基本的には、 それぞれ、 英語文テキストの中のある 1つのセグメントと日本語文テキストの中のある 1つのセグメントとを接続す る。 このため、 翻訳に際してセグメントの順番が入れ替わつてないものとする と、 パラグラフの対応関係は図 5 Aに示すようになる。 また、 翻訳に際してセ グメントの順番が入れ替わっているものとすると、 パラグラフの対応闋係は図 5 Bに示すようになる。
しかし、 何らかの理由により、 ある 1つのセグメントが複数の確定リンクに よって複数のセグメントに.接続されていた場合には、 図 5 Cに示すように、 .1 つのパラグラフが複数のパラグラフに対応付けられてしまう。 すなわち、 図 5 Cでは、 パラグラフ Aが、 パラグラフ aおよびパラグラフ Xの双方に対応付け られてしまう。 この場合、 パラグラフ対応付け部 4 3は、 例えば、 それら複数 のパラグラフの中からテキスト內で最も先に登場するパラグラフを選択する。 この結果、 図 5 Cに示す例では、 パラグラフ Aは、 パラグラフ aに対応付けら れることになる。
セグメント対応付け計算部 4 4は、 パラグラフ対応付け部 4 3により作成さ れたパラグラフ間の対応関係を利用して、 英語文テキストを構成する複数のセ グメントと日本語文テキストを構成する複数のセグメントとの対応付けを行う。 すなわち、 パラグラフ毎に、 セグメント間の対応付けが行われる。 なお、 対訳
文の各セグメントの対応付け方法は、 特に限定されるものではないが、 例え ば、 "A Program for Aligning Sentences in Bilingual Corpora" (Gale & Church 1993) が有名である。 ちなみに、 この論文は、 下記のサイ トから入手すること ができる。
nttp -7/citeseer.nj. nec.com/gale93program. tml
セグメント対応付け計算部 4 4の動作の例を示す。 なお、 ここでは、 ユーザ によって図 3に示す確定リンク 6 1、 6 2が指定され、 その後、 パラグラフ対 応付け部 4 3により図 4に示すパラグラフ情報テーブル 1 0 2およびパラダラ フ対応関係テーブル 1 0 3が登録されているものとする。
この場合、 セグメント対応付け計算部 4 4は、 例えば、 まず、 英語パラグラ フ 1に属する各セグメントについて対応付けを行う。 ここで、 英語パラグラフ 1は、 日本語パラグラフ 2に対応している。 したがって、 英語パラグラフ 1に 属するセグメント 1 1、 1 2と、 日本語パラグラフ 2に属するセグメント 2 4、 2 5との対応関係が調べられる。
セグメント 1 1は、 確定リンク 6 1によってセグメント 2 4に接続されてい る。 このため、 セグメント 1 1は、 セグメント 2 4に対応付けられる。 また、 セグメント 1 2は、 日本語パラグラフ 2に属するセグメントの中で、 セグメン ト 2 4以外のセグメントに対応付けられる。 この結果、 セグメント 1 2は、 セ グメント 2 5に対応付けられる。
続いて、 セグメント対応付け計算部 4 4は、 英語パラグラフ 2に属する各セ グメントについて対応付けを行う。 ここで、 英語パラグラフ 2は、 日本語パラ グラフ 1に対応している。 したがって、 英語パラグラフ 2に属するセグメント 1 3〜1 5と、 日本語パラグラフ 1に属するセグメント 2 1〜2 3との対応関 係が調べられる。
セグメント 1 3は、 確定リンク 6 2によってセグメント 2 1に接続されてい
る。 このため、 セグメント 1 3は、 セグメント 2 1に対応付けられる。 また、 セグメント 1 4、 1 5は、 日本語パラグラフ 1に属するセグメントの中で、 セ グメント 2 1以外のセグメント (すなわち、 セグメント 2 2、 2 3 ) に対応付 けられる。 このとき、 セグメント 1 4、 1 5と、 セグメント 2 2、 2 3との対 応関係は、 例えば、 上述の Gale & Churchの方法により求められる。 そして、 ここでは、 セグメント 1 4および 1 5が、 それぞれ、 セグメント 2 2および 2 3に対応付けられたものとする。
この結果、 英語文テキストに含まれるセグメント 1 1、 1 2、 1 3、 1 4、 1 5は、それぞれ、 日本語文テキストに含まれるセグメント 2 4、 2 5、 2 1、 2 2、 2 3に対応付けられることになる。
図 6は、 セグメント対応付け計算部 4 4による処理の結果を示す図である。 セグメント対応付け計算部 4 4により得られたセグメント間の対応関係は、 リ ンク情報テーブル 1 0 4に登録される。 このとき、 リンク情報テーブル 1 0 4 には、 ユーザにより指定された確定リンクもいっしょに登録される。 また、 こ れらのセグメント間の対応関係は、 対応関係編集部 4 5によりグラフィカルュ 一ザインタフエース 5 5を介して表示される。
対応関係編集部 4 5は、 セグメント対応付け計算部 4 4により得られたセグ メント間の対応関係を表示すると共に、 ユーザからの指示に従ってその対応関 係を編集する。 ここで、 「ユーザからの指示」 は、 セグメント間を接続するリン クを追加、 削除、 変更する旨の指示を含む。 また、 「対応関係の編集」 は、 ユー ザからの指示に従って図 6に示すリンク情報テーブル 1 0 4を更新する処理、 および更新されたリンク情報テーブル 1 0 4に従ってリンクを描画する処理を 含む。 なお、 ユーザは、 マウス等を利用してリンクの追加、 削除、 変更の指示 を入力する。
対応関係出力部 4 6は、 セグメント対応付け計算部 4 4により得られたセグ
メント間の対応関係を表す情報 (対応関係編集部 4 5によって編集された場合 は、 編集後の対応関係を表す情報) を、 対応関係ファイル 5 4に出力する。 な お、 ファイルの形式は特に限定されるものではない。
図 7は、 実施形態の対訳文対応付け支援システムの動作の流れを説明する図 である。 対訳文対応付け支援システムは、 下記の手順でセグメント毎の対応付 けを行う。
まず、 確定リンク編集部 4 2は、 ユーザに対して、 グラフィカルユーザイン タフエース 5 5を介して確定リンクを指定させるためのフォームを提示する。 これに対してユーザが確定リンクを指定すると、 確定リンク編集部 4 2は、 そ の指定された確定リンクを確定リンク情報テーブル 1 0 1に登録する。
次に、 パラグラフ対応付け部 4 3は、 ユーザにより指定された確定リンクに 基づいて、 英語文テキストおよび日本語文テキストをそれぞれ複数のパラグラ フに分割する。 そして、 パラグラフ毎に、 そのパラグラフに属するセグメント を検出し、 それらの対応関係をパラグラフ情報テーブル 1 0 2に登録する。 また、 パラグラフ対応付け部 4 3は、 ユーザにより指定された確定リンクを 利用して、 複数の英語パラダラフおよび複数の日本語パラグラフの間の対応関 係を検出する。 そして、 それらの対応関係をパラグラフ対応関係テーブル 1 0 3に登録する。
続いて、 セグメント対応付け計算部 4 4は、 パラグラフ対応関係テーブル 1 0 3を参照し、 パラグラフ毎にセグメントの対応付けを行う。 そして、 セグメ ント間の対応関係は、 リンク情報テーブル 1 0 4に登録される。
この後、 対応関係編集部 4 5は、 セグメント対応付け計算部 4 4により検出 されたセグメント間の対応関係を、 グラフィカルユーザインタフェース 5 5を 介してユーザに提示する。 このとき、 ユーザがセグメント間を接続するリンク の追加、 削除、 変更を指示したときは、 対応関係編集部 4 5は、 その指示に従
つてリンク情報テーブル 1 0 4を更新する。 そして、 このリンク情報テーブル 1 0 4の内容が、 対応関係ファイル 5 4に出力される。
このように、 実施形態の対訳文対応付け支援システムにおいては、 ユーザに 確定リンクを指定させ、 その確定リンクを利用してセグメント間の対応付けが 行われる。 従って、 セグメント間の対応付けの精度が向上する。 また、 ユーザ により指定された確定リンクに基づいて各テキストが複数のパラグラフに分割 され、 その確定リンクを利用してそれら複数のパラグラフ間の対応付けが行わ れた後に、 パラグラフ毎にセグメント間の対応付けが行われる。 従って、 元文 書から翻訳文書を作成する際にパラグラフ単位で順序の入換えがあつた場合で も、 元文書に含まれている各セグメントを正確に翻訳文書に含まれている各セ グメントに対応付けることができる。
次に、 実施形態の対訳文対応付け支援システムの動作をフローチャートを参 照しながら説明する。
図 8は、 確定リンク編集部 4 2の動作を示すフローチャートである。 ここで は、 ユーザが、 グラフィカルユーザインタフェース 5 5を利用して新たな確定 リンクを指定したときの処理を示す。 なお、 ユーザは、 グラフィカルユーザィ ンタフェース上でマウスを用いてある英語セグメントからある日本語セグメン トへの 「線」 を描くことにより確定リンクを指定するものとする。
ステップ S 1では、 マウスポインタが指し示す英語セグメントを検出する。 ステップ S 2では、 マウスによるドラッグ操作を検出する。 即ち、 マウスの左 ボタンが押圧された状態でマウスカーソルが移動していることを検出する。 ス テツプ S 3では、 マウスポインタが指し示す日本語セグメントを検出する。 ス テツプ S 4では、 マウスの左ボタンがリリースされたことを検出する。
ステップ S 5では、 ユーザにより指示された確定リンクを登録する。 具体的 には、 ステップ S 1で検出した英語セグメントおよびステップ S 3で検出した
日本語セグメントを確定リンク情報テーブル 1 0 1に登録する。
なお、 ユーザが確定リンクを削除したときの動作を示すフローチャートは省 略するが、 ユーザの指示に従って確定リンク情報テーブル 1 0 1から対応する レコードが削除される。
図 9は、 パラグラフ対応付け部 4 3の動作を示すフローチャートである。 な お、 この処理は、 ユーザが確定リンクを指定した後に実行される。
ステップ S 1 1では、 確定リンク情報テーブル 1 0 1から確定リンク情報を 取得する。 すなわち、 ユーザにより指定された確定リンクを認識する。 ステツ プ S 1 2では、 確定リンクに基づいて、 英語文テキストおよぴ日本語文テキス トをそれぞれ複数のパラグラフに分割する。 そして、 これらのパラグラフは、 パラグラフ情報テーブル 1 0 2に登録される。 なお、 各テキストをパラグラフ 毎に分割する方法は、 例えば、 図 4を参照しながら説明した手順により実現さ れる。
ステップ S 1 3では、 パラグラフ対応付けルール 5 3に従って、 複数の英語 パラグラフと複数の日本語パラグラフとの対応付けを行う。 なお パラグラフ 対応付けルール 5 3としては、 例えば、 図 4を参照しながら説明したように、 確定リンクを利用してパラグラフ間の対応付けを行う手順を想定する。
図 1 0は、 セグメント対応付け計算部 4 4の動作を示すフローチャートであ る。 なお、 この処理は、 パラグラフ対応付け部 4 3によるパラグラフ間の対応 付けが終了した後に実行される。
ステップ S 2 1では、 パラグラフ情報テーブル 1 0 2から英語パラグラフを 1つ選択する。 ステップ S 2 2では、 パラグラフ対応関係テーブル 1 0 3を参 照し、 ステップ S 2 1で選択した英語パラグラフに対応する日本語パラグラフ を選択する。 ステップ S 2 3では、 ステップ S 2 1および S 2 2で選択したパ ラグラフに属するセグメントを読み込む。 そして、 ステップ S 2 4において、
2 3で読み込んだセグメント間の対応関係を検出する。
ステップ S 2 5では、 選択されていない英語パラグラフが残っているか否か を調べる。 そして、 選択されてないパラグラフが残っていた場合には、 ステツ プ S 2 6において、 それらの中から英語パラグラフを 1つ選択してステップ S 2 2に戻る。 そして、 すべての英語パラグラフが選択された時点で処理を終了 する。 .
図 1 1は、 セグメント間の対応関係を検出する処理の一例のフローチャート である。 なお、 このフローチャートの処理は、 図 1 0のステップ S 2 4の処理 に相当する。 すなわち、 このフローチャートの処理は、 パラグラフ毎に実行さ れる。
ステップ S 3 1では、 選択された英語パラグラフに属する各セグメントのセ グメント長、 および対応する日本語パラグラフに属する各セグメントのセグメ ント長を個々に調べる。 なお、 セグメント長は、 例えば、 単語数または文字数 により検出する。 ステップ S 3 2では、 英語パラグラフおよび日本語パラダラ フから、 それぞれ、 最もセグメント長の長いセグメントを取り.出し、 それらを 互いに対応する 1組のセグメント対としてリンク情報テーブル 1 0 4に登録す る。
ステップ S 3 3では、 いずれか一方の言語のパラグラフにおいてセグメント が無くなるまで、 ステップ S 3 2の処理を繰り返し実行する。 すなわち、 英語 パラグラフおよび日本語パラグラフから、 それぞれ、 セグメント長の長いもの から順番にセグメントを抽出し、 それらを互いに対応するセグメント対として リンク情報テーブル 1 0 4に登録していく。
これにより、 パラグラフ毎に、 セグメント間の対応関係がリンク情報テープ ル 1 0 4に登録される。 したがって、 各パラグラフについて同様の処理を実行 することにより、 与えられたテキストの全範囲に渡って、 セグメント間の対応
関係がリンク情報テーブル 1 0 4に登録されることになる。
図 1 2は、 対応関係編集部 4. 5の動作を示すフローチャートである。 なお、 この処理は、 セグメント対応付け計算部 4 4によりセグメント間の対応関係が リンク情報テーブル 1 0 4に登録された後に実行される。
ステップ S 4 1では、 リンク情報テーブル 1 0 4に登録されている对応関係 を描画する。 すなわち、 セグメント間を接続するリンクを描画する。 そして、 以降、 グラフィカルユーザインタフェース 5 5を介して入力されるユーザの指 示を待つ。
ステップ S 4 2において、 リンクを削除する旨の指示を検出したときは、 ス テツプ S 4 3において、 そのリンクによって表される対応関係をリンク情報テ 一ブル 1 0 4から削除する。 また、 ステップ S 4 4において、 リンクを追加す る旨の指示を検出したときは、 ステップ S 4 5において、 そのリンクによって 表される対応閿係をリンク情報テーブル 1 0 4に追加する。 ステップ S 4 6に おいて、 リンクを変更する旨の指示を検出したときは、 ステップ S 4 7におい て、. その指示に従ってリンク情報テープ^^ 1 0 4の 容を更新する。
なお、 これらのリンクを削除、 追加、 変更する際のユーザの操作は、 基本的 に、 確定リンクを削除、 追加、 変更する際の操作と同じである。 そして、 例え ば、 ユーザがリンクを追加した際の対応関係編集部 4 5の動作は、 基本的に、 図 8に示した確定リンク編集部 4 2の動作と同じである。 ただし、 確定リンク 編集部 4 2は、 ユーザにより指定された確定リンクを確定リンク情報テーブル 1 0 1に登録する力 対応関係編集部 4 5は、 ュ一ザにより指定されたリンク をリンク情報テーブル 1 0 4に登録する。
そして、 ステップ S 4 3、 4 5または 4 7の処理によりリンク情報テーブル 1 0 4が更新されると、 ステップ S 4 1に戻り、 グラフィカルユーザインタフ エース 5 5を介してその更新されたリンク情報テーブル 1 0 4の内容を描画す
る。
図 1 3は、 本発明の他の実施形態の対訳文対応付け支援システムの構成図で ある。 図 1 3に示す対訳文対応付け支援システム 7 0の基本構成は、 図 2に示 した対訳文対応付け支援システム 4 0と同じである。 ただし、 対訳文対応付け 支援システム 4 0は、 パラグラフ対応付け部 4 3を備え、 セグメント対応付け 計算部 4 4は、 パラグラフ毎にセグメント間の対応関係を検出する。 これに対 して、 対訳文対応付け支援システム 7 0は、 パラグラフ対応付け部 4 3を備え ておらず、 セグメント対応付け計算部 7 1は、 パラグラフを考慮することなく セグメント間の対応関係を検出する。
図 1 4は、 セグメント対応付け計算部 7 1の動作を説明する図である。 ここ では、 ユーザにより、 セグメント 1 3とセグメント 2 2とを接続する確定リン クが指定されているものとする。 また、 公知の技術により、 セグメント 1 2を 翻訳することにより得られるセグメントの候捕として、 セグメント 2 1および セグメント 2 4が求められているものとする。 そして、 この結果、 2本の候補 リンク 7 3、 7 4が生成されているもの する。
この場合、 セグメント対応付け計算部 7 1は、 確定リンクから各候捕リンク まで距離に基づいて、 より確からしいリンクを決定する。 ここで、 「距離」 は、 例えば、 セグメント間の行数により求められる。 例えば、 確定リンク 7 2と候 補リンク 7 3との間の距離は、 英語文テキストにおいてはセグメント 1 3とセ グメント 1 2との間の距離が 「1」 であり、 日本語文テキストにおいてはセグ メント 2 2とセグメント 2 1との間の距離が 「1」 であるので、 その合計値は 「2」 である。 一方、 確定リンク 7 2と候補リンク 7 4との間の距離は、 英語 文テキストにおいてはセグメント 1 3とセグメント 1 2との間の距離が 「1」 であり、 日本語文テキストにおいてはセグメント 2 2とセグメント 2 4との間 の距離が 「2」 であるので、 その合計値は 「3」 である。 そして、 この場合は、
候補リンク 7 4よりも候補リンク 7 3の方が確定リンク 7 2に近いので、 候補 リンク 7 3がより確からしいリンクとして選択される。 すなわち、 セグメント 1 2は、 セグメント 2 1に対応付けられる。
セグメント対応付け計算部 7 1は、 上述のようにしてセグメント間の対応関 係を検出すると、 それらをリンク情報テーブル 1 0 4に登録する。
図 1 5は、 セグメント対応付け計算部 7 1の動作を示すフローチャートであ る。 なお、 このフローチャートの処理は、 ある 1つのセグメントに対して複数 の候補リンクが生成された場合に実行される。 また、 この処理は、 複数の候捕 リンクが生成されているセグメント毎に実行される。
ステップ S 5 1では、 競合している侯捕リンクのそれぞれについて、 確定リ ンクとの距離を算出する。 ステップ S 5 2では、 算出した距離に基づいて、 各 候捕リンクの確信度を求める。 ここでは、 確定リンクとの距離が小さいほど、 確信度が高いものとみなされる。 ステップ S 5 3では、 競合する候補リンクの 中から最も確信度の高いリンクが選択される。 そして、 ステップ S 5 3におい て選択されたリンクが、 リンク情報テーブル 1 0 4に登録される。
このように、 図 1 3に示す対訳文対応付け支援システム 7 0によれば、 ある 1つの英語セグメントに対応する日本語セグメントとして複数の候補が存在す る場合には、 その英語セグメントとそれらの日本語セグメントをそれぞれ接続 する複数の候補リンクが生成され、 ユーザにより指定された確定リンクと各候 補リンクとの間の距離に基づいて、 最も確からしい候補リンクが選択される。 そして、 その選択された候補リンクに従ってセグメント間の対応付けが行われ る。 したがって、 確定リンクによる対応関係が正しいものとすると、 セグメン ト間の対応付けの精度が向上する。
図 1 6は、 本発明のさらに他の実施形態の対訳文対応付け支援システムの構 成図である。 図 1 6に示す対訳文対応付け支援システム 8 0の基本構成は、 図
2に示した対訳文対応付け支援システム 4 0と同じである。 ただし、 対訳文対 応付け支援システム 8 0は、 確定リンク候捕計算部 8 1を備え、 ユーザに対し て確定リンクの候補を提示することができる。 そして、 ユーザは、 確定リンク 候補計算部 8 1により提示された確定リンク候補を参考にしながら、 確定リン クを指定することができる。 なお、 ユーザによって確定リンクが指定された後 の処理は、 基本的に、 図 2に示した対訳文対応付け支援システム 4 0と同じで ある。
図 1 7は、 本発明のさらに他の実施形態の対訳文対応付け支援システムの構 成図である。 図 1 7に示す対訳文対応付け支援システム 9 0の基本構成は、 図 1 3に示した対訳文対応付け支援システム 7 0と同じである。 ただし、 対訳文 対応付け支援システム 9 0は、 図 1 6に示す対訳文対応付け支援システム 8 0 と同様に、 確定リンク候補計算部 8 1を備え、 ユーザに対して確定リンクの候 捕を提示することができる。
図 1 8 Aは、 確定リンク候補計算部 8 1の動作を示すフローチャートである。 なお、 確定リンク候補計算部 8 1は、 テキスト入力部 4 1により英語文テキス トファイル 5 1および日本語文テキストファイル 5 2が読み込まれたときに起 動される。
ステップ S 6 1では、 英語文テキストに含まれている各セグメント、 および 日本語文テキストに含まれている各セグメントを読み込む。 ステップ S 6 2で は、 セグメント同士の対応関係を計算し、 1または複数の確定リンク候補を決 定する。 そして、 ステップ S 6 3において、確定リンク候tを出力する。 なお、 決定された確定リンク候補は、 確定リンク編集部 4 2によりグラフィカルユー ザインタフエース 5 5を介してユーザに提示される。
図 1 8 Bは、 確定リンク候補を求める処理の一例を示すフローチャートであ る。 なお、 この処理は、 図 1 8 Aのステップ S 6 2の処理に相当する。
ステップ S 7 1では、 英語文テキストを構成する各セグメントおよび日本語 文テキストを構成する各セグメントについて、 それぞれ、 セグメント長を求め る。 なお、 セグメント長は、 例えば、 各セグメントに含まれる単語の数または 文字の数により検出する。
ステップ S 7 2では、 まず、 英語文テキストおよび日本語文テキストから 1 つずつセグメントを選択する。 続いて、 英語文テキストから選択したセグメン トのセグメント長と日本語文テキストから選択したセグメントのセグメント長 との 「比」 を算出する。 そして、 その 「比」 に基づいて、 上記日本語セグメン トが上記英語セグメントの翻訳文であることについての確信度を計算する。 な お、 自然言語の翻訳においては、 元セグメントのセグメント長と翻訳セグメン トのセグメント長の比は、 概ね一定の値になるものと推測される。 従って、 ス テツプ S 7 2では、 上述のようにして算出したセグメント長の比が、 英語ズ日 本語間の翻訳において推測されるセグメント長の比に近いか否かによって、 確 信度が求められる。
ステップ S 7 3では、 ステ、 /プ S 7 2で求めた確信度が予め決められた閾値 よりも高かった場合に、 それら 1組のセグメントを確定リンク情報テーブル 1 0 1に書き込む。 すなわち、 それら 1組のセグメントを接続するリンクを、 確 定リンク候補として確定リンク情報テーブル 1 0 1に登録する。 そして、 ステ ップ S 7 4により、 上記ステップ S 7 2および S 7 3の処理が各セグメントの 組合せに対して実行される。
このように、 確定リンク候補計算部 8 1は、 互いに対応していることについ ての確信度の高いセグメント間を接続するリンクを確定リンク候補としてユー ザに提示する。 そして、 ユーザは、 その確定リンク候補を参照して確定リンク を指定することができる。 したがって、 確定リンクを指定する際のユーザの負 担が軽くなる。
なお、 確定リンク候補を決定する方法は、 図 1 8 Bを参照しながら説明した 方法に限定されるものではない。 すなわち、 例えば、 英語文テキストに含まれ る各セグメントのセグメント長の分布と、 日本語文テキストに含まれる各セグ メントのセグメント長の分布とを比較し、 その比較結果に基づいて確定リンク 候補を求めるようにしてもよい。 あるいは、 英語文テキストおよび日本語文テ キストを相互に変換するための翻訳辞書を用意しておき、 英語セグメントと日 本語セグメントとを比較する際にその翻訳辞書を参照して確定リンク候補を決 定するようにしてもよレ、。
また、 上述の実施例では、 確定リンク候補計算部 8 1がユーザに対して確定 リンク候補を提示し、 ユーザがその提示された候捕を参照して確定リンクを指 定するようになっているが、 本発明はこれに限定されるものではない。 すなわ ち、 確定リンク候補計算部 8 1が決定した確定リンク候補の確信度が高い場合 は、 ユーザの判断を受けることなく、 その確定リンク候捕をそのまま確定リン クとして使用するようにしてもよい。
本発明の実施形態の対訳文対応付け支援システムの具体的な一利用形態とし ては、 例えば、 文書の途中に登場する 「章タイトル」 などの対応関係が明確な セグメントのみについてユーザが確定リンクを指定し、 対訳文対応付け支援シ ステムがそれらの確定リンクに基づいて他のセグメント間の対応付けを行う手 法が考えられる。
図 1 9は、 上述したフローチャートの処理を記述したプログヲムを実行する コンピュータの構成図である。
C P U 2 0 1は、 上述のフローチャートに示した処理を記述したプログラム を記憶装置 2 0 2からメモリ 2 0 3にロードして実行する。 記憶装置 2 0 2は、 例えばハードディスクであり、 上記プログラムを格納する。 なお、 記憶装置 2 0 2は、 コンピュータ 2 0 0に接続される外部記憶装置であってもよい。 メモ
リ 2 0 3は、 例えば半導体メモリであり、 C P U 2 0 1の作業領域として使用 される。
記録媒体ドライバ 2 0 4は、 C P U 2 0 1の指示に従って可搬性記録媒体 2 0 5にアクセスする。 可搬性記録媒体 2 0 5は、 例えば、 半導体デバイス (P Cカード等)、 磁気的作用により情報が入出力される媒体 (フレキシブルデイス ク、磁気テープ等)、光学的作用により情報が入出力される媒体(光ディスク等) を含むものとする。 通信制御装置 2 0 6は、 C P U 2 0 1の指示に従って、 ネ ットワークを介してデータを送受信する。
入力装置 2 0 7は、 例えば、 キーボードおよびマウス等である。 ユーザは、 この入力装置 2 0 7を利用して確定リンクを指定し、 また、 リンクの追加、 削 除、 変更を行う。 出力装置 2 0 8は、 表示装置であって、 セグメント間の対応 関係を表示する。
図 2 0は、 本発明に係わるソフトウエアプログラムの提供方法を説明する図 である。 本発明に係わるプログラムは、 例えば、 以下の 3つの方法のなかの任 意の方法で提供される。.
( a ) コンピュータにインストールされて提供される。 この場合、 プログラ ムは、 例えば、 コンピュータ 2 0 0の出荷前にそのコンピュータ 2 0 0にプレ ィンストーノレされる。
( b ) 可搬性記録媒体に格納されて提供される。 この場合、 可搬性記録媒体 2 0 5に格納されるプログラムは、 基本的に、 記録媒体ドライバ 2 0 4を介し て記憶装置 2 0 2にインストールされる。
( c ) ネットワーク上に設けられているプログラムサーバから提供される。 この場合、 コンピュータ 2 0 0は、 プログラムサーバからダウンロードするこ とにより対応するプログラムを取得する。 あるいは、 サーバ装置においてその プログラムが実行され、 コンピュータ 2 0 0は、 そのプログラムに対応する機
能の提供を受けるようにしてもよい。
なお、 上述の実施例では、 自然言語で記述された元文書とその翻訳文書との 対応関係について記載したが、 本発明はこれに限定されるものではない。 すな わち、 本発明は、 自然言語で記述された文書に限定されるものではなく、 例え ば、 コンピュータ言語間の対応関係に適用することもできる。 また、 第 1の言 語で記述された文書と第 2の言語で記述された文書との対応付けに限定される ものでもなく、 例えば、 人と人以外の生物の D N Aを比較する際にも適用可能 である。
Claims
1 . 第 1の言語により記述された第 1のテキストを構成する複数のセグメ ントと第 2の言語により記述された第 2のテキストを構成する複数のセグメン トとの間の対応付けを行う装置であって、
上記第 1のテキストを構成する複数のセグメントの中の一部のセグメントが 上記第 2のテキストを構成する複数のセグメントの中の一部のセグメントに対 応していることを指示する対応関係情報をユーザから受け付ける受付手段と、 上記受付手段が受け付けた対応関係情報に基づいて、 上記第 1のテキストを 構成する複数のセグメントの中の他のセグメントと上記第 2のテキストを構成 する複数のセグメントの中の他のセグメントとの対応関係を検出する検出手段 と、
上記検出手段により検出された対応関係を表す情報を出力する出力手段、 を有する対訳文対応付け装置。
2 . 請求項 1に記載の対訳文対応付け装置であって、
上記受付手段が受け付けた対応関係情報に基づいて、 上記第 1のテキストぉ ょぴ第 2のテキストをそれぞれ複数のパラグラフに分割し、 それら第 1のテキ ストを構成する複数のパラグラフと第 2のテキストを構成する複数のパラダラ フの対応関係を検出するパラグラフ検出手段、
をさらに有する。
3 . 請求項 2に記載の対訳文対応付け装置であって、
上記検出手段は、 パラグラフ毎に、 上記第 1のテキストを構成するセグメン トと上記第 2のテキストを構成するセグメントとの対応関係を検出する。
4 . 請求項 1に記載の対訳文対応付け装置であって、
上記検出手段は、 上記受付手段が受け付けた対応関係情報により指示される セグメントからの距離に基づいて、 上記第 1のテキストを構成するセグメント と上記第 2のテキストを構成するセグメントとの対応関係を検出する。
5 . 請求項 1に記載の対訳文対応付け装置であって、
上記ユーザに上記対応関係情報を入力させるための候補情報を提示する提示 手段、
をさらに有する。
6 . 第 1の言語により記述された第 1のテキストを構成する複数のセグメ ントと第 2の言語により記述された第 2のテキストを構成する複数のセグメン トとの間の対応付けを行う装置であって、
上記第 1のテキストを構成する複数のセグメントの中の一部のセグ.メントが 上記第 2のテキストを構成する複数のセグメントの中の一部のセグメントに対 応していることを指示する対応関係情報を生成する生成手段と、
上記生成手段により生成された対応関係情報に基づいて、 上記第 1のテキス トを構成する複数のセグメントの中の他のセグメントと上記第 2のテキストを 構成する複数のセグメントの中の他のセグメントとの対応関係を検出する検出 手段と、
上記検出手段により検出された対応関係を表す情報を出力する出力手段、 を有する対訳文対応付け装置。
7 . 請求項 6に記載の対訳文対応付け装置であって、
上記生成手段により生成された対応関係情報をユーザに修正させる修正手段 をさらに有し、
上記検出手段は、 上記ユーザにより修正された対応関係情報に基づいて、 上 記第 1のテキストを構成する複数のセグメントの中の他のセグメントと上記第 2のテキストを構成する複数のセグメントの中の他のセグメントとの対応関係 を検出する。
8 . 第 1の言語により記述された第 1のテキストを構成する複数のセグメ ントと第 2の言語により記述された第 2のテキストを構成する複数のセグメン トとの間の対応付けを行うプログラムであって、
コンピュータにより実行されたときに、
上記第 1のテキストを構成する複数のセグメントの中の一部のセグメントが 上記第 2のテキストを構成する複数のセグメントの中の一部のセグメントに対 応していることを指示する対応関係情報をユーザから受け付ける受付手段と、 上記受付手段が受け付けた対応関係情報に基づいて、 上記第 1のテキストを 構成する複数のセグメントの中の他のセグメントと上記第 2のテキストを構成 する複数のセグメントの中の他のセグメントとの対応関係を検出する検出手段 と、
上記検出手段により検出された対応関係を表す情報を出力する出力手段、 を提供する対訳文対応付けプログラム。
9 . 請求項 8に記載の対訳文対応付けプログラムであって、
上記受付手段が受け付けた対応関係情報に基づいて、 上記第 1のテキストぉ よび第 2のテキストをそれぞれ複数のパラグラフに分割し、 それら第 1のテキ ストを構成する複数のパラグラフと第 2のテキストを構成する複数のパラグラ
フの対応関係を検出するパラグラフ検出手段、
をさらに提供する。
1 0 . 請求項 9に記載の対訳文対応付けプログラムであって、
上記検出手段は、'パラグラフ毎に、 上記第 1のテキストを構成するセグメン トと上記第 2のテキストを構成するセグメントとの対応関係を検出する。
1 1 . 請求項 8に記載の対訳文対応付けプログラムであって、
上記検出手段は、 上記受付手段が受け付けた対応関係情報により指示される セグメントからの距離に基づいて、 上記第 1のテキストを構成するセグメント と上記第 2のテキストを構成するセグメントとの対応関係を検出する。
1 2 . 請求項 8に記載の対訳文対応付けプログラムであって、
上記ユーザに上記対応関係情報を入力させるための候補情報を提示する提示 手段、 .
をさらに提供する。
1 3 . 第 1の言語により記述された第 1のテキストを構成する複数のセグメ ントと第 2の言語により記述された第 2のテキストを構成する複数のセグメン トとの間の対応付けを行うプログラムであって、
コンピュータにより実行されたときに、
上記第 1のテキストを構成する複数のセグメントの中の一部のセグメントが 上記第 2のテキストを構成する複数のセグメントの中の一部のセグメントに対 応していることを指示する対応関係情報を生成する生成手段と、
上記生成手段により生成された対応関係情報に基づいて、 上記第 1のテキス
トを構成する複数のセグメントの中の他のセグメントと上記第 2のテキストを 構成する複数のセグメントの中の他のセグメントとの対応関係を検出する検出 手段と、
上記検出手段により検出された対応関係を表す情報を出力する出力手段、 を提供する対訳文対応付けプログラム。
1 4. 請求項 1 3に記載の対訳文対応付けプログラムであって、
上記生成手段により生成された対応関係情報をユーザに修正させる修正手段 をさらに提供し、
上記検出手段は、 上記ユーザにより修正された対応関係情報に基づいて、 上 記第 1のテキストを構成する複数のセグメントの中の他のセグメントと上記第 2のテキストを構成する複数のセグメントの中の他のセグメントとの対応関係 を検出する。
1 5 . 第 1の情報を構成する複数のセグメントと上記第 1の情報に対応する 第 2の情報を構成する複数のセグメントとの聞の対応付けを行うプログラムで あって、
コンピュータにより実行されたときに、
上記第 1の情報を構成する複数のセグメントの中の一部のセグメントが上記 第 2の情報を構成する複数のセグメントの中の一部のセグメントに対応してい ることを指示する対応関係情報をユーザから受け付ける受付手段と、
上記受付手段が受け付けた対応関係情報に基づいて、 上記第 1の情報を構成 する複数のセグメントの中の他のセグメントと上記第 2の情報を構成する複数 のセグメントの中の他のセグメントとの対応関係を検出する検出手段と、 上記検出手段により検出された対応関係を表す情報を出力する出力手段、
を提供する対訳文対応付けプログラム。
1 6 . 第 1の言語により記述された第 1のテキストを構成する複数のセグメ ントと第 2の言語により記述された第 2のテキストを構成する複数のセグメン トとの間の対応付けを行う方法であって、
上記第 1のテキストを構成する複数のセグメントの中の一部のセグメントが 上記第 2のテキストを構成する複数のセグメントの中の一部のセグメントに対 応していることを指示する対応関係情報をユーザから受け付け、
上記受付手段が受け付けた対応関係情報に基づいて、 上記第 1のテキストを 構成する複数のセグメントの中の他のセグメントと上記第 2のテキストを構成 する複数のセグメントの中の他のセグメントとの対応関係を検出し、
上記検出手段により検出された対応関係を表す情報を出力する、
対訳文対応付け方法。
1 7 . 第 1の言語により記述された第 1のテキストを構成する複数のセグメ ントと第 2の言語により記述された第 2のテキストを構成する複数のセグメン トとの間の対応付けを行う方法であって、
上記第 1のテキストを構成する複数のセグメントの中の一部のセグメントが 上記第 2のテキストを構成する複数のセグメントの中の一部のセグメントに対 応していることを指示する対応関係情報を生成し、
上記生成手段により生成された対応関係情報に基づいて、 上記第 1のテキス トを構成する複数のセグメントの中の他のセグメントと上記第 2のテキストを 構成する複数のセグメントの中の他のセグメントとの対応関係を検出し、 上記検出手段により検出された対応関係を表す情報を出力する、
対訳文対応付け方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2003/006869 WO2004107203A1 (ja) | 2003-05-30 | 2003-05-30 | 対訳文対応付け装置 |
JP2005500235A JP3943582B2 (ja) | 2003-05-30 | 2003-05-30 | 対訳文対応付け装置 |
US11/289,318 US7308398B2 (en) | 2003-05-30 | 2005-11-30 | Translation correlation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2003/006869 WO2004107203A1 (ja) | 2003-05-30 | 2003-05-30 | 対訳文対応付け装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US11/289,318 Continuation US7308398B2 (en) | 2003-05-30 | 2005-11-30 | Translation correlation device |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2004107203A1 true WO2004107203A1 (ja) | 2004-12-09 |
Family
ID=33485808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2003/006869 WO2004107203A1 (ja) | 2003-05-30 | 2003-05-30 | 対訳文対応付け装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7308398B2 (ja) |
JP (1) | JP3943582B2 (ja) |
WO (1) | WO2004107203A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009004723A1 (ja) * | 2007-07-04 | 2009-01-08 | Fujitsu Limited | 翻訳支援プログラム、翻訳支援装置および翻訳支援方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060136824A1 (en) * | 2004-11-12 | 2006-06-22 | Bo-In Lin | Process official and business documents in several languages for different national institutions |
US20090326916A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Unsupervised chinese word segmentation for statistical machine translation |
TWI621952B (zh) * | 2016-12-02 | 2018-04-21 | 財團法人資訊工業策進會 | 比較表格自動產生方法、裝置及其電腦程式產品 |
JP6885318B2 (ja) * | 2017-12-15 | 2021-06-16 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282361A (ja) * | 1992-03-30 | 1993-10-29 | Toshiba Corp | データベース作成支援装置及び機械翻訳装置 |
JPH09160918A (ja) * | 1995-12-13 | 1997-06-20 | Nippon Telegr & Teleph Corp <Ntt> | 対訳文対応付け方法及び装置 |
JPH09179868A (ja) * | 1995-12-27 | 1997-07-11 | Nippon Telegr & Teleph Corp <Ntt> | 対訳文対応付け支援システム |
JPH09198390A (ja) * | 1996-01-17 | 1997-07-31 | Hitachi Ltd | 対訳テキストの対応関係編集方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2272091B (en) * | 1992-10-30 | 1996-10-23 | Canon Europa Nv | Apparatus for use in aligning bilingual corpora |
JP2821840B2 (ja) * | 1993-04-28 | 1998-11-05 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置 |
GB2279164A (en) * | 1993-06-18 | 1994-12-21 | Canon Res Ct Europe Ltd | Processing a bilingual database. |
US7813915B2 (en) * | 2000-09-25 | 2010-10-12 | Fujitsu Limited | Apparatus for reading a plurality of documents and a method thereof |
US20020091509A1 (en) * | 2001-01-02 | 2002-07-11 | Yacov Zoarez | Method and system for translating text |
US20030040899A1 (en) * | 2001-08-13 | 2003-02-27 | Ogilvie John W.L. | Tools and techniques for reader-guided incremental immersion in a foreign language text |
US7155382B2 (en) * | 2002-06-03 | 2006-12-26 | Boys Donald R | Audio-visual language instruction system without a computer |
-
2003
- 2003-05-30 WO PCT/JP2003/006869 patent/WO2004107203A1/ja active Application Filing
- 2003-05-30 JP JP2005500235A patent/JP3943582B2/ja not_active Expired - Lifetime
-
2005
- 2005-11-30 US US11/289,318 patent/US7308398B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282361A (ja) * | 1992-03-30 | 1993-10-29 | Toshiba Corp | データベース作成支援装置及び機械翻訳装置 |
JPH09160918A (ja) * | 1995-12-13 | 1997-06-20 | Nippon Telegr & Teleph Corp <Ntt> | 対訳文対応付け方法及び装置 |
JPH09179868A (ja) * | 1995-12-27 | 1997-07-11 | Nippon Telegr & Teleph Corp <Ntt> | 対訳文対応付け支援システム |
JPH09198390A (ja) * | 1996-01-17 | 1997-07-31 | Hitachi Ltd | 対訳テキストの対応関係編集方法 |
Non-Patent Citations (4)
Title |
---|
Hajime UCHINO, et al. "Kikai Hon'yaku Jisho Kochiku Shien Tool"; NTT R & D, 10 December, 1997, Vol. 46, No. 12, pages 1425 - 1432 * |
Masahiko HARUNO, "Jisho to Tokei o Mochiita Taiyaku Alignment", Transactions of Information Processing Society of Japan, 15 April, 1997, Vol. 38, No. 4, pages 719 - 726 * |
Masahiko HARUNO, et al. "Jisho to Tokei o Mochiita Taiyaku Alignment", Information Processing Society of Japan Kenkyu Hokuku 96-NL-112-4, 15 March, 1996, Vol. 96, No. 27, pages 23 - 30 * |
Masahiko HARUNO, et al. "Taiyaku Text Kara Jisho o Jido Sakusei", Joho Shori, 15 April, 1999, Vol. 40, No. 4, pages 374 - 379 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009004723A1 (ja) * | 2007-07-04 | 2009-01-08 | Fujitsu Limited | 翻訳支援プログラム、翻訳支援装置および翻訳支援方法 |
US8214198B2 (en) | 2007-07-04 | 2012-07-03 | Fujitsu Limited | Translation supporting program, apparatus, and method |
JP5083317B2 (ja) * | 2007-07-04 | 2012-11-28 | 富士通株式会社 | 翻訳支援プログラム、翻訳支援装置および翻訳支援方法 |
Also Published As
Publication number | Publication date |
---|---|
US20060080080A1 (en) | 2006-04-13 |
US7308398B2 (en) | 2007-12-11 |
JP3943582B2 (ja) | 2007-07-11 |
JPWO2004107203A1 (ja) | 2006-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102257248B1 (ko) | 텍스트 표현 변환을 위한 잉크 | |
US10228850B2 (en) | Preview window including a storage context view of one or more computer resources | |
JP4148527B2 (ja) | 機能テスト・スクリプト生成装置 | |
JP4965623B2 (ja) | 所定のソフトウェアの実行パラメータを入力フィールドへ入力することを支援するための方法、システム、およびプログラム | |
JP5962277B2 (ja) | 文書関連付け装置及びプログラム | |
CN109783796A (zh) | 预测文本内容中的样式破坏 | |
JP4502615B2 (ja) | 類似文検索装置、類似文検索方法、およびプログラム | |
WO2017141893A1 (ja) | ソフトウェア分析装置及びソフトウェア分析方法 | |
US7308398B2 (en) | Translation correlation device | |
US20050183033A1 (en) | Apparatus and methods for displaying dialog box text messages including languages having different reading orders | |
JPWO2008108061A1 (ja) | 言語処理システム、言語処理方法、言語処理プログラムおよび記録媒体 | |
WO2006046665A1 (ja) | 文書処理装置及び文書処理方法 | |
JP6056489B2 (ja) | 翻訳支援プログラム、方法、および装置 | |
JP2019057137A (ja) | 情報処理装置及び情報処理プログラム | |
JP7247593B2 (ja) | 生成装置、ソフトウェアロボットシステム、生成方法及び生成プログラム | |
CN113919330A (zh) | 语种识别方法、信息分发方法以及设备、介质 | |
JP5123350B2 (ja) | テストケース作成システム、方法およびプログラム | |
JP5609718B2 (ja) | 入力支援プログラム,入力支援装置および入力支援方法 | |
JPH0778139A (ja) | コメント付与方法及び文書処理装置 | |
JP6419902B1 (ja) | プログラム比較方法、プログラム比較装置およびプログラム比較プログラム | |
WO2024189934A1 (ja) | 情報処理システム、情報処理装置、情報処理方法、およびプログラム | |
JP6475288B2 (ja) | プログラム比較方法、プログラム比較装置およびプログラム比較プログラム | |
JP5880168B2 (ja) | 入力支援プログラム、入力支援装置、及び入力支援方法 | |
JPH10134059A (ja) | Html文書処理装置及びhtml文書処理方法 | |
JP2019095848A (ja) | 文書処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AK | Designated states |
Kind code of ref document: A1 Designated state(s): JP US |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2005500235 Country of ref document: JP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 11289318 Country of ref document: US |
|
WWP | Wipo information: published in national office |
Ref document number: 11289318 Country of ref document: US |