WO2011161825A1 - 機械翻訳システム及び機械翻訳方法 - Google Patents
機械翻訳システム及び機械翻訳方法 Download PDFInfo
- Publication number
- WO2011161825A1 WO2011161825A1 PCT/JP2010/060882 JP2010060882W WO2011161825A1 WO 2011161825 A1 WO2011161825 A1 WO 2011161825A1 JP 2010060882 W JP2010060882 W JP 2010060882W WO 2011161825 A1 WO2011161825 A1 WO 2011161825A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- translation
- data
- image
- text
- translated
- Prior art date
Links
- 238000013519 translation Methods 0.000 title claims abstract description 266
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000012545 processing Methods 0.000 claims description 29
- 238000013500 data storage Methods 0.000 claims description 22
- 230000005540 biological transmission Effects 0.000 claims description 19
- 238000012800 visualization Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 44
- 230000014616 translation Effects 0.000 description 229
- 238000012986 modification Methods 0.000 description 36
- 230000004048 modification Effects 0.000 description 36
- 238000004891 communication Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013079 data visualisation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Definitions
- the present invention relates to a mechanism for mechanically translating a document, and particularly to a system for translating text displayed in a Web page in real time.
- Patent Document 1 As a device for mechanically translating text in a Web page, a device that translates a character portion in an image is known (for example, see Patent Document 1).
- the apparatus described in Patent Document 1 creates an image obtained by translating only a character portion of image data in which an image and a character are mixed in the following procedure. First, a portion (character region) where character data exists is specified from image data in which images and characters are mixed. Next, character data is extracted from the character region, and the extracted character data is converted into text data. Then, the text data is translated, the translation data is adjusted, and the text data is pasted. Finally, the character area to which the translation data is pasted is synthesized with the original image data (see the flowchart of FIG. 2 of the same document, the explanatory diagrams of FIGS. 3 to 10).
- a Web page is created in a predetermined language in advance, and the text in the Web page is translated into a user's language in real time using, for example, a machine translatable device. .
- an image is often placed on a Web page that provides a service, and the image often includes characters (110a in FIG. 1 (a), here, Japanese).
- the characters in the image are not translated simply by machine translation of only the text data (110b in FIG. 1B, here, English translation).
- characters in the image are also translated, so that it is possible to perform machine translation without impairing the appearance and layout of the Web page.
- the present invention has been made to solve the above-described problems, and can maintain the visual appearance of the translation target page before and after the translation process, and can speed up the translation process of the characters included in the image.
- An object is to provide a machine translation system, a machine translation method, a machine translation program, and a recording medium on which the machine translation program is recorded.
- the machine translation system is a machine translation system that translates a web page to be translated expressed in a predetermined language into another language and provides the translated web page.
- Web data storage means for storing HTML data describing the structure of the Web page and image data referenced by the HTML data
- translation data storage means for storing dictionary data used for text translation processing
- the HTML data includes a description of an image that includes characters and is visualized, a description of a background image that is set in a predetermined position corresponding to the display position of the image and is invisible without characters, and The display position is set in front of the predetermined position that overlaps the background image, and the description about the text in the predetermined language is made invisible.
- a translation request receiving means for receiving, from a terminal of a user who browses the web page, a translation request including a URL corresponding to the web page to be translated and a designation data designating a language to be translated, HTML data acquisition means for acquiring the HTML data describing the structure of the Web page corresponding to the URL included in the translation request from the Web data storage means; and the dictionary data stored by the translation data storage means
- HTML data acquisition means for translating the text included in the HTML data acquired by the HTML data acquisition means into the language of the translation destination corresponding to the specified data included in the translation request
- the HTML data acquisition means The invisible text included in the acquired HTML data and the Visualizing a scene image and making the visualized image included in the HTML data invisible, and the HTML acquired by the HTML data acquisition means using the text translated by the translation means
- the specified image data is read out from the Web data storage means, and the translated HTML data transmitting means reconstructs the data and transmits it to the terminal.
- Image data transmitting means for transmitting to the
- the visualization element switching unit changes the text color attribute of the text from transparent to colored, changes the display attribute of the area including the text from non-display to display, or deletes the comment tag sandwiching the tag of the area including the text. It is good to visualize the invisible text.
- the visualization element switching means changes the display attribute of the background image from non-display to display, changes the display attribute of the area including the background image from non-display to display, and inserts a tag corresponding to the background image
- the background image made invisible by deleting the tag may be visualized.
- the visualization element switching unit changes a display attribute of the image from display to non-display, deletes a tag corresponding to the image, sandwiches a tag corresponding to the image with a comment tag, and displays a region including the image
- the image visualized may be made invisible by changing the attribute from display to non-display or sandwiching a tag corresponding to a region including the image with a comment tag.
- the translated HTML data transmission means may change the reference URL of the HTML data acquired by the HTML data acquisition means to the URL of the Web page to be translated included in the translation request.
- the length of the text translated by the translation means may be corrected to be short.
- the machine translation method according to the present invention is a machine translation method by a machine translation system that translates text of a web page to be translated expressed in a predetermined language into another language and provides the translated web page.
- the machine translation system is used for text data translation processing for storing HTML data in which the structure of the web page to be translated is described and image data referenced by the HTML data, and text translation processing.
- the HTML data can be connected to a translation data storage means for storing dictionary data.
- the HTML data includes a description regarding an image including characters, a display position set at a predetermined position corresponding to the display position of the image, A description regarding the background image that is not included and the display position is set in front of a predetermined position overlapping the background image,
- the Web page includes a translation request including a description of text in a predetermined language that is visualized as a set, and the machine translation system includes a URL corresponding to the Web page to be translated and designation data designating a language to be translated.
- the HTML data acquired by the HTML data acquisition step is reconstructed using the text translated by the above, and the transmitted HTML data transmission step for transmitting to the terminal, and the transmission request designating the image data from the terminal
- the image data transmission step of reading the designated image data from the Web data storage means and transmitting it to the terminal is executed.
- machine translation program is configured as a program for causing each of the above-described machine translation systems to have one or more computers as functions.
- a recording medium is a computer-readable recording medium in which a program for causing each of the above-described machine translation systems to function as one or a plurality of computers is recorded. Configured as a medium.
- the reference position (URL) of an image that includes characters and is visualized is set in an area corresponding to the display position of the image, and the image is not visualized.
- HTML data including at least one set of reference data (URL) and text data of the background image is stored in the Web data storage means, and the image data and text data of the background image that has been made invisible in the translation process are converted into text.
- Visualization is performed such that the display position of the data is positioned in front of the display position of the background image, and the image data of the visualized image is made invisible.
- the web page is partially configured in three layers (visualized image layer that includes text, invisible image layer that does not include text, and invisible text layer). Since an image including characters can be displayed in front, the appearance is beautiful and the display speed is fast. Further, by switching the elements displayed in the translation process, when the Web page (HTML data) is subjected to machine translation, the background image and the translated text are displayed in the area where the image including the characters is displayed. It becomes like this. Therefore, it is possible to eliminate the phenomenon that the characters in the image are displayed as they are without being translated, and to maintain the visual appearance of the translation target page before and after the translation process.
- HTML data Web page
- the background image and the translated text are displayed in the area where the image including the characters is displayed. It becomes like this. Therefore, it is possible to eliminate the phenomenon that the characters in the image are displayed as they are without being translated, and to maintain the visual appearance of the translation target page before and after the translation process.
- (Conventional example) (a) Part of a Web page before translation, (b) Part of a Web page after translation. It is a figure which shows the structural example of the system which concerns on embodiment.
- (A-1) A part of the Web page before translation, (a-2) Invisible image data included in the Web page before translation, (a-3) Invisible text included in the Web page before translation It is a figure which shows a part of web page after data and (b) translation. It is a sequence chart which shows the machine translation procedure of the system shown in FIG. It is a figure which shows the main items of a translation request.
- (A) It is a figure which shows a part of HTML source before translation, (b) A part of HTML source after translation.
- Modification 1 (a) Part of a Web page before translation, (b) Part of a Web page after translation.
- Modification 2 (a-1) Part of a pre-translation Web page, (a-2) Invisible data of a pre-translation Web page, (b) Part of a post-translation Web page
- FIG. (Modification 1) (a) Part of HTML source before translation, (b) Part of HTML source after translation.
- Modification 1) It is a flowchart which shows the flow of a translation process.
- Modification 2) (a) Part of the HTML source before translation, (b) Part of the HTML source after translation.
- Modification 2 It is a flowchart which shows the flow of a translation process.
- ⁇ Definition> The meanings of the terms used in the following description are as defined below.
- Visualization a concept that includes a process for enabling the user to visually recognize the image.
- Invisibility A concept that includes a process of making the user invisible. For example, processing forms such as setting to non-display, setting to transparency, deleting an element, and commenting out an element are conceivable.
- the system according to the present embodiment allows a user who browses a web page to select a second language (specified) selected (selected) by the user for a portion displayed in the first language (predetermined language) in the web page.
- This is a system that provides a service (machine translation service) that translates into another language.
- a service machine translation service
- the system includes a web server 11 that provides web pages, a translation server 12 that performs translation processing, and a user terminal 20 that includes a web browser.
- the Web server 11 can be connected to a WebDB (Web data storage unit) 13 that stores at least HTML data describing the structure of a Web page and data (for example, image data) referred to by the HTML data.
- the translation server 12 can be connected to a translation DB (translation data storage means) 14 that stores at least dictionary data to be referred to in the machine translation processing of a Web page.
- the Web server 11 and the translation server 12 are configured as a general computer including a CPU, a ROM, a RAM, a hard disk, a communication device, and the like, and the user terminal 20 includes an operation unit that receives an operation from a user in addition to the above-described components, A display unit capable of displaying a Web page is provided.
- the dictionary data stored in the translation DB 14 includes data defining vocabulary and grammar, and models constructed by statistical learning techniques. Further, data defining a specific translation for a specific phrase may be stored.
- the Web DB 13 and the translation DB 14 are constructed in external storage devices connected to the Web server 11 and the translation server 12, respectively. However, if the stored information can be read, the Web server 11 or You may build in the memory
- the Web server 11 and the translation server 12 are connected to each other via a communication network (in this embodiment, a private network such as a LAN) to form a machine translation system 10. Further, the user terminal 20 can be connected to the Web server 11 and the translation server 12 via a communication network (in this embodiment, the Internet 30). Communication between the Web server 11, the translation server 12, and the user terminal 20 is controlled by the router 40.
- a communication network in this embodiment, a private network such as a LAN
- the user terminal 20 can be connected to the Web server 11 and the translation server 12 via a communication network (in this embodiment, the Internet 30). Communication between the Web server 11, the translation server 12, and the user terminal 20 is controlled by the router 40.
- the main features of the embodiment are the reference data (URL) of an image that includes characters and is visualized, and the display position is set in an area corresponding to the display position of the image, and is invisible without including characters.
- HTML data including at least one set of an image (background image) and text data is stored in the WebDB 13, and the background image data and text data that has been made invisible in the translation process are displayed with the display position of the text data being the background image data.
- the visualized image data is made invisible.
- the Web page is partially configured in a three-layer configuration (a layer of an image that is visualized and includes characters, a layer of a background image that is invisible and does not include characters, and a layer of an invisible text).
- a three-layer configuration a layer of an image that is visualized and includes characters, a layer of a background image that is invisible and does not include characters, and a layer of an invisible text.
- an image containing characters can be displayed, so that the appearance is beautiful and the display speed is fast.
- the Web page HTML data
- the background image and the translated text are displayed in the area where the image including the characters is displayed. It becomes like this. Therefore, it is possible to eliminate the phenomenon that the characters in the image are displayed as they are without being translated, and to maintain the visual appearance of the translation target page before and after the translation process.
- FIG. 3 shows a part of the web page before and after translation in the embodiment.
- a normal text 510a and an image 520 containing Japanese characters are displayed on the Web page before translation (FIG. 3 (a-1)).
- the web page before translation has an image 540 in which the display position is set in an area corresponding to the display position of the image 520 (or an area overlapping with the image 520) and is invisible without including characters ( FIG. 3 (a-2)).
- the display position is set in an area overlapping with the image 540 and the Japanese text data 530a is made invisible (FIG. 3 (a-3)).
- Fig. 5 shows the main items of translation request.
- the translation request includes “translation processing program URL”, “translation target web page URL”, “designated data of the first language (translation target web page language)”, and “second language (translation destination language)”. “Designated data” and “character code of text data” are included.
- an HTTP request having a URL parameter equal to or less than “URL of the Web page to be translated” is a translation request.
- Each item shown in FIG. 5 may be transmitted in other formats.
- the translation server 12 When the translation server 12 receives the translation request from the user terminal 20 (S510b, translation request receiving step), the translation server 12 requests the Web server 11 to transmit HTML data corresponding to the received “URL of the Web page to be translated” (S515b). ).
- the Web server 11 receives an HTML data transmission request from the translation server 12 (S515c)
- the Web server 11 reads or generates HTML data (pre-translation HTML data) corresponding to the received “translation target Web page URL” from the WebDB 13. And it transmits to the translation server 12 (S520c, HTML data acquisition step).
- the translation server 12 functions as a translation request reception unit and a translated HTML data transmission unit
- the Web server 11 functions as an HTML data acquisition unit and an image data transmission unit.
- FIG. 6A illustrates a part of HTML data before translation in the embodiment.
- the pre-translation HTML data includes image reference data 925a and 955a and Japanese text data 935a in addition to Japanese text data 915a.
- Some tags have a style set by a style sheet (CSS format).
- the text data 915a and the image reference data 925a correspond to the text 510a and the image 520 of the Web page before translation (FIG. 3A-1), respectively.
- the image reference data 955a and the text data 935a are converted into invisible image data 540 (FIG. 3 (a-2)) and text data 530a (FIG. 3 (a-3)) of the Web page before translation. Correspond.
- the image referred to by the image reference data 925a has a width of 840 pixels and a height of the predetermined area (width 840 pixels, height 120 pixels) with the top left vertex aligned with 0 pixels from the top and 0 pixels from the left. It is set to display at 120 pixels.
- the image referred to by the image reference data 955a is 840 pixels wide by aligning the upper left vertex at the position of 0 pixels from the top and 0 pixels from the left of the predetermined area (width 840 pixels, height 120 pixels). , Is set to be displayed at a height of 120 pixels. That is, the display position of the image is set to the same position as the image referred to by the reference data 925a. However, since the image corresponding to the reference data 955a is invisible (the display attribute value is set to hidden), the image cannot be viewed in the window of the Web browser.
- the text corresponding to the text data 935a is set to be displayed at a position of 30 pixels from above the predetermined area (width 840 pixels, height 120 pixels) (here, centering or the like). That is, the display position of the text is set to the same position as the image referred to by the reference data 955a. However, since the text corresponding to the text data 935a is invisible (the character color attribute value is set to transparent), the text cannot be viewed in the web browser window.
- the superposition order can be set, for example, depending on the value (numerical value) of the “z-index” attribute.
- the reference URL of HTML data is changed (S810). Specifically, the URL based on the URL of the reference data described in the relative URL format (for example, the value of the src attribute in the reference data 925a and 955a (FIG. 6A)) is set as a ⁇ base> tag. This is described in the absolute URL format as the value of the href attribute.
- the “URL of the Web page to be translated” included in the search request (FIG. 5) received from the user terminal 20 is set as the reference URL. If it is assumed that all URLs in the HTML data are described in the absolute URL format, the process of changing the reference URL may be omitted. The same effect can be obtained even if all URLs described in the relative URL format are individually rewritten in the absolute URL format.
- the size of the translated sentence is corrected (S840), and the extracted text data is replaced with the translated sentence (S850).
- the length of the translated sentence may be corrected after comparing the character string length before and after translation. Specifically, when the difference between the character string lengths before and after the translation is a predetermined value or more (a certain value or more), the length of the translated sentence is corrected to be shorter according to the difference.
- words that satisfy a predetermined condition may be extracted from the translated sentence and replaced with abbreviations generated by a predetermined method. In this case, it is preferable to separately generate a Web page on which the abbreviation definition is posted, and display a link to the Web page on which the abbreviation definition is posted on the translated Web page.
- [Procedure 34] It is determined whether or not the translated text data is the last text data that is the content of the element in the HTML data (S860). Specifically, the next text data which is the content of the element in the HTML data is searched, and when the next text data is not detected, it is determined that the text data translated immediately before is the last text data. . If it is not the last text data (No in S860), the process returns to the above [Procedure 32], and the extraction to replacement process ([Procedure 32] to [Procedure 33]) is repeated for the next text data. On the other hand, when it is the last text data (Yes in S860), the loop is exited.
- the image corresponding to the image reference data 955a (the background image that has been explicitly invisible) is explicitly visualized (the display attribute is changed from non-display to display). Then, all the images that overlap the translation or drawing visualized in the processes of S1070 and S1075 are made invisible (S1085, visualization element switching step). For example, in the example of FIG. 6A, the value of the class attribute of the “ ⁇ img>” tag whose class attribute value is “class_21” is changed to “class_22”. As a result, the image corresponding to the image reference data 925a (the image that has been explicitly visualized) is explicitly invisible (the display attribute is changed from display to non-display). Note that the visualization of the translation and / or the invisibility of the image may be performed by collectively applying the class attributes as described above, or may be performed individually for each corresponding tag.
- FIG. 6B illustrates a part of the translated HTML data in the embodiment.
- FIG. 6B is HTML data after the HTML data of FIG. 6A is translated by the process shown in the flowchart of FIG.
- the translated HTML data includes text data 915b in which text data 915a is translated into English, reference data 925b in which reference data 925a is invisible, reference data 955b in which reference data 955a is visualized, and text data 935a in English.
- the translated text data 935b is included. Further, a tag 945b that clearly indicates the reference URL is added. Text data 915b and text data 935b correspond to text 510b and text 530b of the translated Web page (FIG. 3B), respectively.
- the character size of the text data 915b is corrected to the normal 90% by the correction process (S840 in FIG. 7) of [Procedure 33]. There are no changes to the settings of other data, unless otherwise specified.
- the translation server 12 functions as a translation unit and a visualization element switching unit.
- the main feature of the first modification is that HTML data including at least one set of reference data (URL) of an image not including characters and text data in which a display position is set in front of an area overlapping the image is stored in the WebDB 13.
- HTML data including at least one set of reference data (URL) of an image not including characters and text data in which a display position is set in front of an area overlapping the image is stored in the WebDB 13.
- URL reference data
- HTML data Web page
- HTML data Web page
- HTML data Web page
- FIG. 8 shows a part of the web page before and after translation in Modification 1.
- an image 320 that does not include characters and a Japanese text 330a with a display position set in front of an area overlapping the image 320 are displayed on the Web page before translation.
- the translated web page displays a text 310b in which the text 310a is translated into English, an image 320 that does not change before and after translation, and a text 330b in which the text 330a is translated into English (FIG. 8B). )).
- the main feature of the modified example 2 is that at least one set of reference data (URL) of an image that includes characters and is visualized and text data that has a display position set in an area overlapping the image and is invisible.
- the HTML data to be included is stored in the WebDB 13 to visualize the invisible text data in the translation process and to make the visualized image data invisible.
- the Web page is partially configured in two layers (an image layer including characters and an invisible text layer), and the Web page (HTML) is changed by switching the layers displayed in the translation process.
- the translated text is displayed in an area where an image including characters is displayed. In this respect, the phenomenon that the characters in the image are displayed as they are without being translated is eliminated.
- FIG. 9 shows a part of the Web page before and after translation in Modification 2.
- a normal Japanese text 410a and an image 420 including characters are displayed on the Web page before translation (FIG. 9 (a-1)).
- the web page before translation has Japanese text data 430a whose display position is set in an area overlapping the image 420 and is invisible (FIG. 9 (a-2)).
- the translated web page displays a text 410b in which the text 410a is translated into English and a text 430b in which the text 430a is translated into English (FIG. 9B). Since the image 420 is invisible, it cannot be visually recognized in the translated web page.
- FIG. 10A illustrates a part of the pre-translation HTML data in the first modification.
- the HTML data before translation includes image reference data 720 and Japanese text data 730a in addition to Japanese text data 710a.
- Some tags have a style set by a style sheet (CSS format).
- the text data 710a, the image reference data 720, and the text data 730a correspond to the text 310a, the image 320, and the text 330a of the Web page before translation (FIG. 8A), respectively.
- the image referred to by the image reference data 720 has a width of 840 pixels and a height of the predetermined area (width 840 pixels, height 120 pixels) with the top left vertex aligned with 0 pixels from the top and 0 pixels from the left. It is set to display at 120 pixels.
- the text corresponding to the text data 730a is set so as to be normally displayed at a position of 30 pixels from the top of the predetermined area (width 840 pixels, height 120 pixels) (here, centering) etc). Therefore, the image and the text are displayed so as to overlap in the predetermined area.
- the elements in the Web page overlap in the HTML description order (elements described later are displayed in the foreground), so in the example of FIG. May be set.
- the superposition order can be set, for example, depending on the value (numerical value) of the “z-index” attribute.
- FIG. 10B illustrates a part of the translated HTML data in the first modification.
- FIG. 10B shows HTML data after the HTML data of FIG. 10A is translated by the process shown in the flowchart of FIG.
- the translated HTML data includes text data 710b in which text data 710a is translated into English, image reference data 720 that does not change before and after translation, and text data 730b in which text data 730a is translated into English. Further, a tag 740b that clearly indicates the reference URL is added.
- the text data 710b, the image reference data 720, and the text data 730b correspond to the text 310b, the image 320, and the text 330b of the translated Web page (FIG. 8B), respectively.
- the character size of the text data 710b is corrected to 90% of the normal size by the correction process (S840 in FIG. 11) of [Procedure 33].
- the other data settings are not particularly changed.
- FIG. 12A illustrates a part of the pre-translation HTML data in the second modification.
- the pre-translation HTML data includes image reference data 920a and Japanese text data 930a in addition to Japanese text data 910a. Some tags have a style set by a style sheet (CSS format).
- the text data 910a and the image reference data 920a correspond to the text 410a and the image 420 of the Web page before translation (FIG. 9A-1), respectively.
- the text data 930a corresponds to the invisible text data 430a (FIG. 9 (a-2)) included in the Web page before translation.
- the image referred to by the image reference data 920a has a width of 840 pixels and a height of the predetermined area (width 840 pixels, height 120 pixels) with the top left vertex aligned with the position of 0 pixels from the top and 0 pixels from the left. It is set to display at 120 pixels.
- the text corresponding to the text data 930a is set so as to be normally displayed at a position of 30 pixels from the top of the predetermined area (width 840 pixels, height 120 pixels) (here, centering) etc).
- the text corresponding to the text data 930a is invisible (the character color attribute value is set to transparent), it cannot be viewed in the window of the Web browser.
- the image corresponding to the image reference data 920a (the image that has been explicitly visualized) is explicitly invisible (the display attribute is changed from display to non-display).
- the visualization of the translation and / or the invisibility of the image may be performed by collectively applying the class attributes as described above, or may be performed individually for each corresponding tag.
- FIG. 12B illustrates a part of the translated HTML data in the second modification.
- FIG. 12B is HTML data after the HTML data of FIG. 12A is translated by the process shown in the flowchart of FIG.
- the translated HTML data includes text data 910b in which text data 910a is translated into English, reference data 920b in which reference data 920a is invisible, and text data 930b in which text data 930a is translated into English and visualized. ing. Further, a tag 940b that clearly indicates the reference URL is added. Text data 910b and text data 930b correspond to text 410b and text 430b of the translated Web page (FIG. 9B), respectively.
- the character size of the text data 910b is corrected to the normal 90% by the correction process (S840 in FIG. 13) of [Procedure 33]. There are no changes to the settings of other data, unless otherwise specified. [3-4.
- the machine translation system 10 is comprised by the web server 11 and the translation server 12 (FIG. 2).
- This is a configuration that specializes in a specific processing function for each hardware and achieves load distribution.
- the Web server 11 includes a Web DB 13 and a translation DB 14.
- the main body of the process of receiving the translation request from the user terminal 20, acquiring the HTML data to be translated, executing the translation process, and transmitting the translated HTML data and necessary image data is all the Web server 11. It becomes.
- the Web server 11 specializes in processing for transmitting HTML data or image data.
- the translation server 12 specializes in a process of receiving a translation request from the user terminal 20, generating translated HTML data, and transmitting it to the user terminal 20 (FIG. 4).
- the Web server 11 is in charge of the process of receiving a translation request from the user terminal 20 and the process of transmitting the translated HTML data to the user terminal 20, and the translation server 12 translates the Web page (FIG. 7).
- FIG. 11 and FIG. 13 may be configured to be specialized only for S810 to S860).
- invisibility is used as a concept including a process of making “not visible at all”.
- the user may be “almost invisible” by setting semi-transparency, increasing transparency, graying out, setting to a very light color (all RGB values are set to approximately 200 or more).
- all RGB values are set to approximately 200 or more.
- the same effect as “invisibility” may be obtained. Therefore, these processes are also substantially equivalent to “invisible”.
- the style is individually set for the HTML tag (FIG. 10).
- the style defined in the HTML source is applied to all tags with a specific class name (FIGS. 6 and 12).
- the style may be applied by referring to an external file described in a predetermined style sheet language (for example, CSS (Cascading Style Sheets)). Further, all styles may be set according to the attributes of the HTML tag.
- FIG. 16 shows an example of an HTML source before machine translation.
- the style sheet source file name “test.css”
- the display position of the text in the HTML data is set as illustrated in FIG. 20 according to the background image (file name “test.gif”) illustrated in FIG. In FIG. 20, the background is shown in gray so that the uppermost white character is clear.
- FIG. 18 shows a Web page display example in which the HTML source illustrated in FIG. 16 is read into a Web browser.
- an image including Japanese file name “first.gif”
- the background image illustrated in FIG. 19 and the text illustrated in FIG. 20 are invisible.
- the web page before translation is displayed only with images containing characters. So it looks beautiful and has a fast display speed.
- 21 to 23 show display examples after translation.
- 21 shows a display example translated into English
- FIG. 22 shows a display example translated into Chinese
- FIG. 23 shows a display example translated into Korean.
- the display examples shown in FIGS. 21 to 23 have sufficient expressiveness even when compared with images integrated with characters (FIG. 18), and the visual appearance is maintained before and after translation.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
- Processing Or Creating Images (AREA)
- Machine Translation (AREA)
Abstract
Description
以下の説明中で使用される用語の意義は、それぞれ次の定義の通りとする。
・機械翻訳…コンピュータ等を利用して人手を介さず自動的に行う翻訳。
・可視化…ユーザが視認できるようにする処理を包含する概念。
・不可視化…ユーザが視認できないようにする処理を包含する概念。例えば、非表示に設定する,透明に設定する,要素を削除する,要素をコメントアウトする等の処理形態が考えられる。
[1.実施形態の概要]
本実施形態の概要を、図2~図7を参照して説明する。本実施形態のシステムは、Webページを閲覧するユーザに対し、Webページ内に第1の言語(所定の言語)で表示されている部分を、各ユーザが指定(選択)した第2の言語(他の言語)に翻訳するサービス(機械翻訳サービス)を提供するシステムである。なお、以下の説明では、Webページ内の日本語の部分を英語に翻訳する例を用いている。
図2に示すように、本実施形態のシステムは、全体として、Webページを提供するWebサーバ11,翻訳処理を行う翻訳サーバ12及びWebブラウザを有するユーザ端末20により構成される。Webサーバ11は、Webページの構造を記述するHTMLデータ及び当該HTMLデータが参照するデータ(例えば、画像データ)を少なくとも記憶するWebDB(Webデータ記憶手段)13に接続可能である。一方、翻訳サーバ12は、Webページの機械翻訳処理において参照する辞書データを少なくとも記憶する翻訳DB(翻訳データ記憶手段)14に接続可能である。
実施形態の主要な特徴は、文字を含み可視化されている画像の参照データ(URL)と、当該画像の表示位置に対応する領域に表示位置が設定され、かつ文字を含まず不可視化されている画像(背景画像)及びテキストデータとを少なくとも1組含むHTMLデータをWebDB13に記憶しておき、翻訳処理において当該不可視化されていた背景画像データ及びテキストデータを、テキストデータの表示位置が背景画像の表示位置よりも手前に位置するようにして可視化するとともに、当該可視化されていた画像データを不可視化する点にある。
[2-1.機械翻訳手順の概要]
本実施形態のシステムによる機械翻訳処理の流れ及びデータの流れを、図4のシーケンスチャートを参照して簡単に説明する。図4に示すように、機械翻訳システム10を構成するWebサーバ11及び翻訳サーバ12は、下記〔手順1〕~〔手順4〕によりユーザ端末20に翻訳後のWebページを表示させる。なお、図4のシーケンスチャートには、参照する他の図面の番号が付記されている。また、手順1の実行前に、Webサーバ11により、Webページの構造を記述するHTMLデータ及び当該HTMLデータにより参照されるデータがWebDB13に記憶され、翻訳サーバ12により、Webページの機械翻訳処理において参照される辞書データが翻訳DB14に記憶されているものとする。
前提として、ユーザ端末20は、Webサーバ11から提供されたWebページを表示しているものとし(S505a)、当該Webページを翻訳対象のWebページとする(図3(a-1))。また、翻訳対象のWebページには、翻訳後の言語を選択し翻訳を要求するための要素(例えば、プルダウン,ラジオボタン,プルダウン又はラジオボタンとボタン又は画像又はリンクとの組)が表示されているものとする。翻訳対象のWebページにおいてユーザが翻訳後の言語を指定(選択)し、翻訳を要求する所定の操作を行うと、ユーザ端末20は、翻訳サーバ12にWebページの翻訳を要求する(S510a)。
翻訳サーバ12は、ユーザ端末20から翻訳要求を受信する(S510b,翻訳要求受信ステップ)と、受信した「翻訳対象WebページのURL」に対応するHTMLデータの送信をWebサーバ11に要求する(S515b)。Webサーバ11は、翻訳サーバ12からHTMLデータの送信要求を受信する(S515c)と、受信した「翻訳対象WebページのURL」に対応するHTMLデータ(翻訳前のHTMLデータ)をWebDB13より読み出し又は生成して、翻訳サーバ12に送信する(S520c,HTMLデータ取得ステップ)。
翻訳サーバ12は、Webサーバ11から翻訳前のHTMLデータを受信する(S520b)と、受信した翻訳前のHTMLデータを対象として機械翻訳処理を実行し、翻訳後のHTMLデータすなわち再構成されたHTMLデータをユーザ端末20に送信する(S525b,翻訳済HTMLデータ送信ステップ)。なお、機械翻訳処理の流れ及び翻訳前後のHTMLデータについては、別に項目を設けて詳細に説明する(後述の図6,7参照)。
ユーザ端末20は、翻訳サーバ12から翻訳後のHTMLデータを受信する(S525a)と、受信したHTMLデータを解釈して画像なしのWebページを表示する(S530a)とともに、当該HTMLデータが参照している画像データの送信をWebサーバ11に要求する(S535a)。Webサーバ11は、画像データの送信要求を受信する(S535c)と、指定された画像データをWebDB13より読み出し、ユーザ端末20に送信する(S540c,画像データ送信ステップ)。ユーザ端末20は、Webサーバ11から画像データを受信する(S540a)と、既に表示されているWebページ内の所定の位置に画像を追加表示する(S545a)。表示完了後のWebページは、前述のとおりである(図3(b))。
[(a)翻訳前のHTMLデータ]
図6(a)に、実施形態における翻訳前のHTMLデータの一部を例示する。翻訳前のHTMLデータには、日本語のテキストデータ915aの他に、画像の参照データ925a,955aと、日本語のテキストデータ935aとが含まれている。また、いくつかのタグには、スタイルシート(CSS形式)によりスタイルが設定されている。テキストデータ915a,画像の参照データ925aは、それぞれ翻訳前のWebページ(図3(a-1))のテキスト510a,画像520に対応する。また、画像の参照データ955a,テキストデータ935aは、翻訳前のWebページが有する不可視化された画像データ540(図3(a-2)),テキストデータ530a(図3(a-3))に対応する。
実施形態における翻訳処理の流れを、図7のフローチャートを参照して詳細に説明する。図7に示すように、翻訳サーバ12は、下記〔手順31〕~〔手順34〕によりHTMLデータを翻訳する。
HTMLデータの基準URLを変更する(S810)。具体的には、相対URL形式で記述された参照データ等(例えば、参照データ925a,955a(図6(a))中のsrc属性の値)のURLが基準とするURLを、<base>タグのhref属性の値として絶対URL形式で記述する。ここでは、ユーザ端末20から受信した検索要求(図5)に含まれる「翻訳対象WebページのURL」を基準URLとする。なお、HTMLデータ内のURLが全て絶対URL形式で記述されているという前提であれば、基準URLを変更する処理を省略してもよい。また、相対URL形式で記述された全てのURLを個別に絶対URL形式に書き換えても同一の効果を得ることができる。
HTMLデータ内で要素(エレメント)の内容(コンテンツ)となっているテキストデータを1つ抽出し(S820)、抽出したテキストデータ(原文)を「第1言語」から「第2言語」へと翻訳して翻訳文を生成する(S830,翻訳ステップ)。なお、翻訳サーバ12は、テキストの翻訳に当たり翻訳DB14に記憶している辞書データを参照する。
必要に応じて翻訳文のサイズを補正し(S840)、抽出したテキストデータを翻訳文に置換する(S850)。例えば、翻訳前後の文字列長を比較した上で翻訳文の長さを補正するとよい。具体的には、翻訳前後の文字列長の差分が所定の値以上(一定値以上)の場合には、差分に応じて翻訳文の長さを短く補正する。なお、所定の条件を満たす語句を翻訳文中から抽出し、所定の方法により生成した省略語に置換してもよい。この場合、省略語の定義を掲載したWebページを別途生成した上で、翻訳後のWebページには省略語の定義を掲載したWebページへのリンクを表示するとよい。また、省略語にポインタを合わせたときに省略対象語句がポップアップ表示されるように構成してもよい。
翻訳したテキストデータが、HTMLデータ内で要素の内容となっている最後のテキストデータか否かを判定する(S860)。具体的には、HTMLデータ内で要素の内容となっている次のテキストデータを検索し、次のテキストデータが検出されないときに、直前に翻訳したテキストデータが最後のテキストデータであると判定する。最後のテキストデータでないとき(S860でNo)、上記〔手順32〕に戻り、次のテキストデータについて抽出~置換の処理(〔手順32〕~〔手順33〕)を繰り返す。一方、最後のテキストデータであるとき(S860でYes)、ループを抜ける。
不可視化されている全ての翻訳文を可視化する(S1070,可視化要素切替ステップ)とともに、不可視化されている全ての画像を可視化する(S1075,可視化要素切替ステップ)。例えば、図6(a)の例では、class属性の値が「class_11」である「<div>」タグのclass属性を削除する。これにより、テキストデータ935aに対応するテキスト(明示的に不可視化されていたテキスト)は、英語に翻訳された状態で親要素の属性を継承して可視化される(文字色属性が透明から有色に変更される)。また、class属性の値が「class_22」である「<img>」タグのclass属性の値を「class_21」に変更する。これにより、画像の参照データ955aに対応する画像(明示的に不可視化されていた背景画像)は、明示的に可視化される(表示属性が非表示から表示に変更される)。そして、S1070,S1075の処理で可視化された翻訳文又は図面と重なる全ての画像を不可視化する(S1085,可視化要素切替ステップ)。例えば、図6(a)の例では、class属性の値が「class_21」である「<img>」タグのclass属性の値を「class_22」に変更する。これにより、画像の参照データ925aに対応する画像(明示的に可視化されていた画像)は、明示的に不可視化される(表示属性が表示から非表示に変更される)。なお、翻訳文の可視化及び/又は画像の不可視化は、上記のようにクラス属性を一括で適用して行ってもよいし、該当するタグごとに個別に行ってもよい。
図6(b)に、実施形態における翻訳後のHTMLデータの一部を例示する。図6(b)は、図6(a)のHTMLデータを図7のフローチャートに示す処理により翻訳した後のHTMLデータである。
[3-1.変形例の概要]
以下、2つの変形例を説明する。なお、変形例1,2のシステムは、実施形態のシステムと同様に構成されており、機械翻訳処理の流れ及び翻訳前後のHTMLデータのみが相違する。よって、以下では説明理解の容易性を考慮して相違点を中心に説明する。
変形例1の主要な特徴は、文字を含まない画像の参照データ(URL)と、当該画像に重なる領域の前面に表示位置が設定されたテキストデータとの組を少なくとも1組含むHTMLデータをWebDB13に記憶しておく点にある。このように、Webページを部分的に2層構成(文字を含まない画像のレイヤ及びテキストのレイヤ)にしておくことにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含まない画像に重なる領域の前面に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示される事象が解消される。
変形例2の主要な特徴は、文字を含み可視化されている画像の参照データ(URL)と、当該画像に重なる領域に表示位置が設定され、かつ不可視化されているテキストデータとを少なくとも1組含むHTMLデータをWebDB13に記憶しておき、翻訳処理において当該不可視化されているテキストデータを可視化するとともに、当該可視化されている画像データを不可視化する点にある。このように、Webページを部分的に2層構成(文字を含む画像のレイヤ及び不可視化されたテキストのレイヤ)にしておき、翻訳処理において表示されるレイヤを切り替えることにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示される事象が解消される。
変形例のシステムによる機械翻訳処理の流れ及びデータの流れは、実施形態のシステムによる機械翻訳処理の流れ及びデータの流れと同様である(図4)。また、翻訳要求の主要な項目についても同様である(図5)。
[(a)翻訳前のHTMLデータ]
図10(a)に、変形例1における翻訳前のHTMLデータの一部を例示する。翻訳前のHTMLデータには、日本語のテキストデータ710aの他に、画像の参照データ720と、日本語のテキストデータ730aとが含まれている。また、いくつかのタグには、スタイルシート(CSS形式)によりスタイルが設定されている。テキストデータ710a,画像の参照データ720,テキストデータ730aは、それぞれ翻訳前のWebページ(図8(a))のテキスト310a,画像320,テキスト330aに対応する。
変形例1における翻訳処理の流れを、図11のフローチャートで示す。なお、図11のフローチャートにおいて、図7のフローチャートに示した処理と同一の符号が付されている処理は、同一の処理を示す。図11に示すように、翻訳サーバ12は、上記〔手順31〕~〔手順34〕(実施形態と同様)によりHTMLデータを翻訳する。
図10(b)に、変形例1における翻訳後のHTMLデータの一部を例示する。図10(b)は、図10(a)のHTMLデータを図11のフローチャートに示す処理により翻訳した後のHTMLデータである。
[(a)翻訳前のHTMLデータ]
図12(a)に、変形例2における翻訳前のHTMLデータの一部を例示する。翻訳前のHTMLデータには、日本語のテキストデータ910aの他に、画像の参照データ920aと、日本語のテキストデータ930aとが含まれている。また、いくつかのタグには、スタイルシート(CSS形式)によりスタイルが設定されている。テキストデータ910a,画像の参照データ920aは、それぞれ翻訳前のWebページ(図9(a-1))のテキスト410a,画像420に対応する。また、テキストデータ930aは、翻訳前のWebページが有する不可視化されたテキストデータ430a(図9(a-2))に対応する。
変形例2における翻訳処理の流れを、図13のフローチャートを参照して説明する。図13に示すように、翻訳サーバ12は、上記〔手順31〕~〔手順34〕(実施形態及び変形例1と同様)に加え、下記〔手順36〕によりHTMLデータを翻訳する。なお、図13のフローチャートにおいて、図7のフローチャートに示した処理と同一の符号が付されている処理は、同一の処理を示す。
不可視化されている全ての翻訳文を可視化する(S1070)とともに、可視化した翻訳文と重なる全ての画像を不可視化する(S1080)。例えば、図12(a)の例では、class属性の値が「class_11」である「<div>」タグのclass属性を削除する。これにより、テキストデータ930aに対応するテキスト(明示的に不可視化されていたテキスト)は、親要素の属性を継承して可視化される(文字色属性が透明から有色に変更される)。また、class属性の値が「class_21」である「<img>」タグのclass属性の値を「class_22」に変更する。これにより、画像の参照データ920aに対応する画像(明示的に可視化されていた画像)は、明示的に不可視化される(表示属性が表示から非表示に変更される)。なお、翻訳文の可視化及び/又は画像の不可視化は、上記のようにクラス属性を一括で適用して行ってもよいし、該当するタグごとに個別に行ってもよい。
図12(b)に、変形例2における翻訳後のHTMLデータの一部を例示する。図12(b)は、図12(a)のHTMLデータを図13のフローチャートに示す処理により翻訳した後のHTMLデータである。
[3-4.システム構成の変形例]
[(a)翻訳サーバが遠隔地にある構成]
上述の実施形態及び変形例では、Webサーバ11と翻訳サーバ12とをLAN等のプライベートネットワークを介して接続している(図2)。これは、両サーバが同一の事業者の管理下にあることを想定した構成である。これに対し、図14に示すように、Webサーバ11と翻訳サーバ12とをインターネット30等のパブリックネットワークを介して接続してもよい。これは、Webサーバ11又は翻訳サーバ12が遠隔地(例えば、他の事業所,遠隔地のデータセンター,他の事業者の管理下等)にあることを想定した構成である。
上述の実施形態及び変形例では、Webサーバ11と翻訳サーバ12とにより機械翻訳システム10を構成している(図2)。これは、ハードウェアごとに特定の処理機能に特化し、負荷分散を図った構成である。これに対し、機械翻訳処理の全てのステップをWebサーバ11が実行するように構成してもよい。この場合、図15に示すように、Webサーバ11はWebDB13と翻訳DB14とを有する。また、ユーザ端末20から翻訳要求を受信して、翻訳対象のHTMLデータを取得し、翻訳処理を実行し、翻訳後のHTMLデータ及び必要な画像データを送信する処理の主体は、全てWebサーバ11となる。
上述の実施形態及び変形例では、Webサーバ11はHTMLデータ又は画像データを送信する処理に特化している。同様に、翻訳サーバ12はユーザ端末20から翻訳要求を受信して翻訳後のHTMLデータを生成し、ユーザ端末20に送信する処理に特化している(図4)。これに対し、ユーザ端末20から翻訳要求を受信する処理及び翻訳後のHTMLデータをユーザ端末20に送信する処理をWebサーバ11が担当することとし、翻訳サーバ12はWebページの翻訳処理(図7,図11,図13のS810~S860)のみに特化するように構成してもよい。
上述の実施形態及び変形例では、機械翻訳システム又は機械翻訳方法について説明したが、本発明は、上記の機械翻訳システムが備える各手段を1又は複数のコンピュータに機能として実現させるための機械翻訳プログラムとして提供されてもよい。この機械翻訳プログラムは、例えば、メインモジュールの他、各手段にそれぞれ対応するモジュールを備えて構成される。また、機械翻訳プログラムは、ROM等の記録媒体又は半導体メモリ等によって提供される。また、機械翻訳プログラムは、データ信号としてネットワークを介して提供されてもよい。
[3-7.スタイル設定の変形例]
[(a)不可視化されているテキストの可視化の変形例]
不可視化されているテキストを可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素のvisibility属性(表示属性)を「hidden」から「visible」(デフォルト)に変更する。
・テキストデータそのもの又は該テキストデータを内容とする要素全体を挟んでいるコメントタグを削除する。
不可視化されている画像を可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素のvisibility属性(表示属性)を「visible」(デフォルト)から「hidden」に変更する。
・画像データそのもの又は該画像データを内容とする要素全体を挟んでいるコメントタグを削除する。
・<div>要素又は<img>タグのdisplay属性(表示形式)を「none」から「block」に変更する。
[(c)可視化されている画像の不可視化の変形例]
可視化されている画像を不可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素全体又は<img>タグをコメントタグで挟む(コメントアウトする)。
・<div>要素全体又は<img>タグを削除する。
・<div>要素のvisibility属性(表示属性)を「visible」(デフォルト)から「hidden」に変更する。
・<div>要素又は<img>タグのdisplay属性(表示形式)を「none」に変更する。
上述の実施形態及び変形例2では、不可視化という用語を、「全く視認できない」ようにする処理を包含する概念として用いている。これに対し、半透明に設定する,透過性を高める,グレイアウトする,極めて薄い色に設定する(RGBの各値をいずれも概ね200以上に設定する)等、ユーザが「殆ど視認できない」ようにする処理によっても、「不可視化」と同様の効果を奏する場合がある。したがって、これらの処理も「不可視化」と実質的に等価である。
上述の変形例1では、HTMLのタグに個別にスタイルを設定している(図10)。また、上述の実施形態及び変形例2では、HTMLソース内で定義したスタイルを特定のクラス名が付された全てのタグに適用するようにしている(図6,図12)。これに対し、所定のスタイルシート言語(例えば、CSS(Cascading Style Sheets))で記述した外部ファイルを参照することによりスタイルを適用してもよい。また、スタイルを全てHTMLタグの属性により設定してもよい。
以下では日本語のWebページを他の言語(英語、中国語又は韓国語)に翻訳する場合を一例として説明する。図16に機械翻訳前におけるHTMLのソースの例を示す。図16に例示するHTMLのソースでは、図17に例示するスタイルシートのソース(ファイル名「test.css」)が関連付けされている。HTMLデータ中のテキストの表示位置は、図19に例示する背景画像(ファイル名「test.gif」)に合わせて、図20に例示するようにそれぞれ設定されている。なお、図20は、最上部の白色文字が明確になるように背景を灰色にして示した。
11 Webサーバ
12 翻訳サーバ
13 WebDB
14 翻訳DB
20 ユーザ端末
30 インターネット
40 ルータ
Claims (9)
- 所定の言語で表現された翻訳対象のWebページを他の言語へ翻訳し、翻訳された前記Webページを提供する機械翻訳システムであって、
翻訳対象の前記Webページの構造が記述されたHTMLデータ及び該HTMLデータにより参照される画像データを記憶するWebデータ記憶手段と、
テキストの翻訳処理に利用される辞書データを記憶する翻訳データ記憶手段と
に接続可能であり、
前記HTMLデータは、文字を含み可視化された画像に関する記述、該画像の表示位置と対応する所定位置に表示位置が設定され、文字を含まず不可視化された背景画像に関する記述、及び、該背景画像に重なる所定位置の前面に表示位置が設定され、不可視化された所定の言語のテキストに関する記述を組として含み、
翻訳対象の前記Webページに対応するURL及び翻訳先の言語を指定する指定データを含む翻訳要求を、前記Webページを閲覧するユーザの端末から受信する翻訳要求受信手段と、
前記翻訳要求に含まれる前記URLに対応する前記Webページの構造が記述された前記HTMLデータを前記Webデータ記憶手段から取得するHTMLデータ取得手段と、
前記翻訳データ記憶手段により記憶された前記辞書データを参照して、前記HTMLデータ取得手段により取得された前記HTMLデータに含まれるテキストを前記翻訳要求に含まれる前記指定データに対応する翻訳先の言語へ翻訳する翻訳手段と、
前記HTMLデータ取得手段により取得された前記HTMLデータに含まれる不可視化されたテキスト及び前記背景画像を可視化するとともに、該HTMLデータに含まれる可視化された前記画像を不可視化する可視化要素切替手段と、
前記翻訳手段により翻訳されたテキストを用いて前記HTMLデータ取得手段により取得された前記HTMLデータを再構成し、前記端末に送信する翻訳済HTMLデータ送信手段と、
前記端末からの前記画像データを指定した送信要求に応じて、指定された前記画像データを前記Webデータ記憶手段から読み出して該端末に送信する画像データ送信手段と
を備えることを特徴とする機械翻訳システム。 - 前記可視化要素切替手段は、テキストの文字色属性を透明から有色に変更し、テキストを含む領域の表示属性を非表示から表示に変更し又はテキストを含む領域のタグを挟むコメントタグを削除する、ことにより不可視化されたテキストを可視化する請求項1に記載の機械翻訳システム。
- 前記可視化要素切替手段は、前記背景画像の表示属性を非表示から表示に変更し、前記背景画像を含む領域の表示属性を非表示から表示に変更し、前記背景画像に対応するタグを挟むコメントタグを削除する、ことにより不可視化された前記背景画像を可視化する請求項1又は2に記載の機械翻訳システム。
- 前記可視化要素切替手段は、前記画像の表示属性を表示から非表示に変更し、前記画像に対応するタグを削除し、前記画像に対応するタグをコメントタグで挟み、前記画像を含む領域の表示属性を表示から非表示に変更し又は前記画像を含む領域に対応するタグをコメントタグで挟む、ことにより可視化された前記画像を不可視化する請求項1~3の何れか一項に記載の機械翻訳システム。
- 前記翻訳済HTMLデータ送信手段は、前記HTMLデータ取得手段により取得された前記HTMLデータの基準URLを、前記翻訳要求に含まれる翻訳対象の前記Webページの前記URLに変更する請求項1~4の何れか一項に記載の機械翻訳システム。
- 前記翻訳済HTMLデータ送信手段は、前記翻訳手段により翻訳されたテキストの長さが前記HTMLデータ取得手段により取得された前記HTMLデータに含まれる所定のテキストの長さと比較して一定値以上長い場合には、前記翻訳手段により翻訳されたテキストの長さを短く補正する請求項1~5の何れか一項に記載の機械翻訳システム。
- 所定の言語で表現された翻訳対象のWebページのテキストを他の言語へ翻訳し、翻訳された前記Webページを提供する機械翻訳システムによる機械翻訳方法であって、
前記機械翻訳システムは、翻訳対象の前記Webページの構造が記述されたHTMLデータ及び該HTMLデータにより参照される画像データを記憶するWebデータ記憶手段と、
テキストの翻訳処理に利用される辞書データを記憶する翻訳データ記憶手段と
に接続可能であり、
前記HTMLデータは、文字を含み可視化された画像に関する記述、該画像の表示位置と対応する所定位置に表示位置が設定され、文字を含まず不可視化された背景画像に関する記述、及び、該背景画像に重なる所定位置の前面に表示位置が設定され、不可視化された所定の言語のテキストに関する記述を組として含み、
前記機械翻訳システムが、
翻訳対象の前記Webページに対応するURL及び翻訳先の言語を指定する指定データを含む翻訳要求を、前記Webページを閲覧するユーザの端末から受信する翻訳要求受信ステップと、
前記翻訳要求に含まれる前記URLに対応する前記Webページの構造が記述された前記HTMLデータを前記Webデータ記憶手段から取得するHTMLデータ取得ステップと、
前記翻訳データ記憶手段により記憶された前記辞書データを参照して、前記HTMLデータ取得ステップにより取得された前記HTMLデータに含まれるテキストを前記翻訳要求に含まれる前記指定データに対応する翻訳先の言語へ翻訳する翻訳ステップと、
前記HTMLデータ取得ステップにより取得された前記HTMLデータに含まれる不可視化されたテキスト及び前記背景画像を可視化するとともに、該HTMLデータに含まれる可視化された前記画像を不可視化する可視化要素切替ステップと、
前記翻訳ステップにより翻訳されたテキストを用いて前記HTMLデータ取得ステップにより取得された前記HTMLデータを再構成し、前記端末に送信する翻訳済HTMLデータ送信ステップと、
前記端末からの前記画像データを指定した送信要求に応じて、指定された前記画像データを前記Webデータ記憶手段から読み出して該端末に送信する画像データ送信ステップと
を実行することを特徴とする機械翻訳方法。 - 請求項1~6のいずれかに記載の機械翻訳システムが備える各手段を1又は複数のコンピュータに機能として実現させるための機械翻訳プログラム。
- コンピュータにより読み取り可能な記録媒体であって、
請求項1~6のいずれかに記載の機械翻訳システムが備える各手段を1又は複数のコンピュータに機能として実現させるための機械翻訳プログラムを記録した記録媒体。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010542860A JP4658236B1 (ja) | 2010-06-25 | 2010-06-25 | 機械翻訳システム及び機械翻訳方法 |
CN201080067673.9A CN102959537B (zh) | 2010-06-25 | 2010-06-25 | 机器翻译系统及机器翻译方法 |
PCT/JP2010/060882 WO2011161825A1 (ja) | 2010-06-25 | 2010-06-25 | 機械翻訳システム及び機械翻訳方法 |
US13/806,594 US9053077B2 (en) | 2010-06-25 | 2010-06-25 | Machine translation of a web page having an image containing characters |
KR1020137001443A KR101388394B1 (ko) | 2010-06-25 | 2010-06-25 | 기계 번역 시스템, 기계 번역 방법 및 기록 매체 |
CA2803861A CA2803861C (en) | 2010-06-25 | 2010-06-25 | Machine translation system and method of machine translation |
EP10853685.5A EP2587388A4 (en) | 2010-06-25 | 2010-06-25 | Machine translation system and method of machine translation |
TW100122290A TWI421710B (zh) | 2010-06-25 | 2011-06-24 | Mechanical translation systems, mechanical translation methods, mechanical translation programs and recording media with mechanical translations |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/060882 WO2011161825A1 (ja) | 2010-06-25 | 2010-06-25 | 機械翻訳システム及び機械翻訳方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011161825A1 true WO2011161825A1 (ja) | 2011-12-29 |
Family
ID=43952786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2010/060882 WO2011161825A1 (ja) | 2010-06-25 | 2010-06-25 | 機械翻訳システム及び機械翻訳方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US9053077B2 (ja) |
EP (1) | EP2587388A4 (ja) |
JP (1) | JP4658236B1 (ja) |
KR (1) | KR101388394B1 (ja) |
CN (1) | CN102959537B (ja) |
CA (1) | CA2803861C (ja) |
TW (1) | TWI421710B (ja) |
WO (1) | WO2011161825A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2680159B1 (en) | 2010-07-13 | 2020-01-15 | Motionpoint Corporation | Dynamic language translation of a message |
CN103493042B (zh) * | 2011-04-28 | 2016-04-06 | 乐天株式会社 | 浏览系统、图像服务器、及图像服务器执行的方法 |
JP5606385B2 (ja) | 2011-04-28 | 2014-10-15 | 楽天株式会社 | サーバ装置、サーバ装置の制御方法、及び、プログラム |
JP5708419B2 (ja) * | 2011-09-29 | 2015-04-30 | フリュー株式会社 | 画像表示システム、学習システム、画像表示方法、および制御プログラム |
US9690783B2 (en) * | 2013-03-29 | 2017-06-27 | Rakuten, Inc. | Image conversion and method for converting text in an image into a targeted language |
US9977684B2 (en) | 2013-06-12 | 2018-05-22 | Sap Se | Self-learning localization service |
JP2015069365A (ja) * | 2013-09-27 | 2015-04-13 | シャープ株式会社 | 情報処理装置、および制御プログラム |
SG11202008173QA (en) * | 2018-02-26 | 2020-09-29 | Loveland Co Ltd | Webpage translation system, webpage translation apparatus, webpage providing apparatus, and webpage translation method |
CN110047488B (zh) * | 2019-03-01 | 2022-04-12 | 北京彩云环太平洋科技有限公司 | 语音翻译方法、装置、设备及控制设备 |
US11347381B2 (en) * | 2019-06-13 | 2022-05-31 | International Business Machines Corporation | Dynamic synchronized image text localization |
US11373048B2 (en) * | 2019-09-11 | 2022-06-28 | International Business Machines Corporation | Translation of multi-format embedded files |
US11443122B2 (en) * | 2020-03-03 | 2022-09-13 | Dell Products L.P. | Image analysis-based adaptation techniques for localization of content presentation |
US11494567B2 (en) * | 2020-03-03 | 2022-11-08 | Dell Products L.P. | Content adaptation techniques for localization of content presentation |
US11687626B2 (en) | 2020-06-17 | 2023-06-27 | Capital One Services, Llc | System and method for securing a browser against font usage fingerprinting |
CN111783482A (zh) * | 2020-07-06 | 2020-10-16 | 南京百家云科技有限公司 | 一种文本翻译方法、装置、计算机设备及存储介质 |
TWI807467B (zh) * | 2021-11-02 | 2023-07-01 | 中國信託商業銀行股份有限公司 | 要項偵測模型建立方法、業務導向要項鍵值辨識系統及方法 |
KR102816455B1 (ko) * | 2021-12-31 | 2025-06-11 | 카페24 주식회사 | 적응적 이미지 텍스트 변환 방법, 장치 및 시스템 |
CN114330382A (zh) * | 2021-12-31 | 2022-04-12 | 奇安信科技集团股份有限公司 | 应用程序的国际化处理方法、装置、计算设备及存储介质 |
KR102654947B1 (ko) * | 2023-07-17 | 2024-04-05 | 주식회사 페이브 | 다국어 웹사이트 콘텐츠를 생성하는 방법 및 전자 장치 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003122751A (ja) | 2001-10-12 | 2003-04-25 | Alps Electric Co Ltd | 翻訳装置 |
JP2003157272A (ja) * | 2001-11-21 | 2003-05-30 | Kyodo Printing Co Ltd | 翻訳出版物提供システム及びその方法 |
JP2007026398A (ja) * | 2005-07-11 | 2007-02-01 | Kodensha Co Ltd | 画像情報または音声情報を含む文書データ翻訳システム |
JP2010157066A (ja) * | 2008-12-26 | 2010-07-15 | Rakuten Inc | 機械翻訳システム及び機械翻訳方法 |
JP2010157065A (ja) * | 2008-12-26 | 2010-07-15 | Rakuten Inc | 機械翻訳システム及び機械翻訳方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040205671A1 (en) * | 2000-09-13 | 2004-10-14 | Tatsuya Sukehiro | Natural-language processing system |
US20040111272A1 (en) * | 2002-12-10 | 2004-06-10 | International Business Machines Corporation | Multimodal speech-to-speech language translation and display |
WO2005086021A2 (en) * | 2004-03-02 | 2005-09-15 | Melingo, Ltd. | Embedded translation document method and system |
CN1333361C (zh) * | 2004-06-30 | 2007-08-22 | 高庆狮 | 提高文字、语音识别的准确率的方法和装置及自动翻译系统 |
JP4473702B2 (ja) * | 2004-11-02 | 2010-06-02 | 株式会社東芝 | 機械翻訳システム、機械翻訳方法及びプログラム |
JP4263181B2 (ja) * | 2005-03-28 | 2009-05-13 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
JP2008084286A (ja) | 2006-09-01 | 2008-04-10 | Toshiba Corp | 電子漫画配信サーバ、および翻訳電子漫画作成装置 |
TW200933393A (en) | 2008-01-25 | 2009-08-01 | Inventec Corp | Translating system and method of dynamic web page |
SG174407A1 (en) * | 2009-03-18 | 2011-10-28 | Google Inc | Web translation with display replacement |
-
2010
- 2010-06-25 KR KR1020137001443A patent/KR101388394B1/ko active Active
- 2010-06-25 EP EP10853685.5A patent/EP2587388A4/en not_active Ceased
- 2010-06-25 JP JP2010542860A patent/JP4658236B1/ja active Active
- 2010-06-25 CN CN201080067673.9A patent/CN102959537B/zh active Active
- 2010-06-25 WO PCT/JP2010/060882 patent/WO2011161825A1/ja active Application Filing
- 2010-06-25 CA CA2803861A patent/CA2803861C/en active Active
- 2010-06-25 US US13/806,594 patent/US9053077B2/en active Active
-
2011
- 2011-06-24 TW TW100122290A patent/TWI421710B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003122751A (ja) | 2001-10-12 | 2003-04-25 | Alps Electric Co Ltd | 翻訳装置 |
JP2003157272A (ja) * | 2001-11-21 | 2003-05-30 | Kyodo Printing Co Ltd | 翻訳出版物提供システム及びその方法 |
JP2007026398A (ja) * | 2005-07-11 | 2007-02-01 | Kodensha Co Ltd | 画像情報または音声情報を含む文書データ翻訳システム |
JP2010157066A (ja) * | 2008-12-26 | 2010-07-15 | Rakuten Inc | 機械翻訳システム及び機械翻訳方法 |
JP2010157065A (ja) * | 2008-12-26 | 2010-07-15 | Rakuten Inc | 機械翻訳システム及び機械翻訳方法 |
Non-Patent Citations (1)
Title |
---|
See also references of EP2587388A4 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2011161825A1 (ja) | 2013-08-19 |
KR20130031895A (ko) | 2013-03-29 |
US9053077B2 (en) | 2015-06-09 |
CA2803861C (en) | 2016-01-12 |
CN102959537B (zh) | 2015-07-22 |
EP2587388A1 (en) | 2013-05-01 |
JP4658236B1 (ja) | 2011-03-23 |
TW201142620A (en) | 2011-12-01 |
US20130132825A1 (en) | 2013-05-23 |
CN102959537A (zh) | 2013-03-06 |
EP2587388A4 (en) | 2018-01-03 |
KR101388394B1 (ko) | 2014-04-22 |
TWI421710B (zh) | 2014-01-01 |
CA2803861A1 (en) | 2011-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4658236B1 (ja) | 機械翻訳システム及び機械翻訳方法 | |
US10296308B2 (en) | Automatically generating network applications from design mock-ups | |
US7176931B2 (en) | Modifying hyperlink display characteristics | |
US20150279058A1 (en) | Page Rendering Method and Apparatus | |
CN101441644B (zh) | 网页批注系统与方法 | |
US20120072821A1 (en) | Document editing method | |
JP2014006913A (ja) | 翻訳情報セグメント | |
JP5235135B2 (ja) | 機械翻訳システム及び機械翻訳方法 | |
JP6866551B2 (ja) | 数式処理方法、装置、デバイス及びプログラム | |
US10013403B2 (en) | Browsing system, terminal, image server, program, computer-readable recording medium storing program, and method | |
JP5483526B2 (ja) | 機械翻訳システム及び機械翻訳方法 | |
CN101576885A (zh) | 提取动态生成网页内容的技术方案 | |
JP7568435B2 (ja) | ウェブページ処理装置、ウェブページ処理方法、およびプログラム | |
JP2022175871A (ja) | コンピュータプログラム、サーバ装置、端末装置及び方法 | |
CN112507664B (zh) | 网页元素标注方法与装置 | |
JP2008191879A (ja) | 情報表示装置、情報表示装置の表示方法、情報表示プログラム、および情報表示プログラムを記録した記録媒体 | |
Ming et al. | The role of the tourism English automatic translation method based on deep learning in tourism economic development | |
Trivedi | The Front End: Presentation | |
JPH09265469A (ja) | ハイパーテキスト型文書の翻訳方法およびhtml文書の翻訳装置 | |
WO2024018694A1 (ja) | 情報処理装置、情報処理プログラム及び情報処理方法 | |
Vitols | Design Method Analysis of Web Information System for People with Disabilities. | |
CN117785184A (zh) | 新一代网页基础格式开发设计方法 | |
JP2013114293A (ja) | ウェブ表示プログラム変換システム、ウェブ表示プログラム変換方法、及び、ウェブ表示プログラム変換用プログラム | |
TW201220084A (en) | automatically identifying required rendering elements in a primitive electronic document, generating a list of object elements corresponding to the required rendering elements, and modifying the required rendering elements to the object elements | |
Weston | Is Your SFX AZ List Functionally Accessible? Steps toward Making It More So |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 201080067673.9 Country of ref document: CN |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2010542860 Country of ref document: JP |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10853685 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2803861 Country of ref document: CA |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 20137001443 Country of ref document: KR Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2010853685 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13806594 Country of ref document: US |