WO2024018553A1 - 被翻訳データ作成装置、被翻訳データ作成方法、及び被翻訳データ作成プログラム - Google Patents

被翻訳データ作成装置、被翻訳データ作成方法、及び被翻訳データ作成プログラム Download PDF

Info

Publication number
WO2024018553A1
WO2024018553A1 PCT/JP2022/028155 JP2022028155W WO2024018553A1 WO 2024018553 A1 WO2024018553 A1 WO 2024018553A1 JP 2022028155 W JP2022028155 W JP 2022028155W WO 2024018553 A1 WO2024018553 A1 WO 2024018553A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
text
translated data
translation
translated
Prior art date
Application number
PCT/JP2022/028155
Other languages
English (en)
French (fr)
Inventor
雄一郎 森
Original Assignee
合同会社Ada
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 合同会社Ada filed Critical 合同会社Ada
Priority to PCT/JP2022/028155 priority Critical patent/WO2024018553A1/ja
Publication of WO2024018553A1 publication Critical patent/WO2024018553A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Definitions

  • the technology of the present disclosure relates to a translated data creation device, a translated data creation method, and a translated data creation program.
  • Japanese Patent Laid-Open No. 2015-204015 discloses a method that scans a book in a double-page spread state, generates a PDF image of the double-page spread, extracts text from the PDF image, and translates the extracted text. This is disclosed. Translation is performed sequentially from the top of each PDF image.
  • An object of the technology of the present disclosure is to provide a translated data creation device that can create text in an image in which text portions are arranged in multiple columns as translated data for each column.
  • a to-be-translated data creation device for achieving the above object includes an image in which portions of a sentence are arranged in a plurality of columns, and text of each word of the sentence extracted from the image.
  • a storage unit for storing, a setting unit for setting translation target parts that are to be translated all together for the text portion in the image, and reading out the text of the set translation target parts from the storage unit.
  • a creation unit that creates translated data for translation into a language other than the language of the text.
  • Aspect 2 provides a translated data creation device according to aspect 1, comprising: a readout section that reads out the image stored in the storage section; and a display section that displays the readout image; The unit sets the translation target portion in the displayed image.
  • the display section highlights a text portion in the translation target portion.
  • Aspect 4 of the translated data creation device wherein the display section highlights the translation target part and checks whether the part set as the translation target part is correct. Display message.
  • the setting unit sets the translation target portion as a block in the image.
  • Aspect 6 is a translated data creation device according to any one of aspects 2 to 5, in which the setting unit sets boundaries for dividing the image into a plurality of different regions, thereby dividing the translation target portion. Set.
  • Aspect 7 is a translated data creation device according to any one of Aspects 1 to 6, wherein the image includes a plurality of consecutive page images in which text portions are arranged in a plurality of columns, and the settings The section sets the translation target portion across the plurality of page images.
  • the translated data creation device in any one of Aspects 1 to 7, further includes an acquisition unit that acquires a translation result of the translated data.
  • the to-be-translated data creation device of Aspect 9, in Aspect 8, further includes a synthesis unit that synthesizes a portion other than text in the translation target portion and a translation result of the to-be-translated data.
  • aspects 10 of the translated data creation device wherein in aspect 9, the synthesis unit synthesizes a selected part of the part other than text in the translation target part and the translation result of the translated data. do.
  • the to-be-translated data creation device according to Aspect 11, in Aspect 8, further includes a compositing unit that synthesizes a portion of the image that is not set as the translation target portion and a translation result of the to-be-translated data.
  • Aspect 12 of the translated data creation device wherein the synthesis unit combines a selected portion of the portion of the image that is not set as the translation target portion and the translation result of the translated data. Synthesize and.
  • the translated data creation device in any one of Aspects 1 to 12, further includes an output unit that outputs the translation result.
  • the output unit displays the translation result at a position in the display area that corresponds to the position of the translation target portion in the image.
  • Aspect 15 of the translated data creation device wherein the setting unit sets the translation target portion in a plurality of different areas in the image;
  • the output unit displays each of the translation results of the translation target portion set in the plurality of different areas in the same display mode in the display area.
  • Aspect 16 of the translated data creation device wherein the image includes a plurality of page images in which text portions are arranged in a plurality of columns, and the setting unit selects a first page image in the images.
  • the creation unit sets the translation target part for the first page image, and reads the text of the translation target part set for the first page image, and reads the text of the translation target part set for the first page image, and for other page images other than the first page image, the creation unit reads the text of the translation target part set for the first page image.
  • the translated data is created by reading out the text using the translation target part set for the image as the translation target part in the other page image.
  • Aspect 17 is a translated data creation device according to Aspect 1, wherein the image includes a plurality of page images in which text portions are arranged in a plurality of columns, and the setting unit is configured to set each of the plurality of page images. , the translation target portion is automatically set.
  • the to-be-translated data creation device according to Aspect 18, in Aspect 16 or Aspect 17, further includes an acquisition unit that acquires a translation result of the to-be-translated data.
  • the to-be-translated data creation device according to Aspect 19, in Aspect 18, further comprises a synthesizing unit that synthesizes a portion other than the translation target portion and a translation result of the to-be-translated data for each of the plurality of page images. Prepare more.
  • a translated data creation device is provided in any one of aspects 1 to 19, wherein in the document portion, sentences are arranged in multiple lines by line breaks in the middle. .
  • Aspect 21 provides a method for creating translated data, which includes a storage unit that stores an image in which portions of a sentence are arranged in a plurality of columns, and text of each word of the sentence extracted from the image.
  • the method further includes the step of reading out the text of the translation target portion to create translated data for translation into a language other than the language of the text.
  • the to-be-translated data creation program includes a storage unit that stores an image in which portions of a sentence are arranged in a plurality of columns, and text of each word of the sentence extracted from the image.
  • a translated data creation program that causes a creation device to execute a translated data creation process in a language other than the language of the text, wherein the translated data creation process is performed by a setting unit to create translated data in a language other than the language of the text.
  • the translated data creation device of the first aspect can create translated data for performing accurate translation even when text portions are arranged in multiple columns in an image.
  • the user can arbitrarily set the translation target part in the image.
  • the translated data creation device allows the user to understand the text portion of the translation target portion.
  • the translated data creation device allows the user to understand the translation target part and check whether the part set as the translation target part is correct.
  • the translated data creation device can easily set a translation target portion in an image.
  • the translated data creation device can easily set a translation target portion in an image.
  • the translated data creation device can set a translation target portion over images of at least two of a plurality of pages.
  • the to-be-translated data creation device can obtain the translation result of the to-be-translated data.
  • the to-be-translated data creation device of the aspect 9 can synthesize the image of the part other than the text in the part to be translated and the translation result.
  • the translated data creation device can synthesize the image of the selected portion of the portion other than the text in the translation target portion and the translation result.
  • the translated data creation device can synthesize the image of a portion of the image other than the translation target portion and the translation result.
  • the translated data creation device is capable of composing an image of a selected portion of an image other than the translation target portion with a translation result.
  • the translated data creation device can make the user understand the translation result.
  • the translated data creation device allows the user to understand the translation result as corresponding to an image.
  • the translated data creation device allows the user to comfortably understand each of the translation results of the translation target portion set in a plurality of different areas.
  • the translated data creation device executes accurate translation for each page image even if the image includes images of a plurality of pages in which text portions are arranged in a plurality of columns. You can create translated data for
  • the translated data creation device automatically converts the translation target portion of each page image even if the image includes images of multiple pages in which text portions are arranged in multiple columns. Can be set.
  • the translated data creation device is capable of obtaining translation results for images of each page even if the image includes images of multiple pages in which text portions are arranged in multiple columns. .
  • the translated data creation device can combine images of portions other than the translation target portion of each of the images of a plurality of pages with a translation result.
  • the method for creating translated data according to aspect 20 performs accurate translation in an image in which parts of a document arranged in multiple lines are arranged in multiple columns by inserting a line break in the middle of the sentence.
  • Translated data can be created for translation purposes.
  • the method for creating translated data according to aspect 21 can create translated data for performing accurate translation even when text portions are arranged in multiple columns in an image.
  • the program according to aspect 22 can create translated data for performing accurate translation even if text portions are arranged in multiple columns in an image.
  • FIG. 1 is a block diagram showing a translation system according to a first embodiment.
  • 1 is a block diagram of a translated data creation device 10.
  • FIG. FIG. 3 is a diagram showing folders in a project file. It is a diagram showing data stored in a folder 42F11. It is a diagram showing data stored in a folder 42F12. It is a diagram showing data stored in a folder 42F13. It is a diagram showing data stored in a folder 42F14. It is a diagram showing data stored in folder 42F15. It is a diagram showing data stored in a folder 42G. It is a diagram showing data stored in a folder 42H. It is a diagram showing data stored in a folder 42I. It is a diagram showing data stored in a folder 42J.
  • FIG. 3 is a diagram showing a selection screen 130.
  • FIG. 2 is a diagram showing an image of a user interface 200.
  • FIG. 7 is a diagram illustrating how a range 304G of images to be extracted is set and an image 310G extracted from the range 304G is arranged in the output document display area 302 in the image extraction mode.
  • FIG. 6 is a diagram illustrating how a block 304, which is the range of text to be extracted for translation, is set.
  • FIG. 7 is a diagram illustrating how a frame 306 is displayed around each word of text in a block 304.
  • FIG. 6 is a diagram illustrating how a message 205 asking to reconfigure the block is displayed after the block 304 is configured.
  • 3 is a diagram illustrating how two blocks are consecutively specified in a scanned image 300.
  • FIG. 5 is a diagram illustrating how a boundary 506 is specified by specifying a point 502 at the upper end and a point 504 at the lower end of the boundary between a left page and a right page in a scanned image 300.
  • FIG. 4 is a diagram illustrating how an image range 510 of a left page and an image range 512 of a right page are specified in a scanned image 300.
  • FIG. 4 is a diagram showing a user interface 200 in which an appearance emphasis mode selection button 270 and an original text emphasis mode selection button 280 are further displayed.
  • FIG. 7 is a diagram showing the display contents of the output document display area 302 when the appearance emphasis mode selection button 270 is operated.
  • FIG. 6 is a diagram showing the display contents of the output document display area 302 when the original text emphasis mode selection button 280 is operated.
  • FIG. 7 is a diagram illustrating the user interface 200 in which a header capture button 208H and a footer capture button 208F are further displayed.
  • FIG. 12 illustrates user interface 200 in which text display area 230 has been modified such that there is a first area 308A in which text is displayed and a second area 308B in which a translation of the text is displayed.
  • a frame 308W is added to highlight the corrected word in the original text.
  • FIG. 2 is a diagram illustrating a user interface 200.
  • FIG. FIG. 12 is a diagram illustrating how when block 304 is specified for the image on the left page, text 308 of block 304 is displayed in text display area 230, and a translation 310 of text 308 is displayed in output document 204.
  • It is a diagram showing a user interface 200 displayed as a target.
  • It is a flowchart of the to-be-translated data creation processing program 42P in automatic mode. It is a flowchart of the to-be-translated data creation processing program 42P in full-motion mode.
  • the translation system includes a translated data creation device 10, a text extraction device 16, and a translation device 18 that are interconnected via the Internet 12.
  • a scanner 14 is connected to the translated data creation device 10.
  • the scanner 14 generates image data by scanning each of a plurality of double-page spreads of a book, converts the generated image data of each double-page spread into a PDF (Portable Document Format), and converts the PDF into a document to be translated.
  • the data is sent to the data creation device 10.
  • the image of each page of the PDF is an example of a "scanned image" of the technology of the present disclosure.
  • a book spread has a left page and a right page, so the image of each page of the PDF is a scanned image in which text portions are arranged in two columns.
  • the translated data creation device 10 sends the PDF to the text extraction device 16.
  • the text extraction device 16 extracts text from the received PDF, and transmits the extracted text and coordinates representing the position of the text in the PDF to the translated data creation device 10.
  • the translated data creation device 10 sends the text to the translation device 18.
  • the translation device 18 translates the received text and sends the translated data to the translated data creation device 10.
  • the translation device includes a translation device that provides Deepl translation service and a translation device that provides Google translation service, which will be described in detail later. be.
  • the text that the translated data creation device 10 sends to the translation device 18 is an example of "translated data" in the technology of the present disclosure.
  • the translation system includes the text extraction device 16 and the translation device 18 separately, but the technology of the present disclosure is not limited to this.
  • the text extraction device 16 may be omitted, the translated data creation device 10 or the translation device 18 may have the text extraction processing function, and the translated data creation device 10 or the translation device 18 may execute the text extraction processing.
  • the translation device 18 may be omitted, the translated data creation device 10 or the text extraction device 16 may have the translation processing function, and the translated data creation device 10 or the text extraction device 16 may execute the translation processing. good.
  • the text extraction device 16 and the translation device 18 are omitted, the translated data creation device 10 has the text extraction processing function and the translation processing function, and the translated data creation device 10 executes the text extraction processing function and the translation processing. You can do it like this.
  • the translated data creation device 10 includes a computer 20, a display 32, a communication interface (I/F) 36, a keyboard 38, a mouse 40, and a storage device 42, each connected to the computer 20. , is equipped with.
  • I/F communication interface
  • the storage device 42 is an example of a “storage unit” of the technology of the present disclosure.
  • the mouse 40 is an example of a "setting unit” of the technology of the present disclosure.
  • the display 32 is an example of an “output unit” and a “display unit” of the technology of the present disclosure.
  • the communication interface (I/F) 36 is an example of the "acquisition unit” of the technology of the present disclosure.
  • the computer 20 includes a CPU (Central Processing Unit) 22, a ROM (Read Only Memory) 24, a RAM (Random Access Memory) 26, and an input/output (I/O) port 28.
  • the CPU 22, ROM 24, RAM 26, and I/O port 28 are interconnected via a bus 30.
  • a display 32, a communication interface (I/F) 36, a scanner 14, a keyboard 38, a mouse 40, and a storage device 42 are connected to the I/O port 28.
  • a communication interface (I/F) 36 is communicably connected to the text extraction device 16 and translation device 18 via the Internet 12.
  • the storage device 42 is a non-transitory tangible computer readable recording medium, such as an HDD (Hard disk drive) or an SSD (Solid state). non-volatile memory such as drive) It is a device.
  • HDD Hard disk drive
  • SSD Solid state
  • non-volatile memory such as drive
  • the storage device 42 stores a data table 42T and a translated data creation processing program 42P.
  • the data table 42T is provided with scan image storage areas 42M11 to 42M15 and project file storage areas 42M21 and 42M22.
  • each of the scan image storage areas 42M11 to 42M15 stores PDFs identified by identification names PDFa to PDFe.
  • Project file storage areas 42M21 and 42M22 are provided corresponding to scanned image storage areas 42M11 and 42M12. Specifically, when the translated data creation processing program 42P is executed for a PDF, a project file for the PDF is created, and a project for storing the project file is created in correspondence with a scanned image storage area for storing the PDF. A file storage area is provided.
  • project file storage areas 42M21 and 42M22 are provided corresponding to scanned image storage areas 42M11 and 42M12.
  • the translated data creation processing program 42P is executed for the PDFs identified by the identification names PDFa and PDFb, and each project file identified by project file a and project file b is created. Project files identified as project file a and project file b are stored in project file storage areas 42M21 and 42M22. Note that for PDFs identified by PDFc to PDFe, the translated data creation processing program 42P is not executed, and no project file storage area is provided.
  • the project file storage area 42M21 is provided with folders 42F10, 42F20, ... (for the number of pages) for each page of the PDF, and folders 42G to 42J for the entire PDF. .
  • the folder 42F10 is provided with folders 42F11 to 42F15.
  • the folder 42F11 is a folder that stores images of pages in a state before translation.
  • the folder 42F12 is a folder that stores annotated text data.
  • the folder 42F13 is a folder that stores document images after translation work.
  • the folder 42F14 is a folder that stores the position of text that has been selected for translation.
  • the folder 42F15 is a folder that stores extracted images.
  • the folder 42G is a folder that stores metadata of extracted images.
  • the folder 42H is a folder that stores text to be displayed on the translated image.
  • Folder 42I is a folder that stores translated text.
  • the folder 42J is a folder that stores metadata of projects and translation work.
  • the folder 42F11 stores the image of the page before translation. As described above, when a PDF is transmitted from the scanner 14, the image data of the received PDF is stored in the scanned image storage area. The entire image data of one page of the PDF stored in the scanned image storage area 42M11 before translation is copied and stored in the folder 42F11.
  • the folder 42F12 stores annotated text data.
  • the image data of the entire page of the PDF is sent to the text extraction device 16.
  • the text extraction device 16 extracts the text of each word from the image data of an entire page of PDF, detects the language of the text, and specifies the position of each word in the image of one page of PDF. Specifically, for example, when the text of each word 'The', 'Logic', 'of', and 'Scientific' is extracted, English is detected as the language of the text.
  • the text position (four corner positions) of each word in the image of one page is specified as follows.
  • the upper left position of 'The' is [1154, 420], the upper right position is [1279, 420], the lower right position is [1279, 465], and the lower left position is [1154, 465]] is specified.
  • the upper left to lower left positions are specified as follows.
  • the text extraction device 16 transmits the text of each word, the language of the text, and the position of each word in the image of one page of the PDF to the translated data creation device 10.
  • the text of each word, the language of the text, and the position of each word in the image of one page of the PDF are stored in the folder 42F12.
  • the folder 42F13 stores the translated document image.
  • the text (data to be translated) is sent to the translation device 18.
  • the translation device 18 translates the text into the specified language and sends the translated data to the translated data creation device 10.
  • the translated data creation device 10 generates a document image by arranging the translated content so as to correspond to the position of the text in the original image, and stores the generated document image in the folder 42F13. do.
  • folder 42F14 stores the location of text that has been selected for translation.
  • the user uses the mouse 40 to select the range of images on the displayed page of the PDF that he or she wishes to translate. This sets the scope of translation.
  • the translated data creation device 10 receives the text position of each word for the image of the page from the text extraction device 16.
  • the folder 42F14 stores the position of each text selected for translation within the range of the image of the displayed page of the PDF that is desired to be translated. For example, for a certain text, (x1, y1), (x2, y1), (x2, y2), and (x1, y2) are stored as the upper left to lower left positions.
  • the extracted image is stored in the folder 42F15.
  • the page of the source PDF contains images (graphs, etc.) and the user wants to place the images in the output document of the translation result
  • the user uses the mouse 40 to edit the page of the source PDF. Select an image on the page. Note that the image is selected by selecting two positions, the upper left and lower right, of the rectangular range that includes the image.
  • the translated data creation device 10 extracts the selected image on the page of the translation source PDF, and stores the extracted image in the folder 42F15. In the example shown in FIG.
  • two graph images 15G1 and 15G2 exist on one page of the translation source PDF, the user selects images 15G1 and 15G2, and the images 15G1 and 15G2 are added to the folder 42F15.
  • ID identification data
  • the user uses the mouse 40 to select the upper left position (xLU, yLU) and lower right position (xRD, yRD) of the rectangular range containing image 15G1. do.
  • the image 15G1 and the ID of the image 15G1 (for example, ID15g1) are stored in correspondence.
  • FIG. 2G is different from the example shown in FIG. 2C, it is assumed for convenience that two graph images 15G1 and 15G2 exist on page 1 in order to make it easier to understand the content of this embodiment. .
  • the folder 42G stores metadata that is data for specifying the extracted image.
  • the metadata includes the page number, image ID, position 1, and position 2.
  • the page number is 1, the image ID is ID15g1, the position 1 (upper left position) is (xLU, yLU), and the position 2 (lower right position), (xRD, yRD) are stored in the folder 42G in correspondence.
  • the folder 42H stores the text to be displayed on the translated image (output document image). Specifically, the folder 42H stores the text, language (after translation), rotation angle, font size, page, start position, status, line spacing, and font size correction value for each text.
  • the status is a flag that allows the translated data creation device 10 to determine whether the text is currently being translated or whether the output to an output document image has already been completed.
  • VIEW is stored as a flag when translation processing is in progress
  • NEW is stored as a flag when output is finished.
  • folder 42I stores translated text. Specifically, the folder 42I stores, for each text, the text, language, rotation angle, maximum font size, page, and position (two diagonal points, the upper left position and the lower right position).
  • the maximum font size is the largest font in the text extracted by specifying the coordinates. This is used for adjusting font size.
  • the folder 42J stores the project and translation work metadata. Specifically, the folder 42J stores the path (link) to the PDF that is the source of this project file, the number of pages, the page that was opened last time, and the PDF title.
  • the user specifies a PDF page, selects the range of the specified page to be translated, and translates the text (translated data) in that range. create.
  • the translated data creation process may end without completing translation of all pages of the PDF. Therefore, there are PDFs for which translation has been completed for all pages, and there are also PDFs for which translation is interrupted midway. If translation is interrupted midway through, the page that was last opened is memorized so that translation can be continued.
  • FIG. 3A shows a functional block diagram of the CPU 22.
  • the functions of the CPU 22 include a display control function, a judgment function, an acquisition function, an acceptance function, a transmission processing function, a storage processing function, a text retrieval processing function, and an output processing function.
  • the CPU 22 by executing the translated data creation process (FIG. 3B), the CPU 22 includes the display control section 23, determination section 25, acquisition section 27, reception section 29, transmission processing section 31, and storage processing section. 33, a text extraction processing section 35, and an output processing section 37.
  • the CPU 22, specifically the text retrieval processing unit 35, is an example of a “creation unit” and a “reading unit” of the technology of the present disclosure.
  • FIG. 3B shows a flowchart of the translated data creation processing program 42P executed by the CPU 22.
  • the translated data creation processing is executed.
  • the translated data creation processing program 42P starts when a start button (not shown) is turned on.
  • the display control unit 23 displays the selection screen 130 on the display 32, as shown in FIG.
  • the selection screen 130 includes a display section 132 that prompts the user to create a new project file from an image file, and a display section 134 that prompts the user to open an existing project.
  • PDFs identified by PDFa to PDFe five scanned images (PDFs identified by PDFa to PDFe) are stored, and a project file is created only for the PDFs identified by PDFa and PDFb. Since the objects for which a new project file is created are PDFs identified by PDFc to PDFe, the identification names 132c to 132e of the PDFs are displayed in correspondence with the display section 132. On the other hand, since the existing project files are identified by the identification names project file a and project file b, the identification names 134a and 134b of the project files are displayed in correspondence with the display unit 134.
  • the determining unit 25 determines whether new creation has been selected.
  • the user wants to create a new project file and create translated data, he or she selects one of the identification names 132c to 132e using the mouse 40. On the other hand, if the user selects an existing project file and wishes to continue creating translated data, he or she selects the identification name 134a or the identification name 134b using the mouse 40.
  • step 46 If any of the identification names 132c to 132e is selected, that is, if new creation is selected, an affirmative determination is made in step 46, and the translated data creation process proceeds to step 48. If the identification name 134a or the identification name 134b is selected, a negative determination is made in step 46, and the translated data creation process proceeds to step 50.
  • the acquisition unit 27 creates a project file. For example, if identification name 132c is selected, a project file (see FIG. 2B) is created for the PDF identified by PDFc. Specifically, folders 42F10, 42F20, . . . for each page of the PDF and folders 42G to 42J for the entire PDF are created. For example, images of each page of the PDF are stored in the folder 42F11. The image data of the PDF is output to the text extraction device 16, which receives data on the text, text language, and text position of each page of the PDF sent from the text extraction device 16, and these data are saved in a folder. 42F12. At this stage, no data is stored in folders 42F13 to 42F15 and folders 42G to 42I. The path (link) to the PDF and the number of pages are written in the folder 42J.
  • a project file (see FIG. 2B) is created for the PDF identified by PDFc. Specifically, folders 42F10, 42F20, . . . for each page of the PDF and
  • the acquisition unit 27 reads the project file. For example, if identification name 134a is selected, the project file identified by project file a (see FIG. 2B) is read.
  • step 52 the acquisition unit 27 captures the scanned image from the storage device 42. Specifically, in the above example, if the identification name 132c is selected, a scanned image of the PDF identified by PDFc is captured. When the identification name 134a is selected, the PDF corresponding to the project file identified by project file a (PDF identified by PDFa) is imported.
  • the display control unit 23 displays the image of the user interface 200 shown in FIG. 5 on the display screen of the display 32.
  • a scanned image display area 202 and an output document image display area 204 are displayed on the user interface 200.
  • the user interface 200 includes a button 206 that instructs to extract text, a button 208 that instructs to extract an image, a button 210 that instructs to automatically determine line breaks, a button 212 that instructs to connect without line breaks, and A button 214 is displayed that instructs to start a new line according to the original text.
  • the user interface 200 includes a button 216 that instructs a translation device that provides the Deepl translation service to perform translation, a button 218 that instructs that a translation device that provides the Google translation service performs translation, and a button 218 that instructs not to translate. button 220 is displayed.
  • the user interface 200 includes a button 222 that instructs to translate the text as it is after selecting it, a button 224 that instructs to edit the text after selecting it, and then translate it, and a button 226 that instructs to automatically determine the translation source language. , and a button 228 for specifying the translation destination language.
  • a text display area 230 is displayed on the user interface 200.
  • Displayed on the user interface 200 are a button 232 for specifying line spacing, a button 234 for specifying font size relative to the original text, a confirm button 236, and a button 238 for specifying clear page editing. Note that if, for example, 0.8 is specified in the button 234, a font of 0.8 of the font of the original text (original book image) is specified as the font of the output document.
  • the user interface 200 includes a page display area 242 that indicates the currently displayed page (for example, "3/7") and an instruction to move the translation target to the previous page (for example, "2/7").
  • a button 244 and a button 246 for instructing to move the translation target to the next page are displayed.
  • Displaying "3/7" as the currently displayed page means that there are seven pages of images in the PDF, and three of these pages are being displayed.
  • the user interface 200 displays an area 240 that displays a button for instructing to correct the rotation of a portion of the source material (the scanned image of the original PDF before translation).
  • Area 240 includes a button 252 that instructs to select a range to be rotated within the displayed page, a button 254 that instructs to rotate while maintaining the original scale, and a size that fits within the selected range.
  • Area 240 includes a button 258 that instructs to rotate the line 1 degree to the left, a button 260 that instructs to rotate the line 90 degrees to the left, a button 262 that instructs to rotate the line 1 degree to the right, and a button 262 that instructs to rotate the line 90 degrees to the right.
  • the scanned image display area 202 will display the third page of the PDF.
  • a scanned image 300 is displayed.
  • the user selects the above button on the user interface 200 and makes settings. For example, if the user desires to partially correct the rotation of the scanned image 300 of the third page of the PDF, the user operates the button 252 in the area 240. If the user desires to extract text from the scanned image 300, the user operates the button 206. If the user desires to extract an image from the scanned image 300, the user operates the button 208. Other desired settings are made using the buttons.
  • the accepting unit 29 accepts settings for the user interface 200.
  • step 58 the determining unit 25 determines whether the scan image rotation correction mode has been selected. That is, the determining unit 25 determines whether the button 252 has been operated. If it is determined that the button 252 has been operated, the translated data creation process proceeds to step 60. If it is determined that the button 252 has not been operated, the translated data creation process proceeds to step 72.
  • the user looks at the scanned image 300 and determines that it is tilted, the user selects a rotation correction mode for the scanned image (by operating the button 252) in order to correct the tilt. This is because if the scanned image is tilted, the extraction result of the text extraction process 16 will be poor.
  • the user After operating the button 252, the user selects the range to be rotationally corrected using the mouse 40. If the user desires to rotate the image in that range to the left, the user operates button 258. Note that when the button 254 is operated, the image in the above range is instructed to be rotated while maintaining the original scale, and when the button 256 is operated, the image in the above range is changed to a size that fits within the selected range. You will be prompted to scale and rotate.
  • the accepting unit 29 accepts settings for rotation correction. As described above, settings by operating the button 258 or the like are accepted.
  • step 62 the display control unit 23 rotates the scanned image according to the settings.
  • the user operates the button 260, the setting is accepted (step 60), and the image in the above range is rotated 90 degrees to the left (step 62).
  • step 60 if the user wishes to rotate the image in the range to the right, the user operates button 262 or button 264, the setting is accepted (step 60), and the image in the range is rotated to the right. (step 62).
  • step 64 the determining unit 25 determines whether editing completion has been set by operating the button 268.
  • step 64 When the button 266 is operated, a negative determination is made in step 64, this setting is accepted (step 60), and the image in the above range is displayed in its original state (step 62).
  • step 64 the setting is accepted (step 60), and the image in the above range is rotated accordingly (step 62).
  • step 64 becomes an affirmative determination, and the translated data creation process proceeds to step 66.
  • step 66 the transmission processing unit 31 transmits the rotated scanned image of the current page to the text extraction device 16, and in step 68, the determination unit 25 determines whether text and coordinate data have been received. to decide.
  • the text extraction device 16 extracts text from the scanned image of the current page after rotation processing, and sends data on the text of the page, the language of the text, and the position (coordinates) of the text to the translated data creation device 10.
  • the translated data creation device 10 receives these data (step 68 is affirmative). As a result, the extraction result may be better than text extraction from the original scanned image before rotation correction.
  • the storage processing unit 33 stores the text, text language, and coordinate data in the folder 42F12 (see FIGS. 2B and 2D).
  • step 86 the determining unit 25 determines whether or not to output the PDF.
  • step 86 becomes negative
  • the translated data creation process returns to step 56
  • the user interface settings operation of button 206 or button 208 are accepted, and step 58 becomes negative. Judgment.
  • step 58 If the determination in step 58 is negative, the translated data creation process proceeds to step 72.
  • the determining unit 25 determines whether the image retrieval mode has been selected.
  • the button 208 is operated, an affirmative determination is made in step 72, and the translated data creation process proceeds to step 74.
  • the button 206 is operated, a negative determination is made in step 72, and the translated data creation process proceeds to step 82.
  • the accepting unit 29 accepts the setting of the range to be extracted.
  • the user selects the image retrieval mode by operating the button 208, the user sets the range 304G of the image to be retrieved at the upper left and lower right positions using the mouse 40, as shown in FIG.
  • This setting is accepted in step 74, and in step 76, the acquisition unit 27 extracts the image in the set range 304G from the scanned image 300.
  • the display control unit 23 adds the range 304G to the output document display area 302. An image 310G of 304G is arranged.
  • step 80 the storage processing unit 33 stores the image 310G in the project file folder 42F15 (see FIG. 2G). After the process in step 80, the translated data creation process proceeds to step 86.
  • step 86 becomes a negative judgment
  • the translated data creation process returns to step 56
  • the user interface settings (operation of the button 206) are accepted
  • steps 58 and 72 become a negative judgment
  • step At step 82 the determining unit 25 determines whether the text extraction mode has been selected, and step 82 becomes an affirmative determination. If the determination in step 82 is affirmative, the translated data creation process proceeds to step 84. If the determination in step 82 is negative, the translated data creation process proceeds to step 86.
  • the text extraction processing unit 35 executes text extraction processing.
  • FIG. 3C shows a flowchart of the text retrieval processing program in step 84 of FIG. 3B.
  • step 102 the text extraction processing unit 35 determines whether a block has been specified. If the determination in step 102 is negative, the determination in step 102 is executed until the determination in step 102 is affirmative.
  • the user operates the button 206, as shown in FIG. 7, the user uses the mouse 40 to set the upper left and lower right positions of the block 304, which is the range from which text is to be translated. As a result, an affirmative determination is made in step 102, and in step 104, the text extraction processing unit 35 accepts the designation of the block 304 (setting of the upper left and lower right positions).
  • a block 304 is a translation target part that is a target of translation of text parts in a column.
  • the text extraction processing unit 35 reads the text in the block 304.
  • the folder 42F12 of each page stores data on text, text language, and coordinates. Therefore, in step 106, the text extraction processing unit 35 reads out the text existing in the specified block 304 on the page from the folder 42F12. In step 106, the text extraction processing unit 35 stores the position of the text existing in the block 304 in the folder 42F14 (FIG. 2F).
  • step 108 the text extraction processing unit 35 extracts each word of the text in the block 304 based on the coordinate position data of the text stored in the folder 42F12 (see FIG. 2D).
  • a frame 306 is displayed around it.
  • “Scientific” is shown enlarged in FIG. 8, it is not actually enlarged. This is particularly enlarged for ease of understanding. Note that the display is not limited to displaying the frame 306 around the word in the block 304, and the word may be underlined.
  • the translated data creation process proceeds to step 110.
  • the block 304 corresponds to a paragraph of text in the scanned image 300, it is set so that the upper and lower sides of the paragraph fall within the range of the block. However, for example, as shown in FIG. 9, the block 304 may be set beyond the bottom of a paragraph and even beyond the top of the next paragraph.
  • the text to be translated includes words up to the middle of a sentence in the next paragraph. , the translation result no longer follows the meaning of the original text. Therefore, when the block 304 is set, the text extraction processing unit 35 may display a message 205 asking for resetting the block, as shown in FIG.
  • the message 205 is, for example, "Do you want to re-specify?". The user can check whether the part set as the translation target part is correct. Note that when the user resets the block, the user specifies the upper left and lower right positions again.
  • step 110 the text extraction processing unit 35 determines whether the button 222 has been operated or not, thereby determining whether the translation mode is directly selected. If the button 222 is operated, step 110 becomes an affirmative determination, and the translated data creation process proceeds to step 112.
  • step 110 If the button 224 is operated, a negative determination is made in step 110, and the translated data creation process proceeds to step 114.
  • the button 224 is a button operated when the user wishes to edit the text and then translate the text after selecting the text.
  • step 114 is performed so that the user can edit the text.
  • the text extraction processing unit 35 displays the text 308 in the block 304 in the text display area 230, as shown in FIG.
  • the text extraction processing unit 35 determines whether the confirm button 236 is turned on.
  • the user specifies the object to be edited using the mouse 40 and edits using the keyboard 38. If there is an input from the mouse 40 or the keyboard 38, it cannot be determined that the confirm button 236 has been turned on, and a negative determination is made in step 116.
  • the text extraction processing unit 35 accepts the edit and converts the translated text. The data creation process returns to step 116. As the editing continues, an input is made from the mouse 40 or the keyboard 38, a negative determination is made in step 116, and in step 118, the text extraction processing section 35 accepts the editing.
  • the text extraction processing unit 35 stores the position of the edited text in the folder 42F14.
  • step 116 becomes an affirmative determination, and the translated data creation process proceeds to step 112.
  • step 112 the text retrieval processing unit 35 transmits the text in block 304 to the designated translation device 18, along with data indicating the translation destination language designated by the button 228. If button 216 is operated, the text in block 304 is transmitted to a translation device that provides Deepl translation service, and if button 218 is operated, the text in block 304 is transmitted to a translation device that provides Google translation service.
  • the text retrieval processing unit 35 determines whether translation data has been received. The determination process in step 120 is repeated until an affirmative determination is made.
  • the translation device 18 that receives the text in block 304 translates the text into the designated language and sends the translation data to the translated data creation device 10.
  • the translated data creation device 10 receives the translated data, and an affirmative determination is made in step 120.
  • step 122 the text extraction processing unit 35 displays the translation data in the output document display area 302 at a position corresponding to the position of the block 304 in the image 306 of the original PDF page, as shown in FIG.
  • the text extraction processing unit 35 stores the translation data, that is, the text, language (after translation), rotation angle, font size, page, and start position for each text, in the project file folder 42H (see FIG. 2I). , status, line spacing, and font size correction values.
  • step 124 When the process of step 124 is completed, the process of step 84 in FIG. 3B is completed, and the translated data creation process proceeds to step 86.
  • the determining unit 25 determines whether or not to output the PDF.
  • the processing screen shown on the display includes instruction buttons (not shown) for issuing various instructions, and the instruction buttons include an instruction button for instructing output of PDF. If the instruction button for instructing the output of the PDF is not operated, a negative determination is made in step 86, and the translated data creation process returns to step 56.
  • step 86 a negative determination is made in step 86, a setting for moving the translation target to the previous page or the next page is accepted in step 56, and the scanned image display area 202 is displayed.
  • the previous page or next page is displayed, the scanned image rotation correction mode, image extraction mode, or text extraction mode is selected, and the above processing is executed.
  • step 86 If the button 244, button 246, etc. is not operated, but the instruction button for instructing the output of the PDF is operated, an affirmative determination is made in step 86, and the translated data creation process proceeds to step 88.
  • the output processing unit 37 outputs the image in the output document display area 302 in PDF format.
  • the PDF is displayed on the display 32. Not only the image in the output document display area 302 but also all or selectively translated pages of the PDF to be translated may be output. Note that a printing device may be provided and the image in the output document display area 302 may be printed by the printing device.
  • the blocks 304 are set in the same column (left column or right column), so Prevents sentences in the left column and sentences in the right column that have the same position from being translated as the same sentence as translation text, and creates translated data so that the translation result corresponds to the original sentence. be able to. Therefore, the translation result can be made to correspond to the original text. Since the block 304 is set, it is possible to easily set the translation target portion in the scanned image.
  • the block 304 which is the range from which the text for translation is extracted, is set using the mouse 40, the portion to be translated can be arbitrarily set.
  • a frame 306 or an underline is displayed around each word of the text in the block 304, so that the user can understand the portion of the text in the translation target portion.
  • the translation result can be understood by the user.
  • step 102 will be an affirmative determination, but the technology of the present disclosure is not limited to this, and the technology of the present disclosure is not limited to this, and In this case, an affirmative determination may be made in step 102.
  • FIG. 10 shows how a plurality of blocks, for example two blocks, are specified in succession in the scan image 300.
  • the user can sequentially designate a plurality of blocks using the mouse 40 while operating a predetermined key on the keyboard 38 .
  • the user successively designates a plurality of blocks 304A and 304B with the mouse 40 while operating a predetermined key on the keyboard 38.
  • the text in each of blocks 304A and 304B is read (step 106) and a frame is displayed around each word (step 108).
  • button 224 is operated, the text of each of blocks 304A and 304B is displayed in text display area 230 (step 114).
  • the text in each of block 304A and block 304B is translated. Each translated data is displayed in ranges 310A and 310B of the output document display area 302 corresponding to blocks 304A and 304B, respectively, in the image 300 of the original PDF page (step 122).
  • the target for consecutively specifying a plurality of blocks is not limited to one scanned image, and the button 246 may be used to continuously specify blocks for at least one page subsequent to the current page. Therefore, blocks can be set across multiple scan images.
  • FIG. 12 shows a flowchart of a text extraction processing program when specifying the boundary between the left column and the right column, specifically, the boundary between the left page and right page of a spread image (scanned image). ing.
  • step 354 the text extraction processing unit 35 determines whether the boundary between the left page and right page of the book spread image has been specified.
  • Modified Example 2 instead of specifying a block as described above, the user uses the mouse 40 to select the top edge of the boundary between the left page and the right page in the scanned image 300 (two-page spread image), as shown in FIG. By specifying the point 502 and the lower end point 504, a boundary 506, which is a line segment between the points 502 and 504, is specified.
  • step 356 the text extraction processing unit 35 accepts the designation of the boundary 506, and in step 358, the text extraction processing unit 35 sets flag F to 1.
  • step 360 the text extraction processing unit 35 sets the range of one block in the order from top to bottom of the left page and from top to bottom of the right page determined by the boundary 506. As a result, the translation target portions that are to be translated all at once are set within the column for the text portions.
  • the text retrieval process executes the process of step 106 and subsequent steps in FIG. 3C.
  • one block is set from the top to the bottom of the left page and from the top to the bottom of the right page determined by the boundary 506, so the text of the scanned image of the page is set from top to bottom of the left page.
  • the right page is read from top to bottom (step 106), and a frame is displayed around each word of the text on the entire page (step 108).
  • the button 224 is operated, the text 308 for the entire page is displayed in the text display area 230, as shown in FIG. 13 (step 114).
  • step 86 becomes negative, the target to be translated shifts to the previous page or the next page, and the text extraction mode is selected on the previous page or the next page.
  • flag F is set to 1
  • step 352 a negative determination is made in step 352 and the text extraction process proceeds to step 360, where the above process is executed for the text of the previous page or the next page.
  • step 78 if an image exists on the page, the image is displayed in the output document display area 302 in a range corresponding to the range in the image 300 of the original PDF page by processing in the image retrieval mode.
  • a boundary 506, which is a line segment between the points 502 and 504 is specified, so the scanned image You can easily set the part to be translated.
  • the user uses the mouse 40 to specify a point 502 at the top and a point 504 at the bottom of the boundary between the left page and the right page in the scanned image 300 (two-page spread image). By doing so, a boundary 506, which is a line segment between points 502 and 504, is specified.
  • a boundary 506 which is a line segment between points 502 and 504, is specified.
  • the technology of the present disclosure is not limited to this.
  • an image range 510 for the left page and an image range 512 for the right page may be specified.
  • the user interface 200 in Modification 3 further displays an appearance emphasis mode selection button 270 and an original text emphasis mode selection button 280.
  • the appearance emphasis mode selection button 270 is a button for instructing that the translated data to be displayed in the output document display area 302 be displayed in the same character spacing, line spacing, and font size for each block even if the blocks are different. be.
  • the original text emphasis mode selection button 280 is a button that instructs to display translated data in the output document display area 302 for each block, with the display start position corresponding to the position of the original text.
  • FIG. 16 shows the display contents of the output document display area 302 when the appearance-oriented mode selection button 270 is operated.
  • the translated data is displayed with the same character spacing, line spacing, and font size in each block even if the blocks are different. The user can comfortably understand each of the translation results of the translation target portion set in a plurality of different areas. Note that the translation data of each block may no longer correspond to the position of the original text.
  • FIG. 17 shows the display contents of the output document display area 302 when the original text emphasis mode selection button 280 is operated.
  • the translation data is displayed with the display start position of each block corresponding to the position of the original text, so it corresponds to the position of the original text.
  • the translation result can be understood by the user in a way that corresponds to the scanned image.
  • the number of characters in the translated data is greater than the number of characters in the original text
  • the original text emphasis mode selection button 280 is operated, or if the translated data is displayed in the output document display area 302
  • It may overlap with translated data. Therefore, there are an area 282 for specifying character spacing, an area 284 for specifying line spacing, and an area 286 for specifying font size.
  • Modification 4 As shown in FIG. 18, the user interface 200 in Modification 4 further displays a header import button 208H and a footer import button 208F.
  • the scanned image 300 of each page may include a header portion 302H and a footer portion 302F.
  • the user In order to import the header portion 302H, the user operates the header import button 208H and sets the header portion 302H by specifying the upper left and lower right positions.
  • the accepting unit 29 accepts the settings.
  • the acquisition unit 27 extracts the image of the header portion 302H from the scanned image 300, and the display control unit 23 arranges the image 402H of the header portion 302H in the output document display area 302.
  • the user In order to import the footer portion 302F, the user operates the footer import button 208F and sets the footer portion 302F by specifying the upper left and lower right positions.
  • the accepting unit 29 accepts the settings.
  • the acquisition unit 27 extracts the image of the footer portion 302F from the scanned image 300, and the display control unit 23 arranges the image 402F of the footer portion 302F in the output document display area 302.
  • the image of the same part as the setting for the first page will be used for the other pages of the PDF as well. or as an image of the footer part.
  • Mode 5 In the embodiment described above, when the button 224 is operated, the text 308 in the block 304 is displayed in the text display area 230 (see FIG. 8) for editing by the user, and the translated data is displayed in the output document. It is placed in the display area 302.
  • Modification 5 when translation data is received (affirmative determination in step 120), as shown in FIG. a second area 308B in which the translation is displayed. Therefore, a user who confirms the translation (for example, "of light") of the word (for example, "light”) in the original text in the first area 308A and determines that the translation is not correct, Editing can be performed to correct the translation ("light") in the second area 308B to the correct translation ("light”).
  • the resulting translation (“light”) 308R is reflected in the translation 310 in the output document display area 302.
  • the translated data creation device 10 stores the words of the original text that have been corrected in this way. As shown in FIG.
  • the scanned image 300 is an image of a double-page spread of a book, and includes an image of the left page and an image of the right page of the double-page spread.
  • the technology of the present disclosure is not limited to this.
  • Figure 21 there is an image in which a part with text arranged in one column is located at the top, and a part with text arranged in two columns (a part arranged in two columns) is located at the bottom. good.
  • block 304 when block 304 is specified for the image on the left page as shown in FIG. 21, text 308 of block 304 is displayed in text display area 230 as shown in FIG. , a translation 310 of text 308 is displayed.
  • the second embodiment automatically creates translated data based on scanned images of all double-page spreads of a book. Therefore, as a premise, first, the scanner 14 generates image data by scanning each of all double-page spreads of a book, converts the generated image data of each double-page spread into a PDF, and converts the PDF into a PDF file. It is transmitted to the translated data creation device 10.
  • the functional section of the CPU 22 of the second embodiment further includes a "synthesizing section.”
  • the CPU 22 is an example of a “synthesizer" of the technology of the present disclosure.
  • FIG. 24A shows a flowchart of the automatic mode translated data creation processing program 42P executed by the CPU 22.
  • step 402 the acquisition unit 27 captures scanned images (scanned images of all pages of the PDF). Note that in step 402, a project file is created (step 48 (see FIG. 3B)).
  • step 404 the receiving unit 29 sets the variable p that identifies the PDF page to 0.
  • step 406 the receiving unit 29 increments the variable p by 1.
  • step 408 the determining unit 25 sets the variable p to 0. is 1 or not. If step 408 makes an affirmative determination, the translated data creation process proceeds to step 410, and if step 408 makes a negative determination, the translated data creation process proceeds to step 412.
  • step 412 the transmission processing unit 31 transmits the left scan image and the right scan image determined by the boundary 506 of the scan image of page p (see FIG. 13) to the text extraction device 16.
  • step 414 the determining unit 25 determines whether text and coordinate data have been received. If the text and coordinate data are received from the text extraction device 16, an affirmative determination is made in step 414, and the translated data creation process proceeds to step 416.
  • step 418 the accepting unit 29 determines whether the variable p is the value PE of the final page. If step 418 is negative, text has not been extracted for all pages of the PDF, so the translated data creation process proceeds to step 406.
  • step 418 If step 418 is affirmative, text has been extracted for all pages of the PDF, and the translated data creation process proceeds to step 420.
  • the transmission processing unit 31 transmits all text for all pages of the PDF to the translation device 18.
  • the translation device 18 is, for example, a translation device that provides the above-mentioned Deepl translation service. Note that the translation device may be a translation device that provides Google translation service, or may be specified by the user.
  • step 422 the determination unit 25 determines whether or not translation data has been received.
  • step 422 becomes an affirmative determination, and the translated data creation process proceeds to step 424.
  • step 424 the synthesis unit sets the variable p to 0 again, and in step 426, the synthesis unit increments the variable p by 1.
  • step 428 the synthesis unit applies the translation data to the remaining image of page p (the image of the remaining portion of the scanned image of page p, other than the text, stored in the folder 42F20) so that it corresponds to the original position.
  • a translated document of p pages is created by composing the translated documents.
  • the user in order to send the left scan image and the right scan image to the text extraction device 16, the user specifies the left and right boundaries of the original two-page spread image in the one-page scan image. Just do it. For the remaining pages, the left side scan image and the right side scan image are sent to the text extraction device 16 using the boundary as a reference. Therefore, translations of all pages of the book can be obtained. In particular, translations are automatically obtained from the second page onwards.
  • the compositing unit creates a translated document by compositing the translation data with the remaining images of each page in a manner that corresponds to the original position. Images of parts other than text and translation results can be combined.
  • a third embodiment will be described. Since the configuration of the third embodiment is similar to the configuration of the first embodiment, the explanation thereof will be omitted, and the operation of the third embodiment will be explained below. The operation of the third embodiment has some parts similar to the operation of the second embodiment, so the different parts will mainly be explained.
  • the functional section of the CPU 22 of the third embodiment further includes a "determination section" in addition to the contents of the example shown in FIG. 3A.
  • the user in order to send the left scan image and the right scan image to the text extraction device 16, the user specifies the left and right boundaries of the original spread image in the one-page scan image.
  • the translated data is automatically translated based on the scanned images of all double-page spreads of the book, including the identification of the left and right boundaries of the original double-page spread in the scanned image. It is something to create.
  • FIG. 24B shows a flowchart of the fully automatic mode translated data creation processing program 42P executed by the CPU 22.
  • the third embodiment is based on the premise that the scanner 14 generates image data by scanning each of the two-page spreads of the book, and each generated image data is scanned.
  • the image data of the two-page spread is converted into PDF, and the PDF is sent to the translated data creation device 10.
  • step 410A the processes of steps 402 to 406 are executed, and in step 410A, the determining unit determines the boundaries of a plurality of partial images each surrounded by a margin in the scanned image of page p. . By determining the boundary, the translation target portions that are to be translated all at once are set within the column for the text portions.
  • a partial image is an image of an area where a character string exists.
  • the boundary between two partial images in a scanned image is geometrically predetermined by a vertical line passing through the center of the scanned image (see boundary 506 in FIG. 13).
  • the determining unit geometrically determines boundaries of a plurality of partial images each surrounded by a margin in the scanned image of page p, based on the size of the scanned image.
  • the scanner 14 scans a book, it has a function to detect the density of the double-page spread to be scanned, and when transmitting the PDF to the translated data creation device 10, it also sends information on the density of the double-page spread. You may also do so.
  • the determining unit may determine the boundary based on information on the density of the double-page spread. More specifically, a predetermined density value is predetermined as a threshold value. The determining unit determines each position on the two-page spread of the scanned image as a black position if the density thereof is higher than a threshold value, and a color position if the density thereof is lower than the threshold value (generation of a binary image).
  • the determination unit divides the scanned image into a plurality of regions with a constant area, and determines that an area in which the number of black positions in each area (divided area) is equal to or greater than a predetermined value is an area where characters exist (text area). .
  • the determining unit creates a histogram of the number (frequency) of character areas from the top end to the bottom end of the scan image for each region from the left end to the right end in the scan image.
  • the determining unit calculates the difference in frequency between each area from the left end to the right end of the histogram and the frequency of the adjacent area, and determines an area where the difference is greater than a predetermined value as the first or last area (boundary area) of the character string.
  • the determination unit determines the center between the second boundary area and the third boundary area as the boundary. Further, for example, when six boundary areas are determined, the determining unit determines the center between the second boundary area and the third boundary area as the first boundary, and determines the center between the fourth boundary area and the fifth boundary area. The center with the second boundary area is determined as the second boundary.
  • the determination unit extracts a text area in the scan image by performing layout analysis processing on the scan image.
  • the determination unit determines boundaries so that each text area is divided in the scanned image.
  • the determination unit uses artificial intelligence (AI) to detect the area where the character string exists and the margin area based on the density information at each position of the scanned image, and determines the boundary. You can do it like this. More specifically, the learning model is trained using the density value of each position of the scanned image and information as to whether each position is a text area as training data. The determination unit detects an area where a character string exists and a blank area in the scan image from the density at each position of the scan image and the learning model, and determines the boundary.
  • AI artificial intelligence
  • step 412 the transmission processing unit 31 transmits each of a plurality of partial images obtained by dividing the scanned image of page p by the boundary, in the scanned image of page p, to the text extraction device 16.
  • step 416 onwards are executed.
  • the translated data is automatically generated based on the scanned images of all double-page spreads of the book, including the identification of the left and right boundaries of the original double-page spread images in the scanned images. It is created in
  • sentences in the left column and sentences in the right column which are at the same position from the top, are treated as the same sentence and translated as translation text.
  • Translated data can be created so that translation results correspond to the original text. Therefore, the translation result can be made to correspond to the original text.
  • the determining unit extracts text areas in the scan image by performing layout analysis processing on the scan image, and divides each text area in the scan image. to determine the boundaries. Therefore, even if the scanned image of each page has a mixed number of columns, such as two or three columns of text, the translated data must be created so that the translation result corresponds to the original text. Can be done. Specifically, in a scanned image of one page, parts of text in one column and parts in two columns may be mixed (see Figures 21 to 23), or in a scanned image of the same page, the number of columns may be the same. However, even if the number of columns differs depending on the page (see FIG.
  • the translated data can be created so that the translation result corresponds to the original text.
  • the portion of the scanned image other than the text area is combined with the translated content into the output document as a remaining image.
  • areas other than the text area include margins, headers, footers, photographs, graphs, comics, and the like.
  • these are combined with the translated content into the output document as a residual image.
  • a photo, graph, or manga exists in the scanned image, a message indicating that there is content other than text is displayed, and the user is prompted to select the output document using the image capture mode. They may be synthesized.
  • the process of combining margins, headers, footers, photos, graphs, comics, etc. with the translated content into the output document as remaining images can reduce the processing time compared to compositing in image import mode.
  • image capture mode only necessary items can be selectively combined into an output document.
  • translated data for translation from English to Japanese is created, but the technology of the present disclosure is not limited to this.
  • the above translation is a translation from a first language to a second language different from the first language.
  • the first language is, for example, English, Japanese, Chinese, Korean, German, French, Spanish, Arabic, Hebrew, Pashto, Persian, or the like.
  • the second language is, for example, Japanese, Chinese, Korean, German, French, Spanish, Arabic, Hebrew, Pashto, Persian, English, or the like. More specifically, for example, in the above translation, if the first language is English, the second language may be Japanese, Chinese, Korean, German, French, Spanish, Arabic, These include Hebrew, Pashto, Persian, etc.
  • the first language is Japanese
  • the second languages are English, Chinese, Korean, German, French, Spanish, Arabic, Hebrew, Pashto, Persian, etc.
  • the patterns of the first language and the second language are not limited to these, and each language is not limited to the above languages.
  • each component may exist as long as there is no contradiction.
  • the translation data creation process is realized by a software configuration using a computer
  • the technology of the present disclosure is not limited to this.
  • the software configuration using a computer instead of the software configuration using a computer, only the hardware configuration such as FPGA (FIELD -PROGRAMMABLE GATE ARRAY) or ASIC (Application Specific INTEGRATED CIRCUIT) only.
  • Translation data creation and processing may be performed .
  • a portion of the translated data creation process may be executed by a software configuration, and the remaining processes may be executed by a hardware configuration.
  • Non-transitory computer-readable media includes various types of tangible storage media.
  • Examples of non-transitory computer-readable media include magnetic recording media (e.g., flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (e.g., magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, and CDs.
  • - R/W semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)).
  • the translated data creation processing program 42P may be supplied to the computer by various types of temporary computer-readable media.
  • Examples of transitory computer-readable media include electrical signals, optical signals, and electromagnetic waves.
  • the temporary computer-readable medium can provide the program to the computer via wired communication channels, such as electrical wires and fiber optics, or wireless communication channels.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

文章の部分が複数列に配置された画像と、前記画像から抽出された前記文章の各単語のテキストと、を記憶する記憶部と、前記画像において、前記文章の部分について、まとめて翻訳する対象となる翻訳対象部分を設定する設定部と、前記記憶部から前記設定された翻訳対象部分のテキストを読み出すことにより、前記文章の言語以外の他の言語に翻訳するための被翻訳データを作成する作成部と、を備える被翻訳データ作成装置。

Description

被翻訳データ作成装置、被翻訳データ作成方法、及び被翻訳データ作成プログラム
 本開示の技術は、被翻訳データ作成装置、被翻訳データ作成方法、及び被翻訳データ作成プログラムに関する。
 従来、英文の本の全てのページを、本を壊さないで、翻訳することが要請されている。このような要請に応えるため、特開2015-204015号公報には、本を、見開きの状態でキャンし、見開きのPDF画像を生成し、PDF画像からテキストを抽出し、抽出したテキストを翻訳することが開示されている。翻訳は、各PDF画像のテキストを上から順に行う。
 各PDF画像のテキストを上から順に翻訳すると、本に向かって左ページのある行のテキストから当該行の改行部分を超えて右ページの行の改行部分までのテキストを同じ行のテキストとして、翻訳する。
 しかし、このような同じ行として翻訳する対象の当該左ページのテキストと右ページのテキストとは、意味的は関連しておらず、別々の文として翻訳されるべきである。よって、翻訳結果は、原文に対応しない。
 以上は、複数段(列・コラム)に段組みされている1枚の画像からテキストを抽出し、抽出したテキストを翻訳する場合も同様である。
 本開示の技術は、文章の部分が複数列に配置された画像中のテキストを、各列について被翻訳データとして作成することの可能な被翻訳データ作成装置を提供することを目的とする。
 上記目的達成の本開示の技術の第1の態様の被翻訳データ作成装置は、文章の部分が複数列に配置された画像と、前記画像から抽出された前記文章の各単語のテキストと、を記憶する記憶部と、前記画像において、前記文章の部分について、まとめて翻訳する対象となる翻訳対象部分を設定する設定部と、前記記憶部から前記設定された翻訳対象部分のテキストを読み出すことにより、前記文章の言語以外の他の言語に翻訳するための被翻訳データを作成する作成部と、を備える。
 態様2の態様の被翻訳データ作成装置は、態様1において、前記記憶部に記憶された前記画像を読み出す読み出し部と、前記読み出された前記画像を表示する表示部と、を備え、前記設定部は、前記表示された画像において前記翻訳対象部分を設定する。
 態様3の態様の被翻訳データ作成装置は、態様2において、前記表示部は、前記翻訳対象部分におけるテキストの部分を強調表示する。
 態様4の態様の被翻訳データ作成装置は、態様2又は態様3において、前記表示部は、前記翻訳対象部分を強調表示すると共に前記翻訳対象部分として設定された部分が正しいか否かを確認するメッセージを表示する。
 態様5の態様の被翻訳データ作成装置は、態様2~態様4の何れか1項において、前記設定部は、前記画像において前記翻訳対象部分をブロックとして設定する。
 態様6の態様の被翻訳データ作成装置は、態様2~態様5の何れか1項において、前記設定部は、前記画像を複数の異なる領域に分割する境界を設定することにより、前記翻訳対象部分を設定する。
 態様7の態様の被翻訳データ作成装置は、態様1~態様6の何れか1項において、前記画像は、各々文章の部分が複数列に配置された連続する複数のページ画像を含み、前記設定部は、複数の前記ページ画像に亘って前記翻訳対象部分を設定する。
 態様8の態様の被翻訳データ作成装置は、態様1~態様7の何れか1項において、前記被翻訳データの翻訳結果を取得する取得部を更に備える。
 態様9の態様の被翻訳データ作成装置は、態様8において、前記翻訳対象部分におけるテキスト以外の部分と、前記被翻訳データの翻訳結果と、を合成する合成部を更に備える。
 態様10の態様の被翻訳データ作成装置は、態様9において、前記合成部は、前記翻訳対象部分におけるテキスト以外の部分の中の選択された部分と、前記被翻訳データの翻訳結果と、を合成する。
 態様11の態様の被翻訳データ作成装置は、態様8において、前記画像における前記翻訳対象部分として設定されなかった部分と、前記被翻訳データの翻訳結果と、を合成する合成部を更に備える。
 態様12の態様の被翻訳データ作成装置は、態様11において、前記合成部は、前記画像における前記翻訳対象部分として設定されなかった部分の中の選択された部分と、前記被翻訳データの翻訳結果と、を合成する。
 態様13の態様の被翻訳データ作成装置は、態様1~態様12の何れか1項において、前記翻訳結果を出力する出力部を更に備える。
 態様14の態様の被翻訳データ作成装置は、態様13において、前記出力部は、前記翻訳結果を、表示領域における、前記画像における前記翻訳対象部分の位置に対応する位置に、表示する。
 態様15の態様の被翻訳データ作成装置は、態様13又は態様14において、前記設定部は、前記画像における複数の異なる領域に前記翻訳対象部分を設定し、
 前記出力部は、前記複数の異なる領域に設定された前記翻訳対象部分の翻訳結果の各々を、表示領域に、同一の表示態様で表示する。
 態様16の態様の被翻訳データ作成装置は、態様1において、前記画像は、各々文章の部分が複数列に配置された複数のページ画像を含み、前記設定部は、前記画像における最初のページ画像について、前記翻訳対象部分を設定し、前記作成部は、前記最初のページ画像について設定された翻訳対象部分のテキストを読み出すと共に、前記最初のページ画像以外の他のページ画像について、前記最初のページ画像について設定された前記翻訳対象部分を、当該他のページ画像における翻訳対象部分として、前記テキストを読み出すことにより、前記被翻訳データを作成する。
 態様17の態様の被翻訳データ作成装置は、態様1において、前記画像は、各々文章の部分が複数列に配置された複数のページ画像を含み、前記設定部は、前記複数のページ画像の各々について、前記翻訳対象部分を自動的に設定する。
 態様18の態様の被翻訳データ作成装置は、態様16又は態様17において、前記被翻訳データの翻訳結果を取得する取得部を更に備える。
 態様19の態様の被翻訳データ作成装置は、態様18において、前記複数のページ画像の各々毎に、前記翻訳対象部分以外の部分と、前記被翻訳データの翻訳結果と、を合成する合成部を更に備える。
 第20の態様の被翻訳データ作成装置は、態様1~態様19の何れか1項において、前記文書の部分には、文が、途中で改行されることにより、複数の行に配置されている。
 態様21の態様の被翻訳データ作成方法は、文章の部分が複数列に配置された画像と、前記画像から抽出された前記文章の各単語のテキストと、を記憶する記憶部を備える被翻訳データ作成装置の被翻訳データ作成方法であって、設定部が、前記画像において、前記文章の部分について、まとめて翻訳する対象となる翻訳対象部分を設定するステップと、作成部が、前記記憶部から前記翻訳対象部分のテキストを読み出すことにより、前記文章の言語以外の他の言語に翻訳するための被翻訳データを作成するステップと、を備える。
 態様22の態様の被翻訳データ作成プログラムは、文章の部分が複数列に配置された画像と、前記画像から抽出された前記文章の各単語のテキストと、を記憶する記憶部を備える被翻訳データ作成装置に、前記文章の言語以外の他の言語に被翻訳データ作成処理を実行させる被翻訳データ作成プログラムであって、前記被翻訳データ作成処理は、設定部が、前記画像において、前記文章の部分について、まとめて翻訳する対象となる翻訳対象部分を設定するステップと、作成部が、前記記憶部から前記設翻訳対象部分のテキストを読み出すことにより、前記文章の言語以外の他の言語に翻訳するための被翻訳データを作成するステップと、を備える。
 第1の態様の被翻訳データ作成装置は、画像に文章の部分が複数列に配置されていても、精度のよい翻訳を実行させるための被翻訳データを作成することができる。
 態様2の態様の被翻訳データ作成装置は、ユーザは、画像において翻訳対象部分を任意に設定することができる。
 態様3の態様の被翻訳データ作成装置は、ユーザは、翻訳対象部分におけるテキストの部分を理解することができる。
 態様4の態様の被翻訳データ作成装置は、ユーザは、翻訳対象部分を理解すると共に翻訳対象部分として設定された部分が正しいか否かを確認することができる。
 態様5の態様の被翻訳データ作成装置は、画像において翻訳対象部分を容易に設定することができる。
 態様6の態様の被翻訳データ作成装置は、画像において翻訳対象部分を容易に設定することができる。
 態様7の態様の被翻訳データ作成装置は、複数のページの少なくとも2ページの画像に亘って翻訳対象部分を設定することができる。
 態様8の態様の被翻訳データ作成装置は、被翻訳データの翻訳結果を取得することができる。
 態様9の態様の被翻訳データ作成装置は、翻訳対象部分にあるテキスト以外の部分の画像と翻訳結果とを合成することができる。
 態様10の態様の被翻訳データ作成装置は、翻訳対象部分にあるテキスト以外の部分の中の選択された部分の画像と翻訳結果とを合成することができる。
 態様11の態様の被翻訳データ作成装置は、画像にある翻訳対象部分以外の部分の画像と翻訳結果とを合成することができる。
 態様12の態様の被翻訳データ作成装置は、画像にある翻訳対象部分以外の部分の中の選択された部分の画像と翻訳結果とを合成することができる。
 態様13の態様の被翻訳データ作成装置は、翻訳結果をユーザに理解させることができる。
 態様14の態様の被翻訳データ作成装置は、翻訳結果を、ユーザに画像に対応するように理解させることができる。
 態様15の態様の被翻訳データ作成装置は、複数の異なる領域に設定された翻訳対象部分の翻訳結果の各々をユーザに違和感なく理解させることができる。
 態様16の態様の被翻訳データ作成装置は、画像が、各々文章の部分が複数列に配置された複数のページの画像を含んでいても、各ページの画像について、精度のよい翻訳を実行させるための被翻訳データを作成することができる。
 態様17の態様の被翻訳データ作成装置は、画像が、各々文章の部分が複数列に配置された複数のページの画像を含んでいても、各ページの画像について、翻訳対象部分を自動的に設定することができる。
 態様18の態様の被翻訳データ作成装置は、画像が、各々文章の部分が複数列に配置された複数のページの画像を含んでいても、各ページの画像の翻訳結果を取得することができる。
 態様19の態様の被翻訳データ作成装置は、複数のページの画像の各々にある翻訳対象部分以外の部分の画像と翻訳結果とを合成することができる。
 態様20の態様の被翻訳データ作成方法は、文が、途中で改行されることにより、複数の行に配置されている文書の部分が複数列に配置された画像において、精度のよい翻訳を実行させるための被翻訳データを作成することができる。
 態様21の態様の被翻訳データ作成方法は、画像に、文章の部分が複数列に配置されていても、精度のよい翻訳を実行させるための被翻訳データを作成することができる。
 態様22の態様のプログラムは、画像に、文章の部分が複数列に配置されていても、精度のよい翻訳を実行させるための被翻訳データを作成することができる。
第1の実施の形態の翻訳システムを示すブロック図である。 被翻訳データ作成装置10のブロック図である。 プロジェクトファイルの中のフォルダを示す図である。 フォルダ42F11に記憶されるデータを示す図である。 フォルダ42F12に記憶されるデータを示す図である。 フォルダ42F13に記憶されるデータを示す図である。 フォルダ42F14に記憶されるデータを示す図である。 フォルダ42F15に記憶されるデータを示す図である。 フォルダ42Gに記憶されるデータを示す図である。 フォルダ42Hに記憶されるデータを示す図である。 フォルダ42Iに記憶されるデータを示す図である。 フォルダ42Jに記憶されるデータを示す図である。 CPU22の機能ブロック図である。 CPU22が実行する被翻訳データ作成処理プログラム42Pのフローチャートである。 図3Bのステップ84のテキスト取り出し処理プログラムのフローチャートである。 選択画面130を示す図である。 ユーザーインターフェース200の画像を示す図である。 画像取り出しモードでの、取り出す画像の範囲304Gを設定し、範囲304Gから取り出す画像310Gを出力文書表示エリア302に配置する様子を示す図である。 翻訳のためのテキストの取り出しの範囲であるブロック304を設定する様子を示す図である。 ブロック304内のテキストの各単語の周囲に枠306を表示する様子を示す図である。 ブロック304の設定後、ブロックの再設定を問うメッセージ205を表示する様子を示す図である。 スキャン画像300においてブロックを2つ連続して指定する様子を示す図である。 ブロックに画像が存在する場合、画像取り出しモードを設定し、取り出す画像の範囲304Gを設定し、出力文書表示エリア302に、範囲304Gの画像310Gを配置する様子を示す図である。 見開き画像の左ページと右ページとの境界を指定する場合のテキスト取り出し処理プログラムのフローチャートである。 スキャン画像300において左ページと右ページとの境界の上端の点502と下端の点504とを指定することにより境界506を指定する様子を示す図である。 スキャン画像300において、左ページの画像の範囲510と右ページの画像の範囲512とを指定する様子を示す図である。 見た目重視モード選択ボタン270と原文重視モード選択ボタン280とが更に表示されるユーザーインターフェース200を示す図である。 見た目重視モード選択ボタン270が操作された場合の、出力文書表示エリア302の表示内容を示す図である。 原文重視モード選択ボタン280が操作された場合の、出力文書表示エリア302の表示内容を示す図である。 ヘッダ取り込みボタン208Hとフッダ取り込みボタン208Fとが更に表示されるユーザーインターフェース200を示す図である。 テキスト表示エリア230が、テキストが表示される第1のエリア308Aと、テキストの翻訳が表示される第2のエリア308Bと、が存在するように、変更されたユーザーインターフェース200を示す図である。 既に翻訳が訂正された単語を、テキスト表示エリア230に表示する場合、枠308Wを付加することにより、当該訂正が行われた原文の単語を強調表示する様子を示す図である。 上部に文章の部分が1列に配置された部分が位置し、下部に文章の部分が2列に配置された部分(2列に段組みされた部分)が位置する画像が翻訳対象として表示されたユーザーインターフェース200を示す図である。 左ページの画像についてブロック304が指定されると、テキスト表示エリア230に、ブロック304のテキスト308が表示され、出力文書204に、テキスト308の翻訳310が表示される様子を示す図である。 上部と下部とに文章の部分が2列に配置された部分(2列に段組みされた部分)が位置し、中間部に文章の部分が1列に配置された部分が位置する画像が翻訳対象として表示されたユーザーインターフェース200を示す図である。 自動モードでの被翻訳データ作成処理プログラム42Pのフローチャートである。 全動モードでの被翻訳データ作成処理プログラム42Pのフローチャートである。
 以下、図面を参照して、本開示の技術の実施の形態を説明する。
[第1の実施の形態]
 第1の実施の形態を説明する。図1に示すように、翻訳システムは、インターネット12を介して相互に接続されている被翻訳データ作成装置10、テキスト抽出装置16、及び翻訳装置18を備える。
 被翻訳データ作成装置10には、スキャナ14が接続されている。スキャナ14は、書籍の複数の見開き面の各々を走査(スキャン)することにより画像データを生成し、生成した各見開き面の画像データをPDF(Portable Document Format)に変換し、当該PDFを被翻訳データ作成装置10に送信する。
 PDFの各ページの画像は、本開示の技術の「スキャン画像」の一例である。上記のように書籍の見開き面には、左側のページと右側のページとがあるので、PDFの各ページの画像は、文章の部分が2列に配置されたスキャン画像である。
 被翻訳データ作成装置10は、PDFをテキスト抽出装置16に送信する。テキスト抽出装置16は、受信したPDFからテキストを抽出し、抽出したテキスト及びPDFにおけるテキストの位置を表す座標等を被翻訳データ作成装置10に送信する。
 被翻訳データ作成装置10は、テキストを翻訳装置18に送信する。翻訳装置18は、受信したテキストを翻訳し、翻訳データを被翻訳データ作成装置10に送信する。図1には、翻訳装置18は1個のみ表示されているが、翻訳装置には、詳細には後述するが、Deepl翻訳サービスを提供する翻訳装置と、Google翻訳サービスを提供する翻訳装置とがある。
 被翻訳データ作成装置10が翻訳装置18に送信するテキストは、本開示の技術の「被翻訳データ」の一例である。
 上記例では、翻訳システムは、テキスト抽出装置16及び翻訳装置18を別々に備えるが、本開示の技術はこれに限定されない。例えば、テキスト抽出装置16は省略し、テキスト抽出処理機能を、被翻訳データ作成装置10又は翻訳装置18が有し、被翻訳データ作成装置10又は翻訳装置18がテキスト抽出処理を実行するようにしてもよい。また、翻訳装置18は省略し、翻訳処理機能を、被翻訳データ作成装置10又はテキスト抽出装置16が有し、被翻訳データ作成装置10又はテキスト抽出装置16が翻訳処理を実行するようにしてもよい。更に、テキスト抽出装置16及び翻訳装置18は省略し、テキスト抽出処理機能及び翻訳処理機能を被翻訳データ作成装置10が有し、被翻訳データ作成装置10がテキスト抽出処理機能及び翻訳処理を実行するようにしてもよい。
 図2Aに示すように、被翻訳データ作成装置10は、コンピュータ20と、各々コンピュータ20に接続されているディスプレイ32、通信インターフェース(I/F)36、キーボード38、マウス40、及び記憶装置42と、を備えている。
 記憶装置42は、本開示の技術の「記憶部」の一例である。マウス40は、本開示の技術の「設定部」の一例である。ディスプレイ32は、本開示の技術の「出力部」、「表示部」の一例である。通信インターフェース(I/F)36は、本開示の技術の「取得部」の一例である。
 コンピュータ20は、CPU(Central Processing Unit)22、ROM(Read Only Memory)24、RAM(Random Access Memory)26、及び入出力(I/O)ポート28を備えている。CPU22、ROM24、RAM26、及びI/Oポート28は、バス30を介して、相互に接続されている。I/Oポート28には、ディスプレイ32、通信インターフェース(I/F)36、スキャナ14、キーボード38、マウス40、及び記憶装置42が接続されている。通信インターフェース(I/F)36は、インターネット12を介して、テキスト抽出装置16及び翻訳装置18と通信可能に接続されている。
 記憶装置42は、一時的でない有形のコンピュータが可読可能な記録媒体(non-transitory tangible Computer Readable media)であり、例えば、HDD(Hard disk drive)やSSD(Solid state drive)等の不揮発性の記憶装置である。
 記憶装置42には、データテーブル42T及び被翻訳データ作成処理プログラム42Pが記憶されている。
 データテーブル42Tには、スキャン画像記憶エリア42M11~42M15及びプロジェクトファイル記憶エリア42M21、42M22が設けられている。
 スキャン画像記憶エリア42M11~42M15には、スキャナ14から送信されたPDFが記憶されている。具体的には、スキャン画像記憶エリア42M11~42M15のそれぞれには、識別名のPDFa~PDFeで識別されるPDFが記憶されている。
 プロジェクトファイル記憶エリア42M21、42M22は、スキャン画像記憶エリア42M11、42M12に対応して設けられている。詳細には、PDFについて被翻訳データ作成処理プログラム42Pが実行されると、当該PDFについてのプロジェクトファイルが作成され、当該PDFを記憶するスキャン画像記憶エリアに対応して、当該プロジェクトファイルを記憶するプロジェクトファイル記憶エリアが設けられる。
 図2Aに示す例では、スキャン画像記憶エリア42M11、42M12に対応してプロジェクトファイル記憶エリア42M21、42M22が設けられている。識別名のPDFa、PDFbで識別されるPDFについて被翻訳データ作成処理プログラム42Pが実行され、プロジェクトファイルa、プロジェクトファイルbで識別される各プロジェクトファイルが作成される。プロジェクトファイルa、プロジェクトファイルbで識別される各プロジェクトファイルがプロジェクトファイル記憶エリア42M21、42M22に記憶されている。なお、PDFc~PDFeで識別されるPDFについては被翻訳データ作成処理プログラム42Pが実行されておらず、プロジェクトファイル記憶エリアが設けられていない。
 次に、図2B~図2Kを参照して、プロジェクトファイルを説明する。「プロジェクトファイルa」、「プロジェクトファイルb」で識別される各プロジェクトファイルは同様の内容になっているので、以下、プロジェクトファイルaで識別されるプロジェクトファイルのみ説明し、他のプロジェクトファイルの説明を省略する。即ち、プロジェクトファイル記憶エリア42M21の記憶内容を説明する。
 図2Bに示すように、プロジェクトファイル記憶エリア42M21には、PDFの各ページについてのフォルダ42F10、42F20、・・・(ページ枚数分)、PDF全体についてのフォルダ42G~42Jと、が設けられている。
 各ページについてのフォルダ42F10、42F20、・・・は、同様の内容になっているので、以下、ページ1についてのフォルダ42F10のみ説明し、他のフォルダ42F20、・・・の説明を省略する。フォルダ42F10には、フォルダ42F11~フォルダ42F15が設けられている。フォルダ42F11は、翻訳前の状態のページの画像を記憶するフォルダである。フォルダ42F12は、アノテーションしたテキストデータを記憶するフォルダである。フォルダ42F13は、翻訳作業後の文書画像を記憶するフォルダである。フォルダ42F14は、翻訳のため選択済みのテキストの位置を記憶するフォルダである。フォルダ42F15は、取り出した画像を記憶するフォルダである。
 次に、PDF全体についてのフォルダ42G~42Jを説明する。フォルダ42Gは、取り出し画像のメタデータを記憶するフォルダである。フォルダ42Hは、翻訳後の画像に表示するテキストを記憶するフォルダである。フォルダ42Iは、翻訳したテキストを記憶するフォルダである。フォルダ42Jは、プロジェクトと翻訳作業のメタデータを記憶するフォルダである。
 次に、上記各フォルダ(42F11~42J)を詳細に説明する。
 図2Cに示すように、フォルダ42F11は、翻訳前の状態のページの画像を記憶する。上記のように、スキャナ14からPDFが送信されると、受信したPDFの画像データは、スキャン画像記憶エリアに記憶される。フォルダ42F11には、スキャン画像記憶エリア42M11に記憶されているPDFの翻訳前の状態の1ページ全体の画像データが、コピーされて、記憶される。
 図2Dに示すように、フォルダ42F12は、アノテーションしたテキストデータを記憶する。詳細には後述するが、PDFの1ページ全体の画像データがテキスト抽出装置16に送信される。テキスト抽出装置16は、PDFの1ページ全体の画像データから各単語のテキストを抽出し、テキストの言語を検出し、各単語のPDFの1ページの画像における位置を特定する。具体的には、例えば、'The', 'Logic', 'of', 'Scientific'の各単語のテキストが抽出された場合、テキストの言語として、英語が検出される。1ページの画像における各単語のテキストの位置(四隅の位置)を、以下のように特定される。
 例えば、'The'の左上の位置として、 [1154, 420]、右上の位置として、 [1279, 420]、右下の位置として、 [1279, 465]、及び、左下の位置として、 [1154, 465]]が特定される。他の単語についてもの同様に、左上~左下の位置が以下のように特定される。
'Logic'について、 [1310, 420], [1481, 420], [1481, 479], [1310, 479]]。
'of'について、[1512, 420], [1577, 420], [1577, 465], [1512, 465]]。
'Scientific'について、[1602, 420], [1895, 420], [1895, 465], [1602, 465]]。
 テキスト抽出装置16は、各単語のテキスト、テキストの言語、各単語のPDFの1ページの画像における位置を、被翻訳データ作成装置10に送信する。各単語のテキスト、テキストの言語、各単語のPDFの1ページの画像における位置がフォルダ42F12に記憶される。
 図2Eに示すように、フォルダ42F13は、翻訳作業後の文書画像を記憶する。詳細には後述するが、テキスト(被翻訳データ)が翻訳装置18に送信される。翻訳装置18は、テキストを、指定された言語に翻訳し、翻訳データを被翻訳データ作成装置10に送信する。図2Eに示すように、被翻訳データ作成装置10では、翻訳内容を元の画像のテキストの位置に対応するように配置することにより、文書画像を生成し、生成した文書画像をフォルダ42F13に記憶する。
 図2Fに示すように、フォルダ42F14は、翻訳のため選択済みのテキストの位置を記憶する。詳細には後述するが、ユーザは、マウス40を介して、PDFの表示されたページの画像について、翻訳してほしい範囲を選択する。これにより翻訳の範囲が設定される。一方、上記のように、被翻訳データ作成装置10は、当該ページの画像については、テキスト抽出装置16から、各単語のテキストの位置を受信している。フォルダ42F14は、PDFの表示されたページの画像についての翻訳してほしい範囲における、翻訳のため選択済みの各テキストの位置を記憶する。例えば、あるテキストについて、左上~左下の位置として、(x1、y1)、(x2、y1)、(x2、y2)、(x1、y2)が記憶される。
 図2Gに示すように、フォルダ42F15には、取り出した画像を記憶する。詳細には後述するが、翻訳元のPDFのページに画像(グラフ等)等があり、翻訳結果の出力文書に当該画像を配置したい場合、ユーザは、マウス40を用いて、翻訳元のPDFのページにおいて画像を選択する。なお、当該画像は、当該画像を含む長方形の範囲を、左上と右下の2点の位置を選択することにより、選択される。被翻訳データ作成装置10は、翻訳元のPDFのページにおける選択された画像を取り出し、取り出した画像を、フォルダ42F15に記憶させる。図2Gに示す例では、翻訳元のPDFの1ページに2つのグラフの画像15G1、15G2が存在し、ユーザが画像15G1、15G2を選択し、フォルダ42F15に、画像15G1、15G2と、各画像の識別データ(ID)とが対応して記憶されている例が示されている。例えば、画像15G1を、取り出す画像として選択する場合、ユーザは、マウス40を用いて、画像15G1を含む長方形の範囲の左上の位置(xLU、yLU)と右下の位置(xRD、yRD)を選択する。画像15G1と、画像15G1のID(例えば、ID15g1)とが対応して記憶される。なお、図2Gに示す例は図2Cに示す例とは異なるが、本実施の形態の内容を理解し易くするため便宜的に、ページ1に2つのグラフの画像15G1、15G2が存在するとしている。
 図2Hに示すように、フォルダ42Gは、取り出した画像を特定するためのデータであるメタデータを記憶する。メタデータには、ページ数、画像のID、位置1、位置2がある。図2Gに示す例で説明すると、例えば、上記のように画像15G1が取り出されたので、ページ数として1、画像のIDとしてID15g1、位置1(左上の位置)として(xLU、yLU)、及び位置2(右下の位置)として(xRD、yRD)が対応してフォルダ42Gに記憶される。
 図2Iに示すように、フォルダ42Hは、翻訳後の画像(出力文書画像)に表示するテキストを記憶する。具体的には、フォルダ42Hは、テキスト毎に、テキスト、言語(翻訳後)、回転角度、フォントサイズ、ページ、開始位置、ステータス、行間隔、及びフォントサイズ補正値を記憶する。ステータスとは、テキストを現在、翻訳処理中なのか、あるいは、すでに出力文書画像への出力が終了したのかを、被翻訳データ作成装置10が判断できるようにするためのフラグである。翻訳処理中の場合にはVIEW、出力終了の場合にはNEWがフラグとして記憶される。
 図2Jに示すように、フォルダ42Iは、翻訳したテキスを記憶する。具体的には、フォルダ42Iは、テキスト毎に、テキスト、言語、回転角度、最大フォントサイズ、ページ、位置(左上位置と右下位置の対角2点)を記憶する。最大フォントサイズとは、座標を指定して取り出したテキストの中で最大のフォントである。これは、フォントサイズの調整のために使用される。
 図2Kに示すように、フォルダ42Jは、プロジェクトと翻訳作業のメタデータとを記憶する。具体的には、フォルダ42Jは、本プロジェクトファイルの対象の元となったPDFへのパス(リンク)、ページ数、前回開いていたページ、及びPDFタイトルを記憶する。詳細には後述するが、被翻訳データ作成処理(図3B)では、ユーザは、PDFのページを指定し、指定されたページについて翻訳する範囲を選択し、その範囲のテキスト(被翻訳データ)を作成する。被翻訳データ作成処理は、PDFの全てのページについて翻訳が完了せずに終了する場合もある。よって、翻訳が全てのページについて完了しているPDFもあれば、途中で翻訳が中断しているPDFもある。途中で翻訳が中断している場合には、翻訳を続いて行えるように、前回開いていたページを記憶するようにしている。
 図3Aには、CPU22の機能ブロック図が示されている。CPU22の機能は、表示制御機能、判断機能、取得機能、受け付け機能、送信処理機能、記憶処理機能、テキスト取り出し処理機能、及び出力処理機能を有する。図3Aに示すように、CPU22は、被翻訳データ作成処理(図3B)を実行することにより、表示制御部23、判断部25、取得部27、受け付け部29、送信処理部31、記憶処理部33、テキスト取り出し処理部35、及び出力処理部37として機能する。
 CPU22、具体的には、テキスト取り出し処理部35は、本開示の技術の「作成部」、「読み出し部」の一例である。
 次に、本実施の形態の作用を説明する。
 図3Bには、CPU22が実行する被翻訳データ作成処理プログラム42Pのフローチャートが示されている。CPU22が被翻訳データ作成処理プログラム42Pを実行すると、被翻訳データ作成処理が実行される。被翻訳データ作成処理プログラム42Pは、図示しないスタートボタンがオンされた場合にスタートする。
 ステップ44で、表示制御部23は、ディスプレイ32に、図4に示すように、選択画面130を表示する。選択画面130には、プロジェクトファイルを、画像のファイルから新規作成することを促す表示部132と、既存のプロジェクトを開くことを促す表示部134と、がある。上記例(図2A参照)では、5つのスキャン画像(PDFa~PDFeで識別されるPDF)が記憶され、PDFa、PDFbで識別されるPDFのみについてプロジェクトファイルが作成されている。プロジェクトファイルを新規に作成する対象は、PDFc~PDFeで識別されるPDFであるので、当該PDFの識別名132c~132eが、表示部132に対応して表示される。一方、既存のプロジェクトファイルとしては、識別名のプロジェクトファイルa、プロジェクトファイルbで識別されるプロジェクトファイルであるので、プロジェクトファイルの識別名134a、134bが、表示部134に対応して表示される。
 ステップ46で、判断部25は、新規作成が選択されたか否かを判断する。
 ユーザは、プロジェクトファイルを新規に作成し、被翻訳データを作成したいと考えた場合は、マウス40で、識別名132c~132eの何れかを選択する。一方、ユーザは、既存のプロジェクトファイルを選択し、被翻訳データの作成を続行したいと考えた場合は、マウス40で、識別名134a又は識別名134bを選択する。
 識別名132c~132eの何れかが選択された、即ち、新規作成が選択された場合、ステップ46が肯定判定となり、被翻訳データ作成処理は、ステップ48に進む。識別名134a又は識別名134bが選択された場合、ステップ46が否定判定となり、被翻訳データ作成処理は、ステップ50に進む。
 ステップ48で、取得部27は、プロジェクトファイルを作成する。例えば、識別名132cが選択された場合、PDFcで識別されるPDFについてプロジェクトファイル(図2B参照)が作成される。具体的には、当該PDFの各ページについてのフォルダ42F10、42F20、・・・と、PDF全体についてのフォルダ42G~42Jと、が作成される。例えば、当該PDFの各ページの画像がフォルダ42F11に記憶される。当該PDFの画像データがテキスト抽出装置16に出力され、テキスト抽出装置16から送信された、当該PDFの各ページのテキスト、テキストの言語、及びテキストの位置のデータを受信し、これらのデータがフォルダ42F12に記載される。この段階では、フォルダ42F13~フォルダ42F15、及び、フォルダ42G~42Iにはデータは記憶されない。フォルダ42Jには、当該PDFへのパス(リンク)及びページ数が記載される。
 ステップ50で、取得部27は、プロジェクトファイルを読み出す。例えば、識別名134aが選択された場合、プロジェクトファイルaで識別されるプロジェクトファイル(図2B参照)が読み出される。
 ステップ48又はステップ50の処理が実行されると、被翻訳データ作成処理は、ステップ52に進む。ステップ52で、取得部27は、スキャン画像を記憶装置42から取り込む。具体的には、上記例では、例えば、識別名132cが選択された場合、PDFcで識別されるPDFのスキャン画像が取り込まれる。識別名134aが選択された場合、プロジェクトファイルaで識別されるプロジェクトファイルに対応するPDF(PDFaで識別されるPDF)が取り込まれる。
 ステップ54で、表示制御部23はディスプレイ32の表示画面に、図5に示すユーザーインターフェース200の画像を表示する。
 ユーザーインターフェース200には、スキャン画像表示エリア202及び出力文書画像表示エリア204が表示される。
 ユーザーインターフェース200には、テキストの取り出しを指示するボタン206、画像の取り出しを指示するボタン208、改行を自動で判断させることを指示するボタン210、改行せず連結させることを指示するボタン212、及び元テキスト通りに改行させることを指示するボタン214が表示される。
 ユーザーインターフェース200には、Deepl翻訳サービスを提供する翻訳装置に翻訳をさせることを指示するボタン216、Google翻訳サービスを提供する翻訳装置に翻訳をさせることを指示するボタン218、及び翻訳しないことを指示するボタン220が表示される。
 ユーザーインターフェース200には、テキスト選択後にそのまま翻訳させることを指示するボタン222、テキスト選択後に編集してから翻訳させることを指示するボタン224、自動で翻訳元の言語を判断させることを指示するボタン226、及び翻訳先の言語を指示するボタン228が表示される。
 ユーザーインターフェース200には、テキスト表示エリア230が表示される。ユーザーインターフェース200には、行間を指示するボタン232、原文比フォントサイズを指示するボタン234、確定ボタン236、及びページの編集をクリアにさせることを指示するボタン238が表示される。なお、ボタン234において、例えば、0.8が指示されると、出力文書のフォントとして、原文(元の本の画像)のフォントの0.8のフォントが指示される、
 ユーザーインターフェース200には、現在表示しているページ(例えば、「3/7」)を示すページ表示エリア242、翻訳する対象を前ページ(例えば、「2/7」)に移行させることを指示するボタン244、及び翻訳する対象を後ページ(例えば、「4/7」)に移行させることを指示するボタン246が表示される。現在表示しているページとして「3/7」が表示されることは、PDFには7ページの画像が存在し、その中の3ページが表示されていることを意味する。
 ユーザーインターフェース200には、元資料(翻訳前の当初のPDFのスキャン画像)の一部を回転補正することを指示するボタンを表示するエリア240が表示される。エリア240には、表示されているページの中の回転補正する範囲を選択することを指示するボタン252、元の縮尺を維持して回転させることを指示するボタン254、及び選択した範囲に収まるサイズに縮尺して回転させることを指示するボタン256がある。エリア240には、左に1°回転させることを指示するボタン258、左に90°回線させることを指示するボタン260、右に1°回転させることを指示するボタン262、右に90°回転させることを指示するボタン264、キャンセルを指示するボタン266、及び編集完了を設定するボタン268がある。
 例えば、当該PDFは、7ページのスキャン画像があり、ボタン244又はボタン246が操作され、当該PDFの3ページ目が選択されると、スキャン画像表示エリア202には、当該PDFの3ページ目のスキャン画像300が表示される。
 ユーザは、ユーザーインターフェース200の上記ボタンを選択して、設定をする。例えば、ユーザは、当該PDFの3ページ目のスキャン画像300について、一部を回転補正することを希望する場合には、エリア240のボタン252を操作する。ユーザは、スキャン画像300について、テキストの取り出しを希望する場合には、ボタン206を操作する。ユーザは、スキャン画像300の中の画像の取り出しを希望する場合には、ボタン208を操作する。その他、ボタンを用いて、所望の設定を行う。
 ステップ56で、受け付け部29は、ユーザーインターフェース200の設定を受け付ける。
 ステップ58で、判断部25は、スキャン画像の回転補正モードが選択されたか否かを判断する。即ち、判断部25は、ボタン252が操作されたか否かを判断する。ボタン252が操作されたと判断された場合、被翻訳データ作成処理はステップ60に進む。ボタン252が操作されたと判断されなかった場合、被翻訳データ作成処理はステップ72に進む。
 ユーザは、スキャン画像300を見て傾いていると判断すると、その傾きを補正するため、スキャン画像の回転補正モードを選択(ボタン252を操作)する。スキャン画像が傾いていると、テキスト抽出処理16の抽出結果が悪いからである。
 ユーザは、ボタン252を操作した後、回転補正する範囲を、マウス40で選択する。ユーザは、その範囲の画像を左に回転させることを希望する場合、ボタン258を操作する。なお、ボタン254が操作されると、上記範囲の画像が元の縮尺を維持して回転させることが指示され、ボタン256が操作されると、上記範囲の画像が、選択した範囲に収まるサイズに縮尺して回転させることが指示される。
 ステップ60で、受け付け部29は、回転補正の設定を受け付ける。上記のように、ボタン258等の操作による設定を受け付ける。
 ステップ62で、表示制御部23は、スキャン画像を、設定に従って、回転する。
 スキャン画像が90°右向きであった場合、ユーザは、ボタン260を操作し、その設定が受け付けられ(ステップ60)、上記範囲の画像が90°左に回転する(ステップ62)。
 以上とは逆に、ユーザは、その範囲の画像を右に回転させることを希望する場合、ボタン262又はボタン264を操作し、その設定が受け付けられ(ステップ60)、上記範囲の画像が、これに応じて右に回転する(ステップ62)。
 ステップ64で、判断部25は、ボタン268が操作されることにより、編集完了が設定されたか否かを判断する。
 ボタン266が操作されると、ステップ64が否定判定となり、この設定が受け付けられ(ステップ60)、上記範囲の画像が元の状態で表示される(ステップ62)。
 ボタン258~264が操作される毎に、ステップ64が否定判定となり、その設定が受け付けられ(ステップ60)、上記範囲の画像が、これに応じて回転する(ステップ62)。
 一方、上記範囲の画像の傾きが現在の傾きでよいと判断したユーザは、ボタン268を操作する。これにより、ステップ64が肯定判定となり、被翻訳データ作成処理はステップ66に進む。
 ステップ66で、送信処理部31は、現在のページの回転処理後のスキャン画像をテキスト抽出装置16へ送信し、ステップ68で、判断部25は、テキストと座標のデータを受信したか否かを判断する。テキスト抽出装置16は、現在のページの回転処理後のスキャン画像からテキストを抽出し、当該ページのテキスト、テキストの言語、及びテキストの位置(座標)のデータを被翻訳データ作成装置10に送信し、被翻訳データ作成装置10はこれらのデータを受信する(ステップ68が肯定判定となる)。これにより、回転補正前の元のスキャン画像からのテキスト抽出よりは、抽出結果がよくなる場合がある。
 ステップ70で、記憶処理部33は、テキスト、テキスト言語、座標のデータをフォルダ42F12(図2B、図2D参照)に記憶する。
 ステップ70の処理後、被翻訳データ作成処理は、ステップ86に進む。ステップ86で、判断部25は、PDFを出力するか否かを判断する。
 スキャン画像の回転補正モードの上記処理が終了すると、ユーザは、ボタン206又はボタン208を操作する場合がある。ボタン206又はボタン208が操作されると、ステップ86が否定判定となり、被翻訳データ作成処理はステップ56に戻り、ユーザーインターフェースの設定(ボタン206又はボタン208の操作)が受け付けられ、ステップ58が否定判定となる。
 ステップ58が否定判定となると、被翻訳データ作成処理はステップ72に進む。
 ステップ72で、判断部25は、画像取り出しモードが選択されたか否かを判断する。ボタン208が操作されると、ステップ72が肯定判定となり、被翻訳データ作成処理はステップ74に進む。ボタン206が操作されると、ステップ72が否定判定となり、被翻訳データ作成処理はステップ82に進む。
 ステップ74で、受け付け部29は、取り出す範囲の設定を受け付ける。ユーザは、ボタン208を操作することにより画像取り出しモードを選択すると、図6に示すように、取り出す画像の範囲304Gを、左上と右下の各位置をマウス40により、設定する。ステップ74でこの設定が受け付けられ、ステップ76で、取得部27は、スキャン画像300から設定された範囲304Gの画像を取り出し、ステップ78で、表示制御部23は、出力文書表示エリア302に、範囲304Gの画像310Gを配置する。
 ステップ80で、記憶処理部33は、プロジェクトファイルのフォルダ42F15(図2G参照)に画像310Gを記憶する。ステップ80の処理の後、被翻訳データ作成処理はステップ86に進む。
 ボタン206が操作されると、ステップ86が否定判定となり、被翻訳データ作成処理はステップ56に戻り、ユーザーインターフェースの設定(ボタン206の操作)が受け付けられ、ステップ58、72が否定判定となり、ステップ82で、判断部25は、テキスト取り出しモードが選択されたか否かを判断し、ステップ82が肯定判定となる。ステップ82が肯定判定となると、被翻訳データ作成処理はステップ84に進む。ステップ82が否定判定となると、被翻訳データ作成処理はステップ86に進む。
 ステップ84で、テキスト取り出し処理部35は、テキスト取り出し処理を実行する。
 図3Cには、図3Bのステップ84のテキスト取り出し処理プログラムのフローチャートが示されている。
 ステップ102で、テキスト取り出し処理部35は、ブロックが指定されたか否かを判断する。ステップ102が否定判定の場合、ステップ102が肯定判定となるまで、ステップ102の判断が実行される。ユーザは、ボタン206を操作すると、図7に示すように、翻訳のためのテキストを取り出す範囲であるブロック304をマウス40で左上と右下の各位置を設定する。
これにより、ステップ102が肯定判定となり、ステップ104で、テキスト取り出し処理部35は、ブロック304の指定(左上と右下の各位置の設定)を受け付ける。
 ところで、図7に示すように、当該PDFの当該ページのスキャン画像300には、文章の部分が2列に配置されている。左側の列の文と右側の列の文とは、上部からの位置が同じであっても、異なる文であり同じ文を構成しない。よって、上部からの位置が同じである左側の列の文と右側の列の文とを同じ文として翻訳用のテキストとして翻訳してしまうと、翻訳結果は原文に対応しない。そこで、ユーザは、同じ列においてブロック304を設定する。ブロック304は、文章の部分について列内において、まとめて翻訳する対象となる翻訳対象部分である。ユーザは、ブロック304を設定することにより、文章の部分について列内において、まとめて翻訳する対象となる翻訳対象部分を設定する。
 ステップ106で、テキスト取り出し処理部35は、ブロック304内のテキストを読み出す。上記のように、各ページのフォルダ42F12には、テキスト、テキスト言語、座標のデータが記憶されている。そこで、ステップ106で、テキスト取り出し処理部35は、当該ページにおいて指定されたブロック304に存在するテキストを、フォルダ42F12から読み出す。ステップ106で、テキスト取り出し処理部35は、ブロック304に存在するテキストの位置をフォルダ42F14(図2F)に記憶する。
 ステップ108で、テキスト取り出し処理部35は、図8に示すように、フォルダ42F12(図2D参照)に記憶されているテキストの座標の位置のデータに基づいて、ブロック304内のテキストの各単語の周囲に枠306を表示する。図8には、「Scientific」のみ拡大して表示しているが、実際は拡大されるわけではない。これは、理解を容易にするため、特に拡大して表示している。なお、ブロック304内の単語の周囲に枠306を表示することに限定されず、単語に下線を引いてもよい。
 ステップ108の処理後、被翻訳データ作成処理はステップ110に進む。ブロック304が、スキャン画像300の中の文章の段落に対応する場合、段落の上側と下側とがブロック内の範囲になるように、設定される。しかし、例えば、図9に示すように、ブロック304が、段落の下側を超え、更に次の段落の上側も超えて、設定される場合がある。このようにブロック304が、段落の下側を超え、更に次の段落の上側も超えて、設定されると、翻訳の対象となるテキストに、次の段落の文の途中までの単語が含まれ、翻訳結果が、原文の意味に沿わなくなる。そこで、テキスト取り出し処理部35は、ブロック304が設定されると、図9に示すように、ブロックの再設定を問うメッセージ205を表示するようにしてもよい。メッセージ205は、例えば、「再指定しますか?」等である。ユーザは、翻訳対象部分として設定された部分が正しいか否かを確認することができる。なお、ユーザは、ブロックを再設定する場合には、再度、左上と右下の各位置を再度指定する。
 ステップ110で、テキスト取り出し処理部35は、ボタン222が操作されてか否かを判断することにより、そのまま翻訳モードが選択されているか否かを判断する。ボタン222が操作された場合には、ステップ110が肯定定判定となり、被翻訳データ作成処理はステップ112に進む。
 ボタン224が操作された場合には、ステップ110が否定判定となり、被翻訳データ作成処理はステップ114に進む。ボタン224は、ユーザが、テキスト選択後に、テキストを編集してから翻訳させることを希望する場合に操作されるボタンであり、ボタン224が操作されると、ユーザが編集できるように、ステップ114で、テキスト取り出し処理部35は、図8に示すように、テキスト表示エリア230にブロック304内のテキスト308を表示する。
 ステップ116で、テキスト取り出し処理部35は、確定ボタン236がオンされたか否かを判断する。テキスト表示エリア230に表示されたテキストを編集する場合には、ユーザは、マウス40で編集対象を指定し、キーボード38を用いて、編集する。マウス40又はキーボード38からの入力があった場合には、確定ボタン236がオンされたと判断できず、ステップ116は否定判定となり、ステップ118で、テキスト取り出し処理部35は、編集を受け付け、被翻訳データ作成処理はステップ116に戻る。編集が続くと、マウス40又はキーボード38からの入力があり、ステップ116は否定判定となり、ステップ118で、テキスト取り出し処理部35は、編集を受け付ける。ステップ118では、テキスト取り出し処理部35は、編集されたテキストの位置をフォルダ42F14に記憶する。
 ユーザは、編集が終わると、確定ボタン236をオンする。これにより、ステップ116が肯定判定となり、被翻訳データ作成処理はステップ112に進む。
 ステップ112で、テキスト取り出し処理部35は、ブロック304の内のテキストを、ボタン228により指示された翻訳先の言語を示すデータと共に、指定された翻訳装置18に送信する。ボタン216が操作されていれば、Deepl翻訳サービスを提供する翻訳装置に、ボタン218が操作されていれば、Google翻訳サービスを提供する翻訳装置に、ブロック304の内のテキストを送信する。
 ステップ120で、テキスト取り出し処理部35は、翻訳データを受信したか否かを判断する。ステップ120の判断処理は、肯定判定となるまで、繰り返される。ブロック304の内のテキストを受信した翻訳装置18は、指示された言語にテキストを翻訳し、翻訳データを、被翻訳データ作成装置10に送信する。被翻訳データ作成装置10は、翻訳データを受信し、ステップ120が肯定判定となる。
 ステップ122で、テキスト取り出し処理部35は、図8に示すように、翻訳データを、出力文書表示エリア302の、元のPDFのページの画像306におけるブロック304の位置に対応する位置に表示する。
 ステップ124で、テキスト取り出し処理部35は、プロジェクトファイルのフォルダ42H(図2I参照)に、翻訳データ、即ち、テキスト毎に、テキスト、言語(翻訳後)、回転角度、フォントサイズ、ページ、開始位置、ステータス、行間隔、及びフォントサイズ補正値を記憶する。
 ステップ124の処理が終了すると、図3Bのステップ84の処理が終了し、被翻訳データ作成処理はステップ86に進む。
 ステップ86で、判断部25は、PDFを出力するか否かを判断する。ディスプレイに示されている処理画面には、ユーザーインターフェース200の他に、各種指示をするための図示しない指示ボタンがあり、指示ボタンにはPDFの出力を指示する指示ボタンがある。当該PDFの出力を指示する指示ボタンが操作されなければ、ステップ86は否定判定となり、被翻訳データ作成処理はステップ56に戻る。
 例えば、ボタン244又はボタン246が操作されると、ステップ86が否定判定となり、ステップ56で、翻訳する対象を前ページ又は後ページに移行させることの設定が受け付けられ、スキャン画像表示エリア202に、前ページ又は後ページが表示され、スキャン画像の回転補正モード、画像取り出しモード、又はテキスト取り出しモードが選択され、以上の処理が実行される。
 ボタン244又はボタン246等が操作されず、上記PDFの出力を指示する指示ボタンが操作されると、ステップ86は肯定判定となり、被翻訳データ作成処理はステップ88に進む。
 ステップ88で、出力処理部37は、出力文書表示エリア302の画像をPDFで出力する。当該PDFがディスプレイ32に表示される。出力文書表示エリア302の画像のみではなく当該翻訳対象のPDFにおいて翻訳が終了したページを全て又は選択的にPDFで出力してもよい。なお、印刷装置を備え、出力文書表示エリア302の画像を印刷装置により印刷するようにしてもよい。ステップ88の処理が終了すると、被翻訳データ作成処理プログラム42Pの実行が終了する。
 以上説明したように本実施の形態では、文章の部分が2列に配置されているスキャン画像300において、同じ列(左側の列または右側の列)においてブロック304を設定しているので、上部からの位置が同じである左側の列の文と右側の列の文とを同じ文として翻訳用のテキストとして翻訳することを防止し、翻訳結果が原文に対応するように、被翻訳データを作成することができる。よって、翻訳結果を原文に対応させることができる。ブロック304を設定するので、スキャン画像において翻訳対象部分を容易に設定することができる。
 また、本実施の形態では、翻訳のためのテキストを取り出す範囲であるブロック304をマウス40で設定するので、翻訳対象部分を任意に設定することができる。
 更に、本実施の形態では、ブロック304内のテキストの各単語の周囲に枠306又は下線を表示するので、ユーザは、翻訳対象部分におけるテキストの部分を理解することができる。
 本実施の形態では、ブロック304の内のテキストの送信先の翻訳装置18から、翻訳データを受信するので、被翻訳データの翻訳結果を取得することができる。
 また、本実施の形態では、出力文書表示エリア302の画像をPDFで出力(表示または印刷)するので、翻訳結果をユーザに理解させることができる。
  次に、変形例を説明する。
(変形例1)
 ステップ102の処理の説明では、理解を容易にするため、ブロックが1つ指定された場合、ステップ102が肯定判定となるとしているが、本開示の技術はこれに限定されず、ブロックを複数連続して指定した場合に、ステップ102が肯定判定となるようにしてもよい。
 図10には、スキャン画像300においてブロックを複数、例えば、2つ連続して指定する様子が示されている。ユーザは、キーボード38の所定のキーを操作した状態で、マウス40で、ブロックを連続して複数指定することができる。図10に示す例では、ユーザは、キーボード38の所定のキーを操作した状態で、マウス40で、ブロック304Aとブロック304Bとを連続して複数指定する。この場合、ブロック304A及びブロック304Bの各々のテキストが読み出され(ステップ106)、各単語の周囲に枠が表示される(ステップ108)。ボタン224が操作されていると、ブロック304A及びブロック304Bの各々のテキストがテキスト表示エリア230に表示される(ステップ114)。ブロック304A及びブロック304Bの各々のテキストが翻訳される。各翻訳データが、出力文書表示エリア302の、元のPDFのページの画像300におけるブロック304A及びブロック304Bの各々に対応する範囲310A、310Bに表示される(ステップ122)。
 ところで、図10に示すように、ブロック304Aには画像が存在するが、翻訳データが範囲310Aに表示されても、ブロック304Aに存在する画像は、範囲310Aに表示されない。そこで、ユーザは、図11に示すように、ボタン208を指定して、画像取り出しモードを設定し、取り出す画像の範囲304Gを設定する。これにより、出力文書表示エリア302に、範囲304Gの画像310Gが配置される(ステップ78)。
 更に、ブロックを連続して複数指定する対象は1つのスキャン画像に限定されず、ボタン246を用いて現在のページに続いて後の少なくとも1ページについて連続してブロックを指定してもよい。よって、複数のスキャン画像に亘ってブロックを設定することができる。
 変形例1では、図10に示すように、ブロック304Aに画像が存在する場合、取り出す画像の範囲304Gを設定することにより、出力文書表示エリア302に、範囲304Gの画像310Gが配置される。よって、翻訳対象部分にあるテキスト以外の部分の画像(選択された部分の画像)と翻訳結果とを合成することができる。
(変形例2)
 以上説明したように本実施の形態では、文章の部分が2列に配置されているスキャン画像300にはおいて、同じ列(左側の列または右側の列)においてブロック304を設定している。本開示の技術はこれに限定されない。ブロックに代えて、左側の列と右側の列との境界を設定するようにしてもよい。
 図12には、左側の列と右側の列との境界、具体的には、見開き画像(スキャン画像)の左ページと右ページとの境界を指定する場合のテキスト取り出し処理プログラムのフローチャートが示されている。
 ステップ352で、テキスト取り出し処理部35は、フラグFに0がセットされていないか、即ち、F=0か否かを判断する。フラグFは当該PDFのページについて、上記境界が設定されているか否かを判断するためのフラグである。F=0の場合には、テキスト取り出し処理はステップ354に進む。
 ステップ354で、テキスト取り出し処理部35は、本の見開きの画像の左ページと右ページとの境界が指定されたか否かを判断する。
 変形例2では、上記のように、ブロックの指定に代えて、図13に示すように、ユーザは、マウス40で、スキャン画像300(見開き画像)において、左ページと右ページとの境界の上端の点502と下端の点504とを指定することにより、点502と点504との線分である境界506を指定する。
 ステップ356で、テキスト取り出し処理部35は、境界506の指定を受け付け、ステップ358で、テキスト取り出し処理部35は、フラグFに1をセットする。
 ステップ360で、テキスト取り出し処理部35は、境界506で定まる左ページの上から下と右ページの上から下の順で1ブロックの範囲として設定する。これにより、文章の部分について列内において、まとめて翻訳する対象となる翻訳対象部分が設定される。
 ステップ360の処理後、テキスト取り出し処理は、図3Cのステップ106以降の処理を実行する。上記のように境界506で定まる左ページの上から下と右ページの上から下の順で1ブロックの範囲として設定されるので、当該ページのスキャン画像のテキストが、左ページの上から下と右ページの上から下の順で読み出され(ステップ106)、当該ページ全体におけるテキストの各単語の周囲に枠が表示される(ステップ108)。ボタン224が操作されていると、図13に示すように、当該ページ全体におけるテキスト308がテキスト表示エリア230に表示される(ステップ114)。なお、当該ページ全体におけるテキストの全てがテキスト表示エリア230に表示できない場合、スライダ230Bが出現し、スライダ230Bが上下に移動させることにより、テキスト表示エリア230に表示されていないテキストが表示される。当該ページ全体におけるテキストが翻訳され、翻訳データが、出力文書表示エリア302に、元のPDFのページの画像300における左ページ及び右ページに対応する範囲に表示される(ステップ122)。
 ところで、上記のように、ボタン244又はボタン246が操作され、ステップ86が否定判定となり、翻訳する対象が前ページ又は後ページに移行し、前ページ又は後ページにおいてテキスト取り出しモードが選択されると、上記のように、フラグFに1がセットされているので、ステップ352が否定判定となり、テキスト取り出し処理はステップ360に進み、上記処理が前ページ又は後ページのテキストについて実行される。
 なお、変形例2では、当該ページに画像が存在する場合、当該画像は、画像取り出しモードの処理により、出力文書表示エリア302に、元のPDFのページの画像300における範囲に対応する範囲に表示される(ステップ78)。
 変形例2では、左ページと右ページとの境界の上端の点502と下端の点504とを指定することにより、点502と点504との線分である境界506を指定するので、スキャン画像において翻訳対象部分を容易に設定することができる。
 変形例2では、図13に示すように、ユーザは、マウス40で、スキャン画像300(見開き画像)において、左ページと右ページとの境界の上端の点502と下端の点504とを指定することにより、点502と点504との線分である境界506を指定する。本開示の技術はこれに限定されない。例えば、図14に示すように、スキャン画像300において、左ページの画像の範囲510と右ページの画像の範囲512とを指定するようにしてもよい。
(変形例3)
 変形例3におけるユーザーインターフェース200には、図15に示すように、見た目重視モード選択ボタン270と原文重視モード選択ボタン280とが更に表示される。
 見た目重視モード選択ボタン270は、出力文書表示エリア302に表示する翻訳データを、ブロックが異なっても、文字間隔、行間隔、及びフォントサイズが各ブロックで同じように表示することを指示するボタンである。
 原文重視モード選択ボタン280は、翻訳データを、各ブロックについて、表示開始位置を原文の位置に対応して、出力文書表示エリア302に表示することを指示するボタンである。
 図16には、見た目重視モード選択ボタン270が操作された場合の、出力文書表示エリア302の表示内容が示されている。図16に示すように見た目重視モードの場合、翻訳データを、ブロックが異なっても、文字間隔、行間隔、及びフォントサイズが各ブロックで同じように表示される。複数の異なる領域に設定された翻訳対象部分の翻訳結果の各々をユーザに違和感なく理解させることができる。なお、各ブロックの翻訳データは、原文の位置に対応しなくなる場合がある。
 図17には、原文重視モード選択ボタン280が操作された場合の、出力文書表示エリア302の表示内容が示されている。図17に示すように、翻訳データは、各ブロックについて表示開始位置を原文の位置に対応して表示されるので、原文の位置に対応する。翻訳結果を、ユーザにスキャン画像に対応するように理解させることができる。但し、例えば、翻訳データの文字数が、原文のテキストの文字数よりも多くなる場合、原文重視モード選択ボタン280が操作される場合、翻訳データを出力文書表示エリア302に表示する場合、他のブロックの翻訳データと重なる場合もある。そこで、文字間隔を指定するエリア282、行間隔を指定するエリア284、及びフォントサイズを指示するエリア286がある。よって、エリア282~286に指定された値に応じて、文字間隔、行間隔、及びフォントサイズが調整される。これにより、翻訳データの表示位置を、他のブロックの翻訳データと重ならないように調整することができる。
(変形例4)
 変形例4におけるユーザーインターフェース200には、図18に示すように、ヘッダ取り込みボタン208Hとフッダ取り込みボタン208Fとが更に表示される。
 図18に示すように、各ページのスキャン画像300に、ヘッダの部分302Hと、フッダの部分302Fとがある場合がある。変形例4では、ヘッダの部分302Hと、フッダの部分302Fとを、画像として取り込む、ヘッダ取り込みモードとフッダ取り込みモードとが存在する。即ち、変形例4では、図3Bに示す被翻訳データ作成処理プログラム42Pに、更に、画像取り込みモードの処理(ステップ72~78)と同様のヘッダ取り込みモードの処理とフッダ取り込みモードの処理とが存在する。
 ユーザは、ヘッダの部分302Hを取り込むため、ヘッダ取り込みボタン208Hを操作し、ヘッダの部分302Hを、左上と右下の各位置を指定することにより、設定する。受け付け部29は、当該設定を受け付ける。取得部27は、スキャン画像300から、ヘッダの部分302Hの画像を取り出し、表示制御部23は、出力文書表示エリア302に、ヘッダの部分302Hの画像402Hを配置する。
 ユーザは、フッダの部分302Fを取り込むため、フッダ取り込みボタン208Fを操作し、フッダの部分302Fを、左上と右下の各位置を指定することにより、設定する。受け付け部29は、当該設定を受け付ける。取得部27は、スキャン画像300から、フッダの部分302Fの画像を取り出し、表示制御部23は、出力文書表示エリア302に、フッダの部分302Fの画像402Fを配置する。
 PDFの最初のページのスキャン画像についてヘッダの部分302H又はフッダの部分302Fの画像の取り出しを行うと、当該PDFの他のページについても、最初のページでの設定と同じ部分の画像をヘッダの部分の画像又はフッダの部分の画像として取り込む。
(変形例5)
 上記実施の形態では、ボタン224が操作されている場合には、ユーザが編集できるように、ブロック304内のテキスト308がテキスト表示エリア230(図8参照)に表示され、翻訳データが、出力文書表示エリア302に配置される。
 これに対し、変形例5では、翻訳データを受信した場合(ステップ120が肯定判定)、図19に示すように、テキスト表示エリア230が、テキストが表示される第1のエリア308Aと、テキストの翻訳が表示される第2のエリア308Bと、が存在するように、変更される。よって、第1のエリア308Aの原文の単語(例えば、「light」)の翻訳(例えば、「光の」)を第2のエリア308Bにおいて確認し、その翻訳が正しい翻訳でないと判断したユーザは、第2のエリア308B中の翻訳(「光の」)を、正しい翻訳(「軽い」)に訂正する編集を行うことができる。その結果の翻訳(「軽い」)308Rが、出力文書表示エリア302の翻訳310に反映される。被翻訳データ作成装置10は、このような訂正が行われた原文の単語を記憶しておく。そして、図20に示すように、ブロック304A、304B内のテキストをテキスト表示エリア230に表示する場合、表示するテキスト308ABに、訂正が行われた原文の単語が存在すれば、当該単語を強調表示する。例えば、枠308Wを付加する。これにより、枠308Wが付された単語が正しく翻訳されたのか注意すべきことをユーザに喚起することができる。
(更なる変形例)
 上記実施の形態では、スキャン画像300は、書籍の見開き面の画像であり、見開きの左ページの画像と右ページの画像とを有する。本開示の技術はこれに限定されない。図21には、上部に文章の部分が1列に配置された部分が位置し、下部に文章の部分が2列に配置された部分(2列に段組みされた部分)が位置する画像でもよい。この画像において、図21に示すように、左ページの画像についてブロック304が指定されると、図22に示すように、テキスト表示エリア230に、ブロック304のテキスト308が表示され、出力文書204に、テキスト308の翻訳310が表示される。
 更に、図23に示すように、上部と下部とに文章の部分が2列に配置された部分(2列に段組みされた部分)が位置し、中間部に上部に文章の部分が1列に配置された部分が位置する画像でもよい。
[第2の実施の形態]
 第2の実施の形態を説明する。第2の実施の形態の構成は、第1の実施の構成と同様であるので、その説明を省力し、以下、第2の実施の形態の作用を説明する。
 第2の実施の形態は、書籍の全ての見開き面のスキャン画像に基づいて、被翻訳データを自動的に作成するものである。よって、前提として、まず、スキャナ14が、書籍の全ての見開き面の各々を走査(スキャン)することにより画像データを生成し、生成した各見開き面の画像データをPDFに変換し、当該PDFを被翻訳データ作成装置10に送信している。
 第2の実施の形態のCPU22の機能部には、図3Aに示す例の内容の他に、「合成部」を更に備える。CPU22は、本開示の技術の「合成部」の一例である。
 図24Aには、CPU22が実行する自動モードの被翻訳データ作成処理プログラム42Pのフローチャートが示されている。
 ステップ402で、取得部27は、スキャン画像(PDFの全てのページのスキャン画像)を取り込む。なお、ステップ402では、プロジェクトファイルが作成される(ステップ48(図3B参照))。
 ステップ404で、受け付け部29は、PDFのページを識別する変数pに0をセットし、ステップ406で、受け付け部29は、変数pを1インクリメントし、ステップ408で、判断部25は、変数pは1か否かを判断する。ステップ408が肯定判定の場合、被翻訳データ作成処理は、ステップ410に進み、ステップ408が否定判定の場合、被翻訳データ作成処理は、ステップ412に進む。
 ステップ410で、受け付け部29は、p(=1)ページのスキャン画像における元の見開き画像の左右の境界の指定を受け付ける。これは、変形例2(図12、図13参照)と同様である。なお、図14に示す方法でもよい。当該境界の指定により、文章の部分について列内において、まとめて翻訳する対象となる翻訳対象部分が設定される。
 ステップ412で、送信処理部31は、pページのスキャン画像の境界506(図13参照)で定まる左側のスキャン画像と右側のスキャン画像とをテキスト抽出装置16に送信する。ステップ414で、判断部25は、テキストと座標のデータを受信したか否かを判断する。テキスト抽出装置16からテキストと座標のデータが受信された場合、ステップ414が肯定判定となり、被翻訳データ作成処理はステップ416に進む。
 ステップ416で、記憶処理部33は、テキスト及び座標のデータを、変数pで定まるページのフォルダ42F12(図2B参照)に記憶し、pページのスキャン画像のテキスト以外の残りの部分の残り画像を、変数pで定まるページのフォルダ(変数p=2の場合にはフォルダ42F20)に記憶する。
 ステップ418で、受け付け部29は、変数pが最終ページの値PEか否かを判断する。ステップ418が否定判定の場合、PDFの全てのページについてテキストが抽出されていないので、被翻訳データ作成処理は、ステップ406に進む。
 ステップ418が肯定判定の場合、PDFの全てのページについてテキストが抽出されており、被翻訳データ作成処理は、ステップ420に進む。ステップ420で、送信処理部31は、PDFの全てのページについての全テキストを翻訳装置18に送信する。翻訳装置18は、例えば、上記Deepl翻訳サービスを提供する翻訳装置である。なお、Google翻訳サービスを提供する翻訳装置でもよく、ユーザが指定してもよい。
 ステップ422で、判断部25は、翻訳データを受信したか否かを判断する。PDFの全てのページについての全テキストを受信した翻訳装置18は、全テキストを翻訳し、その翻訳データを被翻訳データ作成装置10に送信する。これにより、ステップ422が肯定判定となり、被翻訳データ作成処理は、ステップ424に進む。
 ステップ424で、合成部は、変数pに0を再度セットし、ステップ426で、合成部は、変数pを1インクリメントする。
 ステップ428で、合成部は、翻訳データを、pページの残り画像(フォルダ42F20に記憶されている、pページのスキャン画像のテキスト以外の残りの部分の画像)に、元の位置に対応するように合成することにより、pページの翻訳文書を作成する。
 ステップ430で、合成部は、変数pが最終ページの値PEか否かを判断する。ステップ430が否定判定の場合、PDFの全てのページについて翻訳データが合成されていないので、被翻訳データ作成処理は、ステップ426に戻る。ステップ430が肯定判定の場合、PDFの全てのページについて翻訳データが合成されたので、被翻訳データ作成処理はステップ432に進む。ステップ432で、出力処理部37は、全てのページ(p=1~PEまで)の翻訳文書をPDFで出力する。
 以上説明したように第2の実施の形態では、文章の部分が2列に配置されているスキャン画像において、最初に、ユーザは、p(=1)ページのスキャン画像における元の見開き画像の左右の境界を指定する。被翻訳データ作成装置10は、当該スキャン画像の境界で定まる左側のスキャン画像と右側のスキャン画像とをテキスト抽出装置16に送信し、テキスト等を受信し、当該テキスト等を翻訳装置18に送信し、翻訳データを受信する。よって、上部からの位置が同じである左側の列の文と右側の列の文とを同じ文として翻訳用のテキストとして翻訳することを防止し、精度のよい翻訳を実行させるための被翻訳データを作成することができる。よって、翻訳結果を原文に対応させることができる。
 また、第2の実施の形態では、左側のスキャン画像と右側のスキャン画像とをテキスト抽出装置16に送信するために、ユーザは、1ページのスキャン画像における元の見開き画像の左右の境界を指定するだけである。残りのページは、当該境界を基準として、左側のスキャン画像と右側のスキャン画像とをテキスト抽出装置16に送信する。よって、書籍の全ページについての翻訳が得られる。特に、2ページ以降は自動的に翻訳が得られる。
 更に、第2の実施の形態では、合成部は、翻訳データを、各ページの残り画像に、元の位置に対応するように合成することにより、翻訳文書を作成するので、翻訳対象部分にあるテキスト以外の部分の画像と翻訳結果とを合成することができる。
[第3の実施の形態]
 第3の実施の形態を説明する。第3の実施の形態の構成は、第1の実施の構成と同様であるので、その説明を省力し、以下、第3の実施の形態の作用を説明する。第3の実施の形態の作用は、第2の実施の形態の作用と同様の部分があるので、主として異なる部分を説明する。
 第3の実施の形態のCPU22の機能部には、図3Aに示す例の内容の他に、「決定部」を更に備える。
 第2の実施の形態では、左側のスキャン画像と右側のスキャン画像とをテキスト抽出装置16に送信するために、ユーザは、1ページのスキャン画像における元の見開き画像の左右の境界を指定する。
 これに対し、第3の実施の形態では、スキャン画像における元の見開き画像の左右の境界の特定も含め全自動で書籍の全ての見開き面のスキャン画像に基づいて、被翻訳データを自動的に作成するものである。
 図24Bには、CPU22が実行する全自動モードの被翻訳データ作成処理プログラム42Pのフローチャートが示されている。
 第3の実施の形態は、第2の実施の形態の同様に、前提として、スキャナ14が、書籍の全ての見開き面の各々を走査(スキャン)することにより画像データを生成し、生成した各見開き面の画像データをPDFに変換し、当該PDFを被翻訳データ作成装置10に送信している。
 第2の実施の形態の同様に、ステップ402~406の処理が実行され、ステップ410Aで、決定部は、pページのスキャン画像にある各々余白により囲まれた複数の部分画像の境界を決定する。当該境界の決定により、文章の部分について列内において、まとめて翻訳する対象となる翻訳対象部分が設定される。
 ここで、スキャン画像において複数の部分画像の境界を決定する方法を説明する。
 上記境界を決定する第1の方法を説明する。部分画像は、文字列が存在する領域の画像である。例えば、スキャン画像の中の2つの部分画像の境界は、スキャン画像の中央を通る上下方向の線(図13の境界506参照)により、幾何学的に予め定まる。決定部は、pページのスキャン画像にある各々余白により囲まれた複数の部分画像の境界を、スキャン画像の大きさから幾何学的に決定する。
 上記境界を決定する第2の方法を説明する。スキャナ14が書籍を走査(スキャン)する際に、走査する見開き面の濃度を検出する機能を有し、PDFを被翻訳データ作成装置10に送信する際、見開き面の濃度の情報も送信するようにしてもよい。決定部は、見開き面の濃度の情報に基づいて、上記境界を決定してもよい。より具体的には、所定の濃度値を閾値として予め定めておく。決定部は、スキャン画像の見開き面の各位置を、その濃度が閾値以上に濃い場合には、黒位置と、その濃度が閾値より薄い場合には、色位置と定める(バイナリ画像の生成)。決定部は、スキャン画像を一定の面積の複数の領域に分割し、各領域(分割領域)の黒位置の数が所定値以上の領域は文字が存在する領域(文字領域)であると決定する。決定部は、スキャン画像において左端から右端までの領域毎の、スキャン画像の上端から下端までの文字領域の数(度数)のヒストグラムを作成する。決定部は、ヒストグラムから、左端から右端までの各領域について、隣の領域の度数との差を計算し、差が所定以上の領域を文字列の最初又は最後の領域(境界領域)として定める。例えば、文章の部分が2列に配置されたスキャン画像の場合には、境界領域は4個定まる。また、文章の部分が3列に配置されたスキャン画像の場合には、境界領域は6個定まる。そこで、決定部は、例えば、境界領域が4個定まった場合には、2番目の境界領域と3番目の境界領域との中央を、上記境界として決定する。また、決定部は、例えば、境界領域が6個定まった場合には、2番目の境界領域と3番目の境界領域との中央を、第1の境界として決定し、4番目の境界領域と5番目の境界領域との中央を、第2の境界として決定する。
 上記境界を決定する第3の方法を説明する。決定部は、スキャン画像にレイアウト解析処理を実施することにより、スキャン画像においてテキスト領域を抽出する。決定部は、スキャン画像において、各テキスト領域が区画されるように、境界を決定する。
 上記境界を決定する第4の方法を説明する。決定部は、人工知能(AI(Artificial Intelligence))を用いて、スキャン画像の各位置の濃度の情報に基づいて、文字列が存在する領域と余白の領域とを検出し、上記境界を決定するようにしてもよい。より具体的には、スキャン画像の各位置の濃度の値と各位置がテキスト領域か否かの情報とを教師データとして学習モデルを学習しておく。決定部は、スキャン画像の各位置の濃度と上記学習モデルとから、スキャン画像において文字列が存在する領域と余白の領域とを検出し、上記境界を決定する。
 ステップ412で、送信処理部31は、pページのスキャン画像にある、pページのスキャン画像を上記境界により分断して得た複数の部分画像の各々をテキスト抽出装置16に送信する。
 その後、第2の実施の形態の同様に、ステップ416以降の処理が実行される。
 以上説明したように第3の実施の形態では、スキャン画像における元の見開き画像の左右の境界の特定も含め全自動で書籍の全ての見開き面のスキャン画像に基づいて、被翻訳データを自動的に作成するものである。
 第3の実施の形態も、第2の実施の形態と同様に、上部からの位置が同じである左側の列の文と右側の列の文とを同じ文として翻訳用のテキストとして翻訳することを防止し、翻訳結果が原文に対応するように、被翻訳データを作成することができる。よって、翻訳結果を原文に対応させることができる。
 特に、上記境界を決定する第3の方法では、決定部は、スキャン画像にレイアウト解析処理を実施することにより、スキャン画像においてテキスト領域を抽出し、スキャン画像において、各テキスト領域が区画されるように、境界を決定する。よって、各ページのスキャン画像に、文章の部分が2列であったり3列であったりと列数が混合していても、翻訳結果が原文に対応するように、被翻訳データを作成することができる。具体的には、1つのページのスキャン画像内において文章の部分が1列の部分と2列の部分とが混合したり(図21~図23参照)、同じページのスキャン画像内では同じ列数であるが(図5参照)、ページが異なると列数が異なったりする場合でも、翻訳結果が原文に対応するように、被翻訳データを作成することができる。上記のようにスキャン画像におけるテキスト領域以外の部分は残り画像として出力文書に、翻訳内容と合成される。ところで、テキスト領域以外の部分には、余白、ヘッダ、フッダ、写真、グラフ、又は漫画等が存在する。上記第3の方法では、これらが残り画像として出力文書に、翻訳内容と合成される。なお、各実施の形態及び各変形例では、スキャン画像に、写真、グラフ、又は漫画等が存在する場合、テキスト以外のコンテンツがあることを表示し、ユーザに、画像取り込みモードにより、出力文書に合成させるようにしてもよい。上記のように余白、ヘッダ、フッダ、写真、グラフ、又は漫画等を残り画像として出力文書に、翻訳内容と合成される処理は、画像取り込みモードで合成するよりも処理時間を短縮させることができる。一方、画像取り込みモードの場合であれば、必要なもののみを選択的に出力文書に合成させることができる。
 以上説明した各実施の形態及び各変形例では、英語から日本語への翻訳のための被翻訳データを作成しているが、本開示の技術はこれに限定されない。上記翻訳は、第1の言語ら、第1の言語とは異なる第2の言語への翻訳である。第1の言語は、例えば、英語、日本語、中国語、韓国語、ドイツ語、フランス語、スペイン語、アラビア語、ヘブライ語、パシュトゥー語、ペルシア語等である。第2の言語は、例えば、日本語、中国語、韓国語、ドイツ語、フランス語、スペイン語、アラビア語、ヘブライ語、パシュトゥー語、ペルシア語、英語等である。より具体的には、例えば、上記翻訳は、第1の言語を英語とすると、第2の言語としては、日本語の他、中国語、韓国語、ドイツ語、フランス語、スペイン語、アラビア語、ヘブライ語、パシュトゥー語、ペルシア語等である。また、第1の言語を日本語とすると、第2の言語としては、英語、中国語、韓国語、ドイツ語、フランス語、スペイン語、アラビア語、ヘブライ語、パシュトゥー語、ペルシア語等である。第1の言語と第2の言語とのパターンは、これらに限定されず、各言語も上記の言語に限定されない。
 本開示において、各構成要素(装置等)は、矛盾が生じない限りは、1つのみ存在しても2つ以上存在してもよい。
 以上説明した各例では、コンピュータを利用したソフトウェア構成により被翻訳データ作成処理が実現される場合を例示したが、本開示の技術はこれに限定されるものではない。例えば、コンピュータを利用したソフトウェア構成に代えて、FPGA(Field-Programmable Gate Array)またはASIC(Application Specific Integrated Circuit)等のハードウェア構成のみによって、被翻訳データ作成処理が実行されるようにしてもよい。被翻訳データ作成処理のうちの一部の処理がソフトウェア構成により実行され、残りの処理がハードウェア構成によって実行されるようにしてもよい。
 なお、上述した被翻訳データ作成処理プログラム42Pは、様々なタイプの非一時的なコンピュータ可読媒体を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、被翻訳データ作成処理プログラム42Pは、様々なタイプの一時的なコンピュータ可読媒体によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 以上説明した情報出力処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
 本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的にかつ個々に記載された場合と同様に、本明細書中に参照により取り込まれる。

Claims (22)

  1.  文章の部分が複数の列に配置された画像と、前記画像から抽出された前記文章の各単語のテキストと、を記憶する記憶部と、
     前記画像において、前記文章の部分について、まとめて翻訳する対象となる翻訳対象部分を設定する設定部と、
     前記記憶部から前記設定された翻訳対象部分のテキストを読み出すことにより、前記文章の言語以外の他の言語に翻訳するための被翻訳データを作成する作成部と、
     を備える被翻訳データ作成装置。
  2.  前記記憶部に記憶された前記画像を読み出す読み出し部と、
     前記読み出された前記画像を表示する表示部と、
     を備え、
     前記設定部は、前記表示された画像において前記翻訳対象部分を設定する、請求項1に記載の被翻訳データ作成装置。
  3.  前記表示部は、前記翻訳対象部分におけるテキストの部分を強調表示する、請求項2に記載の被翻訳データ作成装置。
  4.  前記表示部は、前記翻訳対象部分を強調表示すると共に前記翻訳対象部分として設定された部分が正しいか否かを確認するメッセージを表示する、請求項2に記載の被翻訳データ作成装置。
  5.  前記設定部は、前記画像において前記翻訳対象部分をブロックとして設定する、請求項2に記載の被翻訳データ作成装置。
  6.  前記設定部は、前記画像を複数の異なる領域に分割する境界を設定することにより、前記翻訳対象部分を設定する、請求項2に記載の被翻訳データ作成装置。
  7.  前記画像は、各々文章の部分が複数の列に配置された連続する複数のページの画像を含み、
     前記設定部は、前記複数のページの少なくとも2ページの画像に亘って前記翻訳対象部分を設定する、請求項1に記載の被翻訳データ作成装置。
  8.  前記被翻訳データの翻訳結果を取得する取得部を更に備える、請求項1に記載の被翻訳データ作成装置。
  9.  前記翻訳対象部分におけるテキスト以外の部分と、前記被翻訳データの翻訳結果と、を合成する合成部を更に備える請求項8に記載の被翻訳データ作成装置。
  10.  前記合成部は、前記翻訳対象部分におけるテキスト以外の部分の中の選択された部分と、前記被翻訳データの翻訳結果と、を合成する、請求項9に記載の被翻訳データ作成装置。
  11.  前記画像における前記翻訳対象部分として設定されなかった部分と、前記被翻訳データの翻訳結果と、を合成する合成部を更に備える請求項8に記載の被翻訳データ作成装置。
  12.  前記合成部は、前記画像における前記翻訳対象部分として設定されなかった部分の中の選択された部分と、前記被翻訳データの翻訳結果と、を合成する、請求項11に記載の被翻訳データ作成装置。
  13.  前記翻訳結果を出力する出力部を更に備える、請求項1に記載の被翻訳データ作成装置。
  14.  前記出力部は、前記翻訳結果を、表示領域における、前記画像における前記翻訳対象部分の位置に対応する位置に、表示する、請求項13に記載の被翻訳データ作成装置。
  15.  前記設定部は、前記画像における複数の異なる領域に前記翻訳対象部分を設定し、
     前記出力部は、前記複数の異なる領域に設定された前記翻訳対象部分の翻訳結果の各々を、表示領域に、同一の表示態様で表示する、請求項13に記載の被翻訳データ作成装置。
  16.  前記画像は、各々文章の部分が複数の列に配置された複数のページの画像を含み、
     前記設定部は、前記画像における最初のページの画像について、前記翻訳対象部分を設定し、
     前記作成部は、前記最初のページの画像について設定された翻訳対象部分のテキストを取得すると共に、前記最初のページの画像以外の他のページの画像について、前記最初のページの画像について設定された前記翻訳対象部分を、当該他のページの画像における翻訳対象部分として、前記テキストを取得することにより、前記被翻訳データを作成する、請求項1に記載の被翻訳データ作成装置。
  17.  前記画像は、各々文章の部分が複数の列に配置された複数のページの画像を含み、
     前記設定部は、前記複数のページの画像の各々について、前記翻訳対象部分を自動的に決定する、請求項1に記載の被翻訳データ作成装置。
  18.  前記被翻訳データの翻訳結果を取得する取得部を更に備える、請求項16又は請求項17に記載の被翻訳データ作成装置。
  19.  前記複数のページの画像の各々毎に、前記翻訳対象部分以外の部分と、前記被翻訳データの翻訳結果と、を合成する合成部を更に備える請求項18に記載の被翻訳データ作成装置。
  20.  前記文書の部分には、文が、途中で改行されることにより、複数の行に配置されている、請求項1に記載の被翻訳データ作成装置。
  21.  文章の部分が複数の列に配置された画像と、前記画像から抽出された前記文章の各単語のテキストと、を記憶する記憶部を備える被翻訳データ作成装置の被翻訳データ作成方法であって、
     設定部が、前記画像において、前記文章の部分について、まとめて翻訳する対象となる翻訳対象部分を設定するステップと、
     作成部が、前記記憶部から前記翻訳対象部分のテキストを読み出すことにより、前記文章の言語以外の他の言語に翻訳するための被翻訳データを作成するステップと、
     を備える被翻訳データ作成方法。
  22.  文章の部分が複数の列に配置された画像と、前記画像から抽出された前記文章の各単語のテキストと、を記憶する記憶部を備える被翻訳データ作成装置に、前記文章の言語以外の他の言語に被翻訳データ作成処理を実行させる被翻訳データ作成プログラムであって、
     前記被翻訳データ作成処理は、
     設定部が、前記画像において、前記文章の部分について列内において、まとめて翻訳する対象となる翻訳対象部分を設定するステップと、
     作成部が、前記記憶部から前記設翻訳対象部分のテキストを読み出すことにより、前記文章の言語以外の他の言語に翻訳するための被翻訳データを作成するステップと、
     を備える被翻訳データ作成プログラム。
PCT/JP2022/028155 2022-07-20 2022-07-20 被翻訳データ作成装置、被翻訳データ作成方法、及び被翻訳データ作成プログラム WO2024018553A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/028155 WO2024018553A1 (ja) 2022-07-20 2022-07-20 被翻訳データ作成装置、被翻訳データ作成方法、及び被翻訳データ作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/028155 WO2024018553A1 (ja) 2022-07-20 2022-07-20 被翻訳データ作成装置、被翻訳データ作成方法、及び被翻訳データ作成プログラム

Publications (1)

Publication Number Publication Date
WO2024018553A1 true WO2024018553A1 (ja) 2024-01-25

Family

ID=89617503

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/028155 WO2024018553A1 (ja) 2022-07-20 2022-07-20 被翻訳データ作成装置、被翻訳データ作成方法、及び被翻訳データ作成プログラム

Country Status (1)

Country Link
WO (1) WO2024018553A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10312381A (ja) * 1997-05-12 1998-11-24 Nippon Hoso Kyokai <Nhk> 翻訳方法および装置
JPH117493A (ja) * 1997-06-16 1999-01-12 Sharp Corp 文字認識処理装置
JP2018195899A (ja) * 2017-05-15 2018-12-06 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10312381A (ja) * 1997-05-12 1998-11-24 Nippon Hoso Kyokai <Nhk> 翻訳方法および装置
JPH117493A (ja) * 1997-06-16 1999-01-12 Sharp Corp 文字認識処理装置
JP2018195899A (ja) * 2017-05-15 2018-12-06 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Similar Documents

Publication Publication Date Title
US11354490B1 (en) Systems, methods, and computer readable media for creating slide presentations
US6466954B1 (en) Method of analyzing a layout structure of an image using character recognition, and displaying or modifying the layout
US6466694B2 (en) Document image processing device and method thereof
EP0690415B1 (en) Editing scanned document images using simple interpretations
JP2005174260A (ja) 文書処理装置及び文書処理方法
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US8788936B2 (en) Information processing apparatus and method
US20090204888A1 (en) Document processing apparatus, document processing method, and storage medium
JP2005276161A (ja) レイアウトシステム、レイアウト装置、レイアウトプログラム、テンプレート選択プログラム、レイアウトプログラムを記憶した記憶媒体およびテンプレート選択プログラムを記憶した記憶媒体、並びにレイアウト方法
JP5578188B2 (ja) 画像処理装置、画像処理装置の制御方法、および、プログラム
JP4232679B2 (ja) 画像形成装置およびプログラム
US8355577B2 (en) Image processing apparatus and method
WO2024018553A1 (ja) 被翻訳データ作成装置、被翻訳データ作成方法、及び被翻訳データ作成プログラム
JP7379876B2 (ja) 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
JP2006262152A (ja) 画像形成方法、画像形成装置およびプログラム
JP4998176B2 (ja) 翻訳装置及びプログラム
JPH0785215A (ja) 文字認識装置
JPH103516A (ja) 情報処理方法及び装置
JPH06243225A (ja) 画像編集方法
JP3211446B2 (ja) 文書処理装置
JP3424942B2 (ja) 対訳画像形成装置
JP2800254B2 (ja) 画像一文字処理装置
JP3306969B2 (ja) 文書編集装置
JPH0916717A (ja) 文書読取装置
JPH08202859A (ja) 電子ファイリング装置及びその方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22951361

Country of ref document: EP

Kind code of ref document: A1