WO2014050562A1 - 段落領域の順序補正装置ならびにその動作制御方法およびその動作制御プログラム - Google Patents

段落領域の順序補正装置ならびにその動作制御方法およびその動作制御プログラム Download PDF

Info

Publication number
WO2014050562A1
WO2014050562A1 PCT/JP2013/074553 JP2013074553W WO2014050562A1 WO 2014050562 A1 WO2014050562 A1 WO 2014050562A1 JP 2013074553 W JP2013074553 W JP 2013074553W WO 2014050562 A1 WO2014050562 A1 WO 2014050562A1
Authority
WO
WIPO (PCT)
Prior art keywords
paragraph
area
order
text
document image
Prior art date
Application number
PCT/JP2013/074553
Other languages
English (en)
French (fr)
Inventor
大谷 洋
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Publication of WO2014050562A1 publication Critical patent/WO2014050562A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Definitions

  • This invention relates to a paragraph region order correcting apparatus, its operation control method, and its operation control program.
  • a document image in which a document is imaged may include a plurality of paragraph areas.
  • paragraph areas in addition to the text, there may be columns, footnotes, etc. that are not related to the text.
  • Patent Documents 1, 2, and 3 In order to display only the paragraph areas included in the document image in order, one for determining the order of the paragraph areas (Patent Documents 1, 2, and 3), and for determining the connection relation of the paragraph areas (Patent Document 4) and so on.
  • paragraph areas with descriptions other than the text such as a text paragraph area and a column paragraph area are mixed in a plurality of paragraph areas, the text paragraph area cannot be browsed continuously.
  • This invention is intended to enable continuous browsing of the paragraph area of the text.
  • the paragraph region order correcting apparatus includes a paragraph region order correcting device that corrects the order determined for a plurality of paragraph regions that are included in a document image in which a document is imaged and includes a character string. If the character string included in the document image is horizontal writing, the order of the plurality of paragraph areas is determined based on the distance from the upper left vertex of the document image to the paragraph area, and the character string included in the document image For vertical writing, a paragraph area determining means for determining the order of a plurality of paragraph areas based on the distance from the upper right vertex of the document image to the paragraph area, and the body paragraph in which the text is described among the plurality of paragraph areas Text paragraph area detection means for detecting a region (headings and bullets may or may not be regarded as text), and text paragraph area detected by the text paragraph area detection means
  • the mechanism characterized in that it comprises a body paragraph order correcting means for correcting so that the ascending order according to the order determined in paragraph order determining means.
  • the present invention also provides an operation control method suitable for the paragraph region order correction apparatus. That is, in the operation control method of the paragraph region order correcting apparatus that corrects the order determined for a plurality of paragraph regions that include a character string and the document is included in the imaged document image, the paragraph region determination is performed.
  • the means determines the order of the plurality of paragraph areas based on the distance from the upper left vertex of the document image to the paragraph area, and the character string included in the document image
  • the body paragraph area detection means describes the body text among the multiple paragraph areas.
  • the body paragraph order correcting means detects the order of the body paragraph areas detected by the body paragraph area detecting means in the ascending order according to the order determined by the paragraph order determining means. It is corrected so.
  • the present invention also provides a computer-readable program for implementing the operation control method of the paragraph region order correction apparatus.
  • a recording medium storing such a program may be provided.
  • the order of the plurality of paragraph areas is determined based on the distance from the upper left vertex of the document image to the paragraph area, and is included in the document image. If the character string is vertically written, the order of the plurality of paragraph areas is determined based on the distance from the upper right vertex of the document image to the paragraph area.
  • the body paragraph area in which the body text is described is detected, and the order of the detected body paragraph areas is corrected so as to be in the ascending order according to the order determined by the paragraph order determining means. . Even if multiple paragraph areas included in the document image include paragraph areas that contain text other than the text, the text paragraph areas can be ordered. Will be able to.
  • processing for determining the order of a plurality of paragraph areas by the paragraph order determining means for each document image on each page body paragraph area detection processing by the body paragraph area detecting means, and body paragraph order correction
  • the first document image control means for performing correction processing of the text paragraph order by the means, and the document image with few pages in the order in which the text paragraph area detected by the text paragraph detection means is corrected by the text paragraph order correction means It is preferable to further include first display control means for controlling the display device so as to display the images in the order included.
  • the body paragraph order correcting means regards, for example, all the body paragraph area detected by the body paragraph area detecting means and the heading paragraph area and the bullet paragraph area determined by the first supplementary paragraph area determining means as the body paragraph area.
  • the order of the body paragraph area detected by the body paragraph area detection means and the heading paragraph area and the itemized paragraph area determined by the first supplementary paragraph area determination means are in accordance with the order determined by the paragraph order determination means.
  • the correction is made in ascending order.
  • the order of the heading paragraph area is determined by the first supplementary paragraph area determination means according to the determination as the heading paragraph area, and the order of the bulleted paragraph is determined according to the determination as the bullet paragraph area.
  • Supplementary paragraph order determining means may be further included for determining the order of the column paragraph areas according to the determination and determining that the column paragraph areas are determined.
  • a second supplementary paragraph determining unit performs a determination process for each page of the document image, and a second process for determining the order of the paragraph areas by the supplementary paragraph order determining unit.
  • Each of the heading paragraph area, the bullet paragraph area, and the column paragraph area determined by the document image control means and the first supplementary paragraph area determination means has a small page number in the order determined by the supplementary paragraph order determination means.
  • a body area determining means for determining a rectangular area surrounding all the body paragraphs in a one-page document image detected by the body paragraph area detecting means as a body area, and a paragraph outside the body area determined by the body area determining means Among the areas, the area of the paragraph area, the number of characters and the number of lines are less than a certain value, and at least one of the character image size, character color, background color or character font of the body paragraph area detected by the body paragraph area detection means is A second supplementary paragraph area determination unit may be further included that determines a different paragraph area as a logo paragraph area and determines a paragraph area starting from a predetermined character as a footnote area.
  • page number determination means for determining that the number is a page number in response to the fact that only the number is included in the paragraph area determined as the logo paragraph area by the second supplementary paragraph area determination means.
  • the paragraph area determined as the column paragraph area by the first supplementary paragraph area determination means is determined as a figure explanation paragraph by starting with a predetermined character (for example, figure, table, FIG., Table, etc.).
  • the figure description paragraph determining means may further be provided.
  • the supplementary paragraph order determining means is, for example, two adjacent column paragraph areas when the first supplementary paragraph order determining means determines that it is a column paragraph area, and includes character image size, character color, Two column paragraph regions having the same background color and font are arranged in a continuous order.
  • Display designation means for designating fixed layout display or reflow display, and display designation means for controlling the display device so that the entire document image is displayed on the display screen in response to designation of fixed layout display by the display designation means.
  • the display device may further include third display control means for controlling the display device so that the image in the specified paragraph area is displayed in the display area in response to the reflow display specified by.
  • FIG. 3 is a block diagram showing an electrical configuration of a document image server. It is a flowchart which shows the process sequence with a mobile telephone and a document image server.
  • FIG. 1 is a block diagram showing an electrical configuration of a mobile phone 1 called a so-called smartphone.
  • a document image an image of a document represented by text data
  • FIG. 1 is a block diagram showing an electrical configuration of a mobile phone 1 called a so-called smartphone.
  • a document image an image of a document represented by text data
  • FIG. 1 is a block diagram showing an electrical configuration of a mobile phone 1 called a so-called smartphone.
  • a document image an image of a document represented by text data
  • the overall operation of the mobile phone 1 is controlled by the control device 2.
  • the mobile phone 1 is provided with a communication device 12 and an antenna 11 for communication with other mobile phones, access to the Internet, and the like.
  • the mobile phone 1 is provided with a display device 3 for displaying documents, images, and the like on the display screen.
  • a touch panel 4 is formed on the display screen of the display device 3. By touching the touch panel 4 formed on the display screen, the user can give various commands to the mobile phone 1.
  • the mobile phone 1 includes a program such as a browser and a memory 5 in which predetermined data is stored. Further, the mobile phone 1 is provided with a memory card interface 6. When a memory card 7 in which an operation program to be described later is stored is loaded in the memory card interface 6, the operation program stored in the memory card 6 is read by the memory card interface 6. The read operation program is installed in the mobile phone 1.
  • the mobile phone 1 includes a speaker 8 and a microphone 9.
  • the audio signal is amplified by the amplifier circuit 10 and given to the speaker 8, so that the audio is output from the speaker 8.
  • a voice signal representing voice input from the microphone 9 is amplified by the amplifier circuit 10 and input to the control device 102.
  • FIG. 2 and 3 are examples of the document images 21 and 22.
  • FIG. 2 and 3 are examples of the document images 21 and 22.
  • Document images 21 and 21 are imaged and are represented by image data (document image file).
  • the document image 21 shown in FIG. 2 is the first page, and the document image 22 shown in FIG. 3 is the second page. There may be document images for the third and subsequent pages.
  • the document image 21 defines ten paragraph areas from F1 to F10.
  • a character string is described in each of the paragraph areas F1 to F10.
  • the paragraph area F1 is a heading paragraph area
  • the paragraph areas F2, F4, F5, and F6 are body paragraph areas
  • the paragraph areas F3 and F9 are column paragraph areas
  • the paragraph area F7 is a page number paragraph area
  • Area F8 is a logo paragraph area
  • paragraph area F10 is a footnote paragraph area.
  • sentences indicating the main contents of the document are described.
  • sentences different from the text are described.
  • a text area 24 is also shown as will be described in detail later.
  • the document image 22 defines eight paragraph areas from F11 to F18.
  • a character string is described in each of these paragraph regions F11 to F18.
  • Paragraph areas F11, F12, F13, F14 and F18 are body paragraph areas
  • paragraph areas F12 and F16 are column paragraph areas
  • paragraph area F17 is a page number paragraph area.
  • each paragraph area is a body paragraph area, a column paragraph area, or any other paragraph area.
  • the heading paragraph area, the body paragraph area, the column paragraph area, the logo paragraph area, the page number paragraph area, the footnote paragraph area, etc. are shown, but the bulleted paragraph area, the figure explanation paragraph area, Needless to say, a chart paragraph area may be included.
  • step 31 it is determined whether the description of the document included in the document image 21 is horizontal writing or vertical writing.
  • data indicating horizontal writing or vertical writing is stored in the header of the document image file representing the document image 21, it may be determined based on the data, or the document image 21 may be determined by OCR (Optical Character Reader). You may judge based on the arrangement
  • the paragraph area having the vertex closest to the top left vertex is the parent paragraph area. (Step 32).
  • the paragraph area F1 is set as the parent paragraph area.
  • the paragraph region having the vertex closest to the upper right vertex is the parent paragraph region.
  • Step 33 determine whether there is a child paragraph area whose left side is located to the left of the right side of the parent paragraph area (in the case of vertical writing, a child paragraph area whose upper side is located above the lower side of the parent paragraph area) (Step 33).
  • the paragraph areas F2, F3, and F4 exist as the paragraph areas whose left side is located to the left of the right side RS of the paragraph area F1 that is the parent paragraph area. Child paragraph area.
  • the child paragraph areas F2, F3 and F4 are sorted in order from the top side (step 34).
  • the child paragraph areas whose left sides are the left sides of the respective child paragraph areas F2, F3, and F4 Re-sorting is performed so that the order comes first (step 35).
  • FIG. 8 shows an example of the document image 23.
  • the document image 23 includes paragraph areas F21 to F25.
  • the parent paragraph area is a paragraph area F21.
  • Child paragraph areas for the parent paragraph area F21 are paragraphs F22 and F23. Since the upper side of the child paragraph region F23 is above the upper side of the child paragraph region F22, the child paragraph region F23 is ordered before the child paragraph region F22 in the process of step 34 in FIG. However, it is assumed that the difference ⁇ between the upper side of the child paragraph region F22 and the upper side of the child paragraph region F23 is small and less than a certain value. In such a case, in this embodiment, the ordering is performed so that the child paragraph region F22 whose left side is on the left side comes first.
  • provisional ordering is performed in the order of the parent paragraph area F1, the sorted or resorted child paragraph areas F2, F3, and F4 (step 36).
  • Step 37 in FIG. 5 the current parent paragraph region is the paragraph region F1, and there are paragraph regions F5 to F10 whose left sides are located to the right of the right side RS of the parent paragraph region F1. Therefore, the intersection (X1, Y1) between the extension line on the right side of the parent paragraph area F1 and the upper side US of the document image is set as the new origin, and the paragraph area having the top left vertex closest to the new origin is the new parent.
  • a paragraph area is set (step 38).
  • the paragraph area F5 is set as a new parent paragraph area.
  • the intersection of the extension line on the lower side of the parent paragraph area and the right side of the document image is the new origin, and the paragraph area with the upper right vertex closest to the new origin is the new parent paragraph area.
  • FIG. 9 is an example of a text order table.
  • the text order table is a table showing the order of text paragraph areas.
  • each column of provisional order, attribute, and corrected order is defined for each paragraph area.
  • provisional ordering is performed as described above, data is stored in the provisional order column of the text order table.
  • the parent paragraph area is regarded as the last order.
  • the attribute of a paragraph area indicates whether the paragraph area describes a text, a column, a bulleted list, or the like.
  • a text paragraph determination process is performed (step 39).
  • the paragraph area is once determined as a body paragraph area.
  • a rectangle surrounding the paragraph area determined to be the body paragraph area is defined, and the area surrounded by the rectangle is set as the body area (step 39).
  • paragraph areas F2 to F6 and F9 are once determined to be text paragraph areas. Then, a rectangular area 24 surrounding the paragraph areas F2 to F6 and F9 is defined as a text area.
  • step 41 it is confirmed whether it is a paragraph area in the text area 24 (step 41). If it is a logo, footnote, or page number, it is out of the text area 24, and if it is a heading, bullet, column, or text, it should exist in the text area 24. For this reason, if it is a paragraph region in the text (YES in step 41), first a headline determination process is performed (step 42).
  • the headline paragraph area is a paragraph area whose area, number of characters, number of lines is less than a certain value, and in which at least one of the average character image size, character color, background color and character font of the paragraph area determined to be the text area is different It is determined. If it is determined as a headline paragraph area (YES in step 43 in FIG.
  • the attribute of the paragraph area is set to “headline” (step 44).
  • the paragraph area F1 of the document image 21 shown in FIG. 2 is determined as a headline paragraph area
  • the attribute is “headline”
  • the attribute “headline” corresponds to the paragraph area F1 in the attribute column of the text order table. And stored.
  • a bullet determination process is performed (step 45).
  • a paragraph area including two or more lines and including a sentence starting from a number, a number enclosed in a circle, a number enclosed in parentheses, a midpoint, etc. is determined as a bulleted paragraph area. Needless to say, whether the number is a numeric value can use the OCR function described above. If it is determined that the item is an itemized paragraph region (YES in step 46), the attribute of the paragraph region is set to "itemized item" (step 47).
  • step 49 A paragraph area in which at least one of character image size, character color, background color, or font is different from the character image included in the preceding or following paragraph area in the tentative order is determined as the column area.
  • the character image included in the paragraph area F3 included in the document image 21 shown in FIG. 2 differs from the character image included in the preceding paragraph area F2 in character image size, character color, background color, font, etc.
  • the region F3 is determined as a column paragraph region. If it is determined to be a column paragraph area (YES in step 49), chart explanation determination processing is subsequently performed (step 51).
  • the beginning of a line is a predetermined specific character or word such as “Figure”, “Table”, “FIG.”, “Table”, etc., it is determined as a paragraph area of the figure description. If it is a chart explanation paragraph area (YES in step 52), the attribute of the paragraph area is set to "chart explanation” (step 54). If it is not a chart explanation paragraph area (NO in step 52), The attribute of the paragraph area is set to “column” (step 53).
  • paragraph area is not a column paragraph area (NO in step 49)
  • paragraph area is changed to a text area and the attribute is set to "text" (step 50).
  • the heading paragraph area and the bullet paragraph area may be considered as the body paragraph area.
  • step 55 in FIG. 7 logo paragraph determination processing is first performed (step 55 in FIG. 7).
  • paragraph areas whose text area size, character color, background color, and font are different from each other when the area, the number of characters, and the number of lines of the paragraph area are less than a certain value, Determined as logo paragraph area.
  • page number determination processing is further performed (step 62). When only a number is included in the paragraph area, it is determined as a page number paragraph area. If the paragraph area is determined to be a page number paragraph area, the attribute is set to “page number” (step 65). If the paragraph area is not determined to be a page number paragraph area (NO in step 63), the attribute of the paragraph area is set to “logo” (step 64).
  • step 56 footnote determination processing is performed (step 57). If the line starts with a specific symbol such as a number or an asterisk, the paragraph area is determined to be a footnote paragraph area. The attribute of the paragraph area determined as the footnote paragraph area is “footnote” (step 59).
  • each attribute is stored in the attribute column of the body text order table.
  • paragraph area F1 of document image 21 is a headline paragraph area
  • paragraph areas F2, F4, F5 and F6 are body paragraph areas
  • paragraph areas F3 and F9 are column paragraph areas
  • the area F7 is a page number paragraph area
  • the paragraph area F10 is determined to be a footnote paragraph area, and each attribute is stored in the attribute column.
  • the tentative order is corrected from the detected attributes (step 60).
  • paragraphs other than “Heading”, “Body”, “Bullet”, “Column”, “Page number”, “Footnote” Data obtained by removing the data indicating the order of the areas from the data described in the provisional order column is stored in the corrected order column. Further, the data stored in the corrected order column is changed so as to be in ascending order according to the order stored in the provisional order column. Referring to FIG.
  • the attribute of paragraph area F3 is “column”
  • the attribute of paragraph area F7 is “page number”
  • the attribute of paragraph area F8 is “logo”
  • the attribute of paragraph area F9 is “column”
  • the paragraph area Since the attribute of F10 is “footnote”, when these order data are removed from the provisional order data and the order is given in ascending order, the corrected order is the paragraph regions F1, F2, F4, F5 and F6. Become.
  • a column order table is also generated.
  • Fig. 10 is an example of a column order table.
  • the column order table stores data indicating the order of columns corresponding to paragraph areas.
  • paragraph areas determined as column paragraph areas the size, character color, background color, and font of the character image included in the paragraph area are the same, and two adjacent paragraph areas are one column and Recalibration is performed as deemed.
  • the order is corrected so that the order of the two column paragraph regions is continuous.
  • the paragraph areas F2 and F5 shown in FIG. 2 are column paragraph areas, the recorrection process is performed so that the next order of the paragraph area F2 becomes the paragraph area F5.
  • a text order table is generated as shown in FIG. 11, and a column order table is generated as shown in FIG.
  • FIGS. 13 and 14 are flowcharts showing the processing procedure of the mobile phone 1 when the document image 21 and the like are displayed on the display screen of the display device 3 using the paragraph ordering process described above.
  • a document image file representing the document image 21 shown in FIG. 2, the document image 22 shown in FIG. 3, and the like is stored in the memory 5 (or the memory card 7) of the cellular phone 1.
  • the document image file representing the document image 21 and the document image file representing the document image 22 may be separate, or a plurality of document images such as the document images 21 and 22 may be represented by one document image file.
  • a large number of reduced images of document images are displayed on the display screen of the display device 3, and a desired document image is selected from these reduced images (step 71).
  • a document image is selected, the entire selected document image is displayed on the display screen of the display device 3 (fixed layout display) (step 72).
  • the document image 21 shown in FIG. 2 is selected, the document image 21 is reduced as necessary, and the entire document image 21 is displayed on the display screen of the display device 3.
  • the paragraph area included in the displayed document image is extracted (step 73).
  • the arrangement and position of the character image included in the document image are detected using the OCR function in the mobile phone 1.
  • the arrangement of each line can be determined from the arrangement and position of the character image, and the position of the paragraph area can be determined from the arrangement of each line.
  • the paragraph area is extracted.
  • the position of the chart area extracted by the OCR function is also known. For example, when the document image 21 is selected, the paragraph areas F1 to F10 are extracted. Subsequently, a button (not shown) indicating whether or not to perform reflow display appears on the display screen of the display device 3. If the reflow display is not selected (NO in step 74) and no end command is given (NO in step 77), the document image is displayed as it is in a fixed layout (step 72).
  • step 74 When the reflow display is selected (YES in step 74), the paragraph area ordering process is performed on the extracted paragraph areas as described above (step 75).
  • a text order table as shown in FIGS. 9 and 11 and a column order table as shown in FIGS. 10 and 12 are generated. From the attribute column of the text order table, it is confirmed whether the attribute of the selected paragraph area is “Heading”, “Body” or “Bullet” (step 76).
  • the attribute of the selected paragraph area is “Heading”, “Body” or “Bullet” (YES in step 76)
  • the attribute of the “Heading”, “Body” or “Bullet” is set. All the character images included in the existing paragraph area are cut out, and the cut out character images are connected according to the arrangement of the character images (step 78). Even if a character image is included in a different paragraph area, if the attribute of the paragraph area is "Heading", "Body” or “Bullet”, the character image is cut out from those paragraph areas. Character images are concatenated. When the character images are connected, reflow display is performed (step 79).
  • FIG. 15 shows how reflow display is performed.
  • the paragraph area F2 of the document image 21 shown in FIG. 2 is selected. Further, as shown in the upper diagram of FIG. 15, the width of the paragraph area F2 is larger than the width of the display area 90 of the display screen of the display device 3 of the mobile phone 1.
  • the paragraph area F2 includes character images indicated by circles. By performing reflow display, scrolling in the vertical direction is possible without scrolling in the horizontal direction while maintaining the arrangement order of the character images. It becomes possible to see the character image included in the paragraph area F2 simply by doing so. Further, in this embodiment, since the paragraph areas are ordered as described above, it is possible not only to see the character image in the selected paragraph area by simply scrolling in the vertical direction, but also to the next. You can also see the character images in the paragraph area. For example, as shown in FIG. 9, since the corrected order stored in the text order table is the order of the paragraph areas F1, F2, F4, and F5, the paragraph area F2 is selected and included in the paragraph area F2. The displayed character image can be viewed only by scrolling in the vertical direction.
  • step 80 If there is no fixed layout display instruction (NO in step 80), the reflow display is continued (step 79). If there is a fixed layout display instruction (YES in step 80), the processing from step 72 in FIG. 13 is repeated.
  • the attribute of “column” is “column” (YES in step 81), as described above, the attribute of “column” is the same as the attribute of the selected paragraph area is “text”.
  • the character images included in the paragraph area having “” are connected (step 82) and reflow-displayed (step 80).
  • a character image included in a plurality of paragraph areas having the “column” attribute can be continuously viewed by simply scrolling vertically. For example, when the paragraph area F3 included in the document image 21 shown in FIG. 2 is selected, the column order table shown in FIG. When the display of the displayed character image is completed, the character image included in the paragraph area F9 is displayed.
  • step 81 If the attribute of the selected paragraph area is not “column” (NO in step 81), only the character image included in the selected paragraph area can be viewed only by scrolling in the vertical direction.
  • the character images are arranged so as to be displayed on the display screen (step 83).
  • paragraphs F12, F13, F14, and F18 of the next document image 22 are also included in the corrected order column of the text order table shown in FIG. According to the order, it becomes possible to view continuously only by scrolling in the vertical direction. In such a case, not only the selected document image but also the document image file representing the subsequent document image is read from the memory 5 and the above-described processing will be performed.
  • the attribute of the selected paragraph area is “column”, only a continuous column in the same page may be displayed, or a plurality of pages may be continuously displayed as in the text.
  • FIG. 16 is a block diagram showing an electrical configuration of the document image server 100.
  • the overall operation of the document image server 100 is controlled by the CPU 21.
  • the document image server 100 includes a communication device 102 for accessing the Internet, a memory 103 for storing predetermined data, an input device 104 such as a keyboard, a hard disk 105, a hard disk drive 106 for accessing the hard disk 105, and a CD.
  • a ROM (compact disk-read only memory) drive 107 is included.
  • a CD-ROM 108 storing a program for controlling the operation to be described later is loaded into the CD-ROM drive 107, and the program is read.
  • the read program is installed in the document image server 100. However, the program may be received via the Internet without being stored in a recording medium such as the CD-ROM 108.
  • the text file representing the document is stored in the hard disk 105.
  • a text file is read from the hard disk 105 and converted into a document image file representing a document image by the CPU 101.
  • the converted image file is also stored in the hard disk 105.
  • FIG. 17 is a flowchart showing a part of the processing procedure between the mobile phone 1 and the document image server 100.
  • the processing procedure shown in FIG. 17 is performed by dividing the processing of the mobile phone 1 shown in FIGS. 13 and 14 into the mobile phone 1 and the document image server 100.
  • a document image to be displayed on the display screen of the display device 3 of the mobile phone 1 is requested from the mobile phone 1 to the document image server 100 (step 111).
  • a request transmitted from the mobile phone 1 is received by the document image server 100
  • a document image file representing a document image corresponding to the request is read from the hard disk 105.
  • the document image server 100 extracts a paragraph area from the requested document image (step 121).
  • the read document image file and the extracted paragraph area are transmitted to the mobile phone 1 (step 122).
  • the paragraph area ordering process is performed as described above (step 123).
  • the document image represented by the received document image file is displayed on the display screen of the display device 3 of the mobile phone 1 in a fixed layout format. (Step 112). If there is neither selection of a paragraph area included in the displayed document image nor an instruction for reflow display (NO in step 113), if no end instruction is given (NO in step 114), the document image is fixed.
  • the layout display is continued (step 112).
  • a paragraph area is selected and reflow display is instructed (YES in step 113)
  • the selected paragraph area, order, and attributes are requested from the mobile phone 1 to the document image server 100 (step 115). For example, data indicating the position of the selected paragraph area (position touched by the user) among the paragraph areas included in the document image is transmitted from the mobile phone 1 to the document image server 100 as a request for the paragraph area.
  • the body order table, the column order table, the position of the paragraph area included in the document image obtained in the paragraph extraction process, Data indicating the position of the character image included in the paragraph area is transmitted from the document image server 100 to the mobile phone 1 (step 124).
  • the attribute of the selected paragraph area is determined based on the attribute data of the paragraph area stored in the received text order table. A determination is made as to “headline”, “text” or “itemized” (step 116). The subsequent processing is the same as the processing shown in FIG.
  • the headline paragraph area, the body paragraph area, and the bulleted paragraph area can be browsed continuously.
  • a table similar to the column order table may be generated so that it can be browsed.
  • the column paragraph areas are ordered so as to be browsed continuously, but it is not always necessary to perform display control so that column paragraph areas that are not adjacent are browsed continuously.
  • the column paragraph areas F3 and F9 shown in FIG. 2 are adjacent to each other, the column paragraph areas F5 and F9 are ordered so as to be browsed continuously, and the column paragraph area F5 is displayed following the column paragraph area F3.
  • the column paragraph regions F15 and F16 shown in FIG. 3 are not adjacent to each other, they need not be ordered so as to be browsed continuously.
  • the column paragraph regions F15 and F16 shown in FIG. As a result, when the column paragraph region F15 is selected, the column paragraph region F16 is not continuously displayed.
  • the column paragraph regions F15 and F16 are not adjacent to each other and are separate columns, the user who views the column paragraph regions F15 and F16 does not feel uncomfortable even if they are not displayed continuously.
  • the column paragraph regions that are not adjacent may be ordered so as to be browsed continuously as described above. In such a case, “1” is stored as the order of the column paragraph area F15 and “2” is stored as the order of the column paragraph area F16 as shown in the column order table shown in FIG.

Abstract

 本文段落領域を連続して閲覧する。 文書が画像化された文書画像21から,段落領域F1からF10の位置が抽出される。段落領域F1からF10のそれぞれの読出し順序が仮に決定される。段落領域F1からF10のそれぞれの段落領域の属性が検出され,本文が記述されている本文段落領域についての順序が決定される。決定された順序で,複数の本文段落領域に含まれている文字画像が,垂直方向にスクロールするだけで携帯電話の表示画面に順に表示される。

Description

段落領域の順序補正装置ならびにその動作制御方法およびその動作制御プログラム
 この発明は,段落領域の順序補正装置ならびにその動作制御方法およびその動作制御プログラムに関する。
 文書が画像化された文書画像には複数の段落領域が含まれていることがある。これらの段落領域には,本文が記述されているほか,本文とは関係の無いコラム,脚注などが記述されていることがある。文書画像に含まれている段落領域のみを順番に表示させるために,段落領域の順序を決定するもの(特許文献1,2,3),段落領域の接続関係を決定するもの(特許文献4)などがある。
特開2002-245466号公報 特開平8-227440号公報 特開2012-155714号公報 特開平6-215184号公報
 しかしながら,複数の段落領域に本文段落領域とコラム段落領域などのように本文以外の記述がある段落領域が混在していると,本文段落領域を連続して閲覧することはできない。
 この発明は,本文段落領域を連続して閲覧できるようにすることを目的とする。
 この発明による段落領域の順序補正装置は,文書が画像化された文書画像に含まれており,文字列が含まれている複数の段落領域について決定された順序を補正する段落領域の順序補正装置において,文書画像に含まれている文字列が横書きの場合には文書画像の左上の頂点から段落領域までの距離にもとづいて複数の段落領域の順序を決定し,文書画像に含まれる文字列が縦書きの場合には文書画像の右上の頂点から段落領域までの距離にもとづいて複数の段落領域の順序を決定する段落領域決定手段,複数の段落領域のうち,本文が記述されている本文段落領域(見出し,箇条書きも本文と捉えてもよいし,本文と捉えなくともよい)を検出する本文段落領域検出手段,および本文段落領域検出手段において検出された本文段落領域の順序を,段落順序決定手段において決定された順序に応じて昇順となるように補正する本文段落順序補正手段を備えていることを特徴とする。
 この発明は,段落領域の順序補正装置に適した動作制御方法も提供している。すなわち,文書が画像化された文書画像に含まれており,文字列が含まれている複数の段落領域について決定された順序を補正する段落領域の順序補正装置の動作制御方法において,段落領域決定手段が,文書画像に含まれている文字列が横書きの場合には文書画像の左上の頂点から段落領域までの距離にもとづいて複数の段落領域の順序を決定し,文書画像に含まれる文字列が縦書きの場合には文書画像の右上の頂点から段落領域までの距離にもとづいて複数の段落領域の順序を決定し,本文段落領域検出手段が,複数の段落領域のうち,本文が記述されている本文段落領域を検出し,本文段落順序補正手段が,本文段落領域検出手段において検出された本文段落領域の順序を,段落順序決定手段において決定された順序に応じて昇順となるように補正するものである。
 この発明は,段落領域の順序補正装置の動作制御方法を実施するためのコンピュータが読み取り可能なプログラムも提供している。そのようなプログラムを格納した記録媒体を提供するようにしてもよい。
 この発明によると,文書画像に含まれている文字列が横書きの場合には文書画像の左上の頂点から段落領域までの距離にもとづいて複数の段落領域の順序が決定され,文書画像に含まれている文字列が縦書きの場合には文書画像の右上の頂点から段落領域までの距離にもとづいて複数の段落領域の順序が決定される。複数の段落領域のうち,本文が記述されている本文段落領域が検出され,検出された本文段落領域の順序が,段落順序決定手段によって決定された順序に応じた昇順となるように補正される。文書画像に含まれている複数の段落領域に,本文以外が記述されている段落領域が含まれていても,本文段落領域に順序をつけることができるので,本文段落領域を順番に閲覧することができるようになる。
 文書画像が複数ページ分ある場合には,各ページの文書画像ごとに段落順序決定手段による複数の段落領域の順序を決定する処理,本文段落領域検出手段による本文段落領域検出処理および本文段落順序補正手段による本文段落順序の補正処理を行わせる第1の文書画像制御手段,ならびに本文段落検出手段によって検出された本文段落領域を,本文段落順序補正手段によって補正された順序で,ページの少ない文書画像に含まれている順に表示するように表示装置を制御する第1の表示制御手段をさらに備えることが好ましい。
 また,本文段落領域検出手段によって検出された1ページの文書画像内の本文段落のすべてを囲む矩形領域を本文領域と決定する本文領域決定手段,ならびに本文領域決定手段によって決定された本文領域内にある段落領域のうち,段落領域の面積,文字数および行数が一定値未満であり,かつ本文段落領域検出手段によって検出された本文段落領域の文字画像サイズ,文字色,背景色または文字のフォントの少なくとも1つが異なる段落領域を見出し段落領域と判定し,段落領域に含まれる行数が2行以上であり,あらかじめ定められている特定文字から始まる段落領域を箇条書き段落領域と判定し,段落順序決定手段において決定された順序の前の順序の段落領域の文字画像サイズ,文字色,背景色またはフォントの少なくとも1つ異なる段落領域をコラム段落領域と判定する第1の補足段落領域判定手段をさらに備えてもよい。
 本文段落順序補正手段は,たとえば,本文段落領域検出手段によって検出された本文段落領域ならびに第1の補足段落領域判定手段によって判定された見出し段落領域および箇条書き段落領域をすべて本文段落領域として見なして,本文段落領域検出手段によって検出された本文段落領域ならびに第1の補足段落領域判定手段によって判定された見出し段落領域および箇条書き段落領域の順序を,段落順序決定手段において決定された順序に応じて昇順となるように補正するものである。
 さらに,第1の補足段落領域判定手段によって,見出し段落領域と判定されたことに応じて見出し段落領域の順序を決定し,箇条書き段落領域と判定されたことに応じて箇条書き段落の順序を決定し,コラム段落領域と判定されたことに応じてコラム段落領域の順序を決定する補足段落順序決定手段をさらに備えてもよい。
 文書画像が複数ページ分ある場合には,各ページの文書画像ごとに第1の補足段落判定手段による判定処理,および補足段落順序決定手段による段落領域の順序を決定する処理を行わせる第2の文書画像制御手段,ならびに第1の補足段落領域判定手段によって判定された見出し段落領域,箇条書き段落領域またはコラム段落領域のそれぞれを,補足段落順序決定手段によって決定された順序で,ページ番号の小さい順に各段落領域の文字を表示するように表示装置を制御する第2の表示制御手段をさらに備えてもよい。
 本文段落領域検出手段によって検出された1ページの文書画像内の本文段落のすべてを囲む矩形領域を本文領域と決定する本文領域決定手段,ならびに本文領域決定手段によって決定された本文領域外にある段落領域のうち,段落領域の面積,文字数および行数が一定値未満であり,本文段落領域検出手段によって検出された本文段落領域の文字画像サイズ,文字色,背景色または文字のフォントの少なくとも1つが異なる段落領域をロゴ段落領域と判定し,あらかじめ定められている特定文字から始まる段落領域を脚注領域と判定する第2の補足段落領域判定手段をさらに備えてもよい。
 第2の補足段落領域判定手段によってロゴ段落領域と判定された段落領域に数字のみが含まれていることに応じて,その数字がページ番号と判定するページ番号判定手段をさらに備えてもよい。
 第1の補足段落領域判定手段においてコラム段落領域と判定された段落領域が,あらかじめ定められている特定の文字(たとえば,図,表,FIG.,Tableなど)から始まることにより図表説明段落と判定する図表説明段落判定手段をさらに備えてもよい。
 補足段落順序決定手段は,たとえば,第1の補足段落順序決定手段においてコラム段落領域と判定されたことに応じて,隣接している2つのコラム段落領域であって,文字画像サイズ,文字色,背景色およびフォントが同じである2つのコラム段落領域を連続した順序とするものである。
 固定レイアウト表示またはリフロー表示を指定する表示指定手段,および表示指定手段によって固定レイアウト表示が指定されたことに応じて文書画像全体が表示画面に表示されるように表示装置を制御し,表示指定手段によってリフロー表示が指定されたことに応じて,指定された段落領域内の画像が表示領域に表示されるように表示装置を制御する第3の表示制御手段をさらに備えてもよい。
携帯電話の電気的構成を示すブロック図である。 文書画像の一例である。 文書画像の一例である。 段落領域順序付けの処理手順を示すフローチャートである。 段落領域順序付けの処理手順を示すフローチャートである。 段落領域順序付けの処理手順を示すフローチャートである。 段落領域順序付けの処理手順を示すフローチャートである。 文書画像の一例である。 本文順序テーブルの一例である。 コラム順序テーブルの一例である。 本文順序テーブルの一例である。 コラム順序テーブルの一例である。 携帯電話の処理手順を示すフローチャートである。 携帯電話の処理手順を示すフローチャートである。 リフロー表示が行われる様子を示している。 文書画像サーバの電気的構成をブロック図である。 携帯電話と文書画像サーバとの処理手順を示すフローチャートである。
 図1は,いわゆるスマートフォンと呼ばれる携帯電話1の電気的構成を示すブロック図である。この実施例では,携帯電話1の表示装置3の表示画面に文書画像(テキスト・データによって表わされる文書が画像化されたもの)が表示される。
 携帯電話1の全体の動作は,制御装置2によって統括される。
 携帯電話1には,他の携帯電話との通信,インターネットへのアクセス等のための通信装置12およびアンテナ11が設けられている。
 また,携帯電話1には,表示画面に文書,画像などを表示するための表示装置3が設けられている。表示装置3の表示画面には,タッチ・パネル4が形成されている。表示画面上に形成されているタッチ・パネル4をタッチすることにより,ユーザは,携帯電話1に様々な指令を与えることができる。
 携帯電話1には,ブラウザなどのプログラム,所定のデータが格納されるメモリ5も含まれている。さらに,携帯電話1には,メモリ・カード・インターフェイス6が設けられている。このメモリ・カード・インターフェイス6に,後述する動作プログラムが格納されているメモリ・カード7が装填されると,メモリ・カード・インターフェイス6によりメモリ・カード6に格納されている動作プログラムが読み取られる。読み取られた動作プログラムが携帯電話1にインストールされる。
 さらに,携帯電話1には,スピーカ8およびマイクロフォン9も含まれている。音声信号は,増幅回路10によって増幅されてスピーカ8に与えられることによりスピーカ8から音声が出力される。また,マイクロフォン9から入力した音声を表わす音声信号は,増幅回路10によって増幅されて制御装置102に入力する。
 図2および図3は,文書画像21および22の一例である。
 文書画像21および21は,画像化されているもので,画像データ(文書画像ファイル)によって表わされるものである。
 図2に示す文書画像21は第1ページ目であり,図3に示す文書画像22は第2ページ目である。第3ページ目以降の文書画像があってもよい。
 図2を参照して,文書画像21には,F1からF10までの10個の段落領域が規定されている。これらの段落領域F1からF10のそれぞれの段落領域に文字列が記述されている。段落領域F1は見出し段落領域であり,段落領域F2,F4,F5およびF6は本文段落領域であり,段落領域F3およびF9はコラム段落領域であり,段落領域F7はページ番号段落領域であり,段落領域F8はロゴ段落領域であり,段落領域F10は脚注段落領域である。本文段落領域F2,F4,F5およびF6には,文書の主となる内容を示す文章が記述されている。コラム段落領域F3およびF9には,本文とは異なる文章が記述されている。図2においては,詳しく後述するように,本文領域24も図示されている。
 図3を参照して,文書画像22には,F11からF18までの8個の段落領域が規定されている。これらの段落領域F11からF18のそれぞれに文字列が記述されている。段落領域F11,F12,F13,F14およびF18は本文段落領域であり,段落領域F12およびF16はコラム段落領域であり,段落領域F17はページ番号段落領域である。
 図2および図3において,上述したように,それぞれの段落領域がどのような段落領域か分るようにするために,「本文」,「コラム」などの文字が各段落領域に付されているが,それぞれの段落領域は画像化されているので,後述するように属性判定処理が行われることにより,それぞれの段落領域が,本文段落領域なのか,コラム段落領域なのか,その以外の段落領域なのかが分るようになる。図2,図3においては,見出し段落領域,本文段落領域,コラム段落領域,ロゴ段落領域,ページ番号段落領域,脚注段落領域などが図示されているが,箇条書き段落領域,図表説明段落領域,図表段落領域などが含まれていてもよいのはいうまでもない。
 図4から図7は,段落領域順序付け処理手順を示すフローチャートである。
 図2に示す文書画像21に含まれている段落領域F1からF10の段落領域の順序付けがされる場合について説明する。
 まず,文書画像21に含まれている文書の記述が横書きか縦書きかが判断される(ステップ31)。文書画像21を表わす文書画像ファイルのヘッダに横書きか縦書きかを示すデータが格納されている場合には,そのデータにもとづいて判断してもよいし,文書画像21をOCR(Optical Character Reader)機能により読み取り,得られた文字画像の配列にもとづいて判断してもよい。たとえば,隣接する文字画像同士の横方向の幅よりも縦方向の幅の方が大きければ横書きと判断されるし,その逆に隣接する文字画像同士の横方向の幅よりも縦方向の幅の方が小さければ縦書きと判断される。
 横書きと判断されると(ステップ31でYES),文書画像21の左上の頂点を原点の座標(X0,Y0)としたときに,その左上の頂点にもっとも近い頂点をもつ段落領域が親段落領域とされる(ステップ32)。文書画像21では,文書画像21の左上の頂点にもっとも近い段落領域は段落領域F1であるから,段落領域F1が親段落領域とされる。縦書きの場合には,文書画像21の右上の頂点を原点の座標としたときに,その右上の頂点にもっとも近い頂点をもつ段落領域が親段落領域となる。
 つづいて,親段落領域の右辺よりも左に左辺が位置する子段落領域が(縦書きの場合は,親段落領域の下辺よりも上に上辺が位置する子段落領域)存在するかどうかが判断される(ステップ33)。文書画像21の場合,親段落領域である段落領域F1の右辺RSよりも左に左辺が位置する段落領域として段落領域F2,F3およびF4が存在するから,これらの段落領域F2,F3およびF4が子段落領域される。すると,子段落領域F2,F3およびF4が,上辺が上にあるものから順にソートされる(ステップ34)。文書画像21に含まれている子段落領域F2,F3およびF4では,子段落領域F2,F3およびF4の順に,それぞれの子段落領域F2,F3およびF4の上辺が上にあるから,子段落領域F2,F3およびF4の順にソートされる。
 このようにしてソートされた子段落領域F2,F3およびF4のそれぞれの上辺同士の差が一定値未満の場合には,それぞれの子段落領域F2,F3およびF4の左辺が左側にある子段落領域ほど順序が先となるように再ソートされる(ステップ35)。
 図8は,文書画像23の一例である。
 文書画像23には,段落領域F21からF25が含まれている。親段落領域は段落領域F21である。親段落領域F21に対する子段落領域は段落F22およびF23である。子段落領域F23の上辺の方が子段落領域F22の上辺よりも上にあるので,上述した図4ステップ34の処理では子段落領域F23の方が子段落領域F22よりも先に順序付けられる。しかしながら,子段落領域F22の上辺と子段落領域F23の上辺との差Δは小さく,一定値未満であったものとする。そのような場合,この実施例では,左辺が左側にある子段落領域F22が先となるように順序付けが行われる。
 図4に戻って,親段落領域F1,ソートまたは再ソートされた子段落領域F2,F3およびF4の順に仮順序付けが行われる(ステップ36)。
 つづいて,親段落領域の右辺よりも右に,左辺が位置する段落領域(縦書きの場合,親段落領域の下辺よりも下に,上辺が位置する段落領域)が存在するかどうかが確認される(図5ステップ37)。文書画像21では,現在の親段落領域は段落領域F1であり,その親段落領域F1の右辺RSよりも右に左辺が位置する段落領域F5からF10が存在する。したがって,親段落領域F1の右辺の延長線上と文書画像の上辺USとの交点(X1,Y1)が新たな原点とされ,その新たな原点に最も近い左上の頂点をもつ段落領域が新たな親段落領域とされる(ステップ38)。文書画像21では,新たな原点(X1,Y1)に最も近い左上の頂点をもつ段落領域は段落領域F5であるから,段落領域F5が新たな親段落領域とされる。縦書きの場合,親段落領域の下辺の延長線上と文書画像の右辺との交点が新たな原点とされ,その新たな原点に最も近い右上の頂点をもつ段落領域が新たな親段落領域とされる。
 新たな親段落領域が決定されると,再び図4ステップ33から36の処理が繰り返される。図2に示す文書画像21では,このような処理が繰り返されることにより,段落領域F5からF10までの仮順序付けが行われる。
 図9は,本文順序テーブルの一例である。
 本文順序テーブルは,本文段落領域の順序を示すテーブルである。
 本文順序テーブルには,段落領域ごとに仮順序,属性および補正済み順序の各欄が規定されている。上述のように仮順序付けがされると,本文順序テーブルの仮順序の欄にデータが格納される。
 図2に示す文書画像21では,段落領域F1からF10の順序どおりに仮順序がつけられることとなる。
 親段落領域の右辺よりも左に左辺が位置する子段落領域が存在しないと(図4ステップ33でNO),その親段落領域が最後の順序とされる。
 図5に戻って,段落領域に仮順序がつけられると,それぞれの段落領域の属性を検出する処理に移行する。段落領域の属性は,その段落領域が,本文を記述しているのか,コラムを記述しているのか,箇条書きを記述しているのかなどを示すものである。
 属性の検出のために,まず本文段落判定処理が行われる(ステップ39)。段落領域の面積,文字数,文字密度(文字数/面積)および行数が一定値以上の場合に,その段落領域が一度,本文段落領域と判定される。詳しくは後述するように,一度本文段落領域と判定された段落領域であっても,その他の判定処理によりコラム段落領域などと修正されることもある。本文段落領域と判定された段落領域を囲む矩形が規定され,その矩形で囲まれた領域が本文領域とされる(ステップ39)。
 図2を参照して,段落領域F2からF6およびF9が,一度,本文段落領域と判定される。すると,それらの段落領域F2からF6およびF9を囲む矩形の領域24が本文領域と規定される。
 つづいて,文書画像21のすべての段落領域について,以下の処理が行われる。
 まず,本文領域24内の段落領域かどうかが確認される(ステップ41)。ロゴ,脚注,ページ番号であれば,本文領域24から外れており,見出し,箇条書き,コラム,本文であれば,本文領域24内に存在する筈である。このために,本文内の段落領域であれば(ステップ41でYES),まず見出し判定処理が行われる(ステップ42)。面積,文字数,行数が一定値未満であり,かつ本文領域と判定された段落領域の平均的な文字画像サイズ,文字色,背景色および文字のフォントの少なくとも一つが異なる段落領域が見出し段落領域と判定される。見出し段落領域と判定されると(図6ステップ43でYES),その段落領域の属性が「見出し」とされる(ステップ44)。たとえば,図2に示す文書画像21の段落領域F1は見出し段落領域と判定され,その属性が「見出し」とされ,その「見出し」という属性が本文順序テーブルの属性の欄に段落領域F1に対応して格納される。
 段落領域が見出し領域でなければ(ステップ43でNO),箇条書き判定処理が行われる(ステップ45)。行数が2行以上であり,かつ数字,丸で囲まれた数字,括弧でくくられた数字,中点などから始まる文章を含む段落領域が箇条書き段落領域と判定される。数字かどうかは,上述したOCR機能を利用できるのはいうまでもない。箇条書き段落領域と判定されると(ステップ46でYES),その段落領域の属性が「箇条書き」とされる(ステップ47)。
 段落領域が箇条書き領域でもなければ(ステップ46でNO),コラム判定処理が行われる(ステップ49)。仮順序で前または後の段落領域に含まれている文字画像と文字画像サイズ,文字色,背景色またはフォントの少なくとも一つが異なる段落領域がコラム領域と判定される。たとえば,図2に示す文書画像21に含まれる段落領域F3に含まれる文字画像は,その前の段落領域F2に含まれる文字画像と文字画像サイズ,文字色,背景色またはフォントなどが異なり,段落領域F3がコラム段落領域と判定される。コラム段落領域と判定されると(ステップ49でYES),つづいて図表説明判定処理が行われる(ステップ51)。行頭が,「図」,「表」,「FIG.」,「Table」などのあらかじめ定められている特定の文字,単語などであった場合には図表説明の段落領域と判定される。図表説明段落領域である場合には(ステップ52でYES),その段落領域の属性が「図表説明」とされ(ステップ54),図表説明段落領域ではなかった場合には(ステップ52でNO),その段落領域の属性が「コラム」とされる(ステップ53)。
 段落領域がコラム段落領域でもなければ(ステップ49でNO),その段落領域は改めて本文領域とされ,属性が「本文」とされる(ステップ50)。見出し段落領域および箇条書き段落領域を含めて本文段落領域と見なしてもよい。
 段落領域が本文領域外のものについては(図5ステップ41でNO),まずロゴ段落判定処理が行われる(図7ステップ55)。段落領域の面積,文字数および行数が一定値未満であり,かつ本文段落領域と判定された段落領域に含まれている文字画像の文字画像サイズ,文字色,背景色,フォントが異なる段落領域がロゴ段落領域と判定される。ロゴ段落領域と判定された段落領域については(ステップ56でYES),さらにページ番号判定処理が行われる(ステップ62)。段落領域内に数字のみが含まれている場合には,ページ番号段落領域と判定される。段落領域がページ番号段落領域と判定されると,属性は「ページ番号」とされる(ステップ65)。段落領域がページ番号段落領域と判定されていなければ(ステップ63でNO),その段落領域の属性は「ロゴ」とされる(ステップ64)。
 段落領域がロゴ段落領域でなければ(ステップ56でNO),脚注判定処理が行われる(ステップ57)。行頭が数字,アスタリスクなどの特定の記号の場合には,その段落領域は脚注段落領域と判定される。脚注段落領域と判定された段落領域の属性は「脚注」とされる(ステップ59)。
 以上のように,段落領域の属性が判定されると,本文順序テーブルの属性の欄に,それぞれの属性が格納される。
 図9を参照して,文書画像21の段落領域F1は見出し段落領域であり,段落領域F2,F4,F5およびF6は本文段落領域であり,段落領域F3およびF9はコラム段落領域であり,段落領域F7はページ番号段落領域であり,段落領域F10は脚注段落領域であると判定され,それぞれの属性が属性の欄に格納されることとなる。
 文書画像21のすべての段落領域の属性が検出されると,検出された属性から,仮順序が補正される(ステップ60)。まず,本文順序テーブルの属性の欄に記述されている属性のうち,「見出し」,「本文」,「箇条書き」以外の「コラム」,「ページ番号」,「脚注」が付与されている段落領域についての順序を示すデータが,仮順序の欄に記載されたデータから除かれたデータが補正済順序の欄に格納される。また,補正済順序の欄に格納されたデータは,仮順序の欄に格納された順序にしたがって昇順となるように変更させられる。図9を参照して,段落領域F3の属性は「コラム」,段落領域F7の属性は「ページ番号」,段落領域F8の属性は「ロゴ」,段落領域F9の属性は「コラム」,段落領域F10の属性は「脚注」であるから,これらの順序データが仮順序データから除かれ,かつ昇順に順序が付与されると,補正済順序は,段落領域F1,F2,F4,F5およびF6となる。また,コラム順序テーブルも生成される。
 図10は,コラム順序テーブルの一例である。
 コラム順序テーブルは,段落領域に対応してコラムとしての順序を示すデータが格納されるものである。
 上述したように,段落領域F3およびF9の属性が「コラム」であるから,それらの仮順序にしたがって,段落領域F3に「1」が付与され,段落領域F9に「2」が付与される。
 図7に戻って,このように属性から仮順序が補正され補正済順序が得られると,コラム段落領域については,再補正が行われる(ステップ61)。
 コラム段落領域と判定された段落領域のうち,段落領域に含まれている文字画像のサイズ,文字色,背景色およびフォントが同じであり,かつ隣接している2つの段落領域は1つのコラムと見なされるように再補正が行われる。そのような2つのコラム段落領域については,それらの2つのコラム段落領域の順序が連続するように,順序が補正される。たとえば,図2に示す段落領域F2とF5とがコラム段落領域であったとすると,段落領域F2の次の順序が段落領域F5となるように再補正処理が行われることとなる。
 このようにして,図9に示すように文書画像21についての本文順序テーブル,図10に示すように文書画像21についてのコラム順序テーブルがそれぞれ生成される。
 同様に,図3に示す文書画像についても図11に示すように本文順序テーブルが生成され,図12に示すようにコラム順序テーブルが生成される。
 図13および図14は,上述した段落順序付け処理を利用して文書画像21等を表示装置3の表示画面に表示するときの携帯電話1の処理手順を示すフローチャートである。
 携帯電話1のメモリ5(メモリ・カード7でもよい)には,図2に示す文書画像21,図3に示す文書画像22などを表わす文書画像ファイルが格納されている。文書画像21を表わす文書画像ファイルと文書画像22を表わす文書画像ファイルとが別々でもよいし,一つの文書画像ファイルによって文書画像21,22など複数の文書画像が表わされてもよい。
 表示装置3の表示画面には,多数の文書画像の縮小画像が表示され,それらの縮小画像の中から所望の文書画像が選択される(ステップ71)。文書画像が選択されると,その選択された文書画像の全体が表示装置3の表示画面に渡って表示される(固定レイアウト表示)(ステップ72)。たとえば,図2に示す文書画像21が選択されたとすると,必要に応じて縮小されて,その文書画像21の全体が表示装置3の表示画面に表示される。すると,表示されている文書画像に含まれている段落領域が抽出される(ステップ73)。携帯電話1にあるOCR機能を利用して文書画像に含まれている文字画像の配列,位置が検出される。文字画像の配列,位置から各行の構成が分り,各行の構成から段落領域の位置が分る。このようにして段落領域が抽出されることとなる。一方,このようにして抽出される段落領域とは別に,OCR機能によって抽出された図表領域も位置が分る。たとえば,文書画像21が選択されると,段落領域F1からF10が抽出されることとなる。つづいて,表示装置3の表示画面には,リフロー表示するか否かのボタン(図示略)が現れる。リフロー表示が選択されず(ステップ74でNO),終了指令が与えられなければ(ステップ77でNO),そのまま文書画像が固定レイアウトで表示される(ステップ72)。
 リフロー表示が選択されると(ステップ74でYES),抽出された段落領域について,上述したように段落領域順序付け処理が行われる(ステップ75)。
 段落領域順序付け処理が行われると,図9,図11に示したように本文順序テーブル,図10,図12に示したようにコラム順序テーブルが生成される。本文順序テーブルの属性の欄から,選択された段落領域の属性が「見出し」,「本文」または「箇条書き」かどうかが確認される(ステップ76)。
 選択された段落領域の属性が「見出し」,「本文」または「箇条書き」であると(ステップ76でYES),それらの「見出し」,「本文」または「箇条書き」の属性を有している段落領域に含まれている文字画像がすべて切り出され,それらの文字画像の配列にしたがって,切り出された文字画像が連結される(ステップ78)。異なる段落領域に含まれている文字画像であっても,段落領域の属性が「見出し」,「本文」または「箇条書き」であれば,それらの段落領域から文字画像が切り出され,切り出された文字画像が連結される。文字画像が連結されるとリフロー表示が行われる(ステップ79)。
 図15は,リフロー表示が行われる様子を示している。
 図2に示す文書画像21の段落領域F2が選択されたものとする。また,図15の上の図に示すように,段落領域F2の横幅は,携帯電話1の表示装置3の表示画面の表示領域90の横幅よりも大きいものとする。
 段落領域F2には丸印で示す文字画像が含まれており,リフロー表示が行われることにより,それらの文字画像の配列順序が維持された状態で水平方向にスクロールしなくとも,垂直方向にスクロールするだけで段落領域F2に含まれている文字画像を見ることができるようになる。また,この実施例では,上述のように,段落領域の順序付けが行われているので,垂直方向にスクロールするだけで,選択された段落領域内の文字画像を見ることができるだけでなく,その次の段落領域内の文字画像も見ることができる。たとえば,図9に示すように,本文順序テーブルに格納されている補正済順序は,段落領域F1,F2,F4,F5の順であるから,段落領域F2が選択され,段落領域F2内に含まれている文字画像について垂直方向のスクロールだけで見ることができるようにされ,段落領域F2内に含まれているすべての文字画像について表示装置3の表示画面への表示が終わると,垂直方向にスクロールされることにより,次の段落領域F4内に含まれている文字画像が,その文字画像の配列にしたがって表示領域90内に配列されるようになる。このように「見出し」,「本文」または「箇条書き」の属性を有している段落領域に含まれている文字画像については,垂直方向にスクロールするだけで連続してみることができるようになる。
 固定レイアウトの表示指示が無ければ(ステップ80でNO),そのままリフロー表示が続けられる(ステップ79)。固定レイアウトの表示指示があると(ステップ80でYES),図13ステップ72からの処理が繰り返される。
 選択された段落領域の属性が「見出し」,「本文」または「箇条書き」でなければ(図13ステップ76でNO),選択された段落領域の属性が「コラム」かどうかが確認される(図14ステップ81)。
 選択された段落領域の属性が「コラム」であると(ステップ81でYES),上述したように,選択された段落領域の属性が「本文」等であるのと同様に,「コラム」の属性を有している段落領域に含まれている文字画像が連結されて(ステップ82),リフロー表示される(ステップ80)。「コラム」の属性を有している複数の段落領域に含まれている文字画像を,垂直方向にスクロールするだけで,続けて見ることができる。たとえば,図2に示す文書画像21に含まれている段落領域F3が選択されると,図10に示すコラム順序テーブルが参照されて,垂直方向へのスクロールが行われて,段落領域F3に含まれている文字画像の表示が終了すると,段落領域F9に含まれている文字画像が表示されるようになる。
 選択された段落領域の属性が「コラム」でなければ(ステップ81でNO),その選択された段落領域に含まれている文字画像のみが垂直方向へのスクロールだけで閲覧できるように表示装置3の表示画面に表示されるように,文字画像が配列される(ステップ83)。
 上述の実施例において,ある文書画像に含まれている段落領域が選択された場合に,その選択された段落領域の属性が「見出し」,「本文」または「箇条書き」のときに,他の文書画像に含まれており,かつ属性が「見出し」,「本文」または「箇条書き」の段落領域に含まれている文字画像についても,垂直方向にスクロールするだけで連続して見ることができるようにしてもよい。ページ番号の小さい順に各段落領域の文字が表示されるようになる。たとえば,上述のように文書画像21の段落領域F2が選択されたとすると,文書画像21の段落領域F2,F4,F5およびF6に含まれている文字画像が垂直方向のスクロールだけで連続して見ることができるようにされ,かつその次の文書画像22の段落F12,F13,F14およびF18に含まれている文字画像も,図11に示す本文順序テーブルの補正済順序の欄に含まれている順序にしたがって垂直方向のスクロールだけで連続して見ることができるようになる。そのような場合には,選択された文書画像だけでなく,その後に続く文書画像を表わす文書画像ファイルもメモリ5から読み出され,上述した処理が行われることとなろう。選択された段落領域の属性が「コラム」の場合は,同一ページ内の連続するコラムだけ表示してもよいし,本文のように複数のページにわたって連続して表示してもよい。
 図16および図17は,他の実施例を示している。
 図16は,文書画像サーバ100の電気的構成を示すブロック図である。
 文書画像サーバ100の全体の動作は,CPU21によって統括される。
 文書画像サーバ100には,インターネットにアクセスするための通信装置102,所定のデータ等を記憶するメモリ103,キーボードなどの入力装置104,ハードディスク105,ハードディスク105にアクセスするためのハードディスク・ドライブ106およびCD-ROM(コンパクトディスク-リードオンリ・メモリ)ドライブ107が含まれている。後述する動作を制御するプログラムが格納されたCD-ROM108がCD-ROMドライブ107に装填され,そのプログラムが読み取られる。読み取られたプログラムが文書画像サーバ100にインストールされる。もっとも,プログラムは,CD-ROM108のような記録媒体に格納されていずに,インターネットを介して受信してもよい。
 文書を表わすテキスト・ファイルはハードディスク105に格納されている。ハードディスク105からテキスト・ファイルが読み取られ,CPU101によって文書画像を表わす文書画像ファイルに変換される。変換された画像ファイルもハードディスク105に格納される。
 図17は,携帯電話1と文書画像サーバ100との処理手順の一部を示すフローチャートである。
 図17に示す処理手順は,図13および図14に示す携帯電話1の処理を携帯電話1と文書画像サーバ100とに分けて行うものである。
 まず,携帯電話1から文書画像サーバ100に,携帯電話1の表示装置3の表示画面に表示する文書画像がリクエストされる(ステップ111)。携帯電話1から送信されたリクエストが文書画像サーバ100において受信されると,そのリクエストに対応した文書画像を表わす文書画像ファイルがハードディスク105から読み取られる。この後,文書画像サーバ100では,リクエストされた文書画像から段落領域が抽出される(ステップ121)。読み取られた文書画像ファイルと抽出された段落領域とが携帯電話1に送信される(ステップ122)。
 また,文書画像サーバ100では,上述したように段落領域順序付け処理が行われる(ステップ123)。
 文書画像サーバ100から送信された文書画像ファイルが携帯電話1において受信されると,受信した文書画像ファイルによって表わされる文書画像が固定レイアウト形式で携帯電話1の表示装置3の表示画面に表示される(ステップ112)。表示されている文書画像に含まれている段落領域の選択およびリフロー表示の指示のいずれも無ければ(ステップ113でNO),終了指示が与えられないときには(ステップ114でNO),文書画像の固定レイアウト表示が続けられる(ステップ112)。段落領域が選択され,リフロー表示が指示されると(ステップ113でYES),選択された段落領域,順序,属性が携帯電話1から文書画像サーバ100にリクエストされる(ステップ115)。たとえば,文書画像に含まれる段落領域のうち,選択された段落領域の位置(ユーザがタッチした位置)を示すデータが段落領域のリクエストとして携帯電話1から文書画像サーバ100に送信される。
 携帯電話1から送信されたリクエストが文書画像サーバ100において受信されると,そのリクエストに応じて,本文順序テーブル,コラム順序テーブル,段落抽出処理において得られる文書画像に含まれる段落領域の位置,各段落領域に含まれる文字画像の位置などを示すデータが文書画像サーバ100から携帯電話1に送信される(ステップ124)。
 文書画像サーバ100から送信された本文順序テーブル等が携帯電話1において受信されると,受信した本文順序テーブルに格納されている段落領域の属性のデータにもとづいて,選択された段落領域の属性が「見出し」,「本文」または「箇条書き」かの判断が行われる(ステップ116)。この後の処理は,図14に示す処理と同様であるので重複説明を省略する。
 上述の実施例では,文書画像が横書きの場合について説明したが,文書画像が横書きの場合に限らず,縦書きの場合についても同様に適用できる。文書画像が縦書きの場合には,垂直方向にスクロールすることなく水平方向にスクロールすることにより,文書を読むことができるようにリフロー表示が行われることとなろう。
 また,上述の実施例では,見出し段落領域,本文段落領域および箇条書き段落領域を,連続して閲覧できるようにしているが,見出し段落領域だけ,本文段落領域だけ,箇条書きだけを,それぞれ連続して閲覧できるようにコラム順序テーブルと同様のテーブルを生成するようにしてもよい。
 さらに,上述の実施例では,コラム段落領域については,連続して閲覧するように順序付けされているが,隣接していないコラム段落領域については必ずしも連続して閲覧するように表示制御しなくともよい。たとえば,図2に示すコラム段落領域F3とF9とは隣接しているので,連続して閲覧されるように順序付けが成され,コラム段落領域F3につづいてコラム段落領域F5が表示される。これに対し,図3に示すコラム段落領域F15とF16とは隣接していないので,連続して閲覧されるように順序付けされなくともよい。たとえば,図12に示すコラム段落領域F15およびF16の順序はいずれも「1」が付されることとなろう。これにより,コラム段落領域F15が選択された場合に,コラム段落領域F16が連続して表示されないようになる。コラム段落領域F15とF16とは隣接せずに,別々のコラムなので,連続して表示されなくとも,それらのコラム段落領域F15とF16とを閲覧するユーザは違和感を生じないこととなる。もっとも,隣接していないコラム段落領域についても上述のように連続して閲覧されるように順序付けされてもよい。そのような場合には,上述した図12に示すコラム順序テーブルに示すようにコラム段落領域F15の順序として「1」が格納され,コラム段落領域F16の順序として「2」が格納される。
1 携帯電話
2 制御装置
3 表示装置
21,22 文書画像
100 文書画像サーバ

Claims (13)

  1.  文書が画像化された文書画像に含まれており,文字列が含まれている複数の段落領域について決定された順序を補正する段落領域の順序補正装置において,
     文書画像に含まれている文字列が横書きの場合には文書画像の左上の頂点から段落領域までの距離にもとづいて複数の段落領域の順序を決定し,文書画像に含まれる文字列が縦書きの場合には文書画像の右上の頂点から段落領域までの距離にもとづいて複数の段落領域の順序を決定する段落領域決定手段,
     複数の段落領域のうち,本文が記述されている本文段落領域を検出する本文段落領域検出手段,および
     上記本文段落領域検出手段において検出された本文段落領域の順序を,上記段落順序決定手段において決定された順序に応じて昇順となるように補正する本文段落順序補正手段,
     を備えた段落領域の順序補正装置。
  2.  文書画像が複数ページ分あり,
     各ページの文書画像ごとに上記段落順序決定手段による複数の段落領域の順序を決定する処理,上記本文段落領域検出手段による本文段落領域検出処理および上記本文段落順序補正手段による本文段落順序の補正処理を行わせる第1の文書画像制御手段,ならびに
     上記本文段落検出手段によって検出された本文段落領域を,上記本文段落順序補正手段によって補正された順序で,ページ番号の小さい順に各段落領域の文字を表示するように表示装置を制御する第1の表示制御手段,
     をさらに備えた請求項1に記載の段落領域の順序補正装置。
  3.  上記本文段落領域検出手段によって検出された1ページの文書画像内の本文段落のすべてを囲む矩形領域を本文領域と決定する本文領域決定手段,ならびに
     上記本文領域決定手段によって決定された本文領域内にある段落領域のうち,段落領域の面積,文字数および行数が一定値未満であり,かつ上記本文段落領域検出手段によって検出された本文段落領域の文字画像サイズ,文字色,背景色または文字のフォントの少なくとも1つが異なる段落領域を見出し段落領域と判定し,段落領域に含まれる行数が2行以上であり,あらかじめ定められている特定文字から始まる段落領域を箇条書き段落領域と判定し,上記段落順序決定手段において決定された順序の前の順序の段落領域の文字画像サイズ,文字色,背景色またはフォントの少なくとも1つ異なる段落領域をコラム段落領域と判定する第1の補足段落領域判定手段,
     をさらに備えた請求項1または2に記載の段落領域の順序補正装置。
  4.  上記本文段落順序補正手段は,
     上記本文段落領域検出手段によって検出された本文段落領域ならびに上記第1の補足段落領域判定手段によって判定された見出し段落領域および箇条書き段落領域をすべて本文段落領域として見なして,上記本文段落領域検出手段によって検出された本文段落領域ならびに上記第1の補足段落領域判定手段によって判定された見出し段落領域および箇条書き段落領域の順序を,上記段落順序決定手段において決定された順序に応じて昇順となるように補正するものである,
     請求項1から3のうち,いずれか一項に記載の段落領域の順序補正装置。
  5.  上記第1の補足段落領域判定手段によって,見出し段落領域と判定されたことに応じて見出し段落領域の順序を決定し,箇条書き段落領域と判定されたことに応じて箇条書き段落の順序を決定し,コラム段落領域と判定されたことに応じてコラム段落領域の順序を決定する補足段落順序決定手段,
     をさらに備えた請求項3または4に記載の段落領域の順序補正装置。
  6.  文書画像が複数ページ分あり,
     各ページの文書画像ごとに上記第1の補足段落判定手段による判定処理,および上記補足段落順序決定手段による段落領域の順序を決定する処理を行わせる第2の文書画像制御手段,ならびに
     上記第1の補足段落領域判定手段によって判定された見出し段落領域,箇条書き段落領域またはコラム段落領域のそれぞれを,上記補足段落順序決定手段によって決定された順序で,ページ数の少ない文書画像に含まれている順に表示するように表示装置を制御する第2の表示制御手段,
     をさらに備えた請求項5に記載の段落領域の順序補正装置。
  7.  上記本文段落領域検出手段によって検出された1ページの文書画像内の本文段落のすべてを囲む矩形領域を本文領域と決定する本文領域決定手段,ならびに
     上記本文領域決定手段によって決定された本文領域外にある段落領域のうち,段落領域の面積,文字数および行数が一定値未満であり,上記本文段落領域検出手段によって検出された本文段落領域の文字画像サイズ,文字色,背景色または文字のフォントの少なくとも1つが異なる段落領域をロゴ段落領域と判定し,あらかじめ定められている特定文字から始まる段落領域を脚注領域と判定する第2の補足段落領域判定手段,
     をさらに備えた請求項1から6のうち,いずれか一項に記載の段落領域の順序補正装置。
  8.  上記第2の補足段落領域判定手段によってロゴ段落領域と判定された段落領域に数字のみが含まれていることに応じて,その数字がページ番号と判定するページ番号判定手段,
     をさらに備えた請求項7に記載の段落領域の順序補正装置。
  9.  上記第1の補足段落領域判定手段においてコラム段落領域と判定された段落領域が,あらかじめ定められている特定の文字または単語から始まることにより図表説明段落領域と判定する図表説明段落領域判定手段,
     をさらに備えた請求項3から8のうち,いずれか一項に記載の段落領域の順序補正装置。
  10.  上記補足段落順序決定手段は,
     上記第1の補足段落順序決定手段においてコラム段落領域と判定されたことに応じて,隣接している2つのコラム段落領域であって,文字画像サイズ,文字色,背景色およびフォントが同じである2つのコラム段落領域を連続した順序とするものである,
     請求項5から9のうち,いずれか一項に記載の段落領域の順序補正装置。
  11.  固定レイアウト表示またはリフロー表示を指定する表示指定手段,および
     上記表示指定手段によって固定レイアウト表示が指定されたことに応じて文書画像全体が表示画面に表示されるように表示装置を制御し,上記表示指定手段によってリフロー表示が指定されたことに応じて,指定された段落領域内の画像が表示領域に表示されるように表示装置を制御する第3の表示制御手段,
     をさらに備えた請求項1から10のうち,いずれか一項に記載の段落領域の順序補正装置。
  12.  文書が画像化された文書画像に含まれており,文字列が含まれている複数の段落領域について決定された順序を補正する段落領域の順序補正装置の動作制御方法において,
     段落領域決定手段が,文書画像に含まれている文字列が横書きの場合には文書画像の左上の頂点から段落領域までの距離にもとづいて複数の段落領域の順序を決定し,文書画像に含まれる文字列が縦書きの場合には文書画像の右上の頂点から段落領域までの距離にもとづいて複数の段落領域の順序を決定し,
     本文段落領域検出手段が,複数の段落領域のうち,本文が記述されている本文段落領域を検出し,
     本文段落順序補正手段が,上記本文段落領域検出手段において検出された本文段落領域の順序を,上記段落順序決定手段において決定された順序に応じて昇順となるように補正する,
     段落領域の順序補正装置の動作制御方法。
  13.  文書が画像化された文書画像に含まれており,文字列が含まれている複数の段落領域について決定された順序を補正する段落領域の順序補正装置のコンピュータを制御するコンピュータが読み取り可能なプログラムであって,
     文書画像に含まれている文字列が横書きの場合には文書画像の左上の頂点から段落領域までの距離にもとづいて複数の段落領域の順序を決定させ,文書画像に含まれる文字列が縦書きの場合には文書画像の右上の頂点から段落領域までの距離にもとづいて複数の段落領域の順序を決定させ,
     複数の段落領域のうち,本文が記述されている本文段落領域を検出させ,
     検出された本文段落領域の順序を,決定された順序に応じて昇順となるように補正するように段落領域の順序補正装置のコンピュータを制御するプログラム。
PCT/JP2013/074553 2012-09-28 2013-09-11 段落領域の順序補正装置ならびにその動作制御方法およびその動作制御プログラム WO2014050562A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-216634 2012-09-28
JP2012216634 2012-09-28

Publications (1)

Publication Number Publication Date
WO2014050562A1 true WO2014050562A1 (ja) 2014-04-03

Family

ID=50387969

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/074553 WO2014050562A1 (ja) 2012-09-28 2013-09-11 段落領域の順序補正装置ならびにその動作制御方法およびその動作制御プログラム

Country Status (1)

Country Link
WO (1) WO2014050562A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015228209A (ja) * 2014-05-30 2015-12-17 金舷國際文創事業有限公司 データ校正プラットフォームサーバー
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
US10621428B1 (en) 2019-05-17 2020-04-14 NextVPU (Shanghai) Co., Ltd. Layout analysis on image

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250041A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および文書処理方法
JP2009251872A (ja) * 2008-04-04 2009-10-29 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250041A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および文書処理方法
JP2009251872A (ja) * 2008-04-04 2009-10-29 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015228209A (ja) * 2014-05-30 2015-12-17 金舷國際文創事業有限公司 データ校正プラットフォームサーバー
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
US10621428B1 (en) 2019-05-17 2020-04-14 NextVPU (Shanghai) Co., Ltd. Layout analysis on image
JP2020191057A (ja) * 2019-05-17 2020-11-26 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. レイアウト解析方法、読書補助装置、回路及び媒体

Similar Documents

Publication Publication Date Title
US10216708B2 (en) Paginated viewport navigation over a fixed document layout
US10417316B2 (en) Emphasizing a portion of the visible content elements of a markup language document
US8745515B2 (en) Presentation of large pages on small displays
CN102591853B (zh) 网页重排方法、网页重排装置以及移动终端
US8739073B2 (en) User interface for document table of contents
US8209600B1 (en) Method and apparatus for generating layout-preserved text
US20160154579A1 (en) Handwriting input apparatus and control method thereof
WO2006051415A2 (en) Determining a main content area of a page
WO2013058397A1 (ja) 電子コミック編集装置及び方法
EP2381347B1 (en) Method for displaying an object having a predetermined information content on a touch screen
JP2014197341A (ja) 電子書籍制作装置、電子書籍システム、電子書籍制作方法及びプログラム
KR20150095658A (ko) 수정 동안 콘텐츠의 영역의 레이아웃 유지 기법
WO2014050562A1 (ja) 段落領域の順序補正装置ならびにその動作制御方法およびその動作制御プログラム
KR101768899B1 (ko) 문단 내 메모 삽입이 가능한 전자 문서 편집 장치 및 그 동작 방법
CN104536949A (zh) 网页重排方法、网页重排装置以及移动终端
JP5715172B2 (ja) 文書表示装置、文書表示方法及び文書表示プログラム
JP5444187B2 (ja) 携帯型表示装置ならびにその動作制御方法およびそのプログラム
WO2012046828A1 (ja) 文書画像表示制御装置ならびにその動作制御方法およびその動作制御プログラム
JP2012178143A (ja) 電子書籍表示制御装置、電子書籍表示制御プログラム、電子書籍表示制御方法
JP5596068B2 (ja) 電子端末および書籍閲覧プログラム
WO2012056974A1 (ja) 文書画像表示装置ならびにその動作制御方法およびその動作プログラム
KR101447555B1 (ko) 표 입력 제어 기반의 전자 문서 편집 장치 및 방법
JP2020064428A (ja) コンテンツの表示方法および装置
JP2014021694A (ja) 携帯情報端末、携帯情報端末の表組表示方法、及び携帯情報端末の表組表示プログラム
KR102487810B1 (ko) 저시력자를 위한 웹문서 제공방법 및 그 사용자 단말

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13841882

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13841882

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP