WO2012147485A1 - 文書ファイル表示装置、方法およびプログラム - Google Patents

文書ファイル表示装置、方法およびプログラム Download PDF

Info

Publication number
WO2012147485A1
WO2012147485A1 PCT/JP2012/059327 JP2012059327W WO2012147485A1 WO 2012147485 A1 WO2012147485 A1 WO 2012147485A1 JP 2012059327 W JP2012059327 W JP 2012059327W WO 2012147485 A1 WO2012147485 A1 WO 2012147485A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
information
image
display
document
Prior art date
Application number
PCT/JP2012/059327
Other languages
English (en)
French (fr)
Inventor
浩教 矢野
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to CN201280020841.8A priority Critical patent/CN103620589A/zh
Publication of WO2012147485A1 publication Critical patent/WO2012147485A1/ja
Priority to US14/062,663 priority patent/US20140053050A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Definitions

  • the present invention relates to an apparatus, a method, and a program for displaying various contents obtained by imaging documents such as newspapers, magazines, documents, textbooks, and reference books.
  • Non-Patent Documents 1 and 2 disclose that a newspaper article is read by a user by scrolling, enlarging, or reducing an imaged newspaper.
  • Patent Document 1 discloses a technology for viewing a mail attached file on a mobile phone.
  • Patent Document 2 discloses a technique for changing a document layout in accordance with a mobile terminal.
  • Patent Document 3 discloses a technique for converting a layout of document data into metadata and laying out and printing in accordance with the metadata.
  • the server side renders (images) a document file requested for acquisition, and transmits the imaged data to the mobile terminal.
  • the portable terminal can view a document having the same layout as the original document file by reproducing the image.
  • the generated image often has a layout on the premise that it is printed on paper.
  • the display area is small like a portable terminal, it is difficult to say that a document can be viewed comfortably.
  • Patent document 1 not only renders and renders a document file, but also extracts layout information and text information, and transmits them to the mobile phone together with the image. And trying to improve viewing convenience. For this purpose, it is necessary to determine the character type in addition to the determination of the text area.
  • Patent Document 2 changes the layout of a document image according to the screen size, it cannot deal with a document obtained by imaging an office document or the like in which a document and an image are mixed with a layout as it is.
  • the present invention has been made in view of such a problem, and when displaying a document in which an image and a document are mixed on an image viewer with a small display area, it is possible to improve the viewability without determining the text character type.
  • the purpose is to improve.
  • the present invention provides a display unit that displays an image, an image conversion unit that converts a structured document file into an image file, an existence area of each element that constitutes a document from the image file converted by the image conversion unit, and Based on the layout information detected by the layout information detecting unit that detects layout information including the arrangement direction of the elements and the layout information detecting unit, an element image that is a partial image corresponding to an existing area of each element is extracted from the image file.
  • An element image extraction unit a line information generation unit that generates line information in a set of element images stored in the display unit, based on the size along the arrangement direction of each element image extracted by the element image extraction unit, and an element
  • the scroll direction determination unit that determines the scroll direction of the line information created by the line information creation unit, and the scroll direction determined by the scroll direction determination unit
  • a paragraph information creation unit that creates paragraph information by arranging a plurality of line information along the screen direction
  • a display control unit that displays the paragraph information created by the paragraph information creation unit within the display range of the display unit
  • a scroll instruction unit for instructing scroll display of paragraph information along the scroll direction
  • the display control unit displays the paragraph information within the display range of the display unit along the scroll direction indicated by the scroll instruction unit.
  • a document file display device for scroll display is provided.
  • the display control unit displays the entire image file in a reduced size, displays information indicating the existence area of each document in the reduced display image, and selects a desired document from the existence area of each document.
  • An area selection unit for selecting an existing area is provided, and the layout information detection unit detects layout information including the existing area of each element and the arrangement direction of the elements from the existing area of the document selected by the area selection unit, and performs display control.
  • the section scrolls and displays the paragraph information corresponding to the existing area of the document selected by the area selection section within the display range of the display section in the first area of the display section along the scroll direction indicated by the scroll instruction section.
  • the entire image file is reduced and displayed in a second area different from the first area of the display unit.
  • the scroll direction determination unit determines a direction orthogonal to the element arrangement direction as the scroll direction of the line information.
  • the image processing apparatus includes an enlargement / reduction ratio designating unit that designates an enlargement / reduction ratio for displaying paragraph information, and the line information creation unit enlarges / reduces each element image extracted by the element image extraction unit according to the enlargement / reduction ratio designated by the enlargement / reduction ratio designating unit.
  • the line information is created by a set of element images that fit in the display unit along the element arrangement direction.
  • the line information creation unit deletes element images that do not satisfy a predetermined standard from the line information.
  • the paragraph information creation unit deletes line information that does not satisfy a predetermined standard from the paragraph information.
  • the line information creation unit includes element images adjacent in the arrangement direction of elements on the image file in the same line information.
  • the row information creation unit includes a previous element image that is adjacent to the previous element image that does not reach a predetermined size in the element direction in line information different from the previous element image.
  • the line information creation unit integrates the different line information into the same line information when the combined size of the different line information fits in the display unit along the arrangement direction of the elements.
  • the line information creation unit creates line information so that the element image immediately before the line break and the element image immediately after the line break are not continuous.
  • the paragraph information creation unit includes line information including element images adjacent in the scroll direction on the image file in the same paragraph information.
  • the element image extraction unit extracts, as an element image, an area obtained by extending the existence area of each element detected by the layout information detection unit by a predetermined size.
  • an information processing device converts a structured document file into an image file, layout information including the existence area of each element constituting the document and the arrangement direction of the elements from the converted image file.
  • a step of detecting, a step of extracting an element image, which is a partial image corresponding to an existing area of each element, from the image file based on the detected layout information, and an arrangement direction of elements of each extracted element image Based on the size, a set of element images that fit in a display unit that displays an image, a step of creating line information, a step of determining the scroll direction of the created line information according to the arrangement direction of the elements, and the determined scroll direction Steps to create paragraph information by arranging multiple line information along the line, and the created paragraph information to display range of display
  • the present invention provides a computer-readable recording medium in which a document file display program for causing an information processing apparatus to execute this document file display method is recorded.
  • line information having a size that can be accommodated in the display unit is composed of element images along the elements of the original image file, and paragraph information in which the line information is arranged in the scroll direction is created.
  • FIG. 1 shows a configuration of a content distribution system according to a preferred embodiment of the present invention.
  • This system includes a server 1 and a client 2.
  • the server 1 is configured by a computer (information processing apparatus) including an arithmetic device (CPU), a storage device, an input / output circuit, and the like.
  • the client 2 is an information terminal including display means capable of reproducing an image, communication means, arithmetic device (CPU), storage device, input / output circuit, operation means, and the like, and is configured by a smartphone or a tablet computer, for example.
  • the number of clients 2 accessing the server 1 may be an unspecified number.
  • the server 1 includes a document file acquisition unit 10, an image output unit 11, a communication unit 12, a communication data control unit 13, a document file analysis unit 14, and a database (DB) 15.
  • DB database
  • the communication data control unit 13 and the document file analysis unit 14 are configured by an information processing device such as a CPU.
  • the DB 15 is configured by a storage medium such as a hard disk or a memory.
  • the document file acquisition unit 10, the image output unit 11, and the communication unit 12 include an input / output device, a network communication device, and the like.
  • the communication data control unit 13 controls the communication such as the start and end of information transmission / reception.
  • the communication data control unit 13 performs reception data control and transmission data control.
  • the reception data control includes analysis processing of data acquired by the communication unit 12.
  • the transmission data control includes processing for changing the image, layout information, and text information generated by the document file analysis unit 14 and the image output unit 11 to a specific data format and sending them to the communication unit 12.
  • the document file acquisition unit 10 acquires a document file structured in various formats (doc, txt, pdf, ppt, xls, etc.) from the document storage 3 connected via the network. Which file is to be acquired is designated by the client 2 or by the user using the operation means of the server 1 or the like.
  • the image output unit 11 In response to a request from each block of the client 2 or the server 1, the image output unit 11 formats an image file (jpg, tif, ⁇ bmp, etc.) that can be reproduced by the client 2 from the document file acquired by the document file acquisition unit 10. And output to the document file analysis unit 14.
  • FIG. 2 shows an example of an image file output by the image output unit 11.
  • the image file output by the image output unit 11 may be referred to as an original image.
  • the document file analysis unit 14 discriminates an image area and a text area from the image file output from the image output unit 11 and lays out each character (including punctuation marks, question marks, parentheses, etc.) in each line included in the text area. Are analyzed line by line. This line-by-line character layout is called layout information.
  • the layout information is stored in the DB 15 together with the image file.
  • FIG. 3 and 4 show an example of layout information output from the document file analysis unit 14.
  • FIG. 3 shows a row layout information table.
  • the row layout information table stores row layout information indicating identification information, position (vertical position, horizontal position), size (width, height), and row arrangement direction (horizontal or vertical) of each line.
  • a line refers to a group of characters arranged along the reading direction of each character in the image file.
  • the area number is an ID assigned to the existing area of each document existing in the original image.
  • the horizontal position indicates the upper left coordinates of the area specified by the area number.
  • the vertical position indicates the lower right coordinate of the area specified by the area number.
  • the width indicates the width of the area specified by the area number (length along the reading direction).
  • the height indicates the height of the region specified by the region number (the length of the region in the direction orthogonal to the reading direction).
  • the character direction is a reading direction of characters included in the area.
  • FIG. 4 shows a character layout information table.
  • the character layout information table stores identification information (character number) of each character included in each line, identification information (area number) of the line to which the line belongs, position (vertical position, horizontal position), and size (width, height). .
  • the character number is an ID assigned to each character.
  • the area number, horizontal position, vertical position, width, and height are the same as those in the row layout information table.
  • the layout information of the document file in the reproduction format by the application what is imaged by the application corresponding to the document file incorporated in the image output unit 11 is accurately used by using character recognition logic such as an OCR (Optical Character Recognition) engine. Can be acquired.
  • the image area and text area in the document may be determined by a printer driver corresponding to the document file format incorporated in the image output unit 11.
  • the layout information may include a separation position of a semantic unit such as a word or clause of a document, the number of characters of the semantic unit, and the like.
  • the characters constituting the document are not included in the layout information.
  • the character itself may contain an error, but if it is position information, it can be acquired with sufficient accuracy by OCR.
  • FIG. 5 schematically shows how layout information is acquired by OCR.
  • the layout information is described by structured text information or the like.
  • the layout information analyzed by the document file analysis unit 14 is stored in the DB 15 in association with the original image output by the image output unit 11.
  • the communication unit 12 transmits the original image and layout information of the DB 15 to the client 2 under the control of the communication data control unit 13.
  • the client 2 includes a communication unit 21, a communication data control unit 22, a display unit 23, an input unit 24, an image processing unit 25, a layout processing unit 26, and an input information control unit 27.
  • the communication data control unit 22, the image processing unit 25, the layout processing unit 26, and the input information control unit 27 are configured by an information processing device such as a CPU.
  • the communication data control unit 22 performs reception data control and transmission data control.
  • the reception data control includes data classification / analysis processing acquired by the communication unit 21.
  • the layout information is sent to the layout processing unit 26, and the original image is sent to the image processing unit 25.
  • the transmission data control includes a process of changing various requests such as commands input from the user to a specific data format and sending them to the communication unit 21.
  • the communication unit 21 includes an input / output device, a network communication device, and the like, and is connected to the communication unit 12 of the server 1 via a network such as the Internet, and transmits and receives various kinds of information.
  • the communication data control unit 22 controls the communication such as the start and end of information transmission / reception.
  • the input unit 24 is configured by a user interface such as a touch panel stacked on the display unit 23, and includes scrolling, enlargement, reduction, display of the next page and previous page, acquisition of a high-resolution original image, area selection, and the like. Accept various operations.
  • the input information control unit 27 interprets a command corresponding to the operation input to the input unit 24, and transmits to the blocks related to the execution of the command, for example, the image processing unit 25, the layout processing unit 26, and the communication data control unit 22. Send the command.
  • This command includes display image scrolling, enlargement, reduction, acquisition of the next page and previous page, acquisition of a high-resolution original image, area selection, and the like.
  • the image processing unit 25 or the like performs scrolling, enlargement, and reduction of the display image, colored highlight display of region selection, acquisition of the next page and previous page, acquisition of a high-resolution original image, and the like.
  • the image processing unit 25 performs processing (enlargement, reduction, parallel movement, scrolling) of image data acquired from the communication data control unit 22 and layout reconstruction processing.
  • the layout processing unit 26 creates a display image to be sent to the display unit 23 based on the processed image data acquired from the image processing unit 25 and the layout information acquired from the communication data control unit 22.
  • the layout processing unit 26 determines the arrangement of documents included in the image file based on the layout information transmitted from the server 1 and the attributes of the display unit 23 (screen height, screen width, resolution, etc.).
  • the display unit 23 is configured by an LCD monitor or the like, and the display processing is controlled by the image processing unit 27.
  • FIG. 6 is a flowchart of document distribution processing executed by the content distribution system.
  • a program for executing this processing is stored in the memory of the server 1 and the client 2, and is executed by each block of the server 1 and the client 2.
  • the client 2 executes processes A1 to A8, and the server 1 executes processes B1 to B6.
  • the input information control unit 27 of the client 2 selects a desired document file from the documents stored in the document storage 3 based on the input to the input unit 24.
  • the communication data control unit 22 requests the server 1 via the communication unit 21 to acquire the selected document file. For example, when the input unit 24 and the input information control unit 27 of the client 2 select a desired document file from the URL of the list of file names provided from the document storage 3, a document acquisition request is generated.
  • the client 2 can select a desired image file from the documents stored in the DB 15 and request the server 1 to acquire it.
  • the communication data control unit 13 of the server 1 analyzes and classifies the received document acquisition request, identifies identification information (such as a network address) of the requesting client 1, and identification information (such as a file name) of the requested document file. ) To get.
  • the document file acquisition unit 10 of the server 1 acquires an image file corresponding to the requested document file from the DB 15. If the document file does not exist in the DB 15, the document file acquisition unit 10 of the server 1 acquires the requested document file from the document storage 3 and converts it into an image file by the image output unit 11.
  • the document file analysis unit 14 of the server 1 analyzes the document file acquired from the document storage 3 and acquires layout information.
  • the document file analysis unit 14 of the server 1 stores the acquired layout information in the DB 15 in association with the requested image file.
  • the communication data control unit 13 of the server 1 transmits the image file of the requested document file and the corresponding layout information to the client 2 via the communication unit 12.
  • the communication data control unit 22 of the client 2 receives the image file and layout information transmitted from the server 1 via the communication unit 21.
  • the layout processing unit 26 of the client 2 analyzes the attribute (size) of the display unit 23, the enlargement / reduction ratio of the document, and the line direction of the document.
  • the attribute (size) of the display unit 23 may be stored in advance in the ROM of the client 2 or the like.
  • the client 2 displays a preview of the entire image of the image file.
  • the client 2 accepts selection of a document area to be displayed from the entire original image displayed as a preview via the input unit 24.
  • the original image including the document areas R1 to R6 is previewed, and in FIG. 8, the area R2 is selected as the document area to be displayed.
  • the selected document area is visually distinguished by color coding or the like.
  • the input information control unit 27 of the client 2 determines whether or not the selection of the document area to be displayed has been completed. In the case of Yes, it progresses to A7, and in the case of No, it continues waiting for this selection.
  • the image processing unit 25 of the client 2 determines the optimum layout of the selected document area based on the attribute (size) of the display unit 23, the enlargement / reduction ratio of the document, and the line direction of the document. Reconfigure the layout of the documents contained in the document area. Details of this processing will be described later.
  • the image processing unit 25 of the client 2 displays the document included in the selected document area on the display unit 23 with the reconstructed optimum layout.
  • the image preview display area is different from the document display area of the selected document area.
  • FIG. 9 shows details of document layout reconstruction (A7). This process is executed by the image processing unit 25 and the layout processing unit 26.
  • the layout processing unit 26 acquires layout information of each character of the original image. This may be layout information obtained as a result of analysis by the document file analysis unit 14 of the server 1 or layout information obtained as a result of similar analysis executed by the layout processing unit 26 of the client 2.
  • the layout processing unit 26 extracts a character image (partial image corresponding to the character existing range) drawn in the character recognition range based on the layout information.
  • a character image drawn in the character recognition range (a partial image corresponding to the character existing range) is shifted, and the peripheral portion of the character is missing. appear.
  • FIG. 11 it is known that character missing at the lower part of the character frequently occurs.
  • FIG. 12 a range expanded by several pixels from the vertical and horizontal size values of the character recognized by OCR is extracted again as a recognized character image.
  • the existence range of characters on the original image is recognized, not the characters themselves. Note that a character image is not extracted from a character recognition range less than a predetermined size, or even if it is extracted, such a character image is deleted.
  • the layout processing unit 26 creates one or more pieces of line information from the set of recognized character images.
  • the direction in which the lines are arranged follows the character direction of the layout information.
  • the character direction here is different from the scroll direction of the display image.
  • the scroll direction is preferably a direction orthogonal to the row direction. Further, considering the operability, only one scroll direction is desirable. This is because, when there are a plurality of scroll directions such as the left and right and up and down directions as in the prior art, the document is viewed while scrolling around, which is difficult to use.
  • the number n of the number of character images used to create one line of information on the display unit 23 depends on the size a i of each character image, the size b of the display unit 23 in the line direction, and the character scaling factor c. . That is, each character is enlarged / reduced at a desired enlargement / reduction rate, and the characters after enlargement / reduction are performed while maintaining the same arrangement as the selected document of the original image within the maximum range not exceeding the size in the character direction of the display unit 23. When arranged in the direction, the set of characters becomes a line set for one line.
  • L the maximum value Lmax of L that satisfies the above.
  • the enlargement / reduction ratio c is arbitrarily designated by the user via a user interface, for example, the enlargement / reduction button B in FIG.
  • the line information ⁇ a i is determined as follows. For example, as shown in FIG. 13, a region of a predetermined size ⁇ adjacent to the character image of “quotient” that is the previous character image, for example, “ It is assumed that an area having a width of 30% of the width of the character image overlaps a part of the existing area of the character image “product”. In this case, the layout processing unit 26 determines that the character image adjacent to the “quotient” character image is a “good” character image, and includes them in the same line information.
  • the character image adjacent to the width of the previous character image is less than the predetermined size and the character image adjacent thereto are not adjacent. For example, it is assumed that the character image “.” As shown in FIG. 14 is smaller than the predetermined size ⁇ and is not adjacent to the next character image “kai”. That is, the character images “.” And “kai” are separated into different line information.
  • the character images are not adjacent to each other, if a set of different character images has the same coordinates on the original image and their combined size falls within the display range of the display unit 23. For example, they are integrated into the same line information.
  • the two row sets R1 and R2 in FIG. 15 are divided by a character image of “,” which is less than the predetermined size ⁇ , but their combined size falls within the display range of the display unit 23.
  • New line information R is assumed.
  • the layout processing unit 26 sets a cutout frame including n character images as an original image, and cuts a block of character images for one line. Then, the cut out chunks of character images for one line are arranged line by line along the scroll direction.
  • a frame T1 including 12 character images of the first row of the original image I is set as the image I as a cutout frame for the first row.
  • a frame T2-1 including five character images of the first row of the original image I and seven character images of the second row of the original image I is set.
  • a frame T3-1 including 10 character images of the second row of the original image I and two character images of the third row of the original image I A frame T3 including a frame T3-2 including the original image I is set. Thereafter, similarly, the frame Tk of the (k + 1) -th row is set so as to include from the character image immediately after not included in the frame of the previous k-th row to the character image after n. .
  • the layout processing unit 26 arranges the partial images included in the frame Tk in the kth row along the scroll direction. By repeating the arrangement of the rows in this way, the display image I ′ for document browsing on the client 2 is reconstructed from the original image I.
  • the size of the character direction X in which the display image I ′ is not scrolled is the same as or smaller than the size of the display unit 23. That is, regarding the character direction X, even if the size of the image I ′ and the size of the display unit 23 are different, there is only such a small difference that there is no need to scroll in the character direction.
  • the layout processing unit 26 deletes unnecessary character lines from the line set.
  • An unnecessary character line is line information of only one character. This is because the line information of only one character has a high possibility of misrecognizing a part of the character as a character.
  • the unnecessary character line is not limited to line information of only one character.
  • the layout processing unit 26 determines the scroll direction based on the character direction. In general, it is assumed that the character direction and the scroll direction are orthogonal to each other so that the viewer can easily select the line to be read. For example, the layout processing unit 26 determines the scroll direction from the character direction such that if the character direction is horizontal, the scroll direction is vertical, and if the character direction is vertical, the scroll direction is horizontal.
  • the layout processing unit 26 creates paragraph information by combining adjacent line information along the determined scroll direction. For example, as shown in FIG. 18, with reference to the original image and its character direction, a predetermined range ⁇ from the lower end of the line information (previous line information R1) including the upstream character image, for example, the previous line information R1.
  • the line information R2 including the character image existing in the range of 50% of the height of the character image (the subsequent line information R2) is determined as the line information adjacent to R1.
  • the layout processing unit 26 combines adjacent line information R1 and R2 into the same paragraph information.
  • the layout processing unit 26 creates paragraph information by repeating the determination and combination of the adjacent line information for each line information.
  • the layout processing unit 26 may combine two or more pieces of line information while maintaining the deviation of the line heads.
  • the layout processing unit 26 may create line information so as to hold line breaks in the document area of the original image. That is, as illustrated in FIG. 20, when the layout processing unit 26 identifies a line F with a line break in the middle of the selected document area D of the original image, the character at the end of the line F Line information and paragraph information Z are created so that the first character image of line L2 immediately after the image is not combined with the image and these are not continuous with the same line information.
  • the layout processing unit 26 determines unnecessary paragraphs from the paragraph information and deletes them. Unnecessary paragraphs are determined according to the paragraph area and the number of characters in the paragraph. For example, if the sum of the character areas contained in a certain paragraph is less than or equal to the ratio (0.1% or the like) to the area of the original image, the paragraph is determined as an unnecessary paragraph. Alternatively, if the number of characters included in a certain paragraph is equal to or less than a predetermined number (such as two), the paragraph is determined as an unnecessary paragraph. That is, paragraphs with extremely few characters are deleted as not suitable for browsing.
  • the layout processing unit 26 rearranges the paragraph information after deleting the unnecessary paragraphs along the scroll direction to reconstruct the paragraph information, and sets this as a new display image I ′. Thereafter, the process proceeds to A8, and the display image I 'is displayed.
  • the size of the display image I ′ in the character direction is the same as the size of the display unit 23 and does not require scrolling, but the size of the display image I ′ in the scroll direction may exceed the size of the display unit 23. Therefore, the display range in the scroll direction of the display image I ′ is limited to the size of the display unit 23 and is partially displayed.
  • the input information control unit 27 receives an instruction in the scroll direction determined from the character direction and sends the instruction to the image processing unit 25.
  • the image processing unit 25 scrolls the display image I ′ according to the scroll instruction, and displays the range advanced by the scroll.
  • the input information control unit 27 may accept and ignore other instructions in the scroll direction.
  • the input information control unit 27 When the input information control unit 27 receives the change of the enlargement / reduction ratio of the display image I ′, the process returns to A7-1, and the display image I ′ optimal for the changed enlargement / reduction ratio is reconstructed.
  • line information having the same size as the screen horizontal size is created in the character image along the sequence of the characters of the original image, and the display image I ′ is obtained from the paragraph information in which the line information is arranged in the scroll direction. Created.
  • the user can read the document while confirming the context of the lines, and scroll the document while scrolling in multiple directions. There is no need to continue reading.
  • the browsing image is reconfigured according to the arbitrarily specified scaling ratio
  • the document can be read while confirming the context of the lines at any scaling ratio.
  • the language of the document is Japanese, and the characters constituting the document are hiragana, katakana, and kanji.
  • the scope of application of the present invention is not limited to this.
  • the scope of application of the present invention is kanji, hangul, alphabet, cyrillic, arabic used in various languages such as Chinese, Korean, English, German, French, Spanish, Russian, Arabic, etc.
  • Various characters such as characters can be included.

Abstract

本発明によると、元の画像ファイルの要素の並びに沿った要素画像にて、表示部に納まるサイズの行情報が作成され、さらにその行情報がスクロール方向に並んだ段落情報が作成される。ユーザは、単純に段落情報をスクロール方向に沿ってスクロールするだけで、行情報の前後関係を確かめながら文書を読み進めることができ、複数の方向にあちこちスクロールしながら文書を読み進める必要がない。

Description

文書ファイル表示装置、方法およびプログラム
 本発明は、新聞、雑誌、書類、教科書、参考書などの文書を画像化した各種のコンテンツを表示する装置、方法およびプログラムに関する。
 近年の情報技術革新に伴い、雑誌やコミックなどの紙にプリントされることを前提とした書籍をデジタル化し、スマートフォンなどの画像ビューアで視聴するという情報配信形態が確立されてきた。
 非特許文献1および2には、画像化された新聞を、スクロール、拡大、縮小することで、新聞記事をユーザに読ませることが開示されている。
 特許文献1では、携帯電話においてメールの添付ファイルを視聴する技術が開示されている。
 特許文献2では、携帯端末に合わせ文書のレイアウトを変更する技術が開示されている。
 特許文献3では、文書データのレイアウトをメタデータ化し、それに応じてレイアウトをして印刷する技術が開示されている。
特開2007-199983号公報 特開平11-122398号公報 特開2008-176541号公報
「産経NetViewの使い方」、平成23年4月13日検索、URL<http://www.sankei.co.jp/netview/howto_1.html> 「産経新聞(iPhone版):操作方法」、平成23年4月13日検索、URL<http://www.sankei.co.jp/iphone/>
 近年の携帯端末の高機能化に伴い、ネットワークを介した様々なデータが取得可能になった。例えば、メールサーバ上のメールを取得したり、社内の共有サーバのファイルを取得するというような操作が可能である。テキストデータ、jpeg(Joint Photographic Experts Group)などの圧縮画像データ、HTMLデータなどのデータ形式は、ほとんどの携帯端末で視聴できる。しかし、取得するデータが、構造化された文書ファイル形式(Microsoft Word(登録商標), Microsoft Excel(登録商標), Microsoft PowerPoint(登録商標), Adobe PDF(登録商標)など、プレーンテキストファイル以外の文書ファイル)の場合、当該データを視聴できるアプリケーションを搭載した携帯端末は少ないのが現状である。このような状況の中、ビューワアプリケーションが携帯端末に搭載されていなくとも、文書ファイルを閲覧するための技術が開発されてきた。
 例えば、サーバ側で取得要求のあった文書ファイルをレンダリング(画像化)し、画像化したデータを携帯端末に送信する。携帯端末は当該画像を再生することで、元々の文書ファイルと同じレイアウトの文書を閲覧できる。しかし、生成される画像は、紙にプリントされることを前提としたレイアウトであることが多く、携帯端末のように表示領域が小さい場合、文書を快適に閲覧できるとは言い難い。
 特許文献1は、文書ファイルをレンダリングし、画像化するだけでなく、レイアウト情報とテキスト情報も抽出し、画像とともに携帯電話に送信することで、画像では文字が潰れて読めない領域はテキストを表示し、視聴の利便性を向上させようとしている。このためには、テキスト領域の判別に加え、文字種の判別を行う必要がある。
 特許文献2は、画面サイズに合わせ文書画像のレイアウトを変更しているが、文書と画像が混在したオフィスドキュメントなどをそのままのレイアウトで画像化した文書には対応できない。
 本発明はこのような問題点に鑑みてなされたもので、表示領域の小さい画面で画像と文書が混在したドキュメントを画像ビューワで表示する際に、テキスト文字種の判別を行うことなく、閲覧性を向上させることを目的とする。
 本発明は、画像を表示する表示部と、構造化された文書ファイルを画像ファイルに変換する画像変換部と、画像変換部の変換した画像ファイルから、文書を構成する個々の要素の存在領域および要素の並び方向を含むレイアウト情報を検出するレイアウト情報検出部と、レイアウト情報検出部の検出したレイアウト情報に基づき、個々の要素の存在領域に相当する部分画像である要素画像を画像ファイルから抽出する要素画像抽出部と、要素画像抽出部の抽出した各要素画像の要素の並び方向に沿ったサイズに基づき、表示部に納まる要素画像の集合で、行情報を作成する行情報作成部と、要素の並び方向に従い、行情報作成部の作成した行情報のスクロール方向を決定するスクロール方向決定部と、スクロール方向決定部の決定したスクロール方向に沿って複数の行情報を配列することで、段落情報を作成する段落情報作成部と、段落情報作成部の作成した段落情報を、表示部の表示範囲内で表示する表示制御部と、スクロール方向に沿った段落情報のスクロール表示を指示するスクロール指示部と、を備え、表示制御部は、スクロール指示部の指示するスクロール方向に沿って、段落情報を表示部の表示範囲内でスクロール表示する文書ファイル表示装置を提供する。
 好ましくは、表示制御部は、画像ファイルの全体を縮小表示するとともに、縮小表示された画像の中の各文書の存在領域を指し示す情報を表示し、各文書の存在領域の中から所望の文書の存在領域を選択する領域選択部を備え、レイアウト情報検出部は、領域選択部の選択した文書の存在領域から、個々の要素の存在領域および要素の並び方向を含むレイアウト情報を検出し、表示制御部は、表示部の第1の領域に、スクロール指示部の指示するスクロール方向に沿って、領域選択部の選択した文書の存在領域に対応する段落情報を表示部の表示範囲内でスクロール表示するとともに、表示部の第1の領域と異なる第2の領域に、画像ファイルの全体を縮小表示する。
 好ましくは、スクロール方向決定部は、要素の並び方向と直交する方向を行情報のスクロール方向に決定する。
 好ましくは、段落情報の表示の拡縮率を指定する拡縮率指定部を備え、行情報作成部は、要素画像抽出部の抽出した各要素画像を拡縮率指定部の指定した拡縮率に従って拡縮したサイズに従い、要素の並び方向に沿って表示部に納まる要素画像の集合で、行情報を作成する。
 好ましくは、行情報作成部は、所定の基準に満たない要素画像を行情報から削除する。
 好ましくは、段落情報作成部は、所定の基準に満たない行情報を段落情報から削除する。
 好ましくは、行情報作成部は、画像ファイル上の要素の並び方向に隣接する要素画像同士を同一の行情報に含める。
 好ましくは、行情報作成部は、所定の割合のサイズに満たない前の要素画像と要素方向に沿って隣接する後の要素画像を、前の要素画像と異なる行情報に含める。
 好ましくは、行情報作成部は、異なる行情報を結合したサイズが要素の並び方向に沿って表示部に納まる場合、異なる行情報を同一の行情報に統合する。
 好ましくは、行情報作成部は、改行の直前の要素画像と改行の直後の要素画像が連続しないよう行情報を作成する。
 好ましくは、段落情報作成部は、画像ファイル上のスクロール方向に隣接する要素画像を含む行情報同士を同一の段落情報に含める。
 好ましくは、要素画像抽出部は、レイアウト情報検出部の検出した個々の要素の存在領域を所定のサイズだけ拡張した領域を要素画像として抽出する。
 本発明は、情報処理装置が、構造化された文書ファイルを画像ファイルに変換するステップと、変換した画像ファイルから、文書を構成する個々の要素の存在領域および要素の並び方向を含むレイアウト情報を検出するステップと、検出したレイアウト情報に基づき、個々の要素の存在領域に相当する部分画像である要素画像を画像ファイルから抽出するステップと、記抽出した各要素画像の要素の並び方向に沿ったサイズに基づき、画像を表示する表示部に納まる要素画像の集合で、行情報を作成するステップと、要素の並び方向に従い、作成した行情報のスクロール方向を決定するステップと、決定したスクロール方向に沿って複数の行情報を配列することで、段落情報を作成するステップと、作成した段落情報を、表示部の表示範囲内で表示するステップと、スクロール方向に沿った段落情報のスクロール表示を指示するステップと、指示するスクロール方向に沿って、段落情報を表示部の表示範囲内でスクロール表示するステップと、を実行する文書ファイル表示方法を提供する。
 本発明は、この文書ファイル表示方法を情報処理装置に実行させるための文書ファイル表示プログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。
 本発明によると、元の画像ファイルの要素の並びに沿った要素画像にて、表示部に納まるサイズの行情報が構成され、さらにその行情報がスクロール方向に並んだ段落情報が作成される。ユーザは、単純に段落情報をスクロール方向に沿ってスクロールするだけで、行情報の前後関係を確かめながら文書を読み進めることができ、複数の方向にあちこちスクロールしながら文書を読み進める必要がない。
コンテンツ配信システムの概略構成図 画像出力部の出力した画像ファイルの一例を示す図 行レイアウト情報テーブルを示す図 文字レイアウト情報を示す図 OCRでレイアウト情報が取得されている様子を模式的に示す図 文書配信処理のフローチャート 元画像のプレビュー表示の一例を示す図 選択された文書領域の一例を示す図 文書のレイアウトの再構成(A7)の詳細なフローチャート 文字の周辺部に欠けが発生した文字認識範囲の一例を示す図 文字の下部に欠けが発生した文字認識範囲の一例を示す図 OCR認識された文字の縦横サイズ値から数ピクセル分拡張した範囲を、改めて、認識された文字画像として抽出した様子を示す図 行情報の作成を示す図 行情報の作成(分離)を示す図 行情報の作成(統合)を示す図 元画像の一例を示す図 文書閲覧用の表示画像の再構成の一例を示す図 隣接する行情報の一例を示す図 行頭のずれを保持しながら、2つ以上の行情報を結合した様子を示す図 元画像の改行を保持するよう作成された段落情報の一例を示す図 従来のOCRによる文字配置を示す図
 <第1実施形態>
 図1は本発明の好ましい実施形態に係るコンテンツ配信システムの構成を示す。このシステムは、サーバ1とクライアント2とを含む。サーバ1は、演算装置(CPU)、記憶装置、入出力回路などを備えたコンピュータ(情報処理装置)で構成される。クライアント2は、画像を再生可能な表示手段、通信手段、演算装置(CPU)、記憶装置、入出力回路、操作手段などを備えた情報端末であり、例えば、スマートフォンやタブレット型コンピュータで構成される。なお、サーバ1にアクセスするクライアント2は不特定多数であってもよいものとする。
 具体的には、サーバ1は、文書ファイル取得部10、画像出力部11、通信部12、通信データ制御部13、文書ファイル解析部14、データベース(DB)15を備える。
 通信データ制御部13、文書ファイル解析部14は、CPUなどの情報処理装置で構成される。DB15は、ハードディスクやメモリなどの記憶媒体で構成される。文書ファイル取得部10、画像出力部11、通信部12は、入出力装置、ネットワーク通信装置などで構成される。情報の送受信の開始や終了などの通信に関する制御は通信データ制御部13が司る。
 通信データ制御部13は、受信データ制御、送信データ制御を行う。受信データ制御は、通信部12で取得したデータの解析処理を含む。また、送信データ制御は、文書ファイル解析部14と、画像出力部11で生成した画像やレイアウト情報、テキスト情報を特定のデータ形式に変更し、通信部12へ送る処理を含む。
 文書ファイル取得部10は、ネットワークで接続された文書ストレージ3から、各種の形式(doc, txt, pdf, ppt, xlsなど)で構造化された文書ファイルを取得する。どのファイルを取得するかは、クライアント2が指定するか、サーバ1の操作手段などでユーザが指定する。
 画像出力部11は、クライアント2やサーバ1の各ブロックからの要求に応じ、文書ファイル取得部10の取得した文書ファイルを、クライアント2で再生可能な画像ファイルの形式(jpg, tif, bmpなど)に変換し、文書ファイル解析部14に出力する。図2は、画像出力部11の出力した画像ファイルの一例を示す。以下、画像出力部11の出力した画像ファイルは、元画像と呼ばれることもある。
 文書ファイル解析部14は、画像出力部11の出力した画像ファイルから画像領域とテキスト領域を判別し、テキスト領域に含まれる各行の各文字(句読点・疑問符・括弧などの約物も含む)のレイアウトを当該行単位で解析する。この行単位の文字のレイアウトをレイアウト情報と呼ぶ。レイアウト情報は、画像ファイルとともにDB15に蓄積される。
 図3と図4は、文書ファイル解析部14の出力したレイアウト情報の一例を示す。このうち図3は、行レイアウト情報テーブルを示す。行レイアウト情報テーブルは、各行の識別情報、位置(縦位置、横位置)とサイズ(幅、高さ)と行の並び方向(横または縦)を示す行レイアウト情報を格納する。行とは、画像ファイルの各文字の読み方向に沿って並んだ文字群をいう。
 領域番号は、元画像に存在する各文書の存在領域に付与されたIDである。横位置は、領域番号で指定された領域の左上の座標を示す。縦位置は、領域番号で指定された領域の右下の座標を示す。幅は、領域番号で指定された領域の幅(読み方向に沿った長さ)を示す。高さは、領域番号で指定された領域の高さ(読み方向と直交する方向の領域の長さ)を示す。文字方向は、領域内に含まれる文字の読み方向である。
 図4は、文字レイアウト情報テーブルを示す。文字レイアウト情報テーブルは、各行に含まれる各文字の識別情報(文字番号)、所属する行の識別情報(領域番号)、位置(縦位置、横位置)、サイズ(幅、高さ)を格納する。
 文字番号は、各文字に付与されるIDである。領域番号、横位置、縦位置、幅、高さは、行レイアウト情報テーブルと共通する。
 アプリケーションによる再生形式の文書ファイルのレイアウト情報は、画像出力部11に組み込まれた当該文書ファイルに対応するアプリケーションで画像化したものをOCR(Optical Character Recognition)エンジンなどの文字認識ロジックを用いて精度よく取得することができる。あるいは、画像出力部11に組み込まれた文書ファイル形式に応じたプリンタドライバにより、文書内の画像領域、テキスト領域の判別をしてもよい。レイアウト情報は、文書の単語や文節などの意味単位の区切り位置や、意味単位の文字数などを含んでもよい。ただし、文書を構成する文字自体は、レイアウト情報に含まれない。文字自体は、エラーを含むことがあるが、位置情報なら、OCRで十分に精度よく取得できる。図5はOCRでレイアウト情報が取得されている様子を模式的に示す。レイアウト情報は、構造化されたテキスト情報などで記述される。
 文書ファイル解析部14の解析したレイアウト情報は、画像出力部11の出力した元画像と対応づけてDB15に記憶される。
 通信部12は、通信データ制御部13の制御に従い、DB15の元画像とレイアウト情報をクライアント2に送信する。
 クライアント2は、通信部21、通信データ制御部22、表示部23、入力部24、画像処理部25、レイアウト処理部26、入力情報制御部27を備える。
 通信データ制御部22、画像処理部25、レイアウト処理部26、入力情報制御部27は、CPUなどの情報処理装置で構成される。
 通信データ制御部22は、受信データ制御、送信データ制御を行う。受信データ制御は、通信部21で取得したデータの分類・解析処理を含む。分類・解析の結果、レイアウト情報はレイアウト処理部26に送られ、元画像は画像処理部25に送られる。また、送信データ制御は、ユーザから入力された指令などの各種要求を特定のデータ形式に変更し、通信部21へ送る処理を含む。
 通信部21は、入出力装置、ネットワーク通信装置などで構成され、サーバ1の通信部12とインターネットなどのネットワークを介して接続し、各種の情報を送受信する。情報の送受信の開始や終了などの通信に関する制御は通信データ制御部22が司る。
 入力部24は、表示部23に積層されたタッチパネルなどのユーザインターフェースで構成され、表示画像のスクロール、拡大、縮小、次頁、前頁の取得、高解像度の元画像の取得、領域選択などの各種操作を受け付ける。
 入力情報制御部27は、入力部24に入力された操作に対応する指令を解釈し、その指令の実行に関係するブロック、例えば、画像処理部25、レイアウト処理部26、通信データ制御部22に該指令を送る。この指令は、表示画像のスクロール、拡大、縮小、次頁、前頁の取得、高解像度の元画像の取得、領域選択などを含む。画像処理部25などは、これらの指示に応じて、表示画像のスクロール、拡大、縮小、領域選択の着色ハイライト表示、次頁、前頁の取得、高解像度の元画像の取得などを行う。
 画像処理部25は、通信データ制御部22から取得した画像データの処理(拡大、縮小、平行移動、スクロール)やレイアウトの再構築処理を行う。
 レイアウト処理部26は、画像処理部25から取得した処理済み画像データ、通信データ制御部22から取得したレイアウト情報により、表示部23に送る表示画像を作成する。
 レイアウト処理部26は、サーバ1から送信されたレイアウト情報と、表示部23の属性(画面高さ、画面幅、解像度など)に基づき、画像ファイルに含まれる文書の配置を決定する。
 表示部23はLCDモニタなどで構成され、その表示の制御は画像処理部27が統括する。
 図6はコンテンツ配信システムの実行する文書配信処理のフローチャートである。この処理を実行するためのプログラムはサーバ1およびクライアント2のメモリに記憶され、サーバ1およびクライアント2の各ブロックによって実行される。以下、クライアント2はA1~A8の処理、サーバ1はB1~B6の処理を実行する。
 A1では、クライアント2の入力情報制御部27は、入力部24への入力に基づき、文書ストレージ3に蓄積された文書の中から所望の文書ファイルを選択する。通信データ制御部22は、該選択された文書ファイルの取得を通信部21経由でサーバ1に要求する。例えば、文書ストレージ3から提供されたファイル名の一覧のURLなどから、クライアント2の入力部24および入力情報制御部27が所望の文書ファイルを選択することで、文書取得要求が発生する。あるいは、クライアント2は、DB15に蓄積された文書の中から所望の画像ファイルを選択し、その取得をサーバ1に要求することもできる。
 B1では、サーバ1の通信データ制御部13は、通信部12経由でクライアント2からの文書取得要求を受信すると、B2に進む。
 B2では、サーバ1の通信データ制御部13は、受信した文書取得要求を解析・分類し、要求元のクライアント1の識別情報(ネットワークアドレスなど)、要求された文書ファイルの識別情報(ファイル名など)を取得する。
 B3では、サーバ1の文書ファイル取得部10は、要求された文書ファイルに対応する画像ファイルをDB15から取得する。DB15に当該文書ファイルがなければ、サーバ1の文書ファイル取得部10は、要求された文書ファイルを文書ストレージ3から取得し、画像出力部11にて画像ファイルに変換する。
 B4では、サーバ1の文書ファイル解析部14は、文書ストレージ3から取得した文書ファイルを解析し、レイアウト情報を取得する。サーバ1の文書ファイル解析部14は、取得したレイアウト情報を、要求された画像ファイルに対応づけてDB15に記憶する。
 B5では、サーバ1の通信データ制御部13は、通信部12経由で、要求された文書ファイルの画像ファイルとそれに対応するレイアウト情報をクライアント2に送信する。
 A2では、クライアント2の通信データ制御部22は、通信部21経由で、サーバ1から送信されてきた画像ファイルとレイアウト情報を受信する。
 A3では、クライアント2のレイアウト処理部26は、表示部23の属性(サイズ)、文書の拡縮率、および文書の行方向を解析する。これらの情報のうち、表示部23の属性(サイズ)は、クライアント2のROMなどに予め記憶されていてもよい。
 A4では、クライアント2は、画像ファイルの画像全体をプレビュー表示する。
 A5では、クライアント2は、入力部24を介し、プレビュー表示された元画像全体の中から、表示すべき文書領域の選択を受け付ける。例えば、図7では、文書領域R1~R6を含む元画像がプレビューされており、図8では、領域R2が表示すべき文書領域として選択されている。選択された文書領域は色分けなどで視覚的に区別される。
 A6では、クライアント2の入力情報制御部27は、表示すべき文書領域の選択が完了したか否かを判断する。Yesの場合はA7に進み、Noの場合は引き続きこの選択を待機する。
 A7では、クライアント2の画像処理部25は、表示部23の属性(サイズ)、文書の拡縮率、および文書の行方向に基づき、選択された文書領域の最適なレイアウトを決定し、選択された文書領域に含まれる文書のレイアウトを再構成する。この処理の詳細は後述する。
 A8では、クライアント2の画像処理部25は、再構成された最適なレイアウトで、該選択された文書領域に含まれる文書を表示部23に表示する。画像のプレビュー表示領域と、選択された文書領域の文書の表示領域は、それぞれ別である。
 図9は文書のレイアウトの再構成(A7)の詳細を示す。この処理は、画像処理部25およびレイアウト処理部26により実行される。
 A7-1では、レイアウト処理部26は元画像の各文字のレイアウト情報を取得する。これは、サーバ1の文書ファイル解析部14の解析の結果得られたレイアウト情報でもよいし、クライアント2のレイアウト処理部26で実行された同様の解析の結果得られたレイアウト情報でもよい。
 レイアウト処理部26は、レイアウト情報に基づいて、文字認識範囲に描画されている文字画像(文字の存在範囲に相当する部分画像)を抽出する。
 図10に例示するように、OCRでの文字認識の際は、文字認識範囲に描画されている文字画像(文字の存在範囲に相当する部分画像)にずれが生じ、文字の周辺部に欠けが発生する。特に、図11に例示するように、文字下部の文字欠けが頻発することが知られている。このため、図12に例示するように、OCR認識された文字の縦横サイズ値から数ピクセル分拡張した範囲を、改めて、認識された文字画像として抽出する。ここでは、文字そのものでなく、元画像上の文字の存在範囲が認識されることに注意を要する。なお、所定のサイズに満たない文字認識範囲からは、文字画像を抽出しないか、抽出しても、そのような文字画像を削除する。
 A7-2では、レイアウト処理部26は、認識された各文字画像の集合から、1または複数の行情報を作成する。行の配置される方向は、レイアウト情報の文字方向に従う。
 ここでいう文字方向は、表示画像のスクロール方向と異なる。操作性を考慮すると、スクロール方向は、行方向と直交する方向が好ましい。さらに操作性を考慮し、スクロール方向は、1つのみが望ましい。従来技術のように左右および上下方向など、スクロール方向が複数あると、あちこちにスクロールしながら文書を閲覧することになり、使いにくいからである。
 いくつの文字画像の数nで表示部23の1行の行情報を作成するかは、各文字画像のサイズai、表示部23の行方向のサイズb、および文字の拡縮率cに依存する。すなわち、各文字を所望の拡縮率で拡縮し、表示部23の文字方向のサイズを超えない最大限の範囲で、元画像の選択文書と同じ並びを保ったままその拡縮後の各文字を行方向に並べていった場合、その文字の集合が1行分の行集合となる。数式で表すと、1行分の文字集合の行方向のサイズは、
 L= Σai*c*n≦b …(1)
 を満たすLの最大値Lmaxである。ここで、Σaiは、隣接する個々の文字画像の総和(行情報)である。よって、
 n=Lmax/(Σai*c) …(2)
 である。bは固定値であるから、文字の拡縮率cが大きくなれば、それだけ表示部23の1行あたりの文字数nは小さくなる。拡縮率cは、ユーザインターフェース、例えば、図7の拡縮ボタンBを介してユーザより任意に指定される。
 行情報Σaiは、次のようにして決定される。例えば、図13のように、行の読み進み方向である左から右に沿って、前の文字画像である「商」の文字画像に隣接する所定のサイズαの領域、例えば当該「商」の文字画像の横幅の30%の横幅を有する領域が、「品」の文字画像の存在領域の一部と重複したとする。この場合、レイアウト処理部26は「商」の文字画像に隣接する文字画像は「品」の文字画像と判断し、それらは同じ行情報に含める。
 逆に、前の文字画像の幅が所定のサイズに満たないものと、それに隣接する文字画像は、隣接しないものと判断する。例えば、図14のような「。」の文字画像は、所定サイズαを下回り、次の文字画像「会」とは隣接しないものとする。すなわち文字画像「。」と「会」は別の行情報に分離する。
 ただし、文字画像同士が隣接しないと判断されても、異なる文字画像の集合同士が、元画像上で共通する座標を有しており、かつそれらの結合サイズが表示部23の表示範囲に納まるならば、それらを同じ行情報に統合する。例えば、図15の2つの行集合R1とR2は、所定サイズαに満たない「、」の文字画像で分断されているが、それらの結合サイズが表示部23の表示範囲に納まるので、これを新たな行情報Rとする。
 レイアウト処理部26は、n個分の文字画像を含む切り出し枠を元画像に設定し、1行分の文字画像の固まりを切り出す。そして、切り出した1行分の文字画像の固まりを、スクロール方向に沿って1行分ずつ配置する。
 例えば、図16のような元画像Iが存在し、数式(2)により、表示部23の1行あたりの文字数n=12が算出されたとする。この場合、1番目の行に対する切り出し枠として、元画像Iの1番目の行の12個分の文字画像を含む枠T1が画像Iに設定される。次に、2番目の行に対する切り出し枠として、元画像Iの1番目の行の5個分の文字画像を含む枠T2-1と、元画像Iの2番目の行の7個分の文字画像を含む枠T2-2とからなる枠T2が元画像Iに設定される。次に、3番目の行に対する切り出し枠として、元画像Iの2番目の行の10個分の文字画像を含む枠T3-1と、元画像Iの3番目の行の2個分の文字画像を含む枠T3-2とからなる枠T3が元画像Iに設定される。以後、同様に、前のk番目の行の枠に包含されなかった直後の文字画像から、n個後の文字画像までを包含するように、k+1番目の行の枠Tkが設定される。
 図17に例示するように、レイアウト処理部26は、枠Tkに包含される部分画像を、スクロール方向に沿って、k番目の行に配置する。このようにして行の配置を繰り返すことで、元画像Iから、クライアント2での文書閲覧用の表示画像I’を再構成する。表示画像I’がスクロールしない文字方向Xのサイズは、表示部23のサイズと同じであるかそれよりも小さい。すなわち、文字方向Xに関し、画像I’のサイズと表示部23のサイズとが異なっていても、文字方向にスクロールの必要がないほど微細な違いしかないものとする。
 A7-3では、レイアウト処理部26は、行集合の中から不要文字行を削除する。不要文字行とは、1文字だけの行情報である。これは、1文字だけの行情報は、文字の一部を文字として誤認識した可能性が高いためである。ただし不要文字行は、1文字だけの行情報に限られない。
 A7-4では、レイアウト処理部26は、文字方向に基づいてスクロール方向を決定する。通常は、読む行を閲覧者に簡単に選択させるため、文字方向とスクロール方向とは直交する関係にあるとする。例えば、レイアウト処理部26は、文字方向が横であれば、スクロール方向は縦、文字方向が縦であれば、スクロール方向は横というように、文字方向からスクロール方向を決定する。
 レイアウト処理部26は、決定したスクロール方向に沿って隣接した行情報を結合することで、段落情報を作成する。これは例えば図18のように、元画像およびその文字方向を基準にすると、上流側の文字画像を含む行情報(前の行情報R1)の下端から所定の範囲β、例えば前の行情報R1の文字画像の高さの50%の範囲に存在する文字画像を含む行情報R2(後の行情報R2)が、R1と隣接する行情報と判断される。レイアウト処理部26は、隣接する行情報R1とR2を結合し、同一の段落情報とする。レイアウト処理部26は、この隣接する行情報の判断と結合を行情報ごとに繰り返すことで、段落情報を作成する。
 なお、図19に例示するように、レイアウト処理部26は、行頭のずれを保持しながら、2つ以上の行情報を結合してもよい。
 あるいは、レイアウト処理部26は、元画像の文書領域の改行を保持するように、行情報を作成してもよい。すなわち、図20に例示するように、レイアウト処理部26は、元画像の選択された文書領域Dの行の中に、途中で改行のある行Fを識別した場合、この行Fの末尾の文字画像には、直後の行L2の最初の文字画像を結合せず、これらが同一の行情報で連続しないよう、行情報および段落情報Zを作成する。
 A7-5では、レイアウト処理部26は、段落情報の中から不要段落を判断し、削除する。不要段落は、段落面積や段落内の文字数に応じて判断される。例えば、ある段落に含まれている文字面積の総和が、元の画像の面積に対する比率(0.1%など)以下であれば、その段落は不要段落と判断される。あるいは、ある段落に含まれている文字の数がある所定の数(2個など)以下であれば、その段落は不要段落と判断される。つまり、極端に文字数が少ない段落などは、閲覧に適さないものとして削除する。
 A7-6では、レイアウト処理部26は、不要段落削除後の段落をスクロール方向に沿って並べて結合することで、段落情報を再構成し、これを新たな表示画像I’とする。この後A8に進み、表示画像I’が表示される。
 表示画像I’の文字方向のサイズは、表示部23のサイズと同じであり、スクロールは不要であるが、表示画像I’のスクロール方向のサイズは、表示部23のサイズを超える場合がある。よって、表示画像I’のスクロール方向の表示範囲は、表示部23のサイズに限定され、部分的な表示となる。
 そのため、入力情報制御部27は、文字方向から定まるスクロール方向の指示を受け付け、その指示を画像処理部25に送る。画像処理部25は、スクロールの指示どおり表示画像I’をスクロールさせ、スクロールで進んだ範囲を表示させる。ただし、入力情報制御部27は、それ以外のスクロール方向の指示は受け付けず無視してもよい。
 入力情報制御部27は、表示画像I’の拡縮率の変更を受け付けると、A7-1に戻り、変更された拡縮率に最適な表示画像I’が再構成される。
 以上の処理によると、元画像の文字の並びに沿った文字画像にて、画面横サイズと同じサイズの行情報が作成され、さらにその行情報がスクロール方向に並んだ段落情報から表示画像I’が作成される。ユーザは、単純に表示画像I’を文字方向と直交するスクロール方向に沿ってスクロールするだけで、行の前後関係を確かめながら文書を読み進めることができ、複数の方向にあちこちスクロールしながら文書を読み進める必要がない。
 従来では、OCRで文字そのものを認識し、認識された文字を並べて行を作成していくと、次のような問題が生じる。(1)微妙な文字間のバランスを再現するのが難しい。(2)句読点の正しい配置が難しい(図21参照)。しかしながら、本処理では、画像そのものを並べて閲覧用画像を再構成するため、このような問題は起こらない。
 また、任意に指定された拡縮率に応じて、閲覧用画像を再構成するため、どのような拡縮率でも、行の前後関係を確かめながら文書を読み進めることができる。
 さらに、以上の説明では、文書の言語は日本語であり、文書を構成する文字はひらがな、カタカナ、漢字であったが、本発明の適用範囲はこれに限られない。例えば、本発明の適用範囲は、中国語、韓国語、英語、ドイツ語、フランス語、スペイン語、ロシア語、アラビア語などの各種の言語で使用される、漢字、ハングル、アルファベット、キリル文字、アラビア文字などの各種の文字を含みうる。
 1…サーバ、2…クライアント、10…文書ファイル取得部、11…画像出力部、12…通信部、13…通信データ制御部、14…文書ファイル解析部、15…DB、21…通信部、22…通信データ制御部、23…表示部、24…入力部、25…画像処理部、26…レイアウト処理部、27…入力情報制御部

Claims (14)

  1.  画像を表示する表示部と、
     構造化された文書ファイルを画像ファイルに変換する画像変換部と、
     前記画像変換部の変換した画像ファイルから、文書を構成する個々の要素の存在領域および要素の並び方向を含むレイアウト情報を検出するレイアウト情報検出部と、
     前記レイアウト情報検出部の検出したレイアウト情報に基づき、個々の要素の存在領域に相当する部分画像である要素画像を前記画像ファイルから抽出する要素画像抽出部と、
     前記要素画像抽出部の抽出した各要素画像の前記要素の並び方向に沿ったサイズに基づき、前記表示部に納まる前記要素画像の集合で、行情報を作成する行情報作成部と、
     前記要素の並び方向に従い、前記行情報作成部の作成した行情報のスクロール方向を決定するスクロール方向決定部と、
     前記スクロール方向決定部の決定したスクロール方向に沿って複数の行情報を配列することで、段落情報を作成する段落情報作成部と、
     前記段落情報作成部の作成した段落情報を、前記表示部の表示範囲内で表示する表示制御部と、
     前記スクロール方向に沿った前記段落情報のスクロール表示を指示するスクロール指示部と、
     を備え、
     前記表示制御部は、前記スクロール指示部の指示するスクロール方向に沿って、前記段落情報を前記表示部の表示範囲内でスクロール表示する文書ファイル表示装置。
  2.  前記表示制御部は、前記画像ファイルの全体を縮小表示するとともに、前記縮小表示された画像の中の各文書の存在領域を指し示す情報を表示し、
     前記各文書の存在領域の中から所望の文書の存在領域を選択する領域選択部を備え、
     前記レイアウト情報検出部は、前記領域選択部の選択した文書の存在領域から、個々の要素の存在領域および要素の並び方向を含むレイアウト情報を検出し、
     前記表示制御部は、前記表示部の第1の領域に、前記スクロール指示部の指示するスクロール方向に沿って、前記領域選択部の選択した文書の存在領域に対応する段落情報を前記表示部の表示範囲内でスクロール表示するとともに、前記表示部の第1の領域と異なる第2の領域に、前記画像ファイルの全体を縮小表示する請求項1に記載の文書ファイル表示装置。
  3.  前記スクロール方向決定部は、前記要素の並び方向と直交する方向を行情報のスクロール方向に決定する請求項1または2に記載の文書ファイル表示装置。
  4.  段落情報の表示の拡縮率を指定する拡縮率指定部を備え、
     前記行情報作成部は、前記要素画像抽出部の抽出した各要素画像を前記拡縮率指定部の指定した拡縮率に従って拡縮したサイズに従い、前記要素の並び方向に沿って前記表示部に納まる前記要素画像の集合で、行情報を作成する請求項1~3のいずれか1項に記載の文書ファイル表示装置。
  5.  前記行情報作成部は、所定の基準に満たない要素画像を前記行情報から削除する請求項1~4のいずれか1項に記載の文書ファイル表示装置。
  6.  前記段落情報作成部は、所定の基準に満たない行情報を前記段落情報から削除する請求項1~5のいずれか1項に記載の文書ファイル表示装置。
  7.  前記行情報作成部は、前記画像ファイル上の前記要素の並び方向に隣接する要素画像同士を同一の行情報に含める請求項1~6のいずれか1項に記載の文書ファイル表示装置。
  8.  前記行情報作成部は、所定の割合のサイズに満たない前の要素画像と前記要素方向に沿って隣接する後の要素画像を、前記前の要素画像と異なる行情報に含める請求項7に記載の文書ファイル表示装置。
  9.  前記行情報作成部は、異なる行情報を結合したサイズが前記要素の並び方向に沿って前記表示部に納まる場合、前記異なる行情報を同一の行情報に統合する請求項8に記載の文書ファイル表示装置。
  10. 前記行情報作成部は、改行の直前の要素画像と改行の直後の要素画像が連続しないよう行情報を作成する請求項7または8に記載の文書ファイル表示装置。
  11.  前記段落情報作成部は、前記画像ファイル上の前記スクロール方向に隣接する要素画像を含む行情報同士を同一の段落情報に含める請求項1~10のいずれか1項に記載の文書ファイル表示装置。
  12.  前記要素画像抽出部は、前記レイアウト情報検出部の検出した個々の要素の存在領域を所定のサイズだけ拡張した領域を要素画像として抽出する請求項1~11のいずれか1項に記載の文書ファイル表示装置。
  13.  情報処理装置が、
     構造化された文書ファイルを画像ファイルに変換するステップと、
     前記変換した画像ファイルから、文書を構成する個々の要素の存在領域および要素の並び方向を含むレイアウト情報を検出するステップと、
     前記検出したレイアウト情報に基づき、個々の要素の存在領域に相当する部分画像である要素画像を前記画像ファイルから抽出するステップと、
     前記抽出した各要素画像の前記要素の並び方向に沿ったサイズに基づき、画像を表示する表示部に納まる前記要素画像の集合で、行情報を作成するステップと、
     前記要素の並び方向に従い、前記作成した行情報のスクロール方向を決定するステップと、
     前記決定したスクロール方向に沿って複数の行情報を配列することで、段落情報を作成するステップと、
     前記作成した段落情報を、前記表示部の表示範囲内で表示するステップと、
     前記スクロール方向に沿った前記段落情報のスクロール表示を指示するステップと、
     前記指示するスクロール方向に沿って、前記段落情報を前記表示部の表示範囲内でスクロール表示するステップと、
     を実行する文書ファイル表示方法。
  14.  請求項13に記載の文書ファイル表示方法を情報処理装置が実行するための文書ファイル表示プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2012/059327 2011-04-27 2012-04-05 文書ファイル表示装置、方法およびプログラム WO2012147485A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201280020841.8A CN103620589A (zh) 2011-04-27 2012-04-05 文档文件显示装置、方法和程序
US14/062,663 US20140053050A1 (en) 2011-04-27 2013-10-24 Document file display device and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-099694 2011-04-27
JP2011099694A JP2012230623A (ja) 2011-04-27 2011-04-27 文書ファイル表示装置、方法およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/062,663 Continuation US20140053050A1 (en) 2011-04-27 2013-10-24 Document file display device and method

Publications (1)

Publication Number Publication Date
WO2012147485A1 true WO2012147485A1 (ja) 2012-11-01

Family

ID=47072009

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/059327 WO2012147485A1 (ja) 2011-04-27 2012-04-05 文書ファイル表示装置、方法およびプログラム

Country Status (4)

Country Link
US (1) US20140053050A1 (ja)
JP (1) JP2012230623A (ja)
CN (1) CN103620589A (ja)
WO (1) WO2012147485A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441619A (zh) * 2007-11-22 2009-05-27 国际商业机器公司 改进阅读BiDi文档时的用户体验的方法和装置
CN103150291B (zh) 2013-01-31 2015-09-09 小米科技有限责任公司 文件切边方法、终端及服务器
JP6254002B2 (ja) * 2014-02-03 2017-12-27 シャープ株式会社 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体
JP6303622B2 (ja) 2014-03-06 2018-04-04 ブラザー工業株式会社 画像処理装置
JP6311360B2 (ja) 2014-03-06 2018-04-18 ブラザー工業株式会社 画像処理装置
TWI533194B (zh) * 2014-05-07 2016-05-11 金舷國際文創事業有限公司 流式電子書產生之方法及網站系統
CN105761204A (zh) * 2016-02-23 2016-07-13 惠州Tcl移动通信有限公司 一种基于智能终端非连续渐变图片拉伸的方法及系统
CN106933596B (zh) * 2017-03-23 2019-06-14 厦门大学 一种面向异构文档的启发式适配方法
KR101880507B1 (ko) * 2017-04-21 2018-07-20 주식회사 한글과컴퓨터 웹 문서에 삽입된 도형의 크기 조정을 지원하는 클라이언트 단말 장치 및 그 동작 방법
KR101880508B1 (ko) * 2017-04-27 2018-07-20 주식회사 한글과컴퓨터 웹 문서에서 목록 생성을 지원하는 웹 문서 편집 지원 장치 및 방법
JP2019016236A (ja) * 2017-07-07 2019-01-31 インターマン株式会社 文字列画像表示方法
US11393236B2 (en) * 2020-01-17 2022-07-19 Konica Minolta Business Solutions U.S.A., Inc. Approximating the layout of a paper document

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216292A (ja) * 2000-01-31 2001-08-10 Toshiba Corp レイアウト画像編集装置及びレイアウト画像編集方法
JP2004110411A (ja) * 2002-09-18 2004-04-08 Nec Corp 文書表示システム、文書表示方法および文書表示用プログラム
JP2009271792A (ja) * 2008-05-08 2009-11-19 Canon Inc 画像処理装置およびその制御方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4900640B2 (ja) * 2005-03-30 2012-03-21 京セラ株式会社 携帯端末装置およびその文書表示制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216292A (ja) * 2000-01-31 2001-08-10 Toshiba Corp レイアウト画像編集装置及びレイアウト画像編集方法
JP2004110411A (ja) * 2002-09-18 2004-04-08 Nec Corp 文書表示システム、文書表示方法および文書表示用プログラム
JP2009271792A (ja) * 2008-05-08 2009-11-19 Canon Inc 画像処理装置およびその制御方法

Also Published As

Publication number Publication date
US20140053050A1 (en) 2014-02-20
CN103620589A (zh) 2014-03-05
JP2012230623A (ja) 2012-11-22

Similar Documents

Publication Publication Date Title
WO2012147485A1 (ja) 文書ファイル表示装置、方法およびプログラム
US9436419B2 (en) Selectively printing portions of a web page based on user selection
JP4916237B2 (ja) 画像表示装置、画像表示方法、その方法をコンピュータに実行させるプログラム、および画像表示システム
JP4290011B2 (ja) ビューワ装置及びその制御方法、プログラム
US8001466B2 (en) Document processing apparatus and method
US20070279437A1 (en) Method and apparatus for displaying document image, and information processing device
US8482808B2 (en) Image processing apparatus and method for displaying a preview of scanned document data
US10691385B2 (en) Image processing apparatus, image processing method, and storage medium in which a text element and an image element are arranged based on layouts in a webpage
US20060285163A1 (en) Print system and method
JP2008234658A (ja) テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション
US20090204888A1 (en) Document processing apparatus, document processing method, and storage medium
US9449126B1 (en) System and method for displaying content according to a target format for presentation on a target presentation device
US10481776B2 (en) Server apparatus, client apparatus, information processing method, and storage medium
JP4956319B2 (ja) 画像処理装置、その制御方法、ならびにそのプログラムおよび記憶媒体
US10275428B2 (en) Panoptic visualization document differencing
JP2008077171A (ja) データ配信装置、データ表示装置、データ配信方法、データ表示方法、データ配信プログラム、データ表示プログラム、および該プログラムを記録した記録媒体
JP2008052496A (ja) 画像表示装置、画像表示方法、プログラムおよび記録媒体
US10171691B2 (en) Document generation system for generating a second document from elements extracted from a first document, and document server, document generation method, and computer program
US8484558B2 (en) Document generation method and document generation apparatus
JP2006309443A (ja) 情報処理システム、情報処理装置、情報処理端末、情報処理方法、その方法をコンピュータで実行するプログラム、および記録媒体
US20060109497A1 (en) Systems and methods for facilitating user selection of content from a document for printing
JP3733725B2 (ja) フォームオーバレイ装置、フォームオーバレイ方法、およびオーバレイ印刷制御用プログラムを記録したコンピュータで読み取り可能な記録媒体
US20130057876A1 (en) Information processing apparatus, information processing method, and storage medium for storing program
JP4013748B2 (ja) 文書生成装置
JP2015039824A (ja) 文書レイアウトシステム、プログラム、文書レイアウト方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12777229

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12777229

Country of ref document: EP

Kind code of ref document: A1