WO2009122872A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2009122872A1
WO2009122872A1 PCT/JP2009/054610 JP2009054610W WO2009122872A1 WO 2009122872 A1 WO2009122872 A1 WO 2009122872A1 JP 2009054610 W JP2009054610 W JP 2009054610W WO 2009122872 A1 WO2009122872 A1 WO 2009122872A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
information
attribute
arrangement
unit
Prior art date
Application number
PCT/JP2009/054610
Other languages
English (en)
French (fr)
Inventor
基保 大蔵
博 植野
Original Assignee
株式会社角川グループパブリッシング
株式会社プロフィールド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社角川グループパブリッシング, 株式会社プロフィールド filed Critical 株式会社角川グループパブリッシング
Priority to JP2010505520A priority Critical patent/JP5374712B2/ja
Publication of WO2009122872A1 publication Critical patent/WO2009122872A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Definitions

  • the present invention relates to a device using character strings and image data laid out for publication.
  • DTP desktop publishing
  • Patent Document 1 a DTP device or system that can realize the same processing.
  • layout is performed by arranging characters and images in the frame.
  • the entire information can be organized and presented, or multiple pieces of information can be presented with a sense of unity.
  • the conventional information processing apparatus has a problem that it is not easy to output the data once laid out and arranged in groups for each event, product or service and reuse them.
  • An information processing apparatus is arranged in an arrangement information storage unit capable of storing arrangement information, which is information for setting a plurality of arrangement areas, which are areas for arranging a plurality of data, respectively, and arranged in the plurality of arrangement areas.
  • arrangement information which is information for setting a plurality of arrangement areas, which are areas for arranging a plurality of data, respectively, and arranged in the plurality of arrangement areas.
  • a data storage unit capable of storing a plurality of data an attribute designation information storage unit capable of storing attribute designation information which is information for designating attributes of a plurality of data classified into one group, and the plurality of arrangement areas
  • a grouping unit for grouping a plurality of pieces of data arranged in a group for each data having an attribute designated by the attribute designation information, using the arrangement information of the plurality of data, and the grouping unit
  • An information processing apparatus including an output unit that outputs data.
  • layout data can be grouped and output according to data attributes.
  • the attribute designation information further includes order information indicating an order of attributes of a plurality of data constituting one group
  • the grouping unit includes: Data having attributes designated by the attribute designation information among a plurality of data arranged in the plurality of arrangement areas, and sequentially arranged in accordance with the order indicated by the order information is acquired.
  • the information processing apparatus performs grouping.
  • the laid out data can be grouped and output in the order in which they are arranged adjacent to each other according to the order of the data attributes indicated by the order information.
  • the grouping unit uses the arrangement information to obtain data having the shortest distance between the arrangement areas and the adjacent arrangement data. It is an information processing apparatus that determines that
  • a data attribute classification unit that acquires an attribute of data arranged in the arrangement area and classifies the attribute of the data and a data attribute classification unit classify the data.
  • An order receiving unit that receives specification of an order for data attributes, and stores the attribute specifying information having the order information that is the information indicating the received order, and the attribute of the data in the attribute specifying information storage unit;
  • the information processing apparatus further comprising:
  • a data attribute classification unit that acquires an attribute of data arranged in the arrangement area and classifies the attribute of the data and a data attribute classification unit classify the data.
  • the order for the data attributes is determined according to the character size, and the attribute designation information having the order information, which is information indicating the determined order, and the data attributes.
  • the information processing apparatus further includes an order determination unit that accumulates in the attribute designation information storage unit.
  • This configuration makes it possible to automatically create order information for character string data that is actually laid out.
  • the grouping unit lacks data corresponding to the order indicated by the order information in the plurality of data arranged in the plurality of arrangement areas.
  • the information processing apparatus acquires data in the next order.
  • the output unit lacks data corresponding to the order indicated by the order information in the plurality of data arranged in the plurality of arrangement areas. In this case, the information processing apparatus outputs information indicating that data is missing to the user.
  • the grouping unit includes a plurality of pieces of data having attributes corresponding to a predetermined order indicated by the order information being the same as the data in the immediately preceding order. If the data exists at a distance, the data that is positioned in a predetermined direction with respect to the data in the immediately preceding order among the plurality of data is grouped into the same group as the data in the immediately preceding order.
  • Information processing apparatus includes a plurality of pieces of data having attributes corresponding to a predetermined order indicated by the order information being the same as the data in the immediately preceding order. If the data exists at a distance, the data that is positioned in a predetermined direction with respect to the data in the immediately preceding order among the plurality of data is grouped into the same group as the data in the immediately preceding order.
  • the output unit includes a plurality of pieces of data having attributes corresponding to a predetermined order indicated by the order information, and the same distance from the immediately preceding order data. Is an information processing apparatus that outputs information indicating that a plurality of grouping candidate data exists.
  • region delimiter image information that is information of a region delimiter image that is an image arranged to delimit a region in which the data is disposed can be stored.
  • An image storage unit, and the grouping unit includes a plurality of pieces of data arranged in a region delimited by the region delimiter image indicated by the region delimiter image information for each data having an attribute designated by the attribute designation information Further, the information processing apparatus performs grouping.
  • the information processing apparatus is an information processing apparatus in which, in the information processing apparatus, the grouping unit adds data that remains without being grouped in any group to a group having the shortest distance. .
  • Such a configuration can eliminate omissions in grouping.
  • the plurality of arrangement areas are divided into a plurality of arrangement area groups, and the grouping unit includes each of the plurality of arrangement area groups.
  • the information processing apparatus performs grouping on a plurality of arranged data.
  • the attribute designation information storage unit stores a plurality of attribute designation information
  • the grouping unit stores the plurality of attribute designation information, respectively.
  • the information processing apparatus performs grouping on data arranged in the plurality of arrangement areas.
  • an association detection unit that detects common data specified in advance for the data grouped by the grouping unit for each of the plurality of arrangement regions.
  • the output unit is an information processing apparatus that outputs data associated with the common data specified in advance detected by the association detection unit.
  • the information processing apparatus further includes an association detection unit that detects common data designated in advance for the data grouped by the grouping unit according to a plurality of attribute designation information in the information processing device.
  • the output unit is an information processing apparatus that associates and outputs data related to common data specified in advance detected by the association detection unit.
  • layout data can be grouped and output.
  • FIG. 1 is a block diagram of an information processing apparatus according to this embodiment.
  • the information processing apparatus 1 includes an arrangement information storage unit 101, a data storage unit 102, an attribute designation information storage unit 103, a grouping unit 104, an output unit 105, a data attribute classification unit 106, an order reception unit 107, an order determination unit 108, A region-delimited image storage unit 109 is provided.
  • the arrangement information storage unit 101 can store arrangement information that is information for setting a plurality of arrangement areas for arranging a plurality of data.
  • An arrangement area is an area in which data is arranged.
  • the arrangement area is an area that is designated in advance for laying out data, that is, allocated and arranged, or an area that is configured when data is laid out and arranged.
  • the arrangement area is an area called a frame, a frame, a frame frame, a box, or the like. In the arrangement area, a frame line of the area may be displayed. Further, the arrangement area may be considered as an area where data is simply arranged.
  • the arrangement information is information for designating the size and position of the arrangement area.
  • the arrangement information of the arrangement area in which the data is arranged is appropriately used as information indicating the arrangement of the data.
  • Data that can be arranged in the arrangement area will be described later.
  • the data described here may be arranged directly at the position indicated by the arrangement area, or for specifying data for referring to the data at the position indicated by the arrangement area.
  • Information such as link information may be arranged.
  • the data at the link destination is data arranged in the arrangement area.
  • the arrangement area is set, for example, on a page to be laid out or on a sheet.
  • the pages and paper described here may be considered virtual.
  • the arrangement information includes information on the width and height of the arrangement area, and position information on one point in the arrangement area, for example, the upper left corner.
  • the position information described here is information indicating a position, for example, coordinate information.
  • the arrangement area may include information indicating the center of the arrangement area and the position of the center of gravity as information indicating the position of the arrangement area. The information indicating the positions of the center and the center of gravity may be appropriately calculated from the information on the width and height of the arrangement area and the position information on one point in the arrangement area.
  • the arrangement information may include information for designating a page or the like in which the arrangement area is output.
  • the arrangement information may be, for example, a combination of the upper left corner and the coordinate information of the lower right corner as long as the arrangement area has a rectangular shape.
  • the information for designating the position of the placement area may be information indicating an absolute position, such as coordinates for the area where the placement area such as a page can be placed, or the side of the area where the placement area can be placed. Alternatively, it may be information indicating a relative position with respect to another arrangement region.
  • the correspondence relationship between the arrangement information and the data arranged in the arrangement area set by the arrangement information may be managed in any way. For example, it may be managed using a table having a record having a pair of arrangement information and data.
  • Each arrangement area and each piece of data arranged in each arrangement area usually correspond one to one, but may correspond one-to-many or many-to-one.
  • the arrangement area or the arrangement information may be associated with identification information such as an ID for identifying the arrangement area, or attribute information that is information indicating an attribute of the arrangement area.
  • the attribute information may be included in the arrangement information.
  • the attribute information is, for example, character string information for indicating the content, attributes, and the like of data arranged in the arrangement area. For example, it is determined in advance that a character string of a title or a contact is arranged in the arrangement area. In this case, a character string such as “title” or “contact” may be associated with this arrangement area.
  • Such attribute information is referred to herein as an arrangement area label.
  • the arrangement information storage unit 101 can be realized by a non-volatile recording medium or a volatile recording medium.
  • the data storage unit 102 can store a plurality of data arranged in a plurality of arrangement areas.
  • the data arranged in the arrangement area is character string data, still image data or moving image data.
  • the format of the data does not matter.
  • the character string data may include font, size, right-aligned, left-aligned, etc., underlined decoration, character color format, etc.
  • the image data may have resolution and size information.
  • the arrangement described here may be that actual data is arranged in the arrangement area, and information for referring to the data arranged in the arrangement area, for example, link information is included. It may be associated with the arrangement area.
  • the data storage unit 102 may be a non-volatile recording medium or a volatile recording medium.
  • the attribute designation information storage unit 103 can store attribute designation information that is information for designating attributes for a plurality of data classified into one group.
  • the data attribute is considered to mean a data attribute value, that is, an attribute value as appropriate.
  • the data attribute is an attribute of the data itself.
  • the attribute of the arrangement area where the data is arranged is also considered as the data attribute.
  • the attribute of data may be managed in association with each data, or may be managed in association with an arrangement area in which each data is arranged.
  • the attribute of the data itself is information about the format of character string data, for example. Data formats include fonts, font families, font features such as serifs, font sizes, font colors, font decorations such as bold and underline, line spacing, line alignment, and combinations of these Etc.
  • the attribute of the data itself is information about the data size (for example, the number of pixels) of the image data, the file format (for example, EPS, TIFF, etc.), the file name, and the like.
  • character string information indicating the size of the image included in the file name for example, a character string such as “SMALL” or “LARGE”, a character such as “S” or “L” before the extension, and the image data May be treated as data attributes.
  • the attribute of the data itself may be information indicating the content of the data, for example, what kind of word is included, what kind of content the image is, and the like.
  • the attributes of the arrangement area in which data is arranged include the size, shape, background color, frame color, label assigned to the arrangement area, identification information, and the like.
  • the data attribute may be information on the number of characters, the number of rows, and the number of columns of data arranged in one arrangement area.
  • the attribute of the data specified by the attribute specifying information described here may be a combination of two or more of the attributes described above.
  • the attribute designation information is information that designates an attribute for each of one or more data classified into one group. Moreover, it is preferable that the attribute designation information further includes order information indicating the order of attributes of a plurality of data constituting one group. That is, it is preferable that the order is specified for the attributes of the data classified into one group.
  • the order information may be information that designates the order by numerical values, symbols, or the like, or the order in which the data attributes are arranged may be used as the arrangement information.
  • the attribute designation information and the order information may be accumulated in any way, for example, the user may designate them manually or the like, or may be stored by default.
  • attribute designation information and order information acquired by a data attribute classifying unit 106, an order receiving unit 107, an order determining unit 108, and the like described later will be described as an example.
  • the attribute designation information storage unit 103 can be realized by a non-volatile recording medium or a volatile recording medium.
  • the grouping unit 104 groups a plurality of pieces of data arranged in a plurality of arrangement areas for each piece of data having an attribute designated by the attribute designation information using the arrangement information of the plurality of data.
  • the arrangement information of the plurality of data is the arrangement information of the arrangement area where the plurality of pieces of data are arranged.
  • the grouping unit 104 calculates the distance between the plurality of data using the arrangement information of the plurality of data, and uses the distance to group the data having the attribute designated by the attribute designation information.
  • the grouping described here is only required to divide the data into groups as a result.
  • the grouped data may be configured or acquired.
  • identification information of a group to which the user belongs may be given.
  • the grouping unit 104 is, for example, information in a format that can identify the group to which each data belongs, for example, XML information in which data is hierarchized by group, or in a format that can be registered in the database by item such as tab-delimited text. Information or information in which data of each group is arranged in one record may be configured. Further, the data grouped in a buffer prepared for each group may be accumulated for each group.
  • the grouping unit 104 is data having an attribute designated by the attribute designation information among a plurality of data arranged in a plurality of arrangement areas, and the order information indicates Data arranged adjacent to each other according to the order is acquired and grouped.
  • the term “adjacent” described here is not limited to the state in which the data are directly present together, but the state in which one or more other data that is not in the order indicated by the order information is interposed between the data, etc. It is a concept that also includes As a specific example, data having the shortest distance between data among two or more data is considered as adjacent data.
  • the grouping unit 104 first reads the attribute designation information whose order indicated by the order information is No. 1 from the attribute designation information storage unit 103.
  • data matching the attribute designated by the first attribute designation information is detected. Specifically, it is determined whether or not the data arranged in the arrangement area matches the attribute designated by the attribute designation information with the first order.
  • This detection may be performed on the data stored in the data storage unit 102, or may be performed on the data arranged in the arrangement area when performing layout or the like. This detection may be performed in the order in which the arrangement areas where the data are arranged are arranged, or may be performed in the order in which the data is stored. Further, the detection may be performed using the data or arrangement area designated in advance by the user as a starting point. When data matching the attribute designated by the attribute designation information having the first order is detected, this data is set as the first data of one group.
  • the data arranged in this arrangement area is set as the second data in the same group as the first data.
  • the adjacent arrangement area described here is specifically an arrangement area where the distance between the arrangement areas is the shortest.
  • the distance between the arrangement areas or the data may be the distance between the arrangement areas or any part of the data.
  • the distance between the placement areas may be the distance between the centers of gravity of the placement areas. Or it is good also considering the distance between arrangement
  • the grouping unit 104 calculates the distance between the arrangement areas using the arrangement information, and determines that the data arranged in the arrangement area with the shortest distance is the data arranged adjacently. To do. Next, starting from the arrangement area of the second data, the arrangement area in which data having the attribute designated by the attribute designation information whose order indicated by the order information is No. 3 is arranged. An arrangement area adjacent to the arrangement area is detected. The data arranged in this arrangement area is set as the third data in the same group as the first data. In this way, starting from the newly detected data, the data having the attribute specified by the attribute specifying information in the next order and adjacent to the starting data is sequentially added to the group.
  • the grouping unit 104 divides the data arranged in the arrangement area into groups composed of one or more data satisfying the attribute designation information.
  • the grouping unit 104 can usually be realized by an MPU, a memory, or the like.
  • the processing procedure of the grouping unit 104 is usually realized by software, and the software is recorded in a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).
  • the grouping unit 104 preferentially designates a plurality of data arranged in the area delimited by the area delimiter image indicated by the area delimiter image information stored in the area delimiter image storage unit 109 to be described later as an attribute designation. You may make it group into every data which has the attribute which information designates. Specifically, the grouping unit 104 preferentially groups a plurality of pieces of data arranged in the same region separated by the region separation image information into the same group for each data having an attribute designated by the attribute designation information. You may make it divide. Further, the grouping unit 104 may detect data having an attribute designated by the attribute designation information only in a plurality of data arranged in a region within a range until the region delimiter image information appears.
  • the data added to the group immediately before by the area delimiter image may be preferentially selected as the same group data and added to the group.
  • the same distance in the present embodiment is a concept including a distance that can be regarded as the same, for example, a distance having a predetermined value or a width of a ratio with respect to a completely matching distance. The same distance may be used.
  • the area delimiter image is an image arranged to delimit data or an area where the arrangement area is arranged.
  • the area delimiter image is an image such as a ruled line, a frame line, or a delimiter line.
  • the area delimiter image information is image information of the area delimiter image.
  • the region partition image information may be associated with information on a position where the region partition image is arranged.
  • the region partition image information may include information on a position where the region partition image is arranged.
  • the grouping unit 104 may determine whether or not to add data to the group using the positional relationship with the region partition image indicated by the region partition image information.
  • the grouping unit 104 converts the plurality of data into All of them may be added to the same group.
  • the grouping unit 104 when a plurality of data having an attribute specified by the next attribute specifying information is arranged at the same distance with respect to the data added to the group immediately before, the grouping unit 104, , One of the data already grouped into the same group, other than the data in the previous order, for example, the distance to the data in the first order is calculated, and the data with the shortest distance is calculated, It may be added to the same group.
  • the grouping unit 104 may acquire data in the next order when data corresponding to the order indicated by the order information is missing in the plurality of data arranged in the plurality of arrangement areas. Good.
  • the range designated in advance is, for example, a distance that is less than a predetermined distance designated in advance in the same page or from data in the immediately preceding order.
  • information that defines a predesignated range such as information on the distance from the data in the immediately preceding order, may be stored in advance in, for example, a storage medium (not shown).
  • the grouping unit 104 when a plurality of data having attributes corresponding to a predetermined order indicated by the order information exists at the same distance with respect to the data in the immediately preceding order,
  • the data positioned in a predetermined direction specified in advance with respect to the immediately preceding data may be preferentially grouped into the same group as the immediately preceding data.
  • the predetermined direction described here may be up / down / left / right, diagonally upward, diagonally downward, or the like, or a direction specified by an angle with respect to a reference direction.
  • the arrangement between the two arrangement areas for example, the center of gravity of the arrangement area or the straight line connecting the corners is the reference, and the arrangement with the smallest angle with respect to multiple directions is the smallest.
  • Data arranged in the area may be selected as data arranged in the same group.
  • the information for designating the predetermined direction may be stored in advance in a storage medium (not shown), for example.
  • the grouping unit 104 may add data that remains without being grouped to any group to the group having the closest distance. For example, the grouping unit 104 groups the data arranged in a predesignated range, for example, one page as described above, and as a result, the data remaining without being grouped in any group is obtained. If present, add this data to the nearest group.
  • the distance here is the distance to any one of the data except the data in the immediately preceding order in each group, for example, the placement area in which the data corresponding to the attribute designation information having the top order is placed. Alternatively, it may be the distance from the center of gravity of the arrangement area where the data constituting each group is arranged.
  • adding or adding data to a group means, for example, adding data to a group of data already grouped or acquiring together with a group of data already grouped.
  • adding data to a group of data already grouped means, for example, adding data to a group of data already grouped or acquiring together with a group of data already grouped.
  • the identification information or the like of the existing group to which each belongs may be added to the data.
  • the grouping unit 104 calculates the distance between the image data and the data included in the same group using the arrangement information, and the image data is determined to be the closest data. You may group by matching. In normal image data, character string data of a sentence explaining an image indicated by the image data is arranged close to the image data. Therefore, by matching such character string data with image data, It is possible to determine whether the data is data such as text describing the image of the image data. This association is managed using, for example, a management table for managing the correspondence relationship.
  • the grouping unit 104 includes related designation information, which is information for indicating the position of other data related to the data, in one data to be grouped,
  • the data arranged at the position indicated by the related designation information may be grouped in the same group as the one data to be grouped in association with the one data.
  • the grouping unit 104 determines that one data is data to be grouped into one group using the attribute designation information, the grouping unit 104 searches for the related designation information in the data, When the related designation information is detected, the data arranged at the position indicated by the related designation information is associated with the one data to be grouped and grouped into the same group as the data. .
  • information for specifying the position of related data is stored in advance in a storage medium (not shown) in association with one or more pieces of related specification information, and the grouping unit 104 is a grouping target.
  • the information specifying the position of the related data associated with the one piece of related designation information detected is read, and the information for designating the position indicates Data arranged at the position is grouped in association with one data to be grouped.
  • the information specifying the position of the related data may be, for example, information on a relative position with respect to data including the related specification information, or information on an absolute position.
  • the related designation information may be a text or an image.
  • the related designation information is preferably data indicating a direction, such as an arrow, a triangle indicating the direction, and a forefinger mark.
  • the information specifying the position of the related data associated with the above-described related specification information is information specifying the position of the direction indicated by the data indicating the direction.
  • the relationship designation information does not necessarily have to be information that designates the position of data arranged adjacently, and may be information that designates data or the like arranged via other data. The detection of the related designation information in the data can be performed by a normal character search if the related designation information is, for example, text.
  • the related designation information is image data
  • the association between the data using the association designation information is performed before the grouping, and the associated one data becomes a grouping target, the other data associated with the data May be grouped into the same group.
  • the grouping unit 104 scans the upper side of the text data B, and image data that is data arranged in an arrangement region located immediately above the text data B. A is detected, and the image data A and the text data B are associated with each other and grouped as one group of data.
  • the grouping unit 104 arranges the text data B two places above the arrangement area where the text data B is arranged. The data arranged in the area is grouped in association with the text data B.
  • the relationship indicated by the relationship designation information may be any relationship such as a relationship between one data and other data that explains the data, as in this specific example.
  • the output unit 105 outputs the data grouped by the grouping unit 104. Specifically, the output unit 105 outputs the data grouped by the grouping unit 104 in such a manner that the group can be identified. For example, the output unit 105 can identify information belonging to each group, for example, XML information in which data is hierarchized by group, information in a format that can be registered in a database such as tab-delimited text, Output data as table or spreadsheet information arranged in a single row or column. Such information may be configured by the grouping unit 104, or may be configured by the output unit 105 according to information grouped by the grouping unit 104. Further, the output unit 105 may store the data of each group in the database as one record of the database.
  • the output unit 105 may store data for each group in a buffer or the like prepared for each group.
  • the output unit 105 may output information in which each data is associated with identification information of a group to which each data belongs.
  • the output described here is a concept including display on a display, printing on a printer, transmission to an external device, accumulation in a recording medium, delivery of processing results to another processing device or another program, etc. is there.
  • the output may be to register the grouped data in the database with each group as one record.
  • the output unit 105 may or may not include an output device such as a communication device or a data input / output interface.
  • the output unit 105 can be implemented by output device driver software, or output device driver software and an output device.
  • the data attribute classification unit 106 acquires the attribute of the data arranged in the arrangement area and classifies the attribute of the data. Specifically, the data attribute classification unit 106 sequentially detects the attribute (type) of data arranged in each arrangement area, and classifies the detected attribute.
  • the attribute described here is the same as the attribute that can be specified by the attribute specifying information described above, and may be the attribute of the data itself or the attribute of the arrangement area where the data is arranged.
  • the detected attribute may be a data font or font size. Further, it may be a typeface designation of an arrangement area where data is arranged, a frame size, or the like. When a plurality of typefaces are included in one data, the typeface having the largest number of characters may be detected as the typeface attribute of the arrangement area.
  • the data attribute classification unit 106 normally detects an attribute designated in advance by a user or the like.
  • the data attribute classification unit 106 stores information specifying an attribute to be detected, for example, in a storage medium (not shown). For example, if the acquisition of the font size attribute is designated in advance, it is sequentially acquired whether the data is the font size data of a character string included in one or more arranged data. As a result of this detection, it is assumed that information on font sizes of 14 points, 12 points, and 10.5 points is acquired from a plurality of arranged data. In this case, the data attribute classification unit 106 classifies the attributes of the arranged data into three attributes of 14 points, 12 points, and 10.5 points that are font size patterns appearing in the arranged data.
  • typeface information may be sequentially acquired as attributes, and patterns of combinations of typeface information and font size information acquired from each data may be classified as data attributes. For example, you may classify
  • the data attribute classification unit 106 classifies the attributes of the arranged data into four attributes “title”, “text”, “image”, and “contact”. Note that a combination of the attribute of the data itself as described above and the attribute of the arrangement area where the data is arranged may be detected, and the attribute may be classified based on a combination of these.
  • the data attribute classification unit 106 can usually be realized by an MPU, a memory, or the like.
  • the processing procedure of the data attribute classification unit 106 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).
  • the order reception unit 107 receives specification of the order for the data attributes classified by the data attribute classification unit 106, and attribute specification information including order information that is information indicating the received order and data attributes Accumulate in the information storage unit 103.
  • the above-described output unit 105 or the like displays an input screen or the like for accepting designation of the order of the data attributes classified by the data attribute classification unit 106 on a display device such as a monitor. And the information which designates the order of the attribute of each data which the user input via this input screen is received. Then, the attribute designation information that associates the order information indicating the received order with the information indicating the attribute of the data classified by the data attribute classification unit 106 is configured, and the order reception unit 107 includes the attribute designation information storage unit 103 described above.
  • the reception described here is, for example, reception from an input unit, reception of an input signal transmitted from another device, reading of information from a recording medium, or the like.
  • the input means for specifying the order may be anything such as a numeric keypad, a keyboard, a mouse, or a menu screen.
  • the order receiving unit 107 can be realized by a device driver for input means such as a numeric keypad or a keyboard, control software for a menu screen, and the like.
  • this order reception part 107 may be abbreviate
  • the user may selectively use only one of the order reception unit 107 and the order determination unit 108 described later.
  • the order reception part 107 may be provided with MPU, memory, etc. as a structure for comprising attribute designation information. Note that instead of the order receiving unit 107 configuring the attribute information, a configuration unit for configuring the attribute designation information may be provided.
  • the order determination unit 108 determines the order of the data attributes according to the character size among the data attributes classified by the data attribute classification unit 106, and includes order information that is information indicating the determined order, Attribute designation information having data attributes is accumulated in the order acceptance unit 107 attribute designation information storage unit 103. For example, among the data attributes classified by the data attribute classification unit 106, the order of the classified data attributes is determined in descending or ascending order according to the ascending order or descending order of the character size. Then, the attribute specifying information in which the determined order information is associated with the information indicating the data attribute classified by the data attribute classifying unit 106 is accumulated in the attribute specifying information storage unit 103 described above.
  • the order determination unit 108 determines the order of attribute designation information in accordance with the conversion of the character size, in other words, the font size. Therefore, when the plurality of arranged data includes image data, It may not be appropriate when there is little change in size. Therefore, in such a case, it is preferable to configure the order information using the order receiving unit 107 described above.
  • the order determination unit 108 may determine the order of the data attributes according to attributes other than the character size, such as font and character color.
  • the order of the data attributes may be determined in the order of the weight of the font, that is, in the order of the thickness. For example, information about what attribute and what priority order is determined is stored in advance in a storage medium (not shown) or the like.
  • the order determination unit 108 can usually be realized by an MPU, a memory, or the like.
  • the processing procedure of the order determination unit 108 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).
  • the area delimiter image storage unit 109 can store area delimiter image information that is image information for delimiting an area where data is arranged. Since the area-separated image information has been described above, the description thereof is omitted here.
  • the area-separated image storage unit 109 can be realized by a non-volatile recording medium or a volatile recording medium.
  • the data attribute classification unit 106 sequentially acquires attribute values designated in advance for data arranged in an area to be grouped, for example, on one or more pages.
  • the attribute value designated in advance may be the value of one attribute, or may be the value of two or more attributes.
  • a group of two or more attribute values is acquired.
  • the attribute values of all data may be acquired.
  • data may be designated in advance so as not to acquire the attribute of the data. good.
  • the acquired attribute value is temporarily stored in a storage medium or the like.
  • Step S202 The data attribute classification unit 106 deletes the matching values among the attribute values acquired in Step S201. For example, when a group of attribute values is acquired in step S201, the group of matching attribute values is deleted. Thereby, it is possible to acquire the attribute classification of the data arranged in the area to be grouped.
  • Step S203 The output unit 105 outputs the attribute classification of the data acquired in step S202 to a monitor or the like (not shown). At this time, it is preferable to perform an output requesting the designation of the order for the attribute of the output data.
  • Step S204 The order receiving unit 107 determines whether or not the specification of the order has been received for the data attribute classification. If accepted, the process proceeds to step S205. If not accepted, the process returns to step S204.
  • Step S205 The order receiving unit 107 configures the attribute specifying information by associating the order information specifying the order received in step S204 with the information indicating the attribute classification of the data, and stores the attribute specifying information in the attribute specifying information storage unit 103. accumulate.
  • Step S206 The grouping unit 104 reads the attribute designation information accumulated in the attribute designation information storage unit 103.
  • Step S207 The grouping unit 104 assigns 1 to the counter K.
  • Step S208 The grouping unit 104 searches for data having the attribute indicated by the attribute designation information in the K-th order, here, the first order. For example, when data is arranged over a plurality of pages, each page is searched in order. This search ends when data having the first order attribute is detected.
  • Step S209 The grouping unit 104 determines whether or not there is data having the attribute indicated by the attribute designation information in the K-th order, that is, the first order here, that is, whether or not it has been detected. When it exists, it progresses to step S210, and when it does not exist, it progresses to step S221.
  • Step S210 The grouping unit 104 adds the data detected in Step S208 to the new group.
  • Step S211 The grouping unit 104 increments the counter K by 1.
  • Step S212 The grouping unit 104 determines whether the attribute designation information read in step S206 includes attribute designation information in the Kth order. If there is, the process proceeds to step S213, and if not, the process returns to step S207.
  • the grouping unit 104 searches for data having the attribute indicated by the attribute designation information in the Kth order.
  • the search may be performed on all the arranged data to be grouped, but usually a group of data is often contained within one page. Therefore, when data is arranged over a plurality of pages, it is preferable to perform a search only within the page where the first data is detected in order to speed up the processing. It is assumed that the search here is a search for all data with matching attributes. In addition, it is preferable that data already grouped is not searched again by adding management information such as a flag indicating that the data has been grouped.
  • Step S214 The grouping unit 104 determines whether data has been searched in the search in step S213. If a search is made, the process proceeds to step S215. If no search is made, the process returns to step S211. When returning, the output unit 105 or the like may output information indicating that data is missing.
  • Step S215) The grouping unit 104 calculates the distances between all the data detected in step S213 and the data grouped in the (N ⁇ 1) th order, for example, the distance between the centroids. To do.
  • Step S216 The grouping unit 104 determines data having the shortest distance calculated in Step S215. However, when there are a plurality of distance differences within a predetermined range, all of them may be determined as data having the shortest distance.
  • Step S21-7 The grouping unit 104 determines whether there is a plurality of data determined in step S216. If there are more than one, the process proceeds to step S218, and if not, the process proceeds to step S220.
  • Step S228 The grouping unit 104 detects the direction of the position of each data determined in step S217 and the position of the data grouped in the (N-1) th order. For example, assuming that the downward direction, which is a direction designated in advance with respect to the data grouped in the (N ⁇ 1) th order, is 0 degree, the angle of the direction in which each data determined in step S217 is arranged is detected. .
  • Step S219) The grouping unit 104 adds, to the group, one data in which the direction detected in Step S218 is in the direction with higher priority among the data determined in Step S216. Specifically, data with a small angle calculated in step S218 is added to the newly prepared group in step S210. Then, the process returns to step S211.
  • Step S220 The grouping unit 104 adds the data determined in step S216 to the group newly prepared in step S210.
  • Step S221 The grouping unit 104 searches for data that is not grouped, and determines whether there is data that is not grouped. If there is, the process proceeds to step S222, and if not, the process proceeds to step S223.
  • Step S222 Add ungrouped data to the nearest group. For example, the distance between the first data in the order registered in the group and the ungrouped data of all the groups including the data in the page where the ungrouped data is arranged is calculated. Add the ungrouped data to the group containing the first data with the shortest distance. Then, the process proceeds to step S223.
  • Step S223 The output unit 105 outputs the grouped data.
  • the search is performed only within a range from the position where the data having the first order is arranged until one or more area delimiter information is detected. May be. That is, the search may be performed only in the range delimited by the area delimiter information.
  • FIG. 3 is a diagram showing a page in which an arrangement area in which data to be grouped is arranged is specified.
  • a rectangular area is an arrangement area.
  • the number written in the upper right of each placement area is the ID of the placement area.
  • the ID is a display for convenience of explanation, and does not need to be actually displayed. The designation of such an arrangement area may be performed by the user, for example, or may be designated by default in advance.
  • FIG. 4 is a diagram showing a page configured by arranging data to be grouped in the page arrangement area shown in FIG. The arrangement of these data may be performed by the user or may be performed automatically.
  • 3 and 4 are diagrams for convenience of explanation, and dimensions and aspect ratios are not necessarily accurate.
  • FIG. 5 is an arrangement information management table for managing arrangement information indicating arrangement areas laid out on the page shown in FIG.
  • the arrangement information management table has items such as “arrangement area ID”, “center coordinate x”, “center coordinate y”, “width”, “height”, “data type”, and “label”.
  • “Arrangement area ID” is identification information for managing the arrangement area corresponding to each arrangement information
  • “Center coordinate x” is the x coordinate of the center of the arrangement area
  • “Center coordinate y” is the center of the arrangement area.
  • the y coordinate, “width” is the width of the placement area
  • “height” is the height of the placement area.
  • pixels are used as an example.
  • Data type indicates the type of information that can be arranged in the arrangement area
  • character string indicates that the character string information, in other words, the area in which text information can be arranged.
  • Image indicates an area in which image information can be arranged.
  • Label is information for indicating the type of the arrangement area, and here, the same label value is assigned if the content type of the data arranged in the arrangement area is the same.
  • FIG. 6 is an arrangement data management table for managing the data arranged in the arrangement area shown in FIG. Items such as “data ID”, “arrangement destination”, “data”, “font”, and “font size” are included.
  • Data ID is identification information for managing data
  • “arrangement destination” is identification information of an arrangement area where data is arranged, and corresponds to the “arrangement area ID” in FIG.
  • Data is the arranged data
  • “font” is the font name of the arranged character string data
  • “font size” is the font size of the arranged character string data.
  • the unit of the font size is assumed to be a point as an example here.
  • the arrangement area ID and the arrangement destination in the arrangement information management table and the arrangement data management table correspond to each other, instead of using these two management tables, the arrangement area ID and the arrangement destination are used. It is also possible to use a single management table in which records that match are combined.
  • the data attribute classification unit 106 of the information processing apparatus 1 determines the font name that is the attribute of the character string data from all the character string data arranged on the page as shown in FIG. Get all types of combinations with font size information.
  • “arrangement destination” in the character string data managed by the data management table shown in FIG. 6 matches one of “arrangement area ID” in the arrangement information management table shown in FIG.
  • the combination of the “font” value and the “font size” value of all data is acquired.
  • a combination pattern of font name and font size information which is an attribute of data to be grouped, is obtained.
  • the names of patterns A to E are given to these combinations.
  • Each of the patterns A to E is an attribute of data arranged on the page.
  • the output unit 105 outputs an input interface screen for allowing the user to input the attribute name “attribute name” and the grouping order “order”.
  • FIG. 7 is a diagram showing an example of the input interface screen. Input fields corresponding to “attribute name” and “order” are provided for each pattern. The “attribute name” input here becomes the item name and tag name of each data of the grouped data.
  • the user operates a keyboard or the like (not shown), and for the patterns A to E, as shown in FIG. 7, as “attribute names”, “store name”, “outline”, Assume that character strings “photo description”, “recommended”, and “address” are input, and “order” is sequentially input from “1” to “5”.
  • This input order information becomes order information.
  • the order receiving unit 107 receives the input “attribute name” and “order”, configures attribute designation information in association with data attributes, and stores the attribute designation information in the attribute designation information storage unit 103.
  • FIG. 8 is a diagram showing the attribute designation information accumulated by the order receiving unit 107.
  • the attribute designation information has attributes of “pattern name”, “data attribute”, “attribute name”, and “order”.
  • Pattern name is information for managing data attributes.
  • Data attribute is an attribute of data.
  • Attribute name and “order” correspond to “attribute name” and “order” shown in FIG. 7, respectively.
  • the grouping unit 104 sets the value of the “data attribute” of the record whose “order” is “1” in the attribute designation information shown in FIG.
  • the grouping unit 104 detects that the “arrangement area ID” of the upper left arrangement area is “001”, and among the data arranged in the arrangement area in the arrangement data management table shown in FIG.
  • the value of the “font” item is “thick gothic” and the value of the “font size” item is “data ID” is “DA001” with the “arrangement destination” value being “001”. Since it is “24”, this data, that is, data whose “data ID” is “DA001” is added to the new group as the first data in the order.
  • the “data ID” or “data” is stored in a buffer or the like prepared for each group.
  • “Attribute name” corresponding to “order” may be stored in association with “data ID” or “data”. At this time, a group name, a group ID, or the like may be received for a new group.
  • region where distance becomes the shortest is selected.
  • the distance to the data whose “data ID” is “DA002” among the data whose “data ID” is “DA002”, “DA009”, “DA016”, and “DA021” is the shortest. Therefore, the data whose “data ID” is “DA002” is added to the same group as “DA001” which is data corresponding to the attribute designation information whose “order” is “1”.
  • the “data ID” or “data” of the data whose “data ID” is “DA002” is stored in a buffer of the same group as the data of “DA001”.
  • the grouping unit 104 acquires the value of “data attribute” of the record whose “order” is “3” in the attribute designation information shown in FIG. 8, specifically, the data attribute of the pattern C. To do. Then, all the data having the data attribute indicated by the pattern C is searched from all the character string data to be grouped arranged on the page. In this case, it is detected that the records whose “data ID” is “DA005” and “DA012” are data satisfying the search condition. Then, the distance between these data and “DA001” which is data grouped as data corresponding to the attribute designation information whose “order” is “2” is calculated. And the data arrange
  • the distance to the data whose “data ID” is “DA005” is the shortest, the data whose “data ID” is “DA005” is changed to attribute designation information whose “order” is “2”. The corresponding data is added to the same group as “DA001”.
  • the grouping unit 104 also sequentially arranges data for attribute designation information whose “order” is “4” and attribute designation information whose “order” is “5” in the same manner as described above. Select and add to the group.
  • the remaining arranged data similarly to the above, the data satisfying the data attribute indicated by the attribute designation information whose “order” is “1” is searched, and the detected data is similar to the above. Repeat grouping.
  • the data arranged in the arrangement area whose “arrangement area ID” is “016” shown in FIG. 4 is grouped as data satisfying the data attribute indicated by the attribute designation information whose “order” is “2”.
  • the data attribute of the pattern C which is the value of the “data attribute” of the attribute designation information whose “order” is “3” is acquired, and all the data having the data attribute indicated by the pattern C are acquired.
  • all character string data to be grouped on the page are searched.
  • it is assumed that data having a “data ID” of “DA023” is detected as data satisfying a search condition from data not yet grouped.
  • the obtained value is It is assumed that the value is larger than a predetermined threshold value, for example, 300 pixels or more. In this case, it is determined that the data whose “data ID” is “DA023” is not data of the same group as the data arranged in the arrangement area whose “arrangement area ID” is “016”. As a result, it is determined that the data corresponding to the attribute designation information whose “order” is “3” is missing.
  • the data arranged in the arrangement area whose “arrangement area ID” is “024” shown in FIG. 4 is grouped as data satisfying the data attribute indicated by the attribute designation information whose “order” is “4”.
  • the data attribute of the pattern D that is the value of the “data attribute” of the attribute designation information whose “order” is “5” is acquired, and all the data having the data attribute indicated by the pattern D are obtained.
  • all the character string data to be grouped on the page are searched.
  • it is assumed that data whose “data ID” is “DA023” and “DA025” is detected as data satisfying the search condition from data not yet grouped.
  • the direction with respect to the arrangement area where the data whose “data ID” is “DA023” and “DA025” for the arrangement area of “DA024” is arranged is detected.
  • data whose “data ID” is “DA023” is arranged upward, and data whose “data ID” is “DA025” is arranged downward.
  • data whose “data ID”, which is data in the downward direction, is “DA025” is added to the group according to the setting designated in advance.
  • the grouping unit 104 repeats the grouping process as described above, and when the data satisfying the data attribute indicated by the attribute designation information whose “order” is “1” is not detected, the grouping unit 104 performs the grouping process. Exit.
  • FIG. 9 is a group data management table for managing grouped data.
  • Group ID is identification information for identifying a group.
  • Attribute name is information corresponding to the attribute name input in FIG.
  • Data is grouped data.
  • FIG. 10 is a diagram showing the order of grouping performed according to the “order” on the page and the data group.
  • the arrows YG01 to YG04 indicate the order of grouping for each of the groups represented by the group IDs G01 to G04 in FIG. .
  • Dotted lines RG01 to RG04 indicate areas where data corresponding to the respective group IDs are arranged.
  • the output unit 105 outputs the grouped data as shown in FIG. Specifically, for example, as shown in FIG. 11, the grouped data is accumulated in the database so that the data constituting one group becomes one record of the database having the above attribute name as an item. May be.
  • This database may be stored in a storage medium (not shown) by the information processing apparatus 1 or may be provided in an external apparatus or the like.
  • data grouped in a so-called XML format may be output.
  • the “attribute name” is a tag name.
  • data should be hierarchized by group.
  • FIG. 14 is a region delimiter image management table for managing region delimiter images stored in the region delimiter image storage unit 109.
  • image that is a region-delimited image
  • x coordinate and “y-coordinate” that are the x and y coordinates of the center of the region-delimited image arranged on the page
  • size of the region-delimited image “Height” and “Width” are managed.
  • the “image” stores information representing the shape of the area-separated image, here a straight line, and a vector image corresponding to this shape is arranged on the page.
  • the region-delimited image may be a raster image.
  • the grouping unit 104 detects the position where the area delimiter image is arranged so as to detect the area beyond the position where the area delimiter image is arranged. Do not do.
  • the search for the data to be grouped can be performed within the range delimited by the area delimiter image. For example, in the case of FIG. 13, grouping for data above the ruled line 13 is performed only between data above the ruled line 13. In addition, grouping for data below the ruled line 13 is performed only between data below the ruled line 13. This makes it possible to group data with higher accuracy.
  • each piece of data having an attribute designated by the attribute designation information is obtained by using a distance calculated using a plurality of pieces of data arranged in a plurality of arrangement areas.
  • layout data can be grouped and output. As a result, for example, data once laid out and arranged can be stored in a database or output in an XML format and easily reused for other media.
  • the grouping unit 104 determines whether or not the arrangement of character strings included in the data is a pre-designated arrangement. , It may be acquired as new data constituting the same group as the data containing the character string. For example, telephone numbers, URLs, addresses, etc. have characteristic character arrangements. Therefore, the character string specified above is detected by performing character string search, character string attribute search, pattern matching, etc. for the data constituting one group.
  • the obtained character string may be acquired from the original data as new data, stored in a storage medium (not shown), and the acquired data may be added to the same group as the original data. For example, a telephone number has a feature of 10-digit numbers separated by a plurality of midpoints or hyphens.
  • the URL has a starting character string “HTTP: //” and a characteristic character string such as “.com” or “.jp”.
  • the address also includes a postal code that is a seven-digit number separated by one midpoint or hyphen. Therefore, a character string having such characteristics is detected in data having a predetermined attribute among data grouped into one group, and the detected data is acquired as new data. You may make it add to the same group.
  • the grouping unit 104 determines whether or not the character string included in the data includes a character string specified in advance, and if the character string specified in advance is included, the character string delimited by the character string May be acquired as data constituting the same group as the data containing the character string.
  • the character string described here is a concept including one character.
  • the character string designated in advance is, for example, a character that defines at least a part of information included in one data, such as a character representing a symbol, a specific character string such as “phone” or “address”, or an external character. It is assumed that the data can be divided into one or more elements by such character strings, or character strings and punctuation marks. For example, the character string from the position where the external character of the telephone mark is detected until the next punctuation mark is obtained is determined as telephone number data, and is stored as new data belonging to the same group as the source data You may make it do.
  • the output unit 105 causes the user to lose data when data corresponding to the order indicated by the order information is missing in the plurality of data arranged in the plurality of arrangement areas. It may be possible to output information indicating that the Specifically, when the grouping unit 104 determines that the data corresponding to the order indicated by the order information is missing, the information indicating that the data is missing, or which attribute of which group. Information indicating whether data is missing may be output.
  • the timing for outputting the information indicating that the data is missing may be any timing such as the time when the grouping unit 104 detects the data loss or the time when the grouping of all data is completed. .
  • the unit 104 may be included in the same group as the data in the immediately preceding order.
  • the output unit 105 is a grouping candidate data when a plurality of pieces of data having attributes corresponding to a predetermined order indicated by the order information are present at the same distance from the immediately preceding order data.
  • Information indicating that there are a plurality of may be output.
  • the timing for outputting the information indicating that there are a plurality of candidate data for grouping is preferably the time when the grouping unit 104 detects a plurality of data. Other timings such as the time of completion may be used.
  • the grouping unit 104 puts the data specified by the instruction specifying one of a plurality of existing data received by the receiving unit (not shown) according to the output into the same group as the data in the immediately preceding order. It may be included.
  • data having an exclusion attribute that is an attribute designating exclusion from the grouping target may be excluded from the grouping target in advance when grouping. good.
  • Excluded attributes are specifically tag names or tag attributes given to data, frame names where data that is not subject to grouping is placed, file names of data that are not subject to grouping, Data attributes such as character strings included in data not to be grouped, combinations thereof, and the like.
  • the exclusion attribute needs to be an attribute that does not completely match any of the attribute designation information or is not included in any of the attribute designation information.
  • the determination as to whether or not the data has such an exclusion attribute may be performed for data having an attribute that matches the attribute designation information, or processing for detecting data that matches the attribute designation information.
  • data indicating exclusion a so-called flag or the like may be added prior to the data to be excluded.
  • a so-called flag or the like may be added prior to the data to be excluded. For example, even if the attribute of the data arranged in the frame whose column name is “column” matches the Kth attribute designation information, if the frame name “column” is designated in advance as an exclusion attribute by the user or the like The data arranged in this frame is not grouped as the Kth data. Further, after grouping once, data having these exclusion attributes may be searched and excluded from the grouped data.
  • the exclusion attribute is stored in, for example, a storage medium (not shown).
  • the information processing apparatus is arranged in the arrangement area in the information processing apparatus described in the above embodiment by two or more different systems according to arrangement area groups or a plurality of attribute designation information. Data is grouped. In addition, when common data designated in advance is included between the data grouped in each system, the data corresponding to the data is associated between the systems.
  • FIG. 15 is a block diagram of the information processing apparatus according to this embodiment.
  • the information processing apparatus 2 includes a data storage unit 102, a data attribute classification unit 106, an order reception unit 107, an order determination unit 108, an area segment image storage unit 109, an arrangement information storage unit 201, an attribute designation information storage unit 202, and a grouping unit. 203, an association detection unit 204, an association detection information storage unit 205, and an output unit 206.
  • the configurations and operations of the data storage unit 102, the data attribute classification unit 106, the order reception unit 107, the order determination unit 108, and the region delimiter image storage unit 109 are the same as those in the first embodiment, and will be described here. Is omitted.
  • the data attribute classification unit 106 the order reception unit 107, the order determination unit 108, and the like, if the arrangement area is divided into a plurality of groups,
  • the attribute designation information is created for each group of the arrangement area by classifying the attributes, receiving the designation of the order for the attributes, or determining the order for the attributes of the data, and storing them in the attribute designation information storage unit 202 Consequently.
  • the order receiving unit 107 and the order determining unit 108 receive a plurality of designations of the order for the attributes, or determine a plurality of orders for the attributes of the data. Then, a plurality of attribute designation information may be created and stored in the attribute designation information storage unit 202.
  • the arrangement information storage unit 201 stores arrangement information for setting arrangement areas grouped into a plurality of arrangement area groups.
  • a group of arrangement areas is hereinafter referred to as an arrangement area group.
  • the plurality of arrangement area groups may include the same arrangement area in an overlapping manner.
  • the arrangement information stored in the arrangement information storage unit 201 is stored in association with area group designation information that is information for designating a group to which each arrangement area belongs.
  • the arrangement information to which area group designation information “A” is assigned is arrangement information for setting an arrangement area belonging to group A
  • the arrangement information to which area group designation information “B” is assigned is group information. It may be arrangement information for setting an arrangement area belonging to B.
  • the area group designation information may be stored in the arrangement information storage unit 201 or another storage unit (not shown) in association with the arrangement area identification information.
  • Other configurations, implementation means, and the like are the same as those of the arrangement information storage unit of the above-described embodiment, and thus description thereof is omitted.
  • the attribute designation information storage unit 202 can store a plurality of different attribute designation information.
  • the attribute designation information is the same as the attribute designation information described in the above embodiment.
  • the different attribute designation information may be, for example, at least one attribute designation information that is different, and the designation of the same attribute may be duplicated. Further, the above-described order information included in the plurality of attribute designation information may be different.
  • Other configurations, implementation means, and the like are the same as those of the attribute designation information storage unit of the above-described embodiment, and thus description thereof is omitted.
  • the grouping unit 203 groups each of the plurality of data arranged in the arrangement area constituting each of the plurality of arrangement area groups by arrangement area group. That is, when the grouping performed for one arrangement area group is considered as one system grouping, the grouping unit 203 performs grouping of different systems for each arrangement area group. For example, when a plurality of arrangement areas are grouped into a first arrangement area and a second arrangement area by area group designation information, etc., the first arrangement area and the second arrangement area Individually, the grouping unit 203 performs a grouping process in the same manner as the grouping unit 203 of the first embodiment. Data grouped by arrangement area group may be accumulated, for example, by arrangement area group. Further, as a result of the grouping process performed for which arrangement area group, information such as a flag indicating the grouped data may be added to the grouped data.
  • the grouping unit 203 may perform grouping on the data arranged in the arrangement area when each of the plurality of attribute designation information stored in the attribute designation information storage unit 202 is used. That is, when grouping performed using one attribute designation information is considered as one system grouping, the grouping unit 203 may perform grouping of different systems for each attribute designation information. For example, data arranged in an arrangement area to be grouped may be grouped by using each attribute designation information constituting a plurality of attribute designation information individually. Specifically, the arrangement area to be grouped is an arrangement area arranged on one page or one document.
  • the first and second attribute designation information is stored in the attribute designation information storage unit 202
  • data is grouped using the first attribute designation information for one page, and the same
  • data grouping may be performed using the second attribute designation information.
  • the arrangement areas constituting each of the plurality of arrangement area groups designated by the area group designation information and the like described above may be the arrangement areas to be grouped.
  • the grouping unit 203 stores the first and second attribute designation information in the attribute designation information storage unit 202 and is grouped into the first and second arrangement area groups in the arrangement information storage unit 201.
  • the first arrangement area group is individually divided into data groups using the first attribute designation information and the second attribute designation information.
  • data grouping using the first attribute designation information and the second attribute designation information may be performed.
  • the grouping unit 203 has different attribute designation information for a plurality of pieces of data arranged in a plurality of arrangement area groups. You may make it perform grouping using. For example, for the first arrangement area group, data grouping using the first attribute designation information is individually performed, and for the second arrangement area group, data using the second attribute designation information is used. You may make it perform grouping of.
  • the grouping unit 203 may perform the process of grouping data for a plurality of arrangement area groups and the process of grouping data for a plurality of attribute designation information in parallel. You may make it do.
  • the grouping unit 203 can be usually realized by an MPU, a memory, or the like.
  • the processing procedure of the grouping unit 203 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).
  • the association detection unit 204 uses common data designated in advance by the user or the like for the data grouped by the grouping unit 203 for each of the plurality of arrangement area groups. Is detected.
  • the common data is data that exists in common between different arrangement area groups.
  • the association detection unit 204 stores data that is specified in advance by a user or the like and that exists in common with data grouped for each of the plurality of arrangement area groups. It detects in the data grouped for every.
  • the data to be detected is, for example, a character string or image data.
  • the image data may be a still image or a moving image.
  • the detection of the image data is performed using, for example, identification information such as a file name of the image data, an attribute value such as an image size, or the like.
  • the association detection unit 204 detects data designated in advance for data grouped by the grouping unit 203 from each of a plurality of arrangement region groups. And when the designated data is detected in any of the grouped data for one arrangement area group, each of the other arrangement area groups is detected in any of the grouped data. It is determined whether there is a character string that matches the data, and if it exists, this character string is detected as common data. Specifically, data such as a character string designated in advance is detected for each of the data grouped for the first layout area group and the data grouped for the second layout area group.
  • the detected character is included in any of the data grouped for the second arrangement area group. It is determined whether data such as a character string that matches data such as a column is detected. If they match, the data such as the character string is detected as common data. Note that when there is only one data to be detected, the determination of whether or not they match may be omitted.
  • the relation detection unit 204 detects common data designated in advance for the data grouped by the grouping unit 203 according to a plurality of attribute designation information. To do. Common data is data that exists in common among data grouped using different attribute designation information. Specifically, the association detection unit 204 uses data designated in advance by a user or the like, and presents data common to data grouped for each of the plurality of attribute designation information. It detects in the data grouped for every. For example, the association detection unit 204 detects data designated in advance for the data grouped by the grouping unit 203 using a plurality of pieces of attribute designation information.
  • the association detection unit 204 detects this data as a common character string. Specifically, for each of the data grouped using the first attribute designation information and the data grouped using the second attribute designation information, the association detection unit 204 uses a character string or the like designated in advance. Detect data of. For example, when data such as a character string designated in a group grouped using the first attribute designation information is detected, it is detected in one of the groups grouped using the second attribute designation information.
  • the relation detection unit 204 determines whether or not there is data such as a character string that matches the data such as the character string. When data such as a matching character string is detected, the association detection unit 204 detects the data such as the character string as common data. Note that when there is only one data to be detected, the determination of whether or not they match may be omitted.
  • the data such as character strings and images designated in advance is, for example, data designated by data designation information stored in advance in an association detection information storage unit 205 described later.
  • the association detection unit 204 may read this data designation information from the association detection information storage unit 205 as appropriate to detect data such as a character string.
  • the data designation information may be information that designates the character string itself, or may be a character string in which a part of the character string is normalized. That is, a character string obtained by converting a part of the character string into a so-called wild card may be used. Alternatively, it may be information for designating a character string according to a rule for designating the character string.
  • the data designation information may be a character string such as “(1)” or “purpose”, or a normalized expression such as “[az] +” (repeat of a character string from a to z). Information specifying a character string using may be used.
  • the data designation information designates character strings “(a)” and “(b)”.
  • the data designation information may be information indicating a rule for designating data, such as information for designating “continuous kanji characters before numbers” as a character string.
  • the association detection unit 204 detects a character string or the like by detecting a character type or the like by, for example, morphological analysis or the like.
  • the morphological analysis and the like are well-known techniques, and thus the description thereof is omitted. Further, whether or not the detected character strings match each other is performed by, for example, pattern matching or the like.
  • the character string described here may be a single character.
  • the data when the data is an image, it may be determined whether the image data itself matches.
  • the identification information such as the file name of the image arranged in the arrangement area and the attribute value such as the image size are usually composed of a character string
  • the data designation information is the same as when the data is a character string. May be used to specify identification information such as the file name of the data.
  • the data designation information may be the designated image data itself, the file name of the designated image data or a part thereof, or the extension of the image data.
  • it may be identification information of image data to be specified, or information specifying the file size of the image data to be specified, the size of the image, or the like.
  • the matching is usually complete matching, but partial matching may be used as needed.
  • the timing at which the association detection unit 204 detects data such as a character string does not matter.
  • the association detection unit 204 detects data such as a character string designated in advance when it is determined whether the data arranged in one arrangement area is grouped into any group.
  • detection of data such as a character string designated in advance may be performed when all data is grouped.
  • the association detection unit 204 can be usually realized by an MPU, a memory, or the like.
  • the processing procedure of the association detection unit 204 is usually realized by software, and the software is recorded in a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).
  • the related detection information storage unit 205 can store one or more of the data designation information described above. There is no limitation on the process of storing the data designation information in the related detection information storage unit 205.
  • the data designation information is input from a user or the like via an input unit (not shown) or the like, and stored in the related detection information storage unit 205 by a storage unit (not shown) or the like.
  • the related detection information storage unit 205 is preferably a non-volatile recording medium, but can also be realized by a volatile recording medium.
  • the output unit 206 outputs the data grouped by the grouping unit 203 in the same manner as the output unit 105 described above. Further, the data related to the pre-designated common data detected by the relation detection unit 204 are output in association with each other. For example, when the association detection unit 204 detects data such as a character string that is common to the association detection unit 204, the output unit 206 outputs data that can associate data associated with the detected data.
  • the data related to the common data may be the common data itself or data arranged before and after the common data, or the same as the paragraph including the common data or the common data It may be all data arranged in the arrangement information.
  • the data related to the common data may be grouped data including the common data.
  • the relationship between the detected data and the related data may be any relationship.
  • Outputting data in association with each other may mean that data is output in direct association with each other, or may be output in association with each other indirectly.
  • data related to common data may be output in association with each other, or grouped groups including data related to common data may be output in association with each other.
  • data arranged in the same arrangement information or in the same paragraph as data related to common data may be output in association with each other.
  • the output unit 206 may output the data in association with each other.
  • the output unit 206 includes identification information common to the related data, paragraphs including the data, data arranged in the same arrangement area as the data, groups including the data, identification information that can be referred to each other, For example, embedded grouped data with link information or the like may be output.
  • the output unit 206 manages the associated data, the paragraph including the data, the data arranged in the same arrangement area as the data, the identification information assigned to the group containing the data, and the like in association with each other Etc. may be output. Note that the configuration and implementation means of the output unit 206 other than those described above are the same as those of the output unit 105 described above, and thus the description thereof is omitted here.
  • the arrangement area is divided into a plurality of arrangement area groups in advance.
  • the data designation information is data that completely matches the data to be designated.
  • the data is an image, it may be determined whether the identification information such as the file name of the image matches.
  • Step S1601 The data attribute classification unit 106 substitutes 1 for the counter n.
  • Step S1602 The data attribute classification unit 106 sequentially acquires the attribute values designated in advance for the data arranged in the arrangement area constituting the nth arrangement area group.
  • the group to which the placement area belongs is detected from, for example, placement information or area group designation information. Since the process to be acquired is the same as the process in step S201 in FIG. 2 described above, detailed description thereof is omitted.
  • Step S1603 The data attribute classification unit 106, the output unit 206, the order receiving unit 107, and the like of the information processing apparatus 2 acquire attribute designation information about the nth arrangement region group, Accumulate and store. For example, it may be stored in association with identification information indicating an arrangement region group, or may be stored in association with region group designation information. Since this process is the same as the process from step S202 to step S205 in FIG. 2, detailed description thereof is omitted. In this process, designation of a plurality of orders may be accepted, and attribute designation information may be acquired and stored for each designation of the accepted order.
  • Step S1604 The data attribute classification unit 106 increments the counter n by 1.
  • Step S1605 The data attribute classification unit 106 determines whether or not the nth arrangement region group exists. When it exists, it returns to step S1602, and when it does not exist, it progresses to step S1606.
  • Step S1606 The grouping unit 203 substitutes 1 for the counter m.
  • Step S1607 The grouping unit 203 acquires attribute designation information corresponding to the mth arrangement region group.
  • Step S1608 The grouping unit 203, the output unit 206, and the like of the information processing apparatus 2 perform a process of grouping data on the m-th placement area group using the attribute designation information acquired in Step S1607.
  • This process is the same as that shown in FIG. 2 except that the arrangement area to be processed is the m-th arrangement area group and the attribute designation information used for grouping is the attribute designation information acquired in step S1607. Since it is the same as the processing from step S207 to step S222, the description is omitted.
  • grouping may be performed for each attribute designation information.
  • the grouped data is temporarily stored in a storage medium such as a memory or a hard disk (not shown).
  • Step S1609 The grouping unit 203 increments the value of the counter m by 1.
  • Step S1610 The grouping unit 203 determines whether or not the mth arrangement region group exists. When it does not exist, it progresses to step S1611, and when it exists, it returns to step S1607.
  • Step S1611 The relation detection unit 204 substitutes 1 for the counter p.
  • Step S1612 The relationship detection unit 204 acquires the p-th data designation information from the relationship detection information storage unit 205.
  • Step S1613 The relation detection unit 204 performs a search or the like using the pth data designation information, and the grouping unit 203 groups data such as a character string designated by the pth data designation information in step S1608. It is determined whether the data exists. When it exists, it progresses to step S1614, and when it does not exist, it progresses to step S1617.
  • Step S1614 The relation detection unit 204 groups the arrangement area groups different from the arrangement area group to which the arrangement area where the data including the data such as the character string detected in Step S1613 has been arranged belongs. Is searched for data that matches data such as a character string determined to exist in step S1613.
  • attribute designation information is prepared for each arrangement area group, the processing in this step is the same as the attribute designation information used when grouping the data group including the data detected in step S1613. May be considered as a process of searching for data that is grouped using different attribute designation information and that matches data such as a character string determined to exist in step S1613.
  • step S1615 the association detection unit 204 determines whether data matching the data such as the character string detected in step S1613 has been detected in any of the data grouped for different arrangement area groups. Judging. When it can detect, it progresses to step S1616, and when it cannot detect, it progresses to step S1617.
  • Step S1616 The output unit 206 associates the data corresponding to the data detected in Step S1613 and the data corresponding to the data searched in Step S1614 among the grouped data. For example, management information for managing the identification information of the grouped group to which the data such as each character string belongs is created. As a result, the data corresponding to the character string is associated.
  • Step S1617 The relation detection unit 204 increments the counter p by 1.
  • Step S1618 The relation detection unit 204 determines whether there is p-th data designation information. If there is, the process returns to step S1612; otherwise, the process proceeds to step S1619.
  • Step S1619 The output unit 206 outputs the data grouped in step S1608.
  • the associated data is output in step S1614.
  • the associated data may be output after being embedded in the data grouped in step S1608 depending on the type of associated data. Then, the process ends.
  • step S1614 When data grouping is performed using a plurality of attribute designation information, in step S1614, the attribute designation information used when grouping the data group including the character string detected in step S1613. Means that for data grouped using different attribute designation information, a process of searching for a character string that matches the character string determined to exist in step S1613 may be performed.
  • step S1613 or the like when using data designation information that can designate a plurality of data with one data designation information, such as data designation information using a normalized expression or data designation information indicating a rule for designating data, step S1613 or the like is used. Even if one pre-designated data is detected in, other different data may be detected in the remaining grouped data, so the detection process using the one data designation information May be repeated for the remaining data.
  • the arrangement area is divided into two groups, the first and second groups, and the first attribute designation information and the second attribute designation information corresponding to each group of the arrangement area are already stored in the attribute designation information.
  • a case where the data is stored in the unit 202 will be described as an example.
  • the specific example of the process of registering the attribute designation information corresponding to the first and second groups of the arrangement area is the process of setting the attribute designation information for the arrangement area shown in the specific example of the above embodiment. Are executed in order for the arrangement area of the first group and the arrangement area of the second group, the description thereof is omitted here.
  • the data designation information is information for designating character string data and information for designating a completely matched character string.
  • FIG. 17 is a diagram showing a page on which data to be grouped is arranged.
  • data is arranged in a plurality of arrangement areas.
  • the number displayed adjacent to the upper right of the arrangement area is the ID (identification information) of the arrangement area.
  • ID is the same as the ID of the arrangement information.
  • the arrangement areas are grouped into two arrangement area groups surrounded by dotted lines in the figure.
  • the arrangement area groups are referred to as a first arrangement area group 1701 and a second arrangement area group 1702.
  • the arrangement information indicating each arrangement area is not shown here, it is managed by an arrangement information management table similar to the arrangement information management table shown in FIG.
  • FIG. 18 is an area group designation information management table for managing area group designation information for designating which arrangement area group each arrangement area belongs to.
  • the area group designation information management table is stored in the arrangement information storage unit 201, for example.
  • the area group designation information management table has “arrangement area ID” and “group ID”.
  • “Arrangement area ID” is an ID of the arrangement area.
  • “Group ID” is the ID of the group to which the placement area belongs, the value “1” indicates that it belongs to the first placement area group 1701, and the value “2” belongs to the second placement area group 1702. It shows that.
  • the area group designation information management table may be combined with an arrangement information management table for managing arrangement areas as shown in FIG.
  • FIG. 19 is an arrangement data management table for managing data stored in the arrangement area shown in FIG. 17, which is data stored in the arrangement information storage unit 101.
  • the arrangement data management table is a management table similar to the arrangement data management table shown in FIG.
  • the attribute designation information storage unit 202 includes first attribute designation information that is attribute designation information corresponding to the first arrangement area group 1701 and second attribute corresponding to the second arrangement area group 1702.
  • the grouping unit 203 reads the first attribute designation information and the arrangement area constituting the first arrangement area group 1701, that is, the arrangement whose group ID is “1”, is assumed that the designation information is stored. For the data arranged in the area, the same grouping process as in the above-described embodiment is performed. Further, the grouping unit 203 reads the second attribute designation information, and the above-described implementation is performed on the data arranged in the arrangement area constituting the first arrangement area group 1701, that is, the arrangement area having the group ID “2”. The same grouping process as in the above form is performed. The grouping process for the first arrangement area group 1701 and the grouping process for the second arrangement area group 1702 are assumed to be performed in parallel processing as an example here.
  • the information arranged in the arrangement area constituting the first arrangement area group 1701 of the grouped data for example, information indicating that the data is grouped for the first arrangement area group 1701. As shown in FIG. 20, the information is temporarily stored in a storage medium such as a memory (not shown). Further, for the data arranged in the arrangement area constituting the second arrangement area group 1702, for example, information indicating that the data is grouped for the second arrangement area group 1702 is given, and FIG. As shown, it is temporarily stored in a storage medium such as a memory (not shown). 20 and 21 are management tables for temporarily stored group data, similar to the group data management table shown in FIG. Data having the same group ID is data belonging to the same group.
  • association detection unit 204 acquires one piece of data designation information stored in the association detection information storage unit 205, and the character string designated by the data designation information is grouped by the grouping unit 203. Detect within.
  • FIG. 22 is a diagram showing data designation information stored in the related detection information storage unit 205.
  • the data designation information is assumed to be characters “(1), (2), (3), (4)” as shown in FIG.
  • the association detection unit 204 acquires the character “(1)” as the first data designation information, and searches the data that matches the “(1)” in the data grouped by the grouping unit 203. To do.
  • the relation detection unit 204 detects “data” including the character string “(1)” in the group data management table corresponding to the second arrangement area group 1702 as shown in FIG.
  • the data associated with the “group ID” “B01” a record including the character string “(1)” “(1) Select Shop Ace” is detected.
  • common data specified in advance exists in the data grouped for the first layout area group 1701 and the data grouped for the second layout area group 1702.
  • the output unit 206 has a record in which the group ID “A01” detected by the relationship detection unit 204 is associated with the group ID “B01”, and the related group management table that manages the association of the grouped data Is generated and stored in a storage medium (not shown).
  • FIG. 23 is a diagram showing a related group management table generated by the output unit 206.
  • the related group management table has items of “first group ID” and “second group ID”.
  • the “first group ID” is a group ID of a data group configured for the first arrangement area group 1701.
  • the “second group ID” is a group ID of a data group configured for the second arrangement area group 1702.
  • data designation information “(2)”, “(3)”, and “(4)” the same processing as in the case of data designation information “(1)” is repeated to obtain data designation information.
  • the grouped data including the data specified by is commonly associated.
  • a related group management table as shown in FIG. 24 is obtained.
  • the data association is not necessarily one-to-one, and may be one-to-many or many-to-one.
  • one first group ID may be associated with two second group IDs, respectively.
  • the output unit 206 stores the data grouped with respect to the first arrangement area group 1701 and the second data managed by the group data management table as shown in FIGS. 20 and 21 stored in a storage medium (not shown).
  • Data grouped for the arrangement area group 1702 and the related group management table shown in FIG. 24 are output in association with each other. For example, data obtained by collecting these data in one folder may be stored in a storage medium (not shown), or these data may be registered in a database or the like.
  • data for a plurality of arrangement area groups. For this reason, for example, for data to be grouped arranged on one page or document, data can be grouped by different systems depending on the arrangement area where the data is arranged. Data grouped in a plurality of patterns according to the use of data can be acquired from one page or document.
  • data can be grouped by a plurality of attribute designation information. For this reason, for example, for data to be grouped arranged on one page or document, data can be grouped by different systems depending on the data attributes. For example, one page or document Thus, it is possible to acquire data grouped in a plurality of patterns according to the use of data.
  • data related to common data specified in advance is output in association with data grouped by a plurality of arrangement area groups.
  • the common data when common data designated in advance is detected between data grouped by each of a plurality of arrangement area groups or by a plurality of attribute designation information, the common data is converted into the common data.
  • related data for example, related data between data grouped by arrangement area group or data grouped using different attribute designation information You can associate each other.
  • data grouped in different systems can be handled individually, and if necessary, this association can be used to relate data from data grouped in different systems. Can be extracted and used as appropriate, and the convenience of the data can be improved when the arranged data is reused.
  • each process may be realized by centralized processing by a single device (system), or by distributed processing by a plurality of devices. May be.
  • two or more communication means such as an information transmission unit
  • two or more communication means existing in one apparatus may be physically realized by one medium.
  • information related to processing executed by each component for example, information received, acquired, selected, generated, transmitted, and received by each component.
  • information such as threshold values, mathematical formulas, addresses, etc. used by each component in processing is retained temporarily or over a long period of time on a recording medium (not shown) even when not explicitly stated in the above description. It may be.
  • the storage of information in the recording medium (not shown) may be performed by each component or a storage unit (not shown).
  • reading of information from the recording medium (not shown) may be performed by each component or a reading unit (not shown).
  • the information processing apparatus may be a stand-alone apparatus or a server apparatus in a server / client system.
  • the output unit or the reception unit receives an input or outputs a screen via a communication line.
  • each component may be configured by dedicated hardware, or a component that can be realized by software may be realized by executing a program.
  • each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the software that realizes the information processing apparatus in each of the above embodiments is a program as described below.
  • this program sets a plurality of data arranged in a plurality of arrangement areas, which are areas for arranging a plurality of data stored in the data storage unit, and sets the arrangement area of the plurality of data.
  • a program for functioning as an output unit for outputting a grouping unit for grouping and data grouped by the grouping unit for each data having an attribute designated by attribute designation information which is stored information is there.
  • the functions realized by the program do not include functions that can only be realized by hardware.
  • a function that can be realized only by hardware such as a modem or an interface card in an acquisition unit that acquires information or an output unit that outputs information is not included in the function realized by the program.
  • the computer that executes this program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.
  • FIG. 25 is a schematic diagram illustrating an example of an external appearance of a computer that executes the program and realizes the information processing apparatus according to the embodiment.
  • the above-described embodiment can be realized by computer hardware and a computer program executed on the computer hardware.
  • a computer system 900 includes a computer 901 including a CD-ROM (Compact Disk Only Memory) drive 905 and an FD (Floppy (registered trademark) Disk) drive 906, a keyboard 902, a mouse 903, a monitor 904, Is provided.
  • a computer 901 including a CD-ROM (Compact Disk Only Memory) drive 905 and an FD (Floppy (registered trademark) Disk) drive 906, a keyboard 902, a mouse 903, a monitor 904, Is provided.
  • CD-ROM Compact Disk Only Memory
  • FD Compact (registered trademark) Disk
  • FIG. 26 is a diagram showing an internal configuration of the computer system 900.
  • a computer 901 is connected to an MPU (Micro Processing Unit) 911, a ROM 912 for storing a program such as a bootup program, and the MPU 911.
  • MPU Micro Processing Unit
  • ROM Read Only Memory
  • a RAM (Random Access Memory) 913 that temporarily stores program instructions and a temporary storage space
  • a hard disk 914 that stores application programs, system programs, and data
  • an MPU 911 and a ROM 912 are interconnected.
  • the computer 901 may include a network card (not shown) that provides connection to the LAN.
  • a program for causing the computer system 900 to execute the functions of the information processing apparatus according to the above embodiment is stored in the CD-ROM 921 or the FD 922, inserted into the CD-ROM drive 905 or the FD drive 906, and transferred to the hard disk 914. May be. Instead, the program may be transmitted to the computer 901 via a network (not shown) and stored in the hard disk 914. The program is loaded into the RAM 913 when executed. The program may be loaded directly from the CD-ROM 921, the FD 922, or the network.
  • the program does not necessarily include an operating system (OS) or a third-party program that causes the computer 901 to execute the functions of the information processing apparatus according to the above embodiment.
  • the program may include only a part of an instruction that calls an appropriate function (module) in a controlled manner and obtains a desired result. How the computer system 900 operates is well known and will not be described in detail.
  • the information processing apparatus and the like according to the present invention are suitable for reusing character strings and image data laid out for publishing.
  • the data is grouped out and reused. It is useful as a device.
  • FIG. 1 is a block diagram of an information processing apparatus according to a first embodiment of the present invention.
  • Flow chart for explaining the operation of the information processing apparatus The figure which shows the page in which the arrangement
  • movement of the information processing apparatus The figure which shows an example of the arrangement
  • surface of the same information processing apparatus The figure which shows an example of the input interface screen of the information processing apparatus
  • the figure which shows the group data management table of the same information processing apparatus The figure which shows the order in which grouping advances in the information processing apparatus, and the group of data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】従来の情報処理装置においては、データをグループ分けして再利用することが容易ではないという課題があった。 【解決手段】複数のデータをそれぞれ配置するための領域である複数の配置領域を設定する情報である配置情報が格納され得る配置情報格納部101と、複数の配置領域に配置された複数のデータが格納され得るデータ格納部102と、一のグループに分類される複数のデータの属性を指定する情報である属性指定情報が格納され得る属性指定情報格納部103と、複数の配置領域に配置された複数のデータを、当該複数のデータの配置情報を用いて、属性指定情報が指定する属性を有するデータ毎に、グループ分けするグループ化部104と、グループ化部104がグループ分けしたデータを出力する出力部105とを備えるようにした。

Description

情報処理装置、情報処理方法、およびプログラム
 本発明は、出版用にレイアウトされた文字列や画像のデータを利用する装置等に関するものである。
 従来、書籍や、雑誌、カタログ等の紙媒体を主とした出版等に利用される文字や画像等の情報の編集は、例えばディスクトップパブリッシング(以下、DTPと称す)と呼ばれるソフトウェア(例えば、非特許文献1参照)や、同様の処理が実現可能なDTP装置やシステム等を用いて行われていた。
 例えば、このようなDTPソフトウェア等における情報の編集においては、予め、編集する情報の内容等に応じて、各ページの所望の位置に、文字や、画像を配置するためのフレームやボックスと呼ばれる所望のサイズの枠を設定した後、この枠内に文字や画像を配置することにより、レイアウトが行われていた。このように文字や画像の配置等のデザインを決定したうえで、文字や画像を配置することで、情報全体を整理して提示したり、複数の情報を、統一感を持たせて提示したり、情報間の関連性を明確化して提示することを、計画的かつ効率的に行うことが可能となり、見やすく、情報伝達性に優れたものを作成することが可能となる。
 また、特に、雑誌やカタログ等においては、複数の事象や商品やサービス等のそれぞれについて準備した同じ項目についての複数のデータを、事象や商品やサービス毎に近接させて1以上のページにレイアウトすることで、複数の事象や商品やサービス等について均質な情報提供を可能とするとともに、レイアウトに統一感を持たせて、読者が読みやすくなるようにしていた。
 例えば、このような方法により、商品カタログ等を作成すると、複数ページにわたり、統一した項目のデータを含み、統一したデザインを持つ、見やすく、かつ、商品を探しやすく、また商品について均質なデータが得られるカタログを提供することができる。
"エッセンシャルガイド[グラフィックユーザーのための機能ハイライト] ADOBE INDESIGN CS3"、[online]、アドビシステムズ株式会社、[2008年3月5日検索]、インターネット、(URL:http://www.adobe.com/jp/special/creativesuite/portal/pdf/idcs3_eg_x4_screen.pdf)
 しかしながら、従来の情報処理装置等においては、一旦レイアウトして配置したデータを、事象や商品やサービス毎にグループ分けして出力して再利用することが容易ではない、という課題があった。
 例えば、上述したような商品カタログ等においてレイアウトされたデータを、例えばデータベース等に登録しようとした場合、ユーザが手作業で確認しながら、商品別に各項目の情報を取り出し、取り出した情報を登録していく必要があり、非常に手間がかかってしまう。また、このような処理を自動化しようとしても、例えば、一のページに複数の商品のデータがレイアウトされている場合、どのデータが、どの商品に関連した項目のデータであるかを自動判別することができず、データを商品毎に取り出してデータベース等に登録することができなかった。
 本発明の情報処理装置は、複数のデータをそれぞれ配置するための領域である複数の配置領域を設定する情報である配置情報が格納され得る配置情報格納部と、前記複数の配置領域に配置された複数のデータが格納され得るデータ格納部と、一のグループに分類される複数のデータの属性を指定する情報である属性指定情報が格納され得る属性指定情報格納部と、前記複数の配置領域に配置された複数のデータを、当該複数のデータの配置情報を用いて、前記属性指定情報が指定する属性を有するデータ毎に、グループ分けするグループ化部と、前記グループ化部がグループ分けしたデータを出力する出力部とを備えた情報処理装置である。
 かかる構成により、レイアウトされたデータを、データの属性に応じてグループ化して出力ことができる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記属性指定情報は、さらに、一のグループを構成する複数のデータの属性の順序を示す順序情報を含み、前記グループ化部は、前記複数の配置領域に配置された複数のデータのうちの、前記属性指定情報により指定された属性を有するデータであって、前記順序情報が示す順序に従って順次隣接して配置されるデータを取得して、グループ分けを行う情報処理装置である。
 かかる構成により、レイアウトされたデータを、順序情報が示すデータの属性の順序にしたがって、隣接して配置されている順に、グループ化して出力ことができる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記グループ化部は、前記配置情報を用いて取得した前記配置領域間の距離が最も近いデータを、前記隣接して配置されるデータであると判断する情報処理装置である。
 かかる構成により、レイアウトされたデータを、順序情報が示すデータの属性の順序にしたがって、もっとも距離が近いものを、グループ化して出力ことができる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記配置領域に配置されたデータの属性を取得し、当該データの属性を分類するデータ属性分類部と、データ属性分類部が分類したデータの属性に対する順序の指定を受け付け、当該受け付けた順序を示す情報である前記順序情報と、前記データの属性とを有する前記属性指定情報を、前記属性指定情報格納部に蓄積する順序受付部と、をさらに備えた情報処理装置である。
 かかる構成により、実際にレイアウトされているデータから、順序情報を作成することが可能となる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記配置領域に配置されたデータの属性を取得し、当該データの属性を分類するデータ属性分類部と、データ属性分類部が分類したデータの属性のうちの、文字のサイズに応じて、データの属性に対する順序を決定し、当該決定した順序を示す情報である前記順序情報と、前記データの属性とを有する前記属性指定情報を、前記属性指定情報格納部に蓄積する順序決定部と、をさらに備えた情報処理装置である。
 かかる構成により、実際にレイアウトされている文字列のデータについて、順序情報を自動で作成することが可能となる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記グループ化部は、前記複数の配置領域に配置された複数のデータ内に、前記順序情報が示す順序に対応したデータが欠落していた場合、次の順序のデータを取得する情報処理装置である。
 かかる構成により、順序情報に完全に準拠していないデータ群もグループ化することが可能となる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記出力部は、前記複数の配置領域に配置された複数のデータ内に、前記順序情報が示す順序に対応したデータが欠落していた場合、ユーザにデータが欠落していることを示す情報を出力する情報処理装置である。
 かかる構成により、順序情報に従ったグループ化ができないことをユーザに知らせることができる。ユーザはこの情報を元に、グループ化に誤りがないか等をチェックすることができる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記グループ化部は、前記順序情報が示す所定の順序に対応する属性を有する複数のデータが、直前の順序のデータに対して同じ距離に存在していた場合に、当該複数のデータのうちの、直前の順序のデータに対して予め指定された所定の方向に位置するデータを、直前の順序のデータと同じグループにグループ分けする情報処理装置である。
 かかる構成により、データの並ぶ方向に応じて、同じ距離にあるデータのうちの、グループ化すべきデータを選択することができる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記出力部は、前記順序情報が示す所定の順序に対応する属性を有する複数のデータが、直前の順序のデータに対して同じ距離に存在していた場合に、グループ分けの候補となるデータが複数存在していることを示す情報を出力する情報処理装置である。
 かかる構成により、グループ化の候補となるデータが複数存在することをユーザに知らせることができる。ユーザはこの情報を元に、例えば、いずれのデータをグループ化すべきか等を選択することができる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記データが配置される領域を区切るために配置される画像である領域区切画像の情報である領域区切画像情報が格納され得る領域区切画像格納部をさらに具備し、前記グループ化部は、前記領域区切画像情報が示す領域区切画像で区切られた領域に配置される複数のデータを、前記属性指定情報が指定する属性を有するデータ毎に、グループ分けする情報処理装置である。
 かかる構成により、データのグループ分けを、レイアウト上のデータの区切を参照して精度良く行うことが可能となる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記グループ化部は、いずれのグループにもグループ分けされずに残ったデータを、距離が最も近いグループに付加する情報処理装置である。
 かかる構成により、グループ分けにおける漏れをなくすことができる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記複数の配置領域は、複数の配置領域のグループに分けられており、前記グループ化部は、当該複数の配置領域のグループにそれぞれ配置された複数のデータに対して、それぞれグループ分けを行う情報処理装置である。
 かかる構成により、グループ分けの対象となるデータに対して、各データが配置されている配置領域に応じて、異なる系統によるデータのグループ化が可能となり、例えば、一のページやドキュメント等から、データの用途に応じた複数のパターンでグループ分けしたデータを取得することができる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記属性指定情報格納部には、複数の属性指定情報が格納されており、前記グループ化部は、当該複数の属性指定情報をそれぞれ用いた場合について、前記複数の配置領域に配置されたデータに対するグループ分けを行う情報処理装置である。
 かかる構成により、グループ分けの対象となるデータに対して、データの属性に応じて異なる系統によるデータのグループ化が可能となり、例えば、一のページやドキュメント等から、データの用途に応じた複数のパターンでグループ分けしたデータを取得することができる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記グループ化部が前記複数の配置領域のグループ別にそれぞれグループ分けしたデータについて、予め指定された共通するデータを検出する関連検出部を更に備え、前記出力部は、前記関連検出部が検出した予め指定された共通するデータに関連するデータ同士をそれぞれ関連付けて出力する情報処理装置である。
 かかる構成により、グループ化を行う際に、配置領域グループ別にグループ化されたデータ間の、関連性のあるデータ同士を関連付けることができる。これにより、例えば、通常は、異なる系統でグループ化されたデータを個別に取り扱うことができるとともに、この関連付けを利用することで、適宜、異なる系統でグループ化されたデータ間から関連のあるデータを適宜抽出することが可能となり、配置されたデータを再利用する場合等において、データの利便性や汎用性を高めることができる。
 また、本発明の情報処理装置は、前記情報処理装置において、前記グループ化部が複数の属性指定情報別にそれぞれグループ分けしたデータについて、予め指定された共通するデータを検出する関連検出部を更に備え、前記出力部は、前記関連検出部が検出した予め指定された共通するデータに関連するデータ同士をそれぞれ関連付けて出力する情報処理装置である。
 かかる構成により、グループ化を行う際に、異なる属性指定情報を用いてそれぞれグループ化されたデータ間の、関連性のあるデータ同士を関連付けることができる。これにより、例えば、通常は、異なる系統でグループ化されたデータを個別に取り扱うことができるとともに、この関連付けを利用することで、適宜、異なる系統でグループ化されたデータ間から関連のあるデータを適宜抽出することが可能となり、配置されたデータを再利用する場合等において、データの利便性や汎用性を高めることができる。
 本発明による情報処理装置等によれば、レイアウトされたデータをグループ化して出力することができる。
 以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
 (実施の形態1)
 図1は、本実施の形態における情報処理装置のブロック図である。
 情報処理装置1は、配置情報格納部101、データ格納部102、属性指定情報格納部103、グループ化部104、出力部105、データ属性分類部106、順序受付部107、順序決定部108、および領域区切画像格納部109を具備する。
 配置情報格納部101には、複数のデータをそれぞれ配置するための複数の配置領域を設定する情報である配置情報が格納され得る。配置領域とは、データを配置する領域である。配置領域は、データをレイアウト、即ち割付して配置するために予め指定された領域や、データをレイアウトして配置する際に構成される領域である。配置領域は、例えば、枠、フレーム、フレーム枠、ボックス等と呼ばれる領域である。配置領域には、領域の枠線を表示しても良い。また、配置領域は、単にデータが配置される領域と考えても良い。配置情報は、具体的には、配置領域のサイズや位置等を指定するための情報である。データは配置領域内に配置されることから、本実施の形態においては、データの配置を示す情報として、当該データが配置される配置領域の配置情報を適宜用いる。配置領域に配置され得るデータについては後述する。また、ここで述べるデータを配置する、とは、データを配置領域が示す位置に直接配置することであっても良いし、配置領域が示す位置にデータを参照するためのデータを指定するための情報、例えばリンク情報等を配置することであっても良い。この場合、このリンク先のデータが、配置領域に配置されたデータとなる。配置領域は、例えばレイアウト先となるページや紙面等に設定される。ここで述べるページや紙面は、仮想のものと考えて良い。配置情報は、例えば、配置領域の幅や高さの情報と、配置領域内の一点、例えば左上隅の位置情報とにより構成される。ここで述べる位置情報とは、位置を示す情報であり、例えば、座標情報である。また、配置領域は、配置領域の位置を示す情報として、配置領域の中心や重心の位置を示す情報を有していてもよい。なお、これらの中心や重心の位置を示す情報は、配置領域の幅や高さの情報と配置領域内の一点の位置情報から適宜算出されても良い。また、配置情報は、配置領域の出力されるページ等を指定する情報を有していても良い。また、配置情報は、例えば、配置領域の形状が矩形であれば、左上隅と、右下隅の座標情報との組み合わせ等であっても良い。配置領域の位置を指定するための情報は、ページ等の配置領域を配置可能な領域に対する座標等の、絶対的な位置を示す情報であっても良いし、配置領域を配置可能な領域の辺や、他の配置領域に対する相対的な位置を示す情報であっても良い。配置情報と、配置情報により設定される配置領域に配置されるデータとの対応関係はどのように管理されていてもよい。例えば、配置情報とデータとを対にもつレコードを有するテーブル等を用いて管理されてもよい。各配置領域と、各配置領域に配置される各データとは通常一対一で対応しているが1対多で対応していても、多対1で対応していても良い。配置領域、あるいは配置情報には、配置領域を識別するためのID等の識別情報や、配置領域の属性を示す情報である属性情報が対応付けられていても良い。例えば、配置情報に、属性情報が含まれていても良い。属性情報は、例えば、配置領域に配置されるデータの内容や属性等を示すための文字列の情報であり、例えば、配置領域にタイトルや連絡先の文字列が配置されることが予め決められている場合、この配置領域には、「タイトル」や「連絡先」等の文字列が対応付けられても良い。このような属性情報をここでは配置領域のラベルと呼ぶ。このラベルは、例えばユーザ等が任意に指定可能である。また、同じ内容や属性を有するデータを配置するための複数の配置領域については、同じラベルを対応付けることが好ましい。配置情報格納部101は、不揮発性の記録媒体や、揮発性の記録媒体で実現可能である。
 データ格納部102には、複数の配置領域に配置された複数のデータが格納され得る。配置領域に配置されるデータとは、文字列のデータや、静止画や動画の画像データである。データの形式等は問わない。文字列のデータは、フォントやサイズや右寄せや左寄せ等の配列や下線等の装飾や文字色等の書式のデータ等を有していても良い。また、画像データは、解像度やサイズの情報等を有していていてもよい。ここで述べる配置とは、上述したように、配置領域内に、実際のデータが配置されることであっても良いし、配置領域に配置されるデータを参照するための情報、例えばリンク情報が配置領域に対応付けられることであっても良い。データ格納部102は、不揮発性の記録媒体でも、揮発性の記録媒体でも良い。
 属性指定情報格納部103は、一のグループに分類される複数のデータについての属性を指定する情報である属性指定情報が格納され得る。データの属性とは、本実施の形態においては、適宜データの属性の値、即ち属性値のことを意味すると考える。データの属性とは、データ自身の属性である。また、本実施の形態においては、データが配置される配置領域の属性もデータの属性と考える。データの属性は、各データに対応付けて管理されていてもよいし、各データが配置される配置領域に対応付けて管理されていても良い。データ自身の属性は、例えば、文字列のデータの書式についての情報である。データの書式とは、フォントや、フォントのファミリーや、セリフ等のフォントの特徴や、フォントサイズや、フォント色や、太字や下線等のフォントの装飾や、行間や、行揃えや、これらの組み合わせ等である。これらの組み合わせをスタイルと呼んでも良い。また、データ自身の属性は、画像データのデータサイズ(例えば画素数)やファイル形式(例えばEPSやTIFF等)やファイル名等についての情報である。例えば、ファイル名に含まれる画像のサイズを示す文字列の情報、例えば「SMALL」や「LARGE」等の文字列や、拡張子の前の「S」や「L」等の文字を、画像データについてのデータの属性として扱っても良い。また、データ自身の属性は、データの内容、例えば、どのようなワードが含まれるか、どのような内容の画像か、等を示す情報であっても良い。データが配置される配置領域の属性とは、配置領域のサイズや、形、背景色、枠色、配置領域に付与されたラベルや識別情報等である。また、データの属性は、一の配置領域に配置されるデータの文字数や、行数や、列数の情報であっても良い。ここで述べる属性指定情報が指定するデータの属性とは、上記で説明した属性のうちの二以上の組み合わせであっても良い。属性指定情報は、一のグループに分類される一以上のデータのそれぞれについての属性を指定する情報である。また、属性指定情報は、さらに、一のグループを構成する複数のデータの属性の順序を示す順序情報を含むことが好ましい。即ち、一のグループに分類されるデータの属性には、順序が指定されていることが好ましい。順序情報は、順序を数値や記号等で指定する情報であってもよいし、データの属性が配列されている順番自身を配列情報としても良い。なお、属性指定情報や、順序情報は、どのように蓄積されても良く、例えば、ユーザが手入力等により指定しても良いし、デフォルトで格納されていても良い。ここでは、一例として、後述するデータ属性分類部106や、順序受付部107や、順序決定部108等が取得した属性指定情報や順序情報が蓄積される場合を例に挙げて説明する。属性指定情報格納部103は、不揮発性の記録媒体や、揮発性の記録媒体で実現可能である。
 グループ化部104は、複数の配置領域に配置された複数のデータを、当該複数のデータの配置情報を用いて、属性指定情報が指定する属性を有するデータ毎に、グループ分けする。複数のデータの配置情報とは、ここでは、複数のデータがそれぞれ配置されている配置領域の配置情報である。グループ化部104は、複数のデータの配置情報を用いて、複数のデータ間の距離を算出し、当該距離を用いて、属性指定情報が指定する属性を有するデータ毎に、グループ分けする。ここで述べるグループ分けとは、結果的にデータがグループに分けられていればよく、例えば、グループ分けしたデータを構成したり、取得したりすることであっても良いし、各データにそれぞれが属するグループの識別情報等を付与すること等であっても良い。グループ化部104は、例えば、各データが属するグループが識別できるような形式の情報、例えば、グループ別にデータが階層化されたXML情報や、タブ区切りテキスト等の項目別にデータベースに登録可能な形式の情報や、各グループのデータを1レコードに配列した情報等を構成しても良い。また、グループ別に用意されたバッファにグループ分けしたデータを、それぞれグループ毎に蓄積しても良い。
 グループ化部104は、属性指定情報が順序情報を有する場合、複数の配置領域に配置された複数のデータのうちの、属性指定情報により指定された属性を有するデータであって、順序情報が示す順序に従って順次隣接して配置されるデータを取得して、グループ分けを行う。ここで述べる隣接とは、データ同士が直接となり合わせに存在している状態のみに限るものでなく、データ間に順序情報が示す順序ではない一以上の他のデータ等を介在させている状態等も含む概念である。具体例として、二以上のデータのうちの、データ間の距離が最も近いものを隣接したデータと考える。グループ化部104は、具体的には、まず、順序情報が示す順序が1番である属性指定情報を属性指定情報格納部103から読み出す。そして、この1番の属性指定情報が指定する属性に合致するデータを検出する。具体的には、配置領域に配置されたデータに対して順番に、順序が1番の属性指定情報が指定する属性に合致するか否かの判断を行う。この検出は、データ格納部102に格納されているデータに対して行われてもよいし、レイアウトを行う際等において、配置領域に配置された状態のデータに対して行われても良い。この検出は、各データが配置される配置領域が配列されている順番に行われてもよいし、データが格納されている順番で行われても良い。また、ユーザにより、予め指定されたデータや配置領域を始点として、検出を行うようにしても良い。そして、順序が1番である属性指定情報が指定する属性に一致するデータを検出した場合、このデータを、一のグループの1番目のデータとする。このデータの配置領域を起点として、順序情報が示す順番が2番である属性指定情報が指定する属性を有するデータが配置されている配置領域であって、起点となる配置領域に隣接する配置領域を検出する。そして、この配置領域に配置されたデータを、1番目のデータと同じグループの2番目のデータとする。ここで述べる隣接する配置領域とは、具体的には、配置領域間の距離が最も近い配置領域である。配置領域間、あるいはデータ間の距離は、配置領域、あるいはデータのどの部分同士の距離としてもよい。例えば、配置領域間の距離を、配置領域の重心間の距離としても良い。あるいは、配置領域間の距離を、配置領域間の最も距離が短くなる部分の距離としても良い。グループ化部104は、具体的には、配置情報を用いて配置領域間の距離を算出し、距離が最も短い配置領域に配置されているデータを、隣接して配置されるデータであると判断する。つぎに、2番目のデータの配置領域を起点として、順序情報が示す順番が3番である属性指定情報が指定する属性を有するデータが配置されている配置領域であって、2番目のデータの配置領域に隣接する配置領域を検出する。そして、この配置領域に配置されたデータを、1番目のデータと同じグループの3番目のデータとする。このようにして、新たに検出されたデータを起点として、次の順序の属性指定情報が指定する属性を有するデータであって、起点となるデータに隣接するデータを順次、グループに加えていく。そして、一のグループについての全ての属性指定情報について、上記のようにグループに加える処理が終了した時点で、一のグループに属するデータを選択する処理を終了する。そして、残りのデータについても、上記のようなグループ分けの処理を繰り返す。このような処理により、グループ化部104は、配置領域に配置されたデータを、属性指定情報を満たす一以上のデータにより構成されるグループに分ける。グループ化部104は、通常、MPUやメモリ等から実現され得る。グループ化部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
 なお、グループ化部104は、後述する領域区切画像格納部109に格納されている領域区切画像情報が示す領域区切画像で区切られた領域に配置される複数のデータを、優先的に、属性指定情報が指定する属性を有するデータ毎に、グループ分けするようにしてもよい。具体的には、グループ化部104は、領域区切画像情報で区切られた同じ領域に配置される複数のデータを、属性指定情報が指定する属性を有するデータ毎に、優先的に同じグループにグループ分けするようにしてもよい。また、グループ化部104は、領域区切画像情報が現れるまでの範囲内の領域に配置される複数のデータ内でのみ、属性指定情報が指定する属性を有するデータを検出するようにしても良い。あるいは、直前にグループに加えられたデータに対して、同じ距離に次の属性指定情報が指定する属性を有する複数のデータが配置されている場合、領域区切画像によって直前にグループに加えられたデータと同じ領域に区切られているデータを、優先的に同じグループのデータとして選択してグループに加えても良い。なお、本実施の形態における同じ距離とは、同じとみなすことのできる距離も含む概念であり、例えば、完全に一致する距離に対して、予め指定した値や割合の幅を持たせた距離を同じ距離としてもよい。領域区切画像とは、データ、もしくは配置領域が配置される領域を区切るために配置される画像である。領域区切画像は、具体的には、罫線や枠線、区切り線等の画像である。領域区切画像情報とは、領域区切画像の画像情報である。なお、領域区切画像情報は、領域区切画像が配置される位置の情報と対応付けられていてもよい。例えば、領域区切画像情報が領域区切画像が配置される位置の情報を有していても良い。このように、グループ化部104は、領域区切画像情報が示す領域区切画像との位置関係を用いて、データをグループに加えるか否かを判断してもよい。
 また、グループ化部104は、直前にグループに加えられたデータに対して、同じ距離に次の属性指定情報が指定する属性を有する複数のデータが配置されている場合、これらの複数のデータを、全て同じグループに加えるようにしても良い。
 また、グループ化部104は、直前にグループに加えられたデータに対して、同じ距離に次の属性指定情報が指定する属性を有する複数のデータが配置されている場合、これらの複数のデータと、既に同じグループにグループ分けされているデータのうちの、直前の順序のデータ以外の一のデータ、例えば順序が1番のデータとの距離を算出し、この距離が最も短い方のデータを、同じグループに加えるようにしても良い。
 また、グループ化部104は、複数の配置領域に配置された複数のデータ内に、順序情報が示す順序に対応したデータが欠落していた場合、次の順序のデータを取得するようにしてもよい。なお、複数の配置領域に配置された複数のデータ内の予め指定された範囲内に、順序情報が示す順序に対応したデータが存在しない場合を、データが欠落していると判断するようにしても良い。この場合の予め指定された範囲は、例えば同じページ内や、直前の順序のデータからの距離が、予め指定した所定の距離未満の距離である。なお、予め指定された範囲を定義する情報、例えば直前の順序のデータからの距離の情報等は、例えば、図示しない記憶媒体等に予め格納されているようにすればよい。
 また、グループ化部104は、順序情報が示す所定の順序に対応する属性を有する複数のデータが、直前の順序のデータに対して同じ距離に存在していた場合に、当該複数のデータのうちの、直前の順序のデータに対して予め指定された所定の方向に位置するデータを、優先的に、直前の順序のデータと同じグループにグループ分けしてもよい。ここで述べる所定の方向とは、上下左右、斜め上、斜め下等であってもよいし、基準とする方向に対する角度で指定される方向であっても良い。例えば、配置領域の下方向を基準とした場合、2つの配置領域間、例えば配置領域の重心や、角部同士を結ぶ直線がこの基準となるし多方向に対してなす角度が最も小さくなる配置領域に配置されるデータを、同じグループに配置されるデータとして選択しても良い。なお、所定の方向を指定する情報は、例えば、図示しない記憶媒体等に予め格納されているようにすればよい。
 また、グループ化部104は、いずれのグループにもグループ分けされずに残ったデータを、距離が最も近いグループに付加するようにしてもよい。例えば、グループ化部104は、予め指定された範囲、例えば一のページ、に配置されているデータを、上述したようにグループ分けした結果、いずれのグループにもグループ分けされずに残ったデータが存在した場合、このデータを、距離が最も近いグループに加える。ここでの距離とは、各グループにおける直前の順序のデータを除いたいずれか一つのデータ、例えば、順序が一番である属性指定情報に対応したデータが配置された配置領域との距離であっても良いし、各グループを構成するデータが配置された配置領域の重心との距離であっても良い。なお、本実施の形態において、データをグループに加えるあるいは付加するとは、例えば、データを、既にグループ分けされているデータ群に加えたり、既にグループ分けされているデータ群とともに取得したりすることであっても良いし、データに、それぞれが属する既存のグループの識別情報等を付与すること等である。
 さらに、グループ化部104は、データが画像データである場合に、当該画像データと同じグループに含まれるデータとの距離を配置情報を用いて算出し、当該画像データを、距離が最も近いデータと対応付けてグループ化してもよい。通常画像データには、当該画像データが示す画像を説明する文章の文字列データ等が、画像データに近接して配置されるため、このような文字列のデータを画像データと対応付けることで、どのデータが、画像データの画像を説明する文章等のデータであるかを判断することが可能となる。この対応付けは、例えば、対応関係を管理するための管理表を用いて管理される。
 また、グループ化部104は、グループ化の対象となる一のデータ内に、当該データに関連している他のデータの位置を示すための情報である関連指定情報が含まれている場合、この関連指定情報が示す位置に配置されているデータを、グループ化の対象となる一のデータと同じグループに、当該一のデータと対応付けてグループ分けするようにしても良い。具体的には、グループ化部104は、一のデータを、属性指定情報を用いて一のグループにグループ分けすべきデータであると判断した場合に、当該データ内において関連指定情報を検索し、関連指定情報が検出された場合に、当該関連指定情報が示す位置に配置されているデータを、上述したグループ分けすべき一のデータと対応付けて、当該データと同じ一のグループにグループ分けする。具体的には、関連するデータの位置を指定するための情報が、一以上の関連指定情報と対応付けて図示しない記憶媒体等に予め格納されており、グループ化部104は、グループ化の対象となる一のデータから一の関連指定情報を検出した場合、検出された一の関連指定情報に対応付けられた、関連するデータの位置を指定する情報を読み出し、当該位置を指定する情報が示す位置に配置されているデータを、グループ化の対象となる一のデータと対応付けてグループ化する。関連するデータの位置を指定する情報は、例えば、関連指定情報が含まれるデータに対する相対的な位置の情報であっても、絶対的な位置の情報であっても良い。関連指定情報は、テキストであっても良いし、画像であっても良い。具体的には、関連指定情報は、矢印や、方向を表す三角形、人差し指のマーク等の、方向を指し示すデータであることが好ましい。関連指定情報が方向を指し示すデータである場合、上述した関連指定情報に対応付けられた、関連するデータの位置を指定する情報は、この方向を指し示すデータが指し示す方向の位置を指定する情報である。また、関連指定情報は必ずしも隣接して配置されているデータの位置を指定する情報でなくてもよく、他のデータを介して配置されているデータ等を指定する情報であっても良い。データにおける関連指定情報の検出は、関連指定情報が、例えば、テキストであれば、通常の文字の検索により行うことが可能である。また関連指定情報が画像データであれば、画像データのファイル名等で検索したり、データ内に配置されている画像と、関連指定情報として定義されている一以上の画像とのパターンマッチングや、相関を求めることで、検出が可能である。なお、関連指定情報を用いたデータ間の関連付けを、グループ化の前に行うようにし、関連づけられた一方のデータがグループ化の対象となった場合に、当該データに対応付けられた他方のデータも同じグループにグループ分けするようにしてもよい。
 グループ化部104による関連指定情報を用いる処理の具体例を以下に説明する。画像データAの下方に、当該画像データAのキャプションであるテキストデータBが配置されており、テキストデータBの先頭に、上方を指す一つの矢印の文字が配置されていたとする。この矢印の文字が、関連指定情報の一つであったとする。そして、グループ化部104によるグループ化の処理中に、例えば、テキストデータBが、一のグループのK番目の属性指定情報の指定するデータであると判断された場合、グループ化部104が、テキストデータB内において、関連指定情報の検索を行う。ここでは、上方を示す矢印である関連指定情報が検索されるため、グループ化部104は、テキストデータBの上方を走査して、直上に位置する配置領域に配置されているデータである画像データAを検出し、この画像データAとテキストデータBとを対応付けて、一のグループのデータとしてグループ分けする。ここで、例えば、テキストデータBの先頭に上方を示す二つの矢印を含む文字が配置されていたとすると、グループ化部104は、テキストデータBの配置されている配置領域から、二つ上の配置領域に配置されているデータを、テキストデータBと対応付けてグループ化する。なお、関連指定情報により示される関連とは、この具体例のように、一のデータと、そのデータを説明する他のデータとの関連等、どのような関連であっても良い。
 出力部105は、グループ化部104がグループ分けしたデータを出力する。具体的には、出力部105は、グループ化部104がグループ分けしたデータを、グループが識別できる態様で出力する。出力部105は、例えば、各グループに属するデータを識別可能な情報、例えば、グループ別にデータが階層化されたXML情報や、タブ区切りテキスト等のデータベースに登録可能な形式の情報や、各グループのデータを一の行や列に配列したテーブルやスプレッドシートの情報として出力する。このような情報は、グループ化部104が構成しても良いし、グループ化部104がグループ分けした情報に応じて出力部105が構成しても良い。また、出力部105は、各グループのデータをデータベースの1レコードとしてデータベースに蓄積してもよい。このとき、各グループを構成するデータは、それぞれの属性に対応した項目と結びつけてデータベースに登録される。また、出力部105は、グループ別に用意されたバッファ等にデータをグループ別に蓄積してもよい。出力部105は、各データとそれぞれが属するグループの識別情報とを対応付けた情報を出力しても良い。ここで述べる出力とは、ディスプレイへの表示、プリンタへの印字、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を含む概念である。この実施の形態においては、特に、出力は、グループ化したデータを、各グループを一つのレコードとしてデータベースに登録することであってもよい。出力部105は、通信デバイスやデータの入出力インターフェース等の出力デバイスを含むと考えても含まないと考えても良い。出力部105は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
 データ属性分類部106は、配置領域に配置されたデータの属性を取得し、当該データの属性を分類する。具体的には、データ属性分類部106は、各配置領域に配置されたデータの属性(タイプ)を順次検出し、その検出した属性を分類する。ここで述べる属性は、上述した属性指定情報により指定され得る属性と同様であり、データ自身の属性であっても良いし、データが配置されている配置領域の属性であってもよい。例えば、検出する属性は、データのフォントやフォントサイズであっても良い。また、データが配置されている配置領域の書体指定や、フレームサイズ等であってもよい。なお、一つのデータに複数の書体が含まれている場合、最も文字数の多い書体を、当該配置領域の書体の属性として検出しても良い。データ属性分類部106は、通常は、ユーザ等により予め指定された属性について検出を行う。データ属性分類部106は、検出対象となる属性を指定する情報は、例えば、図示しない記憶媒体等に格納される。例えば、予めフォントサイズの属性を取得することが指定されていた場合、配置されている一以上のデータに含まれている文字列のフォントサイズのデータであるかを順次取得していく。この検出の結果、配置されている複数のデータから、14ポイント、12ポイント、10.5ポイントのフォントサイズの情報が取得されたとする。この場合、データ属性分類部106は、配置されているデータの属性を、配置されたデータに出現するフォントサイズのパターンである14ポイント、12ポイント、10.5ポイントという三つの属性に分類する。あるいは、フォントサイズに加えて、書体の情報も属性として順次取得するようにし、各データから取得した書体の情報とフォントサイズの情報との組み合わせのパターンを、データの属性に分類してもよい。例えば、ゴシック体14ポイント、明朝体12ポイント、ゴシック体10.5ポイントという3パターンの属性に分類してもよい。また、例えば、予めデータが配置される配置領域の属性であるラベル名を取得することが指定されていた場合、一以上のデータが配置されているラベルのラベル名を順次取得していく。この検出の結果、データが配置されている複数の配置領域から、「タイトル」、「本文」、「画像」、「連絡先」というラベル名が取得されたとする。この場合、データ属性分類部106は、配置されているデータの属性を、「タイトル」、「本文」、「画像」、「連絡先」という4つの属性に分類する。なお、上記のようなデータ自身の属性と、データが配置されている配置領域の属性との組み合わせを検出して、これらを組み合わせたパターンで、属性を分類しても良い。データ属性分類部106は、通常、MPUやメモリ等から実現され得る。データ属性分類部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
 順序受付部107は、データ属性分類部106が分類したデータの属性に対する順序の指定を受け付け、当該受け付けた順序を示す情報である順序情報と、データの属性とを有する属性指定情報を、属性指定情報格納部103に蓄積する。例えば、上述した出力部105等が、モニタ等の表示デバイス等に、データ属性分類部106が分類したデータの属性に対して順序の指定を受け付けるための入力画面等を表示する。そして、この入力画面を介してユーザが入力した、各データの属性の順序を指定する情報を受け付ける。そして、受け付けた順序を示す順序情報と、データ属性分類部106が分類したデータの属性を示す情報とを対応付けた属性指定情報を構成し、順序受付部107が上述した属性指定情報格納部103に蓄積する。ここで述べる受付とは、例えば、入力手段からの受付や、他の機器等から送信される入力信号の受信や、記録媒体等からの情報の読み出し等である。順序を指定するための入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。順序受付部107は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。なお、後述する順序決定部108を設ける場合、この順序受付部107は省略してもよい。あるいは、順序受付部107または後述する順序決定部108のいずれか一方のみをユーザが選択的に利用できるようにしても良い。また、順序受付部107は、属性指定情報を構成するための構成として、MPUやメモリ等を備えていても良い。なお、順序受付部107が属性情報を構成する代わりに、属性指定情報を構成するための構成部を設けるようにしても良い。
 順序決定部108は、データ属性分類部106が分類したデータの属性のうちの、文字のサイズに応じて、データの属性に対する順序を決定し、当該決定した順序を示す情報である順序情報と、データの属性とを有する属性指定情報を、順序受付部107属性指定情報格納部103に蓄積する。例えば、データ属性分類部106が分類したデータの属性のうちの、文字のサイズの昇順、または降順に従って、分類したデータの属性に対する順序を、降順、または昇順に決定する。そして、決定した順序情報と、データ属性分類部106が分類したデータの属性を示す情報とを対応付けた属性指定情報を、順序決定部108が上述した属性指定情報格納部103に蓄積する。なお、この順序決定部108は、文字サイズ、言い換えればフォントサイズの大きさの変換に応じて属性指定情報の順序を決定するため、配置される複数のデータが、画像データを含む場合や、フォントサイズの変化が少ない場合等には、適切ではない場合がある。従って、このような場合においては、上述した順序受付部107を用いて、順序情報を構成することが好ましい。なお、順序決定部108は、文字のサイズ以外の属性、例えばフォントや文字色等に応じて、データの属性に対する順序を決定しても良い。例えば、フォントのウェイト順、即ち太さ順に、データの属性に対する順序を決定するようにしてもよい。なお、どのような属性について、どのような優先順位で順位を決定するかについての情報は、例えば、予め図示しない記憶媒体等に格納しておく。順序決定部108は、通常、MPUやメモリ等から実現され得る。順序決定部108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
 領域区切画像格納部109は、データが配置される領域を区切るための画像情報である領域区切画像情報が格納され得る。領域区切画像情報については、上述しているため、ここでは説明を省略する。領域区切画像格納部109は、不揮発性の記録媒体でも、揮発性の記録媒体でも実現可能である。
 次に、情報処理装置の動作の一例について図2のフローチャートを用いて説明する。
 (ステップS201)データ属性分類部106は、グループ化の対象となる領域内、例えば一以上のページに配置されているデータについて、予め指定されている属性の値を順次取得する。予め指定されている属性の値は一の属性の値であっても、二以上の属性の値であっても良い。二以上の属性の値を取得した場合、二以上の属性の値の群が取得される。ここでは、全てのデータの属性の値を取得するようにしてもよいが、グループ化の対象としないデータ等については、予め、当該データの属性を取得しないようにデータを指定しておいても良い。取得した属性の値は、記憶媒体等に一時記憶する。
 (ステップS202)データ属性分類部106は、ステップS201において取得した属性の値のうちの一致するものを削除する。例えば、ステップS201において属性の値の群を取得した場合、一致する属性の値の群を削除する。これにより、グループ化の対象となる領域に配置されているデータの属性の分類を取得することができる。
 (ステップS203)出力部105は、ステップS202において取得したデータの属性の分類を、図示しないモニタ等に出力する。また、このとき、出力したデータの属性に対して、順序の指定を要求する出力を行うことが好ましい。
 (ステップS204)順序受付部107は、データの属性の分類に対して、順序の指定を受け付けたか否かを判断する。受け付けた場合、ステップS205に進み、受け付けていない場合、ステップS204に戻る。
 (ステップS205)順序受付部107は、ステップS204において受け付けた順序を指定する順序情報と、データの属性の分類を示す情報とを対応付けて属性指定情報を構成し、属性指定情報格納部103に蓄積する。
 (ステップS206)グループ化部104は、属性指定情報格納部103に蓄積された属性指定情報を読み出す。
 (ステップS207)グループ化部104は、カウンターKに1を代入する。
 (ステップS208)グループ化部104は、K番目、ここでは一番目の順序の属性指定情報が示す属性を有するデータを検索する。例えば、データが複数のページ等に渡って配置されている場合、各ページを順番に検索していく。この検索は、一番目の順序の属性を有するデータが検出された時点で終了する。
 (ステップS209)グループ化部104は、K番目、ここでは一番目の順序の属性指定情報が示す属性を有するデータが存在しているか否か、即ち検出されたか否かを判断する。存在していた場合、ステップS210に進み、存在していない場合、ステップS221に進む。
 (ステップS210)グループ化部104は、ステップS208において検出したデータを、新規のグループに加える。
 (ステップS211)グループ化部104は、カウンターKを1インクリメントする。
 (ステップS212)グループ化部104は、ステップS206において読み出した属性指定情報に、K番目の順序の属性指定情報があるか否かを判断する。ある場合、ステップS213に進み、ない場合、ステップS207に戻る。
 (ステップS213)グループ化部104は、K番目の順序の属性指定情報が示す属性を有するデータを検索する。なお、ここでの検索は、グループ分けの対象となる全ての配置されているデータについて、検索を行っても良いが、通常は、一群のデータは、一つのページ内に収まっていることが多いことから、データが複数ページに渡って配置されている場合、一番目のデータが検出されたページ内においてのみ、検索を行うようにすることが処理を速くするうえで好ましい。なお、ここでの検索は、属性が一致する全てのデータの検索であるとする。また、既に、グループ分けされているデータについては、グループ分け済みであることを示すフラグ等の管理情報を付与することで、再度検索が行われないようにすることが好ましい。
 (ステップS214)グループ化部104は、ステップS213の検索においてデータが検索されたか否かを判断する。検索された場合、ステップS215に進み、検索されなかった場合、ステップS211に戻る。なお、戻る際に、出力部105等が、データに欠けがあることを示す情報を出力するようにしても良い。
 (ステップS215)グループ化部104は、ステップS213で検出した全てのデータと、(N-1)番目の順序でグループ化されたデータとのそれぞれの距離、例えば、それぞれの重心間の距離を算出する。
 (ステップS216)グループ化部104は、ステップS215で算出した距離が最も短いデータを決定する。ただし、距離の差が所定の範囲内のものが複数ある場合、全てを最も距離の短いデータに決定してもよい。
 (ステップS217)グループ化部104は、ステップS216で決定したデータが複数か否かを判断する。複数である場合、ステップS218に進み、複数でない場合、ステップS220に進む。
 (ステップS218)グループ化部104は、ステップS217で決定した各データの位置と、(N-1)番目の順序でグループ化されたデータの位置との方向を検出する。例えば、(N-1)番目の順序でグループ化されたデータに対して予め指定した方向である下向きの方向を0度として、ステップS217で決定した各データが配置される方向の角度を検出する。
 (ステップS219)グループ化部104は、ステップS216で決定したデータのうちの、ステップS218で検出した方向が、より優先度の高い方向にある一のデータをグループに加える。具体的には、ステップS218で算出した角度が小さいデータを、ステップS210において新規に用意したグループに加える。そして、ステップS211に戻る。
 (ステップS220)グループ化部104は、ステップS216で決定したデータを、ステップS210において新規に用意したグループに加える。
 (ステップS221)グループ化部104は、グループ化されていないデータを検索して、グループ化されていないデータがあるか否かを判断する。ある場合、ステップS222に進み、ない場合、ステップS223に進む。
 (ステップS222)グループ化されていないデータを最も近いグループに加える。例えば、グループ化されていないデータが配置されているページ内のデータが含まれる全てのグループの、グループに登録された順序が一番目のデータと、グループ化されていないデータとの距離を算出し、距離が最も短い一番目のデータを含むグループに、グループ化されていないデータを加える。そして、ステップS223に進む。
 (ステップS223)出力部105は、グループ化されたデータを出力する。
 なお、図2のフローチャートのステップS213の検索処理においては、順序が一番目であるデータが配置されている位置から、一以上の領域区切情報が検出されるまでの範囲でのみ検索を行うようにしても良い。即ち領域区切情報で区切られた範囲でのみ検索を行うようにしても良い。
 以下、本実施の形態における情報処理装置の具体的な動作について説明する。ここでは、例として、配置されているデータのうちの、文字列のデータだけをグループ化する場合を例に挙げて説明する。
 図3は、グループ化の対象となるデータが配置される配置領域が指定されたページを示す図である。図3において、矩形で示した領域が配置領域である。また、各配置領域の右上に記載されている番号は、配置領域のIDである。なお、IDは、説明のための便宜上の表示であり、実際には表示する必要はない。このような配置領域の指定は、例えばユーザにより行われても良いし、予めデフォルトで指定されていても良い。
 また、図4は、図3に示したページの配置領域に、グループ化の対象となるデータを配置して構成したページを示す図である。これらのデータの配置は、ユーザにより行われても良いし、自動化されて行われたものであっても良い。なお、図3や図4は、説明のための便宜上の図であり、必ずしも寸法や縦横比等は正確ではない。
 図5は、図3に示したページにレイアウトされた配置領域を示す配置情報を管理するための配置情報管理表である。配置情報管理表は、「配置領域ID」、「中心座標x」、「中心座標y」、「幅」、「高さ」、「データ種類」、「ラベル」等の項目を有している。「配置領域ID」は、各配置情報に対応する配置領域を管理するための識別情報、「中心座標x」は、配置領域の中心のx座標、「中心座標y」は、配置領域の中心のy座標、「幅」は、配置領域の幅、「高さ」は配置領域の高さである。なお、座標や幅や高さの単位としては、ここでは一例としてピクセルを用いてる。「データ種類」は配置領域に配置可能な情報の種類を示し、「文字列」は文字列の情報、言い換えればテキスト情報が配置可能な領域であることを示す。また、「画像」は画像情報が配置可能な領域であることを示す。「ラベル」は、配置領域の種類を示すための情報であり、ここでは、配置領域に配置されるデータの内容の種類が同じであれば、同じラベルの値が付与されている。
 図6は、図4に示した、配置領域に配置されたデータを管理するための配置データ管理表である。「データID」、「配置先」、「データ」、「フォント」、「フォントサイズ」等の項目を有している。「データID」は、データを管理するための識別情報、「配置先」はデータが配置される配置領域の識別情報で、図5の「配置領域ID」に対応している。「データ」は、配置されたデータ、「フォント」は、配置された文字列のデータのフォント名、「フォントサイズ」は、配置された文字列のデータのフォントサイズである。フォントサイズの単位は、ここでは一例としてポイントであるとする。なお、配置情報管理表と、配置データ管理表との、配置領域IDと配置先とは対応している情報であるため、この2つの管理表を用いる代わりに、これらの配置領域IDと配置先とが一致するレコード同士を結合した一の管理表を用いるようにしてもよい。
 まず、ここでは、フォント名とフォントサイズとの組み合わせをグループ分けを行う際のデータ属性として利用するよう、ユーザ等により、あるいはデフォルトにより予め設定されているものとする。情報処理装置1のデータ属性分類部106は、グループ化の対象となる図4に示したようなページに配置されている全ての文字列のデータから、文字列のデータの属性であるフォント名とフォントサイズの情報との組み合わせのパターンを全種類取得する。ここでは、図6に示したデータ管理表により管理されている文字列のデータのうちの、「配置先」が、図5に示した配置情報管理表の「配置領域ID」のいずれかと一致する全てのデータの「フォント」の値と「フォントサイズ」の値との組み合わせを取得する。そして、取得した組み合わせの中から重複した組み合わせを削除することで、グループ化の対象となるデータの属性であるフォント名とフォントサイズの情報の組み合わせのパターンを得る。ここでは、「フォント=太ゴシック,サイズ=24」、「フォント=ゴシック,サイズ=12」、「フォント=ゴシック,サイズ=8」、「フォント=ゴシック,サイズ=10」、「フォント=細ゴシック,サイズ=9」という5組のフォントとフォントサイズとの組み合わせが得られる。ここではこれらの組み合わせに、パターンA~パターンEという名称を付与する。このパターンA~パターンEのそれぞれが、ページに配置されているデータの属性である。そして、得られた属性について、属性の名称である「属性名」と、グループ化を行う順序である「順序」を、ユーザに入力させるための入力インターフェース画面を、出力部105に出力させる。
 図7は、入力インターフェース画面の一例を示す図である。各パターンに対して「属性名」と「順序」に対応した入力フィールドが設けられている。ここで入力された「属性名」が、グループ化されたデータのそれぞれのデータの項目名やタグ名となる。
 ユーザが、ここでは、キーボード等(図示せず)を操作して、パターンA~パターンEに対して、図7に示すように、「属性名」として、順番に「店名」、「概要」、「写真説明」、「お勧め」、「住所」という文字列を入力し、「順序」として「1」から「5」までを順番に入力したとする。この入力された順番の情報が、順序情報となる。順序受付部107は、入力されたこれらの「属性名」と「順序」とを受け付け、データの属性と対応付けて属性指定情報を構成し、属性指定情報格納部103に蓄積する。
 図8は、順序受付部107により蓄積された属性指定情報を示す図である。属性指定情報は、「パターン名」と、「データ属性」と、「属性名」と、「順序」という属性を有している。「パターン名」はデータ属性の管理するための情報であり、ここでは、上述したパターンA~パターンEを用いている。「データ属性」はデータの属性である。「属性名」と、「順序」とは、図7に示した「属性名」と「順序」にそれぞれ対応している。
 次に、グループ化部104は、図8に示した属性指定情報のうちの「順序」が「1」であるレコードの「データ属性」の値、具体的には、パターンAである「フォント=太ゴシック,サイズ=24」というデータ属性を取得する。そして、図4に示すように配置されているデータについて、例えば左上から順番に、「データ属性」の値を満たす属性を有している情報であるか否かを判断する。例えば、グループ化部104は、左上の配置領域の「配置領域ID」が「001」であることを検出し、図6に示した配置データ管理表において、配置領域に配置されているデータのうちの「配置先」の値が「001」であるデータの「フォント」項目の値が「太ゴシック」であり、かつ「フォントサイズ」項目の値が「24」であるか否かを判断する。「配置先」の値が「001」であるデータの「フォント」項目の値が「太ゴシック」でない、もしくは「フォントサイズ」項目の値が「24」でない場合、次以降の配置領域、例えばIDが「002」である配置領域以降の配置領域についても、パターンAの「データ属性」を満たすデータが検出できるまで、上記と同様の処理を行う。ここでは、「配置先」の値が「001」である「データID」が「DA001」のデータの、「フォント」項目の値が「太ゴシック」であり、かつ「フォントサイズ」項目の値が「24」であるため、このデータ、即ち「データID」が「DA001」であるデータを、順序が一番目のデータとして新たなグループに加える。例えば、グループ別に用意されたバッファ等にこの「データID」もしくは「データ」を蓄積する。この「データID」または「データ」に対して、「順序」に対応する「属性名」を対応付けて蓄積しても良い。また、このとき、新たなグループに対して、グループ名やグループID等を受け付けるようにしても良い。
 次に、グループ化部104は、図8に示した属性指定情報のうちの「順序」が「2」であるレコードの「データ属性」の値、具体的には、パターンBのデータ属性を取得する。そして、このパターンBが示すデータ属性である「フォント=ゴシック,サイズ=12」を有する全てのデータを、ページに配置されているグループ化の対象となる全ての文字列のデータの中から検索する。ここでは、「データID」が「DA002」,「DA009」,「DA016」,「DA021」であるレコードが検索条件を満たすデータであるとして検出される。そして、これらのデータと、「順序」が「1」の属性指定情報に対応するデータとしてグループ化されたデータである「DA001」との距離を算出する。具体的には、図5に示した配置情報管理表のうちの、「DA001」の「配置先」の値と一致する「配置領域ID」を有するレコードの「中心座標x」と「中心座標y」との値を取得する。また、同様に、「データID」が「DA002」,「DA009」,「DA016」,および「DA021」であるデータが配置されている配置領域の「中心座標x」と「中心座標y」との値をそれぞれ取得する。そして、「DA001」のデータの配置領域の中心座標と、「データID」が「DA002」,「DA009」,「DA016」,および「DA021」である各データの配置領域の中心座標との間の距離を、それぞれ算出する。そして、最も距離が短くなる配置領域に配置されたデータを選択する。ここでは、「データID」が「DA002」,「DA009」,「DA016」,および「DA021」である各データのうちの、「データID」が「DA002」であるデータまでの距離が一番短いため、この「データID」が「DA002」であるデータを、「順序」が「1」である属性指定情報に対応するデータである「DA001」と同じグループに加える。例えば、「DA001」のデータと同じグループのバッファ等に、この「データID」が「DA002」であるデータの「データID」もしくは「データ」を蓄積する。
 次に、グループ化部104は、図8に示した属性指定情報のうちの「順序」が「3」であるレコードの「データ属性」の値、具体的には、パターンCのデータ属性を取得する。そして、このパターンCが示すデータ属性を有する全てのデータを、ページに配置されているグループ化の対象となる全ての文字列のデータの中から検索する。ここでは、「データID」が「DA005」,「DA012」であるレコードが検索条件を満たすデータであるとして検出される。そして、これらのデータと、「順序」が「2」の属性指定情報に対応するデータとしてグループ化されたデータである「DA001」との距離を算出する。そして、最も距離が短くなる配置領域に配置されたデータを選択する。ここでは、「データID」が「DA005」であるデータまでの距離が一番短いため、この「データID」が「DA005」であるデータを、「順序」が「2」である属性指定情報に対応するデータである「DA001」と同じグループに加える。
 同様に、グループ化部104は、「順序」が「4」である属性指定情報、および「順序」が「5」である属性指定情報についても、上記と同様に、順次、配置されているデータを選択して、グループに加えていく。
 「順序」が「5」である属性指定情報についてのグループ分けが終了した時点で、次の属性指定情報が存在しないため、一つのグループ分けを終了する。ここでのグループ分けによって、配置領域「001」、「002」、「005」、「006」、及び「007」に配置されるデータ、即ち、「データID」が「DE001」、「DE002」、「DE005」、「DE006」、及び「DE007」であるデータが一つのグループを構成するデータとしてグループ分けされる。
 そして、残りの配置されているデータについても、上記と同様に、「順序」が「1」である属性指定情報が示すデータ属性を満たすデータの検索を行い、検出したデータについて、上記と同様のグループ分けを繰り返す。
 ここで、図4に示した「配置領域ID」が「016」である配置領域に配置されたデータを、「順序」が「2」である属性指定情報が示すデータ属性を満たすデータとしてグループ化した場合について考える。この場合において、つぎに、「順序」が「3」である属性指定情報の「データ属性」の値であるパターンCのデータ属性を取得し、このパターンCが示すデータ属性を有する全てのデータを、ページに配置されているグループ化の対象となる全ての文字列のデータの中から検索したとする。このとき、まだグループ化されていないデータの中から、「データID」が「DA023」であるデータが検索条件を満たすデータであるとして検出されたとする。しかしながら、この場合において、このデータと、「順序」が「3」の属性指定情報に対応するデータとしてグループ化されたデータである「DA016」との距離を算出した結果、得られた値が、予め指定した閾値よりも大きい値、例えば、300ピクセル以上であったとする。この場合、この「データID」が「DA023」であるデータは、「配置領域ID」が「016」である配置領域に配置されたデータと同じグループのデータではないと判断される。この結果、「順序」が「3」の属性指定情報に対応するデータが欠けていると判断される。
 このように判断された場合、次の順序である「順序」が「4」である属性指定情報の「データ属性」の値を取得して、この「データ属性」の値を用いて、上記と同様に「順序」が「4」である属性指定情報に対応したデータのグループ分けを行う。ただし、ここでは、直前の「順序」が「3」である属性指定情報に対応したデータをグループに追加できていないため、「順序」が「3」の直前の「2」である属性指定情報についてグループに加えたデータが配置された領域と、「順序」が「4」である属性指定情報の「データ属性」を満たす各データが配置された領域との距離を、隣接したデータを選ぶ際の、データ間の距離として利用すればよい。
 また、図4に示した「配置領域ID」が「024」である配置領域に配置されたデータを、「順序」が「4」である属性指定情報が示すデータ属性を満たすデータとしてグループ化した場合について考える。この場合において、つぎに、「順序」が「5」である属性指定情報の「データ属性」の値であるパターンDのデータ属性を取得し、このパターンDが示すデータ属性を有する全てのデータを、ページに配置されているグループ化の対象となる全ての文字列のデータの中から検索したとする。このとき、まだグループ化されていないデータの中から、「データID」が「DA023」および「DA025」であるデータが検索条件を満たすデータであるとして検出されたとする。しかしながら、この場合において、「順序」が「4」である属性指定情報が示すデータ属性を満たすデータとしてグループ化されたデータ「DA024」の配置領域と、「データID」が「DA023」および「DA025」であるデータのそれぞれの配置領域との距離が同じであったとする。この場合、「DA024」の配置領域に対する「データID」が「DA023」および「DA025」であるデータが配置される配置領域との方向を検出する。ここでは、「データID」が「DA023」であるデータが上方向に配置され、「データID」が「DA025」であるデータが下方向に配置されていることが検出されたとする。この場合、予め指定されている設定に応じて、下方向のデータである「データID」が「DA025」であるデータを、グループに加える。
 上記のようにしてグループ分けする処理を繰り返し行い、「順序」が「1」である属性指定情報が示すデータ属性を満たすデータが検出されなかった時点で、グループ化部104は、グループ分けの処理を終了する。
 なお、ここでは、終了前に、グループ分けされていないデータを検索する。ここでは、「データID」が「DA023」であるデータが、グループ分けされていないデータとして検出される。このため、このデータを、最も近くに位置するグループに加えるようにする。ここでは、各グループの一番目に登録されたデータと、「データID」が「DA023」であるデータとの距離を算出して比較し、最も距離が短くなるグループに「データID」が「DA023」を加えるようにする。
 図9は、グループ分けされたデータを管理するグループデータ管理表である。「グループID」はグループを識別するための識別情報である。「属性名」は、図7において入力された属性名に対応する情報である。「データ」は、グループ分けされたデータである。
 図10は、ページ上において、「順序」に従って行われるグループ分けが進行する順序と、データのグループとを示す図である。図においては、説明のため配置領域だけを示しており、矢印YG01~YG04は、図9のグループIDであるG01~G04で表されるグループのそれぞれについて、グループ分けの進行する順序を示している。また、点線RG01~RG04は、各グループIDに対応するデータが配置されている領域を示す。
 次に、出力部105は、図9に示したようにグループ分けしたデータを出力する。具体的には、例えば、図11に示すように、一のグループを構成するデータが、上述した属性名を項目として有するデータベースの一のレコードとなるように、グループ分けしたデータをデータベースに蓄積していっても良い。このデータベースは、情報処理装置1が図示しない記憶媒体等に格納していても良いし、外部の装置等に設けられていても良い。
 また、図12に示すように、いわゆるXML形式でグループ分けしたデータを出力しても良い。このとき、「属性名」はタグ名となる。また、グループ別にデータが階層化されているようにする。
 なお、上記具体例において、図13に示すように、領域区切画像の一つである罫線13が配置されている場合、グループ化の対象とするデータの検索は、罫線13で区切られた範囲内で行うようにしてもよい。図14は、領域区切画像格納部109に格納されている領域区切画像を管理する領域区切画像管理表である。この管理表においては、領域区切画像である「画像」、ページ上に配置されている領域区切画像の中心のx座標およびy座標である「x座標」および「y座標」、領域区切画像のサイズである「高さ」および「幅」が管理されている。ここでは「画像」には、領域区切画像の形状を表す情報、ここでは直線が格納されており、この形状に応じたベクトル画像が、ページ上に配置されるものとする。なお、領域区切画像は、ラスタ画像であっても良い。グループ化部104は、グループ化の対象となるデータを検索する際に、領域区切画像が配置されている位置を検出するようにして、領域区切画像が配置されている位置を超えた領域に対する検索を行わない。この結果、グループ化の対象とするデータの検索を、領域区切画像で区切られた範囲内で行うことができる。例えば、図13の場合、罫線13よりも上のデータについてのグループ分けは、罫線13よりも上のデータ間でのみ行われる。また、罫線13よりも下のデータについてのグループ分けは、罫線13よりも下のデータ間でのみ行われる。これにより、より精度良く、データのグループ分けが可能となる。
 以上、本実施の形態によれば、複数の配置領域に配置された複数のデータを、複数のデータの配置情報を用いて算出した距離を用いて、属性指定情報が指定する属性を有するデータ毎に、グループ分けを行うようにしたことにより、レイアウトされたデータをグループ化して出力ことができる。これにより、例えば、一旦レイアウトして配置したデータを、データベースに蓄積したり、XML形式で出力して、他のメディア等に容易に再利用することが可能となる。
 なお、本実施の形態において、グループ化部104は、データに含まれる文字列の配列が、予め指定した配列であるか否かを判断し、予め指定した配列である場合に、当該文字列を、当該文字列が含まれていたデータと同じグループを構成する新たなデータとして取得してもよい。例えば、電話番号やURLや住所等は特徴的な文字の配列を持っている。従って、一のグループを構成するデータに対して、予め指定された上記のような特徴的な文字列を、文字列の検索や文字列の属性の検索やパターンマッチング等を行って検出し、検出された文字列を新たなデータとして、元のデータから取得して、図示しない記憶媒体等に蓄積とともに、この取得したデータを元のデータと同じグループに加えても良い。例えば、電話番号は、複数個の中点またはハイフォンで区切られた10桁の数字という特徴を有している。また、URLは、「HTTP://」という開始の文字列や、「.com」や「.jp」等の特徴的な文字列を有している。また、住所は、一個の中点またはハイフォンで区切られた7桁の数字である郵便番号を含んでいる。従って、このような特徴を持つ文字列を、一のグループにグループ化されたデータのうちの、予め指定された属性のデータのなかで検出し、検出されたデータを新たなデータとして取得して、同じグループに加えるようにしてもよい。
 また、グループ化部104は、データに含まれる文字列に、予め指定した文字列が含まれるか否かを判断し、予め指定した文字列が含まれる場合に、当該文字列により区切られる文字列を、当該文字列が含まれていたデータと同じグループを構成するデータとして取得するようにしてもよい。ここで述べる文字列は一文字も含む概念とする。予め指定した文字列とは、例えば、記号を表す文字や、「電話」、「住所」等の特定の文字列や、外字等の、一のデータに含まれる情報の少なくとも一部を定義する文字列であり、このような文字列、もしくは文字列と句読点等で、データが一以上の要素に区切ることが可能であるとみなす。例えば、電話のマークの外字が検出された位置から、次の句読点が出るまでの文字列を、電話番号のデータと判断して取得し、取得元のデータと同じグループに属する新たなデータとして蓄積するようにしてもよい。
 また、本実施の形態においては、出力部105は、複数の配置領域に配置された複数のデータ内に、順序情報が示す順序に対応したデータが欠落していた場合、ユーザにデータが欠落していることを示す情報を出力するようにしてもよい。具体的には、グループ化部104が、順序情報が示す順序に対応したデータが欠落していたと判断した場合に、データが欠落していたことを示す情報、あるいは、どのグループの、どの属性のデータが欠落していたかを示す情報を出力してもよい。この欠落していたことを示す情報を出力するタイミングは、グループ化部104がデータの欠落を検出した時点や、全てのデータについてグループ化が終了した時点等、どのようなタイミングであっても良い。そして、例えば、このようなデータが欠落していたことを示す情報の出力に応じて図示しない受付部等が受け付けた、欠落したデータの代わりのデータを指定する指示に応じたデータを、グループ化部104が、直前の順序のデータと同じグループに含めるようにしてもよい。
 また、出力部105は、順序情報が示す所定の順序に対応する属性を有する複数のデータが、直前の順序のデータに対して同じ距離に存在していた場合に、グループ分けの候補となるデータが複数存在していることを示す情報を出力するようにしてもよい。このグループ分けの候補となるデータが複数存在していることを示す情報を出力するタイミングは、グループ化部104が複数のデータを検出した時点であることが好ましいが、全てのデータについてグループ化が終了した時点等の他のタイミングであっても良い。そして、例えば、この出力に応じて図示しない受付部が受け付けた、複数存在するデータのいずれかを指定する指示により指定されたデータを、グループ化部104が、直前の順序のデータと同じグループに含めるようにしてもよい。
 なお、本実施の形態において、予め、グループ化の対象から除外されることを指定する属性である除外属性を持つデータについては、グループ化の際に、グループ化の対象から除外するようにしても良い。除外属性とは、具体的には、データに付与されるタグ名あるいはタグの属性や、グループ化の対象としないデータが配置されるフレーム名や、グループ化の対象としないデータのファイル名や、グループ化の対象としないデータに含まれる文字列等のデータの属性や、これらの組み合わせ等である。除外属性は、属性指定情報のいずれかと完全に一致しない、あるいは属性指定情報のいずれかに包含されない属性である必要がある。グループ化部104がグループ化を行う際に、各データが上述した除外属性を有するか否かを判断し、除外属性を有するデータであった場合には、そのデータを、グループ化の際に、除外、具体的には無視するようにしてもよい。特に、このような除外属性を有するデータであるか否かの判断を、属性指定情報に合致する属性を有するデータについて行うようにしても良いし、属性指定情報に合致するデータを検出する処理に先立って、全てのデータに対して行い、除外するデータについては、除外することを示すデータ、いわゆるフラグ等を付与しておくようにしても良い。例えば、フレーム名が「コラム」というフレームに配置されるデータの属性が、K番目の属性指定情報に合致したとしても、「コラム」というフレーム名が除外属性として予めユーザ等により指定されていれば、このフレーム内に配置されるデータを、K番目のデータとしてグループ化しないようにする。また、一旦グループ化を行った後に、これらの除外属性を有するデータを、グループ化したデータの中から検索して、除外するようにしても良い。除外属性は、例えば、図示しない記憶媒体等に記憶される。
 (実施の形態2)
 本実施の形態の情報処理装置は、上記実施の形態において説明した情報処理装置において、配置領域のグループ別や複数の属性指定情報別の、異なる二以上の系統によって、配置領域に配置されているデータをグループ化するようにしたものである。また、各系統でグループ化したデータ間に予め指定された共通するデータが含まれる場合、各系統間にわたって当該データに対応するデータ同士を関連付けるようにしたものである。
 図15は、本実施の形態における情報処理装置のブロック図である。
 情報処理装置2は、データ格納部102、データ属性分類部106、順序受付部107、順序決定部108、領域区切画像格納部109、配置情報格納部201、属性指定情報格納部202、グループ化部203、関連検出部204、関連検出用情報格納部205、および出力部206を具備する。
 データ格納部102、データ属性分類部106、順序受付部107、順序決定部108、および領域区切画像格納部109の構成および動作等については、上記実施の形態1と同様であるので、ここでは説明を省略する。
 なお、データ属性分類部106、順序受付部107、および順序決定部108等は、後述するように、配置領域が複数のグループに分けられている場合においては、配置領域の複数のグループ別に、データ属性の分類を行ったり、属性に対する順序の指定を受け付けたり、データの属性に対する順序を決定したりして、配置領域のグループ別に属性指定情報を作成し、属性指定情報格納部202に蓄積するようにしても良い。
 また、配置領域が複数のグループに分けられているか否かに関わらず、順序受付部107および順序決定部108は、属性に対する順序の指定を複数受け付けたり、データの属性に対する順序を複数決定したりして、属性指定情報を複数作成し、属性指定情報格納部202に蓄積するようにしても良い。
 配置情報格納部201には、複数の配置領域のグループにグループ分けされた配置領域を設定する配置情報が格納されている。配置領域のグループを、以下、配置領域グループと呼ぶ。複数の配置領域グループは、同じ配置領域を重複して含んでいても良い。例えば、配置情報格納部201に格納されている配置情報は、各配置領域が属するグループを指定する情報である領域グループ指定情報と対応付けられて格納されている。例えば「A」という領域グループ指定情報が付与されている配置情報は、グループAに属する配置領域を設定する配置情報であり、「B」という領域グループ指定情報が付与されている配置情報は、グループBに属する配置領域を設定する配置情報であってもよい。領域グループ指定情報は、配置領域の識別情報と対応付けられて配置情報格納部201や図示しない他の格納部等に格納されていても良い。これ以外の構成や実現手段等については、上記実施の形態の配置情報格納部と同様であるので説明は省略する。
 属性指定情報格納部202には、異なる複数の属性指定情報が格納され得る。属性指定情報については、上記実施の形態において説明した属性指定情報と同様である。異なる属性指定情報は、例えば少なくとも、指定する属性の一つ以上が異なる属性指定情報であれば良く、同じ属性の指定等が重複していても良い。また、複数の属性指定情報に含まれる上述した順序情報等が異なるものであって良い。これ以外の構成や実現手段等については、上記実施の形態の属性指定情報格納部と同様であるので説明は省略する。
 グループ化部203は、複数の配置領域グループのそれぞれを構成する配置領域に配置された複数のデータに対して、配置領域グループ別にそれぞれグループ分けを行う。即ち、一の配置領域グループに対して行うグループ分けを一系統のグループ分けと考えると、グループ化部203は、配置領域グループ別に、異なる系統のグループ分けを行う。例えば、複数の配置領域が、領域グループ指定情報等により、第一の配置領域と、第二の配置領域にそれぞれグループ分けされている場合、第一の配置領域と、第二の配置領域とのそれぞれについて個別に、上記実施の形態1のグループ化部203と同様に、グループ化部203は、グループ分けの処理を行う。配置領域グループ別にグループ分けされたデータは、例えば配置領域グループ別に蓄積されても良い。また、どの配置領域グループに対して行われたグループ分けの処理の結果、グループ分けされたデータであるかを示すフラグ等の情報が、グループ分けされたデータに付与されても良い。
 また、グループ化部203は、属性指定情報格納部202に格納されている複数の属性指定情報をそれぞれ用いた場合について、配置領域に配置されたデータに対するグループ分けを行うようにしてもよい。即ち、一の属性指定情報を用いて行うグループ分けを一系統のグループ分けと考えると、グループ化部203は、属性指定情報別に、異なる系統のグループ分けを行うようにしてもよい。例えば、グループ化の対象となっている配置領域に配置されているデータを、複数の属性指定情報を構成する各属性指定情報をそれぞれ個別に用いて、グループ分けしていくようにしてもよい。グループ化の対象となっている配置領域とは、具体的には、一のページや、一のドキュメント上に配置されている配置領域等である。例えば、第一および第二の属性指定情報が属性指定情報格納部202に格納されている場合、一のページについて、第一の属性指定情報を用いてデータのグループ分けを行い、さらに、同一のページについて、第二の属性指定情報を用いてデータのグループ分けを行うようにしても良い。なお、上述した領域グループ指定情報等が指定する複数の配置領域グループのそれぞれを構成する配置領域が、グループ化の対象となっている各配置領域であってもよい。例えば、グループ化部203は、第一および第二の属性指定情報が属性指定情報格納部202に格納されており、配置情報格納部201に第一および第二の配置領域グループにグループ分けされた配置領域を指定する配置情報が格納されている場合、第一の配置領域グループについて、第一の属性指定情報と第二の属性指定情報とを用いたデータのグループ分けを個別に行い、さらに、第二の配置領域グループについても、第一の属性指定情報と第二の属性指定情報とを用いたデータのグループ分けをそれぞれ行うようにしても良い。
 また、グループ化部203は、属性指定情報格納部202に複数の属性指定情報が格納されている場合において、複数の配置領域グループにそれぞれ配置された複数のデータに対して、それぞれ異なる属性指定情報を用いてグループ分けを行うようにしてもよい。例えば、第一の配置領域グループについて、第一の属性指定情報を用いたデータのグループ分けを個別に行い、さらに、第二の配置領域グループについては、第二の属性指定情報とを用いたデータのグループ分けを行うようにしても良い。
 また、グループ化部203が、複数の配置領域グループ別にデータのグループ化を行う処理や、複数の属性指定情報別にデータのグループ化を行う処理は、並列処理するようにしても良いし、順番に行うようにしても良い。
 なお、グループ化部203が行うグループ分け自体の処理やその他の処理等については、上述した実施の形態のグループ化部104の処理と同様である。グループ化部203は、通常、MPUやメモリ等から実現され得る。グループ化部203の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
 関連検出部204は、配置領域の複数のグループ別にデータのグループ分けが行われる場合、グループ化部203が複数の配置領域グループ別にそれぞれグループ分けしたデータについて、ユーザ等により予め指定された共通するデータを検出する。共通するデータとは、異なる配置領域グループ間において共通して存在しているデータである。具体的には、関連検出部204は、ユーザ等により予め指定されたデータであって、複数の配置領域グループ毎にグループ分けされたデータに共通して存在しているデータを、各配置領域グループ毎にグループ分けされたデータ内において検出する。検出するデータは、例えば文字列や画像データ等である。画像データは静止画像であっても動画像であっても良い。画像データの検出は、例えば、画像データのファイル名等の識別情報や画像サイズ等の属性値等を用いて行われる。例えば、関連検出部204は、グループ化部203が複数の配置領域グループのそれぞれからグループ分けしたデータについて、予め指定されたデータの検出を行う。そして、一の配置領域グループについてグループ分けされたデータのいずれかに、指定されたデータを検出した場合、他の配置領域グループについても、それぞれ、グループ分けされたデータのいずれかに、検出されたデータと一致する文字列が存在するか否かを判断し、存在する場合、この文字列を共通するデータとして検出する。具体的には、第一の配置領域グループについてグループ分けしたデータと、第二の配置領域グループについてグループ分けしたデータとのそれぞれについて、予め指定した文字列等のデータの検出を行う。そして、例えば第一の配置領域グループについてグループ分けしたデータに、予め指定した文字列等のデータが検出された場合、第二の配置領域グループについてグループ分けしたデータのいずれかに、検出された文字列等のデータに一致する文字列等のデータが検出されるか否かを判断する。一致する場合、この文字列等のデータを共通するデータとして検出する。なお、検出対象となるデータが一つのみである場合には、一致するか否かの判断は省略して良い。
 また、関連検出部204は、複数の属性指定情報別にデータのグループ分けが行われる場合、グループ化部203が複数の属性指定情報別にそれぞれグループ分けしたデータについて、予め指定された共通するデータを検出する。共通するデータとは、異なる属性指定情報を用いてグループ分けしたデータ間において共通して存在しているデータである。具体的には、関連検出部204は、ユーザ等により予め指定されたデータであって、複数の属性指定情報毎にグループ分けされたデータに共通して存在しているデータを、各属性指定情報毎にグループ分けされたデータ内において検出する。例えば、関連検出部204は、グループ化部203が複数の属性指定情報をそれぞれ用いてグループ分けしたデータについて、予め指定したデータの検出を行う。そして、予め指定したデータを検出した場合、他の属性指定情報を用いてグループ分けされたデータについてもそれぞれ、グループ分けされたデータのいずれかに、検出したデータと一致するデータが存在する否かを関連検出部204が判断する。そして、存在する場合、関連検出部204は、このデータを共通する文字列として検出する。具体的には、第一の属性指定情報を用いてグループ分けしたデータと、第二の属性指定情報を用いてグループ分けしたデータとのそれぞれについて、関連検出部204は、予め指定した文字列等のデータの検出を行う。そして、例えば第一の属性指定情報を用いてグループ分けしたグループに指定した文字列等のデータが検出された場合、第二の属性指定情報を用いてグループ分けしたグループのいずれかに、検出された文字列等のデータに一致する文字列等のデータが存在するか否かを、関連検出部204が判断する。関連検出部204は、一致する文字列等のデータが検出された場合、この文字列等のデータを共通するデータとして検出する。なお、検出対象となるデータが一つのみである場合には、一致するか否かの判断は省略して良い。
 予め指定された文字列や画像等のデータは、例えば、後述する関連検出用情報格納部205に予め蓄積されるデータ指定情報で指定されるデータである。関連検出部204は、このデータ指定情報を、関連検出用情報格納部205から適宜読み出して、文字列等のデータの検出を行うようにすればよい。データ指定情報は、例えば、データが文字列である場合、文字列そのものを指定する情報であっても良いし、文字列の一部を正規化表現とした文字列であってもよい。即ち文字列の一部をいわゆるワイルドカード化した文字列であっても良い。あるいは文字列を指定するためのルール等で文字列を指定する情報であっても良い。例えばデータ指定情報は、「(1)」や「目的」等の文字列であっても良いし、「[a-z]+」(aからzまでの文字列の繰り返し)等の正規化表現を用いて文字列を指定する情報であっても良い。この場合、「(a)」や「(b)」という文字列を、データ指定情報が指定するものとなる。あるいはデータ指定情報は、「数字の前の連続した漢字」を文字列として指定する情報等のような、データを指定するルールを示す情報であっても良い。この場合、関連検出部204は、例えば、形態素解析等により、文字の種類等を検出して、ルールに適合した文字列を検出する。なお、形態素解析等については公知技術であるので説明は省略する。また、検出した文字列同士が一致するか否かは、例えば、パターンマッチング等で行われる。なお、ここで述べる文字列とは一文字であっても良い。また、データが画像である場合、画像データ自身が一致するか否かを判断するようにしても良い。また、配置領域に配置されている画像のファイル名等の識別情報や画像サイズ等の属性値等は、通常、文字列により構成されるため、データが文字列である場合と同様のデータ指定情報を用いることで、データのファイル名等の識別情報の指定が行っても良い。例えば、データが画像データである場合、データ指定情報は、指定する画像データそのものや、指定する画像データのファイル名やその一部であっても良いし、画像データの拡張子であっても良い。また、指定する画像データの識別情報等であっても良いし、指定する画像データのファイルサイズや画像の大きさ等を指定する情報であっても良い。なお、ここでの一致は、通常は完全一致であるが、必要に応じて適宜部分一致を用いるようにしても良い。
 関連検出部204が文字列等のデータの検出を行うタイミング等は問わない。関連検出部204は、例えば、一の配置領域に配置されているデータが、いずれかのグループにグループ分けされるかが判断された時点で、予め指定された文字列等のデータの検出を行っても良いし、全てのデータのグループ分けが行われた時点で、予め指定された文字列等のデータの検出を行っても良い。関連検出部204は、通常、MPUやメモリ等から実現され得る。関連検出部204の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
 関連検出用情報格納部205には、上述したデータ指定情報が一以上格納され得る。関連検出用情報格納部205に、データ指定情報が蓄積される過程等は問わない。データ指定情報は、例えば、ユーザ等から図示しない入力手段等を介して入力され、図示しない蓄積部等により関連検出用情報格納部205に蓄積される。関連検出用情報格納部205は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
 出力部206は、上述した出力部105と同様に、グループ化部203がグループ分けしたデータを出力する。さらに、関連検出部204が検出した予め指定された共通するデータに関連するデータ同士をそれぞれ関連付けて出力する。例えば、出力部206は、関連検出部204が共通する文字列等のデータを検出した場合、この検出したデータに関連するデータ同士を対応付けることが可能なデータの出力を行う。共通するデータに関連するデータは、共通するデータ自身であっても良いし、共通するデータの前後に配置されているデータであっても良いし、共通するデータを含む段落や共通するデータと同じ配置情報内に配置されている全てのデータ等であってもよい。また、共通するデータに関連するデータは、共通するデータを含むグループ分けされたグループのデータであっても良い。検出されたデータと、関連するデータとの関連は、どのような関連であっても良い。データ同士を関連付けて出力するということは、データ同士が直接関連付けて出力されることであっても良いし、間接的に関連付けて出力されることであっても良い。例えば、共通するデータに関連するデータ同士を関連付けて出力することであっても良いし、共通するデータに関連するデータを含むグループ分けされたグループ同士を関連付けて出力することであっても良い。また、共通するデータに関連するデータと同じ配置情報内や同じ段落等に配置されているデータ同士を関連付けて出力することであっても良い。また、出力部206は、データ同士をどのように関連付けて出力しても良い。例えば、出力部206は、関連するデータや、データを含む段落や、データと同じ配置領域に配置されるデータや、データを含むグループに、共通する識別情報や、相互に参照可能な識別情報や、リンク情報等を付与した、例えば埋め込んだグループ分けしたデータを出力しても良い。また、出力部206は、関連するデータや、データを含む段落や、データと同じ配置領域に配置されるデータや、データを含むグループに付与された識別情報等を、対応付けて管理する管理情報等を出力しても良い。なお、これらの構成以外の出力部206の構成や実現手段等については、上述した出力部105と同様であるので、ここでは説明を省略する。
 次に,本実施の形態の情報処理装置2の動作について、図16のフローチャートを用いて説明する。ここでは、配置領域が予め複数の配置領域グループに分けられている場合について説明する。また、ここでは例として、データ指定情報が、指定するデータと完全一致するデータである場合について説明する。なお、データが画像である場合は、画像のファイル名等の識別情報が一致するか否かを判断してもよい。
 (ステップS1601)データ属性分類部106は、カウンターnに1を代入する。
 (ステップS1602)データ属性分類部106は、n番目の配置領域グループを構成する配置領域に配置されているデータについて、予め指定されている属性の値を順次取得する。配置領域がどのグループに属しているかは、例えば配置情報や領域グループ指定情報等から検出する。取得する処理は、上述した図2のステップS201の処理と同様であるので、詳細な説明は省略する。
 (ステップS1603)情報処理装置2のデータ属性分類部106や、出力部206や、順序受付部107等は、n番目の配置領域グループについての属性指定情報を取得し、n番目の配置領域グループと対応付けて蓄積する。例えば、配置領域グループを示す識別情報と対応付けて蓄積しても良いし、領域グループ指定情報と対応付けて蓄積しても良い。なお、この処理は、図2のステップS202からステップS205までの処理と同様の処理であるので、詳細な説明は省略する。なお、この処理において、複数の順序の指定を受け付けるようにし、受け付けた順序の指定毎に属性指定情報を取得し、蓄積するようにしても良い。
 (ステップS1604)データ属性分類部106は、カウンターnを1インクリメントする。
 (ステップS1605)データ属性分類部106は、n番目の配置領域グループが存在するか否かを判断する。存在する場合、ステップS1602に戻り、存在しない場合、ステップS1606に進む。
 (ステップS1606)グループ化部203は、カウンターmに1を代入する。
 (ステップS1607)グループ化部203は、m番目の配置領域グループに対応した属性指定情報を取得する。
 (ステップS1608)情報処理装置2のグループ化部203や出力部206等は、m番目の配置領域グループについて、ステップS1607において取得した属性指定情報を用いて、データをグループ分けする処理を行う。なお、処理対象の配置領域が、m番目の配置領域グループであり、グループ分けに利用する属性指定情報が、ステップS1607で取得した属性指定情報である点を除けば、この処理は、図2のステップS207から、ステップS222までの処理と同様であるので説明は省略する。なお、m番目の配置領域グループに対応する属性指定情報が複数存在する場合、それぞれの属性指定情報を用いた場合についてグループ分けを行うようにしても良い。なお、グループ分けしたデータは、図示しないメモリやハードディスク等の記憶媒体等に一時記憶される。
 (ステップS1609)グループ化部203は、カウンターmの値を1インクリメントする。
 (ステップS1610)グループ化部203は、m番目の配置領域グループが存在するか否かを判断する。存在しない場合、ステップS1611に進み、存在する場合、ステップS1607に戻る。
 (ステップS1611)関連検出部204は、カウンターpに1を代入する。
 (ステップS1612)関連検出部204は、関連検出用情報格納部205から、p番目のデータ指定情報を取得する。
 (ステップS1613)関連検出部204は、p番目のデータ指定情報を用いて検索等を行い、p番目のデータ指定情報が指定する文字列等のデータが、ステップS1608においてグループ化部203がグループ化したデータのいずれに存在するか否かを判断する。存在する場合、ステップS1614に進み、存在しない場合、ステップS1617に進む。
 (ステップS1614)関連検出部204は、ステップS1613において検出された文字列等のデータを含むデータが配置されていた配置領域が属していた配置領域グループとは異なる配置領域グループについてグループ分けされたデータについて、ステップS1613において存在すると判断された文字列等のデータと一致するデータを検索する。なお、ここでは、配置領域グループ別に、属性指定情報が用意されているため、このステップの処理は、ステップS1613において検出されたデータを含むデータのグループをグループ分けした際に用いた属性指定情報とは、異なる属性指定情報を用いてグループ分けされたデータについて、ステップS1613において存在すると判断された文字列等のデータと一致するデータを検索する処理と考えても良い。
 (ステップS1615)関連検出部204は、ステップS1614において、異なる配置領域グループについてグループ分けされたデータのいずれかに、ステップS1613において検出された文字列等のデータと一致するデータが検出できたか否かを判断する。検出できた場合、ステップS1616に進み、検出できなかった場合、ステップS1617に進む。
 (ステップS1616)出力部206は、グループ分けされたデータのうちの、ステップS1613で検出したデータに対応するデータと、ステップS1614で検索されたデータに対応するデータとを関連付ける。例えば、それぞれの文字列等のデータが属するグループ分けされたグループの識別情報同士を対応付けて管理する管理情報を作成する。これにより、文字列に対応するデータを関連付けたこととなる。
 (ステップS1617)関連検出部204は、カウンターpを1インクリメントする。
 (ステップS1618)関連検出部204は、p番目のデータ指定情報があるか否かを判断する。ある場合、ステップS1612に戻り、ない場合、ステップS1619に進む。
 (ステップS1619)出力部206は、ステップS1608でグループ化したデータを出力する。また、ステップS1614において関連付けたデータを出力する。この関連付けたデータは、関連付けたデータの種類等によっては、ステップS1608でグループ化したデータに埋め込んで出力しても良い。そして、処理を終了する。
 なお、複数の属性指定情報を用いてそれぞれデータのグループ分けが行われた場合、ステップS1614においては、ステップS1613において検出された文字列を含むデータのグループをグループ分けした際に用いた属性指定情報とは、異なる属性指定情報を用いてグループ分けされたデータについて、ステップS1613において存在すると判断された文字列と一致する文字列を検索する処理を行うようにしてもよい。
 また、正規化表現等を用いたデータ指定情報やデータを指定するルールを示すデータ指定情報のように、一のデータ指定情報で複数のデータが指定可能なデータ指定情報を用いる場合、ステップS1613等で一の予め指定されたデータが検出されたとしても、他の異なるデータが残りのグループ化されたデータ内で、検出される可能性があるため、当該一のデータ指定情報を用いた検出処理を、残りのデータに対しても、繰り返し行うようにして良い。
 以下、本実施の形態の情報処理装置2の具体例について説明する。なお、ここでは、配置領域が第一及び第二の2つのグループにグループ分けされており、配置領域の各グループに対応する第一属性指定情報と第二属性指定情報とが既に属性指定情報格納部202に格納されている場合を例に挙げて説明する。なお、配置領域の第一及び第二のグループに対応する属性指定情報を登録する処理の具体例は、上記実施の形態の具体例において示した、配置領域に対して属性指定情報を設定する処理を、第一のグループの配置領域と、第二のグループの配置領域について、順番に実行すればよいため、ここでは説明を省略する。また、ここでは、一例として、データ指定情報は、文字列のデータを指定する情報であって、完全一致する文字列を指定する情報であるとする。
 図17は、グループ化の対象となるデータが配置されたページを示す図である。図においては、複数の配置領域にデータが配置されている。配置領域の右上に隣接して表示されている番号は、配置領域のID(識別情報)である。ここでは、配置領域IDは、配置情報のIDと共通であるとする。なお、IDは説明の便宜上表示しているものであり、実際には表示する必要はない。また、配置領域は、図において点線で囲まれているような二つの配置領域グループにグループ分けされている。ここでは、配置領域グループを、第一配置領域グループ1701および第二配置領域グループ1702と呼ぶ。各配置領域を示す配置情報は、ここでは図示しないが、図5に示した配置情報管理表と同様の配置情報管理表により管理されている。
 図18は、各配置領域がどの配置領域グループに属するかを指定する領域グループ指定情報を管理する領域グループ指定情報管理表である。領域グループ指定情報管理表は、例えば、配置情報格納部201等に格納されている。領域グループ指定情報管理表は、「配置領域ID」と「グループID」とを有している。「配置領域ID」は配置領域のIDである。「グループID」は、配置領域の属するグループのIDであり、値「1」は第一配置領域グループ1701に属していることを示し、値「2」は第二配置領域グループ1702に属していることを示す。なお、領域グループ指定情報管理表は、図5に示したような、配置領域を管理する配置情報管理表に結合されていても良い。
 図19は、配置情報格納部101に格納されているデータであって、図17に示した配置領域に配置されているデータを管理する配置データ管理表である。配置データ管理表は、図6に示した配置データ管理表と同様の管理表である。
 上述したように、ここで、属性指定情報格納部202には、第一配置領域グループ1701に対応した属性指定情報である第一属性指定情報と、第二配置領域グループ1702に対応した第二属性指定情報とがそれぞれ格納されているものとするため、グループ化部203は、第一属性指定情報を読み出し、第一配置領域グループ1701を構成する配置領域、即ちグループIDが「1」である配置領域に配置されているデータについて、上述した実施の形態と同様のグループ分けする処理を行う。また、グループ化部203は、第二属性指定情報を読み出し、第一配置領域グループ1701を構成する配置領域、即ちグループIDが「2」である配置領域に配置されているデータについて、上述した実施の形態と同様のグループ分けする処理を行う。この第一配置領域グループ1701についてのグループ分けの処理と、第二配置領域グループ1702についてのグループ分けの処理とは、ここでは例として並列処理で行われるものとする。
 このグループ化の処理により、第一配置領域グループ1701を構成する配置領域に配置されたデータについては、「配置領域ID」が「001」および「002」である配置領域に配置されたデータの組、「配置領域ID」が「003」および「004」である配置領域に配置されたデータの組、「配置領域ID」が「005」および「006」である配置領域に配置されたデータの組、「配置領域ID」が「007」および「008」である配置領域に配置されたデータの組が、それぞれ、個別のグループにグループ分けされたとする。
 また、第二配置領域グループ1702を構成する配置領域に配置されたデータについては、「配置領域ID」が「009」および「010」である配置領域に配置されたデータの組、「配置領域ID」が「011」および「012」である配置領域に配置されたデータの組、「配置領域ID」が「013」および「014」である配置領域に配置されたデータの組、「配置領域ID」が「015」および「016」である配置領域に配置されたデータの組が、それぞれ、個別のグループにグループ分けされたとする。
 これらのグループ分けされたデータの、第一配置領域グループ1701を構成する配置領域に配置されていたデータについては、例えば、第一配置領域グループ1701についてグループ分けされたデータであることを示す情報が付与されて、図20に示すように、図示しないメモリ等の記憶媒体に一時記憶される。また、第二配置領域グループ1702を構成する配置領域に配置されていたデータについては、例えば、第二配置領域グループ1702についてグループ分けされたデータであることを示す情報が付与されて、図21に示すように、図示しないメモリ等の記憶媒体に一時記憶される。図20および図21は、図9に示したグループデータ管理表と同様の、一時記憶されたグループデータの管理表である。グループIDが同じデータは、同じグループに属するデータである。なお、ここでは、第一配置領域グループから構成されたグループには先頭が「A」であるグループIDが付与されており、第二配置領域グループから構成されたグループには先頭が「B」であるグループIDが付与されているものとする。この「A」、「B」が、どのグループについてグループ分けされたかを示す情報である。
 次に、関連検出部204は、関連検出用情報格納部205に格納されている一のデータ指定情報を取得し、当該データ指定情報が指定する文字列を、グループ化部203がグループ分けしたデータ内において検出する。
 図22は、関連検出用情報格納部205に格納されているデータ指定情報を示す図である。ここでは、データ指定情報は、図22に示すように、「(1)、(2)、(3)、(4)」の文字であるとする。
 まず、関連検出部204は、1番目のデータ指定情報である「(1)」の文字を取得し、当該「(1)」と一致する文字をグループ化部203がグループ分けしたデータ内において検索する。
 ここで、例えば、図20に示したような第一配置領域グループ1701に対応するグループデータ管理表において、「(1)」の文字列を含む「データ」を検出すると、「A01」という「グループID」と対応付けられた「データ」の中に、「ブランド:エースタイガー(1)」という「(1)」という文字列を含むレコードが検出される。
 このため、関連検出部204は、図21に示すような第二配置領域グループ1702に対応するグループデータ管理表において、同様に、「(1)」の文字列を含む「データ」を検出すると、「B01」という「グループID」と対応付けられたデータの中に、「(1)セレクトショップエース」という「(1)」という文字列を含むレコードが検出される。この結果、第一配置領域グループ1701についてグループ分けされたデータと、第二配置領域グループ1702についてグループ分けされたデータとに、予め指定された共通するデータが存在することとなる。
 このため、出力部206は、関連検出部204が検出したグループID「A01」と、グループID「B01」とを対応付けたレコードを有する、グループ分けされたデータの関連付けを管理する関連グループ管理表を生成し、図示しない記憶媒体等に蓄積する。
 図23は、出力部206が生成した関連グループ管理表を示す図である。関連グループ管理表は、「第一グループID」と「第二グループID」という項目を有している。「第一グループID」は、第一配置領域グループ1701について構成されたデータのグループのグループIDである。また、「第二グループID」は、第二配置領域グループ1702について構成されたデータのグループのグループIDである。
 以下、同様に、データ指定情報「(2)」、「(3)」、および「(4)」についても、データ指定情報「(1)」の場合と同様の処理を繰り返して、データ指定情報が指定するデータを共通に含むグループ分けされたデータの関連付けを行う。この結果、図24に示すような関連グループ管理表が得られる。なお、データの関連付けは、必ずしも1対1でなくても良く、1対多であっても、多対1であってもよい。例えば一の第一グループIDが、二つの第二グループIDにそれぞれ関連付けられてもよい。
 そして、出力部206は、図示しない記憶媒体等に格納した図20および図21に示すようなグループデータ管理表でそれぞれ管理されている、第一配置領域グループ1701についてグループ化されたデータおよび第二配置領域グループ1702についてグループ化されたデータと、図24に示す関連グループ管理表とを対応付けて出力する。例えば、これらのデータを一つのフォルダにまとめたデータを、図示しない記憶媒体等に蓄積しても良いし、これらのデータを、データベース等に登録しても良い。
 以上のように、本実施の形態によれば、複数の配置領域グループに対して個別にデータのグループ分けを行うことができる。このため、例えば一のページやドキュメント等に配置されているグループ分けの対象となるデータに対して、データが配置されている配置領域に応じて異なる系統によるデータのグループ化が可能となり、例えば、一のページやドキュメント等からデータの用途に応じた複数のパターンでグループ分けしたデータを取得することができる。
 また、本実施の形態によれば、複数の属性指定情報別にデータのグループ分けを行うことができる。このため、例えば一のページやドキュメント等に配置されているグループ分けの対象となるデータに対して、データの属性に応じて異なる系統によるデータのグループ化が可能となり、例えば、一のページやドキュメント等からデータの用途に応じた複数のパターンでグループ分けしたデータを取得することができる。
 また、本実施の形態によれば、複数の配置領域グループ別にグループ化されたデータに、予め指定された共通するデータに関連するデータが、同士をそれぞれ関連付けて出力する
 また、本実施の形態によれば、複数の配置領域グループ別や複数の属性指定情報別にそれぞれグループ分けしたデータ間において、予め指定された共通するデータが検出された場合に、当該共通するデータに関連するデータ同士をそれぞれ関連付けて出力するようにしたことにより、例えば、配置領域グループ別にグループ化されたデータや、異なる属性指定情報を用いてそれぞれグループ化されたデータ間の、関連性のあるデータ同士を関連付けることができる。これにより、通常は異なる系統でグループ化されたデータを個別に取り扱うことができるとともに、適宜必要な場合に、この関連付けを利用することで、異なる系統でグループ化されたデータ間から関連のあるデータを適宜抽出して利用することが可能となり、配置されたデータを再利用する場合等において、データの利便性を高めることができる。
 なお、本実施の形態においては、配置領域グループが複数存在し、かつ、属性指定情報が複数存在している場合について説明したが、本願は、配置領域グループだけが複数存在している場合、あるいは属性指定情報だけが複数存在している場合においても適用できるものであり、このような場合においても上記実施の形態と同様の効果を奏する。
 また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
 また、上記各実施の形態において、一の装置に存在する2以上の通信手段(情報送信部など)は、物理的に一の媒体で実現されても良いことは言うまでもない。
 また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりする情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。
 また、上記各実施の形態では、情報処理装置がスタンドアロンである場合について説明したが、情報処理装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、画面を出力したりすることになる。
 また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。
 なお、上記各実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、データ格納部に格納された複数のデータをそれぞれ配置するための領域である複数の配置領域に配置された複数のデータを、当該複数のデータの配置領域を設定する情報であって、配置情報格納部に格納されている情報である配置情報を用いて、一のグループに分類される複数のデータの属性を指定する情報であって、属性指定情報格納部に格納されている情報である属性指定情報が指定する属性を有するデータ毎に、グループ分けするグループ化部と、前記グループ化部がグループ分けしたデータを、出力する出力部として機能させるためのプログラムである。
 なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。
 また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
 図25は、上記プログラムを実行して、上記実施の形態による情報処理装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
 図25において、コンピュータシステム900は、CD-ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。
 図26は、コンピュータシステム900の内部構成を示す図である。図26において、コンピュータ901は、CD-ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
 コンピュータシステム900に、上記実施の形態による情報処理装置の機能を実行させるプログラムは、CD-ROM921、またはFD922に記憶されて、CD-ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD-ROM921やFD922、またはネットワークから直接、ロードされてもよい。
 プログラムは、コンピュータ901に、上記実施の形態による情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
 本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
 以上のように、本発明にかかる情報処理装置等は、出版用にレイアウトされた文字列や画像のデータを再利用する際に適しており、特に、データをグループ分けして取り出して再利用する装置等として有用である。
本発明の実施の形態1にかかる情報処理装置のブロック図 同情報処理装置の動作について説明するフローチャート 同情報処理装置の動作を説明するための、グループ化の対象となるデータが配置される配置領域が指定されたページを示す図 同情報処理装置の動作を説明するための、配置領域に、グループ化の対象となるデータを配置して構成したページを示す図 同情報処理装置の配置情報管理表の一例を示す図 同情報処理装置の配置データ管理表の一例を示す図 同情報処理装置の入力インターフェース画面の一例を示す図 同情報処理装置の属性指定情報の一例を示す図 同情報処理装置のグループデータ管理表を示す図 同情報処理装置におけるグループ分けが進行する順序と、データのグループとを示す図 同情報処理装置の出力の一例を示す図 同情報処理装置の出力の一例を示す図 同情報処理装置の処理の変形例を示す図 同情報処理装置の領域区切画像管理表の一例を示す図 本発明の実施の形態2にかかる情報処理装置のブロック図 同情報処理装置の動作について説明するフローチャート 同情報処理装置の動作を説明するための、配置領域に、グループ化の対象となるデータを配置して構成したページを示す図 同情報処理装置の領域グループ指定情報管理表の一例を示す図 同情報処理装置の配置データ管理表の一例を示す図 同情報処理装置のグループデータの管理表の一例を示す図 同情報処理装置のグループデータの管理表の一例を示す図 同情報処理装置のデータ指定情報の一例を示す図 同情報処理装置の関連グループ管理表の一例を示す図 同情報処理装置の関連グループ管理表の一例を示す図 同実施の形態におけるコンピュータシステムの外観一例を示す模式図 同実施の形態におけるコンピュータシステムの構成の一例を示す図

Claims (17)

  1. 複数のデータをそれぞれ配置するための領域である複数の配置領域を設定する情報である配置情報が格納され得る配置情報格納部と、
    前記複数の配置領域に配置された複数のデータが格納され得るデータ格納部と、
    一のグループに分類される複数のデータの属性を指定する情報である属性指定情報が格納され得る属性指定情報格納部と、
    前記複数の配置領域に配置された複数のデータを、当該複数のデータの配置情報を用いて、前記属性指定情報が指定する属性を有するデータ毎に、グループ分けするグループ化部と、
    前記グループ化部がグループ分けしたデータを出力する出力部とを備えた情報処理装置。
  2. 前記属性指定情報は、さらに、一のグループを構成する複数のデータの属性の順序を示す順序情報を含み、
    前記グループ化部は、前記複数の配置領域に配置された複数のデータのうちの、前記属性指定情報により指定された属性を有するデータであって、前記順序情報が示す順序に従って順次隣接して配置されるデータを取得して、グループ分けを行う請求項1記載の情報処理装置。
  3. 前記グループ化部は、前記配置情報を用いて取得した前記配置領域間の距離が最も近いデータを、前記隣接して配置されるデータであると判断する請求項2記載の情報処理装置。
  4. 前記配置領域に配置されたデータの属性を取得し、当該データの属性を分類するデータ属性分類部と、
    データ属性分類部が分類したデータの属性に対する順序の指定を受け付け、当該受け付けた順序を示す情報である前記順序情報と、前記データの属性とを有する前記属性指定情報を、前記属性指定情報格納部に蓄積する順序受付部と、をさらに備えた請求項2または請求項3記載の情報処理装置。
  5. 前記配置領域に配置されたデータの属性を取得し、当該データの属性を分類するデータ属性分類部と、
    データ属性分類部が分類したデータの属性のうちの、文字のサイズに応じて、データの属性に対する順序を決定し、当該決定した順序を示す情報である前記順序情報と、前記データの属性とを有する前記属性指定情報を、前記属性指定情報格納部に蓄積する順序決定部と、をさらに備えた請求項2または請求項3記載の情報処理装置。
  6. 前記グループ化部は、前記複数の配置領域に配置された複数のデータ内に、前記順序情報が示す順序に対応したデータが欠落していた場合、次の順序のデータを取得する請求項2から請求項5いずれか記載の情報処理装置。
  7. 前記出力部は、前記複数の配置領域に配置された複数のデータ内に、前記順序情報が示す順序に対応したデータが欠落していた場合、ユーザにデータが欠落していることを示す情報を出力する請求項2から請求項6いずれか記載の情報処理装置。
  8. 前記グループ化部は、前記順序情報が示す所定の順序に対応する属性を有する複数のデータが、直前の順序のデータに対して同じ距離に存在していた場合に、当該複数のデータのうちの、直前の順序のデータに対して予め指定された所定の方向に位置するデータを、直前の順序のデータと同じグループにグループ分けする請求項2から請求項7いずれか記載の情報処理装置。
  9. 前記出力部は、前記順序情報が示す所定の順序に対応する属性を有する複数のデータが、直前の順序のデータに対して同じ距離に存在していた場合に、グループ分けの候補となるデータが複数存在していることを示す情報を出力する請求項8記載の情報処理装置。
  10. 前記データが配置される領域を区切るために配置される画像である領域区切画像の情報である領域区切画像情報が格納され得る領域区切画像格納部をさらに具備し、
    前記グループ化部は、前記領域区切画像情報が示す領域区切画像で区切られた領域に配置される複数のデータを、前記属性指定情報が指定する属性を有するデータ毎に、グループ分けする請求項1から請求項9いずれか記載の情報処理装置。
  11. 前記グループ化部は、いずれのグループにもグループ分けされずに残ったデータを、距離が最も近いグループに付加する請求項1から請求項10いずれか記載の情報処理装置。
  12. 前記複数の配置領域は、複数の配置領域のグループに分けられており、
    前記グループ化部は、当該複数の配置領域のグループにそれぞれ配置された複数のデータに対して、それぞれグループ分けを行う請求項1から請求項11いずれか記載の情報処理装置。
  13. 前記属性指定情報格納部には、複数の属性指定情報が格納されており、
    前記グループ化部は、当該複数の属性指定情報をそれぞれ用いた場合について、前記複数の配置領域に配置されたデータに対するグループ分けを行う請求項1から請求項12いずれか記載の情報処理装置。
  14. 前記グループ化部が前記複数の配置領域のグループ別にそれぞれグループ分けしたデータについて、予め指定された共通するデータを検出する関連検出部を更に備え、
    前記出力部は、前記関連検出部が検出した予め指定された共通するデータに関連するデータ同士をそれぞれ関連付けて出力する請求項12記載の情報処理装置。
  15. 前記グループ化部が複数の属性指定情報別にそれぞれグループ分けしたデータについて、予め指定された共通するデータを検出する関連検出部を更に備え、
    前記出力部は、前記関連検出部が検出した予め指定された共通するデータに関連するデータ同士をそれぞれ関連付けて出力する請求項13記載の情報処理装置。
  16. 複数のデータをそれぞれ配置するための領域である複数の配置領域を設定する情報である配置情報が格納され得る配置情報格納部と、前記複数の配置領域に配置された複数のデータが格納され得るデータ格納部と、一のグループに分類される複数のデータの属性を指定する情報である属性指定情報が格納され得る属性指定情報格納部と、グループ化部と、出力部とを用いて行われる情報処理方法であって、
    前記グループ化部が、複数の配置領域に配置された複数のデータを、当該複数のデータの配置情報を用いて、前記属性指定情報が指定する属性を有するデータ毎に、グループ分けするグループ化ステップと、
    前記出力部が、前記グループ化ステップでグループ分けしたデータを出力する出力ステップとを備えた情報処理方法。
  17. コンピュータを、
    データ格納部に格納された複数のデータをそれぞれ配置するための領域である複数の配置領域に配置された複数のデータを、当該複数のデータの配置領域を設定する情報であって、配置情報格納部に格納されている情報である配置情報を用いて、一のグループに分類される複数のデータの属性を指定する情報であって、属性指定情報格納部に格納されている情報である属性指定情報が指定する属性を有するデータ毎に、グループ分けするグループ化部と、
    前記グループ化部がグループ分けしたデータを出力する出力部として機能させるためのプログラム。
PCT/JP2009/054610 2008-04-04 2009-03-11 情報処理装置、情報処理方法、およびプログラム WO2009122872A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010505520A JP5374712B2 (ja) 2008-04-04 2009-03-11 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-098572 2008-04-04
JP2008098572 2008-04-04

Publications (1)

Publication Number Publication Date
WO2009122872A1 true WO2009122872A1 (ja) 2009-10-08

Family

ID=41135259

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/054610 WO2009122872A1 (ja) 2008-04-04 2009-03-11 情報処理装置、情報処理方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP5374712B2 (ja)
WO (1) WO2009122872A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013069007A (ja) * 2011-09-21 2013-04-18 Profield Co Ltd 電子ブック処理装置、電子ブック処理方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250041A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および文書処理方法
JP2001101164A (ja) * 1999-09-29 2001-04-13 Toshiba Corp 文書画像処理装置及び文書画像処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250041A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および文書処理方法
JP2001101164A (ja) * 1999-09-29 2001-04-13 Toshiba Corp 文書画像処理装置及び文書画像処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013069007A (ja) * 2011-09-21 2013-04-18 Profield Co Ltd 電子ブック処理装置、電子ブック処理方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2009122872A1 (ja) 2011-07-28
JP5374712B2 (ja) 2013-12-25

Similar Documents

Publication Publication Date Title
JP3425408B2 (ja) 文書読取装置
US6289254B1 (en) Parts selection apparatus and parts selection system with CAD function
JP3427692B2 (ja) 文字認識方法および文字認識装置
JP4509366B2 (ja) 文書上の情報をスキャンしてフォーマット化するシステム
JP5181886B2 (ja) 電子書類の検索方法、検索システム及びコンピュータプログラム
JP4343213B2 (ja) 文書処理装置および文書処理方法
US20090123071A1 (en) Document processing apparatus, document processing method, and computer program product
CN110705503B (zh) 生成目录结构化信息的方法和装置
JPH08305731A (ja) 文書格納等の方法及び文書サーバ
JP5938393B2 (ja) 画像処理装置
JP2003288334A (ja) 文書処理装置及び文書処理方法
US20070257908A1 (en) System and method for parsing point-cloud data
JP2011065621A (ja) 情報処理装置及び情報処理プログラム
JP2008022159A (ja) 文書処理装置及び文書処理方法
US8131720B2 (en) Using an ID domain to improve searching
CN111897781A (zh) 一种知识图谱数据抽取方法和系统
US7716639B2 (en) Specification wizard
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP2009098763A (ja) 手書き注釈管理装置およびインタフェース
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP5374712B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5112045B2 (ja) 情報編集装置、情報編集方法、およびプログラム
US7844138B2 (en) History control apparatus
US9135517B1 (en) Image based document identification based on obtained and stored document characteristics
JP7471802B2 (ja) アーカイブ支援システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09728996

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010505520

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09728996

Country of ref document: EP

Kind code of ref document: A1