WO2006046523A1 - 文書解析システム、及び文書適応システム - Google Patents

文書解析システム、及び文書適応システム Download PDF

Info

Publication number
WO2006046523A1
WO2006046523A1 PCT/JP2005/019531 JP2005019531W WO2006046523A1 WO 2006046523 A1 WO2006046523 A1 WO 2006046523A1 JP 2005019531 W JP2005019531 W JP 2005019531W WO 2006046523 A1 WO2006046523 A1 WO 2006046523A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
layout
structured
title
semi
Prior art date
Application number
PCT/JP2005/019531
Other languages
English (en)
French (fr)
Inventor
Yuushin Tatsumi
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to CN2005800366943A priority Critical patent/CN101048773B/zh
Priority to US11/577,984 priority patent/US8051371B2/en
Priority to JP2006543141A priority patent/JP4124261B2/ja
Publication of WO2006046523A1 publication Critical patent/WO2006046523A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/88Mark-up to mark-up conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples

Definitions

  • the present invention provides a document analysis system, a document analysis method, a document analysis program, and a structured 'semi-structured document that can analyze a layout from a structured' semi-structured document 'using a layout.
  • the document adaptation system, document adaptation method, and document adaptation program are applicable.
  • the document description element refers to an element that is a description unit of a structured 'semi-structured document', for example, an HTML tag element such as a TABLE element or an A element in an HTML document.
  • the component of the layout refers to a partial area having related information power that constitutes a display surface represented by a screen, for example, a partial area including related information of a certain heading in an HTML document.
  • a table of contents document is generated from a document description element having a specific name according to a rule using the name of the document description element, and the contents of the table of contents items are described. (See Japanese Patent Application Laid-Open No. 9-251457).
  • JP-A-10-289250 discloses a list of registered URLs. When displaying, not only the title information but also the image information is displayed so that the registered URL page can be intuitively recognized.
  • JP-A-11 203285 discloses a line attribute indicating the position of a document element in a line for each line, and is based on the meaning of each morpheme constituting the document element and the line attribute of the line to which the document element belongs. In this technology, the meaning of each document element is determined for each line, and each document element in the original document is given a precise meaning.
  • Japanese Patent Laid-Open No. 2003-85159 analyzes a head document of a desired structured document group, automatically creates a table of contents, and synthesizes the table of contents with image data of related documents for easy reading. Disclosure of technology for providing documents to users.
  • JP-A-2004-86855 discloses a technique for facilitating the creation and editing of a document while referring to the contents of the document and the table of contents.
  • a link for generating document content information corresponding to a table of contents item is embedded when generating a table of contents of a document.
  • document content information including the table of contents item is generated.
  • a link for instructing the output of the table of contents is embedded in the document content information.
  • a link for generating document content information corresponding to the table of contents item is embedded in the table of contents.
  • Japanese Patent Application Laid-Open No. 2003-288334 discloses a technique for generating a structured document tagged with a print document force that has a multi-page force with high accuracy.
  • Japanese Patent Laid-Open No. 2003-330856 discloses both content local information and global information by dynamically performing layout generation and information granularity adjustment in response to an operation to change the zoom state. Discloses a technology that enables comfortable access to a computer.
  • the first problem in the prior art is that the layout intended by the document provider cannot always be analyzed in the document analysis system for structured and semi-structured documents.
  • the reason for this is that there are a variety of document description methods, and layout analysis using the strength of document description element delimiters cannot always analyze the layout intended by the document provider. It is.
  • a second problem in the prior art is that only a part of titles can be analyzed in a document analysis system for structured 'semi-structured documents'.
  • the reason is that the title is generally expressed using the name, attributes, style, and contents of the document description element. Therefore, the title analysis according to the rule using only the name of the document description element can be used to analyze some titles and force analysis. Because there is no.
  • a third problem in the prior art is that, in the document analysis system for structured and semi-structured documents, application software cannot be developed using layout information analyzed by a third party. The reason is that the conventional document analysis system does not output the analyzed layout information in a format that can be used by a third party.
  • a fourth problem in the prior art is that the document adaptation system for structured 'semi-structured documents' accurately captures the logical structure of the document intended by the document provider, and connects the document to a network or terminal. It cannot be adapted to the user's environment. The reason is that when a table of contents document is generated according to the rules using the names of document description elements, some titles cannot be analyzed and the table of contents document cannot be generated correctly. Also, when generating a composite document according to the rules defined by the user using the URL of the document (Uniform Resource Locator) and the reference of the document description element that indicates the location of the required information of the document, the user is required to update the document. This is because the composite document desired by the document provider may not be generated correctly, and these rules do not accurately capture the logical structure of the document intended by the document provider.
  • URL of the document Uniform Resource Locator
  • a first object of the present invention is to provide a document analysis system that can analyze a layout intended by a document provider.
  • the second object of the present invention is to provide a document analysis system capable of comprehensively analyzing titles.
  • a third object of the present invention is to provide a document analysis system capable of outputting layout information in a format that can be used by a third party to develop application software.
  • the fourth object of the present invention is to provide a document adaptation system capable of accurately grasping the logical structure of a document intended by a document provider and adapting the document to a network, terminal, or user environment. There is.
  • a document analysis system refers to the arrangement of document description elements included in a structured document or semi-structured document, and uses the document description elements juxtaposed in a certain direction.
  • a basic layout analysis unit that analyzes the layout of the structured document or the semi-structured document by grouping is provided.
  • the document analysis system of the present invention stores a title analysis rule that stores a title analysis rule based on one or more values of the name, attribute, style, and content of a document description element of a structured document or semi-structured document.
  • Title for analyzing title by comparing storage unit with one or more of name, attribute, style, contents of document description element contained in structured document or semi-structured document and title analysis rule A layout analysis in which the layout components are grouped using the analysis unit, the layout analyzed by the basic layout analysis unit, and the title analyzed by the title analysis unit, and a new layout is generated. Part.
  • the layout analysis unit includes the layout analyzed by the basic layout analysis unit, the title analyzed by the title analysis unit, and the analysis analyzed by the layout analysis unit.
  • a block selecting unit that selects a main component of the layout using a new layout; the layout analyzed by the basic layout analyzing unit; the new layout analyzed by the layout analyzing unit;
  • a section calculation unit is provided for grouping the layout components using the main layout components selected by the block selection unit and generating a layout.
  • the basic layout analysis unit refers to the arrangement of the document description elements below the grouped document description elements and is used for the immediately preceding group.
  • the process of grouping the document description elements juxtaposed in the direction orthogonal to the direction is repeated a predetermined number of times to analyze the layout.
  • the basic layout analysis unit refers to the arrangement of the document description elements below the grouped document description elements and is used for the immediately preceding group. Group the document description elements juxtaposed in the direction orthogonal to the direction The process is repeated a predetermined number of times to analyze the layout of the next layer.
  • the basic layout analysis unit refers to an arrangement of only some designated document description elements among the document description elements.
  • the document analysis system includes a title analysis rule based on one or more values of a name, an attribute, a style, and contents of a document description element of a structured document or a semi-structured document.
  • the title analysis rule storage unit, and the title analysis rule is compared with one or more of the names, attributes, styles, and contents of the document description elements included in the structured document or the semi-structured document.
  • a title analysis unit for analyzing the title for analyzing the title.
  • the document analysis system refers to the document description element included in the structured document or the semi-structured document for the layout and title of the structured document or the semi-structured document.
  • An output unit for shaping and outputting in an expression format is provided.
  • the document adaptation system of the present invention provides a structured document or semi-structured document, and a document in which layout information of the structured document or the semi-structured document is described.
  • a table of contents document output unit for generating and outputting a table of contents document using the above, a structured document or semi-structured document, and a document describing the contents of a table of contents using a document describing layout information
  • an item document output unit for generating and outputting.
  • the document adaptation system of the present invention includes a URI (Universal Resource Identifier) of the structured document or the semi-structured document, and the structured document or the semi-structured document.
  • An output component information storage unit for storing a set of combinations of document output component IDs as output component information, and the structured component corresponding to the URI described in the output component information and the output component information
  • a composite document output unit for generating and outputting a composite document using the document or the semi-structure document and the document in which the information outside the layer corresponding to the structure document or the semi-structure document is described;
  • the document analysis method and the document analysis program of the present invention refer to the arrangement of document description elements included in a structured document or semi-structured document, and group the document description elements juxtaposed in a certain direction.
  • the document analysis method and the document analysis program of the present invention include a title analysis rule based on one or more values of the name, attribute, style, and content of the document description element of the structured document or the semi-structured document. And analyzing the title by comparing at least one of the name, attribute, style, and content of the document description element included in the structured document or the semi-structured document with the title analysis rule. And a step of grouping the components of the layout using the analyzed layout and the analyzed title to generate a new layout.
  • the document analysis method and the document analysis program of the present invention refer to the arrangement of the document description elements below the grouped document description elements in the step of analyzing the layout. For last grouping! A step of analyzing the layout by repeating a process of grouping the document description elements juxtaposed in a direction orthogonal to the beaten direction a predetermined number of times.
  • the document analysis method and the document analysis program of the present invention refer to the arrangement of the document description elements below the grouped document description elements in the step of analyzing the layout. For last grouping! A step of analyzing the layout of the next layer by repeating the process of grouping the document description elements juxtaposed in the orthogonal direction of the beaten direction a predetermined number of times.
  • the document analysis method and the document analysis program of the present invention refer to the arrangement of only some designated document description elements among the document description elements in the step of analyzing the layout.
  • the document analysis method and the document analysis program of the present invention provide a title analysis rule based on one or more values of the name, attribute, style, and content of a document description element of a structured document or semi-structured document.
  • the title is analyzed by comparing the title analysis rule with one or more of the name, attribute, style, and content of the document description element included in the structured document or the semi-structured document in the storing step. Steps.
  • the layout and title of a structured document or semi-structured document are included in the structured document or semi-structured document.
  • the document adaptation method and the document adaptation program of the present invention use a structured document or semi-structured document and a document in which information on the layout of the structured document or semi-structured document is described. Generating and outputting a document; generating and outputting a document describing the contents of a table of contents using the structured document or the semi-structured document; and a document describing the layout information; It comprises.
  • the document adaptation method and document adaptation program of the present invention provide a set of combinations of URIs of structured documents or semi-structured documents and IDs of output components of the structured documents or semi-structured documents. Steps stored in the output component information storage unit as output component information, the output component information, and the structured document or the semi-structured document corresponding to the URI described in the output component information Generating and outputting a synthesized document using a document in which layout information corresponding to the structured document or the semi-structured document is described.
  • the first effect is that the layout intended by the document provider can be analyzed. This is because the layout is analyzed based on the arrangement of document description elements. In addition to the layout analyzed based on the layout of the document description element and the name of the document description element, the title analyzed using the attribute, style, and contents is used to select the component of the previously analyzed layout. This is because grouping creates a new LV with a set of related components with the title as a key, and a new layout with the components.
  • the second effect is that the title can be comprehensively analyzed.
  • the reason for this is the ability to analyze titles using attributes, styles, and contents in addition to the names of document description elements.
  • a third effect is that layout information can be provided in a format that can be used by a third party to develop application software.
  • the reason is that the analyzed layout and title are output in a format in which the layout components and titles are expressed using references to document description elements.
  • the fourth effect is that the document can be adapted to the network, terminal, and user environments by utilizing the logical structure of the document intended by the document provider.
  • the reason is that in addition to structured 'semi-structured' documents, layout information that reflects the logical structure of the document intended by the document provider This is because the document is adapted to the environment using the described document.
  • the present invention provides a document browsing system that uses a logical structure of a document, such as a function for displaying an outline of a document, a function for reading aloud, and a function for selectively displaying document items. It can be applied to applications such as programs for realizing the system on a computer.
  • a document conversion system that uses the logical structure of a document, such as a function that generates an outline of a document, a function that divides a document according to the outline, or a function that selectively synthesizes document items, or a document conversion system on a computer. It can also be applied to programs for realization and other purposes.
  • FIG. 1 is a block diagram showing a configuration of an embodiment for carrying out a first invention of the present invention.
  • FIG. 2 is a flowchart showing the operation of the embodiment for carrying out the first invention of the present invention.
  • FIG. 3 is a diagram showing an example of an HTML document.
  • FIG. 4 is a diagram for explaining a first embodiment of the present invention.
  • FIG. 5 is a diagram for explaining a first embodiment of the present invention.
  • FIG. 6 is a diagram for explaining the first embodiment of the present invention.
  • FIG. 7 is a diagram for explaining the first embodiment of the present invention.
  • FIG. 8 is a diagram for explaining the first embodiment of the present invention.
  • FIG. 9 is a diagram for explaining the first embodiment of the present invention.
  • FIG. 10 is a diagram showing an example of an output format according to the first embodiment of the present invention.
  • FIG. 11 is a block diagram showing a configuration of an embodiment for carrying out a second invention of the present invention.
  • FIG. 12 is a flowchart showing the operation of the embodiment for carrying out the second invention of the present invention.
  • FIG. 13 is a diagram showing an example of a title analysis rule according to the second embodiment of the present invention.
  • FIG. 14 is a diagram for explaining a second embodiment of the present invention.
  • FIG. 15 is a diagram showing an example of an output format according to the second embodiment of the present invention.
  • FIG. 16 is a block diagram showing a configuration of an embodiment for carrying out a third invention of the present invention.
  • ⁇ 17 A flow chart showing the operation of the embodiment for carrying out the third invention of the present invention.
  • ⁇ 18 It is a figure for explaining a third embodiment of the present invention.
  • FIG. 19 is a diagram for explaining a third embodiment of the present invention.
  • FIG. 20 is a diagram for explaining a third embodiment of the present invention.
  • ⁇ 21 It is a diagram showing an example of the output format of the third embodiment of the present invention.
  • FIG. 22 is a block diagram showing a configuration of an embodiment for carrying out a fourth invention of the present invention.
  • FIG. 24A is a diagram showing an HTML document among examples of an HTML document and an XML document.
  • FIG. 24B is a diagram showing an XML document among examples of an HTML document and an XML document.
  • FIG. 26 is a diagram showing an example of an item document according to the fourth embodiment of the present invention.
  • FIG. 27 is a block diagram showing a configuration of an embodiment for carrying out the fifth invention of the present invention.
  • FIG. 29 is a diagram showing an example of information related to an output component of the fifth exemplary embodiment of the present invention.
  • FIG. 30A is a diagram showing an HTML document among examples of an HTML document and an XML document.
  • FIG. 30B is a diagram showing an XML document among examples of an HTML document and an XML document.
  • FIG. 31 is a diagram showing an example of a composite document according to the fifth embodiment of the present invention.
  • ⁇ 32 It is a block diagram showing the configuration of the sixth exemplary embodiment of the present invention.
  • ⁇ 33 It is a block diagram showing the configuration of the seventh exemplary embodiment of the present invention.
  • ⁇ 34 A block diagram showing the configuration of the eighth embodiment of the present invention.
  • ⁇ 35 A block diagram showing the configuration of the ninth embodiment of the present invention.
  • FIG. 37 A diagram for explaining a sixth embodiment of the present invention.
  • FIG. 38 is a diagram for explaining a sixth embodiment of the present invention.
  • FIG. 39 is a diagram for explaining a sixth embodiment of the present invention.
  • FIG. 40 is a diagram for explaining a sixth embodiment of the present invention.
  • FIG. 41 is a diagram for explaining a sixth embodiment of the present invention.
  • FIG. 42 is a diagram for explaining a sixth embodiment of the present invention.
  • FIG. 43 is a diagram for explaining a sixth embodiment of the present invention.
  • FIG. 44 is a diagram for explaining a sixth embodiment of the present invention.
  • FIG. 45 is a diagram for explaining a sixth embodiment of the present invention.
  • the system of the first embodiment of the present invention includes a data processing device 1 that operates under program control, and a storage device 2 that stores information.
  • the data processing apparatus 1 includes an input unit 11, a layout analysis tool 12, and an output unit 13.
  • the storage device 2 includes a rendering result storage unit 21 and an analysis result storage unit 22.
  • the input unit 11 acquires a structured “semi-structured document” from the outside, renders the document, and stores the rendering result in the rendering result storage unit 21.
  • the layout analysis tool 1 2 has a basic layout analysis unit 14.
  • the output unit 13 acquires information about the layout components and their hierarchical relationships from the analysis result storage unit 22, shapes the layout components into a format that can be expressed using references to document description elements, and outputs the information to the outside.
  • an ID may be given to the layout component and output.
  • the basic layout analysis unit 14 obtains the rendering result from the rendering result storage unit 21, refers to the arrangement of the document description elements, and doubles the document description elements juxtaposed in a certain direction. Analyze the layout. Specifically, the document description element that is specified, for example, the document description element that is the root and the layout of the document description element that belongs to the component of the layout that has already been analyzed, is placed in a certain direction. Group description elements. The grouped document description elements and the document description elements that are not grouped and have no child document description elements are stored in the analysis result storage unit 22 as layout elements. A document description element that has not been dulled is processed recursively until all document description elements are grouped or there are no child document description elements. repeat.
  • the rendering result storage unit 21 displays the processing result of the input unit 11, and the analysis result storage unit 22 The processing result of the out analysis tool 12 is stored.
  • a layout of a specific hierarchy that is, a set of components of the layout is analyzed.
  • the document description elements arranged in the direction orthogonal to the direction used for the previous grouping are further referred to the arrangement of the document description elements belonging to the layout elements.
  • the layout may be analyzed a predetermined number of times by grouping and replacing the components of the previously analyzed layout.
  • the analyzed document description element may be replaced with the parent document description element. .
  • the layout of any layer can be analyzed as much as possible.
  • the arrangement of only some designated document description elements may be referred to as the document description element.
  • the layout that is, the layout components and their hierarchical relationships are analyzed.
  • the input unit 11 acquires the external force structured “semi-structured document”, renders the document, and stores the rendering result in the rendering result storage unit 21 (step S101).
  • the basic layout analysis unit 14 obtains the rendering result from the rendering result storage unit 21, sets the processing target hierarchy n to 1 (step S102), and determines whether or not to continue processing for the processing target hierarchy (Step S103). As the judgment criteria, the upper limit value of the processing hierarchy and the size of the analyzed basic layout can be used. Basic layout analysis section 1 If it is determined that the process is not continued, the process proceeds to step S107.
  • step S104 If it is determined in step S103 that the processing is to be continued in step S103, the basic layout analysis unit 14 acquires a document description element to be processed (step S104).
  • the basic layout analysis unit 14 refers to the arrangement of the document description elements to be processed, analyzes the layout by grouping the document description elements juxtaposed in a certain direction, and determines the layout of the upper layer layout. It is stored in the analysis result storage unit 22 in association with the component (step S).
  • the basic layout analysis unit 14 sets the processing target hierarchy n to n + 1 (step S106), and repeats the processing after step S103.
  • the output unit 13 acquires information on the layout components and their hierarchical relations from the analysis result storage unit 22, and reformats the layout components into a format that can be expressed using references to document description elements. Output (step S107).
  • the layout is analyzed by referring to the arrangement of the document description elements of the structured 'semi-structured document, and the arranged document description elements are grouped. Therefore, the arrangement of the document description elements The layout based on can be analyzed. Therefore, the layout intended by the document provider can be analyzed even in structured “semi-structured” documents with various description methods. In addition, since the layout is output in a format that is expressed using the reference of the document description element, a third party can develop an application using the layout information.
  • the second embodiment of the present invention includes a data processing device 1 that operates under program control, and a storage device 2 that stores information.
  • the data processing apparatus 1 includes an input unit 11, a layout analysis tool 12, and an output unit 13.
  • the storage device 2 includes a rendering result storage unit 21, an analysis result storage unit 22, and a title analysis rule storage unit 23.
  • the input unit 11 acquires a structured “semi-structured document” from the outside, renders the document, and stores the rendering result in the rendering result storage unit 21.
  • the layout analysis tool 1 2 has a title analysis unit 15.
  • the output unit 13 acquires a set of titles from the analysis result storage unit 22, formats the titles into a format that can be expressed using references to document description elements, and externally outputs them. Output.
  • the rendering result storage unit 21 stores the processing result of the input unit 11, and the analysis result storage unit 22 stores the processing result of the layout analysis tool 12.
  • the title analysis rule storage unit 23 stores in advance a title analysis rule, that is, a rule based on the value of the name, attribute, style, and content of the document description element, which is a criterion for title determination.
  • the title analysis unit 15 obtains the rendering result from the rendering result storage unit 21 and the title analysis rule from the title analysis rule storage unit 23, and adds the name of the document description element to the title analysis of the attribute, style, and content. Analyze the title by checking against the rules. Specifically, the specified document description element, for example, the root document description element is set as the processing target element, and the name, attribute, style, and content of the document description element are checked against the title analysis rule for the processing target element. If it is determined as a title as a result of collation, the document description element is stored as a title in the analysis result storage unit 22, and if there is an unprocessed element to be processed, the process is continued.
  • the specified document description element for example, the root document description element is set as the processing target element, and the name, attribute, style, and content of the document description element are checked against the title analysis rule for the processing target element. If it is determined as a title as a result of collation, the document description element is stored as a title in the analysis result storage unit 22,
  • the child document description element of the document description element is newly set as a processing target element, and the processing is continued until there is no unprocessed processing target element.
  • the title analysis rule “attribute is unique in the document”, “background color or background image is used”, “character color or character size that is used less frequently in the document is used” Then, you can use rules based on the specificity of the document description elements on the rendered image.
  • a plurality of document description elements having the same name, attribute, and style may be used as document description elements.
  • the input unit 11 acquires the external force structured “semi-structured document”, renders the document, and stores the rendering result in the rendering result storage unit 21 (step S201).
  • the title analysis unit 15 acquires the rendering result from the rendering result storage unit 21 and the title analysis rule from the title analysis rule storage unit 23, and acquires the document description element to be processed (step S202).
  • the title analysis unit 15 checks whether or not there is a document description element to be processed, and becomes a processing target. If it is determined that there is no document description element, the process proceeds to step S208 (step S203).
  • the title analysis unit 15 determines that there is a document description element to be processed in step S203, the title analysis unit 15 checks the name, attribute, style, and content of the document description element with the title analysis rule (step S204). .
  • step S204 determines that the title is not a title by collation in step S204, or if the document description element is stored as a title in step S206, the title analysis unit 15 acquires a document description element to be processed next. Then, the process from step S203 is performed on the document description element (step S205).
  • step S204 the title analysis unit 15 stores the document description element as a title in the analysis result storage unit 22, and proceeds to step S205 (step 206).
  • the output unit 13 acquires a set of titles from the analysis result storage unit 22, formats the titles into a format that can be expressed using references to document description elements, and outputs them to the outside (step S207).
  • the title is used for the attribute, style, and content, so the title expressed using the attribute and style can also be analyzed. .
  • the title is output in a format that is expressed using the reference of the document description element, it is possible to develop application applications that use information from third-party titles.
  • the third embodiment of the present invention includes a data processing device 1 that operates under program control, and a storage device 2 that stores information.
  • the data processing apparatus 1 includes an input unit 11, a layout analysis tool 12, and an output unit 13.
  • the storage device 2 includes a rendering result storage unit 21, an analysis result storage unit 22, and a title analysis rule storage unit 23.
  • the input unit 11 obtains a structured 'semi-structured document' from the outside, and renders the document.
  • the rendering result is stored in the rendering result storage unit 21.
  • the layout analysis tool 12 includes a basic layout analysis unit 14, a title analysis unit 15, And an out analysis unit 16.
  • the output unit 13 acquires from the analysis result storage unit 22 a new layout component and its hierarchical relationship, and the correspondence between each component and title, and the new layout component and title are converted into a document description element. Format it into a format that can be expressed using the reference of, and output it to the outside. Here, you can give the new layout component an ID and output it.
  • the basic layout analysis unit 14 obtains the rendering result from the rendering result storage unit 21, refers to the arrangement of the document description elements, and doubles the document description elements juxtaposed in a certain direction. Analyze the layout.
  • the functions of the basic layout analysis unit 14 are the same as the functions shown in the basic layout analysis unit 14 of the first embodiment of the present invention.
  • the title analysis unit 15 obtains the rendering result from the rendering result storage unit 21 and the title analysis rule from the title analysis rule storage unit 23, and adds the title of the document description element to the title analysis of the attribute, style, and content. Analyze the title by checking against the rules.
  • the function of the title analysis unit 15 is the same as the function shown in the title analysis unit 15 of the second embodiment of the present invention.
  • the layout analysis unit 16 acquires the layout components analyzed by the basic layout analysis unit 14 and their hierarchical relationships, the title analyzed by the title analysis unit 15, and the title from the analysis result storage unit 22.
  • a new layout is generated by grouping a layout element without a title with a layout element with a title or another layout element without a title. Specifically, first, the layout elements of the first layer are acquired, and the titles included in the elements are associated with the elements.
  • a component without a title is grouped with the component with the title, for example, the one closest to the top on the source. If there is no component with the closest title, for example, group the component with the component with the closest V and no title.
  • the grouped layout components are stored in the analysis result storage unit 22 together with the titles belonging to the components as new layout components. Furthermore, by repeating the above process for the number of layout layers analyzed by the basic layout analysis unit 14, the components of the new layout and the relationship between the layers and the correspondence between each component and the title are analyzed.
  • the rendering result storage unit 21 is the input unit 11, and the analysis result storage unit 22 is a layout analysis module. Store the processing results of each of the 12 rules.
  • the title analysis rule storage unit 23 stores a title analysis rule in advance.
  • the input unit 11 acquires the external force structured “semi-structured document”, renders the document, and stores the rendering result in the rendering result storage unit 21 (step S301).
  • the operation of the basic layout analysis unit 14 is the same as the operation of the basic layout analysis unit (14 in FIG. 1) shown in the first embodiment of the present invention (steps S 302 to S 306). .
  • step S311 to step S316 The operation is the same as 11) 15) (step S311 to step S316).
  • the layout analysis unit 16 acquires from the analysis result storage unit 22 the layout components analyzed by the basic layout analysis unit 14 and their hierarchical relationships, the title analyzed by the title analysis unit 15, and the processing target Hierarchy n is set to 1 (step S321).
  • the layout analysis unit 16 determines whether there is a layout component of the processing target hierarchy, and if it determines that there is no layout component of the processing target hierarchy, the layout analysis unit 16 proceeds to step S331 (step S322).
  • layout analysis unit 16 determines in step S322 that there is a layout component of the processing target hierarchy, it acquires the layout component of the nth hierarchy (step S323), and determines the layout of the nth hierarchy. The component is associated with the title (step S324).
  • the layout analysis unit 16 creates a new layout configuration by grouping a layout component without a title with a layout component with a title or another layout component without a title.
  • the element is analyzed and stored in the analysis result storage unit 22 (step S325).
  • the layout analysis unit 16 sets the processing target hierarchy n to n + 1 and repeats the processing from step S322 onward (step S326).
  • the output unit 13 receives the new layout components from the analysis result storage unit 22 and their hierarchical relationships.
  • step S331 the execution order of the operations of the basic layout analysis unit 14 (steps S302 to S306) and the operations of the title analysis unit 15 (steps S311 to S316) may be interchanged. Specifically, steps S311 to S316 are executed immediately after step S301. When step S312 force S is “No”, steps S302 to S306 are executed. In this case, when step S303 is “No”, the process proceeds to step S321.
  • the layout is analyzed by referring to the layout of the document description elements and grouping the document description elements placed side by side, and using the attributes, styles, and contents in addition to the names of the document description elements.
  • a title grouping a layout component without a title with a layout component with a title, or another layout component without a title
  • a layout that captures the logical structure can be analyzed. Therefore, it is possible to analyze the layout that reflects the intention of the document provider.
  • layouts and titles are output in a format that uses document description element references, third parties can develop application applications that use layout information.
  • the fourth embodiment of the present invention includes a data processing device 5 that operates under program control, and a storage device 6 that stores information.
  • the data processing device 5 includes an input unit 51, a document input unit 52, a table of contents document output unit 53, and an item document output unit 54.
  • the storage device 6 includes a structured / semi-structured document storage unit 61 and a layout document storage unit 62.
  • the input unit 51 obtains user input from an input device such as a keyboard or via a network, and obtains a URI (Universal Resource Identifier) of a structured “semi-structured document” desired by the user. .
  • the input unit 51 acquires user input from an input device such as a keyboard or via a network, and controls output. Specifically, according to the acquired input, determine the power to output a table of contents document, whether to output a document that describes the contents of the table of contents, and output a document that describes the contents of the table of contents items. In this case, the contents item to be output is also determined.
  • the document input unit 52 uses the URI of the structured 'semi-structured document' desired by the user obtained by the input unit 51 to acquire the document, and the structured 'semi-structured document storage' Store in part 61.
  • the document input unit 52 acquires a document in which the layout information specified by the acquired structured / semi-structured document is described using the reference of the document description element, and stores it in the layout storage unit 62.
  • the document input unit 52 may use another method whenever the header information of the communication protocol is used to acquire a document in which the layout information of the obtained structured 'semi-structured document' is described. Good.
  • layout information may be analyzed and stored in the layout document storage unit 62 using the system shown in the third embodiment of the present invention.
  • the table of contents document output unit 53 lays out the structured / semi-structured document desired by the user from the structured / semi-structured / document storage unit 61.
  • Each document describing the layout information of the structured 'semi-structured document' is obtained from the document storage unit 62, and a table of contents document is generated.
  • the document power in which layout information is described is also extracted from all end layout components, the titles specified for each are extracted, and the original structure is created using references to document description elements.
  • 'Create a table of contents document by extracting the document description elements corresponding to the title from the semi-structured document, formatting them, and arranging them in order.
  • a certain number of characters may be extracted and arranged for the content power below the document description element corresponding to the constituent element.
  • decorations may be added to the table of contents, such as inserting divider lines between the components of the layout of a specific hierarchy, or inserting titles given separately to structured 'semi-structured documents'.
  • upper-layer components may be used instead of the terminal components.
  • the generated table of contents document is provided to the user from an output device such as a display or a speaker, or via a network.
  • the item document output unit 54 determines that the input unit 51 outputs a document describing the contents of the table of contents, and if the item of the table of contents to be output is determined, the structured document semi-structured document storage unit 61 From the layout document storage unit 62, the document describing the layout information of the structured / semi-structured document desired by the user is obtained and specified. Generate a document describing the contents of the contents of the table of contents. Specifically, a component of a layout having a specified table of contents item as a title is extracted, and a document description element corresponding to the component from the original structured 'semi-structured document using a document description element reference.
  • a document describing the contents of the contents of the table of contents is generated by extracting, formatting and arranging them in order.
  • the contents of the extracted document description elements may be further extracted and arranged as the contents of the item.
  • the document description elements of the structured 'semi-structured document may be replaced with another document description element and arranged.
  • the user may use the structure / semi-structure / document desired by the user as the document describing the contents of the table of contents, and output it by aligning it with the area corresponding to the specified table of contents item.
  • a document describing the contents of the generated table of contents is provided to the user from an output device such as a display or a speaker, or via a network.
  • the structured'semi-structured document storage unit 61 and the layout document storage unit 62 store the processing results of the document input unit 52.
  • the table of contents document output unit 53 generates the table of contents document
  • the table of contents document is stored, and in the item document output unit 54, all the documents describing the contents of the table of contents are generated and stored in advance.
  • the table of contents document corresponding to the user input or the document describing the contents of the table of contents may be selected and output by the table of contents document output unit 53 or the item document output unit 54.
  • the input unit 51 obtains user input from an input device such as a keyboard or via a network, and obtains the URI of the structured “semi-structured document” desired by the user (step S401).
  • the document input unit 52 acquires a document using the acquired URI, and stores it in the structured / semi-structured document storage unit 61. Further, the document input unit 52 acquires a document in which layout information specified in the acquired structured / semi-structured document is described, and stores the document in the layout document storage unit 62 (step S402).
  • the input unit 51 determines whether or not to continue the process, and when determining that the process is not continued, the input unit 51 ends (step S403).
  • step S404 If the input unit 51 determines to continue the process in step S403, the output content is a table of contents. Whether or not (step S404).
  • the table of contents document output unit 53 determines that the table of contents is to be output in step S404, the structured / semi-structured document desired by the user from the structured 'semi-structured document storage unit 61 is stored in the layout document storage.
  • the document in which the layout information of the structured'semi-structured document is described is obtained from the part 62, and a table of contents document is generated.
  • the generated table of contents document is provided to the user from the output device with a display or a network via a network (step S405).
  • the item document output unit 54 determines that the table of contents is not output in step S404, the item document output unit 54 further determines the items of the table of contents to be output, and the structured / semi-structured document storage unit 61 determines the desired structure.
  • the semi-structured document is acquired from the layout document storage unit 62, and each document describing the layout information of the structured / semi-structured document is generated, and a document describing the contents of the specified table of contents is generated. To do.
  • the document describing the contents of the generated table of contents is provided to the user from an output device such as a display or a speaker or via the network (step S406).
  • the input unit 51 outputs a table of contents document in step S405, or outputs a document describing the contents of the table of contents in step S406, and then from an input device such as a keyboard or via a network. User input is acquired, and the processing after step S403 is repeated (step S407).
  • a document that describes the contents of a table of contents and contents of a table of contents is generated and output using a structured 'semi-structured document and a document that describes the layout information of the document. Allows users to view documents using a table of contents that accurately captures the logical structure of the intended document, and makes it easier to grasp the overall image of the document on a small screen! . Therefore, it is possible to provide a document adapted to the terminal environment.
  • the fifth embodiment of the present invention includes a data processing device 7 that operates under program control, and a storage device 8 that stores information.
  • the data processing device 7 includes a document input unit 71 and a composite document output unit 72.
  • Storage device 8 includes an output component storage unit 81, a structured / semi-structured document storage unit 82, and a layout document storage unit 83.
  • the document input unit 71 obtains information on the output component from the output component storage unit 81, obtains a document corresponding to the URI described in the information, and forms a structured / semi-structured document storage unit. Store in 82. In addition, the document input unit 71 acquires a document in which layout information specified by each acquired structured / semi-structured document is described by using a reference to the document description element, and stores it in the layout document storage unit 83.
  • the document input unit 71 may use another method when the header information of the communication protocol is used to acquire a document in which the layout information of the acquired structured / semi-structured document is described. Good. Further, with respect to the obtained structured “semi-structured document”, layout information may be analyzed and stored in the layout document storage unit 83 by using the system shown in the third embodiment of the present invention.
  • the composite document output unit 72 receives information on the output component from the output component storage unit 81, and the structure / semi-structured document desired by the user from the structure / semi-structure / document storage unit 82. Then, each document in which layout information is described is acquired from the layout document storage unit 83, and a composite document is generated. Specifically, it obtains the combination of all URIs and component IDs from the information about the output component, extracts the document corresponding to each URI, and extracts the component corresponding to the component ID.
  • the document description element corresponding to the component is extracted from the original structured 'semi-structured document using the reference of, and then the combined document is generated by formatting and arranging in order. Here, for each component, the contents of the document description element belonging to it may be further extracted and arranged.
  • the generated composite document is provided to the user from a display device or a network via a network.
  • text information representing the title of the component is further stored as information regarding the output component, and is extracted when the component corresponding to the ID of the component to be output is extracted by the composite document output unit 72.
  • the information on the output component is searched by matching the text information indicating the title of the component and the title of the component stored in the information on the output component, and searching for the correct component using the text information as a clue if the information is different.
  • By updating the ID of the component to be output stored in it is possible to generate an appropriate composite document even if the layout has changed.
  • information about output components The display position information is further stored, and the composite document output unit 72 uses the display position information.
  • the output component storage unit 81 stores information on the component to be output, that is, a set of combinations of the URI of the structured 'semi-structured document to be output and the ID of the component to be output in the document. .
  • the processing result of the document input unit 71 is stored.
  • the document input unit 71 acquires information on the output component from the output component storage unit 81 (step S 501).
  • the document input unit 71 acquires a document corresponding to the URI described in the information related to the acquired output component, and stores it in the structured “semi-structured document storage unit 82”. In addition, the document input unit 71 acquires a document in which the layout information designated in each of the acquired structured / semi-structured documents is described, and stores it in the layout document storage unit 83 (step S502).
  • the composite document output unit 72 receives the information on the output component from the output component storage unit 81, and the structure / semi-structured document desired by the user from the structure / semi-structure / document storage unit 82. Then, each document in which layout information of the document is described is acquired from the layout document storage unit 83, and a composite document is generated. The generated composite document is provided to the user from an output device such as a display or a speaker or via a network (step S503).
  • Figure 32 Referring to the sixth embodiment of the present invention, the data processing device 1 and the storage device 2 are provided as in the first, second, and third embodiments of the present invention.
  • the document analysis program 3 is read into the data processing device 1 to control the operation of the data processing device 1, and the storage device 2 stores the rendering result storage unit 21, the analysis result storage unit 22, and the title analysis rule storage unit 23. Is generated.
  • the data processing device 1 executes the same processing as the processing by the data processing device 1 in the first, second, and third embodiments under the control of the document analysis program 3.
  • the seventh embodiment of the present invention includes a data processing device 5 and a storage device 6 as in the fourth embodiment of the present invention.
  • the document adaptation program 4 is read into the data processing device 5 to control the operation of the data processing device 5, and is structured in the storage device 6.
  • the semi-structured document storage unit 61 and the layout document storage unit 6 2 Is generated.
  • the data processing device 5 executes the same processing as the processing by the data processing device 5 in the fourth embodiment under the control of the document adaptation program 4.
  • the eighth embodiment of the present invention includes a data processing device 7 and a storage device 8 as in the fifth embodiment of the present invention.
  • the document adaptation program 9 is read into the data processing device 7 to control the operation of the data processing device 7, and the output device storage unit 81, the structured and semi-structured document storage unit 8 2 are stored in the storage device 8.
  • the layout document storage unit 83 is generated.
  • the data processing device 7 executes the same processing as the processing by the data processing device 7 in the fifth embodiment under the control of the document adaptation program 9.
  • the ninth embodiment of the present invention includes a data processing device 1 that operates under program control, and a storage device 2 that stores information.
  • the data processing device 1 includes an input unit 11, a layout analysis tool 12, and an output unit 13.
  • the storage device 2 includes a rendering result storage unit 21, an analysis result storage unit 22, and a title analysis rule storage unit 23.
  • the input unit 11 acquires a structured “semi-structured document” from the outside, renders the document, and stores the rendering result in the rendering result storage unit 21.
  • the layout analysis tool 12 includes a basic layout analysis unit 14, a title analysis unit 15, and a layout analysis unit 16.
  • the output unit 13 obtains the layout components and their hierarchical relationships from the analysis result storage unit 22, and the correspondence between each component and the title, and references the layout components and titles to the document description elements. Format it into a format that can be used for output.
  • the basic layout analysis unit 14 obtains the rendering result from the rendering result storage unit 21, refers to the arrangement of the document description elements, and doubles the document description elements juxtaposed in a certain direction. Analyze the layout.
  • the functions of the basic layout analysis unit 14 are the same as the functions shown in the basic layout analysis unit 14 of the first embodiment of the present invention.
  • the title analysis unit 15 obtains the rendering result from the rendering result storage unit 21 and the title analysis rule from the title analysis rule storage unit 23, adds the title of the document description element, and analyzes the title of the attribute, style, and content. Analyze the title by checking against the rules.
  • the function of the title analysis unit 15 is the same as the function shown in the title analysis unit 15 of the second embodiment of the present invention.
  • the layout analysis unit 16 includes a block selection unit 17 and a section calculation unit 18.
  • the block selection unit 17 receives from the analysis result storage unit 22 the first layout components analyzed by the basic layout analysis unit 14 and their hierarchical relationships, and the second layout analyzed by the layout analysis unit 16.
  • the component of the first layout and its hierarchical relationship are obtained, one component of the second layout that can be divided is selected, and the component of the first layout that constitutes the component is analyzed.
  • the title analyzed by the title analysis unit 15 is acquired, the component of the first layout to be analyzed is associated with the title, the name of the document description element constituting the associated title, Select major titles based on attributes and styles. Then, the component with the main title is the main component.
  • the component is a boundary line force. This may be used as the main layout component, or the first layout component to be analyzed. Based on the distance between the components, the components that are more than the specified distance from the previous component may be the main components.
  • the section calculation unit 18 groups a non-major component with a major component or another non-major component.
  • the second layout component is generated and stored in the analysis result storage unit 22.
  • non-major components are grouped with major components, for example, the ones closest to the top on the source. If there is no closest major component, for example, group with the closest minor component.
  • the newly generated second layout component may be stored in place of the original second layout component, or the newly generated second layout component. May be stored as a child of a component of the original second layout. Further, it may be stored as a component of the second layout except for the component of the first layout determined as the boundary line.
  • the input unit 11 acquires the external force structured “semi-structured document”, renders the document, and stores the rendering result in the rendering result storage unit 21 (step S901).
  • the operation of the basic layout analysis unit 14 is the same as that of the basic layout analysis unit (14 in Fig. 1) shown in the first embodiment of the present invention (steps S902 to S906). .
  • the operation of the title analysis unit 15 is the same as the operation of the title analysis unit (15 in FIG. 1) shown in the second embodiment of the present invention (step S 911 to step S 916).
  • the block selection unit 17 receives from the analysis result storage unit 22 the components of the first layout analyzed by the basic layout analysis unit 14 and their hierarchical relationships, the title and layout analyzed by the title analysis unit 15. The component of the second layout analyzed by the analysis unit F16 and its hierarchical relationship are acquired (step S921).
  • the block selection unit 17 determines whether there is a component of the second layout that can be divided, and if it determines that there is no component of the second layout that can be divided, the process proceeds to step S931 (step S931). S922).
  • the number of titles included in the components of the second layout the number of components having the title among the components of the first layout constituting the components of the second layout, the second Area, width, height, etc. of layout components Can be used.
  • step S923 If it is determined in step S923 that there is a component of the second layout that can be divided, the block selection unit 17 selects one component of the second layout that can be divided and configures it. The constituent elements of the first layout are analyzed (step S923).
  • the block sorting unit 17 associates the component of the first layout to be analyzed with the title.
  • Step S924 With respect to the associated titles, main titles are selected based on the names, attributes, and styles of the document description elements constituting the titles (Step S925).
  • the block selection unit 17 uses the first layout component having the main title selected in step S925 as the main component.
  • the main component based on the name, attribute, style, and contents of the document description element that constitutes the first layout component to be analyzed, it is determined whether or not the component is a boundary line force.
  • the component determined as or the next component may be used as a component of the main layout, or based on the distance between the components of the first layout object to be analyzed, it is separated from the previous component by a predetermined distance or more.
  • the main component can also be a component (step S926).
  • the section calculation unit 18 groups a non-major component with a major component or another non-major component. As a result, the components of the second layout are generated and stored in the analysis result storage unit 22 (step S927).
  • the output unit 13 acquires from the analysis result storage unit 22 the second layout components and their hierarchical relationships, and the correspondences between the respective components and titles, and the second layout components and titles. Is formatted into a format that can be expressed using a reference to the document description element and output to the outside (step S931).
  • step S902 to S906 the execution order of the operation of the basic layout analysis unit 14 (steps S902 to S906) and the operation of the title analysis unit 15 (steps S911 to S916) may be interchanged.
  • the elements of the first layout are grouped together to create a new second layout.
  • Configuration requirements Since elements are generated, layouts that capture more logical structures can be analyzed. Therefore, it is possible to analyze a layout that reflects the intention of the document provider.
  • third parties can develop application applications that use layout information.
  • a personal computer is provided as a data processing device and a data storage device.
  • the personal computer has a central processing unit that functions as an input unit, a layout analysis unit, an output unit, and a basic layout analysis unit, a rendering result storage unit, a memory device that functions as an analysis result storage unit, and a magnetic disk storage device. And speak.
  • HTML document shown in Fig. 3 as a structured 'semi-structured document' will be described as an analysis of the layout up to the second layer.
  • the central processing unit obtains an HTML document from the outside, renders the document, and stores the rendering result shown in FIG. 3 in the memory device.
  • the central processing unit obtains the rendering result and first refers to the arrangement of the body element.
  • the body element has no elements of the HTML document juxtaposed in the horizontal direction and cannot be grouped. Therefore, the central processing unit refers to the arrangement of the elements of the child HTML document.
  • the hi element and two table elements which are the elements of the child's HTML document, are!, And since there is no element of the HTML document juxtaposed in the horizontal direction, group processing cannot be performed. Refers to the arrangement of elements in the child's HTML document.
  • the hi element since there is no element in the child HTML document as shown in FIG. 5, the hi element is stored in the memory device as a component of the first layout.
  • the tr element which is the element of the child's HTML document, cannot be grouped because there is no element of the HTML document juxtaposed in the horizontal direction.
  • the arrangement of elements in the child's HTML document As shown in Fig. 7, the td element which is the element of the child HTML document has no elements of the HTML document juxtaposed in the horizontal direction and cannot be grouped! / Td required
  • the element is stored in the memory device as a component of the second layout.
  • the two tr elements that are the elements of the child's HTML document cannot be grouped because there are no elements of the HTML document juxtaposed in the horizontal direction.
  • the arithmetic unit further refers to the arrangement of the elements of the child's HTML document.
  • the two td elements that are the elements of the child's HTML document are juxtaposed in the horizontal direction. Is stored in the memory device as a component of the third layout. Even if the second tr element is V ⁇ , the two td elements, which are the elements of the child's HTML document, are juxtaposed in the horizontal direction as shown in Fig. 7. Is stored in the memory device as a component of the fourth layout.
  • the layout of the first layer shown in FIG. 8 is analyzed.
  • the elements of the HTML document arranged in the vertical direction are grouped by referring to the arrangement of the HTML document elements belonging to the layout elements of the first layer.
  • the central processing unit further refers to the arrangement of the elements of the child HTML document. Since the first td element has no child HTML document element as shown in FIG. 9, the td element is stored in the memory device as a component of the layout. As for the second td element, there is no child HTML document element as shown in FIG. 9, so the td element is stored in the memory device as a component of the layout.
  • the layout of the second layer is analyzed.
  • the central processing unit obtains information on the analyzed layout components and their hierarchical relationship from the memory device, and expresses the layout components using reference to the elements of the HTML document, for example, a diagram. Format into the format shown in 10 and output to the outside.
  • a personal computer is provided as a data processing device and a data storage device.
  • the personal computer includes an input unit, a layout analysis unit, an output unit, and a title analysis unit.
  • a central processing unit that functions as a memory, a rendering result storage unit, a memory device that functions as an analysis result storage unit, and a magnetic disk storage device.
  • the magnetic disk storage device stores a title analysis rule as shown in FIG.
  • HTML document shown in FIG. 3 will be described as a structured 'semi-structured document'.
  • the central processing unit acquires an HTML document from the outside, renders the document, and stores the rendering result shown in FIG. 3 in a memory device.
  • the central processing unit acquires the rendering result and the title analysis rule, and uses the body element as an element of the processing target HTML document. If the name, attribute, style, and content of the body element are matched with the title analysis rule, the rule does not match. Therefore, the child element of the body element, that is, the hi element and the two table elements are newly processed HTML documents And the hi element is the element of the next HTML document to be processed.
  • the hi element is stored in the memory device as the title, and the first table element is the next processing target HTML document. Element. Repeat the above process until there are no more HTML document elements to process.
  • the HTML document element to be processed is the first td element of the first tr element of the second table element
  • the name, attribute, style, and content of the td element are checked against the title analysis rule. To do. If the td element has a background color specified, the height is 50px, and the content is 5 characters, the td element is stored in the memory device as a title because it matches the matching rule. With the above process, the title shown in Fig. 14 is analyzed.
  • the central processing unit obtains the analyzed title information from the memory device, and formats the title into a format that is expressed using the reference of the elements of the HT ML document, for example, the format shown in FIG. Output to the outside.
  • a third embodiment of the present invention will be described with reference to the drawings.
  • the powerful example corresponds to the third embodiment of the present invention.
  • a personal computer is provided as a data processing device and a data storage device.
  • the personal computer includes a central processing unit that functions as an input unit, a layout analysis unit, an output unit, a basic layout analysis unit, a title analysis unit, and a layout analysis unit F, and rendering. It has a memory device that functions as a result storage unit, an analysis result storage unit, and a magnetic disk storage device. Also, a title analysis rule is stored in the magnetic disk storage device.
  • HTML document shown in FIG. 3 will be described as a structured 'semi-structured document'.
  • the central processing unit acquires an HTML document from the outside, renders the document, and stores the rendering result shown in FIG. 3 in a memory device.
  • the central processing unit obtains the rendering result and analyzes the layout components and their hierarchical relationships. This function and operation are the same as those shown in the first embodiment.
  • the central processing unit obtains the rendering result and the title analysis rule, and analyzes the title. This function and operation are the same as those shown in the second embodiment.
  • the central processing unit obtains the analyzed layout components, their hierarchical relationships, and titles, and first analyzes the layout components of the first hierarchy.
  • the layout component given by the first td element under the first tr element under the first table element under the bod y element has no title, so the layout component with the title Group with other layout components that do not have titles.
  • the layout element given by the layout element with the title ie, the hi element under the body element
  • the layout element with the title is the closest to the top of the source in view of the component element power.
  • Grouped with other components and stored in the memory device as new layout components.
  • the above processing is performed for the layout elements that do not have all titles, and the new layout elements in the first layer shown in FIG. 20 are analyzed.
  • the new layout elements of the second hierarchy can be analyzed.
  • the central processing unit obtains information on the analyzed components outside the layer and their hierarchical relationships, and information on the correspondence between each component and title, and acquires the new layout component and title. It is formatted into a format that is expressed using the reference of the element of the HTML document, for example, the format shown in Fig. 21, and output to the outside.
  • This embodiment includes a personal computer as a data storage device.
  • the personal computer functions as a central processing unit that functions as an input unit, a document input unit, a table of contents document output unit, and an item document output unit, and a structured / semi-structured document storage unit and a document storage unit outside the layer. It has a memory device and a magnetic disk device.
  • the HTML document shown in FIG. 24A will be described as a structured “semi-structured document”, and the XML document shown in FIG. 24B will be described as a document in which the layout information of the HTML document is described.
  • the central processing unit obtains the URL via the network, and the corresponding figure.
  • the HTML document shown in 24A is acquired and stored in the memory device.
  • the central processing unit also analyzes the HTML document, obtains the URL of the document describing the layout information of the document, http: // www. Nec. Co.jp/news. Yes Acquires the XML document shown in FIG. 24B and stores it in the memory device.
  • the central processing unit obtains an HTML document and an XML document from the memory device, and all layout components from the XML document, urn: layout: 1, urn: layout: 2, urn: layout: 2: 1 , Urn: layout: 2: 2 is extracted, and the elements of the HTML document corresponding to the title for each layout component, / body [l] / hl [l], / body [1] / table [2] / tr [1] Ztd [1] / table [1] Ztr [1], / body [1] / table [2] / tr [l] / td [2] / table [1] Ztr [l] Extract.
  • the HTML document element corresponding to the title is compared with the HTML document, the contents, “major-use”, “politics”, and “economy” are extracted, and the HTML document element such as the A element is added.
  • the table of contents document with the rendering image shown in Fig. 25 is generated by arranging in order.
  • the generated table of contents document is presented to the user via a network or a mobile phone web browser.
  • the central processing unit acquires this information via the network, and the layout component having “politics” as the title from the XML document, urn: layout: 2: 1 is extracted, and the element of the HTML document belonging to the component, Zbody [l] Ztabl e [2] Ztr [l] Ztd [l], is further extracted. Also configuration The HTML document elements corresponding to the elements are compared with the HTML document, the contents are extracted, and the HTML document elements for navigation including links to the table of contents are added and arranged in order. Generate a document on the contents of “politics” with the rendered image shown in 26. The generated document is presented to the user via a network or a mobile phone web browser. If the user chooses a table of contents from the presented document
  • the central processing unit again generates a table of contents document and presents it to the user. In addition, if “Previous” or “Next” is selected from the same document, the central processing unit generates a document related to the contents of “Main News” and “Economy” that are the next and previous items of “Politics” Present to the user.
  • the personal computer has a central processing unit that functions as a document input unit and a composite document output unit, a structured 'semi-structured document storage unit, a memory device that functions as a layout document storage unit, and a magnetic disk device. ing. Further, the magnetic disk device stores information on output components as shown in FIG.
  • the HTML document shown in FIGS. 24A and 30A is structured as a “semi-structured” document, and the document in which the layout information of each HTML document is described is shown in FIGS. 24B and 30B.
  • the explanation is for the XML document shown.
  • the central processing unit is described in the information about the output component, http: // www. N ec. Co. Jpz news, html and http:, / www. Nec. Co. JpZ stock, html 2
  • One URL is acquired, and the corresponding HTML document shown in FIGS. 24A and 30A is acquired and stored in the memory device.
  • the central processing unit analyzes each HTML document and URL of the document where the layout information of the document is described, http: //www.nec.co.jp/news, rdf and http: // www. nec. co.jp/stock, rdf is acquired, and the corresponding XML documents shown in FIGS. 24B and 30B are acquired and stored in the memory device.
  • the central processing unit obtains the ID of the component to be output of the document corresponding to the two URLs, urn: layout: 2: 1, urn: layout: 1, from the information about the output component.
  • the central processing unit obtains HTML and XML documents from the memory device and outputs them from the XML document.
  • JpZ stock, html l] Ztable [l] is extracted, and the HTML document element corresponding to the component to be output here is checked against the HTML document, formatted, and arranged in order to generate a composite document with the rendered image shown in Figure 31.
  • the generated composite document is presented to the user via, for example, a network or a Web browser of a mobile phone.
  • a sixth embodiment of the present invention will be described with reference to the drawings.
  • the powerful example corresponds to the ninth embodiment of the present invention.
  • a personal computer is provided as a data processing device and a data storage device.
  • the personal computer includes a central processing unit that functions as an input unit, a layout analysis unit, an output unit, a basic layout analysis unit, a title analysis unit, a layout analysis unit F, a block selection unit, and a section calculation unit, and a rendering result storage. And a memory device that functions as an analysis result storage unit, and a magnetic disk storage device. In addition, the title analysis rules are stored in the magnetic disk storage device.
  • the central processing unit acquires an HTML document from the outside, renders the document, and stores the rendering result in a memory device.
  • the central processing unit obtains the rendering result and analyzes the components of the first layout and their hierarchical relationships. This function and operation are the same as those shown in the first embodiment.
  • the central processing unit obtains the rendering result and the title analysis rule, and analyzes the title. This function and operation are the same as those shown in the second embodiment.
  • the central processing unit acquires the analyzed first layout and second layout, selects one component of the second layout that can be divided, and configures the first layout that constitutes this Elements are analyzed.
  • Figure 38 shows the state during the analysis.
  • the second layout component consisting of Zbody [l] Zdiv [2] to div [6] is the first layout component that composes Zbody [l] Zdiv [2], / body [l] / div [3], ⁇ , Zb ody [l] Zdiv [6] each has two or more components with titles Therefore, it is a component of the second layout that can be divided.
  • the central processing unit obtains the analyzed title and selects the title included in the component of the first layout to be analyzed as shown in FIG. Furthermore, the position of the selected title is checked, and as shown in Fig. 40, the left end of the title consisting of Zbody [1] / div [2] located at the leftmost position within the specified distance in the horizontal direction starts from the left end of the title.
  • the title consisting of Zbody [1] / div [2] and the title consisting of Zbody [l] Zdiv [4] are selected as the main titles.
  • the components of the first layout containing the main titles are the main components.
  • a method of selecting main titles a method of selecting titles with similar styles such as background color as main titles as shown in Fig. 42, or a certain number based on position as shown in Fig. 43.
  • a method of selecting a certain percentage of titles as main titles or a method of selecting main titles by combining similarities of position and style may be used.
  • the boundary line is determined by the width and height of the first layout component to be analyzed, the style of the boundary of the document description element that constitutes the component, and the document description element that constitutes the component. The width or height of the image that is the content may be used.
  • the central processing unit groups non-major components based on major components, or other major components, and the distance on the source. Generate the layout components of. For example, the non-major component consisting of Zbody [l] Zdiv [3] is grouped with the closest major component, Zbody [l] Zdiv [2], which is directed to the top on the source.
  • the two new second layout components analyzed here are stored in the memory device as children of the original second layout components.
  • the analyzed second layout component may be stored in the memory device in place of the original second layout component, or the original second layout component or analyzed. Depending on the style and content of the components in the second layout, you may choose to remember the replacement or remember as a child.
  • the components of the second layout and their hierarchical relationships can be completely analyzed.
  • the central processing unit obtains information on the analyzed components outside the second layer and their hierarchical relationships, and information on the correspondence between each component and the title from the memory device, and the components of the second layout And the title are formatted using a reference to the element of the HTML document, for example, the format shown in the third embodiment, and output to the outside.
  • IDs may be given to the layout components and output.
  • the first document analysis system of the present invention obtains a rendering result of a structured 'semi-structured' document, refers to the arrangement of the document description elements, and groups the arranged document description elements.
  • a basic layout analysis unit (14 in Fig. 1) that analyzes the layout, and an output unit (13 in Fig. 1) that outputs the analyzed layout in a format that expresses the components of the layout using references to document description elements.
  • the second document analysis system of the present invention acquires a title analysis rule storage unit (23 in Fig. 11) that stores the title analysis rule, a rendering result of the structured 'semi-structured document', and a title analysis rule.
  • the title analysis unit (15 in Fig. 11) analyzes the title by matching the attribute, style, and content with the title analysis rule, and the analyzed title is referred to the document description element. It has an output section (13 in Fig. 11) that outputs in a format that is used.
  • Employing this structure comprehensively analyze the title using the attribute, style, and content in addition to the name of the document description element, and output the analyzed title in a format that can be used by a third party.
  • the third document analysis system of the present invention acquires a title analysis rule storage unit (23 in FIG. 16) that stores title analysis rules, a rendering result of the structured “semi-structured document”, and a document description
  • the basic layout analysis unit (14 in Fig. 16) analyzes the layout by grouping the document description elements that are juxtaposed with reference to the arrangement of the elements, and the rendering result and title analysis rules of the structured 'semi-structured document' In addition to the name of the document description element, the title analysis unit (15 in Fig.
  • the layout analysis unit (16 in Fig. 16) generates a new layout by grouping it with the component of the layout, and represents the analyzed new layout using the reference of the document description element as the layout component and title.
  • the first document adaptation system of the present invention obtains URIs (Uniform Resource Identifiers) of the user's desired structured 'semi-structured document', obtains user input, Acquires the document corresponding to the URI of the structured 'semi-structured document' desired by the user and the input unit that controls the output of the document describing the contents of the item (51 in Fig. 22), and corresponds to the acquired document
  • a document input unit (52 in FIG. 22) that acquires a document that describes layout information to be acquired, and a document that describes the structured semi-structured document desired by the user and the layout information of the document are acquired.
  • a table of contents document output section (53 in Fig.
  • the second document adaptation system of the present invention acquires an output component storage unit (81 in FIG. 27) that stores information related to the output component, and acquires information related to the output component, and corresponds to the URI described in the information.
  • Structured ⁇ Acquires a semi-structured document, and a document input part (71 in Fig. 27) for acquiring a document describing layout information corresponding to the acquired document, and information and structure on output components It has a synthetic document output unit (72 in Fig. 27) that acquires a semi-structured document and a document that describes the layout information of the document, generates a synthetic document, and outputs it.
  • the information about the output component and the structured 'semi-structured document' and the document with the layout information that appropriately reflects the logical structure of the document are used to specify the specified layout.
  • the information about the output component and the structured 'semi-structured document' and the document with the layout information that appropriately reflects the logical structure of the document are used to specify the specified layout.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 本発明は、提供者が意図するレイアウト解析、網羅的なタイトル解析が可能で、解析されたレイアウトを第三者が利用できる文書解析システムを提供する。入力部11は、構造化・半構造化文書を取得、レンダリングする。基本レイアウト解析部14は、レンダリング結果を取得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化しレイアウトを解析する。タイトル解析部15は、レンダリング結果、タイトル解析ルール記憶部23からタイトル解析ルールを取得し、文書記述要素の名前、属性、スタイル、内容をタイトル解析ルールと照合しタイトルを解析する。レイアウト解析部16は、レイアウトの構成要素とその階層関係、タイトルを取得し、レイアウトの構成要素をグループ化し新しいレイアウトを生成する。出力部13は、新しいレイアウトの構成要素とその階層関係、各構成要素とタイトルとの対応関係を取得し、これらを文書記述要素の参照を用いて表現する形式に整形し出力する。

Description

明 細 書
文書解析システム、及び文書適応システム
技術分野
[0001] 本発明は、構造化'半構造ィ匕文書からレイアウトを解析できる文書解析システム、文 書解析方法、文書解析用プログラム、及び構造化'半構造化文書をレイアウトを利用 して環境に適応できる文書適応システム、文書適応方法、文書適応プログラムに関 する。
背景技術
[0002] 従来の文書解析システム、文書適応システムは、構造化'半構造化文書をレイァゥ トを保持したまま所望の表示条件で表示するため、文書記述要素の区切りの強さを 用いてレイアウトを解析し、解析されたレイアウトの構成要素に表示領域を割り当て、 構成要素の情報を各表示領域内に拡大表示といった所望の表示条件で表示したり 、構成要素内のタイトルを各表示領域内に選択的に表示したりしていた (特開 2001 184344号公報参照)。
[0003] ここで、文書記述要素とは、構造化'半構造化文書の記述単位となる要素を指し、 例えば、 HTML文書における、 TABLE要素、 A要素といった HTMLタグの要素を 指す。また、レイアウトの構成要素とは、画面に代表される表示面を構成する、関連 情報力 なる部分領域を指し、例えば、 HTML文書におけるある見出しの関連情報 からなる部分領域を指す。
[0004] また、画面表示に適した文書を生成するため、文書記述要素の名前を用いたルー ルに従い特定の名前を持つ文書記述要素から目次文書を生成したり、目次の項目 の内容を記述した文書を生成したりして 、た (特開平 9 - 251457号公報参照)。
[0005] 更に、ユーザが所望する文書を生成するため、構造化'半構造化文書の URL、各 文書の必要情報の存在箇所を示す文書記述要素の参照、当該必要情報を表示す る領域に関するルールに従 、必要情報からなる合成文書を生成して 、た (特開 200 4 139275号公報参照)。
[0006] 本発明に関連して、特開平 10— 289250号公報は、登録された URLの一覧を表 示する際に、タイトル情報のみならず画像情報も表示させることにより、登録された U RLのページがどのようなページであつたかを直感的に認識可能にする技術を開示し ている。
[0007] 特開平 11 203285号公報は、文書要素の行内位置を示す行属性を各行毎に決 定し、文書要素を構成する各形態素の意味と文書要素の所属行の行属性とに基づ いて文書要素の意味を各行毎に決定し、元文書の各文書要素を的確に意味付けす る技術を開示している。
[0008] 特開 2003— 85159号公報は、所望の構造化文書群の先頭文書を解析して自動 的に目次を作成し、この目次と関連文書の画像データを合成することにより、読みや す 、文書をユーザに提供する技術を開示して 、る。
[0009] 特開 2004— 86855号公報は、文書の内容と目次とを相互に参照しながら文書の 作成編集を行うことを容易にするための技術を開示している。具体的には、この公知 の技術では、文書の目次を生成する際に、目次項目に対応する文書内容情報を生 成するためのリンクが埋め込まれる。そして、そのリンクを指示することによって、その 目次項目を含む文書内容情報が生成される。生成の際に、目次の出力を指示する ためのリンクを文書内容情報中に埋め込んでおく。文書内容情報中のリンクを指示 することによって、その文書の内容に対応する目次項目を含む目次が生成される。こ の場合も、目次項目に対応する文書内容情報を生成するためのリンクが目次に埋め 込まれる。
[0010] 特開 2003— 288334号公報は、複数ページ力もなる印刷文書力もタグ付けされた 構造文書を高精度に生成するための技術を開示している。
[0011] 特開 2003— 330856号公報は、ズーム状態を変更する操作に応じてレイアウト生 成及び情報粒度の調整を動的に行うことにより、コンテンツの局所的な情報と大域的 な情報の両方に快適にアクセスすることを可能にする技術を開示している。
[0012] 従来技術における第 1の問題点は、構造化'半構造化文書の文書解析システムに おいて、文書提供者が意図するレイアウトを必ずしも解析できないことである。その理 由は、文書の記述方法は多様であるため、文書記述要素の区切りの強さを用いたレ ィアウト解析では文書提供者が意図するレイアウトを必ずしも解析できな 、な 、から である。
[0013] 従来技術における第 2の問題点は、構造化'半構造化文書の文書解析システムに おいて、一部のタイトルしか解析できないことである。その理由は、一般的にタイトル は文書記述要素の名前、属性、スタイル、内容を用いて表現されるため、文書記述 要素の名前のみを用いたルールに従うタイトル解析では一部のタイトルし力解析でき ないからである。
[0014] 従来技術における第 3の問題点は、構造化'半構造化文書の文書解析システムに おいて、第三者が解析されたレイアウトの情報を利用しアプリケーションソフトウェアを 開発できないことである。その理由は、従来の文書解析システムが、解析されたレイ アウトの情報を第三者が利用できる形式で出力しないからである。
[0015] 従来技術における第 4の問題点は、構造化'半構造化文書の文書適応システムに おいて、文書提供者が意図する文書の論理構造を的確に捉えて、文書をネットヮー ク、端末、ユーザの環境に適応できないことである。その理由は、文書記述要素の名 前を用いたルールに従 ヽ目次文書を生成する場合、一部のタイトルし力解析できず 目次文書を正しく生成できないからである。また、文書の URL (Uniform Resourc e Locator)、文書の必要情報の存在箇所を示す文書記述要素の参照を用いてュ 一ザが定義したルールに従 、合成文書を生成する場合、文書更新時にユーザが所 望する合成文書を正しく生成できない場合があり、これらのルールでは文書提供者 が意図する文書の論理構造を的確に捉えられないからである。
発明の開示
[0016] 本発明の第 1の目的は、文書提供者が意図するレイアウトを解析できる文書解析シ ステムを提供することにある。
本発明の第 2の目的は、タイトルを網羅的に解析できる文書解析システムを提供す ることにめる。
本発明の第 3の目的は、第三者が利用しアプリケーションソフトウェアを開発できる 形式でレイアウトの情報を出力できる文書解析システムを提供することにある。
本発明の第 4の目的は、文書提供者が意図する文書の論理構造を的確に捉えて、 文書をネットワーク、端末、ユーザの環境に適応できる文書適応システムを提供する ことにある。
[0017] 本発明の一の観点において、文書解析システムは、構造化文書又は半構造化文 書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記 述要素をグループ化して前記構造化文書又は前記半構造化文書のレイアウトを解 析する基本レイアウト解析部を具備する。
[0018] 本発明の文書解析システムは、構造化文書又は半構造化文書の文書記述要素の 名前、属性、スタイル、内容のいずれか 1つ以上の値に基づくタイトル解析ルールを 記憶するタイトル解析ルール記憶部と、前記構造化文書又は前記半構造化文書に 含まれる文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上と前記タイ トル解析ルールとを照合してタイトルを解析するタイトル解析部と、前記基本レイアウト 解析部で解析された前記レイアウトと、前記タイトル解析部で解析された前記タイトル とを用いて前記レイアウトの構成要素をグループィ匕し、新しいレイアウトを生成するレ ィアウト解析部を具備する。
[0019] 本発明の文書解析システムにおいて、前記レイアウト解析部は前記基本レイアウト 解析部で解析された前記レイアウトと、前記タイトル解析部で解析された前記タイトル と、前記レイアウト解析部で解析された前記新しいレイアウトとを用いて前記レイアウト の主要な構成要素を選別するブロック選別部と、前記基本レイアウト解析部で解析さ れた前記レイアウトと、前記レイアウト解析部で解析された前記新しいレイアウトと、前 記ブロック選別部で選別された前記レイアウトの主要な構成要素とを用いて前記レイ アウトの構成要素をグループィ匕し、新し 、レイアウトを生成するセクション計算部を具 備する。
[0020] 本発明の文書解析システムにお 、て、前記基本レイアウト解析部は、前記グループ 化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ ィ匕に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する 処理を所定の回数繰り返してレイアウトを解析する。
[0021] 本発明の文書解析システムにお 、て、前記基本レイアウト解析部は、前記グループ 化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ ィ匕に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する 処理を所定の回数繰り返して次階層のレイアウトを解析する。
[0022] 本発明の文書解析システムにおいて、前記基本レイアウト解析部は、前記文書記 述要素のうち一部の指定された文書記述要素のみの配置を参照する。
[0023] 本発明の他の観点において、文書解析システムは、構造化文書又は半構造化文 書の文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上の値に基づく タイトル解析ルールを記憶するタイトル解析ルール記憶部と、前記構造化文書又は 前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれ カゝ 1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するタイトル解析部 とを具備する。
[0024] 本発明の更に他の観点において、文書解析システムは、構造化文書又は半構造 化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含ま れる文書記述要素を参照する表現形式に整形し出力する出力部を具備する。
[0025] 本発明の更に他の観点において、本発明の文書適応システムは、構造化文書又 は半構造化文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が 記述された文書を用いて目次文書を生成、出力する目次文書出力部と、前記構造 化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文書を用いて 目次の項目の内容を記述した文書を生成、出力する項目文書出力部とを具備する。
[0026] 本発明の更に他の観点において、本発明の文書適応システムは、前記構造化文 書又は前記半構造化文書の URI (Universal Resource Identifier)と、前記構造 化文書又は前記半構造ィ匕文書の出力構成要素の IDの組み合わせの集合を出力構 成要素情報として記憶する出力構成要素情報記憶部と、前記出力構成要素情報と 前記出力構成要素情報に記述された URIに対応する前記構造化文書又は前記半 構造ィヒ文書と前記構造ィヒ文書又は前記半構造ィヒ文書に対応するレイァ外の情報 が記述された文書を用いて合成文書を生成し出力する合成文書出力部とを具備す る。
[0027] 本発明の文書解析方法及び文書解析プログラムは、構造化文書又は半構造化文 書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記 述要素をグループ化して前記構造化文書又は前記半構造化文書のレイアウトを解 析するステップを具備する。
[0028] 本発明の文書解析方法及び文書解析プログラムは、前記構造化文書又は前記半 構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上の値 に基づくタイトル解析ルールを記憶するステップと、前記構造化文書又は前記半構 造化文書に含まれる前記文書記述要素の名前、属性、スタイル、内容のいずれか 1 つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップと、前記解 析されたレイアウトと前記解析されたタイトルを用いて前記レイアウトの構成要素をグ ループ化し、新 、レイアウトを生成するステップを具備する。
[0029] 本発明の文書解析方法及び文書解析プログラムは、前記レイアウトを解析するステ ップにお 1、て、前記グループ化された文書記述要素以下の前記文書記述要素の配 置を参照し、直前のグループ化に用!ヽられた方向の直交方向に並置された前記文 書記述要素をグループ化する処理を所定の回数繰り返してレイアウトを解析するステ ップを具備する。
[0030] 本発明の文書解析方法及び文書解析プログラムは、前記レイアウトを解析するステ ップにお 1、て、前記グループ化された文書記述要素以下の前記文書記述要素の配 置を参照し、直前のグループ化に用!ヽられた方向の直交方向に並置された前記文 書記述要素をグループ化する処理を所定の回数繰り返して次階層のレイアウトを解 析するステップを具備する。
[0031] 本発明の文書解析方法及び文書解析プログラムは、前記レイアウトを解析するステ ップにおいて、前記文書記述要素のうち一部の指定された文書記述要素のみの配 置を参照する。
[0032] 本発明の文書解析方法及び文書解析プログラムは、構造化文書又は半構造化文 書の文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上の値に基づく タイトル解析ルールを記憶するステップと、前記構造化文書又は前記半構造化文書 に含まれる文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上と前記タ ィトル解析ルールとを照合してタイトルを解析するステップとを具備する。
[0033] 本発明の文書解析方法及び文書解析プログラムは、構造化文書又は半構造化文 書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる 文書記述要素を参照する表現形式に整形し出力するステップを具備する。
[0034] 本願発明の文書適応方法及び文書適応プログラムは、構造化文書又は半構造ィ匕 文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文 書を用いて目次文書を生成、出力するステップと、前記構造化文書又は前記半構造 化文書と、前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記 述した文書を生成、出力するステップとを具備する。
[0035] 本発明の文書適応方法及び文書適応プログラムは、構造化文書又は半構造化文 書の URIと、前記構造化文書又は前記半構造化文書の出力構成要素の IDの組み 合わせの集合を出力構成要素情報として出力構成要素情報記憶部に記憶するステ ップと、前記出力構成要素情報と、前記出力構成要素情報に記述された URIに対応 する前記構造化文書又は前記半構造化文書と、前記構造化文書又は前記半構造 化文書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成、出 力するステップとを具備する。
[0036] 第 1の効果は、文書提供者が意図するレイアウトを解析できることである。その理由 は、文書記述要素の配置に基づきレイアウトを解析するからである。また、文書記述 要素の配置に基づき解析されたレイアウトと、文書記述要素の名前に加え、属性、ス タイル、内容を用いて解析されたタイトルを用いて、先に解析されたレイアウトの構成 要素をグループ化することでタイトルなどをキーとする関連した構成要素の集合を新 LV、構成要素とする新 、レイアウトを生成するからである。
[0037] 第 2の効果は、タイトルを網羅的に解析できることである。その理由は、文書記述要 素の名前にカ卩え、属性、スタイル、内容を用いてタイトルを解析する力もである。
[0038] 第 3の効果は、第三者が利用しアプリケーションソフトウェアを開発できる形式でレイ アウトの情報を提供できることである。その理由は、解析されたレイアウトとタイトルを、 レイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式で出力 するカゝらである。
[0039] 第 4の効果は、文書提供者が意図する文書の論理構造を利用して、文書をネットヮ ーク、端末、ユーザの環境に適応できることである。その理由は、構造化'半構造ィ匕 文書に加え、文書提供者が意図する文書の論理構造を反映するレイアウトの情報が 記述された文書を用いて、文書を環境に適応するからである。
[0040] 他にも、本発明は、文書の概要を表示する機能や音声読み上げする機能、文書の 項目を選択的に表示する機能といった文書の論理構造を利用した文書閲覧システ ムゃ、文書閲覧システムをコンピュータに実現するためのプログラムといった用途に 適用できる。また、文書の概要を生成する機能や概要に応じて文書を分割する機能 、文書の項目を選択的に合成する機能といった文書の論理構造を利用した文書変 換システムや、文書変換システムをコンピュータに実現するためのプログラムと 、つた 用途にも適用できる。
図面の簡単な説明
[0041] [図 1]本発明の第 1の発明を実施するための実施形態の構成を示すブロック図である
[図 2]本発明の第 1の発明を実施するための実施形態の動作を示す流れ図である。
[図 3]HTML文書の例を示す図である。
[図 4]本発明の第 1の実施形態を説明するための図である。
[図 5]本発明の第 1の実施形態を説明するための図である。
[図 6]本発明の第 1の実施形態を説明するための図である。
[図 7]本発明の第 1の実施形態を説明するための図である。
[図 8]本発明の第 1の実施形態を説明するための図である。
[図 9]本発明の第 1の実施形態を説明するための図である。
[図 10]本発明の第 1の実施形態の出力形式の例を示す図である。
[図 11]本発明の第 2の発明を実施するための実施形態の構成を示すブロック図であ る。
[図 12]本発明の第 2の発明を実施するための実施形態の動作を示す流れ図である。
[図 13]本発明の第 2の実施形態のタイトル解析ルールの例を示す図である。
[図 14]本発明の第 2の実施形態を説明するための図である。
[図 15]本発明の第 2の実施形態の出力形式の例を示す図である。
[図 16]本発明の第 3の発明を実施するための実施形態の構成を示すブロック図であ る。 圆 17]本発明の第 3の発明を実施するための実施形態の動作を示す流れ図である。 圆 18]本発明の第 3の実施形態を説明するための図である。
圆 19]本発明の第 3の実施形態を説明するための図である。
圆 20]本発明の第 3の実施形態を説明するための図である。
圆 21]本発明の第 3の実施形態の出力形式の例を示す図である。
圆 22]本発明の第 4の発明を実施するための実施形態の構成を示すブロック図であ る。
圆 23]本発明の第 4の発明を実施するための実施形態の動作を示す流れ図である。
[図 24A]HTML文書と XML文書の例のうち HTML文書を示す図である。
[図 24B]HTML文書と XML文書の例のうち XML文書を示す図である。
圆 25]本発明の第 4の実施形態の目次文書の例を示す図である。
[図 26]本発明の第 4の実施形態の項目文書の例を示す図である。
圆 27]本発明の第 5の発明を実施するための実施形態の構成を示すブロック図であ る。
圆 28]本発明の第 5の発明を実施するための実施形態の動作を示す流れ図である。 圆 29]本発明の第 5の実施形態の出力構成要素に関する情報の例を示す図である。
[図 30A]HTML文書と XML文書の例のうち HTML文書を示す図である。
[図 30B]HTML文書と XML文書の例のうち XML文書を示す図である。
圆 31]本発明の第 5の実施形態の合成文書の例を示す図である。
圆 32]本発明の第 6の実施形態の構成を示すブロック図である。
圆 33]本発明の第 7の実施形態の構成を示すブロック図である。
圆 34]本発明の第 8の実施形態の構成を示すブロック図である。
圆 35]本発明の第 9の実施形態の構成を示すブロック図である。
圆 36]本発明の第 9の実施形態の動作を示す流れ図である。
圆 37]本発明の第 6の実施例を説明するための図である。
[図 38]本発明の第 6の実施例を説明するための図である。
[図 39]本発明の第 6の実施例を説明するための図である。
[図 40]本発明の第 6の実施例を説明するための図である。 [図 41]本発明の第 6の実施例を説明するための図である。
[図 42]本発明の第 6の実施例を説明するための図である。
[図 43]本発明の第 6の実施例を説明するための図である。
[図 44]本発明の第 6の実施例を説明するための図である。
[図 45]本発明の第 6の実施例を説明するための図である。
発明を実施するための最良の形態
[0042] 以下に本発明の実施形態について添付図面を参照して説明する。図 1を参照する と、本発明の第 1の実施形態のシステムは、プログラム制御により動作するデータ処 理装置 1と、情報を記憶する記憶装置 2とを含む。
[0043] データ処理装置 1は、入力部 11と、レイアウト解析ツール 12と、出力部 13とを備え る。記憶装置 2は、レンダリング結果記憶部 21、解析結果記憶部 22とを備える。
[0044] 入力部 11は、外部から構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし 、レンダリング結果をレンダリング結果記憶部 21に記憶する。レイアウト解析ツール 1 2は、基本レイアウト解析部 14を有する。出力部 13は、解析結果記憶部 22からレイ アウトの構成要素とその階層関係の情報を取得し、レイアウトの構成要素を文書記述 要素の参照を用いて表現する形式に整形し外部に出力する。ここで、レイアウトの構 成要素に IDを与えて出力してもよい。
[0045] 基本レイアウト解析部 14は、レンダリング結果記憶部 21からレンダリング結果を取 得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をダル ープ化することでレイアウトを解析する。具体的には、指定された文書記述要素、例 えば、ルートとなる文書記述要素や既に解析されたレイアウトの構成要素に属する文 書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループィ匕 する。グループ化された文書記述要素、グループ化されず子供の文書記述要素のな い文書記述要素はレイアウトの構成要素として解析結果記憶部 22に記憶する。ダル ープ化されなかった文書記述要素は当該文書記述要素の子供の文書記述要素を 対象に、全ての文書記述要素がグループ化されるまで、又は子供の文書記述要素 がなくなるまで再帰的に処理を繰り返す。
[0046] レンダリング結果記憶部 21は入力部 11の処理結果を、解析結果記憶部 22はレイ アウト解析ツール 12の処理結果をそれぞれ記憶する。
[0047] 以上の処理により、特定階層のレイアウト、つまりレイアウトの構成要素の集合を解 析する。ここで、上記処理により解析されたレイアウトの構成要素について、更に、こ れに属する文書記述要素の配置を参照し、先のグループ化に用いられた方向の直 交方向に並置された文書記述要素をグループィ匕し、先に解析されたレイアウトの構 成要素を置き換える処理を所定の回数繰り返しレイアウトを解析してもよい。また、レ ィアウトの構成要素として解析された文書記述要素が親の文書記述要素力 見て唯 一の子供である場合、当該解析された文書記述要素を親の文書記述要素と置き換 えてもよい。
[0048] 次階層のレイアウトを解析する場合は、先に解析されたレイアウトの各構成要素に ついて再度処理を行う。具体的には、先に解析されたレイアウトの構成要素について これに属する文書記述要素の配置を参照し、一定の方向に並置された文書記述要 素をグループ化した後、グループ化された文書記述要素以下の文書記述要素の配 置を参照し、先のグループ化に用いられた方向の直交方向に並置された文書記述 要素をグループ化する処理を所定の回数繰り返しレイアウトを解析する。ここで、次 階層のレイアウトの解析の最初のグループィ匕に用いる方向として、上位レイアウトの 解析の最後のグループ化に用いられた方向の直交方向を用いてもよい。次階層を解 析する処理を繰り返せば、可能な範囲で任意の階層のレイアウトを解析できる。なお 、上記処理において、文書記述要素として一部の指定された文書記述要素のみの 配置を参照してもよい。以上の処理により、レイアウト、つまりレイアウトの構成要素と その階層関係を解析する。
[0049] 次に、図 1、図 2を参照して本実施の形態の動作について詳細に説明する。入力部 11は、外部力 構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし、レンダリ ング結果をレンダリング結果記憶部 21に記憶する (ステップ S101)。
[0050] 基本レイアウト解析部 14は、レンダリング結果記憶部 21からレンダリング結果を取 得し、処理対象階層 nを 1とし (ステップ S 102)、当該処理対象階層について処理を 継続するかどうかを判定する (ステップ S103)。判定基準としては、処理階層の上限 値、解析された基本レイアウトの大きさを用いることができる。基本レイアウト解析部 1 4は、処理を «I続しないと判定した場合、ステップ S 107に進む。
[0051] 基本レイアウト解析部 14は、ステップ S103で処理を継続すると判定した場合、処 理対象となる文書記述要素を取得する (ステップ S 104)。
[0052] 基本レイアウト解析部 14は、処理対象となる文書記述要素の配置を参照し、一定 の方向に並置された文書記述要素をグループィ匕することでレイアウトを解析し、上位 階層のレイアウトの構成要素と関連付けて解析結果記憶部 22に記憶する (ステップ S
105)。
[0053] 基本レイアウト解析部 14は、処理対象階層 nを n+ 1とし (ステップ S106)、ステップ S 103以降の処理を繰り返す。
[0054] 出力部 13は、解析結果記憶部 22からレイアウトの構成要素とその階層関係の情報 を取得し、レイアウトの構成要素を文書記述要素の参照を用いて表現する形式に整 形し外部に出力する (ステップ S107)。
[0055] 本実施の形態では、構造化'半構造化文書の文書記述要素の配置を参照し並置 された文書記述要素をグループィ匕することでレイアウトを解析するので、文書記述要 素の配置に基づくレイアウトを解析できる。このため、記述方法が多様な構造化'半 構造ィ匕文書においても、文書提供者が意図するレイアウトを解析できる。また、レイァ ゥトを文書記述要素の参照を用いて表現する形式で出力するので、第三者がレイァ ゥトの情報を利用した応用アプリケーションを開発できる。
[0056] 次に、本発明の第 2の実施形態について図面を参照して詳細に説明する。図 11を 参照すると、本発明の第 2の実施形態は、プログラム制御により動作するデータ処理 装置 1と、情報を記憶する記憶装置 2とを含む。
[0057] データ処理装置 1は、入力部 11と、レイアウト解析ツール 12と、出力部 13とを備え る。記憶装置 2は、レンダリング結果記憶部 21、解析結果記憶部 22、タイトル解析ル ール記憶部 23とを備える。
[0058] 入力部 11は、外部から構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし 、レンダリング結果をレンダリング結果記憶部 21に記憶する。レイアウト解析ツール 1 2は、タイトル解析部 15を有する。出力部 13は、解析結果記憶部 22からタイトルの集 合を取得し、タイトルを文書記述要素の参照を用いて表現する形式に整形し外部に 出力する。
[0059] レンダリング結果記憶部 21は入力部 11の処理結果を、解析結果記憶部 22はレイ アウト解析ツール 12の処理結果をそれぞれ記憶する。タイトル解析ルール記憶部 23 は、タイトル解析ルール、すなわちタイトル判定の基準となる、文書記述要素の名前、 属性、スタイル、内容の値に基づくルールを予め記憶する。
[0060] タイトル解析部 15は、レンダリング結果記憶部 21からレンダリング結果を、タイトル 解析ルール記憶部 23からタイトル解析ルールを取得し、文書記述要素の名前に加 え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析する。 具体的には、指定された文書記述要素、例えば、ルートとなる文書記述要素、を処理 対象要素とし、処理対象要素について文書記述要素の名前、属性、スタイル、内容 をタイトル解析ルールと照合する。照合の結果タイトルと判定した場合、当該文書記 述要素をタイトルとして解析結果記憶部 22に記憶し、未処理の処理対象要素があれ ばこれを対象に処理を続ける。
[0061] タイトルでな 、と判定した場合、当該文書記述要素の子供の文書記述要素を新た に処理対象要素とし、未処理の処理対象要素がなくなるまで処理を続ける。ここで、 タイトル解析ルールとしては、「属性が文書内で唯一である」、「背景色や背景ィメー ジが使用されている」、「文書内での使用頻度が低い文字色や文字サイズが使用さ れて 、る」と!、つたレンダリングイメージ上での文書記述要素の特異性に基づくルー ルを用いることができる。なお、上記処理において、文書記述要素として同じ名前、 属性、スタイルを持つ複数の文書記述要素をグループィ匕したものを用いてもよい。以 上の処理により、タイトルの集合を解析し解析結果記憶部 22に記憶する。
[0062] 次に、図 11、図 12を参照して本実施の形態の動作について詳細に説明する。入 力部 11は、外部力 構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし、レ ンダリング結果をレンダリング結果記憶部 21に記憶する (ステップ S201)。
[0063] タイトル解析部 15は、レンダリング結果記憶部 21からレンダリング結果を、タイトル 解析ルール記憶部 23からタイトル解析ルールをそれぞれ取得し、処理対象となる文 書記述要素を取得する (ステップ S202)。
[0064] タイトル解析部 15は、処理対象の文書記述要素の有無を確認し、処理対象となる 文書記述要素がないと判定した場合、ステップ S208に進む (ステップ S203)。
[0065] タイトル解析部 15は、ステップ S203で処理対象となる文書記述要素があると判定 した場合、当該文書記述要素の名前や属性、スタイル、内容をタイトル解析ルールと 照合する (ステップ S 204)。
[0066] タイトル解析部 15は、ステップ S204で照合によりタイトルでな 、と判定した場合、又 はステップ S206で文書記述要素をタイトルとして記憶した場合、次の処理対象となる 文書記述要素を取得し、当該文書記述要素についてステップ S203以下の処理を行 う(ステップ S 205)。
[0067] タイトル解析部 15は、ステップ S204で照合によりタイトルであると判定した場合、当 該文書記述要素をタイトルとして解析結果記憶部 22に記憶し、ステップ S205に進む (ステップ 206)。
[0068] 出力部 13は、解析結果記憶部 22からタイトルの集合を取得し、タイトルを文書記述 要素の参照を用いて表現する形式に整形し外部に出力する (ステップ S207)。
[0069] 次に、本実施の形態の効果について説明する。本実施の形態では、構造化'半構 造化文書の文書記述要素の名前に加え、属性、スタイル、内容を用いてタイトルを解 祈するので、属性やスタイルを用いて表現されたタイトルも解析できる。このため、タイ トルを網羅的に解析できる。また、タイトルを文書記述要素の参照を用いて表現する 形式で出力するので、第三者力タイトルの情報を利用した応用アプリケーションを開 発できる。
[0070] 次に、本発明の第 3の実施形態について図面を参照して詳細に説明する。図 16を 参照すると、本発明の第 3の実施形態は、プログラム制御により動作するデータ処理 装置 1と、情報を記憶する記憶装置 2とを含む。
[0071] データ処理装置 1は、入力部 11と、レイアウト解析ツール 12と、出力部 13とを備え る。記憶装置 2は、レンダリング結果記憶部 21、解析結果記憶部 22、タイトル解析ル ール記憶部 23とを備える。
[0072] 入力部 11は、外部から構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし
、レンダリング結果をレンダリング結果記憶部 21に記憶する。
[0073] レイアウト解析ツール 12は、基本レイアウト解析部 14と、タイトル解析部 15と、レイ アウト解析部 16とを有する。
[0074] 出力部 13は、解析結果記憶部 22から新しいレイアウトの構成要素とその階層関係 、及び各構成要素とタイトルとの対応関係を取得し、新しいレイアウトの構成要素とタ イトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する。ここ で、新 、レイアウトの構成要素に IDを与えて出力してもよ 、。
[0075] 基本レイアウト解析部 14は、レンダリング結果記憶部 21からレンダリング結果を取 得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をダル ープ化することでレイアウトを解析する。基本レイアウト解析部 14の機能は、本発明 の第 1の実施の形態の基本レイアウト解析部 14に示す機能と同じである。
[0076] タイトル解析部 15は、レンダリング結果記憶部 21からレンダリング結果を、タイトル 解析ルール記憶部 23からタイトル解析ルールを取得し、文書記述要素の名前に加 え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析する。 タイトル解析部 15の機能は、本発明の第 2の実施の形態のタイトル解析部 15に示す 機能と同じである。
[0077] レイアウト解析部 16は、解析結果記憶部 22から、基本レイアウト解析部 14で解析さ れたレイアウトの構成要素とその階層関係、タイトル解析部 15で解析されたタイトルを 取得し、タイトルを持たな 、レイアウトの構成要素をタイトルを持つレイアウトの構成要 素、又はタイトルを持たな 、別のレイアウトの構成要素とグループ化することで新 ヽ レイアウトを生成する。具体的には、まず第 1階層のレイアウトの構成要素を取得し、 構成要素と構成要素に内包されるタイトルを対応付ける。タイトルを持たない構成要 素は、タイトルを持つ構成要素のうち、例えば、ソース上先頭に向かって最も近いもの とグループィ匕する。最も近いタイトルを持つ構成要素がない場合は、例えば、最も近 V、タイトルを持たな 、構成要素とグループ化する。グループィ匕されたレイアウトの構成 要素は、新しいレイアウトの構成要素として、当該構成要素に属するタイトルとともに 解析結果記憶部 22に記憶する。更に、上記処理を基本レイアウト解析部 14で解析さ れたレイアウトの階層数分繰り返すことで、新しいレイアウトの構成要素とその階層関 係、及び各構成要素とタイトルとの対応関係を解析する。
[0078] レンダリング結果記憶部 21は入力部 11の、解析結果記憶部 22はレイアウト解析ッ ール 12の、それぞれ処理結果を記憶する。タイトル解析ルール記憶部 23は、タイト ル解析ルールを予め記憶する。
[0079] 次に、図 16、図 17を参照して本実施の形態の動作について詳細に説明する。入 力部 11は、外部力 構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし、レ ンダリング結果をレンダリング結果記憶部 21に記憶する (ステップ S301)。
[0080] 基本レイアウト解析部 14の動作は、本発明の第 1の実施の形態に示す基本レイァ ゥト解析部(図 1の 14)の動作と同じである(ステップ S 302〜ステップ S 306)。
[0081] タイトル解析部 15の動作は、本発明の第 2の実施の形態に示すタイトル解析部(図
11の 15)の動作と同じである(ステップ S 311〜ステップ S 316)。
[0082] レイアウト解析部 16は、解析結果記憶部 22から、基本レイアウト解析部 14で解析さ れたレイアウトの構成要素とその階層関係、タイトル解析部 15で解析されたタイトルを 取得し、処理対象階層 nを 1とする (ステップ S321)。
[0083] レイアウト解析部 16は、処理対象階層のレイアウトの構成要素があるかどうかを判 定し、処理対象階層のレイアウトの構成要素がないと判定した場合、ステップ S331 に進む(ステップ S322)。
[0084] レイアウト解析部 16は、ステップ S322で処理対象階層のレイアウトの構成要素があ ると判定した場合、第 n階層のレイアウトの構成要素を取得し (ステップ S323)、第 n 階層のレイアウトの構成要素とタイトルを対応付ける (ステップ S324)。
[0085] レイアウト解析部 16は、タイトルを持たないレイアウトの構成要素をタイトルを持つレ ィアウトの構成要素、又はタイトルを持たな 、別のレイアウトの構成要素とグループィ匕 することで新しいレイアウトの構成要素を解析し、解析結果記憶部 22に記憶する (ス テツプ S325)。
[0086] レイアウト解析部 16は、処理対象階層 nを n+ 1とし、ステップ S322以降の処理を 繰り返す (ステップ S326)。
[0087] 出力部 13は、解析結果記憶部 22から新しいレイアウトの構成要素とその階層関係
、及び各構成要素とタイトルとの対応関係を取得し、新しいレイアウトの構成要素とタ イトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する (ステ ップ S331)。 [0088] ここで、基本レイアウト解析部 14の動作 (ステップ S302〜ステップ S306)と、タイト ル解析部 15の動作 (ステップ S 311〜ステップ S 316)の実行順序を入れ替えてもよ い。具体的には、ステップ S301の直後にステップ S311〜ステップ S316が実行され る形となり、ステップ S312力 S「No」のときステップ S302〜ステップ S306が実行される 。また、この場合、ステップ S303が「No」のときステップ S321に移行する形となる。
[0089] 次に、本実施の形態の効果について説明する。本実施の形態では、文書記述要素 の配置を参照し並置された文書記述要素をグループィヒすることで解析されたレイァ ゥトと、文書記述要素の名前に加え、属性、スタイル、内容を用いて解析されたタイト ルを用いて、タイトルを持たな 、レイアウトの構成要素をタイトルを持つレイアウトの構 成要素、又はタイトルを持たな 、別のレイアウトの構成要素とグループ化することで、 関連した構成要素の集合を新 ヽ構成要素とする新 、レイアウトを生成するので、 より論理構造を捉えたレイアウトを解析できる。このため、より文書提供者の意図を反 映したレイアウトを解析できる。また、レイアウトやタイトルを文書記述要素の参照を用 いて表現する形式で出力するので、第三者がレイアウトの情報を利用した応用アプリ ケーシヨンを開発できる。
[0090] 次に、本発明の第 4の実施形態について図面を参照して詳細に説明する。図 22を 参照すると、本発明の第 4の実施形態は、プログラム制御により動作するデータ処理 装置 5と、情報を記憶する記憶装置 6とを含む。
[0091] データ処理装置 5は、入力部 51と、文書入力部 52と、目次文書出力部 53と、項目 文書出力部 54とを備える。記憶装置 6は、構造化'半構造化文書記憶部 61、レイァ ゥト文書記憶部 62とを備える。
[0092] 入力部 51は、キーボードを始めとする入力装置から、あるいはネットワークを介して ユーザ入力を取得し、ユーザが所望する構造化'半構造ィ匕文書の URI (Universal Resource Identifier)を取得する。また、入力部 51は、キーボードを始めとする入 力装置から、あるいはネットワークを介してユーザ入力を取得し、出力を制御する。具 体的には、取得された入力に応じて、目次文書を出力する力、目次の項目の内容を 記述した文書を出力するかを判定し、目次の項目の内容を記述した文書を出力する 場合は、出力する目次の項目も判定する。 [0093] 文書入力部 52は、入力部 51で取得されたユーザが所望する構造化'半構造ィ匕文 書の URIを用いて、当該文書を取得し、構造化'半構造ィ匕文書記憶部 61に記憶す る。また、文書入力部 52は、取得した構造化 ·半構造ィ匕文書に指定された、レイァゥ トの情報が文書記述要素の参照を用いて記述された文書を取得し、レイアウト記憶 部 62に記憶する。ここで、文書入力部 52は、通信プロトコルのヘッダー情報を利用 するといつた別の方法を用いて、取得した構造化'半構造ィ匕文書のレイアウトの情報 が記述された文書を取得してもよい。また、取得した構造化'半構造ィ匕文書について 、本発明の第 3の実施の形態に示すシステムを用いて、レイアウトの情報を解析し、レ ィアウト文書記憶部 62に記憶してもよい。
[0094] 目次文書出力部 53は、入力部 51が目次を出力すると判定した場合、構造化'半構 造ィ匕文書記憶部 61からユーザが所望する構造化 ·半構造ィ匕文書を、レイアウト文書 記憶部 62から当該構造化'半構造ィ匕文書のレイアウトの情報が記述された文書をそ れぞれ取得し、目次文書を生成する。具体的には、レイアウトの情報が記述された文 書力も全ての末端のレイアウトの構成要素を抽出し、それぞれについて指定されたタ イトルを抽出し、文書記述要素の参照を用いて元の構造化'半構造化文書から当該 タイトルに対応する文書記述要素を抜き出し、整形して順に並べることで目次文書を 生成する。ここで、タイトルの指定がない構成要素について、当該構成要素に対応す る文書記述要素以下の内容力も一定数の文字を抜き出し並べてもよい。また、特定 階層のレイアウトの構成要素の間に仕切り線を挿入する、構造化'半構造ィ匕文書に 別途与えられたタイトルを挿入するなど、目次に装飾を施してもよい。また、上位階層 の構成要素が同じ 1つ以上の末端のレイアウトの構成要素について、末端の構成要 素に代え上位階層の構成要素を用いてもよい。生成した目次文書は、ディスプレイ やスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供され る。
[0095] 項目文書出力部 54は、入力部 51が目次の項目の内容を記述した文書を出力する と判定し、出力する目次の項目を判定した場合、構造化'半構造化文書記憶部 61か らユーザが所望する構造化 ·半構造ィ匕文書を、レイアウト文書記憶部 62から当該構 造化'半構造化文書のレイアウトの情報が記述された文書をそれぞれ取得し、指定さ れた目次の項目の内容を記述した文書を生成する。具体的には、指定された目次の 項目をタイトルとして持つレイアウトの構成要素を抽出し、文書記述要素の参照を用 いて元の構造化'半構造化文書から当該構成要素に対応する文書記述要素を抜き 出し、整形して順に並べることで目次の項目の内容を記述した文書を生成する。ここ で、項目の内容として、抜き出された文書記述要素の内容を更に抜き出し並べてもよ い。また、構造化'半構造化文書の文書記述要素を別の文書記述要素に置き換えた 上で並べてもよい。さらに、目次の内容を記述した文書としてユーザが所望する構造 ィ匕'半構造ィ匕文書そのものを用い、指定された目次の項目に対応する領域に位置合 わせして出力してもよい。生成された目次の項目の内容を記述した文書は、ディスプ レイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供 される。
[0096] 構造化'半構造化文書記憶部 61、レイアウト文書記憶部 62は、文書入力部 52の 処理結果を記憶する。ここで、目次文書出力部 53が目次文書を生成した際当該目 次文書を記憶するとともに、項目文書出力部 54で目次の項目の内容を記述した全て の文書を予め生成し記憶しておき、ユーザ入力に対応した目次文書または目次の項 目の内容を記述した文書を、目次文書出力部 53または項目文書出力部 54が選択し 出力する構成としてもよい。
[0097] 次に、図 22、図 23を参照して本実施の形態の動作について詳細に説明する。 入 力部 51は、キーボードを始めとする入力装置から、あるいはネットワークを介してユー ザ入力を取得し、ユーザが所望する構造化'半構造ィ匕文書の URIを取得する (ステツ プ S401)。
[0098] 文書入力部 52は、取得された URIを用いて文書を取得し、構造化'半構造化文書 記憶部 61に記憶する。また、文書入力部 52は、取得した構造化'半構造化文書に 指定された、レイアウトの情報が記述された文書を取得し、レイアウト文書記憶部 62 に記憶する(ステップ S402)。
[0099] 入力部 51は、処理を続けるかどうかを判定し、処理を続けないと判定した場合、終 了する(ステップ S403)。
[0100] 入力部 51は、ステップ S403で処理を続けると判定した場合、出力する内容が目次 かどうかを判定する(ステップ S404)。
[0101] 目次文書出力部 53は、ステップ S404で目次を出力すると判定した場合、構造化' 半構造ィ匕文書記憶部 61からユーザが所望する構造化 ·半構造ィ匕文書を、レイアウト 文書記憶部 62から当該構造化'半構造化文書のレイアウトの情報が記述された文書 をそれぞれ取得し、目次文書を生成する。生成した目次文書は、ディスプレイゃスピ 一力一と 、つた出力装置から、ある 、はネットワークを介してユーザに提供される (ス テツプ S405)。
[0102] 項目文書出力部 54は、ステップ S404で目次を出力しないと判定した場合、出力 する目次の項目を更に判定し、構造化 ·半構造化文書記憶部 61からユーザが所望 する構造化 ·半構造化文書を、レイアウト文書記憶部 62から当該構造化 ·半構造ィ匕 文書のレイアウトの情報が記述された文書をそれぞれ取得し、指定された目次の項 目の内容を記述した文書を生成する。生成された目次の項目の内容を記述した文書 は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してュ 一ザに提供される (ステップ S406)。
[0103] 入力部 51は、ステップ S405で目次文書を出力した後、又はステップ S406で目次 の項目の内容を記述した文書を出力した後、キーボードを始めとする入力装置から、 あるいはネットワークを介してユーザ入力を取得し、ステップ S403以降の処理を繰り 返す (ステップ S407)。
[0104] 次に、本実施の形態の効果について説明する。本実施の形態では、構造化'半構 造化文書と当該文書のレイアウトの情報が記述された文書を用いて目次文書や目次 の項目の内容を記述した文書を生成、出力するので、文書提供者が意図する文書 の論理構造を的確に捉えた目次を用いて文書を閲覧できるようになり、画面の小さ!/ヽ 端末でも文書の全体像を把握しやすくなるとともに、少ない操作で文書を閲覧できる 。このため、端末環境に適応した文書を提供できる。
[0105] 次に、本発明の第 5の実施形態について図面を参照して詳細に説明する。図 27を 参照すると、本発明の第 5の実施形態は、プログラム制御により動作するデータ処理 装置 7と、情報を記憶する記憶装置 8とを含む。
[0106] データ処理装置 7は、文書入力部 71と、合成文書出力部 72とを備える。記憶装置 8は、出力構成要素記憶部 81と、構造化 ·半構造化文書記憶部 82と、レイアウト文書 記憶部 83とを備える。
[0107] 文書入力部 71は、出力構成要素記憶部 81から出力構成要素に関する情報を取 得し、当該情報に記述された URIに対応する文書を取得し、構造化 ·半構造化文書 記憶部 82に記憶する。また、文書入力部 71は、取得したそれぞれの構造化'半構造 化文書に指定された、レイアウトの情報が文書記述要素の参照を用いて記述された 文書を取得し、レイアウト文書記憶部 83に記憶する。ここで、文書入力部 71は、通信 プロトコルのヘッダー情報を利用するといつた別の方法を用いて、取得した構造化' 半構造ィ匕文書のレイアウトの情報が記述された文書を取得してもよい。また、取得し た構造化'半構造ィ匕文書について、本発明の第 3の実施の形態に示すシステムを用 いて、レイアウトの情報を解析し、レイアウト文書記憶部 83に記憶してもよい。
[0108] 合成文書出力部 72は、出力構成要素記憶部 81から出力構成要素に関する情報 を、構造ィ匕 ·半構造ィ匕文書記憶部 82からユーザが所望する構造ィ匕 ·半構造化文書 を、レイアウト文書記憶部 83からレイアウトの情報が記述された文書をそれぞれ取得 し、合成文書を生成する。具体的には、出力構成要素に関する情報カゝら全ての URI と構成要素の IDの組み合わせを取得し、各 URIに対応する文書力も構成要素の ID に対応する構成要素を抽出し、文書記述要素の参照を用いて元の構造化'半構造 化文書から当該構成要素に対応する文書記述要素を抜き出し、整形して順に並べる ことで合成文書を生成する。ここで、各構成要素について、これに属する文書記述要 素の内容を更に抜き出し並べてもよい。生成された合成文書は、ディスプレイゃスピ 一力一と 、つた出力装置から、ある 、はネットワークを介してユーザに提供される。
[0109] ここで、出力構成要素に関する情報として構成要素のタイトルを表すテキスト情報を 更に記憶し、合成文書出力部 72で、出力する構成要素の IDに対応する構成要素を 抽出した際、抽出された構成要素のタイトルと出力構成要素に関する情報に記憶さ れた構成要素のタイトルを表すテキスト情報を照合し、異なる場合に当該テキスト情 報を手掛かりとして正しい構成要素を検索し、出力構成要素に関する情報に記憶さ れた出力する構成要素の IDを更新することで、レイアウトに変更があった場合でも適 切な合成文書を生成できるようにしてもよい。また、出力構成要素に関する情報とし て表示位置の情報を更に記憶し、合成文書出力部 72で、当該表示位置の情報を用
V、て合成文書を整形してもよ!/、。
[0110] 出力構成要素記憶部 81は、出力する構成要素に関する情報、すなわち出力する 構造化'半構造ィ匕文書の URIと当該文書のうち出力する構成要素の IDの組み合わ せの集合を記憶する。構造化 ·半構造化文書記憶部 82、レイアウト文書記憶部 83は
、文書入力部 71の処理結果を記憶する。
[0111] 次に、図 27、図 28を参照して本実施の形態の動作について詳細に説明する。文 書入力部 71は、出力構成要素記憶部 81から出力構成要素に関する情報を取得す る(ステップ S 501)。
[0112] 文書入力部 71は、取得された出力構成要素に関する情報に記述された URIに対 応する文書を取得し、構造化'半構造ィ匕文書記憶部 82に記憶する。また、文書入力 部 71は、取得したそれぞれの構造化'半構造ィ匕文書に指定されたレイアウトの情報 が記述された文書を取得し、レイアウト文書記憶部 83に記憶する (ステップ S502)。
[0113] 合成文書出力部 72は、出力構成要素記憶部 81から出力構成要素に関する情報 を、構造ィ匕 ·半構造ィ匕文書記憶部 82からユーザが所望する構造ィ匕 ·半構造化文書 を、レイアウト文書記憶部 83から当該文書のレイアウトの情報が記述された文書をそ れぞれ取得し、合成文書を生成する。生成された合成文書は、ディスプレイゃスピー カーといった出力装置から、あるいはネットワークを介してユーザに提供される (ステツ プ S503)。
[0114] 次に、本実施の形態の効果について説明する。本実施の形態では、出力構成要素 に関する情報と構造化'半構造化文書と当該文書のレイアウトの情報が記述された 文書を用いて、指定されたレイアウトの構成要素だけ力 成る合成文書を生成、出力 するので、文書提供者が意図する文書の論理構造を的確に捉えた合成文書を用い て文書の必要な部分だけを閲覧できるようになり、ネットワーク帯域が限定された端末 や画面の小さい端末でも快適に文書を閲覧できる。またユーザの好みに応じた文書 を閲覧できる。このため、ネットワークや端末、ユーザの環境に適応した文書を提供 できる。
[0115] 次に、本発明の第 6の実施形態について図面を参照して詳細に説明する。図 32を 参照すると、本発明の第 6の実施形態は、本発明の第 1、第 2、第 3の実施形態と同 様に、データ処理装置 1、記憶装置 2を備える。
[0116] 文書解析用プログラム 3は、データ処理装置 1に読み込まれデータ処理装置 1の動 作を制御し、記憶装置 2にレンダリング結果記憶部 21と解析結果記憶部 22とタイトル 解析ルール記憶部 23を生成する。データ処理装置 1は文書解析用プログラム 3の制 御により第 1、第 2、第 3の実施形態におけるデータ処理装置 1による処理と同一の処 理を実行する。
[0117] 次に、本発明の第 7の実施形態について図面を参照して詳細に説明する。図 33を 参照すると、本発明の第 7の実施形態は、本発明の第 4の実施形態と同様に、データ 処理装置 5、記憶装置 6を備える。
[0118] 文書適応用プログラム 4は、データ処理装置 5に読み込まれデータ処理装置 5の動 作を制御し、記憶装置 6に構造化 ·半構造ィ匕文書記憶部 61とレイアウト文書記憶部 6 2を生成する。データ処理装置 5は文書適応用プログラム 4の制御により第 4の実施 形態におけるデータ処理装置 5による処理と同一の処理を実行する。
[0119] 次に、本発明の第 8の実施形態について図面を参照して詳細に説明する。図 34を 参照すると、本発明の第 8の実施形態は、本発明の第 5の実施形態と同様に、データ 処理装置 7、記憶装置 8を備える。
[0120] 文書適応用プログラム 9は、データ処理装置 7に読み込まれデータ処理装置 7の動 作を制御し、記憶装置 8に出力構成要素記憶部 81、構造化,半構造化文書記憶部 8 2、レイアウト文書記憶部 83を生成する。データ処理装置 7は文書適応用プログラム 9の制御により第 5の実施形態におけるデータ処理装置 7による処理と同一の処理を 実行する。
[0121] 次に、本発明の第 9の実施形態について図面を参照して詳細に説明する。図 35を 参照すると、本発明の第 9の実施形態は、プログラム制御により動作するデータ処理 装置 1と、情報を記憶する記憶装置 2とを含む。
[0122] データ処理装置 1は、入力部 11と、レイアウト解析ツール 12と、出力部 13とを備え る。記憶装置 2は、レンダリング結果記憶部 21、解析結果記憶部 22、タイトル解析ル ール記憶部 23とを備える。 [0123] 入力部 11は、外部から構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし 、レンダリング結果をレンダリング結果記憶部 21に記憶する。
[0124] レイアウト解析ツール 12は、基本レイアウト解析部 14と、タイトル解析部 15と、レイ アウト解析部 16とを有する。
[0125] 出力部 13は、解析結果記憶部 22からレイアウトの構成要素とその階層関係、及び 各構成要素とタイトルとの対応関係を取得し、レイアウトの構成要素とタイトルを文書 記述要素の参照を用いて表現する形式に整形し外部に出力する。
[0126] 基本レイアウト解析部 14は、レンダリング結果記憶部 21からレンダリング結果を取 得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をダル ープ化することでレイアウトを解析する。基本レイアウト解析部 14の機能は、本発明 の第 1の実施の形態の基本レイアウト解析部 14に示す機能と同じである。
[0127] タイトル解析部 15は、レンダリング結果記憶部 21からレンダリング結果を、タイトル 解析ルール記憶部 23からタイトル解析ルールを取得し、文書記述要素の名前に加 え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析する。 タイトル解析部 15の機能は、本発明の第 2の実施の形態のタイトル解析部 15に示す 機能と同じである。
[0128] レイアウト解析部 16は、ブロック選別部 17、セクション計算部 18とを有する。
[0129] ブロック選別部 17は、解析結果記憶部 22から、基本レイアウト解析部 14で解析さ れた第 1のレイアウトの構成要素とその階層関係、レイアウト解析部 16で解析された 第 2のレイアウトの構成要素とその階層関係を取得し、分割可能な第 2のレイアウトの 構成要素 1つを選別し、これを構成する第 1のレイアウトの構成要素を解析対象とす る。さらに、タイトル解析部 15で解析されたタイトルを取得し、解析対象の第 1のレイ アウトの構成要素とタイトルを対応付け、対応付けられたタイトルについて、これを構 成する文書記述要素の名前、属性、スタイルに基づき主要なタイトルを選別する。そ の上で、主要なタイトルを持つ構成要素を主要な構成要素とする。ここで、解析対象 の第 1のレイアウトの構成要素について、これを構成する文書記述要素の名前、属性 、スタイル、内容に基づき、当該構成要素が境界線力否かを判定し、境界線と判定し たものを主要なレイアウトの構成要素としてもよいし、解析対象の第 1のレイアウトの構 成要素間の距離に基づき、直前の構成要素と所定の距離以上離れた構成要素など を主要な構成要素としてもよ ヽ。
[0130] セクション計算部 18は、ブロック選別部 17で選別された第 1のレイアウトの構成要 素について、主要でない構成要素を、主要な構成要素、又は主要でない別の構成 要素とグループィ匕することで第 2のレイアウトの構成要素を生成し、解析結果記憶部 22に記憶する。具体的には、主要でない構成要素は、主要な構成要素のうち、例え ば、ソース上先頭に向力つて最も近いものとグループ化する。最も近い主要な構成要 素がない場合は、例えば、最も近い主要でない構成要素とグループィ匕する。ここで、 新たに生成された第 2のレイアウトの構成要素を元の第 2のレイアウトの構成要素と置 き換えて記憶してもよ 、し、新たに生成された第 2のレイアウトの構成要素を元の第 2 のレイアウトの構成要素の子供として記憶してもよい。また、境界線と判定された第 1 のレイアウトの構成要素を除き第 2のレイアウトの構成要素として記憶してもよい。
[0131] 次に、図 35、図 36を参照して本実施の形態の動作について詳細に説明する。入 力部 11は、外部力 構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし、レ ンダリング結果をレンダリング結果記憶部 21に記憶する (ステップ S901)。
[0132] 基本レイアウト解析部 14の動作は、本発明の第 1の実施の形態に示す基本レイァ ゥト解析部(図 1の 14)の動作と同じである(ステップ S 902〜ステップ S 906)。
[0133] タイトル解析部 15の動作は、本発明の第 2の実施の形態に示すタイトル解析部(図 1の 15)の動作と同じである(ステップ S 911〜ステップ S 916)。
[0134] ブロック選別部 17は、解析結果記憶部 22から、基本レイアウト解析部 14で解析さ れた第 1のレイアウトの構成要素とその階層関係、タイトル解析部 15で解析されたタ ィトル、レイアウト解析部 F16で解析された第 2のレイアウトの構成要素とその階層関 係を取得する(ステップ S921)。
[0135] ブロック選別部 17は、分割可能な第 2のレイアウトの構成要素があるかどうかを判定 し、分割可能な第 2のレイアウトの構成要素がないと判定した場合、ステップ S931に 進む (ステップ S922)。ここで、判定基準として、第 2のレイアウトの構成要素が内包 するタイトルの数、第 2のレイアウトの構成要素を構成する第 1のレイアウトの構成要 素のうちタイトルを持つものの数、第 2のレイアウトの構成要素の面積や幅、高さなど を用いることができる。
[0136] ブロック選別部 17は、ステップ S923で分割可能な第 2のレイアウトの構成要素があ ると判定した場合、分割可能な第 2のレイアウトの構成要素 1つを選別し、これを構成 する第 1のレイアウトの構成要素を解析対象とする (ステップ S923)。
[0137] ブロック選別部 17は、解析対象の第 1のレイアウトの構成要素とタイトルを対応付け
(ステップ S924)、対応付けられたタイトルについて、これを構成する文書記述要素 の名前、属性、スタイルに基づき主要なタイトルを選別する (ステップ S925)。
[0138] ブロック選別部 17は、ステップ S925で選別された主要なタイトルを持つ第 1のレイ アウトの構成要素を主要な構成要素とする。ここで、解析対象の第 1のレイアウトの構 成要素について、これを構成する文書記述要素の名前、属性、スタイル、内容に基 づき、当該構成要素が境界線力否かを判定し、境界線と判定したものやその次の構 成要素をも主要なレイアウトの構成要素としてもよいし、解析対象の第 1のレイアウト の構成要素間の距離に基づき、直前の構成要素と所定の距離以上離れた構成要素 などをも主要な構成要素としてもよ 、 (ステップ S926)。
[0139] セクション計算部 18は、ブロック選別部 17で選別された第 1のレイアウトの構成要 素について、主要でない構成要素を、主要な構成要素、又は主要でない別の構成 要素とグループィ匕することで第 2のレイアウトの構成要素を生成し、解析結果記憶部 22に記憶する(ステップ S927)。
[0140] 出力部 13は、解析結果記憶部 22から第 2のレイアウトの構成要素とその階層関係 、及び各構成要素とタイトルとの対応関係を取得し、第 2のレイアウトの構成要素とタ イトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する (ステ ップ S931)。
[0141] ここで、基本レイアウト解析部 14の動作 (ステップ S902〜ステップ S906)と、タイト ル解析部 15の動作 (ステップ S 911〜ステップ S 916)の実行順序を入れ替えてもよ い。
[0142] 次に、本実施の形態の効果について説明する。本実施の形態では、タイトルを構成 する文書記述要素の名前、属性、スタイルにより選別された主要なタイトルなどに基 づき、第 1のレイアウトの構成要素をグループィ匕し、新たな第 2のレイアウトの構成要 素を生成するので、より論理構造を捉えたレイアウトを解析できる。このため、より文書 提供者の意図を反映したレイアウトを解析できる。また、レイアウトやタイトルを文書記 述要素の参照を用いて表現する形式で出力するので、第三者がレイアウトの情報を 利用した応用アプリケーションを開発できる。
実施例
[0143] 次に、本発明の第 1の実施例を図面を参照して説明する。力かる実施例は本発明 の第 1の実施の形態に対応するものである。本実施例は、データ処理装置、データ 記憶装置としてパーソナルコンピュータを備えて 、る。
[0144] パーソナルコンピュータは、入力部、レイアウト解析部、出力部、基本レイアウト解析 部として機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として 機能するメモリ装置、磁気ディスク記憶装置を有して ヽる。
[0145] ここでは、構造化'半構造ィ匕文書として図 3に示す HTML文書を対象に、第 2階層 までのレイアウトの解析にっ 、て説明する。
[0146] 中央演算装置は、 HTML文書を外部から取得し、当該文書をレンダリングし、図 3 に示すレンダリング結果をメモリ装置に記憶する。中央演算装置は、レンダリング結 果を取得し、まず body要素の配置を参照する。図 4に示すように body要素は水平方 向に並置された HTML文書の要素がなくグループ化できな 、ため、中央演算装置 は子供の HTML文書の要素の配置を参照する。図 5に示すように子供の HTML文 書の要素である hi要素と 2つの table要素は!、ずれも水平方向に並置された HTML 文書の要素がなくグループィ匕できないため、中央演算装置は更に子供の HTML文 書の要素の配置を参照する。
[0147] まず、 hi要素について、図 5に示すように子供の HTML文書の要素がないので、 当該 hi要素を第 1のレイアウトの構成要素としてメモリ装置に記憶する。次に、第 1番 目の table要素について、図 6に示すように子供の HTML文書の要素である tr要素 は水平方向に並置された HTML文書の要素がなくグループィ匕できないため、中央 演算装置は更に子供の HTML文書の要素の配置を参照する。図 7に示すように子 供の HTML文書の要素である td要素は水平方向に並置された HTML文書の要素 がなくグループ化できな!/、ものの子供の HTML文書の要素がな!、ので、当該 td要 素を第 2のレイアウトの構成要素としてメモリ装置に記憶する。最後に、第 2番目の ta ble要素について、図 6に示すように子供の HTML文書の要素である 2つの tr要素は 水平方向に並置された HTML文書の要素がなくグループ化できないため、中央演 算装置は更に子供の HTML文書の要素の配置を参照する。
[0148] 第 1番目の tr要素について、図 7に示すように子供の HTML文書の要素である 2つ の td要素は水平方向に並置されているのでこれらをグループ化し、当該 2つの td要 素を第 3のレイアウトの構成要素としてメモリ装置に記憶する。第 2番目の tr要素につ Vヽても、図 7に示すように子供の HTML文書の要素である 2つの td要素は水平方向 に並置されているのでこれらをグループ化し、当該 2つの td要素を第 4のレイアウトの 構成要素としてメモリ装置に記憶する。
[0149] 以上の処理により、図 8に示す第 1階層のレイアウトを解析する。第 2階層のレイァゥ トを解析する場合は、第 1階層のレイアウトの構成要素について、これに属する HTM L文書の要素の配置を参照し垂直方向に並置された HTML文書の要素をグループ 化する。例えば、第 3のレイアウトの構成要素について、図 9に示すようにこれに属す る HTML文書の要素である 2つの td要素は!、ずれも垂直方向に並置された HTML 文書の要素がなくグループィ匕できないため、中央演算装置は更に子供の HTML文 書の要素の配置を参照する。第 1番目の td要素について、図 9に示すように子供の HTML文書の要素がな 、ので、当該 td要素をレイアウトの構成要素としてメモリ装置 に記憶する。第 2番目の td要素についても、図 9に示すように子供の HTML文書の 要素がないので、当該 td要素をレイアウトの構成要素としてメモリ装置に記憶する。 以上の処理により、第 2階層のレイアウトを解析する。
[0150] 中央演算装置は、解析されたレイアウトの構成要素とその階層関係の情報をメモリ 装置から取得し、レイアウトの構成要素を HTML文書の要素の参照を用いて表現す る形式、例えば、図 10に示す形式に整形し、外部に出力する。
[0151] 次に、本発明の第 2の実施例を図面を参照して説明する。力かる実施例は本発明 の第 2の実施の形態に対応するものである。本実施例は、データ処理装置、データ 記憶装置としてパーソナルコンピュータを備えて 、る。
[0152] パーソナルコンピュータは、入力部、レイアウト解析部、出力部、タイトル解析部とし て機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能 するメモリ装置、磁気ディスク記憶装置を有している。また、磁気ディスク記憶装置に は、図 13に示すようなタイトル解析ルールが記憶されている。
[0153] ここでは、構造化'半構造ィ匕文書として図 3に示す HTML文書を対象に説明する。
中央演算装置は、 HTML文書を外部から取得し、当該文書をレンダリングし、図 3に 示すレンダリング結果をメモリ装置に記憶する。
[0154] 中央演算装置は、レンダリング結果とタイトル解析ルールを取得し、 body要素を処 理対象 HTML文書の要素とする。 body要素について名前、属性、スタイル、内容を タイトル解析ルールと照合するとルールに合致しな 、ため、 body要素の子供の HT ML文書の要素、すなわち hi要素と 2つの table要素を新しく処理対象 HTML文書 の要素に追加し、 hi要素を次の処理対象 HTML文書の要素とする。ここで hi要素 について名前、属性、スタイル、内容をタイトル解析ルールと照合するとルールに合 致するため、当該 hi要素をタイトルとしてメモリ装置に記憶し、第 1の table要素を次 の処理対象 HTML文書の要素とする。上記処理を処理対象 HTML文書の要素が なくなるまで繰り返す。例えば、処理対象 HTML文書の要素が第 2の table要素の第 1の tr要素の第 1の td要素であった場合は、当該 td要素について名前、属性、スタイ ル、内容をタイトル解析ルールと照合する。当該 td要素が背景色の指定があり高さが 50pxで内容が 5文字だったとすると、照合の結果ルールに合致するため、当該 td要 素をタイトルとしてメモリ装置に記憶する。以上の処理により、図 14に示すタイトルを 解析する。
[0155] 中央演算装置は、解析されたタイトルの情報をメモリ装置カゝら取得し、タイトルを HT ML文書の要素の参照を用いて表現する形式、例えば、図 15に示す形式に整形し、 外部に出力する。
[0156] 次に、本発明の第 3の実施例を図面を参照して説明する。力かる実施例は本発明 の第 3の実施の形態に対応するものである。本実施例は、データ処理装置、データ 記憶装置としてパーソナルコンピュータを備えて 、る。
[0157] パーソナルコンピュータは、入力部、レイアウト解析部、出力部、基本レイアウト解析 部、タイトル解析部、レイアウト解析部 Fとして機能する中央演算装置と、レンダリング 結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有 している。また、磁気ディスク記憶装置にはタイトル解析ルールが記憶されている。
[0158] ここでは、構造化'半構造ィ匕文書として図 3に示す HTML文書を対象に説明する。
中央演算装置は、 HTML文書を外部から取得し、当該文書をレンダリングし、図 3に 示すレンダリング結果をメモリ装置に記憶する。
[0159] 中央演算装置は、レンダリング結果を取得し、レイアウトの構成要素とその階層関 係を解析する。この機能や動作は、第 1の実施例に示すものと同じである。
[0160] 中央演算装置は、レンダリング結果とタイトル解析ルールを取得し、タイトルを解析 する。この機能や動作は、第 2の実施例に示すものと同じである。
[0161] 中央演算装置は、解析されたレイアウトの構成要素とその階層関係、タイトルを取 得し、まず第 1階層のレイアウトの構成要素を対象に解析する。第 1階層のレイアウト の構成要素とタイトルの内包関係を調べると、図 18に示すようにタイトルを持つレイァ ゥトの構成要素とタイトルを持たないレイアウトの構成要素を解析できる。ここで、 bod y要素下の第 1の table要素下の第 1の tr要素下の第 1の td要素で与えられるレイァ ゥトの構成要素はタイトルを持たないので、タイトルを持つレイアウトの構成要素、又 はタイトルを持たない別のレイアウトの構成要素とのグループィ匕を図る。
[0162] 具体的には、図 19に示すように当該構成要素力 見てソース上先頭に向力つて最 も近 、タイトルを持つレイアウトの構成要素、すなわち body要素下の hi要素で与え られるレイアウトの構成要素とグループィ匕し、新 、レイアウトの構成要素としてメモリ 装置に記憶する。上記処理を全てのタイトルを持たないレイアウトの構成要素につい て行い、図 20に示す第 1階層の新しいレイアウトの構成要素を解析する。同様の処 理を第 2階層のレイアウトの構成要素に適用することで、第 2階層の新しいレイアウト の構成要素も解析できる。
[0163] 中央演算装置は、解析された新しいレイァ外の構成要素とその階層関係、及び各 構成要素とタイトルとの対応関係の情報をメモリ装置取得し、新し ヽレイアウトの構成 要素とタイトルを HTML文書の要素の参照を用いて表現する形式、例えば、図 21に 示す形式に整形し、外部に出力する。
[0164] 次に、本発明の第 4の実施例を図面を参照して説明する。力かる実施例は本発明 の第 4の実施の形態に対応するものである。本実施例は、データ記憶装置としてパ ーソナノレコンピュータを備えて 、る。
[0165] パーソナルコンピュータは、入力部、文書入力部、目次文書出力部、項目文書出 力部として機能する中央演算装置と、構造化 ·半構造化文書記憶部、レイァ外文書 記憶部として機能するメモリ装置、磁気ディスク装置を有して 、る。
[0166] ここでは、構造化'半構造ィ匕文書として図 24Aに示す HTML文書を、当該 HTML 文書のレイアウトの情報が記述された文書として図 24Bに示す XML文書を対象に説 明する。
[0167] ユーザが携帯電話から http : ZZwww. nec. co. jp/news. htmlという URLを 入力した場合、中央演算装置は、ネットワークを介して当該 URLを取得し、さらにこ れに対応する図 24Aに示す HTML文書を取得し、メモリ装置に記憶する。また中央 演算装置は、 HTML文書を解析し当該文書のレイアウトの情報が記述された文書の URL、 http: //www. nec. co. jp/news. rdfを取得し、さらにこれに対 J心する 図 24Bに示す XML文書を取得し、メモリ装置に記憶する。
[0168] 中央演算装置は、 HTML文書と XML文書をメモリ装置から取得し、 XML文書か ら全てのレイアウトの構成要素、 urn: layout: 1、 urn: layout: 2、 urn: layout : 2 : 1 、 urn:layout: 2 : 2を抽出し、それぞれのレイアウトの構成要素についてタイトルに対 応する HTML文書の要素、 /body[l]/hl [l]、 /body [ 1 ] /table [ 2] /tr [ 1 ] Ztd [ 1 ] /table [ 1 ] Ztr [ 1 ]、 /body [ 1 ] /table [2]/tr[l] /td [2] /table [ 1 ] Ztr[l]をさらに抽出する。ここで、タイトルに対応する HTML文書の要素を HTML 文書に照らし合わせ、それぞれの内容、「主要な-ユース」、「政治」、「経済」を抽出し 、 A要素といった HTML文書の要素を付カ卩して順に並べることで、図 25に示すレン ダリングイメージを持つ目次文書を生成する。生成された目次文書は、ネットワーク、 携帯電話の Webブラウザを介してユーザに提示される。
[0169] ユーザが提示された目次 HTML文書から「政治」を選んだ場合、中央演算装置は 、ネットワークを介してこの情報を取得し、 XML文書から「政治」をタイトルとして持つ レイアウトの構成要素、 urn: layout: 2 : 1を抽出し、当該構成要素に属する HTML 文書の要素、 Zbody[l]Ztable [2]Ztr[l]Ztd[l]を更に抽出する。また、構成 要素に対応する HTML文書の要素を HTML文書に照らし合わせ、その内容を抽出 し、目次へのリンクを始めとするナビゲーシヨンを目的とする HTML文書の要素を付 加して順に並べることで、図 26に示すレンダリングイメージを持つ「政治」の内容に関 する文書を生成する。生成された文書は、ネットワーク、携帯電話の Webブラウザを 介してユーザに提示される。ここで、ユーザが提示された文書から目次を選んだ場合
、中央演算装置は、再度目次文書を生成し、ユーザに提示する。また、同文書から「 前」や「次」を選んだ場合、中央演算装置は、「政治」の前や次の項目である「主要な ニュース」や「経済」の内容に関する文書を生成し、ユーザに提示する。
[0170] 次に、本発明の第 5の実施例を図面を参照して説明する。力かる実施例は本発明 の第 5の実施の形態に対応するものである。本実施例は、データ記憶装置としてパ ーソナノレコンピュータを備えて 、る。
[0171] パーソナルコンピュータは、文書入力部、合成文書出力部として機能する中央演算 装置と、構造化'半構造化文書記憶部、レイアウト文書記憶部として機能するメモリ装 置、磁気ディスク装置を有している。また、磁気ディスク装置には、図 29に示すような 出力構成要素に関する情報が記憶されている。
[0172] ここでは、構造化'半構造ィ匕文書として図 24Aと図 30Aに示す HTML文書を、そ れぞれの HTML文書のレイアウトの情報が記述された文書として図 24Bと図 30B〖こ 示す XML文書を対象に説明する。
[0173] 中央演算装置は、出力構成要素に関する情報に記述された、 http : //www. n ec. co. jpz news, htmlと http : , / www. nec. co. jpZ stock, htmlの 2つの U RLを取得し、さらにこれに対応する図 24Aと図 30Aに示す HTML文書を取得し、メ モリ装置に記憶する。また、中央演算装置は、それぞれの HTML文書を解析し当該 文書のレイアウトの情報が記述された文書の URL、 http : //www. nec. co. jp/ news, rdfと http : / / www. nec. co. jp/ stock, rdfを取得し、さらにこれに対応 する図 24Bと図 30Bに示す XML文書を取得し、メモリ装置に記憶する。
[0174] 中央演算装置は、出力構成要素に関する情報から、 2つの URLに対応する文書の 出力する構成要素の ID、 urn: layout: 2 : 1、 urn: layout: 1を取得する。更に、中央 演算装置は、 HTML文書と XML文書をメモリ装置から取得し、 XML文書から出力 する構成要素の IDに対応する HTML文書の要素、すなわち、 http : //www. ne c. co. jp/news.
Figure imgf000035_0001
7 &1316[2] 7 [1] 7 (1[1] 7 &131 e [l] Z tr[l]を、 http: / / www. nec. co. jpZ stock, htmlにつ ヽて ίま Zbody[ l] Ztable [l]を抽出する。ここで出力する構成要素に対応する HTML文書の要素 を HTML文書に照らし合わせ、整形して順に並べることで、図 31に示すレンダリング イメージを持つ合成文書を生成する。生成された合成文書は、例えば、ネットワーク、 携帯電話の Webブラウザを介してユーザに提示される。
[0175] 次に、本発明の第 6の実施例を図面を参照して説明する。力かる実施例は本発明 の第 9の実施の形態に対応するものである。本実施例は、データ処理装置、データ 記憶装置としてパーソナルコンピュータを備えて 、る。
[0176] パーソナルコンピュータは、入力部、レイアウト解析部、出力部、基本レイアウト解析 部、タイトル解析部、レイアウト解析部 F、ブロック選別部、セクション計算部として機 能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメ モリ装置、磁気ディスク記憶装置を有している。また、磁気ディスク記憶装置にはタイ トル解析ルールが記憶されて!、る。
[0177] ここでは、構造化'半構造ィ匕文書として図 37に示す HTML文書を対象に説明する 。中央演算装置は、 HTML文書を外部から取得し、当該文書をレンダリングし、レン ダリング結果をメモリ装置に記憶する。
[0178] 中央演算装置は、レンダリング結果を取得し、第 1のレイアウトの構成要素とその階 層関係を解析する。この機能や動作は、第 1の実施例に示すものと同じである。
[0179] 中央演算装置は、レンダリング結果とタイトル解析ルールを取得し、タイトルを解析 する。この機能や動作は、第 2の実施例に示すものと同じである。
[0180] 中央演算装置は、解析された第 1のレイアウト、第 2のレイアウトを取得し、分割可能 な第 2のレイアウトの構成要素 1つを選別し、これを構成する第 1のレイアウトの構成 要素を解析対象とする。図 38は解析の途中の状態を表している。ここで、 Zbody[l ] Zdiv[2]〜div[6]で成る第 2のレイアウトの構成要素は、これを構成する第 1のレイ アウトの構成要素、すなわち Zbody[l] Zdiv[2]、 /body[l] /div[3] , · · ·、 Zb ody[l] Zdiv[6]それぞれで成る構成要素のうちタイトルをもつものが 2つ以上ある ため、分割可能な第 2のレイアウトの構成要素となっている。そこでこの場合、 /body [l]/div[2]、 /body[l] /div[3]、 · · ·、 /body[l] /div[6]それぞれで成る構 成要素が解析対象の第 1のレイアウトの構成要素となる。
[0181] 中央演算装置は、解析されたタイトルを取得し、図 39に示すように解析対象の第 1 のレイアウトの構成要素に内包されるタイトルを選別する。さら〖こ、選別されたタイトル の位置を調べ、図 40に示すように最も左に位置する Zbody [ 1 ] /div [2]で成るタイ トルの左端を起点に水平方向に所定距離以内に左端が位置する Zbody [ 1 ] /div [ 2]で成るタイトル、 Zbody [l] Zdiv[4]で成るタイトルを主要なタイトルとして選別す る。さらに、図 41に示すように主要なタイトルを内包する第 1のレイアウトの構成要素 を主要な構成要素とする。
[0182] なお、主要なタイトルを選別する方法として、図 42に示すように背景色などスタイル が類似するタイトルを主要なタイトルとして選別する方法や、図 43に示すように位置 を基準に一定数あるいは一定割合のタイトルを主要なタイトルとして選別する方法、 位置やスタイルの類似度を組み合わせて主要なタイトルを選別する方法などを用い てもよい。
[0183] また、解析対象の第 1のレイアウトの構成要素について、図 44に示すように当該構 成要素が境界線力否かを判定し、境界線と判定したものを主要な構成要素としてもよ い。ここでは構成要素の内容により、 hr要素を持つ Zbody[l] Zdiv[5]で成る構成 要素を主要な構成要素としている。なお、境界線の判定方法として、解析対象の第 1 のレイアウトの構成要素の幅や高さ、当該構成要素を構成する文書記述要素の境界 などのスタイル、当該構成要素を構成する文書記述要素の内容である画像の幅や高 さなどを用いてもよい。
[0184] 中央演算装置は、図 45に示すように主要でない構成要素を主要な構成要素、また は主要でな ヽ別の構成要素と、ソース上の距離に基づきグループィ匕し新たな第 2の レイアウトの構成要素を生成する。例えば Zbody[l] Zdiv[3]で成る主要でない構 成要素は、ソース上先頭に向力つて最も近い主要な構成要素、 Zbody[l] Zdiv[2 ]で成る構成要素とグループ化する。ここで解析された 2つの新たな第 2のレイアウト の構成要素は、元の第 2のレイアウトの構成要素の子供としてメモリ装置に記憶する。 なお、解析された第 2のレイアウトの構成要素を元の第 2のレイアウトの構成要素と置 き換えてメモリ装置に記憶してもよいし、元の第 2のレイアウトの構成要素や解析され た第 2のレイアウトの構成要素のスタイルや内容に基づき、置き換えて記憶するか、 子供として記憶するかを選択してもよ 、。同様の処理を分割可能な第 2のレイアウトの 構成要素に適用することで、第 2のレイアウトの構成要素とその階層関係を完全に解 析できる。
[0185] 中央演算装置は、解析された第 2のレイァ外の構成要素とその階層関係、及び各 構成要素とタイトルとの対応関係の情報をメモリ装置から取得し、第 2のレイアウトの 構成要素とタイトルを HTML文書の要素の参照を用いて表現する形式、例えば、第 3の実施例に示す形式に整形し、外部に出力する。ここでレイアウトの構成要素に ID を与えて出力してもよい。
[0186] 上記の実施形態を実施することにより、発明が解決しょうとする課題として記載した 本発明の目的を達成できる。
[0187] 本発明の第 1の文書解析システムは、構造化'半構造ィ匕文書のレンダリング結果を 取得し、文書記述要素の配置を参照し並置された文書記述要素をグループ化するこ とでレイアウトを解析する基本レイアウト解析部(図 1の 14)と、解析されたレイアウトを 、レイアウトの構成要素を文書記述要素の参照を用いて表現する形式で出力する出 力部(図 1の 13)を有する。このような構成を採用し、文書記述要素の配置に基づきレ ィアウトを解析し、解析されたレイアウトを第三者が利用できる形式で出力することに より、本発明の第 1、第 3の目的を達成できる。
[0188] 本発明の第2の文書解析システムは、タイトル解析ルールを記憶したタイトル解析 ルール記憶部(図 11の 23)と、構造化'半構造ィ匕文書のレンダリング結果とタイトル 解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル 解析ルールと照合することでタイトルを解析するタイトル解析部(図 11の 15)と、解析 されたタイトルを文書記述要素の参照を用いて表現する形式で出力する出力部(図 1 1の 13)を有する。このような構成を採用し、文書記述要素の名前に加え、属性、スタ ィル、内容を用いて網羅的にタイトルを解析し、解析されたタイトルを第三者が利用 できる形式で出力することにより、本発明の第 2、第 3の目的を達成できる。 [0189] 本発明の第 3の文書解析システムは、タイトル解析ルールを記憶したタイトル解析 ルール記憶部(図 16の 23)と、構造化'半構造ィ匕文書のレンダリング結果を取得し、 文書記述要素の配置を参照し並置された文書記述要素をグループ化することでレイ アウトを解析する基本レイアウト解析部(図 16の 14)と、構造化'半構造化文書のレン ダリング結果とタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、ス タイル、内容をタイトル解析ルールと照合することでタイトルを解析するタイトル解析部 (図 16の 15)と、基本レイアウト解析部で解析されたレイアウトとタイトル解析部で解析 されたタイトルを取得し、タイトルを持たな 、レイアウトの構成要素をタイトルを持つレ ィアウトの構成要素、又はタイトルを持たな 、レイアウトの構成要素とグループ化する ことで新しいレイアウトを生成するレイアウト解析部(図 16の 16)と、解析された新しい レイアウトを、レイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現す る形式で出力する出力部(図 16の 13)を有する。このような構成を採用し、タイトルを 代表情報とする関連した構成要素の集合を新しい構成要素とする新しいレイァ外を 生成し、解析されたレイアウトとタイトルを第三者が利用できる形式で出力することに より、本発明の第 1、第 2、第 3の目的を達成できる。
[0190] 本発明の第 1の文書適応システムは、ユーザが所望する構造化'半構造ィ匕文書の URI (Uniform Resource Identifiers)を取得する、またユーザ入力を取得し、 目 次文書や目次の項目の内容を記述した文書の出力を制御する入力部(図 22の 51) と、ユーザが所望する構造化'半構造ィ匕文書の URIに対応する文書を取得し、また 取得した文書に対応するレイアウトの情報が記述された文書を取得する文書入力部 (図 22の 52)と、ユーザが所望する構造化'半構造ィ匕文書と当該文書のレイアウトの 情報が記述された文書を取得し、 目次文書を生成、出力する目次文書出力部(図 22 の 53)と、ユーザが所望する構造化'半構造ィ匕文書と当該文書のレイアウトの情報が 記述された文書を取得し、指定された目次の項目の内容を記述した文書を生成、出 力する項目文書出力部(図 22の 54)を有する。このような構成を採用し、構造化'半 構造化文書と当該文書の論理構造を適切に反映するレイアウトの情報が記述された 文書を用いて目次文書や目次の項目の内容を記述した文書を生成、出力することに より、文書提供者が意図する文書の論理構造を的確に捉えた目次を用いて文書を閲 覧できるようになり、本発明の第 4の目的を達成できる。
本発明の第 2の文書適応システムは、出力構成要素に関する情報を記憶した出力 構成要素記憶部(図 27の 81)と、出力構成要素に関する情報を取得し、当該情報に 記述された URIに対応する構造化 ·半構造化文書を取得し、また取得した文書に対 応するレイアウトの情報が記述された文書を取得する文書入力部(図 27の 71)と、出 力構成要素に関する情報と構造化'半構造化文書と当該文書のレイアウトの情報が 記述された文書を取得し、合成文書を生成、出力する合成文書出力部(図 27の 72) を有する。このような構成を採用し、出力構成要素に関する情報と構造化'半構造ィ匕 文書と当該文書の論理構造を適切に反映するレイアウトの情報が記述された文書を 用いて、指定されたレイアウトの構成要素力 成る合成文書を生成、出力することに より、文書提供者が意図する文書の論理構造を的確に捉えた合成文書を用いて文 書の必要な部分だけを閲覧できるようになり、本発明の第 4の目的を達成できる。

Claims

請求の範囲
[1] 構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の 方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半 構造ィ匕文書のレイアウトを解析する基本レイアウト解析部
を具備する
文書解析システム。
[2] 請求項 1に記載の文書解析システムにお 、て、
更に、
前記構造化文書又は前記半構造化文書の文書記述要素の名前、属性、スタイル、 内容のいずれ力 1つ以上の値に基づくタイトル解析ルールを記憶するタイトル解析ル ール記憶部と、
前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属 性、スタイル、内容のいずれか 1つ以上と前記タイトル解析ルールとを照合してタイト ルを解析するタイトル解析部と、
前記基本レイアウト解析部で解析された前記レイアウトと、前記タイトル解析部で解 析された前記タイトルとを用いて前記レイアウトの構成要素をグループィ匕し、新 、レ ィアウトを生成するレイアウト解析部とを具備する
文書解析システム。
[3] 請求項 2に記載の文書解析システムにお 、て、
前記レイアウト解析部は前記基本レイアウト解析部で解析された前記レイアウトと、 前記タイトル解析部で解析された前記タイトルと、前記レイアウト解析部で解析された 前記新しいレイアウトとを用いて前記レイアウトの主要な構成要素を選別するブロック 選別部と、
前記基本レイアウト解析部で解析された前記レイアウトと、前記レイアウト解析部で 解析された前記新し ヽレイアウトと、前記ブロック選別部で選別された前記レイアウト の主要な構成要素とを用いて前記レイアウトの構成要素をグループィ匕し、新しいレイ アウトを生成するセクション計算部を具備する
文書解析システム。
[4] 請求項 1乃至 3に記載の文書解析システムにおいて、
前記基本レイアウト解析部は、前記グループ化された文書記述要素以下の前記文 書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並 置された前記文書記述要素をグループィヒする処理を所定の回数繰り返してレイァゥ トを解析する
文書解析システム。
[5] 請求項 1乃至 4のいずれか一項に記載の文書解析システムにおいて、
前記基本レイアウト解析部は、前記グループ化された文書記述要素以下の前記文 書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並 置された前記文書記述要素をグループ化する処理を所定の回数繰り返して次階層 のレイアウトを解析する
文書解析システム。
[6] 請求項 1乃至 5のいずれか一項に記載の文書解析システムにおいて、
前記基本レイアウト解析部は、前記文書記述要素のうち一部の指定された文書記 述要素のみの配置を参照する
文書解析システム。
[7] 構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のい ずれカゝ 1つ以上の値に基づくタイトル解析ルールを記憶するタイトル解析ルール記憶 部と、
前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、 スタイル、内容の 、ずれか 1つ以上と前記タイトル解析ルールとを照合してタイトルを 解析するタイトル解析部とを具備する
文書解析システム。
[8] 構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は 前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力する 出力部を具備する
文書解析システム。
[9] 構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイ アウトの情報が記述された文書を用いて目次文書を生成、出力する目次文書出力部 と、
前記構造化文書又は前記半構造化文書と、
前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文 書を生成、出力する項目文書出力部
とを具備する
文書適応システム。
[10] 構造化文書又は半構造化文書の URIと、前記構造化文書又は前記半構造化文書 の出力構成要素の IDの組み合わせの集合を出力構成要素情報として記憶する出力 構成要素情報記憶部と、
前記出力構成要素情報と前記出力構成要素情報に記述された URIに対応する前 記構造化文書又は前記半構造化文書と前記構造化文書又は前記半構造化文書に 対応するレイアウトの情報が記述された文書を用いて合成文書を生成し出力する合 成文書出力部とを具備する
文書適応システム。
[11] 構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の 方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半 構造化文書のレイアウトを解析するステップを具備する
文書解析方法。
[12] 請求項 11に記載の文書解析方法にぉ 、て、
前記構造化文書又は前記半構造化文書の文書記述要素の名前、属性、スタイル、 内容のいずれか 1つ以上の値に基づくタイトル解析ルールを記憶するステップと、 前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属 性、スタイル、内容のいずれか 1つ以上と前記タイトル解析ルールとを照合してタイト ルを解析するステップと、
前記レイアウトを解析するステップで解析された前記レイアウトと、前記タイトルを解 析するステップで解析された前記タイトルとを用いて前記レイアウトの構成要素をダル ープ化し、新し 、レイアウトを生成するステップとを具備する 文書解析方法。
[13] 請求項 12に記載の文書解析方法において、
前記新しいレイアウトを生成するステップは前記レイアウトを解析するステップで解 析された前記レイアウトと、前記タイトルを解析するステップで解析された前記タイトル と、前記新 、レイアウトを生成するステップで生成された前記新 、レイアウトとを用 いて前記レイアウトの主要な構成要素を選別するステップと、
前記レイアウトを解析するステップで解析された前記レイアウトと、前記新し 、レイァ ゥトを生成するステップで生成された前記新し 、レイアウトと、前記主要な構成要素を 選別するステップで選別された前記主要な構成要素とを用いて前記レイアウトの構成 要素をグループ化し、新 、レイアウトを生成するステップと
を具備する
文書解析方法。
[14] 請求項 11乃至 13に記載の文書解析方法において、
前記レイアウトを解析するステップは、前記グループ化された文書記述要素以下の 前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方 向に並置された前記文書記述要素をグループィヒする処理を所定の回数繰り返して レイアウトを解析するステップを具備する
文書解析方法。
[15] 請求項 11乃至 14の 、ずれか一項に記載の文書解析方法にぉ 、て、
前記レイアウトを解析するステップは、前記グループ化された文書記述要素以下の 前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方 向に並置された前記文書記述要素をグループィヒする処理を所定の回数繰り返して 次階層のレイアウトを解析するステップを具備する
文書解析方法。
[16] 請求項 11乃至 15の 、ずれか一項に記載の文書解析方法にぉ 、て、
前記レイアウトを解析するステップは、前記文書記述要素のうち一部の指定された 文書記述要素のみの配置を参照するステップを具備する
文書解析方法。
[17] 構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のい ずれ力 1つ以上の値に基づくタイトル解析ルールを記憶するステップと、
前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、 スタイル、内容の 、ずれか 1つ以上と前記タイトル解析ルールとを照合してタイトルを 解析するステップとを具備する
文書解析方法。
[18] 構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は 前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力する ステップを具備する
文書解析方法。
[19] 構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイ アウトの情報が記述された文書を用いて目次文書を生成、出力するステップと、 前記構造化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文 書を用いて目次の項目の内容を記述した文書を生成、出力するステップとを具備す る
文書適応方法。
[20] 構造化文書又は半構造化文書の URIと、前記構造化文書又は前記半構造化文書 の出力構成要素の IDの組み合わせの集合を出力構成要素情報として出力構成要 素情報記憶部に記憶するステップと、
前記出力構成要素情報と、前記出力構成要素情報に記述された URIに対応する 前記構造化文書又は前記半構造化文書と、前記構造化文書又は前記半構造化文 書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成、出力す るステップとを具備する
文書適応方法。
[21] 構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の 方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半 構造ィ匕文書のレイアウトを解析するステップ
を含むプロセスをコンピュータ上で実行するためのプログラムコードを記録する 記録媒体。
[22] 請求項 21に記載の記録媒体において、
前記プロセスは、更に、
前記構造化文書又は前記半構造化文書の文書記述要素の名前、属性、スタイル、 内容のいずれか 1つ以上の値に基づくタイトル解析ルールを記憶するステップと、 前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属 性、スタイル、内容のいずれか 1つ以上と前記タイトル解析ルールとを照合してタイト ルを解析するステップと、
前記レイアウトを解析するステップで解析された前記レイアウトと、前記タイトルを解 析するステップで解析された前記タイトルとを用いて前記レイアウトの構成要素をダル ープ化し、新しいレイアウトを生成するステップ
とを含む
記録媒体。
[23] 請求項 22に記載の記録媒体において、
前記新し 、レイアウトを生成するステップは、
前記レイアウトを解析するステップで解析された前記レイアウトと、前記タイトルを 解析するステップで解析された前記タイトルと、前記新 Uヽレイアウトを生成するステ ップで生成された前記新しいレイアウトとを用いて前記レイアウトの主要な構成要素を 選別するステップと、
前記レイアウトを解析するステップで解析された前記レイアウトと、前記新 、レイ アウトを生成するステップで生成された前記新 、レイアウトと、前記主要な構成要素 を選別するステップで選別された前記主要な構成要素とを用いて前記レイアウトの構 成要素をグループ化し、新 、レイアウトを生成するステップ
とを備える
記録媒体。
[24] 請求項 21に記載の記録媒体において、
前記レイアウトを解析するステップは、前記グループ化された文書記述要素以下の 前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方 向に並置された前記文書記述要素をグループィヒする処理を所定の回数繰り返して レイアウトを解析するステップを備える
記録媒体。
[25] 請求項 21に記載の記録媒体において、
前記レイアウトを解析するステップは、前記グループ化された文書記述要素以下の 前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方 向に並置された前記文書記述要素をグループィヒする処理を所定の回数繰り返して 次階層のレイアウトを解析するステップを具備する
記録媒体。
[26] 請求項 21に記載の記録媒体において、
前記レイアウトを解析するステップは、前記文書記述要素のうち一部の指定された 文書記述要素のみの配置を参照するステップを備える
記録媒体。
[27] 構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のい ずれ力 1つ以上の値に基づくタイトル解析ルールを記憶するステップと、
前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、 スタイル、内容の 、ずれか 1つ以上と前記タイトル解析ルールとを照合してタイトルを 解析するステップ
を含むプロセスをコンピュータに実行させるためのプログラムコードを記録する 記録媒体。
[28] 構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は 前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力する ステップ
を含むプロセスをコンピュータ上で実行するためのプログラムコードを記録する 記録媒体。
[29] 構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイ アウトの情報が記述された文書を用いて目次文書を生成、出力するステップと、 前記構造化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文 書を用いて目次の項目の内容を記述した文書を生成、出力するステップ
を含むプロセスをコンピュータ上で実行するためのプログラムコードを記録する 記録媒体。
構造化文書又は半構造化文書の URIと、前記構造化文書又は前記半構造化文書 の出力構成要素の IDの組み合わせの集合を出力構成要素情報に記憶するステップ と、
前記出力構成要素情報と、前記出力構成要素情報に記述された URIに対応する 前記構造化文書又は前記半構造化文書と、前記構造化文書又は前記半構造化文 書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成、出力す るステップ
を含むプロセスをコンピュータ上で実行するためのプログラムコードを記録する 記録媒体。
PCT/JP2005/019531 2004-10-25 2005-10-25 文書解析システム、及び文書適応システム WO2006046523A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2005800366943A CN101048773B (zh) 2004-10-25 2005-10-25 文件分析系统以及文件分析方法
US11/577,984 US8051371B2 (en) 2004-10-25 2005-10-25 Document analysis system and document adaptation system
JP2006543141A JP4124261B2 (ja) 2004-10-25 2005-10-25 文書解析システム、文書解析方法、及びそのプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-310238 2004-10-25
JP2004310238 2004-10-25

Publications (1)

Publication Number Publication Date
WO2006046523A1 true WO2006046523A1 (ja) 2006-05-04

Family

ID=36227763

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/019531 WO2006046523A1 (ja) 2004-10-25 2005-10-25 文書解析システム、及び文書適応システム

Country Status (4)

Country Link
US (1) US8051371B2 (ja)
JP (1) JP4124261B2 (ja)
CN (1) CN101048773B (ja)
WO (1) WO2006046523A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011523133A (ja) * 2008-06-05 2011-08-04 北大方正集▲団▼有限公司 レイアウトファイルの構造処理方法及び装置

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7712021B2 (en) * 2005-03-25 2010-05-04 Red Hat, Inc. System, method and medium for component based web user interface frameworks
US7464078B2 (en) * 2005-10-25 2008-12-09 International Business Machines Corporation Method for automatically extracting by-line information
TWI386817B (zh) * 2006-05-24 2013-02-21 Kofax Inc 提供電腦軟體應用程式之使用者介面的系統及其方法
JP4768537B2 (ja) * 2006-07-18 2011-09-07 株式会社リコー コンテンツ閲覧システムおよびプログラム
WO2008121986A1 (en) * 2007-03-30 2008-10-09 Google Inc. Document processing for mobile devices
CN101354705B (zh) * 2007-07-23 2012-06-13 夏普株式会社 文档图像处理装置和文档图像处理方法
US8289333B2 (en) 2008-03-04 2012-10-16 Apple Inc. Multi-context graphics processing
US8477143B2 (en) 2008-03-04 2013-07-02 Apple Inc. Buffers for display acceleration
US9418171B2 (en) * 2008-03-04 2016-08-16 Apple Inc. Acceleration of rendering of web-based content
AU2009311452A1 (en) * 2008-10-28 2012-07-19 Vistaprint Schweiz Gmbh Method and system for calculating weight of variable shape product manufactured from product blank
CN102918523A (zh) * 2010-05-26 2013-02-06 诺基亚公司 在应用中指定用户接口元素呈现的映射参数的方法和装置
US20120137233A1 (en) * 2010-05-26 2012-05-31 Nokia Corporation Method and Apparatus for Enabling Generation of Multiple Independent User Interface Elements from a Web Page
US9576068B2 (en) * 2010-10-26 2017-02-21 Good Technology Holdings Limited Displaying selected portions of data sets on display devices
US9317491B2 (en) * 2010-11-22 2016-04-19 Webydo Systems Ltd. Methods and systems of generating and editing adaptable and interactive network documents
US10803233B2 (en) * 2012-05-31 2020-10-13 Conduent Business Services Llc Method and system of extracting structured data from a document
JP2014128836A (ja) * 2012-12-27 2014-07-10 Brother Ind Ltd 切断装置、保持部材、及び切断部材
CN103164520B (zh) * 2013-03-08 2014-04-16 山东大学 一种面向层次化数据的交互可视方法及装置
US10089388B2 (en) 2015-03-30 2018-10-02 Airwatch Llc Obtaining search results
US10229209B2 (en) 2015-03-30 2019-03-12 Airwatch Llc Providing search results based on enterprise data
US10318582B2 (en) * 2015-03-30 2019-06-11 Vmware Inc. Indexing electronic documents
RU2638015C2 (ru) * 2015-06-30 2017-12-08 Общество С Ограниченной Ответственностью "Яндекс" Способ идентификации целевого объекта на веб-странице
CN108009137B (zh) * 2017-12-22 2021-01-29 鼎富智能科技有限公司 一种基于配置文件的规范文书处理方法、装置及系统
US12056331B1 (en) 2019-11-08 2024-08-06 Instabase, Inc. Systems and methods for providing a user interface that facilitates provenance tracking for information extracted from electronic source documents
CN111178771B (zh) * 2019-12-31 2022-03-29 中国石油天然气股份有限公司 体系构建方法和装置
US11315353B1 (en) * 2021-06-10 2022-04-26 Instabase, Inc. Systems and methods for spatial-aware information extraction from electronic source documents
US12067039B1 (en) 2023-06-01 2024-08-20 Instabase, Inc. Systems and methods for providing user interfaces for configuration of a flow for extracting information from documents via a large language model

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282053A (ja) * 1994-04-15 1995-10-27 Matsushita Electric Ind Co Ltd 文書編集装置
JP2000148788A (ja) * 1998-11-05 2000-05-30 Ricoh Co Ltd 文書画像からのタイトル領域抽出装置およびタイトル領域抽出方法,並びに文書検索方法
JP2000172680A (ja) * 1998-12-08 2000-06-23 Ricoh Co Ltd 文書登録システム、文書登録方法、その方法を実行させるための記録媒体、文書閲覧システム、文書閲覧方法、その方法を実行させるための記録媒体および文書取出しシステム
JP2000357170A (ja) * 1999-06-15 2000-12-26 Fujitsu Ltd 文書の参照理由を用いて情報検索を行う装置
JP2003085160A (ja) * 2001-09-12 2003-03-20 Seiko Epson Corp ソースファイル生成装置
JP2004086855A (ja) * 2002-06-28 2004-03-18 Fuji Xerox Co Ltd 文書処理装置及び文書処理方法、文書処理プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04124261A (ja) 1990-09-17 1992-04-24 Canon Inc 化合物薄膜製造装置
JPH09251457A (ja) 1996-03-18 1997-09-22 Dainippon Screen Mfg Co Ltd 文書変換装置
JPH10289252A (ja) 1997-02-17 1998-10-27 Dainippon Screen Mfg Co Ltd 画像表示装置およびその処理を実行するためのプログラムを記録した記録媒体
JPH11203285A (ja) 1998-01-14 1999-07-30 Sanyo Electric Co Ltd 文書構造解析装置、方法、及び記録媒体
JP3896702B2 (ja) 1998-09-18 2007-03-22 富士ゼロックス株式会社 文書管理システム
JP2001184344A (ja) 1999-12-21 2001-07-06 Internatl Business Mach Corp <Ibm> 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置
JP2003085159A (ja) 2001-09-14 2003-03-20 Fuji Xerox Co Ltd 文書処理装置および画像出力装置ならびにそれらの方法
JP2003288334A (ja) 2002-03-28 2003-10-10 Toshiba Corp 文書処理装置及び文書処理方法
JP3969176B2 (ja) 2002-05-10 2007-09-05 日本電気株式会社 ブラウザシステム及びその制御方法
US20030222921A1 (en) * 2002-06-04 2003-12-04 Bernard Rummel Automatic layout generation using algorithms
JP3941610B2 (ja) 2002-07-08 2007-07-04 日本電気株式会社 情報抽出方法、情報抽出装置および情報抽出プログラム
JP2004139275A (ja) 2002-10-16 2004-05-13 Nippon Telegr & Teleph Corp <Ntt> Www文書表示方法及び閲覧者端末
US20040100509A1 (en) * 2002-11-27 2004-05-27 Microsoft Corporation Web page partitioning, reformatting and navigation
US7203901B2 (en) * 2002-11-27 2007-04-10 Microsoft Corporation Small form factor web browsing
JP4014160B2 (ja) * 2003-05-30 2007-11-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、プログラム、及び記録媒体
GB0320278D0 (en) * 2003-08-29 2003-10-01 Hewlett Packard Development Co Constrained document layout
US7392473B2 (en) * 2005-05-26 2008-06-24 Xerox Corporation Method and apparatus for determining logical document structure

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282053A (ja) * 1994-04-15 1995-10-27 Matsushita Electric Ind Co Ltd 文書編集装置
JP2000148788A (ja) * 1998-11-05 2000-05-30 Ricoh Co Ltd 文書画像からのタイトル領域抽出装置およびタイトル領域抽出方法,並びに文書検索方法
JP2000172680A (ja) * 1998-12-08 2000-06-23 Ricoh Co Ltd 文書登録システム、文書登録方法、その方法を実行させるための記録媒体、文書閲覧システム、文書閲覧方法、その方法を実行させるための記録媒体および文書取出しシステム
JP2000357170A (ja) * 1999-06-15 2000-12-26 Fujitsu Ltd 文書の参照理由を用いて情報検索を行う装置
JP2003085160A (ja) * 2001-09-12 2003-03-20 Seiko Epson Corp ソースファイル生成装置
JP2004086855A (ja) * 2002-06-28 2004-03-18 Fuji Xerox Co Ltd 文書処理装置及び文書処理方法、文書処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011523133A (ja) * 2008-06-05 2011-08-04 北大方正集▲団▼有限公司 レイアウトファイルの構造処理方法及び装置

Also Published As

Publication number Publication date
JP4124261B2 (ja) 2008-07-23
CN101048773A (zh) 2007-10-03
US20080148144A1 (en) 2008-06-19
CN101048773B (zh) 2012-01-11
JPWO2006046523A1 (ja) 2008-05-22
US8051371B2 (en) 2011-11-01

Similar Documents

Publication Publication Date Title
WO2006046523A1 (ja) 文書解析システム、及び文書適応システム
CA2372544C (en) Information access method, information access system and program therefor
JP2009524883A (ja) デジタルコンテンツのネットワークへの提示
US20130262968A1 (en) Apparatus and method for efficiently reviewing patent documents
JP4009971B2 (ja) 電子化サービスマニュアル表示用プログラム、プログラムが記録された記録媒体、電子化サービスマニュアル表示制御方法、並びに電子化サービスマニュアル表示制御装置
US20070150494A1 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
US9286272B2 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
US7934157B2 (en) Utilization of tree view for printing data
JP4666996B2 (ja) 電子ファイリングシステム、電子ファイリング方法
KR100522186B1 (ko) 동적으로 홈페이지를 제작하는 방법 및 이 방법을 웹에서구현하는 장치
Edhlund et al. NVivo for Mac essentials
JP2002215519A (ja) ウェブページ生成方法およびシステム、ウェブページ生成プログラム、記録媒体
EP1237094A1 (en) A method for determining rubies
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP7438769B2 (ja) 文章構造描画装置
JPH09282218A (ja) Html文書本型整形方法及びその装置
JPH08106464A (ja) 文書生成装置
JP2004164134A (ja) 電子文書作成装置、電子文書作成方法およびその方法をコンピュータに実行させるプログラム
JP2006155593A (ja) 文書解析システム、及び文書適応システム
JP4221620B2 (ja) 文書解析システム、文書解析方法、及びプログラム
US20030191770A1 (en) System and method for formatting, proofreading and annotating information to be printed in directories
JP2009098829A (ja) 漫画のコマ検索装置
JP2005276159A (ja) 回路図面表示データ生成装置およびそのプログラム並びに回路図面表示データ生成方法
JP2021039579A (ja) ドキュメント作成支援システム
JP4119413B2 (ja) 知識情報収集システム、知識検索システム及び知識情報収集方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BW BY BZ CA CH CN CO CR CU CZ DK DM DZ EC EE EG ES FI GB GD GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV LY MD MG MK MN MW MX MZ NA NG NO NZ OM PG PH PL PT RO RU SC SD SG SK SL SM SY TJ TM TN TR TT TZ UG US UZ VC VN YU ZA ZM

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SZ TZ UG ZM ZW AM AZ BY KG MD RU TJ TM AT BE BG CH CY DE DK EE ES FI FR GB GR HU IE IS IT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2006543141

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11577984

Country of ref document: US

Ref document number: 200580036694.3

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 05805247

Country of ref document: EP

Kind code of ref document: A1