WO2007119567A1 - 文書処理装置および文書処理方法 - Google Patents

文書処理装置および文書処理方法 Download PDF

Info

Publication number
WO2007119567A1
WO2007119567A1 PCT/JP2007/056690 JP2007056690W WO2007119567A1 WO 2007119567 A1 WO2007119567 A1 WO 2007119567A1 JP 2007056690 W JP2007056690 W JP 2007056690W WO 2007119567 A1 WO2007119567 A1 WO 2007119567A1
Authority
WO
WIPO (PCT)
Prior art keywords
pair
node
structured document
document file
value
Prior art date
Application number
PCT/JP2007/056690
Other languages
English (en)
French (fr)
Inventor
Shingo Ochi
Takanori Hino
Original Assignee
Justsystems Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Justsystems Corporation filed Critical Justsystems Corporation
Priority to US12/294,135 priority Critical patent/US20090132566A1/en
Priority to JP2008510879A priority patent/JP4878624B2/ja
Publication of WO2007119567A1 publication Critical patent/WO2007119567A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Definitions

  • the present invention relates to a document file search technique.
  • Patent Document 1 Japanese Patent Laid-Open No. 2006-048536
  • HTML Hyper Text Markup Language
  • XML extensible Markup Language
  • Authors can freely design the tag structure of an XML document, but the tag structure is often patterned to some extent according to the document content. For example, between sales documents, there are many parts common to the tag set used (Bob Library) and its tag structure, but the similarity between the tag set used in sales documents and legal documents and the tag structure is small. .
  • the present invention is an invention made based on the above-mentioned attention of the inventor, and its main purpose is to select a highly related structured document file based on the tag structure of the structured document file. Technology.
  • One embodiment of the present invention is a document processing apparatus.
  • This device uses a specified position from a structured document file described in a specified tag set.
  • a pair of related tags is detected as a node pair, the appearance mode of the node pair in the structure document file is indexed as an attribute value according to a predetermined rule, and index information in which the node pair is associated with the attribute value is generated.
  • a node pair common to the node pair group detected from the first structured document file and the node pair group detected from the second structured document file is detected as a common pair, and the index information of the first structured document file is detected.
  • the index information of the second structured document file to determine the similarity between the attribute value of the common pair in the first structured document file and the attribute value of the common pair in the second structured document file. Index as similar values.
  • FIG. 1 is a schematic diagram for explaining the principle of similar document search based on a tag structure.
  • FIG. 2 is a schematic diagram for explaining a parent-child relationship.
  • FIG. 3 is a schematic diagram for explaining a repetitive relationship.
  • FIG. 4 A schematic diagram for explaining a sibling relationship.
  • FIG. 5 is a functional block diagram of the document processing apparatus.
  • FIG. 6 is a screen diagram showing node similarity values.
  • FIG. 7 is a diagram showing the result of investigating a node pair for a certain drug information database.
  • FIG. 8 A table for calculating approximate distribution values.
  • 100 document processing device 110 user interface processing unit, 120 data processing unit, 130 data holding unit, 132 input unit, 134 document acquisition unit, 136 display unit, 14 0 Index processing unit, 142 Node pair detection unit, 144 Attribute value acquisition unit, 146 Indentus information generation unit, 150 Similarity determination unit, 152 Common pair detection unit, 154 Node similarity value calculation unit, 156 Correction unit, 158 Rare value calculation , 160 Distribution approximate value acquisition unit, 162 Document similarity value calculation unit, 170 Document holding unit, 172 Index information holding unit.
  • FIG. 1 is a schematic diagram for explaining the principle of similar document search based on a tag structure.
  • This figure shows a case in which it is determined whether the structured document 52 or the structured document 54 is a document file having higher similarity than the structured document 50.
  • the structure document file to be investigated such as structured document 50
  • query document is referred to as “query document”
  • the target structural document file is called the “document to be examined”.
  • the report> tag problem> tag is in the upper-lower relationship. Also, since the problem> tag-specific countermeasures> tag is also in a higher-order subordinate relationship, the report> tag-specific countermeasures-> tag is also indirectly in the upper-lower relation.
  • the “Report> Tag and Mathematics> Tag and Report> Tag and Science” tag has an upper-lower relationship. Also, since math> tag problems> tags are in a higher / lower relationship, ⁇ report> tag issues> tags are also indirectly in a higher / lower relationship.
  • the ⁇ report> tag and the ⁇ problem> tag are directly related to each other in the upper / lower order.
  • the tag is a force that has a higher / lower relationship.
  • ⁇ Mathematics> it is not a direct upper / lower relationship.
  • ⁇ Report> tag measures> Tags have a higher / lower relationship.
  • the problem> tag is sandwiched between the report> tag and the measure> tag, but the tag is in a higher / lower relationship.
  • the structured document 54 there is a tag> tag itself.
  • structured document 54 is structured in structured document 50 rather than structured document 52. Above, it can be said that they are similar.
  • this embodiment proposes a method for quantifying the similarity between the query document and the document to be inspected based on the common tag structure of the structure document file as shown in FIG. .
  • a similar document search based on the tag structure is referred to as a “structure similarity search” and is distinguished from a “content similarity search” which is a similar document search based on a word group included in the document.
  • an inspected document similar to a query document may be selected by narrowing down candidates from a large number of inspected documents by a structure similarity search and then executing a content similarity search.
  • the document processing apparatus 100 detects a pair of tags included in a structured document file, and executes a structural similarity search using the pair (hereinafter referred to as “node pair”) as a basic unit.
  • a tag pair detected as a node pair is required to have a predetermined positional relationship in the structure document file.
  • the following describes the three relationships of “parent-child”, “repetition”, and “brother” as the positional relationship to be detected as a node pair.
  • FIG. 2 is a schematic diagram for explaining the parent-child relationship.
  • the parent-child relationship means that the two tags are in the upper-lower relationship in the structure file.
  • B tag 12 is below A tag 10.
  • a tag 10 and B tag 12 are in a parent-child relationship.
  • the parent-child relationship may be a direct upper-lower relationship, or may be a relationship that reaches B tag 12 with several tag layers sandwiched between A tag 10.
  • the appearance mode of the node pair in the structure document file is indexed as an attribute value.
  • Attribute values are index values for three items: “depth”, “distance”, and “frequency”. Less than The attribute value refers to a set of these three index values.
  • “Depth” for a node pair in a parent-child relationship indicates how many levels the tag corresponding to the parent is from the root tag. In the case of the figure, A tag 10 is two levels below the root tag, so the depth is “2”.
  • “Distance” for a node pair in a parent-child relationship is the number of layers from the parent tag to the child tag. In the case of the figure, since the A tag 10 and the B tag 12 are separated by three layers, the distance is “3”.
  • a node pair in a parent-child relationship such a combination of A tag and B tag at a depth of “2” and a distance of “3” appears in the structure file. is there.
  • a node pair in a parent-child relationship is called a “parent-child pair”.
  • FIG. 3 is a schematic diagram for explaining the repetitive relationship.
  • a repeated relationship is a relationship in which a parent tag is shared and child tags with the same content appear multiple times. This is a special form of parent-child relationship.
  • a tag 10 and B tag 14 and A tag 10 and B tag 16 are not only A tag 10 and B tag 12 but have a parent-child relationship of depth “2” and distance “3”. In such a case, the first A tag 10 and B tag 12 are considered to have a parent-child relationship, the second and subsequent A tag 10 and B tag 14, and A tag 10 and B tag 16 are said to be in a repetitive relationship. .
  • a tag 10, B tag 14, and B tag 16 have a repetitive relationship of frequency “2”, and the frequency in the repetitive relationship is always 2 or more. The depth and distance in the repetitive relationship are obtained in the same manner as the parent-child relationship.
  • a node pair having a repetitive relationship is referred to as a “repetitive pair”.
  • FIG. 4 is a schematic diagram for explaining the brother relationship.
  • a sibling relationship is a relationship in which a parent tag is shared and child tags with different contents appear multiple times.
  • a tag 10 and B tag 12 A tag 10 and C tag 18, and A tag 10 and D tag 20.
  • the A tag 10, the B tag 14, and the B tag 16 have a repetition relationship of frequency “2”.
  • the relationship between B tag 16 and C tag 18, B tag 16 and D tag 20, and C tag 18 and D tag 20 is a sibling relationship.
  • the distance between sibling node pairs (hereinafter referred to as “sibling pairs”) is calculated as the distance between the same level of one tag and the other tag.
  • the distance between B tag 16 and C tag 18 is “1”, the distance between B tag 16 and D tag 20 is “2”, and the distance between C tag 18 and D tag 20 is “1”.
  • the average distance between B tag 12, B tag 14, and B tag 16 may be calculated as the distance of the sibling pair when the B tag is the partner.
  • “Depth” in the sibling pair indicates the number of layers from the root tag. In the case of the figure, the sibling pair depth is all “5”.
  • a tag pair corresponding to any of a parent-child pair, a repetitive pair, and a sibling pair is detected as a node pair.
  • the relationships shown in Fig. 2 to Fig. 4 are examples of defining node pairs that characterize the tag structure of the structure document file. What kind of positional relationship tag pairs are defined as node pairs The user of the document processing apparatus 100 may determine arbitrarily. In this embodiment, the description will focus on the most simple parent-child relationship.
  • FIG. 5 is a functional block diagram of the document processing apparatus 100.
  • the document processing apparatus 100 includes a user interface processing unit 110, a data processing unit 120, and a data holding unit 130.
  • the user interface processing unit 110 is in charge of processing related to the user interface in general, such as input processing from the user and information display to the user.
  • the user interface processing unit 110 will be described as providing the user interface service of the document processing apparatus 100.
  • the user may operate the document processing apparatus 100 via the Internet.
  • a communication unit (not shown) receives operation instruction information from the user terminal, and transmits processing result information executed based on the operation instruction to the user terminal.
  • the data processing unit 120 executes various data processing based on the data acquired from the user interface processing unit 110.
  • the data processor 120 is a user interface processor. It also serves as an interface between the physical unit 110 and the data holding unit 130.
  • the data holding unit 130 stores various data such as setting data prepared in advance and data received from the data processing unit 120.
  • the user interface processing unit 110 includes an input unit 132 and a display unit 136.
  • the input unit 132 receives an input operation from the user.
  • the display unit 136 displays various information to the user.
  • the input unit 132 includes a document acquisition unit 134 for acquiring a structure document file from outside.
  • the data holding unit 130 includes a document holding unit 170 and an index information holding unit 172.
  • the document holding unit 170 holds the structured document file acquired by the document acquisition unit 134.
  • the index information holding unit 172 holds index information generated by an index information generating unit 146 described later.
  • the data processing unit 120 includes an index processing unit 140 and a similarity determination unit 150.
  • the index processing unit 140 generates index information in which a node pair is associated with its attribute value for each structure document file.
  • the index processing unit 140 includes a node pair detection unit 142, an attribute value acquisition unit 144, and an index information generation unit 146.
  • the node pair detection unit 142 detects a node pair from the structured document file.
  • the attribute value acquisition unit 144 calculates an attribute value for each of the depth, distance, and frequency for each detected node pair.
  • the index information generation unit 146 generates index information that associates the document ID, node pair, and attribute value for specifying the structured document file, and records the index information in the index information holding unit 172.
  • the similarity determination unit 150 performs a structural similarity search by comparing the index information of the query document and the index information of the subject document.
  • the similarity determination unit 150 includes a common pair detection unit 152, a node similarity value calculation unit 154, a correction unit 156, a rare value calculation unit 158, a distribution approximate value acquisition unit 160, and a document similarity value calculation unit 162.
  • the common pair detection unit 152 detects a node pair included in both the node pair group included in the query document and the node pair group included in the check target document.
  • a node pair is referred to as a “common pair”.
  • parent and child with tag ⁇ A> and tag ⁇ B> If there is a pair and a parent-child pair with tag ⁇ A> and tag ⁇ B> also exists in the subject document, tag ⁇ A> and tag ⁇ B> Detected as a common pair of document and target document.
  • tag names themselves do not necessarily match completely.
  • report> tag and date> tag are parent-child pairs
  • rep> tag and date> tag are in a parent-child relationship.
  • the tag named “report>” and “rep” and “re”, and the “name” tag are common to the “r” and “re” and the three characters, so there is some similarity in the names.
  • node pairs that include report> tags and date> tags are treated as common pairs. In this way, it may be determined that the two tag names to be compared overlap with each other by a predetermined number of characters or when one tag name includes the other tag name.
  • synonym dictionary data in which similar relationships between words are defined in advance may be prepared, and the common pair detection unit 152 may determine whether two tag names to be compared are in a similar relationship.
  • a document creator can arbitrarily set a tag name. For this reason, the tag name of the query document and the tag name of the document to be inspected are often not the same, but are often similar. If a common pair is detected in consideration of the similarity of tag names, a more realistic structural similarity search is possible for structured document files such as XML documents.
  • the node similarity value calculation unit 154 calculates the similarity between the attribute value of the common pair in the query document and the attribute value of the common pair in the document to be examined as a node similarity value. The calculation formula for calculation will be described later. Node similarity values are calculated for all common pairs in the query document node pair group.
  • the rare value calculation unit 158 calculates a rare value for each common pair.
  • the rare value is a numerical value indicating the appearance frequency of the common pair that is the target of the adjustment in the structured document file group (hereinafter simply referred to as “corpus”) included in the document holding unit 170. Node pairs with fewer occurrences in the corpus have a higher rarity value.
  • Distribution approximate value acquisition section 160 calculates a distribution approximate value for each common pair.
  • the attribute value of a node pair that becomes a common pair varies in the corpus. For example, a parent / child bearer appears as a distance “3” in one structured document and as a distance “8” in another structured document. The power that may appear. On the other hand, the distance between different parent-child pairs may vary in the range of “3-5” in the corpus.
  • the distribution approximate value is an index value for correcting the node similarity value in consideration of such variation in the attribute value of the common pair. The distribution approximation will be described in detail with reference to Figs.
  • the correction unit 156 corrects the node similarity value based on the rare value and the distribution approximate value. A specific correction method will also be described later.
  • the document similarity value calculation unit 162 calculates the similarity of the tag structure between the query document and the test object document from the node similarity value of each common pair detected based on the relationship between the query document and the document to be inspected. Calculate as For example, when a plurality of common pairs are included in the query document and the document to be inspected, the total value or average value of the node similarity values for these common pairs may be calculated as the document similarity value. In this embodiment, the total value of the node similarity values is calculated as the document similarity value. As the number of common pairs increases and the node similarity value increases, the document similarity value increases.
  • the document similarity value is a numerical value indicating the similarity of the tag structure between the query document and the document to be inspected.
  • Expressions (1) to (3) are the node pair C that is a parent-child pair and a common pair in a query document A and inspected document B. This is an expression for calculating a node similarity value for.
  • Expression (1) is an expression for calculating the rare value of the node pair C.
  • “documentCount” is the number of structured document files held in the document holding unit 170. That is, the number of documents included in the corpus.
  • the document holding unit 170 may calculate a rare value for a document group included in a predetermined external database.
  • distribution indicates the total number of occurrences of node pair C in the corpus. .
  • the rare value increases as the number of appearances decreases with respect to the number of documents in the corpus.
  • the rare value calculation unit 158 calculates the rare value using the calculation formula shown in the formula (1).
  • Expression (2) is a calculation expression for indexing the difference between the attribute value of the node pair C in the query document and the attribute value of the node pair C in the document to be examined as a Differece value. For example, if the distance of node pair C in the query document is 3 and the distance of node pair C in the test document is 10, the node pair C is a common pair, but its appearance differs greatly between the two documents. . In such a case, the difference value becomes large.
  • QDistance in equation (2) is an attribute value related to the distance of node pair C in the query document.
  • dDistance is an attribute value related to the distance of node pair C in the document to be inspected. If there are multiple node pairs C in the document to be inspected, indicate the average distance between them.
  • maxDistance indicates the maximum distance of node pair C in the corpus. When the maximum distance exceeds a predetermined value, for example, “10”, it is uniformly “10”.
  • qFrequency indicates the “frequency” of node pair C in the query document
  • dFrequency indicates the “frequency” of node pair in the inspected document
  • maxFrequency indicates the maximum frequency of the node pair in the corpus.
  • the upper limit of the maximum frequency is also set to “10” as a predetermined value.
  • qDepth is the “depth” of node pair C in the query document
  • dDepth is the “depth” of node pair C in the document being examined
  • maxDepth is the maximum depth of node pair C in the corpus.
  • the upper limit of the maximum depth is also set to “10” as a predetermined value.
  • the first term in the square root of Equation (2) is a term that indexes the difference in the distance between the node pair C in the query document and the test subject document.
  • the second term is used to index frequency differences
  • the third term is used to index depth differences. The smaller the difference between the three elements of distance, frequency, and depth calculated in terms 1 to 3, the smaller the Diffrence value.
  • [0037] /, / 3, and ⁇ are weighting coefficients for the elements of distance, frequency, and depth, respectively.
  • the difference in distance between parent and child pairs is considered to be greater in tag structure than in frequency and depth.
  • the difference in depth is considered to be smaller than the difference in distance and frequency as the tag structure. Therefore, in this embodiment, the radius is set to 0.7, ⁇ is set to 0.2, and ⁇ is set to 0.1 so that ⁇ > ⁇ . If the a, ⁇ , and ⁇ inlets are 1, let's find a suitable value for ⁇ ⁇ ⁇ through experiments according to the corpus.
  • Equation (3) is a calculation equation for correcting the node similarity value obtained from Equation (2) with the rare value obtained from Equation (1).
  • the correction unit 156 corrects the node similarity value by multiplying the rare value by the node similarity value.
  • the corrected node similarity value indicates the similarity between the appearance mode of the node pair C in the query document and the appearance mode of the node pair C in the test document. In the two documents to be compared, when a rare node pair appears as a common pair, the node similarity value is large. Such a node pair can be said to be an important node pair showing the similarity of the tag structure between the query document and the document to be inspected.
  • FIG. 6 is a screen diagram that displays node similarity values.
  • the display unit 136 arranges a plurality of display areas (hereinafter referred to as “pair boxes”) in a matrix corresponding to the parent-child pair of the query document.
  • the node similarity value is displayed in the box.
  • the node pair detection unit 142 scans the tag structure of the query document and detects a total of 22 parent-child pairs.
  • the attribute value acquisition unit 144 detects attribute values for distance, frequency, and depth for each parent-child pair.
  • the index information generation unit 146 generates index information and records it in the index information holding unit 172.
  • the query document is held in the document holding unit 170.
  • the common pair detection unit 152 sequentially selects documents to be inspected from the document holding unit 170. In some cases, the user may explicitly specify an inspected document to be compared via the input unit 132.
  • the common pair detection unit 152 detects a common pair by referring to the index information of the query document and the index information of the document to be inspected.
  • the parent-child pair of ⁇ body>, output>, and this-week> and ⁇ output> has not been detected in the inspected document, but other parent-child pairs have been detected. That is, of the 22 parent-child pairs in the query document, 20 parent-child pairs other than these two are common pairs.
  • the node similarity value calculation unit 154 calculates a node similarity value for these 20 common pairs, and the correction unit 156 corrects each node similarity value with a rare value.
  • the display unit 136 displays the node similarity value in the pair box for each parent-child pair of the query document.
  • the node similarity value of the common pair by the ⁇ schedule> tag and the ⁇ term> tag is the highest 5.33.
  • the display unit 136 displays a pair box of a common pair in which the node similarity value is a predetermined value, for example, 5.00 or more, in a color different from that of the pair buttons of other common pairs. For example, the pair box is displayed in dark red.
  • the node similarity value of the common pair by the progress> tag and the term> tag is 4.32
  • the node similarity value of the common pair of the ⁇ body> tag and the term> tag is 4.38.
  • These common functions A node pair is similar in appearance but not as common as the schedule> tag and term> tag.
  • the display unit 136 displays a pale box having a node similarity value of 4.00 or more in light red. Pair boxes with node similarity values less than 4.00 are displayed in white. According to such a display method, when a query document and a test subject document are compared, it becomes easy to visually identify a node pair whose appearance is particularly similar.
  • the document similarity value calculation unit 162 calculates the total value of the node similarity values as the document similarity value.
  • the similarity determination unit 150 performs a structure similarity search by calculating the document similarity value of the document to be inspected with respect to the query document. For example, a predetermined number of documents to be examined are selected as a structured document similar to a query document in descending order of document similarity values.
  • the display unit 136 may further include a ranking display unit (not shown).
  • the ranking display unit selects a predetermined number, for example, 20 documents to be inspected in descending order of the document similarity value calculated for a query document, and displays the titles in a list format. Alternatively, the document similarity value is displayed in a rank order in descending order of the document similarity value. According to such a display method, it becomes easy to comprehensively recognize a test document having a tag structure similar to the query document.
  • an ambiguous search using an Xpath expression is possible. For example, if you search for the corresponding position from the document to be inspected using the Xpath expression as “/ body / note / chapter / para” as the search expression, if it is a normal Xpath search, “/ body / a / note hapter / The tag in the position where paraj and les are not hit, because “a” and les, the tag that contains the tag that is unclear to the conditions, is included. By searching for node similarity values for the node pairs “body / note” and “note / chapter ⁇ ci”, an Xpath search close to that can be performed even if it does not completely match the search expression.
  • FIG. 7 is a diagram showing a result of investigating a node pair for a certain medicine information database.
  • the structured document that was studied was an XML document, with 11682 documents and a total size of about 400 megabytes. From this database, 2020 parent-child pairs, 1548 repeated pairs, and 1044 sibling pairs were detected. Of the 2020 parent-child pairs, the parent-child pair that appeared with the highest frequency appears 13749 times. Also, one parent-child pair is a statement The average number of occurrences in the book group was 2335. Of the 2020 parent-child pairs, the maximum distance is 10 and the average distance is 2.72. However, the upper limit of the parent-child pair distance is set to 10. Similarly, the maximum frequency of the parent-child pair was 83.75, the average frequency was 1.31, the maximum depth was 9.00, and the average depth was 2.43.
  • the maximum standard deviation indicating variation in distance was 1.55, and the average standard deviation was 0.20. That is, the distance between a parent-child pair varies by about 1.55 standard deviation. The average variation in the distance between parent-child pairs is about 0.20 standard deviation, and the distance between parent-child pairs may not vary so much. Recognize.
  • the variation in frequency is the largest standard deviation 46.40 and the average standard deviation 0.40.
  • the variation in depth is 1.65 for the maximum standard deviation and 0.10 for the average standard deviation. The results shown in the figure were obtained for repeated pairs and sibling pairs.
  • the distribution approximate value acquisition unit 160 calculates the distribution approximate value as a variable for correcting the node similarity value in consideration of the variation in the attribute value of the node pair. If the dispersion of attribute values for a node pair A is a normal distribution, about 68% of the node pairs ⁇ detected from the corpus will fall within the range of the average value of the attribute values / soil standard deviation ⁇ . In addition, about 95% is within the range of ⁇ ⁇ 2 ⁇ .
  • the distance of the common pair C in the query document A corresponds to the size of ⁇ -2.5 ⁇ .
  • the distance of the common pair C in the document to be examined is assumed to be ⁇ + 1.8 ⁇ .
  • the common pair C is a force that appears in both the query document and the document to be examined. In such a case, the distribution approximate value is reduced and the node similarity value is corrected to be small.
  • FIG. 8 is a table for obtaining distribution approximate values.
  • the distribution approximation for the distance of the node pair ⁇ is 1. 0.
  • the attribute value of the common pair in the query document and the test The distribution approximate value is 1.0 when the attribute value of the common pair in the document is statistically close.
  • the distribution approximation is 0.5.
  • it is 0.3 if it is 2 ⁇ or more and less than 3 ⁇ , 0.2 if it is 3 ⁇ or more and less than 4 ⁇ , and 0.1 if it is 4 ⁇ or more.
  • the correction unit 156 corrects the node similarity value by multiplying Equation (3) by the distribution approximation value. For example, by multiplying the distribution approximate values for distance, frequency, and depth by the corrected node similarity value in Equation (3), the final node similarity value can be obtained with the forces that consider the standard deviation. May be. According to such a processing method, when the attribute values of the common pair of the query document and the document to be inspected are statistically far from each other, the node similarity value is largely suppressed.
  • the (qDistance-dDistance) portion of Equation (3) may be changed to qDistance-dDistance / (distance distribution approximation value) by dividing the distance distribution approximation value.
  • the setting of the distribution approximation value shown in FIG. 8 is merely an example, and a suitable setting value of the distribution approximation value may be obtained according to the corpus.
  • the document processing apparatus 100 compares the tag structure of the query document and the tag structure of the document to be examined, and can quantify the structural similarity as a node similarity value or a document similarity value in units of node pairs. Since structural similarity search can be realized with a simple algorithm, high-speed search is possible.
  • the process for acquiring the attribute value is simplified.
  • a node pair that is characteristic in the corpus is corrected with a rare value so that the node similarity value becomes high. Therefore, it is possible to perform a search considering a node pair that is useful for determining the similarity between the query document and the subject document and a node pair that is not.
  • the node similarity value is corrected in consideration of the process. Therefore, even if detected as a common pair, if an attribute value that is statistically distant is included, the node similarity value becomes small, so that the accuracy of the structure similarity search can be improved at any time.
  • a more practical structural similarity search becomes possible.
  • the function of the rare correction unit described in the claims is realized by the node similarity value calculation unit 154 and the correction unit 156 in the present embodiment.
  • the function of the distribution correction unit described in the claims is realized by the node similarity value calculation unit 154 and the correction unit 156 in the present embodiment.
  • the function of the node similarity value display unit described in the claim is realized by the display unit 136 in this embodiment.
  • the present invention can be used in a search device for a structured document file.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 構造化文書ファイルのタグ構造に基づいて、類似関係にある構造化文書ファイルを特定する。  ノードペア検出部142は、構造化文書ファイルから、所定の位置関係にあるタグのペアをノードペアとして検出する。属性値取得部144は、構造化文書ファイルにおけるノードペアの出現態様を属性値として指標化する。インデックス情報生成部146は、ノードペアとその属性値を対応づけたインデックス情報を生成する。共通ペア検出部152は、構造化文書ファイルであるクエリ文書と比較対象の構造化文書ファイルである被検査文書に共通するノードペアを共通ペアとして検出する。ノード類似値算出部154は、クエリ文書のインデックス情報と被検査文書のインデックス情報を参照して、クエリ文書における共通ペアの属性値と被検査文書における共通ペアの属性値の類似度をノード類似値として指標化する。

Description

明 細 書
文書処理装置および文書処理方法
技術分野
[0001] 本発明は、文書ファイルの検索技術に関する。
[0002] コンピュータの普及とネットワーク技術の進展にともなレ、、ネットワークを介した電子 情報の交換が盛んになつている。これにより、従来においては紙ベースで行われてい た事務処理の多くが、ネットワークベースの処理に置き換えられつつある。デジタル ィ匕とネットワーク技術の進展は、情報取得コストを急激に低下させている。このような 状況において、大量の文書ファイルの中から所望の文書ファイルを検索する技術の 重要性が高まっている。
特許文献 1 :特開 2006— 048536号公報
発明の開示
発明が解決しょうとする課題
[0003] ところで、近年では、多くの文書ファイル力 HTML (Hyper Text Markup Language )や XML (extensible Markup Language)とよばれる構造化文書ファイルとして作成さ れるようになってきている。特に、 XMLは、ネットワークを介して他者とデータを共有 するのに適した形式として注目されている。文書作成者は、 XML文書のタグ構造を 自由に設計できるが、タグ構造は文書内容に応じてある程度パターン化されることが 多い。たとえば、営業文書同士では、使用されるタグセット(ボキヤブラリ)やそのタグ 構造に共通する部分が多いが、営業文書と法律文書では使用されるタグセットやそ のタグ構造の類似性は小さレ、。
[0004] 本発明は、本発明者の上記着目に基づいてなされた発明であり、その主たる目的 は、構造化文書ファイルのタグ構造に基づいて、関連性の高い構造化文書ファイル を選定するための技術、を提供することある。
課題を解決するための手段
[0005] 本発明のある態様は、文書処理装置である。
この装置は、所定のタグセットで記述された構造化文書ファイルから、所定の位置 関係にあるタグのペアをノードペアとして検出し、構造ィ匕文書ファイルにおけるノード ペアの出現態様を所定の規則により属性値として指標化し、ノードペアとその属性値 を対応づけたインデックス情報を生成する。
そして、第 1の構造化文書ファイルから検出されたノードペア群と第 2の構造化文書 ファイルから検出されたノードペア群に共通するノードペアを共通ペアとして検出し、 第 1の構造化文書ファイルのインデックス情報と第 2の構造ィヒ文書ファイルのインデッ タス情報を参照して、第 1の構造化文書ファイルにおける共通ペアの属性値と第 2の 構造化文書ファイルにおける共通ペアの属性値の類似度をノード類似値として指標 化する。
[0006] なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システ ム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様 として有効である。
発明の効果
[0007] 本発明によれば、構造化文書ファイルのタグ構造に基づいて、関連性の高い構造 化文書ファイルを選定することができる。
図面の簡単な説明
[0008] [図 1]タグ構造に基づく類似文書検索の原理を説明するための模式図である。
[図 2]親子関係を説明するための模式図である。
[図 3]繰り返し関係を説明するための模式図である。
[図 4]兄弟関係を説明するための模式図である。
[図 5]文書処理装置の機能ブロック図である。
[図 6]ノード類似値を表示する画面図である。
[図 7]ある薬品情報データベースを対象としてノードペアを調査した結果を示す図で ある。
[図 8]分布近似値を求めるための表である。
符号の説明
[0009] 100 文書処理装置、 110 ユーザインタフェース処理部、 120 データ処理部 、 130 データ保持部、 132 入力部、 134 文書取得部、 136 表示部、 14 0 インデックス処理部、 142 ノードペア検出部、 144 属性値取得部、 146 ィ ンデッタス情報生成部、 150 類似判定部、 152 共通ペア検出部、 154 ノー ド類似値算出部、 156 補正部、 158 稀少値算出部、 160 分布近似値取得 部、 162 文書類似値算出部、 170 文書保持部、 172 インデックス情報保持 部。
発明を実施するための最良の形態
[0010] 図 1は、タグ構造に基づく類似文書検索の原理を説明するための模式図である。
同図は、構造化文書 50に対して、構造化文書 52と構造化文書 54のどちらがより類 似性が高い文書ファイルであるかを判定する場合を示す。以下、構造化文書 50のよ うに、調査対象となる構造ィ匕文書ファイルのことを「クエリ文書」とよび、構造化文書 52 や構造ィ匕文書 54のように、クエリ文書と類似するか比較対象となる構造ィ匕文書フアイ ルのことを「被検查文書」とよぶことにする。
[0011] クエリ文書である構造化文書 50においては、くレポート >タグとく問題 >タグ、く レポート〉タグとく対策 >タグがそれぞれ上位 ·下位の関係になってレ、る。
被検查文書である構造ィ匕文書 52でも、くレポート〉タグとく問題 >タグが上位 '下 位の関係になっている。また、く問題〉タグとく対策 >タグも上位'下位の関係にあ るため、くレポート >タグとく対策 >タグも、間接的ながら上位'下位の関係にあると いえる。
もうひとつの被検查文書である構造化文書 54では、くレポート >タグとく数学 >タ グ、くレポート〉タグとく理科〉タグが上位 '下位の関係になっている。また、く数学 >タグとく問題 >タグが上位 ·下位の関係になつているので、くレポート〉タグとく 問題 >タグも間接的ながら上位 ·下位の関係にある。
[0012] 構造化文書 50と構造化文書 52を比較した場合、 <レポート >タグと <問題 >タグ が直接的に上位 ·下位の関係にあるという点で共通している。一方、構造化文書 54 におレ、ても <レポート〉タグとく問題 >タグは上位 ·下位の関係にある力 <数学 > タグが間にあるため、構造化文書 50や構造化文書 52のように、直接的な上位,下位 関係ではない。
構造化文書 50では、 <レポート〉タグとく対策 >タグが上位 ·下位の関係にあるが 、構造化文書 52では、く問題〉タグを挟んだ上ではあるが、くレポート〉タグとく対 策〉タグは、一応上位 ·下位の関係にある。一方、構造化文書 54では、く対策 >タ グそのものが存在してレ、なレ、。
このような観点から構造化文書 50、構造化文書 52、構造化文書 54のタグ構造を比 較してみると、構造化文書 52よりも構造化文書 54の方が、構造化文書 50に構造上、 類似しているといえる。
[0013] クエリ文書と類似関係にある被検査文書を検索する場合、一般的には、クエリ文書 に含まれる単語群と被検査文書に含まれる単語群を比較し、多くの単語が共通する ほどその被検査文書はクエリ文書に類似すると判定する方法が考えられる。これに対 して、本実施例では、図 1に示したように構造ィ匕文書ファイルのタグ構造の共通性に 基づいて、クエリ文書と被検査文書の類似度を定量化する方法を提案する。以下、こ のようなタグ構造に基づく類似文書検索のことを「構造類似検索」とよび、文書に含ま れる単語群に基づく類似文書検索である「内容類似検索」と区別する。たとえば、大 量の被検査文書の中から構造類似検索によって候補を絞り込んだ上で内容類似検 索を実行することにより、クエリ文書と類似する被検査文書を選定してもよい。
[0014] 本実施例における文書処理装置 100は、構造化文書ファイルに含まれるタグのぺ ァを検出し、そのペア(以下、「ノードペア」とよぶ)を基本単位として構造類似検索を 実行する。ノードペアとして検出されるタグのペアは、構造ィ匕文書ファイル中において 所定の位置関係にあることが条件である。以下、ノードペアとして検出対象となる位 置関係として「親子」、「繰り返し」、「兄弟」という 3つの関係について説明する。
[0015] 図 2は、親子関係を説明するための模式図である。
親子関係とは、 2つのタグが構造ィ匕文書ファイル中において上位'下位の関係にあ ることである。同図の場合、 Aタグ 10の下位に Bタグ 12がある。このような場合、 Aタグ 10と Bタグ 12は親子関係にある。親子関係は、直接的な上位 '下位の関係であって もよいし、 Aタグ 10との間にいくつかのタグ階層を挟んで Bタグ 12に至る関係であつ てもよい。
[0016] 構造ィヒ文書ファイル中におけるノードペアの出現態様は属性値として指標化される 。属性値とは、「深さ」、「距離」、「頻度」の 3つの項目についての指標値である。以下 、属性値とは、この 3つの指標値の集合を指すものとする。親子関係にあるノードペア についての「深さ」とは、親にあたるタグがルートタグから何階層目にあるかを示す。 同図の場合、 Aタグ 10はルートタグから 2階層下にあるので深さは「2」である。親子 関係にあるノードペアについての「距離」とは、親タグから子タグまでの階層数である 。同図の場合、 Aタグ 10と Bタグ 12は 3階層離れているので、距離は「3」である。また 、親子関係にあるノードペアのうち、このような深さ「2」、距離「3」の Aタグと Bタグの組 み合わせが、構造ィ匕文書ファイル中に出現する回数力 「頻度」である。以下、親子関 係にあるノードペアのことを「親子ペア」とよぶ。
[0017] 図 3は、繰り返し関係を説明するための模式図である。
繰り返し関係とは、親タグを共通とし、同じ内容の子タグが複数回出現する関係で ある。親子関係の特殊形といえる。同図の場合、 Aタグ 10と Bタグ 12だけではなぐ A タグ 10と Bタグ 14、 Aタグ 10と Bタグ 16は、深さ「2」、距離「3」の親子関係にある。こ のような場合、 1つ目の Aタグ 10と Bタグ 12は親子関係、 2つ目以降の Aタグ 10と Bタ グ 14、 Aタグ 10と Bタグ 16は繰り返し関係にあるとされる。 Aタグ 10、 Bタグ 14、 Bタグ 16は頻度「2」の繰り返し関係であり、繰り返し関係における頻度は必ず 2以上となる 。繰り返し関係における深さや距離は、親子関係と同様に求められる。以下、繰り返 し関係にあるノードペアのことを「繰り返しペア」とよぶ。
[0018] 図 4は、兄弟関係を説明するための模式図である。
兄弟関係とは、親タグを共通とし、別の内容の子タグが複数回出現する関係である 。同図の場合、 Aタグ 10に対しては、 Aタグ 10と Bタグ 12、 Aタグ 10と Cタグ 18、 Aタ グ 10と Dタグ 20の 3種類の親子関係が成立している。また、 Aタグ 10と、 Bタグ 14、 B タグ 16について頻度「2」の繰り返し関係が成立している。このとき、 Bタグ 16と Cタグ 18、 Bタグ 16と Dタグ 20、 Cタグ 18と Dタグ 20の関係が兄弟関係である。兄弟関係に あるノードペア(以下、「兄弟ペア」とよぶ)の距離は、一方のタグと他方のタグの同一 階層間における距離として求められる。同図の場合、 Bタグ 16と Cタグ 18の距離は「1 」、 Bタグ 16と Dタグ 20の距離は「2」、 Cタグ 18と Dタグ 20の距離は「1」となる。 Bタグ は 3つある力 兄弟ペアの距離を求めるにあたっては、便宜的にもっとも距離が小さく なる Bタグ 16が選択される。このほかにも、同図の場合であれば、兄弟ペアの一方に Bタグを含む場合、 Bタグ 12、 Bタグ 14、 Bタグ 16とのそれぞれの距離の平均値を、 B タグを相手としたときの兄弟ペアの距離として求めてもよレ、。たとえば、 Cタグ 18であ れば、 (1 + 2 + 3) ÷ 3 = 2により、 Cタグ 18と Bタグの兄弟ペアの距離を「2」として求 めてもよい。兄弟ペアにおける「深さ」は、ルートタグからの階層数を示す。同図の場 合、兄弟ペアの深さはいずれも「5」である。
[0019] 構造化文書からは、親子ペア、繰り返しペア、兄弟ペアのいずれかに該当するタグ のペアがノードペアとして検出対象となる。ただし、図 2から図 4に示した各関係は、 構造ィヒ文書ファイルのタグ構造を特徴づけるノードペアの定義例であり、どのような 位置関係にあるタグのペアをノードペアと定義するかは、文書処理装置 100のユー ザが任意に決定すればよい。本実施例では、これらのうち、もっともシンプノレな親子 関係を中心として説明する。
[0020] 図 5は、文書処理装置 100の機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータの CPUをはじめとする 素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実 現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。 したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによって レ、ろいろなかたちで実現できることは、当業者には理解されるところである。
[0021] 文書処理装置 100は、ユーザインタフェース処理部 110、データ処理部 120および データ保持部 130を含む。
ユーザインタフェース処理部 110は、ユーザからの入力処理やユーザに対する情 報表示のようなユーザインタフェース全般に関する処理を担当する。本実施例にお いては、ユーザインタフェース処理部 110により文書処理装置 100のユーザインタフ エースサービスが提供されるものとして説明する。別例として、ユーザはインターネット を介して文書処理装置 100を操作してもよい。この場合、図示しない通信部が、ユー ザ端末からの操作指示情報を受信し、またその操作指示に基づいて実行された処 理結果情報をユーザ端末に送信することになる。
[0022] データ処理部 120は、ユーザインタフェース処理部 110から取得されたデータを元 にして各種のデータ処理を実行する。データ処理部 120は、ユーザインタフェース処 理部 110とデータ保持部 130の間のインタフェースの役割も果たす。データ保持部 1 30は、あら力じめ用意された設定データや、データ処理部 120から受け取ったデー タなど、さまざまなデータを格納する。
[0023] ユーザインタフェース処理部 110は、入力部 132と表示部 136を含む。入力部 132 は、ユーザからの入力操作を受け付ける。表示部 136は、ユーザに対して各種情報 を表示する。入力部 132は、構造ィ匕文書ファイルを外部から取得するための文書取 得部 134を含む。
[0024] データ保持部 130は、文書保持部 170とインデックス情報保持部 172を含む。
文書保持部 170は、文書取得部 134により取得された構造化文書ファイルを保持 する。インデックス情報保持部 172は、後述するインデックス情報生成部 146が生成 するインデックス情報を保持する。
[0025] データ処理部 120は、インデックス処理部 140と類似判定部 150を含む。
インデックス処理部 140は、構造ィ匕文書ファイルごとに、ノードペアとその属性値を 対応づけたインデックス情報を生成する。インデックス処理部 140は、ノードペア検出 部 142、属性値取得部 144およびインデックス情報生成部 146を含む。文書取得部 134が構造化文書ファイルを取得すると、ノードペア検出部 142はその構造化文書 ファイルからノードペアを検出する。属性値取得部 144は、検出された各ノードペア について、深さ、距離、頻度のそれぞれについての属性値を算出する。インデックス 情報生成部 146は、構造化文書ファイルを特定するための文書 ID、ノードペアおよ びその属性値を対応づけたインデックス情報を生成し、インデックス情報保持部 172 に記録する。
[0026] 類似判定部 150は、クエリ文書のインデックス情報と被検查文書のインデックス情報 を比較することにより、構造類似検索を実行する。類似判定部 150は、共通ペア検出 部 152、ノード類似値算出部 154、補正部 156、稀少値算出部 158、分布近似値取 得部 160、文書類似値算出部 162を含む。
[0027] 共通ペア検出部 152は、クエリ文書に含まれるノードペア群と被検查文書に含まれ るノードペア群の両方に含まれるノードペアを検出する。以下、このようなノードペア のことを「共通ペア」とよぶ。たとえば、クエリ文書にタグ <A>とタグ < B >による親子 ペアが存在し、被検查文書にもタグ <A>とタグ < B >による親子ペアが存在すれば 、それぞれの属性値が異なっていても、タグ <A>とタグ < B >は、クエリ文書と被検 查文書の共通ペアとして検出される。
[0028] なお、タグ名自体は必ずしも完全に一致しなくてもよレ、。たとえば、クエリ文書にお いてはく report >タグとく date >タグが親子ペアとなっており、被検查文書において はく rep >タグとく date >タグが親子関係になってレ、るとする。く report >という名前 のタグと < rep >とレ、う名前のタグは、「r印」とレ、う 3文字については共通するので、名 称についてある程度の類似性がある。このとき、く report >タグとく date >タグを含む ノードペアは共通ペアとして扱われる。このように、比較対象となる 2つのタグ名が所 定文字数以上重複するときや、一方のタグ名が他方のタグ名を包含するときに類似 関係にあると判定してもよい。あるいは、あらかじめ単語間の類似関係を定義した類 語辞書データを用意しておき、共通ペア検出部 152は比較対象となる 2つのタグ名 が類似関係にあるかを判定してもよい。
XMLにおいては、文書作成者はタグ名を任意に設定できる。そのため、クエリ文書 のタグ名と被検査文書のタグ名は完全に一致しないが類似した名称となることも多い 。タグ名の類似関係を考慮した上で共通ペアを検出すれば、 XML文書のような構造 化文書ファイルについて、より実際的な構造類似検索が可能となる。
[0029] ノード類似値算出部 154は、クエリ文書における共通ペアの属性値と被検查文書 における共通ペアの属性値の類似度をノード類似値として算出する。算出のための 計算式は後述する。クエリ文書のノードペア群のうち、共通ペアのすべてについてノ ード類似値が算出される。
[0030] 稀少値算出部 158は、共通ペアごとに稀少値を算出する。稀少値とは、文書保持 部 170に含まれる構造化文書ファイル群(以下、単に「コーパス」とよぶ)のうち、調查 対象となっている共通ペアの出現頻度を示す数値である。コーパスにおいて出現回 数が少ないノードペアほど、稀少値は大きくなる。
[0031] 分布近似値取得部 160は共通ペアごとに分布近似値を算出する。共通ペアとなる ノードペアの属性値は、コーパスにおいてはばらつきを生じる。たとえば、ある親子べ ァは、ある構造化文書では距離「3」として現れ、別の構造ィ匕文書では距離「8」として 現れる力もしれなレ、。一方、別の親子ペアの距離は、コーパスにおいて「3〜5」の範 囲でばらつくかもしれない。分布近似値は、このような共通ペアの属性値のばらつき を考慮した上で、ノード類似値を補正するための指標値である。分布近似値につい ては、図 7や図 8に関連して詳述する。補正部 156は、ノード類似値を稀少値や分布 近似値に基づいて補正する。具体的な補正方法についても後述する。
[0032] 文書類似値算出部 162は、クエリ文書と被検査文書との関係で検出された各共通 ペアのノード類似値から、クエリ文書と被検查文書のタグ構造の類似度を文書類似 値として算出する。たとえば、クエリ文書と被検査文書に複数個の共通ペアが含まれ るときには、それらの共通ペアについてのノード類似値の合計値や平均値を文書類 似値として算出してもよい。本実施例においては、ノード類似値の合計値を文書類似 値として算出する。共通ペアが多いほど、また、ノード類似値が大きいほど、文書類 似値が大きくなる。文書類似値は、クエリ文書と被検査文書のタグ構造の類似性を指 標化した数値である。
分布近似値については、図 7以降に関連して説明するものとして、まず、稀少値に よる補正も含めてノード類似値の計算式を示す。
[0033] [数 1]
Figure imgf000011_0001
ノ ( 1 直 ='DFx ^ - ^-Diffe ence) ■■■ (3) 式(1)から式(3)は、あるクエリ文書 Aと被検査文書 Bにおいて親子ペアかつ共通 ペアとなるノードペア Cを対象としてノード類似値を計算するための式である。
式(1)は、ノードペア Cの稀少値を算出するための式である。式(1 )において、 docu mentCountとあるのは、文書保持部 170に保持されている構造化文書ファイルの数 である。すなわち、コーパスに含まれる文書数である。なお、文書保持部 170ではな ぐ所定の外部データベースに含まれる文書群を対象として稀少値を計算してもよい 。式(1)において、 distributionはコーパスにおいてノードペア Cの総出現回数を示す 。 コーパスにおいて文書数の割に出現回数が少ないほど、稀少値が大きくなる。稀少 値算出部 158は、式(1 )に示す計算式にて稀少値を算出する。
[0035] 式(2)は、クエリ文書におけるノードペア Cの属性値と被検查文書におけるノードべ ァ Cの属性値との差異を Differece値として指標化するための計算式である。たとえば 、クエリ文書におけるノードペア Cの距離が 3、被検查文書におけるノードペア Cの距 離が 10であれば、ノードペア Cは共通ペアとはいえ、その出現態様は 2つの文書間 で大きく異なるといえる。このような場合、 Difference値は大きくなる。
式(2)の qDistanceは、クエリ文書におけるノードペア Cの距離に関する属性値であ る。 dDistanceは被検査文書におけるノードペア Cの距離に関する属性値である。被 検査文書中にノードペア Cが複数個ある場合には、それらの平均距離を示す。 maxDi stanceは、コーパスにおけるノードペア Cの最大距離を示す。最大距離が所定値、た とえば「10」を超えるときには一律に「10」とする。
同様に、 qFrequencyはクエリ文書におけるノードペア Cの「頻度」、 dFrequencyは被 検査文書におけるノードペアじの「頻度」、 maxFrequencyはコーパスにおけるノードぺ ァの最大頻度を示す。最大頻度の上限も所定値として「10」に設定される。 qDepthは クエリ文書におけるノードペア Cの「深さ」、 dDepthは被検査文書におけるノードペア Cの「深さ」、 maxDepthはコーパスにおけるノードペア Cの最大深さを示す。最大深さ の上限も所定値として「10」に設定される。
[0036] 式(2)の平方根中における第 1項は、クエリ文書と被検查文書におけるノードペア C の距離の差異を指標化する項である。同様に、第 2項は頻度の差異、第 3項は深さの 差異を指標化する項である。第 1項から第 3項にて計算される距離、頻度、深さの 3要 素の差異が小さいほど、 Diffrence値が小さくなる。
[0037] ひ、 /3、 γは、それぞれ、距離、頻度、深さの各要素についての重み付け係数であ る。親子ペアにおける距離の違いは、頻度の違いや深さの違いよりもタグ構造として の差異が大きいと考えられる。また、深さの違いは、距離の違いや頻度の違いよりもタ グ構造としての差異が小さいと考えられる。そこで、本実施例においては、 α > β≥ γとなるようにひを 0. 7、 βを 0. 2、 γを 0. 1に設定する。 a、 β、 γの禾口が 1となると レ、う前提のもと、コーパスに応じた実験によってひ、 βヽ γの好適値を求めればよレ、。 ノード類似値算出部 154は、式(2)により Diffrence値を求め、ノード類似値を ノード類似値 = (1.0— Diffrence値)
として算出する。
[0038] 式(3)は、式(1 )から求められた稀少値により、式(2)から求められたノード類似値 を補正するための計算式である。補正部 156は、稀少値とノード類似値を乗算するこ とにより、ノード類似値を補正する。この補正後のノード類似値が、クエリ文書におけ るノードペア Cの出現態様と被検查文書におけるノードペア Cの出現態様の類似度 を示す。比較対象となる 2つの文書において、稀少なノードペアが共通ペアとして現 れるとき、ノード類似値は大きな値となる。このようなノードペアはクエリ文書と被検査 文書のタグ構造の類似性を示す重要なノードペアであるといえる。これは、 TF (Term Frequency) ' IDF (Inverse Document Frequency)法の考え方 J心用してレヽる。一方 、 コーパスにおいてよく出現するノードペアは、比較対象となる 2つの文書の類似性 を特に示唆するものではないため、ノード類似値は小さな値に補正される。
[0039] 図 6は、ノード類似値を表示する画面図である。
クエリ文書と被検査文書が指定されると、表示部 136はクエリ文書の親子ペアに対 応して複数個の表示領域 (以下、「ペアボックス」とよぶ)をマトリックス状に配置し、各 ペアボックスにノード類似値を表示させる。同図は、
、 progress >
く header
、 summary > summary
< /header >
< body >
^ scnedule >
、 term < / term
< /schedule >
< this-week >
< project > < / project > < task > < / task >
< output > < / output >
< /this-week >
Figure imgf000014_0001
というクエリ文書のタグ構造に対応した表示画面である。文書取得部 134がクエリ文 書を取得すると、ノードペア検出部 142はクエリ文書のタグ構造を走査して、計 22個 の親子ペアを検出する。属性値取得部 144は、各親子ペアについて距離、頻度、深 さについての属性値を検出する。インデックス情報生成部 146はインデックス情報を 生成し、インデックス情報保持部 172に記録する。クエリ文書は、文書保持部 170に 保持される。
[0040] 共通ペア検出部 152は、文書保持部 170から順次、被検査文書を選択する。ある レ、は、ユーザは入力部 132を介して比較対象となる被検査文書を明示的に指定して もよい。共通ペア検出部 152は、クエリ文書のインデックス情報と被検査文書のイン デッタス情報を参照して、共通ペアを検出する。く body>とく output >、く this-week >と< output >の親子ペアは、被検査文書からは検出されていないが、それ以外の 親子ペアは検出されている。すなわち、クエリ文書の 22個の親子ペアのうち、これら 2 つ以外の 20個の親子ペアは共通ペアとなる。ノード類似値算出部 154はこれら 20個 の共通ペアについてノード類似値を算出し、補正部 156は各ノード類似値を稀少値 によって補正する。表示部 136は、クエリ文書の各親子ペアについてペアボックス内 にノード類似値を表示させる。
[0041] 20個の共通ペアの中でも、 < schedule >タグと < term >タグによる共通ペアのノー ド類似値は、最高の 5. 33である。クエリ文書と被検查文書を比較したとき、特にこの 共通ペアの出現態様が類似していることがわかる。表示部 136は、ノード類似値が所 定値、たとえば、 5. 00以上となる共通ペアのペアボックスを他の共通ペアのペアボッ タスとは異なる色彩にて表示する。たとえば、ペアボックスを濃赤色で表示する。
[0042] また、く progress >タグとく term >タグによる共通ペアのノード類似値は 4. 32、 < b ody>タグとく term >タグの共通ペアのノード類似値は 4. 38である。これらの共通べ ァは、く schedule >タグとく term >タグによる共通ペアほどではないものの、出現態 様が類似するノードペアである。表示部 136は、ノード類似値が 4. 00以上となるぺ ァボックスを淡赤色で表示する。また、ノード類似値が 4. 00未満のペアボックスは白 色表示される。このような表示方法によれば、クエリ文書と被検查文書を比較したとき に、出現態様が特に類似するノードペアを視覚的に特定しやすくなる。
[0043] 文書類似値算出部 162は、各ノード類似値の合計値を文書類似値として算出する 。類似判定部 150は、クエリ文書に対する被検査文書の文書類似値を計算すること により構造類似検索を実行する。たとえば、文書類似値が大きい順から所定数の被 検査文書をクエリ文書に類似する構造化文書として選定する。表示部 136は更に、 図示しないランキング表示部を備えてもよい。ランキング表示部は、あるクエリ文書に ついて計算された文書類似値が高い順に、所定数、たとえば、 20個の被検査文書を 選択し、そのタイトルを一覧表形式にてランキング表示する。あるいは、文書類似値 力 所定値、たとえば、 80点以上となる被検査文書を文書類似値が高い順にランキ ング表示する。このような表示方法によれば、クエリ文書にタグ構造が似ている被検 查文書を網羅的に認識しやすくなる。
[0044] また、このような構造類似検索の考え方によれば、 Xpath式による曖昧検索が可能 となる。たとえば、「/body/note/chapter/para」とレ、う Xpath式を検索式として、被検査 文書から該当位置を探す場合、通常の Xpath検索であれば「/body/a/noteん hapter /parajとレ、う位置のタグはヒットしなレ、。「a」とレ、う条件にあわなレ、タグが含まれてレ、る ためである。し力し、ノードペア「body/note」 「note/chapter^ciどについてノード類 似値を検索することにより、検索式と完全に一致しなくともそれに近い Xpath検索が 可能となる。
[0045] 図 7は、ある薬品情報データベースを対象としてノードペアを調査した結果を示す 図である。
調查対象になった構造化文書は XML文書であり、文書数 11682、総サイズは約 4 00メガバイトである。このデータベースからは、 2020種類の親子ペア、 1548種類の 繰り返しペア、 1044種類の兄弟ペアが検出された。 2020種類の親子ペアのうち、 最高頻度で出現した親子ペアは 13749回出現している。また、 1つの親子ペアが文 書群において出現する平均回数は 2335回であった。 2020種類の親子ペアのうち、 最大距離は 10、平均距離は 2. 72である。ただし、親子ペアの距離の上限は 10とし て設定されている。同様に、親子ペアのうちの最大頻度は 83. 75、平均頻度は 1. 3 1、最大深さは 9. 00、平均深さは 2. 43であった。
[0046] 親子ペアについて、距離のばらつきを示す最大の標準偏差は 1. 55、平均的な標 準偏差は 0. 20であった。すなわち、ある親子ペアの距離は、標準偏差 1. 55程度に ばらつく力 親子ペアの距離の平均的なばらつきは、標準偏差 0. 20程度であり、親 子ペアの距離はそれほどばらっかないことがわかる。頻度のばらつきは、最大の標準 偏差 46. 40、平均的な標準偏差 0. 40であり、大きくばらつくことがわかる。また、深 さのばらつきは、最大の標準偏差は 1. 65、平均的な標準偏差は 0. 10である。繰り 返しペアや兄弟ペアについても同図に示すような結果が得られた。
[0047] このように親子ペアや兄弟ペアのようなノードペアの種類ごとに、ひいては、ノード ペアごとに、属性値のばらつき方はさまざまである。そこで、分布近似値取得部 160 は、ノードペアの属性値のばらつきを考慮してノード類似値を補正するための変数と して、分布近似値を算出している。あるノードペア Aの属性値のばらつき方が正規分 布となる場合、属性値の平均値/ 土標準偏差 σの範囲に、コーパスから検出された ノードペア Αのうちの約 68%が収まることになる。また、 μ ± 2 σの範囲に約 95%が 収まることになる。
[0048] たとえば、クエリ文書 Αと被検查文書 Βとの間で検出された共通ペア Cについて、ク エリ文書 Aにおける共通ペア Cの距離は、 μ - 2. 5 σの大きさにあたるとする。一方 、被検查文書 Βにおける共通ペア Cの距離は、 μ + 1. 8 σの大きさにあたるとする。 共通ペア Cは、クエリ文書 Αにも被検查文書 Βにも現れている力 その統計的な位置 は大きく隔たっている。このような場合、分布近似値は小さくなり、ノード類似値が小さ くなるように補正される。
[0049] 図 8は、分布近似値を求めるための表である。
たとえば、あるノードペア Aの距離が μ以上 μ + σ未満であり、被検查文書におけ るノードペア Αの距離も μ以上 μ + σ未満であればノードペア Αの距離についての 分布近似値は 1. 0となる。このように、クエリ文書における共通ペアの属性値と被検 查文書における共通ペアの属性値が統計的に近い関係にあるときに分布近似値は 1 . 0となる。一方、クエリ文書における共通ペアの属性値の位置と被検查文書におけ る共通ペアの属性値の位置の差が σ以上 2 σ未満であれば分布近似値は 0. 5とな る。同様に、 2 σ以上 3 σ未満であれば 0. 3、 3 σ以上 4 σ未満であれば 0. 2、 4 σ以 上であれば 0. 1となる。
[0050] 補正部 156は、式(3)に分布近似値を乗算することにより、ノード類似値を補正する 。たとえば、距離、頻度、深さのそれぞれについての分布近似値を式(3)の補正後の ノード類似値に乗算することにより、標準偏差を考慮した力たちで最終的なノード類 似値を求めてもよい。このような処理方法によれば、クエリ文書と被検査文書の共通 ペアの属性値について、統計的に遠い関係にある場合には、ノード類似値が大きく 抑制されることになる。
[0051] あるいは、式(3)の(qDistance-dDistance)の部分を、距離の分布近似値で除算す ることにより、 qDistance-dDistance/ (距離についての分布近似値)に変更してもよい 。頻度や深さについても同様である。このような処理方法によれば、統計的に遠い関 係にある属性値が存在するときには、 Diffrence値が大きくなり、したがって、ノード類 似値が小さくなる。
なお、レ、うまでもなぐ図 8に示した分布近似値の設定は一例にすぎず、コーパスに 応じて分布近似値の好適な設定値を求めればよい。
[0052] 以上、実施例に基づいて本発明を説明した。
文書処理装置 100は、クエリ文書のタグ構造と被検查文書のタグ構造を比較し、ノ ードペアを単位として構造上の類似性をノード類似値や文書類似値として数値化で きる。構造類似検索はシンプルなアルゴリズムで実現できるため、高速な検索が可能 である。
[0053] ノードペアの属性値として、距離、頻度、深さというシンプルな要素を設定することに より、属性値取得のための処理が単純化されている。また、コーパスにおいて特徴的 なノードペアは、ノード類似値が高くなるように稀少値によって補正される。そのため、 クエリ文書と被検查文書の類似性を判定する上で有用なノードペアとそうでないノー ドペアを考慮した検索が可能となる。また、ノードペアごと、また、その属性値ごとのば らっきを考慮した上で、ノード類似値が補正される。そのため、共通ペアとして検出さ れても、統計的に遠い関係にある属性値を含む場合には、ノード類似値が小さくなる ため、構造類似検索の精度をいつそう高めることができる。また、タグ名の類似性を考 慮することにより、より実際的な構造類似検索が可能となる。
[0054] 以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それ らの各構成要素や各処理プロセスの組み合わせにレ、ろレ、ろな変形例が可能なこと、 またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
[0055] 請求項に記載の稀少補正部の機能は、本実施例においてはノード類似値算出部 1 54と補正部 156によって実現される。また、請求項に記載の分布補正部の機能は、 本実施例においてはノード類似値算出部 154と補正部 156によって実現される。請 求項に記載のノード類似値表示部の機能は、本実施例においては表示部 136によ つて実現される。
これら請求項に記載の各構成要件が果たすべき機能は、本実施例において示され た各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には 理解されるところである。
産業上の利用可能性
[0056] 本発明は、構造化文書ファイルを対象とした検索装置において利用可能である。

Claims

請求の範囲
[1] 所定のタグセットで記述された構造化文書ファイルから、所定の位置関係にあるタ グのペアをノードペアとして検出するノードペア検出部と、
構造ィヒ文書ファイルにおけるノードペアの出現態様を所定の規則により属性値とし て指標化する属性値取得部と、
ノードペアとその属性値を対応づけたインデックス情報を生成するインデックス生成 部と、
第 1の構造化文書ファイルから検出されたノードペア群と第 2の構造化文書ファイル 力 検出されたノードペア群に共通するノードペアを共通ペアとして検出する共通べ ァ検出部と、
第 1の構造化文書ファイルのインデックス情報と第 2の構造ィヒ文書ファイルのインデ ックス情報を参照して、第 1の構造化文書ファイルにおける共通ペアの属性値と第 2 の構造化文書ファイルにおける共通ペアの属性値の類似度をノード類似値として指 標化するノード類似値算出部と、
を備えることを特徴とする文書処理装置。
[2] 前記属性値取得部は、ノードペアに含まれる 2つのタグの相対的な位置関係、ノー ドペアに含まれるタグの構造化文書ファイル中における位置、または、構造化文書フ アイル中におけるノードペアの出現回数を属性値として指標化することを特徴とする 請求項 1に記載の文書処理装置。
[3] 第 1の構造化文書ファイルと第 2の構造化文書ファイルに関する共通ペアについて 算出されたノード類似値から、第 1の構造化文書ファイルと第 2の構造化文書フアイ ルの文書構造としての類似度を文書類似値として算出する文書類似値算出部を更 に備えることを特徴とする請求項 1に記載の文書処理装置。
[4] 比較対象となる第 1の構造化文書ファイルに対して、複数の第 2の構造化文書ファ ィルについての文書類似値がそれぞれ算出されたとき、文書類似値が高い順に第 2 の構造化文書ファイルのタイトルを一覧表示させるランキング表示部を更に備えるこ とを特徴とする請求項 3に記載の文書処理装置。
[5] 前記共通ペア検出部は、第 1の構造化文書ファイルから検出されたノードペアに含 まれるタグ名を示す文字列と第 2の構造化文書ファイルから検出されたノードペアの タグ名を示す文字列が類似関係にあるかを所定の評価規則により判定し、類似関係 にあるときにはそれらのノードペアも共通ペアとしての検出対象とすることを特徴とす る請求項 1に記載の文書処理装置。
[6] 複数の構造化文書ファイルを対象として検查対象となるノードペアの発生頻度を計 数することにより、前記複数の構造化文書ファイルにおいてそのノードペアが出現す る稀少さを稀少値として算出する稀少値算出部と、
稀少値が高い共通ペアのノード類似値が高くなるように、稀少値に応じてノード類 似値を補正する稀少補正部と、
を更に備えることを特徴とすることを特徴とする請求項 1に記載の文書処理装置。
[7] 複数の構造化文書ファイルを対象として検査対象となるノードペアの属性値の統計 的な分布範囲を特定し、第 1の構造化文書ファイルにおける共通ペアの属性値の前 記分布範囲中における位置と第 2の構造化文書ファイルにおける共通ペアの属性値 の前記分布範囲中における位置の近さを分布近似値として算出する分布近似値算 出部と、
前記分布範囲における位置が近い共通ペアのノード類似値が高くなるように、分布 近似値に応じてノード類似値を補正する分布補正部と、
を更に備えることを特徴とする請求項 1に記載の文書処理装置。
[8] 第 1の構造化文書ファイルから検出されたノードペアに対応する複数の表示領域を 画面上に配置し、第 2の構造ィヒ文書ファイルとの関係で検出された共通ペアについ てのノード類似値に応じて、共通ペアに対応する表示領域の表示態様を変化させる ノード類似値表示部を更に備えることを特徴とする請求項 1に記載の文書処理装置。
[9] 所定のタグセットで記述された構造化文書ファイルから、所定の位置関係にあるタ グのペアをノードペアとして検出するステップと、
構造ィ匕文書ファイルにおけるノードペアの出現態様を所定の規則により属性値とし て指標化するステップと、
ノードペアとその属性値を対応づけたインデックス情報を生成するステップと、 第 1の構造化文書ファイルから検出されたノードペア群と第 2の構造化文書ファイル から検出されたノードペア群に共通するノードペアを共通ペアとして検出するステツ プと、
第 1の構造化文書ファイルのインデックス情報と第 2の構造ィヒ文書ファイルのインデ ックス情報を参照して、第 1の構造化文書ファイルにおける共通ペアの属性値と第 2 の構造化文書ファイルにおける共通ペアの属性値の類似度をノード類似値として指 標化するステップと、
を備えることを特徴とする文書処理方法。
所定のタグセットで記述された構造化文書ファイルから、所定の位置関係にあるタ グのペアをノードペアとして検出する機能と、
構造ィヒ文書ファイルにおけるノードペアの出現態様を所定の規則により属性値とし て指標化する機能と、
ノードペアとその属性値を対応づけたインデックス情報を生成する機能と、 第 1の構造化文書ファイルから検出されたノードペア群と第 2の構造化文書ファイル から検出されたノードペア群に共通するノードペアを共通ペアとして検出する機能と 第 1の構造化文書ファイルのインデックス情報と第 2の構造ィヒ文書ファイルのインデ ックス情報を参照して、第 1の構造化文書ファイルにおける共通ペアの属性値と第 2 の構造化文書ファイルにおける共通ペアの属性値の類似度をノード類似値として指 標化する機能と、
をコンピュータに発揮させることを特徴とする文書処理プログラム。
PCT/JP2007/056690 2006-03-31 2007-03-28 文書処理装置および文書処理方法 WO2007119567A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/294,135 US20090132566A1 (en) 2006-03-31 2007-03-28 Document processing device and document processing method
JP2008510879A JP4878624B2 (ja) 2006-03-31 2007-03-28 文書処理装置および文書処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006099800 2006-03-31
JP2006-099800 2006-03-31

Publications (1)

Publication Number Publication Date
WO2007119567A1 true WO2007119567A1 (ja) 2007-10-25

Family

ID=38609344

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/056690 WO2007119567A1 (ja) 2006-03-31 2007-03-28 文書処理装置および文書処理方法

Country Status (3)

Country Link
US (1) US20090132566A1 (ja)
JP (1) JP4878624B2 (ja)
WO (1) WO2007119567A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013038519A1 (ja) * 2011-09-14 2013-03-21 株式会社マイニングブラウニー ウェブページ解析装置およびウェブページ解析用プログラム
CN103500219A (zh) * 2013-10-12 2014-01-08 翔傲信息科技(上海)有限公司 一种标签自适应精准匹配的控制方法
JP2014081958A (ja) * 2014-01-20 2014-05-08 Fujitsu Ltd アノテーション付与方法、アノテーション復元方法、アノテーション付与装置及びアノテーション復元装置
JP2014102624A (ja) * 2012-11-19 2014-06-05 Nippon Telegr & Teleph Corp <Ntt> キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム
CN115495554A (zh) * 2022-09-23 2022-12-20 深圳今日人才信息科技有限公司 一种简历信息模块化的评估方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8527522B2 (en) * 2008-09-05 2013-09-03 Ramp Holdings, Inc. Confidence links between name entities in disparate documents
US20100228738A1 (en) * 2009-03-04 2010-09-09 Mehta Rupesh R Adaptive document sampling for information extraction
US8983980B2 (en) * 2010-11-12 2015-03-17 Microsoft Technology Licensing, Llc Domain constraint based data record extraction
US9558185B2 (en) * 2012-01-10 2017-01-31 Ut-Battelle Llc Method and system to discover and recommend interesting documents
JP5784196B2 (ja) * 2014-08-06 2015-09-24 株式会社東芝 文書マークアップ支援装置、方法、及びプログラム
US10643031B2 (en) 2016-03-11 2020-05-05 Ut-Battelle, Llc System and method of content based recommendation using hypernym expansion
CN107491547B (zh) * 2017-08-28 2020-11-10 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
US20210303773A1 (en) * 2020-03-30 2021-09-30 Oracle International Corporation Automatic layout of elements in a process flow on a 2-d canvas based on representations of flow logic
KR102248294B1 (ko) * 2020-11-05 2021-05-04 주식회사 해시스크래퍼 동일 구조의 데이터를 추출하는 방법 및 그를 이용한 장치
US11934362B2 (en) * 2021-07-22 2024-03-19 EMC IP Holding Company LLC Granular data migration
US11809449B2 (en) 2021-09-20 2023-11-07 EMC IP Holding Company LLC Granular data replication

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014326A (ja) * 1999-06-29 2001-01-19 Hitachi Ltd 構造指定による類似文書の検索装置及び検索方法
JP2003162518A (ja) * 2001-11-26 2003-06-06 Canon Inc 文書種別判定方法
JP2003242167A (ja) * 2002-02-19 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体
JP2005149236A (ja) * 2003-11-17 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> ブロック自動抽出装置、ブロック自動抽出方法およびプログラム
JP2005326970A (ja) * 2004-05-12 2005-11-24 Mitsubishi Electric Corp 構造化文書曖昧検索装置及びそのプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813915B2 (en) * 2000-09-25 2010-10-12 Fujitsu Limited Apparatus for reading a plurality of documents and a method thereof
JP2004348341A (ja) * 2003-05-21 2004-12-09 Toshiba Corp 構造化文書処理システム、構造化文書処理方法及びプログラム
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014326A (ja) * 1999-06-29 2001-01-19 Hitachi Ltd 構造指定による類似文書の検索装置及び検索方法
JP2003162518A (ja) * 2001-11-26 2003-06-06 Canon Inc 文書種別判定方法
JP2003242167A (ja) * 2002-02-19 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体
JP2005149236A (ja) * 2003-11-17 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> ブロック自動抽出装置、ブロック自動抽出方法およびプログラム
JP2005326970A (ja) * 2004-05-12 2005-11-24 Mitsubishi Electric Corp 構造化文書曖昧検索装置及びそのプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013038519A1 (ja) * 2011-09-14 2013-03-21 株式会社マイニングブラウニー ウェブページ解析装置およびウェブページ解析用プログラム
JP2014102624A (ja) * 2012-11-19 2014-06-05 Nippon Telegr & Teleph Corp <Ntt> キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム
CN103500219A (zh) * 2013-10-12 2014-01-08 翔傲信息科技(上海)有限公司 一种标签自适应精准匹配的控制方法
CN103500219B (zh) * 2013-10-12 2017-08-15 翔傲信息科技(上海)有限公司 一种标签自适应精准匹配的控制方法
JP2014081958A (ja) * 2014-01-20 2014-05-08 Fujitsu Ltd アノテーション付与方法、アノテーション復元方法、アノテーション付与装置及びアノテーション復元装置
CN115495554A (zh) * 2022-09-23 2022-12-20 深圳今日人才信息科技有限公司 一种简历信息模块化的评估方法

Also Published As

Publication number Publication date
JPWO2007119567A1 (ja) 2009-08-27
US20090132566A1 (en) 2009-05-21
JP4878624B2 (ja) 2012-02-15

Similar Documents

Publication Publication Date Title
WO2007119567A1 (ja) 文書処理装置および文書処理方法
US10430806B2 (en) Input/output interface for contextual analysis engine
US10235681B2 (en) Text extraction module for contextual analysis engine
US20150106078A1 (en) Contextual analysis engine
US20090313205A1 (en) Table structure analyzing apparatus, table structure analyzing method, and table structure analyzing program
US9092504B2 (en) Clustered information processing and searching with structured-unstructured database bridge
US9171081B2 (en) Entity augmentation service from latent relational data
US20170091270A1 (en) Organizational url enrichment
Tanaka-Ishii et al. Computational constancy measures of texts—Yule's K and Rényi's entropy
US9268768B2 (en) Non-standard and standard clause detection
US9075879B2 (en) System, method and computer program for searching within a sub-domain by linking to other sub-domains
WO2018160939A1 (en) Characterizing files for similarity searching
US11269896B2 (en) System and method for automatic difficulty level estimation
Roumeliotis et al. Airlines’ sustainability study based on search engine optimization techniques and technologies
US20080168036A1 (en) System and Method for Locating and Extracting Tabular Data
JP4750628B2 (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Haak et al. Perception-aware bias detection for query suggestions
US20160196266A1 (en) Inferring seniority based on canonical titles
JP2011227633A (ja) コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム
JP5379627B2 (ja) 検索制御装置、検索制御方法、及びプログラム
JP2018072873A (ja) 情報処理装置、情報処理方法、およびプログラム
Dimitrova et al. Consider the source: Predictors of online citation permanence in communication journals
US20160196619A1 (en) Homogenizing time-based seniority signal with transition-based signal
Neylon Working with web data and APIs
Zammit et al. Exposing knowledge: providing a real-time view of the domain under study for students

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07740128

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008510879

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12294135

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07740128

Country of ref document: EP

Kind code of ref document: A1