WO1999014690A1 - Keyword adding method using link information - Google Patents

Keyword adding method using link information Download PDF

Info

Publication number
WO1999014690A1
WO1999014690A1 PCT/JP1997/003280 JP9703280W WO9914690A1 WO 1999014690 A1 WO1999014690 A1 WO 1999014690A1 JP 9703280 W JP9703280 W JP 9703280W WO 9914690 A1 WO9914690 A1 WO 9914690A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
keyword
words
phrase
information
Prior art date
Application number
PCT/JP1997/003280
Other languages
French (fr)
Japanese (ja)
Inventor
Hisao Mase
Hiroshi Tsuji
Original Assignee
Hitachi, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi, Ltd. filed Critical Hitachi, Ltd.
Priority to PCT/JP1997/003280 priority Critical patent/WO1999014690A1/en
Publication of WO1999014690A1 publication Critical patent/WO1999014690A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Definitions

  • the present invention automatically extracts a keyword characterizing the content from a certain document and another related document, classifies the document according to the content based on the extracted key, and furthermore, searches the content of the searched document. How to display.
  • it relates to a method for extracting an appropriate keypad from document information scattered on a network.
  • methods for efficiently accessing desired information include: (2) a method of linking a document related to a certain document and appropriately linking the link;
  • a method using a document search system that is, a method in which the user inputs search conditions related to keywords, dates, creators, and the like, and a list of information meeting the conditions is displayed.
  • a search method that is, a method in which each document is categorized in advance according to its content, and a user is allowed to search for a genre system, thereby facilitating narrowing down of documents.
  • the genre system is displayed by hierarchy level in order from the top, and the user can be displayed top-down. There is a way to let the user directly select
  • the purpose of the present invention is to determine the appropriate It is an object of the present invention to provide a method and apparatus for assigning a key to a document which extracts a key key and classifies the document with high accuracy based on the key.
  • a keyword is extracted from a document to be assigned with a key and stored in a storage device and a document associated with the document to be assigned with the key, and the extracted keyword is converted to the document to be assigned with the key.
  • the above-mentioned problem (1) is solved by storing the data in the storage device in association with each other.
  • a keyword is extracted from a document to be classified and a document associated with the document to be classified, and the keyword is associated with “a plurality of category groups and each category stored in a storage device.
  • the similarity is calculated for each category by comparing the keywords in the "classification knowledge describing the group of keywords to be classified", and the similarity is calculated. Solve the problem (1).
  • a key code is extracted from the classification target document and the document associated with the classification target document, and the key code and the “user identifier and each user identifier” stored in the storage device are extracted.
  • the key code and the “user identifier and each user identifier” stored in the storage device are extracted.
  • one or more types of keywords are respectively extracted from the document stored in the storage device and the document associated with the document, stored in the storage device, and the document is displayed via the output unit.
  • the above problems (2), (3), and (4) are solved by arranging and displaying the keywords so as to correspond to the associated document.
  • the document associated with the document stored in the storage device is The number of accesses is held, and when the document is displayed via the output unit, the number of accesses or the object corresponding to the number of accesses is arranged so as to correspond one-to-one for each document together with the display target document.
  • FIG. 1 is a diagram showing an outline of the key assignment described in this embodiment
  • FIG. 2 is a diagram showing an outline of a system described in this embodiment
  • FIG. 3 is a document having a link structure.
  • FIG. 4 is a diagram showing an example of a description of the document of FIG. 3 in HTML language
  • FIG. 5 is a diagram showing an example of a configuration of a word weighting rule 17.
  • FIG. 6 is a diagram showing a processing procedure of the document analysis processing unit 6
  • FIG. 7 is a diagram showing an example of a configuration of the word table 15
  • FIG. 8 is a configuration of a keyword extraction rule 18.
  • FIG. 9 is a diagram showing an example of a keyword recognized from a document and a word table 15;
  • FIG. 9 is a diagram showing an example of a keyword recognized from a document and a word table 15;
  • FIG. 10 is a diagram showing a processing procedure of a keyword recognition processing unit 7;
  • FIG. 11 is a diagram showing an example of the definition of the classification knowledge base 20.
  • FIG. FIG. 13 is a diagram showing an example of the configuration of the document information database 22.
  • FIG. 14 is a diagram showing a processing procedure of the link information insertion processing section 12.
  • FIG. 5 is a diagram showing an example of a description in the HTML language after the link information insertion processing, and
  • FIG. 16 is a view showing an example of a document display result after the link information insertion processing.
  • a group of documents scattered on a network is collected, a keyword that characterizes each document is automatically recognized, and these documents are classified according to content based on a key.
  • This is a system that displays to a user a document that matches a search request from the user.
  • Documents to be searched are related sentences from one document.
  • the document has a hyperlink structure capable of linking to a textbook.
  • an HTML (Hypertext Markup Language) accessible by a WWW (Worldwide Web) browser is used.
  • HTML Hypertext Markup Language
  • HTML Hypertext Markup Language
  • HTML Hypertext Markup Language
  • FIG. 1 is a schematic diagram showing the features of the present embodiment, and is a diagram for assisting understanding of the system described in detail in FIG. 2 and thereafter.
  • the processing target (keyword extraction, classification, display, etc.) is linked from document 01 to another document (002, 003, 004) and is linked to each other. ing.
  • a key candidate 106 is extracted from each document by a method described later.
  • the keyword 07 of the document 01 to be processed is identified.
  • the keywords included in the document linked to the document and satisfying a certain condition are used as the key words of the document to be processed.
  • One of the effects of the present invention is that, by using a single key, highly accurate key information can be output.
  • some documents include audio, image, and video information in addition to text.
  • text information can be extracted from these pieces of information by performing speech recognition, image processing, and image / speech recognition processing in video, so that it can be handled in the same way as text after extraction.
  • FIG. 2 is a diagram showing an outline of a system described in this embodiment.
  • the system shown in Fig. 2 is a document management service that collects and manages document information from external networks 1 such as the Internet where document information is scattered, and external network 1.
  • External networks 1 such as the Internet where document information is scattered, and external network 1.
  • Server 2 a client that requests a search from the document management server 2 and displays the search results on the browser 28, a network 4 for connecting the client to the document management server and a group of clients (LAN (Local Area Network), Telephone line).
  • LAN Local Area Network
  • Telephone line LAN (Local Area Network), Telephone line.
  • the documents to be collected and managed by the document management server 2 may include those in the LAN 4.
  • the system described in this embodiment has the following six functions.
  • the document collection processing unit 5 collects document information scattered on the external network 1. Each document has its own address information. In the WWW, address information called URL (Uniformed Resource Locator) is determined. The URL also contains the name of the server where that information is stored.
  • URL Uniformed Resource Locator
  • document collection starts from one page and is linked to that page This is done by scanning the pages that are present. Since the algorithm for document collection is already known, no particular mention is made here.
  • the document may be collected by automatically collecting the document or by storing the document in a specific location of the document management server 2 by the document creator.
  • the documents collected by the document collection processing unit 5 are temporarily stored in the document data 13.
  • the document analysis processing unit 6 extracts words constituting the document from the text portion of the document collected and stored in the document data 13. If the document is not text (voice, image, video), it is necessary to extract text information by applying a program that recognizes text information from each information. For speech recognition and image recognition (especially character recognition), a system with a certain level of accuracy has already been realized.
  • a word dictionary 16 that stores vocabulary information such as headings of words and parts of speech is referred to. Since the word segmentation algorithm is already known as shown in the IPSJ 44th National Convention Lecture Papers (3), page 18 and so on, it will not be described here.
  • the document analysis processing unit 6 distributes weights to the respective words by referring to the word weighting rules 17 in order to determine how important each word is in the document.
  • the word weighting rule 17 in the present embodiment it is possible to define rules for the following seven types of parameters relating to the description of a sentence.
  • Each rule defines the weight to be added to words that satisfy the rule.
  • the document analysis processing unit 6 assigns weights to words using at least one of the above seven types of parameters.
  • the assigned result is stored in the word table 15 for each document. In the present embodiment, only the nouns extracted from the document are stored in the word table 15, and the rest are rejected.
  • the document analysis processing unit 6 recognizes the ID (URL) of another document linked to the document by identifying the anchor linked to the document.
  • the keyword recognition processing section 7 comprehensively determines a keyword of a specific document from words (nouns) extracted from the document and a group of documents linked to the document. That is, key recognition is performed based not only on the words appearing in the document, but also on the tendency of words appearing in adjacent (related) documents. As a result, even when text information hardly exists in the document, or even when it does exist, there is no description of an appropriate keyword, it is possible to determine the appropriateness of the relevant document by comprehensively referring to the keywords of the relevant document. Key keys can be given.
  • the certification of the key is performed by referring to the key extraction rule 18.
  • key recognition is performed according to the following three types of parameters.
  • a word extracted from each document has a weight value equal to or greater than a certain threshold.
  • Threshold and percentage values can be specified in rules. Rules and A word that satisfies at least one of these three parameters defined as a keyword is identified as a keyword in the document and stored in the keyword table 19 (of course, the system extracts keywords from the document. In this case, the keyword stored in the key table 19 becomes the final output, and the processing ends here.)
  • the classification processing unit 8 classifies the documents to be classified into at least one of predefined categories. Categories are described in the classification knowledge base 20.
  • the knowledge base 20 in the present embodiment is composed of a set of three elements: a category name, a keyword corresponding to each category, and a weight indicating the importance of the keyword.
  • the classification knowledge base 20 may be created manually by defining keywords and their weights for each category, or (half) by extracting keywords and their weights from sample text data corresponding to each category. It may be generated automatically.
  • the classification processing unit 8 compares the key of the document to be classified stored in the keyword table 19 with the key described in the classification knowledge base 20 so as to be classified for each category. Calculate the similarity. This will be described in detail later. After calculating the similarity for each category, these are sorted by similarity. Then, a category having a similarity higher than a predetermined threshold is assigned to the document. Instead of using a threshold, the number of categories may be determined, or the maximum number of categories N may be determined, and the top N categories among the categories having similarities equal to or higher than the threshold are assigned. You may. The category assigned as the classification result is stored in the classification table 21.
  • the analyzed documents and their attribute information are all stored in the document information database 22.
  • the document information database in addition to the document ID, the update date (registration date), the category assigned by the classification processing unit 8, the keyword certified by the keyword certification processing unit 7, the linked document ID, and the relevant document
  • the frequency of access to the URL and the contents of the body are stored.
  • the access frequency information In other words, it is updated by an update request from a link information insertion processing unit 12 described later.
  • the document management server 2 is a client-server system (CSS) that receives a request related to a search from a plurality of clients 3 and returns a processing result to the client. Since the CSS implementation method is already known, it will not be described here. For the sake of simplicity, the contents of requests from the client 3 described in this embodiment are of the following three types. In fact, there will be other requirements.
  • search conditions necessary for the search are passed to the document search processing unit 10 of the document management server 2 via the network 4.
  • search conditions generally use logical operators (AND / OR), and are created by users by describing keywords and categories.
  • the document search processing unit 10 extracts from the document information database 22 document information that satisfies the search conditions passed from the client 3.
  • the method of retrieving documents based on logical formulas is well-known in, for example, the IPSJ 45th National Convention Proceedings (3) Pages 239 to 244, and is not described here.
  • a list of the document ID and the update date (registration date) of the retrieved document information is temporarily stored in the search result 23. This list information is returned via the network 4 to the client 3 that has made the search request. Client 3 displays the returned document ID information in the browser.
  • the address character string input by the user is transferred to the link information insertion processing unit 12 of the document management server 2 via the network 4.
  • the link information insertion processing unit 12 stores the information corresponding to the address in the document information database 22 or the key.
  • Cache directory or from internal network 4 or external network 1.
  • the method of acquiring document information on the network has already been realized by specifying the URL and acquiring the WWW information, so it will not be described here in detail.
  • the key of the document ID linked to the document and the link destination document ID are stored in the document information database 2.
  • the anchor information regarding which document is linked to where can be identified based on the specific tag as described above.
  • the frequency of access to the document stored in the document information database may be inserted.
  • the document into which the link information such as the key or the access frequency is inserted is temporarily stored in the document 25 with link information. This data is passed over the network 4 to the client that requested access.
  • the link information input processing unit 12 requests the document information database 22 to increment the access frequency corresponding to the document by one each time there is an access request.
  • a certain user can notify the user of document information of his or her interest.
  • the system will collect new documents or update the contents of documents already collected.
  • the similarity is calculated by performing matching between the key code extracted by the above method and the keyword defined by each user, so that the key code having a similarity greater than or equal to a certain value is obtained.
  • the address information of the document can be sent by e-mail or the like to the user who defined the code.
  • the classification processing unit 8 performs both the similarity calculation for each category and the similarity calculation for each user.
  • the keyword and weight information defined by the user are stored in the classification knowledge base 20 in association with the user ID. The calculation of the similarity between the user i and the document will be described later.
  • the document distribution processing unit 11 When the documents are classified and temporarily stored in the classification table 21, the document distribution processing unit 11 notifies the user based on the document ID stored in the classification table 21 and the information of the user ID to be notified. Create a document ID list to be notified. Then, the list is sent to the user by e-mail or the like. For the items that have been sent, the contents of the corresponding classification table 21 are deleted.
  • a key can be comprehensively recognized from the document itself and documents related to the document. Also, by using these keywords, it is possible to classify documents and to present supplementary link information (keyword information, access frequency information) to the user when displaying the documents.
  • FIG. 3 is a diagram illustrating an example of a document group forming a link structure.
  • Figure 3 shows a structure in which five types of documents are linked to each other by links.
  • the underlined characters (anchors) indicate links to other documents.
  • the linked document 2 can be displayed by selecting the character string "Company Profile" of the document 1 with the mouse.
  • the size, style, etc., of the characters that make up each document can be changed by using specific tags.
  • FIG. 4 is a diagram showing a description example of the document of FIG. 3 in the HTML language.
  • tags enclosed in inequality signs ( ⁇ ,>) are used to modify characters enclosed in inequality signs and to describe link information to other documents.
  • Each tag uniquely corresponds to a specific function.
  • An HTML document has a part that represents the bibliographic information and a part that describes the text. The former is surrounded by the tag HEAD, and the latter is surrounded by the tag BODY.
  • bibliographic information can include document title information (this information is not displayed in the browser).
  • the function of each tag is valid until a tag with a slash mark (Z) appears on the tag, and some tags can be nested.
  • the HTML document is analyzed while referring to this tag information.
  • FIG. 5 is a diagram showing an example of the configuration of the word weighting rule 17.
  • the word weighting rule 17 relates to the presence or absence of the tag information. It is possible to define the weight corresponding to evening.
  • the first record in FIG. 5 indicates that “when a word appears within the range of the tag“ TITLE (document title information) ”, weight 10 is added to the weight of the word”. If the tag information is within the range of multiple tag information, the weights corresponding to all of them are added. Note that the “Frequency” in the last record in FIG. 5 is not a tag, but a rule on the frequency of occurrence of words in the document. Is added. Instead of setting the lower limit, it is also possible to make relative settings such as words that appear in the document with the highest occurrence rate in the top N%. These threshold information may be additionally stored in the word weighting rule 17, may be stored in another storage location, or may be embedded in the processing program.
  • FIG. 6 is a diagram showing a processing procedure of the document analysis processing unit 6.
  • the document analysis processing unit 6 performs the following processing until the end of the HTML document is reached (step 6001). First, one line of a character string is read from the HTML document (step 6002), and the character string is divided into tag information and text information (step 6003). Next, regarding the tag information, it is determined whether or not the tag is valid based on whether or not a slash (No) is immediately before the tag character string (step 6004). If the tag information is valid, the tag information is determined. Is held (step 6005). Also, it is determined whether the tag information is a tag “A HREFJ” indicating a link (step 60).
  • step 6007 It is determined to be 1D, and stored in the link information table 14 together with the link source document ID (step 6007).
  • word division is performed with reference to the word dictionary 16 storing word headings and part-of-speech / utilization information (step 6008).
  • word segmentation algorithms such as the longest match method and the minimum cost method, and these methods can be applied.
  • step 6009 only nouns are extracted from the divided words and temporarily stored in the work area (step 6009).
  • step 6010 referring to the word weighting rule 17, if the tag specified by the rule 17 is included in the effective tag information at this time (step 6010), the tag is assigned to the tag in the rule 17. Weights are assigned to words that are in the effective range of the tag (step 6010)
  • the frequency of occurrence of the words stored in the work area is counted for each word (step 6012). Then, for each word (step 6013), it is determined whether or not the frequency of occurrence is equal to or greater than a threshold (step 6014). If the frequency is equal to or greater than the threshold, a word weight is assigned to the weight of the word. The weight defined in rule 17 (weight 3 corresponding to the frequency item in FIG. 5) is added (step 6015). However, for certain words The weight corresponding to a specific tag is given only once. For example, the word
  • the weighting method based on information other than tags may use a rule that assigns a certain weight to words appearing from the beginning of the sentence to the N characters in addition to the word appearance frequency. May be used to assign a certain weight to a word accompanied by.
  • the words (nouns) calculated by the processing up to this point and their weights are numerically sorted in descending order based on the weights, and the results are stored in the word table 15 (step 60016).
  • the word table 15 When storing words in the word table 15 in step 60016, if the word to be stored is included in a group of words specified in advance, the word may not be stored. Good. This makes it possible to remove words that cannot clearly be keywords (for example, “if” or “when” in Japanese) o
  • FIG. 7 is a diagram showing an example of the configuration of the word table 15.
  • FIG. 7 is a diagram showing words (nouns) extracted from each of the documents in FIG. 3 and examples of their weights (higher-order words with higher weights). is there.
  • FIG. 8 is a diagram showing an example of the configuration of the keyword extraction rule 18.
  • the keywords of each document are certified using the following conditions.
  • FIG. 8 shows that 10 is defined as the threshold value of the weight of the above condition (1). Further, it indicates that the threshold of the weight of the condition (2) is defined as 5, and the threshold of the number of documents is defined as “60% or more or 1 or less”. Further, it shows that 15 is defined as the threshold value of the weight of the condition (3). In addition, the weight threshold of the above condition (4) is 5, and the threshold
  • FIG. 9 is a diagram showing an example of a keyword of each document recognized from the word table 15 in FIG. 7 based on the keyword extraction rule 18 in FIG. Explaining Document 1, the keywords “Tsurugame Electric” and “Home Page” are extracted first from Condition 1 in Fig. 8. Next, condition 2 is satisfied, but there is no word in document 1 with a weight of 10 or more and a proportion of the number of appearing documents of 60% or more or 1 or less.
  • FIG. 10 is a diagram showing a processing procedure of the keyword recognition processing unit 7.
  • the document ID linked to the key certification document is acquired from the link information table 14 and stored in the work area (step 7001).
  • all the words and their weights corresponding to the document acquired in step 7001 are acquired from the word table 15 and stored in the work area (step 7002).
  • the number of documents containing the word is emphasized, and the percentage of the number of documents stored in the work area is calculated. And hold it (step 7004).
  • the key extraction rule 18 it is determined whether or not the condition CONDI is defined (step 7005). If defined, the keyword stored in the work area is determined.
  • step 7006 For each word of the document to be certified (step 7006), it is determined whether the weight is greater than or equal to the threshold described in the condition CONDI (step 7007), and the weight is greater than or equal to the threshold.
  • the word is stored in the key-code table 19 together with the document ID and the weight of the word as a keyword of the document targeted for keyword recognition.
  • Step 7008 it is determined whether or not the condition COND2 is defined (step 7109). If it is defined, for each word of the keyword recognition target document stored in the work area (step 7101) 0), and referring to the value calculated in step 7004, the number of documents in which the word appears and its Q
  • Step 7 0 1 1 It is determined whether or not the ratio to the whole satisfies the range described in C0ND2 (Step 7 0 1 1), and if so, the word is used as the key word of the document subject to the key-code certification and its document ID is determined. And the weight of the word in the key table 19 (step 7012).
  • steps 7005 to 702 the same processing as in steps 7005 to 702 is performed on the words of the document linked to the key-key certification target document (steps 701 to 702). 0, where COND3 is applied instead of CONDI and COND4 is applied instead of COND2).
  • four types of keyword extraction rules are used, but these are examples of rules, and another rule can be defined in the same manner.
  • FIG. 11 is a diagram showing an example of the definition of the classification knowledge base 20.
  • the classification knowledge base 20 is composed of two types of tables for different purposes. That is, a category classification table for classifying documents into categories and a user classification table for associating documents with users who are interested in the contents. As shown in Fig. 11, the former is composed of three types: category name, keyword, and weight, and the latter is composed of three types: user ID, keyword, and weight. Both have the same configuration except that the category name is User ID.
  • the category classification table can be manually defined by the administrator of this system, or texts corresponding to the category are collected, and a method such as that described in the present embodiment is used from those texts. It is also possible to automatically (semi-) define the keywords by automatically extracting the keywords. Either method can be used, but it is essential that a categorization table is defined anyway.
  • the user classification table is defined by each user using an editor or the like. However, in this case, the words specified by the user need to be divided into words by referring to the word dictionary 16 so that the classification processing unit 8 can match the keywords. You. At this time, if the word specified by the user does not exist in the word dictionary 16, the word is appropriately divided.
  • This numerical value may be described as a relative numerical value (for example, between 0 and 1) or an absolute numerical value (for example, 30 or 200). In Fig. 11, the former is adopted.
  • FIG. 12 is a diagram showing a processing procedure of the classification processing unit 8.
  • Step 8001 After initializing the array element that stores the similarity value for each category (or user) to 0 (Step 8001), the key table of the document to be classified stored in the keyword table 19 (Step 8) 002), referring to the classification knowledge base 20, calculate the following value for the category (or user ID) having the keyword and add it to the similarity of the category (step 8003). ).
  • W j indicates the value of the weight of the keyword (j).
  • w ij indicates the weight of the keyword (j) corresponding to a certain category i in the knowledge base 20.
  • ⁇ w j is the sum of the weights of all the categories for the keypad.
  • the similarity calculation has the following two properties.
  • FIG. 13 is a diagram showing an example of the configuration of the document information database 22. As shown in FIG. 13
  • the document information storage processor 9 stores various data related to a certain document in the document information database 22.
  • the document information database 22 is accessed to its data contents via the document search processing section 10 when requested by the user.
  • the document information database 22 according to the present embodiment includes a document ID, an update date, a category, a keyword, an access frequency (initial value is 0), a linked document ID list, and a text.
  • FIG. 14 is a diagram showing a processing procedure of the link information insertion processing unit 12.
  • the document information is first collected (step 12001).
  • the document information may be extracted from the document information database 22. However, since the contents of the document may be updated, the document information is obtained from the server storing the document information via the network.
  • the key obtains access frequency information for the document ID (step 1203).
  • the HTML file of the document is searched, an anchor indicating a link to another document is found next using the tag indicating the link as a clue, and a keyword group or access frequency information is obtained immediately after the anchor.
  • Step 1204 Insert it (Step 1204). Then, 1 is added to the numerical value of the access frequency of the document in the document information database 22 (step 1200). If the corresponding data does not exist, the keyword information and the access frequency information are not inserted and sent to the client as it is (step 1206).
  • the key code may be extracted by passing it to the document analysis processing unit 6, but it is considered that the access time will increase depending on the size of the processing time required for the analysis. And access frequency information are not inserted. However, it is possible to accumulate document ID information that is not stored in the document information database 22 and then process it by batch to register it in the database 22.
  • the document information into which the keypad information or the access frequency information is inserted is sent to the client that has made the access request, and is displayed on the browser.
  • FIG. 15 is a diagram showing an example of a description in the HTML language after the link information insertion processing for the document of FIG. Immediately after the anchor character string "Latest News", a key for the document 3 linked by the anchor and information on the frequency of access to the document 3 are inserted. Whether or not to insert such information can be specified by the user.
  • FIG. 16 is a diagram showing an example of a document display result after the link information insertion process for the document in FIG.
  • Each anchor is displayed with a keyword and information indicating the access frequency added thereto. This allows the user to know which anchor will be used next to reach the desired information. Also, if it is not possible to determine which link should be found only by the keyword, by referring to the access frequency information, it is possible to try to access from the document that other users access more frequently. it can.
  • the link information input processing unit 12 may remove duplicate keywords.
  • the present invention when keywords are extracted from a certain document or when a certain document is classified, not only information in the document but also keywords extracted from document information associated with the document are used. However, even if there is no appropriate key word in the document, the key word can be accurately identified, and the document can be classified with high accuracy. Further, according to the present invention, when displaying the contents of a document, the display is accompanied by key-key information relating to the document linked to the document or information on the access frequency of the document. I can go.
  • a document desired by the user can be efficiently accessed, and costs such as search time and search cost can be reduced.

Abstract

Keywords proposed are extracted from an objective document and a document linked therewith, and they are integrated to qualify keywords of the objective document. The objective document is classified in a category by comparing these keywords with the processing keywords for classification. When a document is shown, the keywords concerning a document linked with the document or a document accessing frequency (an object corresponding thereto) is shown in an additionally arranged state.

Description

明 細 書 リンク情報を用いたキーヮ一ド付与方法 技術分野  Description Keypad assignment method using link information
本発明は、 ある文書及び関連する別の文書から、 その内容を特徴付けるキー ヮードを自動抽出し、 抽出したキ一ヮ一ドに基づいて文書を内容別に分類し、 さらに、 検索した文書の内容を表示する方法に関する。 特に、 ネッ トワーク上 に散在する文書情報の中から適切なキーヮ一ドを抽出する方法に関する。 背景技術  The present invention automatically extracts a keyword characterizing the content from a certain document and another related document, classifies the document according to the content based on the extracted key, and furthermore, searches the content of the searched document. How to display. In particular, it relates to a method for extracting an appropriate keypad from document information scattered on a network. Background art
文書情報を内容に応じてカテゴリに分類する方法としては、 (1 ) 文書から キーヮードを抽出し、 その出現傾向から適切なカテゴリを決定する方式が一般 的である。  As a method of classifying document information into categories according to the contents, (1) a method of extracting keywords from a document and determining an appropriate category based on the appearance tendency is general.
また、 自分の所望の情報に効率良くアクセスするための方式としては、 (2 ) ある文書に関連する文書をリンクさせておきリンクを適切に迪つていく方式や、 In addition, methods for efficiently accessing desired information include: (2) a method of linking a document related to a certain document and appropriately linking the link;
( 3 ) 文書検索システムを利用する方式、 すなわちキーワードや日付, 作成者 等に関連する検索条件をユーザに入力させ、 その条件に合致する情報一覧を表 示する方式、 (4 ) 文書情報ディレクトリを探索する方式、 すなわちその内容 に応じて各文書を予めジャンル分類しておき、 ユーザにジャンル体系を探索さ せることにより文書の絞り込みを促進する方式がある。 上記 (4 ) のジャンル 体系の探索方法としては、 ジャンル体系の最上位から順に階層レベル別に表示 していき、 ユーザにトップダウンに迪らせる方法のほか、 ジャンル体系一覧を 全部表示して特定ジャンルを直接選択させる方法がある。 (3) A method using a document search system, that is, a method in which the user inputs search conditions related to keywords, dates, creators, and the like, and a list of information meeting the conditions is displayed. There is a search method, that is, a method in which each document is categorized in advance according to its content, and a user is allowed to search for a genre system, thereby facilitating narrowing down of documents. As a method of searching for the genre system in the above (4), the genre system is displayed by hierarchy level in order from the top, and the user can be displayed top-down. There is a way to let the user directly select
し力、し、 上記従来技術においては、 以下の問題点が存在する。  In the above-described conventional technology, the following problems exist.
( 1 ) キーワードに基づく文書分類では、 その文書にテキスト情報がある程度 存在することが不可欠であるため、 テキスト情報が全くあるいはあまり存在し ない文書から適切なキーヮードを抽出して、 当該文書を内容別に分類すること が不可能である。 また、 キーワードの抽出精度が分類精度に大きく影響するた め、 できるだけ多くの角度及び判定要素からキーヮ一ドを選定して抽出するこ とができれば、 それだけ高精度のキーヮ一ド抽出結果および分類結果が期待で きる。 (1) In document classification based on keywords, it is indispensable that text information exists to some extent in the document. It is not possible to extract appropriate keywords from missing documents and classify the documents by content. In addition, since the keyword extraction accuracy greatly affects the classification accuracy, the more accurate the keyword extraction and classification results are, the more keykeys can be selected and extracted from as many angles and judgment factors as possible. Can be expected.
( 2 ) ある文書情報に関連する文書がリンクされた文書群をリンクを迪つて探 索する場合、 リンク先に記述された情報がユーザが所望する情報 (あるいはュ 一ザが所望する情報につながるパス上にある情報) であるかを判定するための 手がかりは、 リンク元のアンカ一 (別の文書を参照していることを表す語句) しかないため、 ユーザが実際にリンクを迪つて別の文書を見たときに必要な情 報でなかつたという場合が頻繁に起こっている。 このような試行錯誤的な探索 による検索効率の低下は、 電話回線等によって情報にアクセスしているユーザ に対して回線使用料等のコストが高くなるなどの問題をもたらす。  (2) When searching a group of documents linked to a document related to certain document information through a link, the information described at the link destination is linked to the information desired by the user (or the information desired by the user). Since the only clue to determine whether the information is on the path) is the anchor of the link source (a phrase indicating that the document refers to another document), the user can actually enter the link It often happens that the information needed when viewing a document is not provided. Such a decrease in search efficiency due to trial-and-error search causes problems such as an increase in costs such as a line usage fee for a user accessing information through a telephone line or the like.
( 3 ) ある情報に初めてアクセスする場合、 ユーザはその情報がどんな内容や 構成であるのか分かっていないので、 キーヮードを指定すること自体が困難で ある。 また、 検索条件の記述内容によっては、 大量の検索結果が表示されるこ とがあるため、 検索条件を変えながら何度も検索をしなければならな 、恐れが あり、 検索時間がかかる。  (3) When a user accesses certain information for the first time, it is difficult for the user to specify the keyword because the user does not know the content or structure of the information. Also, depending on the description of the search condition, a large amount of search results may be displayed, and it is necessary to perform the search many times while changing the search condition.
( 4 ) ジャンルによる絞り込みについては、 自分の要求する文書が当該ジヤン ル体系の中のどのジャンルに該当しているかを予め何らかの方法によって決定 しなければならない。 従って、 選択したジャンルの中にユーザの要求する情報 が含まれていない可能性がある。 また、 選択されなかったジャンルの中にユー ザの要求する情報に関連する情報があった場合、 要求した情報からさらにリン クを迪つて、 他のジャンルに属する関連情報に到達するための手がかりがない ため、 ここから後は試行錯誤的な探索を必要とし、 上記 (2 ) と同様の問題が 生じる。  (4) For narrowing down by genre, it is necessary to determine beforehand which genre in the genre system corresponds to the document requested by some method. Therefore, the information requested by the user may not be included in the selected genre. In addition, when there is information related to the information requested by the user in the genre that has not been selected, a clue to reach the related information belonging to another genre by further linking the requested information. Because of this, a trial-and-error search is required hereafter, and the same problem as (2) above occurs.
本発明の目的は、 当該文書だけでなく、 関連する文書を含む文書群から適切 なキーヮ一ドを抽出し、 それに基づいて文書を高精度に分類する文書のキーヮ 一ド付与方法及び装置を提供することにある。 The purpose of the present invention is to determine the appropriate It is an object of the present invention to provide a method and apparatus for assigning a key to a document which extracts a key key and classifies the document with high accuracy based on the key.
発明の開示 Disclosure of the invention
本発明では、 記憶装置に格納されたキ一ヮ一ド付与対象文書と当該キーヮ一 ド付与対象文書に関連付けられている文書とからキーヮードを抽出し、 抽出し たキーヮードを当該キーヮード付与対象文書に対応させて前記記憶装置に記憶 させることにより、 上記課題 ( 1 ) を解決する。  According to the present invention, a keyword is extracted from a document to be assigned with a key and stored in a storage device and a document associated with the document to be assigned with the key, and the extracted keyword is converted to the document to be assigned with the key. The above-mentioned problem (1) is solved by storing the data in the storage device in association with each other.
また本発明では、 分類対象文書と当該分類対象文書に関連付けられている文 書とからキ一ワードを抽出し、 当該キーワードと、 記憶装置に記憶された 「複 数のカテゴリ群および各カテゴリに対応するキーワード群を記述した分類知 識」 中のキーワードとを照合することによりカテゴリ毎に類似度を算出し、 類 似度の高 、一種類以上のカテゴリを当該分類対象文書に対応付けることにより、 上記課題 ( 1 ) を解決する。  Further, in the present invention, a keyword is extracted from a document to be classified and a document associated with the document to be classified, and the keyword is associated with “a plurality of category groups and each category stored in a storage device. The similarity is calculated for each category by comparing the keywords in the "classification knowledge describing the group of keywords to be classified", and the similarity is calculated. Solve the problem (1).
さらに本発明では、 分類対象文書と当該分類対象文書に関連付けられている 文書とからキーヮ一ドを抽出し、当該キーヮ一ドと、記憶装置に格納された「ュ 一ザ識別子および各ユーザ識別子に対応するキーヮード群を記述した分類知 識」 中のキーワードとを照合することにより、 当該分類対象文書が各ユーザの 要求する文書であるか否かを判別し、 要求する文書である場合、 当該分類対象 文書の内容あるいはァドレス情報を当該ユーザに通知することにより、 上記課 題 (1 ) を解決する。  Further, according to the present invention, a key code is extracted from the classification target document and the document associated with the classification target document, and the key code and the “user identifier and each user identifier” stored in the storage device are extracted. By comparing with the keywords in the "classification knowledge describing the corresponding keyword group", it is determined whether or not the document to be classified is a document requested by each user. The above problem (1) is solved by notifying the user of the contents or address information of the target document.
さらに本発明では、 記憶装置に格納された文書と当該文書に関連付けられて いる文書とからそれぞれ一種類以上のキーヮードを抽出して記憶装置に記憶し ておき、 前記文書を出力手段を介して表示する際に前記キーワードを、 前記関 連付けられている文書と対応するように配置して表示することにより、 上記課 題 (2 ) 、 (3 ) 、 及び (4 ) を解決する。  Further, in the present invention, one or more types of keywords are respectively extracted from the document stored in the storage device and the document associated with the document, stored in the storage device, and the document is displayed via the output unit. The above problems (2), (3), and (4) are solved by arranging and displaying the keywords so as to correspond to the associated document.
さらに本発明では、 記憶装置に格納された文書に関連付けられている文書が アクセスされた回数を保持し、 前記文書を出力手段を介して表示する際に当該 表示対象文書とともに前記アクセス回数あるいはアクセス回数に対応するォブ ジェクトを文書毎に 1対 1に対応するように配置して表示することにより、 上 記課題 ( 2 )、 ( 3 ) 、 及び ( 4 ) を解決する。 図面の簡単な説明 Further, according to the present invention, the document associated with the document stored in the storage device is The number of accesses is held, and when the document is displayed via the output unit, the number of accesses or the object corresponding to the number of accesses is arranged so as to correspond one-to-one for each document together with the display target document. The above problems (2), (3), and (4) are solved by displaying them. BRIEF DESCRIPTION OF THE FIGURES
第 1図は本実施例で述べるキ一ヮ一ド付与の概要を示す図であり、 第 2図は 本実施例で述べるシステムの概要を示す図であり、 第 3図はリンク構造をなす 文書群の一例を示す図であり、 第 4図は第 3図の文書に関する H T M L言語に よる記述例を示す図であり、 第 5図は単語重み付与ルール 1 7の構成の一例を 示す図であり、 第 6図は文書解析処理部 6の処理手順を示す図であり、 第 7図 は単語テーブル 1 5の構成の一例を示す図であり、 第 8図はキーワード抽出ル —ル 1 8の構成の一例を示す図であり、 第 9図は文書および単語テーブル 1 5 から認定されたキーワードの一例を示す図であり、 第 1 0図はキーワード認定 処理部 7の処理手順を示す図であり、 第 1 1図は分類知識ベース 2 0の定義の 一例を示す図であり、 第 1 2図は分類処理部 8の処理手順を示す図であり、 第 1 3図は文書情報データベース 2 2の構成の一例を示す図であり、 第 1 4図は リンク情報挿入処理部 1 2の処理手順を示す図であり、 第 1 5図はリンク情報 挿入処理後の H T M L言語による記述の一例を示す図であり、 第 1 6図はリン ク情報挿入処理後の文書表示結果の一例を示す図である。 発明を実施するための最良の形態  FIG. 1 is a diagram showing an outline of the key assignment described in this embodiment, FIG. 2 is a diagram showing an outline of a system described in this embodiment, and FIG. 3 is a document having a link structure. FIG. 4 is a diagram showing an example of a description of the document of FIG. 3 in HTML language, and FIG. 5 is a diagram showing an example of a configuration of a word weighting rule 17. FIG. 6 is a diagram showing a processing procedure of the document analysis processing unit 6, FIG. 7 is a diagram showing an example of a configuration of the word table 15, and FIG. 8 is a configuration of a keyword extraction rule 18. FIG. 9 is a diagram showing an example of a keyword recognized from a document and a word table 15; FIG. 10 is a diagram showing a processing procedure of a keyword recognition processing unit 7; FIG. 11 is a diagram showing an example of the definition of the classification knowledge base 20. FIG. FIG. 13 is a diagram showing an example of the configuration of the document information database 22. FIG. 14 is a diagram showing a processing procedure of the link information insertion processing section 12. FIG. 5 is a diagram showing an example of a description in the HTML language after the link information insertion processing, and FIG. 16 is a view showing an example of a document display result after the link information insertion processing. BEST MODE FOR CARRYING OUT THE INVENTION
以下で、 本発明の実施例を図面を用いながら詳細に説明する。  Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
本実施例は、 ネッ トワーク上に散在する文書群を収集して、 各文書を特徴付 けるキーヮードを自動的に認定し、 キ一ヮ一ドに基づいてこれらの文書を内容 別に分類しておき、 ユーザからの検索要求に合致する文書をユーザに表示する システムである。 検索の対象となる文書は、 ある一つの文書から関連する別文 書にリンクをはることが可能なハイパーリンク構造を有していると仮定してお り、本実施例では特に、 WWW (Worldwide Web) ブラウザによるアクセスが 可能な、 H TML言語 (Hypertext Markup Language)記述の文書とする。 ま た、 H T M Lでは、 文字修飾やタイトル情報, リンクに関する情報を各種タグ を用いて記述しているので、 これらのタグの種類およびタグの範囲を解析する ことにより、 さまざまな情報を抽出できる。 さらに、 H TM Lでは、 画像情報, 映像情報, 音声情報を含めることが可能である。 なお、 本実施例で述べる内容 は、 この他にも各ェンドユーザによる文書情報の分類整頓等にも適用可能であ る。 In this embodiment, a group of documents scattered on a network is collected, a keyword that characterizes each document is automatically recognized, and these documents are classified according to content based on a key. This is a system that displays to a user a document that matches a search request from the user. Documents to be searched are related sentences from one document. In this embodiment, it is assumed that the document has a hyperlink structure capable of linking to a textbook. In particular, in this embodiment, an HTML (Hypertext Markup Language) accessible by a WWW (Worldwide Web) browser is used. ) Document of description. Also, in HTML, information about character modification, title information, and links is described using various tags, so various information can be extracted by analyzing the types and ranges of these tags. In HTML, image information, video information, and audio information can be included. The contents described in the present embodiment can also be applied to the sorting and ordering of document information by each end user.
第 1図は、 本実施例の特徴を示す概要図であり、 第 2図以下で詳細に述べる システムの理解を支援するための図である。  FIG. 1 is a schematic diagram showing the features of the present embodiment, and is a diagram for assisting understanding of the system described in detail in FIG. 2 and thereafter.
第 1図において、 処理対象 (キーヮード抽出、 分類、 表示等) 文書 0 0 1か ら他の文書 (0 0 2, 0 0 3, 0 0 4 ) にリンク力はられており、 互いに関連 付けられている。 本実施例では、 まず後述する方法により、 各文書からキーヮ 一ド候補 0 0 6を抽出する。 そして、 それらのキーヮード候補を総合的に評価 することにより、 処理対象文書 0 0 1に対するキーヮード 0 0 7を認定する。 つまり、 処理対象文書に十分なテキスト情報が存在していなくても、 その文書 にリンクしている文書に含まれるキーワードであって、 ある条件 (後述) を満 たすキーヮードを処理対象文書のキーヮ一ドとすることにより、 高精度のキー ヮ一ド情報を出力できるのが本発明の効果の一つである。  In Fig. 1, the processing target (keyword extraction, classification, display, etc.) is linked from document 01 to another document (002, 003, 004) and is linked to each other. ing. In this embodiment, first, a key candidate 106 is extracted from each document by a method described later. Then, by comprehensively evaluating the keyword candidates, the keyword 07 of the document 01 to be processed is identified. In other words, even if there is not enough text information in the document to be processed, the keywords included in the document linked to the document and satisfying a certain condition (described later) are used as the key words of the document to be processed. One of the effects of the present invention is that, by using a single key, highly accurate key information can be output.
また、 第 1図において、 文書は、 テキストの他に、 音声, 画像, 映像情報を 含むものもある。 この場合、 音声認識, 画像処理, 映像中の画像 ·音声認識処 理を施すことにより、 これらの情報からテキスト情報を抽出できるので、 抽出 後はテキストと同様に扱うことが可能である。  In addition, in FIG. 1, some documents include audio, image, and video information in addition to text. In this case, text information can be extracted from these pieces of information by performing speech recognition, image processing, and image / speech recognition processing in video, so that it can be handled in the same way as text after extraction.
第 2図は、 本実施例で述べるシステムの概要を示す図である。  FIG. 2 is a diagram showing an outline of a system described in this embodiment.
第 2図のシステムは、 文書情報が散在しているインタ一ネッ ト等の外部ネッ トワーク 1 , 外部ネットワーク 1から文書情報を収集して管理する文書管理サ —バ 2, 文書管理サーバ 2に検索を要求して検索結果等をブラウザ 28に表示 するクライアント 3, 文書管理サーバ、とクライアント群を連結するためのネッ 卜ワーク 4 (LAN (Local Area Network) , 電話回線等) から構成される。 もちろん、 文書管理サーバ 2が収集管理する対象の文書は、 LAN4内のもの を含んでも良い。 The system shown in Fig. 2 is a document management service that collects and manages document information from external networks 1 such as the Internet where document information is scattered, and external network 1. —Server 2, a client that requests a search from the document management server 2 and displays the search results on the browser 28, a network 4 for connecting the client to the document management server and a group of clients (LAN (Local Area Network), Telephone line). Of course, the documents to be collected and managed by the document management server 2 may include those in the LAN 4.
本実施例で述べるシステムは、 以下の六つの機能を有する。  The system described in this embodiment has the following six functions.
(1) 文書情報を収集する。  (1) Collect document information.
(2) 収集文書および当該文書に関連付けられた文書から、 収集文書の各々を 特徴付けるキーヮ一ドを認定する。  (2) From the collected documents and the documents related to the collected documents, identify keypads that characterize each of the collected documents.
(3) 当該キーワードに基づいて各文書を内容別に自動分類し、 文書情報デ一 タベースに格納する。  (3) Automatically classify each document according to its content based on the keyword and store it in the document information database.
(4) エンドユーザから要求される検索要求に従って文書 DBを検索し、 検索 結果をェンドユーザに返す。  (4) Search the document DB according to the search request requested by the end user, and return the search result to the end user.
(5) 予めェンドユーザから自分の興味のある情報に関連するキーヮ一ドが指 定されている場合、 収集された文書の中にその興味に合致する情報があれば、 その情報のァドレスをェンドユーザに報知する。  (5) If the key-key related to the information of interest is specified in advance by the end user, and if there is information matching the interest in the collected documents, the address of the information is sent to the end user. Notify.
(6) エンドユーザからある文書へのアクセス ·表示を要求された場合、 取得 した文書情報の中にその文書が参照している文書に対応するデータを添付して ェンドユーザに表示する。  (6) When an end user is requested to access and display a certain document, the data corresponding to the document referenced by the document is attached to the acquired document information and displayed to the end user.
このうち、 特に重要な機能は、 (2) のキ一ワード認定であり、 第 2図にお ける点線で囲まれた部分に相当する。  Among them, the most important function is the keyword recognition of (2), which corresponds to the part surrounded by the dotted line in Fig. 2.
まず本システムでは、 文書収集処理部 5において、 外部ネットワーク 1に散 在する文書情報を収集する。各文書にはァドレス情報カ 意に決められている。 WWWでは、 URL (Uniformed Resource Locator) と呼ばれるアドレス情報 が決められている。 URLには、 その情報が格納されているサーバ名も含まれ ている。  First, in the present system, the document collection processing unit 5 collects document information scattered on the external network 1. Each document has its own address information. In the WWW, address information called URL (Uniformed Resource Locator) is determined. The URL also contains the name of the server where that information is stored.
一般に文書の収集は、 あるページから始まって、 そのページにリンクされて いるページを迪つていくことによって行われる。 文書収集のアルゴリズムにつ いては既に公知であるのでここでは特に言及しない。 なお、 文書の収集は、 自 動的に収集するほかに、 文書作成者自身が文書管理サーバ 2の特定場所に文書 を格納することにより収集する方法でも良い。 文書収集処理部 5で収集された 文書は、 文書データ 1 3に一時的に格納される。 Generally, document collection starts from one page and is linked to that page This is done by scanning the pages that are present. Since the algorithm for document collection is already known, no particular mention is made here. The document may be collected by automatically collecting the document or by storing the document in a specific location of the document management server 2 by the document creator. The documents collected by the document collection processing unit 5 are temporarily stored in the document data 13.
次に、 文書解析処理部 6では、 文書データ 1 3に収集蓄積された文書のテキ スト部分から、当該文書を構成する単語を抽出する。文書がテキストでない(音 声 .画像 ·映像) 場合、 それぞれの情報からテキスト情報を認識するプログラ ムを適用することにより、 テキスト情報を抽出する必要がある。 音声認識, 画 像認識 (特に文字認識) については、 あるレベルの精度を持つシステムが既に 実現されている。  Next, the document analysis processing unit 6 extracts words constituting the document from the text portion of the document collected and stored in the document data 13. If the document is not text (voice, image, video), it is necessary to extract text information by applying a program that recognizes text information from each information. For speech recognition and image recognition (especially character recognition), a system with a certain level of accuracy has already been realized.
文書解析処理 6では、 得られたテキスト文章を単語に分割するために、 単語 の見出しおよび品詞等の語彙情報を格納した単語辞書 1 6を参照する。 単語分 割アルゴリズムについては、 情報処理学会第 4 4回全国大会講演論文集 (3 ) 1 8 1ページ等に示すように既に公知であるのでここでは言及しない。  In the document analysis processing 6, in order to divide the obtained text sentence into words, a word dictionary 16 that stores vocabulary information such as headings of words and parts of speech is referred to. Since the word segmentation algorithm is already known as shown in the IPSJ 44th National Convention Lecture Papers (3), page 18 and so on, it will not be described here.
また、 文書解析処理部 6では、 各単語が当該文書においてどのくらい重要で あるかを判定するために、 単語重み付与ルール 1 7を参照することにより、 各 単語に重みを配分する。 本実施例における単語重み付与ルール 1 7では、 文章 の記述に関する次の 7種類のパラメータに関するルールを定義可能としている。 Further, the document analysis processing unit 6 distributes weights to the respective words by referring to the word weighting rules 17 in order to determine how important each word is in the document. In the word weighting rule 17 in the present embodiment, it is possible to define rules for the following seven types of parameters relating to the description of a sentence.
( 1 ) 文書のタイ トル (H T M Lでは陽に現れない。 タグ <TITLE>とタグ </TITLE>との間に記述される) (1) Title of the document (It does not appear explicitly in H TML. It is written between tag <TITLE> and tag </ TITLE>)
( 2 )文字の大きさ  (2) Character size
( 3 )文字の色  (3) Text color
( 4 )文字のスタイル (ゴシック, イタリック, アンダーライン等)  (4) Text style (gothic, italic, underline, etc.)
( 5 ) 出現頻度  (5) Appearance frequency
( 6 ) 先頭から N文字以内に出現する語句  (6) Words appearing within the first N characters
( 7 )他文書へのリンクを示すアンカ一情報 各ルールには、 当該ルールを満たす単語に加算すべき重みが定義されている。 文書解析処理部 6では、 上記 7種類のパラメータの少なくとも 1種類を用いて、 単語に重みを付与する。 付与した結果は、 単語テーブル 1 5に文書毎に格納さ れる。 本実施例では、 単語テーブル 1 5には文書から抽出された名詞のみが格 納され、 残りは棄却される。 (7) Anchor information indicating links to other documents Each rule defines the weight to be added to words that satisfy the rule. The document analysis processing unit 6 assigns weights to words using at least one of the above seven types of parameters. The assigned result is stored in the word table 15 for each document. In the present embodiment, only the nouns extracted from the document are stored in the word table 15, and the rest are rejected.
さらに、 文書解析処理部 6では、 当該文書にリンクしているアンカーを認定 することによって、 当該文書にリンクしている他文書の I D ( U R L ) を認定 する。 H T M Lでは、 アンカ一情報は、 「<AHREF= "リンク先のアドレス" >ァ ンカー </A>」 という方法で記述されるので、 これを手がかりに"リンク先のアド レス (U R L ) およびアンカ一文字列情報を容易に得ることができる。 これら のリンク情報はリンク情報テーブル 1 4に対にして格納される。  Further, the document analysis processing unit 6 recognizes the ID (URL) of another document linked to the document by identifying the anchor linked to the document. In HTML, the anchor information is described in the form of “<AHREF =“ link destination address ”> anchor </A>”, which is used as a clue to “link destination address (URL) and anchor character. Column information can be easily obtained, and these link information are stored in pairs in the link information table 14.
次に、 キーワード認定処理部 7において、 ある特定の文書のキーワードを、 当該文書およびその文書にリンクされている文書群から抽出された単語 (名 詞) の中から総合的に決定する。 すなわち、 当該文書に出現する単語だけでな く、 隣接する (関連する) 文書に出現する単語の出現傾向をも踏まえたキ一ヮ ード認定を行う。 これにより、 当該文書にテキスト情報がほとんど存在しない 場合や、 存在したとしても適切なキーワードの記述がない場合でも、 関連する 文書のキーヮードを参照して総合的に判定することにより、 当該文書に適切な キーヮ一ドを付与することが可能となる。  Next, the keyword recognition processing section 7 comprehensively determines a keyword of a specific document from words (nouns) extracted from the document and a group of documents linked to the document. That is, key recognition is performed based not only on the words appearing in the document, but also on the tendency of words appearing in adjacent (related) documents. As a result, even when text information hardly exists in the document, or even when it does exist, there is no description of an appropriate keyword, it is possible to determine the appropriateness of the relevant document by comprehensively referring to the keywords of the relevant document. Key keys can be given.
キ一ヮ一ドの認定は、 キーヮ一ド抽出ルール 1 8を参照して行う。 本実施例 では、 キ一ヮ一ドの認定を次の 3種類のパラメータに従って行う。  The certification of the key is performed by referring to the key extraction rule 18. In this embodiment, key recognition is performed according to the following three types of parameters.
( 1 ) 各文書から抽出された単語の持つ重みの値があるしきい値以上の単語。 (1) A word extracted from each document has a weight value equal to or greater than a certain threshold.
( 2 ) 各文書から抽出された単語のうち、 ある割合以上の文書 (分類対象文書 にリンクしている文書) に存在する単語。 (2) Of the words extracted from each document, words that exist in a certain percentage or more of the documents (documents linked to the document to be classified).
( 3 ) 各文書から抽出された単語のうち、 ある割合以下の文書 (分類対象文書 にリンクしている文書) に存在する単語。  (3) Of the words extracted from each document, words that exist in a certain percentage or less of documents (documents linked to the documents to be classified).
しきい値および割合の値は、 ルールの中で指定することができる。 ルールと して定義されたこれら 3種類のパラメータの少なくとも 1種類を満たす単語を 当該文書のキ一ワードとして認定し、 キーワードテーブル 1 9に格納する (も ちろん、 本システムは、 文書からのキーワード抽出を目的とする場合でも適用 可能である。 その場合、 キ一ヮ一ドテーブル 1 9に格納されたキーヮードが最 終出力となり、 ここで処理は終了となる) 。 Threshold and percentage values can be specified in rules. Rules and A word that satisfies at least one of these three parameters defined as a keyword is identified as a keyword in the document and stored in the keyword table 19 (of course, the system extracts keywords from the document. In this case, the keyword stored in the key table 19 becomes the final output, and the processing ends here.)
次に、 分類処理部 8において、 分類対象文書を予め定義されたカテゴリの少 なくとも一つ以上に分類する。 カテゴリは分類知識べ一ス 2 0の中で記述され る。 本実施例における知識べ一ス 2 0は、 カテゴリの名称、 各カテゴリに対応 するキーヮード, およびそのキーヮードの重要度を示す重みの 3要素が 1組に なって構成される。 分類知識ベース 2 0は、 カテゴリ毎にキーワードおよびそ の重みを定義することにより人手で作成しても良いし、 各カテゴリに対応する サンプルテキストデータからキーヮードおよびその重みを抽出することにより (半) 自動的に生成しても良い。  Next, the classification processing unit 8 classifies the documents to be classified into at least one of predefined categories. Categories are described in the classification knowledge base 20. The knowledge base 20 in the present embodiment is composed of a set of three elements: a category name, a keyword corresponding to each category, and a weight indicating the importance of the keyword. The classification knowledge base 20 may be created manually by defining keywords and their weights for each category, or (half) by extracting keywords and their weights from sample text data corresponding to each category. It may be generated automatically.
分類処理部 8では、 キーワードテーブル 1 9に格納された分類対象文書のキ —ヮードと、 分類知識べ一ス 2 0に記述されたキ一ヮ一ドとを照合することに より、 カテゴリ毎に類似度を算出する。 これについては後で詳しく述べる。 各カテゴリ毎の類似度を算出した後、 これらを類似度によりソートする。 そ して予め決められたしきい値以上の類似度を持つカテゴリを当該文書に付与す る。 しきい値を用いる代わりに、 カテゴリの個数を決めておいても良いし、 最 大カテゴリ数 Nを決めておき、 しきい値以上の類似度を持つカテゴリのうちの 上位 N個のカテゴリを付与しても良い。 分類結果として付与されたカテゴリは 分類テーブル 2 1に格納される。  The classification processing unit 8 compares the key of the document to be classified stored in the keyword table 19 with the key described in the classification knowledge base 20 so as to be classified for each category. Calculate the similarity. This will be described in detail later. After calculating the similarity for each category, these are sorted by similarity. Then, a category having a similarity higher than a predetermined threshold is assigned to the document. Instead of using a threshold, the number of categories may be determined, or the maximum number of categories N may be determined, and the top N categories among the categories having similarities equal to or higher than the threshold are assigned. You may. The category assigned as the classification result is stored in the classification table 21.
解析の終わった文書およびその属性情報 (カテゴリなど) はすべて文書情報 データベース 2 2に格納される。 文書情報データベースには、文書 I Dのほか、 更新日 (登録日) 、 分類処理部 8で付与されたカテゴリ、 キーワード認定処理 部 7で認定されたキーワードのほか、 リンクしている文書 I D、 当該文書への アクセス頻度、 本文内容などが格納される。 ここで、 アクセス頻度情報につい ては、 後述するリンク情報挿入処理部 1 2からの更新要求により更新される。 本実施例における文書管理サーバ 2は、 複数のクライアント 3からの検索に 関連する要求を受理し、 処理結果をクライアン卜に返すというクライアントー サーバシステム (C S S ) となっている。 C S Sの実現方式については既に公 知であるので、 ここでは説明しない。 説明を簡単にするため、 本実施例で述べ るクライアント 3からの要求内容は、 次の 3種類とする。 実際には、 他の要求 があるであろう。 The analyzed documents and their attribute information (categories, etc.) are all stored in the document information database 22. In the document information database, in addition to the document ID, the update date (registration date), the category assigned by the classification processing unit 8, the keyword certified by the keyword certification processing unit 7, the linked document ID, and the relevant document The frequency of access to the URL and the contents of the body are stored. Here, the access frequency information In other words, it is updated by an update request from a link information insertion processing unit 12 described later. The document management server 2 according to the present embodiment is a client-server system (CSS) that receives a request related to a search from a plurality of clients 3 and returns a processing result to the client. Since the CSS implementation method is already known, it will not be described here. For the sake of simplicity, the contents of requests from the client 3 described in this embodiment are of the following three types. In fact, there will be other requirements.
( 1 ) ある条件を満たす文書を文書情報データベース 2 2から検索し、 結果を 取得する検索実行指示 2 6。  (1) A search execution instruction 26 for searching the document information database 22 for a document that satisfies certain conditions and obtaining the result.
( 2 ) あるァドレスに対応する文書情報を取得する文書アクセス指示 2 8。 (2) Document access instruction to obtain document information corresponding to a certain address 28.
( 3 )分類知識ベース 2 0の内容の定義 ·更新。 (3) Definition and update of the contents of the classification knowledge base 20.
クライアント 3から検索実行指示 2 «がなされると、 検索に必要な検索条件 が文書管理サーバ 2の文書検索処理部 1 0にネッ トワーク 4を経由して渡され る。 検索条件は、 基本的には論理演算子 (AND/OR) を用いることが一般的で あり、 キーワード, カテゴリを記述することによりユーザが作成する。 文書検 索処理部 1 0では、 クライアント 3から渡された検索条件を満たす文書情報を 文書情報データベース 2 2から抽出する。 論理式に基づいて文書を検索する方 式については、 例えば情報処理学会第 4 5回全国大会講演論文集 (3 ) 2 3 9 ページ〜 2 4 4ページ等により公知なので、 ここでは説明しない。  When a search execution instruction 2 is issued from the client 3, search conditions necessary for the search are passed to the document search processing unit 10 of the document management server 2 via the network 4. In general, search conditions generally use logical operators (AND / OR), and are created by users by describing keywords and categories. The document search processing unit 10 extracts from the document information database 22 document information that satisfies the search conditions passed from the client 3. The method of retrieving documents based on logical formulas is well-known in, for example, the IPSJ 45th National Convention Proceedings (3) Pages 239 to 244, and is not described here.
検索された文書情報のうち、 文書 I Dおよび更新日 (登録日) のリス卜が検 索結果 2 3に一時的に格納される。 このリスト情報を検索要求をしてきたクラ イアント 3にネットワーク 4を経由して戻す。 クライアント 3では、 返された 文書 I D情報をブラウザに表示する。  A list of the document ID and the update date (registration date) of the retrieved document information is temporarily stored in the search result 23. This list information is returned via the network 4 to the client 3 that has made the search request. Client 3 displays the returned document ID information in the browser.
クライアント 3からあるァドレスを持つ文書情報へのアクセス指示 2 7がな されるとユーザが入力したァドレス文字列を文書管理サーバ 2のリンク情報挿 入処理部 1 2にネットワーク 4を経由して渡す。 リンク情報挿入処理部 1 2で は、 当該アドレスに対応する情報を文書情報データベース 2 2 , あるいは、 キ n When an instruction 27 to access document information having a certain address is issued from the client 3, the address character string input by the user is transferred to the link information insertion processing unit 12 of the document management server 2 via the network 4. The link information insertion processing unit 12 stores the information corresponding to the address in the document information database 22 or the key. n
ャッシュディレクトリ, あるいは、 内部ネットワーク 4や外部ネットワーク 1 から取得する。 ネットワーク上の文書情報を取得する方式については、 U R L を指定して WWWの情報を取得することで既に実現されているので、 ここで深 く言及しない。 Cache directory, or from internal network 4 or external network 1. The method of acquiring document information on the network has already been realized by specifying the URL and acquiring the WWW information, so it will not be described here in detail.
取得された文書情報について、 当該文書情報が文書情報データベース 2 2の 中に存在した場合、 当該文書にリンクしている文書 I Dおよびリンク先の文書 I Dの持つキ一ヮ一ドを文書情報データベース 2 2から取得する。 アクセス対 象となっている文書において、 どの文書とどこでリンクしているかに関するァ ンカー情報は、 前述したように特定のタグを手がかりに認定できるので、 リン ク情報挿入処理部 1 2では、 ある文書にリンクしているアンカ一の直後に当該 リンク先の文書に対応するキーヮ一ドを揷入する。 キーヮード情報の代わりに、 文書情報データベースに格納されている当該文書へのアクセス頻度を挿入して も良い。  When the obtained document information is present in the document information database 22, the key of the document ID linked to the document and the link destination document ID are stored in the document information database 2. Obtain from 2. In the document to be accessed, the anchor information regarding which document is linked to where can be identified based on the specific tag as described above. Immediately after the anchor linked to, enter the key code corresponding to the linked document. Instead of the keyword information, the frequency of access to the document stored in the document information database may be inserted.
キ一ヮ一ドあるいはアクセス頻度といったリンク情報が挿入された文書はリ ンク情報付き文書 2 5に一時的に格納される。 このデータは、 ネットワーク 4 を経由してアクセス要求のあったクライアントに渡される。 リンク情報揷入処 理部 1 2では、 アクセス要求がある度に、 当該文書に対応するアクセス頻度を 1ずつィンクリメン卜するように文書情報データベース 2 2に要求する。  The document into which the link information such as the key or the access frequency is inserted is temporarily stored in the document 25 with link information. This data is passed over the network 4 to the client that requested access. The link information input processing unit 12 requests the document information database 22 to increment the access frequency corresponding to the document by one each time there is an access request.
アクセス要求された文書情報が文書情報データベース 2 2にない場合は、 上 記リンク情報は表示しない。 この文書 I Dは、 一時的に保持され、 文書収集処 理部 5に渡して当該文書にリンクしている文書情報とともに収集し、 キーヮー ドを抽出して分類しておくことにより、 次回以降は、 リンク情報を添付するこ とができる。  If the document information requested to be accessed does not exist in the document information database 22, the above link information is not displayed. This document ID is temporarily stored, passed to the document collection processing unit 5 and collected together with the document information linked to the document, and the keywords are extracted and classified, so that the next and subsequent times, Link information can be attached.
一方、 本実施例を拡張することにより、 あるユーザが自分の関心のある文書 情報をユーザに報知することができる。 すなわち、 ユーザが自分の興味あるト ピックに関連したキーヮード (およびその重要度) を定義しておくと、 本シス テムが新たに収集した文書あるし、は既に収集した文書であつて内容が更新され ている文書について、 上記方式により抽出されるキーヮ一ドと各ユーザの定義 したキーワードとの間でマッチングを行って類似度を計算することにより、 あ るしき 、値以上の類似度を有するキーヮ一ドを定義したユーザに対して当該文 書のアドレス情報を電子メール等で送付することができる。 この場合、 分類処 理部 8では、 カテゴリ別の類似度計算とユーザ別の類似度計算の両方を行う。 ユーザによって定義されたキーヮードおよび重み情報は、 分類知識ベース 2 0 にユーザ I Dに対応させて格納される。 ユーザ iと当該文書との間の類似度の 計算については、 後述する。 On the other hand, by extending this embodiment, a certain user can notify the user of document information of his or her interest. In other words, if the user defines the keywords (and their importance) related to the topic of interest, the system will collect new documents or update the contents of documents already collected. Is For a given document, the similarity is calculated by performing matching between the key code extracted by the above method and the keyword defined by each user, so that the key code having a similarity greater than or equal to a certain value is obtained. The address information of the document can be sent by e-mail or the like to the user who defined the code. In this case, the classification processing unit 8 performs both the similarity calculation for each category and the similarity calculation for each user. The keyword and weight information defined by the user are stored in the classification knowledge base 20 in association with the user ID. The calculation of the similarity between the user i and the document will be described later.
文書が分類されて分類テーブル 2 1に一時的に格納されると、 文書配信処理 部 1 1では、 分類テーブル 2 1に格納された文書 I Dと報知すべきユーザ I D の情報に基づいて、 ユーザに報知すべき文書 I Dリストを作成する。 そして、 ユーザに電子メール等により当該リス卜を送付する。 送付の完了したものにつ いて、 対応する分類テーブル 2 1の内容は消去される。  When the documents are classified and temporarily stored in the classification table 21, the document distribution processing unit 11 notifies the user based on the document ID stored in the classification table 21 and the information of the user ID to be notified. Create a document ID list to be notified. Then, the list is sent to the user by e-mail or the like. For the items that have been sent, the contents of the corresponding classification table 21 are deleted.
以上に述べたように、 本実施例のシステムによれば、 収集した文書について、 その文書自身およびその文書に関連した文書からキ一ヮ一ドを総合的に認定す ることができる。 また、 これらのキーワードを用いることにより、 文書を分類 したり、 文書を表示する際に補足的なリンク情報 (キーワード情報、 アクセス 頻度情報) をもユーザに提示したりすることができる。  As described above, according to the system of the present embodiment, for a collected document, a key can be comprehensively recognized from the document itself and documents related to the document. Also, by using these keywords, it is possible to classify documents and to present supplementary link information (keyword information, access frequency information) to the user when displaying the documents.
以下では、 第 2図の処理の詳細について、 具体例を用いて説明する。  Hereinafter, the details of the processing in FIG. 2 will be described using a specific example.
第 3図は、 リンク構造をなす文書群の一例を示す図である。  FIG. 3 is a diagram illustrating an example of a document group forming a link structure.
第 3図では、 5種類の文書が互いにリンクにより関連付けされた構造をなし ている。 第 3図で下線の文字 (アンカー) が他文書へのリンクを表している。 WWWブラウザでは、 文書 1の文字列 「会社概要」 をマウスで選択すると、 リ ンクのはられた文書 2を表示することができる。 また、 各文書を構成する文字 について、 その大きさやスタイル等を特定のタグを用いることにより変えるこ とができる。  Figure 3 shows a structure in which five types of documents are linked to each other by links. In Fig. 3, the underlined characters (anchors) indicate links to other documents. In a WWW browser, the linked document 2 can be displayed by selecting the character string "Company Profile" of the document 1 with the mouse. The size, style, etc., of the characters that make up each document can be changed by using specific tags.
第 4図は、第 3図の文書に関する H TM L言語による記述例を示す図である。 HTML言語では、 不等号(く, >) で囲まれるタグを使って、 不等号で囲 まれる文字を修飾したり、 他文書へのリンク情報を記述する。 各タグは、 特定 の機能にユニークに対応している。 HTML文書は、 その書誌情報を表す部分 と、 本文を記述する部分とがある。 前者は、 タグ HE ADで囲まれており、 後 者は、 タグ BODYで囲まれている。 書誌情報には文書のタイトル情報を記述 することが可能である (この情報はブラウザには表示されない) 。 また、 タグ には、 表示する文字の大きさを表すタグ (H 1, H2, . . . ) や、 改行を示 すタグ (P, BR)、 他文書への参照を表すタグ (A HREF)などがある。 それぞれのタグの機能は、 そのタグにスラッシュ記号 (Z)を付けたタグが現 れるまで有効であり、 さらに、 一部のタグについてはネストにすることも可能 である。 キーワードを抽出する際には、 このタグ情報を参照しながら HTML 文書を解析することになる。 FIG. 4 is a diagram showing a description example of the document of FIG. 3 in the HTML language. In the HTML language, tags enclosed in inequality signs (<,>) are used to modify characters enclosed in inequality signs and to describe link information to other documents. Each tag uniquely corresponds to a specific function. An HTML document has a part that represents the bibliographic information and a part that describes the text. The former is surrounded by the tag HEAD, and the latter is surrounded by the tag BODY. Bibliographic information can include document title information (this information is not displayed in the browser). In addition, tags (H1, H2,...) That indicate the size of characters to be displayed, tags that indicate line breaks (P, BR), and tags that indicate references to other documents (A HREF) and so on. The function of each tag is valid until a tag with a slash mark (Z) appears on the tag, and some tags can be nested. When extracting keywords, the HTML document is analyzed while referring to this tag information.
第 5図は、 単語重み付与ルール 17の構成の一例を示す図である。  FIG. 5 is a diagram showing an example of the configuration of the word weighting rule 17.
上述したように、 原則的には、 ある単語が重要であるか否かの判定はその単 語に係るタグ情報を用いるので、 本実施例では、 単語重み付与ルール 17はタ グ情報の有無に関するものとし、 夕グに対応させた重みを定義できるようにし ている。  As described above, in principle, whether a word is important or not is determined by using the tag information of the word. Therefore, in this embodiment, the word weighting rule 17 relates to the presence or absence of the tag information. It is possible to define the weight corresponding to evening.
従って、 第 5図の第一レコードは、 「ある単語がタグ「T I TLE (文書夕 ィトル情報) 」 の範囲内に出現するとき、 その単語の重みに重み 10を加える」 ことを表している。 複数のタグ情報の範囲内にあるときは、 それらすべてに対 応する重みが加算される。 なお、図 5の最後のレコードの「Frequency」につい ては、 タグではなく、 これは、 文書内の単語の出現頻度に関するルールであり、 予め指定された下限値以上の出現頻度の単語について重み 3を加算するもので ある。 下限値の設定の代わりに、 文書内に出現する単語で出現率の高いものか ら上位 N%というよう相対的な設定をしても良い。 これらのしきい値情報は、 この単語重み付与ルール 17に付加的に格納しておいても良いし、 別の格納場 所に格納しても良いし、 処理プログラム内に埋め込んでも良い。 第 6図は、 文書解析処理部 6の処理手順を示す図である。 Therefore, the first record in FIG. 5 indicates that “when a word appears within the range of the tag“ TITLE (document title information) ”, weight 10 is added to the weight of the word”. If the tag information is within the range of multiple tag information, the weights corresponding to all of them are added. Note that the “Frequency” in the last record in FIG. 5 is not a tag, but a rule on the frequency of occurrence of words in the document. Is added. Instead of setting the lower limit, it is also possible to make relative settings such as words that appear in the document with the highest occurrence rate in the top N%. These threshold information may be additionally stored in the word weighting rule 17, may be stored in another storage location, or may be embedded in the processing program. FIG. 6 is a diagram showing a processing procedure of the document analysis processing unit 6.
文書解析処理部 6では、 HTML文書の最後に到達するまで、 以下の処理を 行う (ステップ 6001 )。 まず、 HTML文書から文字列を 1行読み取り (ス テツプ 6002 ) 、 その文字列をタグ情報と文章情報にわける (ステップ 60 03) 。 次に、 タグ情報について、 タグ文字列の直前にスラッシュ (ノ) がつ いているか否かによって、 タグが有効であるか否かを判定し (ステップ 600 4) 、 有効である場合、 そのタグ情報を保持する (ステップ 6005) 。 また、 タグ情報がリンクを示すタグ「A HREFJであるかを判定し (ステップ 60 The document analysis processing unit 6 performs the following processing until the end of the HTML document is reached (step 6001). First, one line of a character string is read from the HTML document (step 6002), and the character string is divided into tag information and text information (step 6003). Next, regarding the tag information, it is determined whether or not the tag is valid based on whether or not a slash (No) is immediately before the tag character string (step 6004). If the tag information is valid, the tag information is determined. Is held (step 6005). Also, it is determined whether the tag information is a tag “A HREFJ” indicating a link (step 60).
06) 、 リンクを示すタグである場合、 タグ「 A」 に続くタグ「HRE F」 と いう記述の直後に記述されている二重引用符で始まる文字列をリンク先文書の06), if the tag indicates a link, the character string starting with double quotation marks written immediately after the tag “HREF” following the tag “A”
1 Dであると認定し、 リンク情報テーブル 14にリンク元の文書 I Dとともに 格納する (ステップ 6007) 。 タグ以外の文字情報については、 単語見出し および品詞 ·活用情報を格納した単語辞書 16を参照して単語分割を行う (ス テツプ 6008 ) 。 単語分割のアルゴリズムについては、 最長一致法、 最小コ スト法などいくつかの方法が公知であり、 これらの手法が適用できるので、 こ こでは説明しない。 次に、 分割された単語から名詞のみを抽出し、 作業エリア に一時的に格納する (ステップ 6009) 。 次に、 単語重み付与ルール 17を 参照し、 現時点での有効タグ情報の中に、 ルール 17で指定されたタグが含ま れている場合 (ステップ 6010) 、 ルール 17における当該タグに付与され ている重みを、 当該タグの有効範囲に存在する単語に付与する (ステップ 60It is determined to be 1D, and stored in the link information table 14 together with the link source document ID (step 6007). For character information other than tags, word division is performed with reference to the word dictionary 16 storing word headings and part-of-speech / utilization information (step 6008). There are several known word segmentation algorithms, such as the longest match method and the minimum cost method, and these methods can be applied. Next, only nouns are extracted from the divided words and temporarily stored in the work area (step 6009). Next, referring to the word weighting rule 17, if the tag specified by the rule 17 is included in the effective tag information at this time (step 6010), the tag is assigned to the tag in the rule 17. Weights are assigned to words that are in the effective range of the tag (step 60
1 1) o 1 1) o
文書の最後まで解析が終わった後、 作業エリアに格納されていた単語の出現 頻度を単語別にカウントする (ステップ 6012) 。 そして、 各単語について (ステップ 60 13) 、 その出現頻度があるしきい値以上であるか否かを判定 し (ステップ 6014) 、 しきい値以上である場合、 当該単語の重みに単語重 み付与ルール 17に定義された重み (第 5図では Frequencyの項目に該当する 重み 3) を加算する (ステップ 601 5) 。 ただし、 ある特定の単語に対して ある特定のタグに対応する重みを付与するのは一度限りとする。 例えば、 単語After the analysis to the end of the document, the frequency of occurrence of the words stored in the work area is counted for each word (step 6012). Then, for each word (step 6013), it is determined whether or not the frequency of occurrence is equal to or greater than a threshold (step 6014). If the frequency is equal to or greater than the threshold, a word weight is assigned to the weight of the word. The weight defined in rule 17 (weight 3 corresponding to the frequency item in FIG. 5) is added (step 6015). However, for certain words The weight corresponding to a specific tag is given only once. For example, the word
Aが文書中に 2度イタリックで出現したとしても、 単語 Aに加算する、 ィタリ ックのタグに対応する重みは 3 ( 6ではない) とする。 なお、 タグ以外の情報 に基づく重みの付与方法は、 単語出現頻度以外に、 文頭から N文字までに出現 する単語に対してある重みを付与するというルールを用いても良いし、 特定の 文字列を伴う単語に対してある重みを付与するというルールを用いても良い。 ここまでの処理で算出された単語 (名詞) およびその重みを重みに基づいて降 順に数値ソートし、 その結果を単語テーブル 1 5に格納する (ステップ 6 0 1 6 ) 。 なお、 ステップ 6 0 1 6で、 単語テーブル 1 5に単語を格納する際に、 格納対象の単語が予め指定しておいた単語群の中に含まれる場合、 その単語を 格納しないようにしてもよい。 これにより、 明らかにキーワードとなり得ない 単語 (日本語では例えば、 「場合」 「とき」 など) を除去することが可能とな る o Even if A appears twice in italics in the document, the weight corresponding to the italic tag added to word A is 3 (not 6). The weighting method based on information other than tags may use a rule that assigns a certain weight to words appearing from the beginning of the sentence to the N characters in addition to the word appearance frequency. May be used to assign a certain weight to a word accompanied by. The words (nouns) calculated by the processing up to this point and their weights are numerically sorted in descending order based on the weights, and the results are stored in the word table 15 (step 60016). When storing words in the word table 15 in step 60016, if the word to be stored is included in a group of words specified in advance, the word may not be stored. Good. This makes it possible to remove words that cannot clearly be keywords (for example, “if” or “when” in Japanese) o
第 7図は、 単語テーブル 1 5の構成の一例を示す図であり、 第 3図の文書の 各々から抽出した単語 (名詞) およびその重みの一例 (重みの高い上位の単語) を示す図である。 文書 1中の単語「鶴亀電機」 は、 第 4図にも示すように、 T I T L Eに出現しており、 また、 文字が大きく (タグ「H 1」 ) 、 さらに B o 1 d体 (タグ「B」 ) で記述されているので、 第 5図のルール 1 7を用いると すると、 その重みは、 1 0 + 5 + 7 = 2 2となる。 同様に文書 3中の単語 「P C」については、 ボールド体(タグ「B」)で出現し、文字が大きく (タグ「H 2」 ) 、 文書 4へのリンクを表すアンカー文字列を構成しているので、 その重 みは、 5 + 3 + 8 = 1 6となる。  FIG. 7 is a diagram showing an example of the configuration of the word table 15. FIG. 7 is a diagram showing words (nouns) extracted from each of the documents in FIG. 3 and examples of their weights (higher-order words with higher weights). is there. As shown in Fig. 4, the word "Tsurugame Denki" in Document 1 appears in TITLE, has a large character (tag "H1"), and has a Bo1d body (tag " B ”), the weight is 10 + 5 + 7 = 22 if rule 17 in Fig. 5 is used. Similarly, the word “PC” in document 3 appears in boldface (tag “B”), has large characters (tag “H2”), and forms an anchor character string that indicates a link to document 4. Therefore, its weight is 5 + 3 + 8 = 16.
第 8図は、 キーワード抽出ルール 1 8の構成の一例を示す図である。  FIG. 8 is a diagram showing an example of the configuration of the keyword extraction rule 18.
本実施例では、 以下の条件を使って、 各文書のキーワードを認定する。  In this embodiment, the keywords of each document are certified using the following conditions.
( 1 ) 当該文書から抽出された単語について、 その単語の重みがあるしきい値 以上であるか。  (1) For a word extracted from the document, is the weight of the word equal to or greater than a certain threshold value?
( 2 ) 当該文書から抽出されたあるしきし、値以上の重みを持つ単語につ L、て、 当該文書および当該文書からリンクがはられている文書のうちその単語の出現 する文書数があるしきい値以上 (以下) であるか。 (2) For a word extracted from the document and having a weight greater than or equal to the value, Whether the number of documents in which the word appears in the document and the documents linked from the document is equal to or greater than a certain threshold (less than or equal to).
( 3 ) 当該文書からリンクがはられている文書から抽出された単語について、 その単語の重みがあるしきい値以上である力、。  (3) The power of a word extracted from a document linked from the document, the weight of the word being equal to or greater than a threshold.
( 4 ) 当該文書からリンクがはられている文書から抽出されたあるしきい値以 上の単語について、 当該文書および当該文書からリンクがはられている文書の うちその単語の出現する文書数があるしきい値以上 (以下) であるか。  (4) For words above a certain threshold value extracted from a document linked from the document, the number of documents in which the word appears among the documents and documents linked from the document is Is it above or below a certain threshold?
上記の条件を満たす単語を当該文書のキーヮ一ドとして認定する。 第 8図で は、 上記条件におけるしきい値情報を定義したものである。 第 8図では、 上記 条件 (1 ) の重みのしきい値として 1 0と定義されていることを示している。 また、上記条件(2 )の重みのしきい値として 5、文書数のしきい値として「6 0 %以上または 1件以下」 と定義されていることを示している。 さらに、 上記 条件 (3 ) の重みのしきい値として 1 5と定義されていることを示している。 さらに、 上記条件 (4 ) の重みのしきい値として 5、 文書数のしきい値として A word that satisfies the above conditions is recognized as a keypad of the document. In FIG. 8, threshold information under the above conditions is defined. FIG. 8 shows that 10 is defined as the threshold value of the weight of the above condition (1). Further, it indicates that the threshold of the weight of the condition (2) is defined as 5, and the threshold of the number of documents is defined as “60% or more or 1 or less”. Further, it shows that 15 is defined as the threshold value of the weight of the condition (3). In addition, the weight threshold of the above condition (4) is 5, and the threshold
「6 0 %以上または 1件以下」 と定義されていることを示している。 It is defined as "60% or more or 1 or less".
第 9図は、 第 8図のキーワード抽出ルール 1 8に基づいて第 7図の単語テー ブル 1 5から認定された各文書のキーヮードの一例を示す図である。 文書 1に ついて説明すると、 第 8図の条件 1よりまずキーワード 「鶴亀電機」 「ホーム ページ」 が抽出される。 次に条件 2であるが、 文書 1の中には重みが 1 0以上 でかつ出現する文書数の割合が 6 0 %以上または 1件以下の単語は存在しない FIG. 9 is a diagram showing an example of a keyword of each document recognized from the word table 15 in FIG. 7 based on the keyword extraction rule 18 in FIG. Explaining Document 1, the keywords “Tsurugame Electric” and “Home Page” are extracted first from Condition 1 in Fig. 8. Next, condition 2 is satisfied, but there is no word in document 1 with a weight of 10 or more and a proportion of the number of appearing documents of 60% or more or 1 or less.
(例えば「会社」 はリンク先である文書 2にも現れるがその出現文書数の割合 は 5 0 % ( 4件中 2件) であり 6 0 %に満たない) 。 次に条件 3であるが、 文 書 1にリンクしているのは文書 2, 3 , 4の 3文書であり、 この中で重みが 1 5以上である単語は、 文書 2の 「会社」 「概要」 、 文書 3の 「最新」 「ニュー ス」 、 文書 4の 「製品」 「情報」 「インタネット」 「対応」 「P C」 であるの で、 これらを文書 1のキーワードとする。 最後に条件 4であるが、 重みが 5以 上でかつ出現する文書数の割合が 6 0 %以上または 1件以下の単語は、 「ハー ドディスク」 「プリンタ」 であるので、 これらを文書 1のキーワードとする。 結局、 この例では、文書 1のキーワードは、 「鶴亀電機」 「ホームページ」 「会 社」 「概要」 「最新」 「ニュース」 「製品」 「情報」 「インタネット」 「対応」(For example, "Company" also appears in linked document 2, but the ratio of the number of appearing documents is 50% (2 out of 4), less than 60%.) Next, condition 3, but linked to document 1 are three documents, documents 2, 3, and 4. Among them, words with a weight of 15 or more are the "company", " Since they are “Overview”, “Latest” and “News” in Document 3, and “Product”, “Information”, “Internet”, “Correspondence” and “PC” in Document 4, these are the keywords in Document 1. Finally, under condition 4, words with a weight of 5 or more and a percentage of appearing documents of 60% or more or 1 or less are defined as These are the keywords for Document 1 because they are "disk" and "printer". After all, in this example, the keywords in Document 1 are “Tsurugame Electric” “Homepage” “Company” “Overview” “Latest” “News” “Products” “Information” “Internet” “Correspondence”
「P C」 「ハードディスク」 「プリンタ」 の 1 3種類であると認定する。 ここ で、 「P C」 「インタネット」 などは、 文書 1には現れないキーワードである ことに注意されたい。 なお前述したが上記キーワードのうち、 「ホームページ」We recognize that there are 13 types: "PC", "hard disk" and "printer". Note that “PC” and “Internet” are keywords that do not appear in Document 1. As mentioned above, among the above keywords, "Homepage"
「概要」 「最新」 「対応」 「情報」 などは文書の内容を特徴付けるキーワード としてはあまり適切でないと思われるので、 このような単語リス卜を予め用意 しておき、 除去することは可能である。 "Summary", "Latest", "Correspondence", "Information", etc. are not considered to be appropriate as keywords that characterize the content of the document, so it is possible to prepare such a word list in advance and remove it. .
第 1 0図は、 キーワード認定処理部 7の処理手順を示す図である。  FIG. 10 is a diagram showing a processing procedure of the keyword recognition processing unit 7.
まず、 リンク情報テーブル 1 4からキ一ヮ一ド認定対象文書にリンクしてい る文書 I Dを取得し、 作業エリアに格納する (ステップ 7 0 0 1 ) 。 次に、 ス テツプ 7 0 0 1で取得した文書に対応する単語およびその重みを単語テーブル 1 5からすべて取得し、 作業エリアに格納する (ステップ 7 0 0 2 ) 。 次に、 作業エリアに格納された各単語について (ステップ 7 0 0 3 ) 、 当該単語を含 む文書が何件あるかを力ゥントし、 作業ェリァに格納された文書数に占める割 合を算出し保持する (ステップ 7 0 0 4 ) 。 次に、 キ一ヮ一ド抽出ルール 1 8 を参照して、 条件 CONDIが定義されているか否かを判定し (ステップ 7 0 0 5 ) 、 定義されている場合、 作業エリアに格納されたキーワード認定対象文書 の各単語について (ステップ 7 0 0 6 ) 、 その重みが条件 CONDI に記述され たしきい値以上であるか否かを判定し (ステップ 7 0 0 7 ) 、 しきい値以上で ある場合、 当該単語を当該キーワード認定対象文書のキーワードとして、 その 文書 I Dおよびその単語の重みとともにキーヮ一ドテーブル 1 9に格納する First, the document ID linked to the key certification document is acquired from the link information table 14 and stored in the work area (step 7001). Next, all the words and their weights corresponding to the document acquired in step 7001 are acquired from the word table 15 and stored in the work area (step 7002). Next, for each word stored in the work area (Step 7003), the number of documents containing the word is emphasized, and the percentage of the number of documents stored in the work area is calculated. And hold it (step 7004). Next, referring to the key extraction rule 18, it is determined whether or not the condition CONDI is defined (step 7005). If defined, the keyword stored in the work area is determined. For each word of the document to be certified (step 7006), it is determined whether the weight is greater than or equal to the threshold described in the condition CONDI (step 7007), and the weight is greater than or equal to the threshold. In this case, the word is stored in the key-code table 19 together with the document ID and the weight of the word as a keyword of the document targeted for keyword recognition.
(ステップ 7 0 0 8 ) 。 次に同様にして条件 COND2が定義されているか否か を判定し (ステップ 7 0 0 9 ) 、 定義されている場合、 作業エリアに格納され たキーヮード認定対象文書の各単語について (ステップ 7 0 1 0 ) 、 ステップ 7 0 0 4で算出した値を参照しながら、 当該単語の出現する文書数およびその Q (Step 7008). Next, similarly, it is determined whether or not the condition COND2 is defined (step 7109). If it is defined, for each word of the keyword recognition target document stored in the work area (step 7101) 0), and referring to the value calculated in step 7004, the number of documents in which the word appears and its Q
全体に占める割合が C0ND2に記述された範囲を満たすか否かを判定し (ステ ップ 7 0 1 1 ) 、 満たす場合、 当該単語を当該キーヮ一ド認定対象文書のキー ヮードとして、 その文書 I Dおよびその単語の重みとともにキ一ヮ一ドテ一ブ ル 1 9に格納する (ステップ 7 0 1 2 ) 。 次に、 ステップ 7 0 0 5からステツ プ 7 0 1 2と同様の処理を、 当該キーヮ一ド認定対象文書にリンクしている文 書の単語について行う (ステップ 7 0 1 3〜ステップ 7 0 2 0、 ただし、 上記 CONDIの代わりに COND3が適用され、 上記 COND2の代わりに COND4が 適用される) 。 本実施例では、 4種類のキーワード抽出ルールを用いているが、 これらはルールの一例であり、 同様にして別のルールを定義することが可能で ある。 It is determined whether or not the ratio to the whole satisfies the range described in C0ND2 (Step 7 0 1 1), and if so, the word is used as the key word of the document subject to the key-code certification and its document ID is determined. And the weight of the word in the key table 19 (step 7012). Next, the same processing as in steps 7005 to 702 is performed on the words of the document linked to the key-key certification target document (steps 701 to 702). 0, where COND3 is applied instead of CONDI and COND4 is applied instead of COND2). In this embodiment, four types of keyword extraction rules are used, but these are examples of rules, and another rule can be defined in the same manner.
第 1 1図は、 分類知識ベース 2 0の定義の一例を示す図である。  FIG. 11 is a diagram showing an example of the definition of the classification knowledge base 20.
分類知識べ一ス 2 0は、使用目的の異なる 2種類のテーブルから構成される。 すなわち、 文書をカテゴリに分類するためのカテゴリ分類テーブルと、 文書を その内容に興味を持つユーザに対応付けるためのユーザ分類テーブルである。 第 1 1図に示すように、 前者はカテゴリ名, キーワード, 重みの 3種類から構 成され、 後者はユーザ I D , キーワード, 重みの 3種類から構成される。 両者 はカテゴリ名がユーザ I Dとなっているだけで、 その他については同一の構成 をしている。  The classification knowledge base 20 is composed of two types of tables for different purposes. That is, a category classification table for classifying documents into categories and a user classification table for associating documents with users who are interested in the contents. As shown in Fig. 11, the former is composed of three types: category name, keyword, and weight, and the latter is composed of three types: user ID, keyword, and weight. Both have the same configuration except that the category name is User ID.
カテゴリ分類テーブルは、 本システムの管理者が手作業で定義することもで きるし、 当該カテゴリに該当するテキス卜を収集しておき、 それらのテキス卜 から本実施例で述べたような方式等によりキーワードを自動抽出することによ り、 (半) 自動的に定義することも可能である。 どちらの方法によって作成さ れてもかまわないが、 とにかくカテゴリ分類テーブルが定義されていることは 不可欠である。  The category classification table can be manually defined by the administrator of this system, or texts corresponding to the category are collected, and a method such as that described in the present embodiment is used from those texts. It is also possible to automatically (semi-) define the keywords by automatically extracting the keywords. Either method can be used, but it is essential that a categorization table is defined anyway.
また、 ユーザ分類テーブルは、 各ユーザがエディタ等により定義するもので ある。 ただし、 この場合、 分類処理部 8でキーワードの照合ができるように、 ユーザが指定した単語は、 単語辞書 1 6を参照して単語分割しておく必要があ る。 この際、 ユーザが指定した単語が単語辞書 1 6に存在しない場合、 その単 語は適切に分割されることになる。 The user classification table is defined by each user using an editor or the like. However, in this case, the words specified by the user need to be divided into words by referring to the word dictionary 16 so that the classification processing unit 8 can match the keywords. You. At this time, if the word specified by the user does not exist in the word dictionary 16, the word is appropriately divided.
分類知識ベース 2 0に記述される重みは、数値が高いほど重要であるとする。 この数値は、 相対的数値 (例えば、 0から 1の間) で記述しても良いし、 絶対 的数値(例えば、 3 0とか 2 0 0とか) で記述しても良い。 第 1 1図では、 前 者を採用している。  It is assumed that the weight described in the classification knowledge base 20 is more important as the numerical value is higher. This numerical value may be described as a relative numerical value (for example, between 0 and 1) or an absolute numerical value (for example, 30 or 200). In Fig. 11, the former is adopted.
第 1 2図は、 分類処理部 8の処理手順を示す図である。  FIG. 12 is a diagram showing a processing procedure of the classification processing unit 8.
カテゴリ (またはユーザ)毎の類似度の値を格納する配列要素を 0に初期化 した (ステップ 8 0 0 1 )後、 キーワードテーブル 19に格納された分類対象文 書のキーヮ一ドについて (ステップ 8 0 0 2 ) 、 分類知識ベース 2 0を参照し て当該キーワードを持つカテゴリ (またはユーザ I D ) に対して、 次の値を計 算し、 当該カテゴリの類似度に追加する (ステップ 8 0 0 3 ) 。  After initializing the array element that stores the similarity value for each category (or user) to 0 (Step 8001), the key table of the document to be classified stored in the keyword table 19 (Step 8) 002), referring to the classification knowledge base 20, calculate the following value for the category (or user ID) having the keyword and add it to the similarity of the category (step 8003). ).
Wj x (w ij/∑ w j) Wj x (w ij / ∑ w j)
ここで、 W jは、 当該キーヮード ( j ) の持つ重みの値をさす。 w ijは、 知識 ベース 2 0においてあるカテゴリ iに対応する当該キーワード (j ) の重みを さす。 ∑w jは、当該キーヮ一ドについてのすべてのカテゴリの重みの合計をさ す。 Here, W j indicates the value of the weight of the keyword (j). w ij indicates the weight of the keyword (j) corresponding to a certain category i in the knowledge base 20. ∑w j is the sum of the weights of all the categories for the keypad.
上式によれば、 類似度計算は次の二つの性質をもつことになる。  According to the above equation, the similarity calculation has the following two properties.
( 1 )分類対象文書のキーヮ一ドの重み W jが大きいほど類似度は大きくなる。 (1) The greater the weight W j of the key-key of the document to be classified, the greater the similarity.
( 2 )あるカテゴリ iに対応するキーヮードの重みの相対的割合(w ijZS w j) が大きいほど類似度は大きくなる。 (2) The greater the relative proportion (w ijZS w j) of the weight of the keyword corresponding to a certain category i, the greater the similarity.
なお、 上式に代わる類似度計算方法として、 当該キーワードの重みと、 対応 するカテゴリとの積を用いてもよい。 また、 これらの値に対して、 単項演算子 (log、 ヽ べき乗、 階乗など) を施したものを類似度としても良い。  As a similarity calculation method instead of the above equation, a product of the weight of the keyword and the corresponding category may be used. Also, unary operators (log, ヽ exponentiation, factorial, etc.) may be applied to these values as similarities.
次に、 ここまでで算出された各カテゴリ (ユーザ I D )毎の類似度について、 あるしきい値よりも大きな類似度を持つところのカテゴリを、 分類テ一ブルに 当該文書 I Dとともに格納する (ステップ 8 0 0 4 ) 。 99 Next, regarding the similarity for each category (user ID) calculated so far, the category having a similarity greater than a certain threshold is stored in the classification table along with the document ID (step 8 0 4). 99
20  20
第 1 3図は、 文書情報データベース 2 2の構成の一例を示す図である。 FIG. 13 is a diagram showing an example of the configuration of the document information database 22. As shown in FIG.
文書情報格納処理部 9では、 ある文書に関する各種データを文書情報データ ベース 2 2に格納する。 文書情報データべ一ス 2 2は、 ユーザからの要求があ つたときに、 文書検索処理部 1 0を介してそのデータ内容にアクセスされる。 本実施例の文書情報データベース 2 2は、 文書 I D, 更新日, カテゴリ, キー ワード, アクセス頻度 (初期値は 0 ) , リンク先文書 I Dリスト, 本文から構 成される。  The document information storage processor 9 stores various data related to a certain document in the document information database 22. The document information database 22 is accessed to its data contents via the document search processing section 10 when requested by the user. The document information database 22 according to the present embodiment includes a document ID, an update date, a category, a keyword, an access frequency (initial value is 0), a linked document ID list, and a text.
第 1 4図は、 リンク情報挿入処理部 1 2の処理手順を示す図である。  FIG. 14 is a diagram showing a processing procedure of the link information insertion processing unit 12.
ユーザからアクセス要求のあった文書 I Dを受け取ると、 まず、 その文書情 報を収集する (ステップ 1 2 0 0 1 ) 。 文書情報データベース 2 2から抽出し ても良いが、 文書の内容が更新されていることもあるので、 ここでは、 文書情 報が格納されたサーバからネッ 卜ワーク経由で文書情報を取得する。 次に、 当 該文書 I Dに対応するデータが文書情報データベース 2 2に存在するか否かを 判定し (ステップ 1 2 0 0 2 ) 、 存在するならば、 当該文書 I Dにリンクする 文書 I Dおよびそのキ一ヮ一ド、 当該文書 I Dへのアクセス頻度情報を取得す る (ステップ 1 2 0 0 3 ) 。 次に、 当該文書の H TM Lファイルを探索し、 他 文書へのリンクを示すアンカーを、 リンクを示すタグを手がかりに jl!l次見つけ、 当該アンカ一の直後にキーヮード群あるいはアクセス頻度情報を挿入する (ス テツプ 1 2 0 0 4 ) 。 そして、 文書情報データベース 2 2の当該文書のァクセ ス頻度の数値に 1を加える (ステップ 1 2 0 0 5 ) 。 対応するデータが存在し ない場合は、 キーワード情報やアクセス頻度情報は挿入せず、 そのままクライ アン卜に送られる (ステップ 1 2 0 0 6 ) 。 もちろん、 文書解析処理部 6に渡 してキーヮ一ド抽出を行っても良いが、 解析にかかる処理時間の大小により、 アクセス時間が増加すると考えられるので、 本実施例では、 とりあえずキーヮ ード情報やアクセス頻度情報を挿入しないこととする。 ただし、 これら文書情 報データベース 2 2に格納されていない文書 I D情報を蓄積しておき、 後にバ ッチで処理してデータベース 2 2に登録することはできる。 キーヮ一ド情報あるいはアクセス頻度情報の挿入された文書情報は、 ァクセ ス要求のあったクライアントに送られ、 ブラウザ上に表示される。 When a document ID for which an access request has been received from a user is received, the document information is first collected (step 12001). The document information may be extracted from the document information database 22. However, since the contents of the document may be updated, the document information is obtained from the server storing the document information via the network. Next, it is determined whether or not data corresponding to the document ID exists in the document information database 22 (step 1202). If so, the document ID linked to the document ID and the document ID are linked. The key obtains access frequency information for the document ID (step 1203). Next, the HTML file of the document is searched, an anchor indicating a link to another document is found next using the tag indicating the link as a clue, and a keyword group or access frequency information is obtained immediately after the anchor. Insert it (Step 1204). Then, 1 is added to the numerical value of the access frequency of the document in the document information database 22 (step 1200). If the corresponding data does not exist, the keyword information and the access frequency information are not inserted and sent to the client as it is (step 1206). Of course, the key code may be extracted by passing it to the document analysis processing unit 6, but it is considered that the access time will increase depending on the size of the processing time required for the analysis. And access frequency information are not inserted. However, it is possible to accumulate document ID information that is not stored in the document information database 22 and then process it by batch to register it in the database 22. The document information into which the keypad information or the access frequency information is inserted is sent to the client that has made the access request, and is displayed on the browser.
第 1 5図は、 第 3図の文書に関するリンク情報挿入処理後の H T M L言語に よる記述の一例を示す図である。 アンカ一文字列 「最新ニュース」 の直後に、 このアンカ一によりリンクされている文書 3に関するキ一ヮ一ドおよび文書 3 へのアクセス頻度情報が挿入されている。 なお、 これらの情報を挿入するか否 かは、 ユーザが指定することも可能である。  FIG. 15 is a diagram showing an example of a description in the HTML language after the link information insertion processing for the document of FIG. Immediately after the anchor character string "Latest News", a key for the document 3 linked by the anchor and information on the frequency of access to the document 3 are inserted. Whether or not to insert such information can be specified by the user.
第 1 6図は、 第 3図の文書に関するリンク情報挿入処理後の文書表示結果の 一例を示す図である。 各アンカ一には、 キ一ワードおよびアクセス頻度を示す 情報が付加された形で表示されている。 これにより、 ユーザは、 次にどのアン カーを迪れば所望の情報にたどり着けるのかを知ることができる。 また、 キー ヮードだけではどのリンクを迪つたらよいのか分からない場合には、 アクセス 頻度情報を参照することにより、 他のユーザがより高頻度でアクセスしている 文書からとりあえずアクセスしてみることができる。 なお、 キーワードの表示 については、 アンカ一を構成する単語と、 アンカーによりリンクされている文 書のキーワードとの間に重複が見られることがある。 この場合、 リンク情報揷 入処理部 1 2において、 重複キーワードの除去をしても良い。  FIG. 16 is a diagram showing an example of a document display result after the link information insertion process for the document in FIG. Each anchor is displayed with a keyword and information indicating the access frequency added thereto. This allows the user to know which anchor will be used next to reach the desired information. Also, if it is not possible to determine which link should be found only by the keyword, by referring to the access frequency information, it is possible to try to access from the document that other users access more frequently. it can. Regarding the display of keywords, there may be some overlap between the words that make up the anchor and the keywords in the document linked by the anchor. In this case, the link information input processing unit 12 may remove duplicate keywords.
産業上の利用可能性 Industrial applicability
本発明によれば、 ある文書からキーワードを抽出したり、 ある文書を分類す る際に、 その文書内の情報だけでなく、 その文書に関連付けられた文書情報か ら抽出したキーヮードをも用いるので、 当該文書に適切なキーヮードが存在し ない場合でも的確にキーヮ一ドを認定でき、 高精度に文書分類することができ る。 また、 本発明によれば、 文書内容を表示する際に、 当該文書にリンクして いる文書に関するキーヮ一ド情報あるいはその文書のアクセス頻度情報を付加 して表示するので、 的確にリンクを迪つていくことができる。  According to the present invention, when keywords are extracted from a certain document or when a certain document is classified, not only information in the document but also keywords extracted from document information associated with the document are used. However, even if there is no appropriate key word in the document, the key word can be accurately identified, and the document can be classified with high accuracy. Further, according to the present invention, when displaying the contents of a document, the display is accompanied by key-key information relating to the document linked to the document or information on the access frequency of the document. I can go.
これらにより、 ユーザの所望する文書へ効率良くアクセスすることができ、 検索時間および検索費用などのコストを低減できる。  As a result, a document desired by the user can be efficiently accessed, and costs such as search time and search cost can be reduced.

Claims

請 求 の 範 囲 The scope of the claims
1 . 記憶装置に格納されたキーヮ一ド付与対象文書と当該キーヮード付与対象 文書に関連付けられている文書とからキーヮードを抽出し、 抽出したキ一ヮ一 ドを当該キーヮード付与対象文書に対応させて前記記憶装置に記憶させること を特徴とするリンク情報を用いたキーヮード付与方法。 1. Keyword is extracted from the document to be given a key word stored in the storage device and the document associated with the document to be given a key word, and the extracted key is made to correspond to the document to be given the key word. A method for providing a keyword using link information, wherein the keyword is stored in the storage device.
2 . キ一ヮ一ド付与対象文書と当該キーヮ一ド付与対象文書に関連付けられて いる文書とから抽出したキ一ヮ一ドを当該キーヮ一ド付与対象文書に対応させ て記録させたことを特徴とするコンピュータ読み取り可能な記録媒体。  2. The fact that the key extracted from the key assignment target document and the document associated with the key assignment target document is recorded corresponding to the key assignment target document is recorded. Characteristic computer readable recording medium.
3 . 前記キーワード付与対象文書は、 音声データ, 映像データ, 画像データ, およびテキストデータの少なくとも一つを含むことを特徴とする請求の範囲第 1項記載のリンク情報を用いたキ一ヮ一ド付与方法。  3. The key word using link information according to claim 1, wherein the keyword assignment target document includes at least one of audio data, video data, image data, and text data. Assignment method.
4 . 前記キーヮード付与対象文書および当該キーヮ一ド付与対象文書に関連付 けられている文書の各々から、 (1 )当該文書のタイトルを構成する語句、 (2 ) 他の文字に比べて文字の大きい語句、 (3 )他の語句と表示色の異なる語句、 4. From each of the document to which the keyword is to be assigned and the document associated with the document to which the keyword is to be assigned, (1) the phrase that constitutes the title of the document, and (2) the characters that are compared with other characters. Large words, (3) words with different display colors from other words,
( 4 )他の語句と文字のスタイルが異なる語句、 (5 ) 出現頻度の高い語句、 ( 6 )特定の条件を満たす位置に出現する語句、 (7 ) 他の文書へのリンクを 示す要素 (アンカー) を構成する語句、 のうちの少なくとも一つに関する語句 抽出条件を満たす語句を当該文書に対応するキーヮード候補とすることを特徴 とする請求の範囲第 1項記載のリンク情報を用いたキーヮード付与方法。 (4) words with different character styles from other words, (5) words that appear frequently, (6) words that appear at positions that meet specific conditions, (7) elements that indicate links to other documents ( 2. A keyword assignment using link information according to claim 1, wherein a phrase that satisfies an extraction condition for at least one of the words constituting the anchor) is set as a keyword candidate corresponding to the document. Method.
5 . 前記語句抽出条件の各々に予め重みを定義しておき、 ある抽出条件を満た す語句に当該抽出条件に対応する重みを加算し、 予め指定されたしきい値以上 の重みを持つ語句を当該文書に対応するキーヮード候補とすることを特徴とす る請求の範囲第 4項記載のリンク情報を用いたキーヮード付与方法。  5. A weight is defined in advance for each of the above phrase extraction conditions, and a weight corresponding to the extraction condition is added to a phrase that satisfies a certain extraction condition, and a phrase having a weight equal to or more than a predetermined threshold is added. 5. The keyword assignment method using link information according to claim 4, wherein the keyword is set as a keyword candidate corresponding to the document.
6 . 前記文書の各々から抽出された前記キ一ヮ一ド候補から当該キーヮ一ド付 与対象文書に対応するキーワードを認定する際に、 (1 ) あるしきい値以上の 重みを持つ語句、 (2 ) 抽出された語句のうち予め指定された割合以上の文書 に存在する語句、 (3 ) 抽出された語句のうち予め指定された割合以下の文書 にのみ存在する語句、 の少なくとも一つのキーワード認定条件を満たす語句を キーヮードと認定し、 当該キーヮード付与対象文書に対応付けることを特徴と する請求の範囲第 1項記載のリンク情報を用いたキーヮード付与方法。 6. When certifying a keyword corresponding to the document to which the key code is to be applied from the key candidates extracted from each of the documents, (1) a phrase having a weight not less than a certain threshold value; (2) Documents that exceed a specified percentage of the extracted words and phrases (3) A phrase that satisfies at least one keyword qualification condition of (3) a phrase that exists only in a document that is less than or equal to a predetermined ratio among the extracted phrases is determined as a keyword, and is determined as a keyword-added document. 2. A keyword assignment method using the link information according to claim 1, wherein the keyword assignment is performed.
7 . 分類対象文書と当該分類対象文書に関連付けられている文書とから抽出し. たキ一ヮ一ドと、 記憶装置に記憶されたカテゴリごとにキ一ヮ一ドを分類した 分類知識中のキーヮ一ドとを照合することによりカテゴリ毎に類似度を算出し、 類似度の高 t、一種類以上のカテゴリを当該分類対象文書に対応付けることを特 徴とする文書分類方法。 7. Keys extracted from the classifying target document and the document associated with the classifying target document. The keys included in the classification knowledge obtained by classifying the keys for each category stored in the storage device. A document classification method characterized by calculating the similarity for each category by comparing with a keypad, and associating one or more types of categories with a high similarity t with the document to be classified.
8 . 分類対象文書と当該分類対象文書に関連付けられている文書とから抽出し たキ一ヮ一ドと、 記憶装置に記憶されたカテゴリごとにキーヮードを分類した 分類知識中のキーワードとを照合することによりカテゴリ毎に類似度を算出し、 類似度の高い一種類以上のカテゴリを当該分類対象文書に対応させて前記記憶 装置に記録させたことを特徴とするコンピュータ読み取り可能な記録媒体。  8. Match the key extracted from the document to be classified and the document associated with the document to be classified with the keyword in the classification knowledge that classifies the keyword for each category stored in the storage device. A computer-readable recording medium, wherein a similarity is calculated for each category, and one or more categories having a high similarity are recorded in the storage device in association with the classification target document.
9. 前記文書は、 音声データ, 映像データ, 画像データ, およびテキストデー 夕の少なくとも一つを含むことを特徴とする請求の範囲第 7項記載の文書分類 方法。  9. The document classification method according to claim 7, wherein the document includes at least one of audio data, video data, image data, and text data.
1 0 . 前記分類対象文書および当該分類対象文書に関連付けられている文書の 各々から、 (1 ) 当該文書のタイトルを構成する語句、 (2 ) 他の文字に比べ て文字の大きい語句、 (3 ) 他の語句と表示色の異なる語句、 (4 ) 他の語句 と文字のスタイルが異なる語句、 (5 ) 出現頻度の高い語句、 (6 )特定の条 件を満たす位置に出現する語句、 (7 )他の文書へのリンクを示す要素 (アン カー) を構成する語句、 のうちの少なくとも一つに関する語句抽出条件を満た す語句を当該文書に対応するキーヮ一ド候補とすることを特徴とする請求の範 囲第 7項記載の文書分類方法。  10. From each of the document to be classified and the document associated with the document to be classified, (1) a phrase constituting the title of the document, (2) a phrase having a character larger than other characters, (3) ) Words with different display colors from other words, (4) words with different character styles from other words, (5) words that appear frequently, (6) words that appear at positions that meet certain conditions, ( 7) A phrase that satisfies the phrase extraction condition for at least one of the words that constitute an element (anchor) indicating a link to another document is set as a key word candidate corresponding to the document. The document classification method according to claim 7, wherein
1 1 . 前記語句抽出条件の各々に予め重みを定義しておき、 ある抽出条件を満 たす語句に当該抽出条件に対応する重みを加算し、 予め指定されたしきぃ値以 上の重みを持つ語句を当該文書に対応するキーヮード候補とすることを特徴と する請求の範囲第 1 0項記載の文書分類方法。 1 1. A weight is defined in advance for each of the above-mentioned phrase extraction conditions, and a weight corresponding to the extraction condition is added to a phrase that satisfies a certain extraction condition. 10. The document classification method according to claim 10, wherein a phrase having the above weight is used as a keyword candidate corresponding to the document.
1 2 . 前記文書の各々から抽出された前記キーワード候補から当該分類対象文 書に対応するキーヮードを認定する際に、 ( 1 ) あるしきい値以上の重みを持 つ語句、 (2 ) 抽出された語句のうち予め指定された割合以上の文書に存在す る語句、 ( 3 ) 抽出された語句のうち予め指定された割合以下の文書にのみ存 在する語句、 の少なくとも一つのキーヮード認定条件を満たす語句をキーヮ一 ドと認定し、 当該分類対象文書に対応付けることを特徴とする請求の範囲第 Ί 項記載の文書分類方法。  1 2. When certifying a keyword corresponding to the target document from the keyword candidates extracted from each of the documents, (1) a phrase having a weight greater than or equal to a certain threshold, and (2) the extracted phrase. At least one of the keywords that are present in a document that exceeds a specified percentage of the extracted words, and (3) the words that exist only in a document that is not more than a predetermined percentage of the extracted words, The document classification method according to claim 4, wherein the satisfied words and phrases are recognized as a keypad and associated with the classification target document.
1 3 . 分類対象文書と当該分類対象文書に関連付けられている文書とから抽出 したキ一ヮ一ドと、 記憶装置に格納されたユーザ識別子ごとにキーヮ一ドを分 類した分類知識中のキーヮードとを照合することにより、 当該分類対象文書が 各ユーザの要求する文書であるか否かを判別し、 要求する文書である場合、 当 該分類対象文書の内容あるいはァドレス情報を当該ユーザに通知することを特 徴とする文書分類方法。  1 3. Keys extracted from the document to be classified and the documents associated with the document to be classified, and keywords in the classification knowledge obtained by classifying the keys for each user identifier stored in the storage device. To determine whether the document to be classified is a document requested by each user, and if so, notifies the user of the contents or address information of the document to be classified. A document classification method that features
1 4 . 記憶装置に格納された文書と当該文書に関連付けられている文書とから それぞれ一種類以上のキーヮ一ドを抽出して記憶装置に記憶しておき、 前記文 書を出力手段を介して表示する際に前記キーヮ一ドを、 前記関連付けられてい る文書と対応するように配置して表示することを特徴とする文書表示方法。 14. One or more keypads are respectively extracted from the document stored in the storage device and the document associated with the document and stored in the storage device, and the document is output via the output unit. A document display method, wherein the keypad is arranged and displayed at the time of display so as to correspond to the associated document.
1 5. 前記関連付けられている文書の各々から前記キーワードを抽出する際に、 ( 1 ) 当該文書のタイトルを構成する語句、 ( 2 ) 他の文字に比べて文字の大 きい語句、 (3 ) 他の語句と表示色の異なる語句、 (4 )他の語句と文字のス タイルが異なる語句、 (5 ) 出現頻度の高い語句、 (6 )特定の条件を満たす 位置に出現する語句、 (7 ) 他の文書へのリンクを示す要素 (アンカー) を構 成する語句、 のうちの少なくとも一つの語句抽出条件を満たす語句をキーヮー ドとすることを特徴とする請求の範囲第 1 4項記載の文書表示方法。 1 5. When extracting the keyword from each of the associated documents, (1) a phrase that constitutes the title of the document, (2) a phrase having a character larger than other characters, (3) Words with different display colors from other words, (4) words with different character styles from other words, (5) words with high frequency of appearance, (6) words that appear at positions satisfying specific conditions, (7 15. The keyword according to claim 14, wherein a phrase that satisfies at least one phrase extraction condition among phrases constituting an element (anchor) indicating a link to another document is used as a keyword. Document display method.
1 6 . 前記語句抽出条件の各々に対応して予め重みを定義しておき、 ある抽出 条件を満たす語句に当該抽出条件に対応する重みを加算し、 予め指定されたし きい値以上の重みを持つ語句を当該文書のキーヮ一ドとすることを特徴とする 請求の範囲第 1 4項記載の文書表示方法。 1 6. Weights are defined in advance for each of the above-mentioned phrase extraction conditions, and a certain extraction 15. The method according to claim 14, further comprising: adding a weight corresponding to the extraction condition to a word satisfying the condition, and setting a word having a weight equal to or greater than a predetermined threshold value as a key word of the document. Document display method of description.
1 7 . 記憶装置に格納された文書に関連付けられている文書がアクセスされた 回数を保持し、 前記文書を出力手段を介して表示する際に当該表示対象文書と ともに前記アクセス回数あるいはアクセス回数に対応するォブジェク卜を文書 毎に 1対 1に対応するように配置して表示することを特徴とする文書表示方法。  17. Holds the number of times the document associated with the document stored in the storage device is accessed, and when displaying the document via the output unit, the number of accesses or the number of accesses together with the display target document. A document display method characterized by arranging and displaying corresponding objects in a one-to-one correspondence for each document.
PCT/JP1997/003280 1997-09-17 1997-09-17 Keyword adding method using link information WO1999014690A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP1997/003280 WO1999014690A1 (en) 1997-09-17 1997-09-17 Keyword adding method using link information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1997/003280 WO1999014690A1 (en) 1997-09-17 1997-09-17 Keyword adding method using link information

Publications (1)

Publication Number Publication Date
WO1999014690A1 true WO1999014690A1 (en) 1999-03-25

Family

ID=14181131

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1997/003280 WO1999014690A1 (en) 1997-09-17 1997-09-17 Keyword adding method using link information

Country Status (1)

Country Link
WO (1) WO1999014690A1 (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043282A (en) * 1999-06-17 2001-02-16 Internatl Business Mach Corp <Ibm> Distributed data processing system
JP2004501421A (en) * 2000-03-27 2004-01-15 ドキュメンタム,インコーポレイティド Method and apparatus for generating metadata for documents
JP2006171797A (en) * 2000-10-16 2006-06-29 Saora Inc Information processing system
JP2007157132A (en) * 2005-12-08 2007-06-21 Internatl Business Mach Corp <Ibm> Document-based information and uniform resource locator (url) management method, and program
US7296222B1 (en) 1999-04-16 2007-11-13 International Business Machines Corporation Method and system for preparing and displaying page structures for web sites
US7370024B2 (en) 2003-03-19 2008-05-06 Fujitsu Limited Case classification apparatus and method
JP2008225582A (en) * 2007-03-08 2008-09-25 Mazda Motor Corp Text sorting device and program
JP2013500541A (en) * 2009-07-30 2013-01-07 アルカテル−ルーセント Assign keywords to web pages
JP2014049002A (en) * 2012-09-03 2014-03-17 Nec Corp Information retrieval device, information retrieval method, and information retrieval program
JP2016062195A (en) * 2014-09-16 2016-04-25 株式会社東芝 Retrieval support device, method, and program
JP2018180866A (en) * 2017-04-11 2018-11-15 富士通株式会社 Determination method, determination program and determination device
US11481447B2 (en) * 2019-09-20 2022-10-25 Fujifilm Business Innovation Corp. Information processing device and non-transitory computer readable medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6472231A (en) * 1987-09-11 1989-03-17 Matsushita Electric Ind Co Ltd Information retrieving device
JPH03174653A (en) * 1989-12-01 1991-07-29 Matsushita Electric Ind Co Ltd Method and device for control of key word
JPH0520362A (en) * 1991-07-10 1993-01-29 Tokyo Electric Power Co Inc:The Automatic chaining generation system between document texts
JPH05342272A (en) * 1992-06-05 1993-12-24 Fujitsu Ltd Automatic text classification system
JPH08137893A (en) * 1994-11-14 1996-05-31 Toshiba Corp Method and device for document retrieval

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6472231A (en) * 1987-09-11 1989-03-17 Matsushita Electric Ind Co Ltd Information retrieving device
JPH03174653A (en) * 1989-12-01 1991-07-29 Matsushita Electric Ind Co Ltd Method and device for control of key word
JPH0520362A (en) * 1991-07-10 1993-01-29 Tokyo Electric Power Co Inc:The Automatic chaining generation system between document texts
JPH05342272A (en) * 1992-06-05 1993-12-24 Fujitsu Ltd Automatic text classification system
JPH08137893A (en) * 1994-11-14 1996-05-31 Toshiba Corp Method and device for document retrieval

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7296222B1 (en) 1999-04-16 2007-11-13 International Business Machines Corporation Method and system for preparing and displaying page structures for web sites
JP2001043282A (en) * 1999-06-17 2001-02-16 Internatl Business Mach Corp <Ibm> Distributed data processing system
JP2004501421A (en) * 2000-03-27 2004-01-15 ドキュメンタム,インコーポレイティド Method and apparatus for generating metadata for documents
JP2006171797A (en) * 2000-10-16 2006-06-29 Saora Inc Information processing system
US7370024B2 (en) 2003-03-19 2008-05-06 Fujitsu Limited Case classification apparatus and method
JP2007157132A (en) * 2005-12-08 2007-06-21 Internatl Business Mach Corp <Ibm> Document-based information and uniform resource locator (url) management method, and program
JP2008225582A (en) * 2007-03-08 2008-09-25 Mazda Motor Corp Text sorting device and program
JP2013500541A (en) * 2009-07-30 2013-01-07 アルカテル−ルーセント Assign keywords to web pages
JP2014049002A (en) * 2012-09-03 2014-03-17 Nec Corp Information retrieval device, information retrieval method, and information retrieval program
JP2016062195A (en) * 2014-09-16 2016-04-25 株式会社東芝 Retrieval support device, method, and program
US10606875B2 (en) 2014-09-16 2020-03-31 Kabushiki Kaisha Toshiba Search support apparatus and method
JP2018180866A (en) * 2017-04-11 2018-11-15 富士通株式会社 Determination method, determination program and determination device
US11481447B2 (en) * 2019-09-20 2022-10-25 Fujifilm Business Innovation Corp. Information processing device and non-transitory computer readable medium

Similar Documents

Publication Publication Date Title
CN109992645B (en) Data management system and method based on text data
JP4365074B2 (en) Document expansion system with user-definable personality
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US7225181B2 (en) Document searching apparatus, method thereof, and record medium thereof
US7904453B2 (en) Apparatus and method for analyzing patent claim validity
US8849787B2 (en) Two stage search
US6286000B1 (en) Light weight document matcher
US7099870B2 (en) Personalized web page
US20040158559A1 (en) Apparatus and method for identifying potential patent infringement
US20030033333A1 (en) Hot topic extraction apparatus and method, storage medium therefor
KR101873873B1 (en) Multimedia content search device through attribute information analysis and Method
KR20040053369A (en) Information analysis method and apparatus
KR100434902B1 (en) Knowledge base custom made information offer system and service method thereof
KR100954842B1 (en) Method and System of classifying web page using category tag information and Recording medium using by the same
WO1999014690A1 (en) Keyword adding method using link information
JP2001290843A (en) Device and method for document retrieval, document retrieving program, and recording medium having the same program recorded
JP2001290840A (en) Keyword retrieval device
JP2003150624A (en) Information extraction device and information extraction method
JP3746233B2 (en) Knowledge analysis system and knowledge analysis method
KR20020089677A (en) Method for classifying a document automatically and system for the performing the same
JP4853915B2 (en) Search system
JP4148247B2 (en) Vocabulary acquisition method and apparatus, program, and computer-readable recording medium
KR100659370B1 (en) Method for constructing a document database and method for searching information by matching thesaurus
KR20010102687A (en) Method and System for Web Documents Sort Using Category Learning Skill
JP2003085181A (en) Encyclopedia system

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase