WO2000075809A1 - Procede de triage d'informations, trieur d'informations, support enregistre sur lequel le programme de triage d'informations est enregistre - Google Patents

Procede de triage d'informations, trieur d'informations, support enregistre sur lequel le programme de triage d'informations est enregistre Download PDF

Info

Publication number
WO2000075809A1
WO2000075809A1 PCT/JP2000/003623 JP0003623W WO0075809A1 WO 2000075809 A1 WO2000075809 A1 WO 2000075809A1 JP 0003623 W JP0003623 W JP 0003623W WO 0075809 A1 WO0075809 A1 WO 0075809A1
Authority
WO
WIPO (PCT)
Prior art keywords
class
clustering
result
search
cluster
Prior art date
Application number
PCT/JP2000/003623
Other languages
English (en)
French (fr)
Inventor
Michihiro Nagaishi
Shinji Miwa
Original Assignee
Seiko Epson Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corporation filed Critical Seiko Epson Corporation
Priority to AU49540/00A priority Critical patent/AU4954000A/en
Priority to US09/762,127 priority patent/US7062487B1/en
Priority to EP00931688A priority patent/EP1102181A4/en
Publication of WO2000075809A1 publication Critical patent/WO2000075809A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Definitions

  • the present invention provides an information classification method, an information classification device, and a recording medium on which an information classification processing program is presented by performing a clustering process on a result retrieved by a general-purpose retrieval service so that the result is presented to a user in an easily viewable form.
  • an information classification processing program is presented by performing a clustering process on a result retrieved by a general-purpose retrieval service so that the result is presented to a user in an easily viewable form.
  • search service When searching for the information desired by the user from the vast amount of information existing on the network, the existence of a search service is important. For example, when searching a web page on the Internet, a user selects an arbitrary search service from several search services and enters a key as a search request to obtain the information desired by the user. I do. As a result, the search service performs an information search based on the input keyword and presents the search results to the user.
  • clustering Finding a similar set of information from a vast amount of information is called clustering. This class ring is a well-known technique in information processing. It is commonly used to classify large documents.
  • search results that are widely used by general users are not used to classify search results, as described above. It is common to extract information based on the information and present the extracted information to the user in a list. Therefore, the user has to do the troublesome work of searching for the desired information from the large number of the listed information.
  • an object of the present invention is to enable search information presentation in a form that is easy for a user to view by classifying search results obtained by a general-purpose search service.
  • FIG. 1 is a diagram illustrating a first embodiment of the present invention, and illustrates a configuration of an information classification device in the case of performing a class ring on search results obtained by a certain search service.
  • FIG. 1 is a diagram illustrating a first embodiment of the present invention, and illustrates a configuration of an information classification device in the case of performing a class ring on search results obtained by a certain search service.
  • FIG. 2 is a diagram showing an example of a plurality of documents as a search result searched by a certain search service used in the first embodiment of the present invention.
  • FIG. 3 is a block diagram showing a configuration of the class ring processing unit shown in FIG.
  • FIG. 4 is a flowchart schematically illustrating the procedure of the document classification process in the first embodiment.
  • FIG. 5 is a diagram showing the contents of the feature table showing the relationship between the feature elements extracted from the titles of the respective documents shown in FIG. 2 and the documents including the feature elements in the titles.
  • FIG. 6 is a diagram showing classification results obtained by classifying each document based on the feature table of FIG.
  • FIG. 7 is a diagram showing an example of clustering the titles of each document based on the classification result of FIG.
  • FIG. 8 is a block diagram illustrating a configuration of an information classification device when performing clustering on search results obtained from one selected search service.
  • FIG. 9 shows a configuration of an information classification device in a case where search results obtained from a plurality of search services can be clustered.
  • FIG. 10 is a configuration diagram illustrating a second embodiment of the present invention.
  • FIG. 11 is a diagram illustrating an example of a result of classifying a plurality of documents as search results searched by a certain search service.
  • FIG. 12 is a flowchart schematically illustrating an information classification processing procedure according to the second embodiment of the present invention.
  • FIG. 13 is a diagram showing the result of the class evening order reconstruction processing of the class evening ring result shown in FIG.
  • FIG. 14 is a configuration diagram for explaining the third embodiment of the present invention.
  • FIG. 15 is a flowchart schematically illustrating an information classification processing procedure according to the third embodiment of the present invention.
  • FIG. 16 is a diagram showing an example in which the clustering result shown in FIG. 11 and a summary list thereof are displayed.
  • FIG. 17 is a diagram showing an example of displaying a class ringing result obtained by performing a class ringing process with a URL address and a summary list thereof. Disclosure of the invention
  • a class grouping module acquires a plurality of search results searched by a search service, and the clustering module class classifies the search results.
  • the ring processing is performed, and the result of the class ring processing is output.
  • a conversion module for converting a search result searched by the search service into a format that can be processed by the clustering module is provided.
  • the conversion module is provided corresponding to each of the plurality of search services.
  • a search process is performed by selectively using any of the plurality of search services, and a class evening ring process is performed on search results searched by the selected search service. It is also possible to perform a parallel search process using at least two search services of the plurality of search services, collect search results for each, and add the search results to the collected search results. It is also possible to perform a classing process on the search results.Furthermore, a parallel search process is performed using at least two of the plurality of search services, and the respective search results are individually clustered. It is also possible to perform
  • the information to be clustered is at least one of a document title, URL address, update date and time, and file size in each search result.
  • the clustering processing result may be obtained by using a score indicating the relevance of a search request attached to each of the retrieved documents to a class of the clustering processing result.
  • the ranks can be reconstructed and the clustering results with the reconstructed cluster ranks can be output.
  • the process of reconstructing the rank of each cluster is performed by obtaining an average value of scores assigned to each document included in each cluster, for each cluster, and for each cluster. The average value is taken as the cluster score of each cluster, and the rank of the cluster is reconstructed based on the class score.
  • the process of reconstructing the rank of each cluster includes obtaining the maximum value of the score assigned to each document included in each class evening for each class evening, and obtaining the class The maximum value of the evening score may be used as the cluster score for each class, and the rank of the cluster may be reconstructed based on the class evening score.
  • the process of reconstructing the rank of each class is performed when each document included in each cluster is arranged in descending order of the score assigned to each document correspondence. The score located at the center or near the center is obtained for each cluster, and the score located at the center or near the center for each cluster is taken as the cluster score for each cluster. It may be reconfigured.
  • the process of obtaining the class evening score of a plurality of search services may be performed corresponding to the plurality of search services.
  • the clustering process may be performed based on the extracted feature element by detecting a title of each document, extracting a characteristic term included in the title as a feature element.
  • the method of outputting the class evening ring result in which the class evening rank is reconstructed is displayed in the order of cluster having the highest class evening score. If there is a class evening having the same class evening score, the class evening is output. A cluster with a large number of documents can be ranked high.
  • a clustering result summary list representing an overview of clustering processing results is created for the class evening processing results, and the clustering result summary list is output together with the class evening processing results. May be.
  • the list of classing result summary is composed of cluster names of respective clusters obtained by performing the clustering process.
  • clustering result and the classing result summary list are linked to each other, and when a predetermined cluster name portion of the classing result summary list is designated, a corresponding cluster portion of the clustering result is displayed. When a certain cluster part of the classing result is designated, a clustering result summary list can be displayed.
  • the arrangement order of the class names constituting the clustering result summary list follows the cluster arrangement order in the classing result. Also, when displaying the class evening ringing result summary list, a method of displaying a cluster name on the class evening ringing result summary list according to the importance of the corresponding class evening of the clustering result. Is changing.
  • a cluster name including a key provided by a user is displayed on the class list result summary list.
  • the way of displaying the cluster name is different from that of other classes.
  • the information classification device of the present invention is a clustering module that receives a plurality of search results searched by the search service, performs a classing process on the plurality of input search results, and outputs the clustering process result.
  • a conversion module for converting a search result searched by the search service into a format that can be processed by the class ring module can be further provided.
  • the clustering result obtained by the clustering module is compared with the search request attached to each of the searched documents by using a score indicating the compatibility with the search request.
  • a cluster rank setting module for reconstructing the rank of the class in the list and outputting a clustering result in which the cluster rank is reconstructed.
  • An overview list creating unit that creates a clustering result overview list that indicates an overview of the clustering result with respect to the classing result obtained by the clustering module;
  • a display control module for outputting the clustering result summary list together with the clustering result.
  • the recording medium of the present invention is a recording medium on which a classifying module performs a clustering process on a plurality of search results in response to a search request of a user searched by a search service, and outputs an information classification program for outputting the clustering process results.
  • a classifying module performs a clustering process on a plurality of search results in response to a search request of a user searched by a search service, and outputs an information classification program for outputting the clustering process results.
  • the information classification program includes: a step of acquiring a search result from the search service;
  • the clustering process may be performed after performing a procedure of converting a search result searched by the search service into a format that can be processed by the clustering module.
  • the score obtained by the clustering process is used by using a score indicating the relevance to the search request attached to each retrieved document. And reconstructing the order of the clusters, and outputting the reconstructed clustering result.
  • FIG. 1 shows a first embodiment of the present invention, which is roughly divided into a search service 1, a conversion module 2, and a clustering module 3.
  • a conversion module 2 and a class ring module 3 are used as information classification devices. Is equivalent to
  • the search service 1 is a general-purpose search service that is widely used in the Internet, etc., and is input from a web page, for example, by inputting a keypad as a search request from a user. Search for information based on the keywords.
  • the search results found by this search service 1 are output in a file format and passed to the clustering module 3, but there are multiple search services 1 Since the data format output by the search service differs, a conversion module 2 is provided to convert a file from any search service into a format in which the contents can be read.
  • the class setting module 3 is a class that extracts information (called clustering target information) necessary for clustering from the search result file contents (file contents converted by the conversion module 1) output by the search service 1. It has a linguistic information extraction unit 31, a morphological analysis unit 32 that morphologically analyzes the information extracted as the clustering target information, and a class linguistic processing unit 33 that performs clustering based on the morphological analysis results. ing.
  • the clustering target information extraction unit 31 extracts the clustering target information from the search result of the search engine 1 converted by the conversion module unit 2, and some clustering target information can be considered (described later). .
  • the titles (headings) of a large number of documents extracted as search results are extracted as clustering target information. For example, assume that a plurality of documents D1, D2,..., D7 as shown in FIG. 2 are obtained as a search result. These documents Dl, D2, ⁇ , D7 have the titles Tl, T2, ⁇ , T7 and the corresponding texts A1, A2, ⁇ , A7. Shall be.
  • the clustering target information extraction unit 31 analyzes the documents Dl, D2,..., D7 for each of the search results, and detects the title of each document.
  • the evening detection performed by the clustering target information extraction unit 31 is specifically performed as follows.
  • first method if there is a part specified as a title by the document structure form, that part is set as the title.
  • a second method if there is a portion specified to be displayed in a character larger than the standard in the document structure format, that portion is set as an evening.
  • a third method a specified number of sentences or words are extracted from the beginning of the document, and the extracted portion is used as a title. Further, the first, second, and third methods are sequentially performed, and when the first method is performed, if there is a portion defined as a title, that portion is set as a title, and the title is set as a title.
  • the second method is used, and it is specified that the character is to be displayed in a character larger than the standard. If there is a part, the title is set as the title, and if it is not specified to display in a character larger than the standard, the third method is used to extract the title.
  • the morphological analysis unit 32 performs a morphological analysis on the part extracted as a title from each document in the clustering target information extraction unit 31.
  • the clustering processing section 33 includes a feature element extraction section 331, a feature table creation section 33, a document classification section 33, a classification result storage section 334, and an output control section 3. 35, a display section 336, etc.
  • the feature element extraction unit 331 extracts a feature element from the result of the morphological analysis performed by the morphological analysis unit 32.
  • the feature table creation unit 332 creates a feature table indicating the relationship between the feature elements extracted by the feature element extraction unit 331 and each of the documents D1 to D7. The specific contents of this feature table will be described later.
  • the document classifying unit 333 classifies the documents D1, D2,..., "D7" into a plurality of classes having semantical commonality by referring to the contents of the above-mentioned feature table. In other words, based on the characteristic elements existing in the titles T 1, T 2,..., T 7 of the documents D l, D 2,. Into a single unit, and the unit into one cluster.
  • This document classifier 33 has a synonymous feature dictionary (not shown), and documents having common feature elements are grouped into one unit.
  • the synonym dictionary is used to determine whether or not there is a synonym. It is also possible to do something like
  • the classification result storage unit 334 stores the contents classified by the document classification unit 333.
  • the output control unit 335 reads out the contents of the classification result storage unit 334 and displays it on the display unit 336 as the classification result.
  • the information classification processing procedure performed by the present invention is, as shown schematically in the flowchart of FIG. 4, first obtaining a search result searched by a general-purpose search engine (step S 1), and retrieving the obtained search result.
  • a classing process is performed (step S2), and the result of the clustering process is output (step S3).
  • the details are described below with reference to specific examples.
  • the documents D 1, D 2,..., D 7 shown in FIG. 2 are output from the search service 1 as search results according to the keyword input by the user.
  • the search result is output in a file format, converted by the conversion module 2 into a format that can be processed by the class ring module 3, and then given to the clustering module 3.
  • the titles of the documents D 1, D 2,...,..., D 7 input to the clustering module 3 are extracted by the class information extracting unit 31. For example, for document D1, title T1 is detected, for document D2, title T2 is detected, for document D3, title T3 is detected, and so on.
  • the morphological analysis unit 32 performs a morphological analysis on each of the titles T 1, T 2,..., And T 7, and the result of the morphological analysis is provided to the class setting ring processing unit 33.
  • the feature element extraction unit 331 based on the morphological analysis result from the morphological analysis unit 32, the respective titles T1, T2, ⁇ , T7 Are extracted.
  • the feature table creation unit 332 creates a feature table indicating a relationship between each feature element and a document including the feature element in the title.
  • Figure 5 shows an example of this feature table.
  • the relationship between the feature element whose number of documents is three or more and the document that includes the feature element in the title is shown.
  • the numerical value shown in the feature table indicates that the feature element is the title of each document. Shows how many are included in the.
  • the characteristic element “paper” indicates that the titles T1, ⁇ 4, ⁇ 6, and ⁇ 7 of documents D1, D4, D6, and D7 are included one by one. ing.
  • the documents that include the feature element “paper” in the title are documents D1, D4, D6, and D7, and the feature element “cassette” is the title.
  • documents D1, D4, and D7 are documents that include the “extension” feature element in their titles.
  • documents D2, D3, D5, and D7 are documents D2, D3, D5, and D7.
  • each of these feature elements is underlined. Is applied.
  • the document classifying unit 3 3 3 refers to such a feature table and performs a class setting for each feature element.
  • Figure 6 shows the classification results.
  • Such a classification result is stored in the classification result storage section 334.
  • Document D 1 is about paper cassettes
  • Document D 4 is about paper settings
  • Document D 6 is about paper stains after printing
  • Document D 7 is about paper stains. This is about the addition of cassettes.
  • document D1 is the content of the paper cassette.
  • Document D4 is about paper settings
  • Document D7 is about adding paper cassettes.
  • document D2 is expanded memory.
  • Document D3 describes the addition of an interface card
  • document D5 describes the addition of a hard disk
  • document D7 describes the addition of a paper cassette.
  • the result of the class ring actually presented to the user is, for example, as shown in FIG. 7, and a list of characteristic elements and titles having the characteristic elements is presented. Then, the user looks at such a list of clustering results, and clicks on a title portion that is likely to contain the information that the user wants, and displays the text corresponding to the title. Done.
  • a user uses a general-purpose search service, and inputs some key to the search service, whereby a plurality of documents D 1, D 2,. ⁇ , D7 are retrieved, the titles Tl, ⁇ 2, ⁇ ⁇ ⁇ , ⁇ ⁇ ⁇ 7 of these multiple documents Dl, D2, ⁇ ⁇ ⁇ , D7 are extracted and included in the titles.
  • the clustering process is performed on each of the documents D1, D2,.
  • the search results searched by the search service are merely presented in a list, but in the present embodiment, the search results are based on the title contents of the searched search results.
  • the class evening ring result can be presented to the user.
  • the clustering results (see Fig. 7) are classified into titles for each feature element included in each title, and are organized so that users can easily see them. .
  • clicking on the title portion allows the user to display a document having each title.
  • Search services often have specialty areas, such as a search Services hold a lot of sports-related information, some search services hold a lot of academic information, and some search services hold a lot of entertainment-related information. Often there are fields. We have a wealth of information on each of these specialty areas, and it is highly likely that the information desired by the user will be appropriately retrieved. Therefore, when searching for information, it is common to use different search services. The clustering process when a plurality of search services are used will be described below.
  • FIG. 8 is a diagram illustrating the configuration of an information classification device for performing the clustering process described above using a plurality of search services.
  • the first search service 1a It is assumed that there are three search services, a second search service lb and a third search service 1c.
  • search services 1a, lb, lc When multiple search services (here, search services 1a, lb, lc) are targeted, the content, length, and search result output order of the search results searched by each search service are determined.
  • Search services la, lb, 1 are converted from search services 1 a, lb, lc into conversion processing modules 2 a, 2 b.
  • Prepare for c Note that the configuration of the class module 3 is the same as that in FIG. 1, and thus the same portions are denoted by the same reference numerals.
  • a user can use a search service according to the field of information to be searched.
  • the first search service 1a is a search service that is suitable for sport-related information inspection, if you want to search for sports-related information, use the first search service 1a. Search.
  • the second search service 1b is a search service suitable for academic information search, when searching for academic information, the search is performed using the second search service 1b. I do.
  • the user can select a search service according to the information to be searched, and the search result is subjected to a clustering process by the clustering module 3 so as to be organized so that the user can easily see it. It can be presented in a state where it is placed. Note that this clustering process has already been described. Therefore, the description is omitted here.
  • search services can be selectively used in this way, not only can searches be performed according to their specialty fields, but also if one search service is crowded In addition, flexible search, such as switching to another search service and performing a search, is also possible.
  • FIG. 9 The configuration of FIG. 9 is different from the configuration of FIG. 8 in that the conversion modules 2a, 2b, 2c provided for the first to third search services 1a, 1b, 1c and the clustering module are provided.
  • a search result collection unit 4 that collects the search results and combines them into one is provided between the search result collection unit and the search result collection unit.
  • Other configurations are the same as those in FIG. 8, and the same portions are denoted by the same reference numerals.
  • a plurality of search services (here, the first to third search services la, lb, 1c) perform search processing in parallel with the keyword input by the user,
  • Each search result searched by each search service 1a, lb, lc is converted by the conversion module sections 2a, 2b, 2c corresponding to each search service 1a, 1b, 1c.
  • the clustering module 3 converts the file into a format that can be processed, gives the converted file to the search result collection unit 4, and combines the search results into one. Then, the compiled search result is input to the clustering module 3 and performs the clustering process as described above.
  • search results conversion modules 2a, 2b, 2c output
  • search results obtained by the search services 1a, lb, and 1c are combined into one, and then Instead of performing the class-ring processing, the search results obtained by the search services 1a, 1b, and 1c (output from the conversion modules 2a, 2b, and 2c) are performed. This may be performed and the result of each cluster process may be presented to the user.
  • the present embodiment is not limited to the above-described contents, and can be variously modified without departing from the above-described gist.
  • the title of each retrieved document was used as the information (clustering target information) for performing the class evening, but this is only for the title.
  • the URL address excluding http: ⁇
  • update date and time simple time or date and time within the last 1 month
  • file size web page body byte size, etc.
  • you can also.
  • these may be used alone for clustering, or some of them may be combined. In this way, by selecting various pieces of clustering target information, clustering with a characteristic feature corresponding thereto can be performed. Which of these methods to use can be determined by first selecting a selection item from a menu or the like. If there is no selected item, substitute another item. For example, if you select a title and there is no title on the web page, substitute the URL address.
  • a processing program for performing the information classification processing in the present embodiment can be recorded on a recording medium such as a floppy disk, an optical disk, or a hard disk, and the present invention also includes the recording medium. Further, a processing program may be obtained from a network.
  • the method of extracting feature elements from the title of a document and performing clustering is excellent in terms of the amount of computation and processing time, and enables appropriate clustering. Since the amount of information for performing clustering is small when viewed from the whole document, not all classes are properly classified. In particular, titles may not represent the content of the document properly, or they may have unusual titles that are far apart from the document content. In such a case, the clustering accuracy is greatly reduced, and good clustering results cannot be obtained.
  • the method of extracting characteristic elements and performing clustering based on the characteristic elements involves examining the frequency of characteristic elements and the like, and mechanically classifying and clustering documents.
  • clustering the semantics of documents are not analyzed, so the obtained cluster (one set of documents obtained by clustering) does not always have semantic commonality. It is not necessarily a set of documents.
  • a search result obtained by a general-purpose search service is subjected to a clustering process, and the order of the class obtained by the clustering is reconstructed and displayed.
  • the results of the class evening ring along the schedule can be presented.
  • FIG. 10 shows an apparatus configuration of the second embodiment.
  • a search service 101 When broadly divided, a search service 101, a conversion module 102, a class setting ring module 103, and a class setting module are configured.
  • a conversion module 102, a class ring module 103, and a cluster order reconstruction module 104 correspond to an information classifier, and in particular, a cluster order reconstruction module 104.
  • the feature of the present embodiment lies in the provision of.
  • the search service 101 is a general-purpose general-purpose service that is widely used on the Internet. This is a search service. When a key is input as a search request from a user, information is searched based on the input keyword, for example, from a web page. The search results searched by this search service 101 are output in a file format and passed to the clustering module 103. If there are multiple search services, the data output by each search service is output. Since the evening format is different, a conversion module 102 is provided to convert a file from any search service into a format in which the content can be read.
  • the class setting ring module 103 performs a clustering process on the search results (file contents converted by the conversion module 102) output by the search service 101. Then, the title of the document is extracted from each document, the characteristic terms included in the title are extracted as the characteristic elements, and the class ringing process is performed based on the extracted characteristic elements.
  • the part extracted as an evening from each document is subjected to morphological analysis, and characteristic terms are extracted as characteristic elements from the result of the morphological analysis.
  • a feature table showing the relationship between the extracted feature elements and the respective documents is created. This feature table shows, for example, how many extracted feature elements are included in the title of each document in association with each feature element and each document. If features such as “Overview”, “LP”, “Specifications”, “Devices”, “Semiconductors”, and “Electronics” are extracted from the title of each document, Each document's title in each document indicates how many are included.
  • a large number of documents are classified into a plurality of classes having semantically common features.
  • documents having a common feature element are grouped into one unit, and the group is set as one cluster.
  • Fig. 11 shows the names of each class obtained by clustering (corresponding to the above-mentioned feature elements, which are called here cluster names) and the names of the clusters. Belong to each The title of the document, the number of documents indicating how many documents are included in the class, and the numerical value indicating the score for each title, as described above, are displayed in a list format. Have been.
  • this score is used as an objective measure of the degree of relevance between a given keyword and each document.
  • the larger the value the more suitable the keyword is for the given keyword. It is assumed that the document has contents. Since this score indicates the degree of relevance to the keyword, the unit varies depending on the search service such as% or score, but in this embodiment, the score is represented by the score.
  • the clustering result of the stage where the class was set by the class setting module 103 as shown in Fig. 11 shows that the clusters are arranged in the order of the number of documents included in each cluster. ing. As described above, in this case, in order from the top, the order is: overview cluster, LP cluster, specification class, device cluster, semiconductor cluster, and electronic cluster.
  • the class evening order reconstruction module 104 reconstructs the display order of each class evening based on the class evening ringing result output by the class evening ringing module 103, and details the processing contents. Will be described later.
  • the information classification processing procedure performed in the present embodiment is, as schematically shown in the flowchart of FIG. 12, first obtaining search results searched by the general-purpose search service 101 (step 12). S 1), the obtained search result is subjected to a clustering process (step 1 2 S 2), and the classing result is output (step 1 2 S 3). Then, the clustering result is reconstructed for each cluster order (Step 12 S 4), and the reconstructed clustering result is output (Step 12 S 5).
  • the class setting ring processing performed by the class setting ring module 103 extracts the title of each document from the document searched by the search service 101, and extracts the title from the title. Extract feature elements, create a feature table showing the relationship between the extracted feature elements and their documents, and based on the contents of the feature table, semantically share each document Classify into multiple classes. Also, in this embodiment, the user inputs the keyword “semiconductor” as a search request into the search service 101, and a large number of documents obtained by the search service are output by the class setting ring module 103. It is assumed that clustering has been performed, and the result of the class ringing is as shown in FIG.
  • the result of the class evening ring from the class evening ring module 103 is input to the class evening order reconstruction module 104, and the following processing is performed.
  • the total score in the class evening is 579 points and the number of documents is 16, so the average score is about 3 6 points are required.
  • the total score in that cluster is 450 points and the number of documents is 16, so the average score is about 28 points.
  • the “Specification” cluster has a total score of 4 13 points and 14 documents, so the average score is about 29 points.
  • the cluster has a total of 849 points in the cluster and 9 documents, so the average score is about 94 points.
  • the total score in the cluster is 757 points and the number of documents is 7, so the average score is calculated as about 108 points.
  • the score is 349 points and the number of documents is 4, so the average score is about 87 points.
  • the average score calculated as described above is defined as the score of each cluster (called a cluster score). Then, the order of the class evening is reconstructed in descending order of the cluster score.
  • the class evening with the highest class evening score is 108 points in the semiconductor class evening
  • the second place is 94 in the device class evening
  • the third place is the electronic class evening.
  • the raster is 87 points, and the order is as follows: overview cluster (36 points), specification cluster (29 points), LP class evening (28 points).
  • the cluster score is calculated for each class, and the cluster rank is reconstructed in the order of the obtained cluster score.
  • Figure 13 shows the reconstructed clustering results in a list format.
  • the semiconductor cluster is located at the top of the table
  • the device cluster is the second
  • the electronic class is the third
  • the overview class is the specification cluster
  • the LP class are the order.
  • the clustering results shown in Fig. 13 it can be seen that, for the keyword "semiconductor" input by the user, the class that includes many documents that match the keyword is ranked higher.
  • the clustering result shown in Fig. 11 shows that the keypad of the key "Semiconductor" input by the user is Classes such as clusters, LP clusters, and specification classes that are not directly related to a class are placed at the top, and semiconductor clusters that are considered to contain documents that are significantly related to keywords Clusters such as, device clusters, and electronic classes are located at the bottom, but in Fig. 13 they are reversed, and clusters that are thought to contain documents that are significantly related to the keyword are located at the top. become.
  • Classes such as clusters, LP clusters, and specification classes that are not directly related to a class are placed at the top
  • semiconductor clusters that are considered to contain documents that are significantly related to keywords
  • Clusters such as, device clusters, and electronic classes are located at the bottom, but in Fig. 13 they are reversed, and clusters that are thought to contain documents that are significantly related to the keyword are located at the top. become.
  • cluster scores have the same value, take measures such as placing the higher number of documents included in the class evening in the higher rank.
  • the total and average of the scores within each class may be displayed as shown in FIG. 13 or may not be displayed.
  • each cluster includes the documents in that class.
  • the class evening order that matches the keypad can be obtained.
  • the clustering results shown in Fig. 13 are displayed to the user, and the user looks at such a list of clustering results and clicks on the title of the document that may contain the desired information. The text corresponding to that title is displayed Is performed.
  • a clustering process is performed on a large number of documents retrieved by a key input by a user based on the characteristic elements included in the titles of the large number of documents. Then, for the clustering result, the average of the scores of the documents included in the class evening is calculated for each class evening. Then, the average score is used as the cluster score, and the cluster rank is reconstructed based on the class score for each cluster. In other words, the classes are sorted in descending order of the cluster score, and the results are displayed as a class evening ring as shown in Fig.13.
  • the clusters likely to contain the information desired by the user are displayed at the top of the list, making it easier to find the information desired by the user.
  • the result searched by one general-purpose search service is clustered is described.
  • the present invention can also be applied to the case where the result searched by a plurality of search services is clustered.
  • Search services often have specialties in them, for example, some search services hold a lot of sports-related information, some search services hold a lot of academic information, and some search services In many cases, there are areas of specialty, such as holding a lot of information on relationships. We have a wealth of information on each of these specialty areas, and it is highly likely that the information desired by the user will be appropriately retrieved. Therefore, when searching for information, it is common to use different search services.
  • a conversion module 102 that converts a file from a service into a format that can be processed by the class ring module 103 is prepared for multiple search services. Further, when performing the cluster order reconstruction in the result of the class evening ringing, the process of obtaining the cluster score of each class evening is performed corresponding to each search service.
  • the search service Some measures need to be taken depending on the situation. For example, if the distribution of the scores is very large (for example, the score value is from 100 to 100 and the minimum is 2), take measures such as taking the logarithm and calculating the score. Take measures to exclude documents with low values of (for example, documents that have scores of hundreds but most have values of only 2 or 3) from the class.
  • the second embodiment of the present invention is not limited to the above contents, and can be variously modified and implemented without departing from the gist of the above.
  • the class evening score for each class evening was described using an example in which the simple average of the scores of the documents included in the cluster was used.
  • the score of the document that has the highest score among the documents included in the cluster may be used, and the score located in the center among the scores assigned to the documents included in each cluster may be used.
  • the score of the document to be used may be used.
  • URL address http: http Classes can also be performed using the update date and time (simple time or update date within the last one month), and file size (such as the size of the web page text). These may be used alone and clustered, or some of them may be combined. In this way, by selecting various kinds of information to be classed, clustering with distinctive features can be performed. Which of these is used can be selected by first selecting a selection item from a menu or the like. If there is no selected item, substitute another item. For example, if you select a title, and the web page does not have a title, substitute the URL address.
  • a search result obtained by a general-purpose search service is subjected to a clustering process, and an overview of the entire clustering result obtained by a class search can be grasped at a glance.
  • users can efficiently search for the information they want.
  • FIG. 14 shows a schematic configuration of the third embodiment of the present invention, which can be roughly divided into a search service 141, a conversion module 144, a clustering module 144, and a clustering result summary list.
  • Creation module (hereinafter referred to as overview list creation module) 1 4 4, display control module 1 4 5, conversion module 1 4 2, clustering module 1 4 3, overview list creation module 1 4 4,
  • the display control module 1 4 5 corresponds to the information classification device.
  • the provision of the yules 144 is a feature of the third embodiment of the present invention.
  • the search service 144 is a general-purpose search service widely used in the Internet and the like. When a key is input as a search request from a user, for example, a web page or the like is provided.
  • search information based on the input keyword.
  • the search results searched by this search service 144 are output in a file format and passed to the clustering module 144. If there are multiple search services, the data format output by each search service Therefore, a conversion module 144 is provided to convert a file from any search service into a format in which the content can be read.
  • the class setting ring module 14 3 performs a clustering process on the search result (the file content converted by the conversion module 14 2) output by the search service 14 1.
  • the title of the document is extracted from each document, the characteristic terms contained in the title are extracted as feature elements, and clustering is performed based on the extracted feature elements.
  • the part extracted as a title from each document is morphologically analyzed, and characteristic terms are extracted as characteristic elements from the result of the morphological analysis.
  • a feature table showing the relationship between the extracted feature elements and the respective documents is created. This feature table shows, for example, how many extracted feature elements are included in the title of each document in association with each feature element and each document. Assuming that the features such as “Overview”, “LP”, “Specifications”, “Devices”, “Semiconductors”, and “Electronics” are extracted from the title of each document, The content indicates how many are included in each title of each document.
  • a large number of documents are classified into a plurality of semantically common classes.
  • documents that have common characteristic elements in the title are grouped together, and the group is defined as a class class. .
  • a clustering result as shown in FIG. 11 described in the second embodiment is output from the clustering module 144.
  • This figure 1 1 As described above, the name of each cluster obtained by clustering (corresponding to the above-mentioned feature element, which is called the cluster name here) and the document of each belonging to the cluster The title of each class, the number of documents indicating how many documents are included in the class, and the numerical value indicating the score for each title are shown in a table format.
  • this score is used as an objective measure of the relevance of a given keyword to its corresponding document.
  • the larger the value the more the content that matches the given keyword It is assumed that the document has
  • each class in the class evening ring result obtained by this class evening ring module 144 is included in each class evening as shown in FIG.
  • the order of the number of documents is large. As described above, in this case, the order is: overview class, LP cluster, specification cluster, device class, semiconductor cluster, and electronic class in order from the top.
  • the summary list creation module 144 Based on the clustering results output from the clustering module 144, the summary list creation module 144 provides a clustering result summary table that summarizes the clustering results based on the class name of each cluster. (Called a summary list).
  • the display control module 144 controls various display controls to present to the user the clustering results obtained by the class ring module 144 and the summary list created by the summary list creation module 144.
  • the summary list is displayed together with the class evening ring result, but also the mutual display control of the link between the class evening ring result and the summary list is performed.
  • Various display controls are performed when the cluster is set to a display that is easily visible to the user. The specific display control contents will be described later.
  • the information classification processing procedure performed in this embodiment is, as schematically shown in the flowchart of FIG. 15, first obtaining a search result searched by the general-purpose search service 1 (step 15 S 1). Then, a clustering process is performed on the obtained search results (Step 15S2), and the clustering result is output (Step 15S). 3). Then, based on the clustering result, a summary list creation process is performed (step 15S4), and the created summary list is displayed together with the clustering result (step 15S5).
  • the summary may be displayed, for example, by superimposing the summary list on the class evening result on the screen.
  • the summary list and the clustering result may be arranged separately, and the clustering result may be displayed following the summary list. If the content of the clustering result is large, scroll the screen to display the classing result on the screen sequentially.
  • the clustering process performed by the clustering module 144 extracts the title of each document from the document retrieved by the retrieval service 141 and extracts the characteristic element from the title. Then, a feature table showing the relationship between the extracted feature elements and their documents is created, and based on the content of the feature table, each document is semantically Classify into clusters. Further, in this embodiment, the user inputs the keyword “semiconductor” as a search request to the search service 144, and a large number of documents obtained by the search service are sent to the class server ring module 144. It is assumed that the class is ringing and the clustering result is as shown in Fig. 11.
  • the clustering result from the clustering module 144 is input to the summary list creation module 144, and the following processing is performed.
  • each cluster (summary class, LP cluster, specification cluster, device cluster, semiconductor cluster, and electronic cluster) in the clustering result shown in Fig. 11, each class name (“Overview”, “LP”) , “Specifications”, “Devices”, “Semiconductors”, “Electronics”) and make a summary list and display the summary list together with the class ringing results.
  • Figure 16 shows an example in which the summary list 1610 is displayed together with the class evening result 1620.
  • the clustering follows the summary list 1610.
  • This is an example in which the result 1620 is displayed.
  • the clustering result 1 6 2 0 used here is an example in which the number of classes is extremely small at 6, but in practice, the number of clusters may be tens or hundreds. To find the information you want, you will have to look at the entire clustering result, so simply showing the entire clustering result will require a great deal of effort to find the information you want.
  • by displaying the summary list by cluster name you can see the names of the clusters that make up the summary list, and find out what kind of class is included in the clustering result and your desired information. Can roughly figure out which clusters it is likely to be in.
  • the corresponding parts are linked to the class names and clustering results that make up the summary list 1610. Therefore, for example, even if the number of class evenings in the clustering result is large and all the class evening ringing results cannot be displayed on one screen, the summary list 1610 shown in Fig. 11 can be used. When you click on any cluster name, the corresponding cluster part of the clustering result 1620 will be displayed immediately, and then click on the cluster name in the clustering result to immediately return to the summary list. Display control becomes possible.
  • the order of class names in the summary list follows the order of the class names in the class evening ring results.
  • the arrangement order of each cluster in the clustering results is the order of the number of documents included in each class.
  • the number of documents is 16 in the overview class
  • the number of documents is 16 in the LP cluster
  • the number of documents is 14 in the specification class
  • the number of documents is 9 in the device class
  • the semiconductor the semiconductor.
  • the cluster has seven documents
  • the electronic cluster has four documents, and so on. Therefore, in this case, as shown in Fig.
  • the order is “electrons”.
  • the method of ranking the clusters in the result of the class setting can be determined not only based on the number of documents but also based on the score of each cluster. Looking at the result of the class evening ring in Fig. 11, as described above, the title of each document belonging to the class evening and the number of documents indicating how many documents are included in the class evening, In addition, numerical values indicating scores for each title are shown in a table format.
  • This score is a value assigned to the correspondence of the searched document when the search service performs a search for the given keyword in a unique way.
  • the score is a combination of the given keyword and each document. Is used as an objective measure of the relevance of a search, and this score is usually given to search results by a general-purpose search service. Although this score differs in the way of calculation and the way of thinking of the value depending on the search method, in general, it can be said that the larger the value is, the more the document has content that matches the given keyword.
  • the average score of the summary cluster (This score indicates the degree of relevance to the keyword, and its unit varies depending on the search service such as% or score.
  • the average score of the LP class was calculated to be approximately 28, the average score of the specification cluster was calculated to be 29, and the average score of the device cluster was calculated to be approximately 36. It is assumed that about 94 points were obtained, the average score of the semiconductor cluster was 108 points, and the average score of the electronic class evening was 87 points.
  • the average score calculated in this way is defined as the score of each class (called a class evening score). If the ranks of the clusters are rearranged in the order of the highest class score, the class with the highest cluster score is 108 points of the semiconductor cluster, and the second place is 94% of the device cluster. The third place is the electronic cluster 87 points, and the following is an overview class evening (36 points), Specification class evening (29 points), LP class evening (28 points).
  • the cluster name of the summary list created thereby is The order is also “Semiconductor”, “Device”, “Electronic”, “Overview”, “Specification”, and “LP j” in the order of the class arrangement order of the clustering result.
  • the sum and average of the scores in each cluster may not be displayed as shown in FIG. 16 or may be displayed.
  • the cluster order of the class evening ring results has some meaning, so it is often convenient for the user to search for information if the order of the class evening names in the summary list is also in accordance with it. . Since users generally tend to look from top to bottom, setting the order of class names in the summary list to be the same as the order of clusters in the clustering results is convenient for finding the information that they want. .
  • the frame surrounding the cluster (called class evening frame) Is displayed with the top of the first.
  • the cluster element corresponding to the cluster name will be displayed (in Figure 11
  • the title of the included document) may not be displayed on the display screen.
  • the cluster name of "semiconductor" in the overview list 1610 is clicked without the semiconductor cluster of the clustering result 1620 appearing on the screen, the clustering result will be almost simultaneously with the click operation.
  • the display shifts to the display of the semiconductor cluster portion of 1620.
  • the class element located in the top row of the cluster frame in this case, “157 It often happens that the title of the document ” is not visible on the display screen.
  • the display is performed with the top of the cluster frame at the top based on the cluster frame. This ensures that the cluster element at the top row in the class frame is displayed.
  • the display may be performed in such a manner that a cluster element on the last line of the cluster located immediately before the first cluster is placed first. For example, in the above example, if the cluster name “Semiconductor” in the overview table 1610 is clicked, the semiconductor class of the clustering result will be displayed.
  • the display may start with the class element such as the class element on the last line of the previous device class (in Fig. 11, “56 device-semiconductor-ASSP”). In this way, by displaying the class element on the last line of the class that is located immediately before, the cluster element of the cluster that should be displayed is surely displayed.
  • each cluster name displayed in the summary list 1610 changes depending on the contents of each class in the classing ring result 1620.
  • the contents of each class evening in the class evening ring result specifically indicate the importance of each class evening, such as the degree of conformity to the key given by the user. It is determined using the number of documents included in each cluster and the score of each class. For example, as described above, the average of the scores in each class evening is calculated, and if the class evening with the highest average score is the class evening with high importance, the overview for the cluster with high importance is given. Change the display of class evening names in the list 16 1 0.
  • the class cluster score of the semiconductor cluster was the highest among the clusters in the class cluster ring result in Fig. 11, so the summary list corresponding to the semiconductor cluster cluster was obtained.
  • Class name in the table Make the display of “Semiconductor” different from the class name of other clusters. Specifically, the name of the cluster “Semiconductor” is displayed in a different color from the name of other classes, the frame surrounding the cluster name “Semiconductor” is made thicker than the others, By making the area of the class larger than the others, or by blinking the class name, the display that is more noticeable to the user is provided.
  • a class evening with a large number of documents included in each class evening can be similarly displayed so as to be easily visible to the user.
  • the color of the class evening with a high score is different from that of other class evenings
  • Clusters with a large number of documents may be displayed in a variety of ways depending on the characteristics of the class, such as increasing the area inside the frame. In this way, it is possible to identify at a glance which cluster is a class evening with which similar features by simply looking at the summary list 1610. '
  • the name of the cluster containing the keyword entered by the user is displayed differently from other cluster names to inform the user of it.
  • the keyword given by the user is
  • the semiconductor class is the class that includes the key word itself.
  • the "semiconductor" part is displayed differently from other classes, for example, by blinking or changing colors. Or display that is easy for the user to see, such as by combining the two. In general, users often search for the same keyword that they have entered. Therefore, if it is possible to see at a glance whether the same cluster name as the keypad given by the user is included in the summary list 1610, it is convenient for the user to search for the desired information. It will be.
  • the summary list 1610 is a simplified representation of the results of class ringing, but in some cases the size may be quite large. Also, multiple summary tables may be created. In other words, in the description so far, an example has been described in which the title of each document is used, clustering processing is performed using the title, and an overview list is created based on the clustering result obtained thereby. The clustering process can be performed not only by using the title but also by using information such as the URL address (the part where http: http is removed).
  • Fig. 17 shows an example of the clustering result 1730 created by classifying the same document as in Fig. 11 by URL address and an overview list 1740 created based on the result.
  • the respective URL addresses used in the class setting are www.epson.co.jp and “www.i- love-epsoiune.jp "and” others ", and the class names that make up the summary table 1740 are these URL addresses: factory www.epson.co.jp" and factory www.i—love—epson .ne.jp "Sarah [This" Other "Power 5 'is available.
  • the clustering process can be performed in any number of ways, in which case multiple summary tables are created for the clustering results obtained.
  • the clustering result is viewed on the screen and the corresponding summary list is displayed.
  • the table is returned to the class title part, it is not displayed from the corresponding class title part, and if there are multiple summary lists, it is positioned at the top of the multiple summary lists. Display from the top of the summary list. Even in the case of a single summary list, the display is started from the top of the summary list.
  • the usefulness of the summary list can be further enhanced.
  • a large amount of information is classified into classes, and an overview list that allows the overview of the clustering results to be seen at a glance is displayed together with the results of class clustering. Even if the result of the evening ring is enormous, the entire clustering result can be seen, which is a great help for the user to search for the desired information.
  • various functions as described above between the summary list and the class ring result it is possible to see at a glance which clusters are more important for the keyword given by the user.
  • the present embodiment is not limited to the above contents, and various modifications can be made without departing from the gist of the above.
  • an example has been described in which clustering is performed using the title of each retrieved document, but not only the title but also the URL address (http: ⁇ It is also possible to have a class evening ring using the removed part).
  • classes can be set using the update date and time (simple time or date and time within the last one month) and file size (such as the byte size of the web page body). These may be used alone and clustered, or some may be combined. In this way, by selecting various types of information to be clustered, it is possible to perform distinctive class ringing according to the information. Then, a summary list can be created based on each clustering result.
  • the present invention can also be applied to the case where the result searched by a plurality of search services is clustered. Then, based on the search results obtained by the respective search services, a class evening ring process is performed, and the It is possible to create a summary list based on the class evening ring results obtained.
  • a plurality of retrieved documents are subjected to a clustering process, and a clustering result obtained by the clustering process is obtained so that the outline of the classifying result can be understood at a glance. Since the result summary list was created and the class summary list was displayed along with the clustering results, even if the clustering results were enormous, it was necessary to grasp the approximate contents of the entire clustering results. And help users find the information they want. In addition, since the approximate contents of the entire clustering result can be grasped, the user can not only efficiently search for the information that he / she wants, but also can discover the existence of unexpected information and find new information. It will be easier to do.
  • the way of displaying the class name in the clustering result summary list may be changed according to the importance of the corresponding cluster in the clustering result.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

明細書 情報分類方法及び情報分類装置並びに情報分類処理プログラムを記録した記録 媒体 技術分野
本発明は汎用の検索サービスで検索された結果に対しクラスタリング処理を施 すことで、 ユーザに見易い形で提示するようにした情報分類方法及び情報分類装 置並びに情報分類処理プログラムを記録した記録媒体に関する。 背景技術
ネヅトワーク上に存在する膨大な量の情報の中からユーザの所望とする情報を 検索する場合、 検索サービスの存在は重要である。 たとえば、 インタ一ネットで webページを検索する際、 ユーザは、 幾つかの検索サービスの中から任意の検索 サービスを選び、 自分の欲しい情報を得るための検索要求としてのキ一ヮ一ドを 入力する。 これによつて、 検索サービス側では、 入力されたキーワードに基づい て情報検索を行って、 その検索結果をユーザに提示する。
しかし、 検索サービスによって検索される情報は膨大な量となることも多く、 その中からユーザの本当に欲しい情報を見つけるのは非常に大変である。 近年、 webページは増大の一途をたどっているため、 検索された多数の情報を如何にュ —ザにわかりやすく提示するかが大きな課題となっている。
最近では、 検索された情報をユーザが見やすい形に加工して提示する手法も閧 発され実用化されつつある。 たとえば、 ユーザの入力したキーワードで検索され た結果から得られるキ一ヮ一ドを用いて再検索することで、 情報の絞り込みを行 い、 ユーザの所望とする webページを見つけやすくする方法がある。 つまり、 検 索によって得られる検索結果の集合を特徴づけるキ一ヮ一ドを抽出して、 ユーザ の本当に欲しい情報の集合に収束させる方法である。
このように、 膨大な情報の中から、 似た情報の集合を見つけることをクラスタ リングという。 情報処理ではこのクラス夕リングはよく知られた手法であり、 膨 大な文書を分類する場合などに一般に使われている。
しかし、 現在、 一般のユーザに広く利用されている検索サービス (汎用検索サ —ビスという) が検索した結果をクラス夕リングすることは行われてはなく、 前 述したように、 入力されたキーワードに基づいて情報を抽出して、 抽出された情 報を羅列的にユーザに提示するというのが一般的である。 したがって、 ユーザは、 その羅列された多数の情報から自分の欲しい情報を探すという面倒な作業をせざ るを得なかった。
そこで本発明は、 汎用の検索サ一ビスで得られた検索結果をクラス夕リングす ることで、 ユーザに対し見易い形での検索情報提示を可能とすることを目的とし ている。 図面の簡単な説明
図 1は、 本発明の第 1の実施形態を説明する図であり、 ある 1つの検索サ一ビ スで得られた検索結果に対してクラス夕リングを行う場合の情報分類装置の構成 を説明するプロック図である。
図 2は、 本発明の第 1の実施形態で用いられる、 ある検索サービスで検索され た検索結果としての複数の文書例を示す図である。
図 3は、 図 1で示されたクラス夕リング処理部の構成を示すプロヅク図である。 図 4は、 第 1の実施形態における文書分類処の手順を概略的に説明するフロー チヤ一トである。
図 5は、 図 2で示されたそれそれの文書のタイ トルから抽出された特徴要素と その特徴要素をタイトルに含む文書との関係を示す特徴テーブルの内容の示す図 である。
図 6は、 図 5の特徴テーブルを基にしてそれそれの文書を分類した分類結果を 示す図である。
図 7は、 図 6の分類結果に基づいてそれそれの文書の夕ィ トルをクラスタリン グした例を示す図である。
図 8は、 選択されたある 1つの検索サービスから得られた検索結果に対してク ラスタリングを行う場合の情報分類装置の構成を説明するブロック図である。 図 9は、 複数の検索サービスから得られた検索結果に対してクラスタリングを 可能とする場合の情報分類装置の構成を示すものである。
図 1 0は、 本発明の第 2の実施形態を説明する構成図である。
図 1 1は、 ある検索サービスで検索された検索結果としての複数の文書をクラ ス夕リングした結果の一例を示す図である。
図 1 2は、 本発明の第 2の実施形態における情報分類処理手順を概略的に説明 するフロ一チヤ一トである。
図 1 3は、 図 1 1で示されたクラス夕リング結果をクラス夕順位再構成処理し た結果を示す図である。
図 1 4は、 本発明の第 3の実施の形態を説明する構成図である。
図 1 5は、 本発明の第 3の実施形態における情報分類処理手順を概略的に説明 するフローチャートである。
図 1 6は、 図 1 1で示されたクラスタリング結果とその概要一覧表を表示した 例を示す図である。
図 1 7は、 U R Lアドレスでクラス夕リング処理して得られたクラス夕リング 結果とその概要一覧表を表示した例を示す図である。 発明の開示
前述の目的を達成するために、 本発明の情報分類方法は、 検索サービスで検索 された複数の検索結果をクラス夕リングモジュールが取得して、 そのクラスタリ ングモジュールでは、 その検索結果に対しクラス夕リング処理を施し、 そのクラ ス夕リング処理結果を出力するようにしている。
この情報分類方法において、 前記検索サービスで検索された検索結果を前記ク ラスタリングモジュールが処理可能な形式に変換する変換モジュ一ルを備えるよ うにしている。
そして、 前記変換モジュールは、 クラスタリング処理を複数の検索サービスに 対応して行う場合、 複数の検索サービスそれぞれに対応して設けられる。
このとき、 複数の検索サービスのいずれかを選択的に用いて検索処理を行い、 選択された検索サービスで検索された検索結果に対してクラス夕リング処理を行 うことも可能であり、 また、 前記複数の検索サービスの少なくとも 2つの検索サ —ビスを用いて並行的な検索処理を行い、 それそれの検索結果を収集して、 その 収集された検索結果に対してクラス夕リング処理を行うことも可能であり、 さら に、 前記複数の検索サービスの少なくとも 2つの検索サービスを用いて並行的な 検索処理を行い、 それそれの検索結果に対し個別にクラスタリング処理を行うこ とも可能である。
また、 前記検索結果に対しクラスタリング処理を行う際、 クラスタリング対象 とする情報は、 それそれの検索結果における文書のタイ トル、 U R Lアドレス、 更新日時、 ファイルサイズの少なくとも 1つとしている。
また、 本発明の情報分類方法において、 前記クラスタリング処理結果に対し、 検索されたそれそれの文書対応に付された検索要求との適合性を示すスコアを用 いて、 前記クラスタリング処理結果のクラス夕の順位を再構成し、 そのクラスタ 順位が再構成されたクラスタリング結果を出力することもできる。
さらに、 前記それぞれのクラスタの順位を再構成する処理は、 それそれのクラ ス夕に含まれるそれそれの文書対応に付されたスコアの平均値をそれそれのクラ スタごとに求め、 クラスタごとの平均値をそれそれのクラスタのクラスタスコア とし、 そのクラス夕スコアによって、 クラスタの順位を再構成するものである。 また、 前記それそれのクラスタの順位を再構成する処理は、 それそれのクラス 夕に含まれるそれそれの文書対応に付されたスコアの最大値をそれそれのクラス 夕ごとに得て、 そのクラス夕ごとのスコアの最大値をそれそれのクラスタスコア とし、 そのクラス夕スコアによって、 クラスタの順位を再構成してもよい。 また、 前記それそれのクラス夕の順位を再構成する処理は、 それそれのクラス タに含まれるそれぞれの文書がそれそれの文書対応に付されたスコアの大きい順 に並べられている場合、 その中央または中央付近に位置するスコアをそれそれの クラスタごとに得て、 そのクラスタごとの中央または中央付近に位置するスコア をそれそれのクラスタスコアとし、 そのクラス夕スコアによって、 クラス夕の順 位を再構成してもよい。
また、 前記クラス夕リング処理を複数の検索サービスによって得られた検索結 果に対応して行うことを可能とする場合、 前記クラスタの順位を再構成するため のクラス夕スコアを求める処理は、 複数の検索サービスそれそれに対応して行つ てもよい。
また、 前記クラスタリング処理は、 それそれの文書のタイ トルを検出し、 その 夕ィ トルに含まれる特徴的な用語を特徴要素として抽出し、 抽出された特徴要素 に基づいて行ってもよい。
また、 前記クラス夕順位が再構成されたクラス夕リング結果の出力の仕方は、 クラス夕スコアの高いクラスタ順に表示し、 クラス夕スコアが同じであるクラス 夕が存在する場合には、 クラス夕内の文書数の多いクラスタを高順位とすること ができる。
また、 本発明の情報分類方法において、 前記クラス夕リング処理結果に対し、 クラスタリング処理結果の概要を表すクラスタリング結果概要一覧表を作成し、 そのクラスタリング結果概要一覧表を前記クラス夕リング処理結果とともに出力 してもよい。
ここで、 前記クラス夕リング結果概要一覧表は、 クラスタリング処理されるこ とによって得られたそれそれのクラスタのクラスタ名によって構成される。
また、 前記クラスタリング結果とクラス夕リング結果概要一覧表とを相互にリ ンクし、 クラス夕リング結果概要一覧表の所定のクラスタ名部分が指示されると、 前記クラスタリング結果の対応するクラスタ部分の表示を可能とし、 クラス夕リ ング結果の或るクラスタ部分を指示すると、 クラスタリング結果概要一覧表の表 示を可能とする。
さらに、 前記クラス夕リング結果概要一覧表の或るクラスタ名部分が指示され ることによって、 前記クラスタリング結果内の対応するクラスタ部分の表示を行 う際、 そのクラスタを囲む枠の最上部またはそれより 1つ手前に存在するクラス 夕の枠内に存在する最終行部分を先頭にした表示を行っている。
また、 前記クラス夕リング結果の或るクラスタ部分が指示されることによって、 前記クラス夕リング結果概要一覧表の表示を行う際、 クラスタリング結果概要一 覧表の先頭部分からの表示を行っている。
また、 前記クラスタリング結果概要一覧表を構成するそれそれのクラス夕名の 配列順序は前記クラス夕リング結果内のクラスタ配列順序に従うこととしている。 また、 前記クラス夕リング結果概要一覧表の表示を行う際、 前記クラスタリン グ結果のそれそれ対応するクラス夕の重要度に応じて、 クラス夕リング結果概要 一覧表上におけるクラスタ名の表示の仕方を変えている。
さらに、 クラスタリング対象となる複数の文書が、 ユーザの与えたキーワード によって検索された文書である場合、 ュ一ザの与えたキ一ヮ一ドを含むクラスタ 名は前記クラス夕リング結果概要一覧表上においてそのクラスタ名の表示の仕方 を他のクラス夕名とは異ならせている。
また、 本発明の情報分類装置は、 検索サービスで検索された複数の検索結果が 入力され、 入力された複数の検索結果に対してクラス夕リング処理を施し、 その クラスタリング処理結果を出力するクラスタリングモジュールを含むものである。 また、 前記検索サービスで検索された検索結果を前記クラス夕リングモジュ一 ルが処理可能な形式に変換する変換モジュールをさらに備えることもできる。 また、 前記クラスタリングモジュールによって得られたクラスタリング結果に 対し、 検索されたそれぞれの文書対応に付された検索要求との適合性を示すスコ ァを用いて、 前記クラス夕リング処理によって得られたそれそれのクラス夕の順 位を再構成し、 そのクラスタ順位が再構成されたクラスタリング結果を出力する クラスタ順位設定モジュールとを有することもできる。
また、 前記クラスタリングモジュールによって得られたクラス夕リング結果に 対し、 クラスタリング結果の概要を表すクラスタリング結果概要一覧表を作成す る概要一覧表作成部と、
そのクラスタリング結果概要一覧表を前記クラスタリング結果とともに出力す る表示制御モジュールとを有することもできる。
また、 本発明の記録媒体は、 検索サービスで検索されたユーザの検索要求に対 する複数の検索結果をクラス夕リングモジュールがクラスタリング処理してその クラスタリング処理結果を出力する情報分類プログラムを記録した記録媒体であ つて、
その情報分類プログラムは、 前記検索サービスからの検索結果を取得する手順 と、
取得した検索結果に対してクラス夕リング処理を施し、 そのクラス夕リング処 理結果を出力する手順とを含んでいるものである。
ここで、 前記検索サービスで検索された検索結果を前記クラスタリングモジュ —ルが処理可能な形式に変換する手順を行った後に、 前記クラスタリング処理を 行うこともできる。
また、 前記クラスタリング処理によって得られたクラスタリング処理結果に対 し、 検索されたそれそれの文書対応に付された検索要求との適合性を示すスコア を用いて、 前記クラスタリング処理によって得られたそれそれのクラスタの順位 を再構成し、 そのクラスタ順位が再構成されたクラスタリング結果を出力する手 順とを含んでなるものである。
また、 前記クラスタリング処理によって得られたクラスタリング処理結果に対 し、 クラス夕リング結果の概要を表すクラスタリング結果概要一覧表を作成する 概要一覧表作成手順と、
そのクラス夕リング結果概要一覧表を前記クラス夕リング結果とともに出力す る手順とを含むものである。 発明を実施するための最良の形態
以下、 本発明の実施の形態について説明する。 なお、 この実施の形態で説明す る内容は、 本発明の情報分類方法および情報分類装置についての説明であるとと もに、 本発明の情報分類処理プログラムを記録した記録媒体における情報分類処 理プログラムの具体的な処理内容をも含むものである。
(第 1の実施形態)
図 1は本発明の第 1の実施形態を示すもので、 大きく分けると、 検索サービス 1、 変換モジュール 2、 クラスタリングモジュール 3とから構成され、 変換モジ ユール 2とクラス夕リングモジュール 3が情報分類装置に相当する。
検索サービス 1はィンタ一ネヅ トなどで一般に広く使用されている汎用の検索 サービスであり、 ユーザからの検索要求としてのキーヮ一ドが入力されることに より、 たとえば webページなどから、 入力されたキーワードに基づいた情報検索 を行う。 この検索サービス 1で検索された検索結果はファイル形式で出力され、 クラスタリングモジュール 3に渡されるが、 検索サ一ビス 1は複数存在し、 それ それの検索サービスによって出力されるデータ形式が異なるので、 どのような検 索サ一ビスからのファイルであってもその内容を読めるような形式にファイルを 変換するために変換モジュール 2が設けられる。
クラス夕リングモジュール 3は、 検索サービス 1により出力された検索結果フ アイル内容 (変換モジュール 1による変換後のファイル内容) からクラスタリン グするために必要な情報 (クラスタリング対象情報という) を抽出するクラス夕 リング対象情報抽出部 3 1、 そのクラスタリング対象情報として抽出された情報 を形態素解析する形態素解析部 3 2、 その形態素解析結果に基づいてクラスタリ ングを行うクラス夕リング処理部 3 3などを有している。
クラスタリング対象情報抽出部 3 1は、 変換モジュール部 2で変換された検索 エンジン 1の検索結果から、 クラスタリング対象情報を抽出するものであり、 こ のクラスタリング対象情報としては幾つか考えられる (後述する) 。 この実施の 形態では、検索結果として抽出された多数の文書のそれそれのタイ トル(見出し) をクラスタリング対象情報として抽出するものとする。 たとえば、 検索結果とし て図 2に示すような複数の文書 D 1, D 2 , · · ·, D 7が得られたとする。 これら文書 D l, D 2 , · · ·, D 7はタイ トル T l , T 2 , · · ·, T 7と、 それに対する本文 A l , A 2 , · · ·, A 7を持っているものとする。
クラスタリング対象情報抽出部 3 1は、 このような検索結果に対し、 それそれ の文書 D l , D 2 , · · ·, D 7を解析し、 それそれの文書のタイ トルを検出す る。 このクラスタリング対象情報抽出部 3 1が行う夕ィ トルの検出は、 具体的に は次のようにして行う。
まず、 第 1の方法として、 文書構造様式によってタイ トルと規定される部分が あればその部分をタイ トルとする。 また、 第 2の方法として、 文書構造様式によ つて、 標準より大きな文字で表示する指定がなされている部分があれば、 その部 分を夕ィ トルとする。 また、 第 3の方法として、 定められた数の文または単語を 文書先頭より抽出し、 その抽出した部分を夕ィ トルとする。 さらには、 これら第 1、 第 2、 第 3の方法を順次行い、 第 1の方法を行ったとき、 タイ トルと規定さ れている部分があればその部分を夕ィ トルとし、 夕ィ トルと規定される部分が存 在しなければ、 第 2の方法を行い、 標準より大きな文字で表示する指定がなされ ている部分があれば、 その部分をタイ トルとし、 標準より大きな文字で表示する 指定がなされていなければ、 第 3の方法を行って夕ィ トルを抽出する。
形態素解析部 3 2は、 クラスタリング対象情報抽出部 3 1でそれそれの文書か らタイ トルとして抽出された部分を形態素解析する。
クラスタリング処理部 3 3は、 図 3に示すように、 特徴要素抽出部 3 3 1、 特 徴テーブル作成部 3 3 2、 文書分類部 3 3 3、 分類結果記憶部 3 3 4、 出力制御 部 3 3 5、 表示部 3 3 6などを有している。 特徴要素抽出部 3 3 1は、 形態素解 析部 3 2で形態素解析された結果から特徴要素を抽出する。
特徴テーブル作成部 3 3 2は、 特徴要素抽出部 3 3 1で抽出された特徴要素と それぞれの文書 D 1〜D 7との関係を示す特徴テーブルを作成する。 なお、 この 特徴テーブルの具体的な内容については後述する。
文書分類部 3 3 3は、上述の特徴テ一ブルの内容を参照し、文書 D 1,D 2, · · ·, " D 7を意味的に共通性のある複数のクラス夕に分類する。 つまり、 文書 D l , D 2 , · · · , D 7のそれそれのタイ トル T 1 , T 2, · · · , T 7に存在する特 徴要素に基づいて、 共通する特徴要素を持つ文書を 1つのまとまりとし、 そのま とまりを 1つのクラスタとする。なお、この文書分類部 3 3 3は同義特徴辞書(図 示せず) を有し、 共通する特徴要素を持つ文書を 1つのまとまりとする処理を行 う際、 共通する特徴要素であるか否かの判断を、 その同義語辞書を用いて同義語 が有るか否かにより行い、 同義語が存在する場合にはそれを同じクラス夕とする というようなことを行うことも可能である。
分類結果記憶部 3 3 4は、 文書分類部 3 3 3によって分類された内容を記憶す る。 出力制御部 3 3 5は分類結果記憶部 3 3 4の内容を読み出して分類結果とし て表示部 3 3 6に表示させる。
このような構成において、 本発明の情報分類処理について説明する。 本発明が 行う情報分類処理手順は概略的には、 図 4のフローチャートに示すように、 まず、 汎用の検索エンジンで検索された検索結果を取得し (ステップ S 1 ) 、 取得した 検索結果に対しクラス夕リング処理を施し (ステップ S 2 ) 、 そのクラスタリン グ処理結果を出力する (ステップ S 3 ) 。 以下、 具体例を参照しながら詳細に説 明する。 ここでは、 ユーザの入力したキーワードによって図 2で示した文書 D 1 , D 2, · · ·, D 7が検索結果として検索サービス 1から出力されたとする。 この 検索結果はファイル形式で出力され、 変換モジュール 2でクラス夕リングモジュ ール 3が処理できる形式に変換されたのち、 クラスタリングモジュール 3に与え られる。
クラスタリングモジュール 3に入力されたこれらの文書 D 1, D 2 , . ■ ·, D 7は、 クラス夕リング対象情報抽出部 3 1にてタイ トルが抽出される。 たとえ ば、 文書 D 1についてはタイ トル T 1が検出され、 文書 D 2についてはタイトル T 2が検出され、 文書 D 3についてはタイ トル T 3が検出されるというように、 それそれの文書 D 1 , D 2 , · · ·, 0 7の夕ィ トル1 1 , T 2 , · · · , T 7 が抽出される。
そして、 形態素解析部 3 2によってそれそれの夕ィ トル T 1, T 2, · · ·, T 7が形態素解析されたのち、 その形態素解析結果がクラス夕リング処理部 3 3 に与えられる。 クラス夕リング処理部 3 3では、 特徴要素抽出部 3 3 1によって、 形態素解析部 3 2からの形態素解析結果に基づいて、 それそれの夕ィ トル T 1, T 2 , · · · , T 7に存在する特徴要素が抽出される。
そして、 特徴テーブル作成部 3 3 2により、 それそれの特徴要素とその特徴要 素をタイ トルに含む文書との関係を示す特徴テーブルが作成される。 この特徴テ —ブルの例を図 5に示す。 なお、 ここでは、 文書数が 3つ以上取り出される特徴 要素とその特徴要素をタイ トルに含む文書との関係を示し、 特徴テーブル内に示 される数値は、 その特徴要素が各文書のタイ トルに幾つ含まれるているかの数を 示している。 たとえば、 「用紙」 という特徴要素は、 文書 D 1 , D 4 , D 6 , D 7のタイ トル T l, Τ 4, Τ 6、 Τ 7に、 それそれ 1個ずつ含まれていることを 示している。
図 5の特徴テーブルからもわかるように、 「用紙」 という特徴要素をタイトル に含む文書は、 文書 D 1, D 4 , D 6 , D 7であり、 また、 「カセット」 という 特徴要素をタイ トルに含む文書は、 文書 D 1, D 4 , D 7であり、 さらに、 「増 設」 という特徴要素をタイ トルに含む文書は、 文書 D 2, D 3 , D 5 , D 7であ る。 なお、 先に説明した図 2において、 これら各特徴要素部分にはアンダーライ ンが施されている。
そして、 文書分類部 3 3 3はこのような特徴テーブルを参照して、 それそれの 特徴要素ごとのクラス夕リングを行う。 その分類結果を図 6に示す。
このような分類結果は分類結果記憶部 3 3 4に格納される。 図 6に示される分 類結果において、 たとえば、 「用紙」 で分類されたクラス夕 (文書 D l, D 4 , D 6 , D 7が含まれる) について見れば、 図 2の文書内容からもわかるように、 文書 D 1は用紙カセットについての内容であり、 文書 D 4は用紙設定についての 内容であり、 文書 D 6は印刷された後の用紙の汚れについての内容であり、 文書 D 7は用紙カセッ卜の増設についての内容である。
このように、 これらの文書 D l, D 4 , D 6 , D 7はどれも用紙に関する内容 であり、 1つのクラス夕として分類されて何等問題のないものとなり、 その分類 結果は適切であるといえる。
また、 「力セット」で分類されたクラスタ (文書 D 1, D 4, D 7が含まれる) について見れば、 図 2の文書内容からもわかるように、 文書 D 1は用紙カセット についての内容であり、 文書 D 4は用紙設定についての内容であり、 文書 D 7は 用紙カセヅトの増設についての内容である。
また、 このように、 これらの文書 D l , D 4 , D 6 , D 7にはどれも用紙をセ ットすることに関する内容が含まれており、 1つのクラス夕として分類されて何 等問題のないものとなり、 その分類結果は適切であるといえる。
また、 「増設」 で分類されたクラスタ (文書 D 2, D 3, D 5, D 7が含まれ る) について見れば、 図 2の文書内容からもわかるように、 文書 D 2はメモリの 増設についての内容であり、 文書 D 3はインタフエースカードの増設についての 内容であり、 文書 D 5はハードディスクの増設についての内容であり、 文書 D 7 は用紙カセヅ卜の増設についての内容である。
このように、 これらの文書 D 2, D 3 , D 5 , D 7はどれも何かを増設する場 合についての内容であり、 1つのクラス夕として分類されて何等問題のないもの となり、 その分類結果は適切であるといえる。
このような適切な分類が行える理由としては、 それそれの文書のタイ トルから 特徴要素を抽出し、 その特徴要素に基づいて文書を分類しているからである。 つ まり、 文書のタイ トルは、 その文書の作成者がその文書の主旨を表す内容を表現 していることが多い。 したがって、 文書のタイ トルに含まれる特徴要素を用いて 分類を行うことにより、 分類結果が散漫になることが少なく、 また、 ノイズクラ ス夕が生成される率も少なくすることができる。 また、 各文書のタイ トルは、 そ の文書の作成者がその文書の主旨を表す内容を表現していることから、 文書の制 作者側の視点による分類が得られる。
なお、 ユーザに実際に提示されるクラス夕リング結果は、 たとえば図 7に示す ような内容であり、 それそれの特徴要素とその特徴要素を有するタイ トルの一覧 が提示される。 そして、 ユーザはこのようなクラスタリング結果の一覧を見て、 自分の欲しい情報の入っていそうなタイ トル部分をクリヅクすれば、 そのタイ ト ルに対応する本文が表示されるというような表示処理がなされる。
このように、 この実施の形態では、 ユーザがある汎用の検索サービスを利用し、 その検索サ一ビスに何らかのキ一ヮ一ドを入力することによって、 複数の文書 D 1, D 2, · · · , D 7が検索された場合、 これら複数の文書 D l, D 2 , · · ·, D 7のタイ トル T l, Τ 2 , · · · , Τ 7を抽出し、 そのタイ トルに含まれる特 徴要素に基づいて、 それぞれの文書 D l, D 2, · · · , D 7に対しクラスタリ ング処理を行う。
これによつて、 従来では、 検索サービスによって検索された検索結果は単に羅 列的に提示されるだけであったものが、 本実施形態においては、 検索された検索 結果のタイ トル内容に基づいたクラス夕リング結果をユーザに提示できる。 その クラスタリング結果 (図 7参照) は、 それそれのタイ トルに含まれる特徴要素ご とにそれそれの夕ィ トルが分類された内容となり、 ュ一ザが見易いように整理さ れたものとなる。
そして、 その中から見たい情報があれば、 タイ トル部分をクリヅクすれば、 そ れそれのタイ トルを有する文書を表示させることができる。
また、 これまでの説明では、 ある 1つの汎用の検索サービスで検索された結果 をクラスタリング処理する場合について説明したが、 複数の検索サービスにより 検索された結果をクラスタリング処理する場合にも適用できる。
検索サービスはそれそれに得意の分野があることも多く、 たとえば、 ある検索 サービスはスポーツ関係の情報を多数保有し、 ある検索サービスは学術関係の情 報を多数保有し、 また、 ある検索サービスは芸能関係の情報を多数保有している というように、 それそれの得意の分野が存在する場合も多い。 これらそれそれの 得意分野については豊富な情報を所有しており、 ユーザの所望とする情報が適切 に取り出される可能性が高い。 したがって、 情報検索を行う際は、 検索サービス を使い分けることも普通に行われる。 このように、 複数の検索サービスを用いる 場合のクラスタリング処理について以下に説明する。
図 8は複数の検索サービスを用いてこれまで説明したクラスタリング処理を行 うための情報分類装置の構成を説明する図であり、 ここでは、 複数の検索サービ スとして第 1の検索サービス 1 a, 第 2の検索サービス l b, 第 3の検索サ一ビ ス 1 cの 3つの検索サービスが存在するものとする。
このように複数の検索サービス (ここでは検索サービス 1 a, l b, l c ) を 対象とする場合には、 それそれの検索サービスにより検索された検索結果の内容、 長さ、 検索結果出力順序などがまちまちなので、 それそれの検索サービス 1 a, l b, l cからのファイルをクラス夕リングモジュール 3で処理可能な形式に変 換する変換モジュール 2 a, 2 b . 2 cを検索サービス l a, l b, 1 cに対応 して用意する。 なお、 クラス夕モジュール 3の構成は図 1と同じであるので同一 部分には同一符号が付されている。
このような構成であれば、 ュ一ザは検索しょうとする情報の分野に応じて検索 サービスを使い分けることができる。 たとえば、 第 1の検索サービス 1 aがスポ —ッ関係の情報検率に向いている検索サービスであるとすれば、 スポーツ関係の 情報を検索しょうとする場合、 第 1の検索サービス 1 aを用いて検索を行う。 ま た、 第 2の検索サービス 1 bが学術関係の情報検索に向いている検索サービスで あるとすれば、 学術関係の情報を検索しょうとする場合、 第 2の検索サービス 1 bを用いて検索を行う。
このように、 ユーザは検索しょうとする情報によって検索サービスを選択する ことができ、 しかも、 それによつて検索された結果は、 クラスタリングモジュ一 ル 3によってクラスタリング処理がなされ、 ユーザが見やすいように整理された 状態で提示できる。 なお、 このクラスタリング処理については、 すでに説明した のでここではその説明は省略する。
このように複数の検索サ一ビスを選択的に使用できるようにすれば、 それそれ の得意分野に応じた検索が可能となるばかりでなく、 ある 1つの検索サービスが 混み合っているような場合には、 他の検索サービスに切り換えて検索を行うとい うような柔軟な検索も可能となる。
さらに、 複数の検索サービスによる検索処理を並行に行い、 それそれの検索サ —ビスによる検索結果を 1つにまとめて、 まとめられた内容についてクラスタリ ング処理することも可能である。 これを図 9により簡単に説明する。
図 9の構成は図 8の構成において、 第 1〜第 3の検索サ一ビス 1 a , 1 b , 1 cに対応して設けられた変換モジュール 2 a、 2 b, 2 cとクラスタリングモジ ユール 3との間に、 それそれの検索結果を収集して 1つにまとめる検索結果収集 部 4を設けた構成となっている。 その他は、 図 8と同じ構成であり、 同一部分に は同一符号が付されている。
このような構成であれば、 複数の検索サービス (ここでは第 1〜第 3の検索サ 一ビス l a, l b, 1 c )では、 ユーザの入力したキーワードに対して並行して 検索処理を行い、 それそれの検索サービス 1 a, l b, l c によって検索された それぞれの検索結果を、 それそれの検索サービス 1 a, 1 b , 1 c に対応する変 換モジュール部 2 a, 2 b , 2 cでクラスタリングモジュール 3が処理可能な形 式に変換し、 それそれの変換後のファイルを検索結果収集部 4に与え、 それぞれ の検索結果を 1つにまとめる。 そして、 そのまとめられた検索結果は、 クラスタ リングモジュール 3に入力され、 これまで説明したようなクラスタリング処理を 行う。
このように、 複数の検索サービスを用いて検索処理を行うことにより、 1つの 検索サービスでは検索できなかつた幅広い情報を取得することも可能である。 ま た、 検索範囲が広がるので、 網羅的に情報を探すことができ、 どのような情報が 世の中に存在するのかを見極めるのに非常に有効となる。 このようにして得られ た情報は、 これまで説明したようなクラスタリング処理がなされ、 見やすい形で ユーザに提示される。
また、 この図 9に示した第 1〜第 3の検索サービス 1 a , l b , l cを用いて 検索処理を並行して行うような場合、 それそれの検索サービス 1 a, l b , 1 c で得られた検索結果 (変換モジュール 2 a, 2 b, 2 c出力) を 1つにまとめた あと、 クラス夕リング処理を行うのではなく、 それそれの検索サービス 1 a, 1 b, 1 cで得られた検索結果 (変換モジュール 2 a , 2 b, 2 c出力) それそれ についてクラス夕リング処理を行い、 それそれのクラスタ処理結果をユーザに提 示するようにしてもよい。
これによつて、 広範囲にわたって存在する情報を効率よく検索することが可能 となり、 また、 ユーザは第 1〜第 3の検索サービス 1 a, l b, l cによるそれ それの検索結果のそれそれのクラスタリング結果を見比べたりすることができ、 それそれの検索サ一ビスの特色などを知ることもできる。
なお、 本実施形態は、 上記の内容に限定されるものではなく、 上記の要旨を逸 脱しない範囲で種々変形実施可能となるものである。 たとえば、 上述の実施の形 態では、 クラス夕リングを行うための情報 (クラスタリング対象情報) として、 検索されたそれぞれの文書のタイ トルを用いた例について説明したが、 これは、 タイ トルだけでなく、 たとえば、 U R Lアドレス (http:〃を取り除いた部分) 、 更新日時(単純な時間または最近 1力月以内の更新日時)、ファイルサイズ(web ページ本文のバイ トサイズなど) を用いてクラス夕リングすることもできる。 ま た、 これらは、 単独で用いてクラスタリングするようにしてもよく、 幾つかを組 み合わせてもよい。 このように、 クラスタリング対象情報を種々選ぶことによつ て、 それそれに応じた特色のあるクラスタリングが行える。 そして、 これらのど れを用いるかは、 最初にメニューなどで選択項目を選ぶことで可能となる。 また、 選んだ項目が無い場合には、 他の項目を代用する。 たとえば、 タイ トルを選んだ 場合、 webページにタイ トルが無い場合には、 U R Lアドレスを代用する。
また、 本実施形態における情報分類処理を行う処理プログラムは、 フロッピィ ディスク、 光ディスク、 ハードディスクなどの記録媒体に記録させておくことが でき、 本発明はその記録媒体をも含むものである。 また、 ネットワークから処理 プログラムを得るようにしてもよい。
(第 2の実施形態) 次に、 本発明の第 2の実施形態について説明する。
第 1の実施形態の説明において述べたように、 文書のタイ トルから特徴要素を 抽出してクラスタリングする手法は、 演算量や処理時間の面で優れ、 適切なクラ スタリングが可能となるが、 クラスタリングを行うための情報量は文書全体から 見れば少ないので、 全てが適切にクラス夕リングされるとは限らない。 特に、 タ ィ トルが文書の内容を適切に表していなかったり、 文書内容とは大きくかけ離れ た奇抜なタイ トルが付けられていたりする場合が考えられる。 このような場合に は、 クラスタリング精度は大きく低下し、 良好なクラスタリング結果は得られな いことになる。
また、 特徴要素を抽出して、 その特徴要素に基づいてクラスタリングする手法 は、 特徴要素の頻度などを調べ、 それによつて、 機械的に文書を分類してクラス タリングするものである。 このようなクラスタリングでは、 文書の意味を解析し ているわけではないので、 得られたクラスタ (クラスタリングされることによつ て得られる文書群の 1つの集合) が必ずしも意味的な共通性のある文書の集合と なるとは限らない。
情報分類においては、 以上のような場合であっても、 ユーザの検索要求に沿つ たクラスタリング結果を提示できるようにすることが好ましい。
本実施形態においては、 汎用の検索サービスで得られた検索結果をクラスタリ ング処理を施し、 かつ、 クラスタリングによって得られたクラス夕の順位を再構 成して表示することで、 ユーザの検索要求に沿ったクラス夕リング結果を提示で きるようにしている。
以下に、 この第 2の実施形態について詳細に説明する。
図 1 0は、 第 2の実施形態をの装置構成を示すもので、 大きく分けると、 検索 サービス 1 0 1、 変換モジュール 1 0 2、 クラス夕リングモジュール 1 0 3、 ク ラス夕順位再構成モジュール 1 0 4とから構成され、 変換モジュール 1 0 2、 ク ラス夕リングモジュール 1 0 3、 クラスタ順位再構成モジュール 1 0 4が情報分 類装置に相当し、 特に、 クラスタ順位再構成モジュール 1 0 4を設けた点に本実 施形態の特徴がある。
検索サービス 1 0 1はィンタ一ネッ トなどで一般に広く使用されている汎用の 検索サ一ビスであり、 ユーザからの検索要求としてのキ一ヮ一ドが入力されるこ とにより、 たとえば webページなどから、 入力されたキ一ワードに基づいた情報 検索を行う。 この検索サービス 1 0 1で検索された検索結果はファイル形式で出 力され、 クラスタリングモジュール 1 0 3に渡されるが、 複数の検索サービスが 存在する場合、 それそれの検索サービスによって出力されるデ一夕形式が異なる ので、 どのような検索サ一ビスからのファイルであってもその内容を読めるよう な形式にファイルを変換するために変換モジュール 1 0 2が設けられる。
クラス夕リングモジュール 1 0 3は、 検索サ一ビス 1 0 1により出力された検 索結果 (変換モジュール 1 0 2による変換後のファイル内容) に対しクラスタリ ング処理を行うもので、 この実施の形態では、 それそれの文書から文書のタイ ト ルを抽出し、 そのタイ トルに含まれる特徴的な用語を特徴要素として抽出し、 抽 出された特徴要素に基づいてクラス夕リング処理を行う。
具体的には、 それそれの文書から夕ィ トルとして抽出された部分を形態素解析 し、 形態素解析された結果から特徴的な用語を特徴要素として抽出する。 その後、 抽出された特徴要素とそれそれの文書との関係を示す特徴テーブルを作成する。 この特徴テーブルは、 たとえば、 抽出されたそれそれの特徴要素が各文書のタイ トルに幾つ含まれるているかを、 それそれの特徴要素とそれそれの文書と対応づ けて示すもので、 一例として、 それそれの文書のタイ トルから、 「概要」 、 「L P」 、 「仕様」 、 「デバイス」 、 「半導体」 、 「電子」 というような特徴要素が 抽出されたとすると、 これらの特徴要素が、 それそれの文書のそれそれの夕イ ト ルに、 それそれ何個含まれているかを示す内容となっている。
このような特徴テーブルに基づいて、 多数の文書を意味的に共通性のある複数 のクラス夕に分類する。 つまり、 それそれの文書のそれそれの夕ィ トルに存在す る特徴要素に基づいて、 共通する特徴要素を持つ文書を 1つのまとまりとし、 そ のまとまりを 1つのクラスタとする。
このクラス夕リングモジュール 1 0 3から、 たとえば、 図 1 1のようなクラス タリング結果が出力されたとする。 この図 1 1は、 前述したように、 クラスタリ ングされることによって得られた各クラス夕の名称 (上述の特徴要素に相当し、 それをここではクラスタ名と呼んでいる) と、 そのクラスタに属するそれそれの 文書のタイ トルと、 そのクラス夕には幾つの文書が含まれているかを示す文書数、 さらには、 前述したように、 それそれのタイ トルごとにスコアを示す数値などが 一覧表形式で示されている。
なお、 このスコアは、 前述したように、 与えられたキーワードとそれそれの文 書との適合度を示す客観的な尺度として用いられ、 ここでは、 値が大きいほど、 与えられたキーワードに適合する内容を有する文書であるとする。 このスコアは キーワードとの適合度を表すものであるので、 その単位しては、 %や点数など検 索サ一ビスによって異なるがこの実施の形態では点数で表すものとする。
そして、 このクラス夕リングモジュール 1 0 3によってクラス夕リングされた 段階のクラスタリング結果は、 図 1 1に示されるように、 クラスタの配置はそれ それのクラスタに含まれる文書の数の多い順となっている。 前述したように、 こ の場合、 上から順に、 概要クラスタ、 L Pクラスタ、 仕様クラス夕、 デバイスク ラスタ、 半導体クラスタ、 電子クラスタの順となっている。
クラス夕順位再構成モジュール 1 0 4は、 クラス夕リングモジュール 1 0 3で 出力されたクラス夕リング結果に基づいて、 それそれのクラス夕の表示順位を再 構成するもので、 その処理内容の詳細については後に説明する。
このような構成において、 本発明の第 2の実施形態について説明する。
本実施形態において行う情報分類処理手順は概略的には、 図 1 2のフローチヤ ートに示すように、 まず、 汎用の検索サービス 1 0 1で検索された検索結果を取 得し (ステップ 1 2 S 1 ) 、 取得した検索結果に対しクラスタリング処理を施し (ステップ 1 2 S 2 )、そのクラス夕リング結果を出力する(ステップ 1 2 S 3 )。 そして、 そのクラスタリング結果に対し、 それそれのクラスタ順位の再構成を行 レ、 (ステヅブ 1 2 S 4 ) 、 再構成されたクラスタリング結果を出力する (ステヅ プ 1 2 S 5 ) 。 以下、 具体例を参照しながら詳細に説明する。
この実施の形態では、 クラス夕リングモジュール 1 0 3が行うクラス夕リング 処理は、 検索サービス 1 0 1で検索された文書に対し、 それそれの文書のタイ ト ルを抽出し、 そのタイ トルから特徴要素を抽出して、 抽出された特徴要素とそれ それの文書との関係を示す特徴テーブルを作成して、 その特徴テーブルの内容に 基づいて、 それそれの文書を意味的に共通性のある複数のクラス夕に分類する。 また、 この実施の形態では、 ユーザが 「半導体」 というキ一ワードを検索要求と して検索サービス 1 0 1に入力し、 それによつて得られた多数の文書がクラス夕 リングモジュール 1 0 3によってクラスタリングされ、 そのクラス夕リング結果 が図 1 1に示すような結果であったとする。
このクラス夕リングモジュール 1 0 3からのクラス夕リング結果は、 クラス夕 順位再構成モジュール 1 0 4に入力され、 以下に示すような処理がなされる。 まず、 図 1 1で示されるクラスタリング結果における各クラス夕 (概要クラス 夕、 L Pクラスタ、 仕様クラス夕、 デバイスクラス夕、 半導体クラスタ、 電子ク ラスタ) において、 それそれのクラスタに含まれる文書対応に付されたスコアを 利用して、 そのスコアの値の平均を求める。 この場合、 それそれのクラスタごと にスコアの値を足し算し、 その足し算して得られた結果をそのクラス夕に含まれ る文書数で割る単純平均を求める。
たとえば、 概要クラスタで考えると、 この図 1 1に示す検索結果においては、 そのクラス夕内のスコアの合計が 5 7 9点あって、 文書数が 1 6個であるので、 平均のスコアは約 3 6点と求められる。 また、 「L P」 クラスタで考えると、 そ のクラスタ内のスコアの合計が 4 5 0点であって、 文書数が 1 6個であるので、 平均のスコアは約 2 8点と求められる。 同様に、 「仕様」 クラスタは、 そのクラ スタ内のスコアの合計が 4 1 3点であって、 文書数が 1 4個であるので、 平均の スコアは約 2 9点と求められ、 「デバイス」 クラスタは、 そのクラスタ内のスコ ァの合計が 8 4 9点であって、 文書数が 9個であるので、 平均のスコアは約 9 4 点と求められ、 「半導体」 クラスタは、 そのクラスタ内のスコアの合計が 7 5 7 点であって、 文書数が 7個であるので、 平均のスコアは約 1 0 8点と求められ、 「電子」 クラス夕は、 そのクラスタ内のスコアの合計が 3 4 9点であって、 文書 数が 4個であるので、 平均のスコアは約 8 7点と求められる。
以上のようにして計算された平均のスコアを各クラスタのスコア (クラスタス コアと呼ぶ) とする。 そして、 このクラスタスコアの高い順にクラス夕の順位を 再構成する。
すなわち、 この場合、 クラス夕スコアの最も高いクラス夕は、 半導体クラス夕 の 1 0 8点であり、 第 2位はデバイスクラス夕の 9 4点であり、 第 3位は電子ク ラスタの 8 7点であり、 以下、 概要クラスタ (3 6点) 、 仕様クラスタ (2 9点)、 L Pクラス夕 (2 8点) といった順序となる。
このようにして、 それそれのクラス夕ごとにクラスタスコアを計算し、 求めら れたクラスタスコアの高い順にクラスタ順位を再構成する。
この再構成されたクラスタリング結果を一覧表形式で表したものが図 1 3であ る。 図 1 3によれば、 表の最上段に半導体クラスタが位置し、 2番目にデバイス クラスタ、 3番目に電子クラス夕、 以下、 概要クラス夕、 仕様クラスタ、 L Pク ラス夕といった順序となる。 この図 1 3のクラスタリング結果によれば、 ュ一ザ の入力した 「半導体」 というキーワードに対し、 そのキ一ワードに適合する文書 が多く含まれるクラス夕が上位に来ていることがわかる。
この図 1 3のクラス夕リング結果と図 1 1のクラス夕リング結果を比較すると、 図 1 1のクラスタリング結果では、 ユーザの入力した 「半導体」 というキ一ヮ一 ドに対し、 そのキーヮ一ドとは直接には関係しないような文書で構成される概要 クラスタ、 L Pクラスタ、 仕様クラス夕といったクラス夕が上位に位置し、 キ一 ヮードに大きく関係するような文書が含まれると思われる半導体クラスタ、 デバ イスクラスタ、 電子クラス夕といったクラスタが下位に位置しているが、 図 1 3 では、 それが逆転し、 キーワードに大きく関係するような文書が含まれると思わ れるクラスタが上位に位置するようになる。
なお、 クラスタスコアが同じ値となった場合には、 クラス夕内に含まれる文書 数の多い方を上位とするなどの措置を講ずる。
ここで、 各クラス夕内のスコアの合計及び平均については、 図 1 3のように表 示しても良いし、 また、 表示しなくても良い。
以上説明したように、 単純にそれそれのクラスタに含まれる文書数 ( 1つのク ラス夕にまとめられた文書数) によって順位付けするのではなく、 それぞれのク ラスタごとにそのクラス夕に含まれる文書に付されたスコアに基づいてクラス夕 の順位を決めることによって、 キーヮ一ドに適合したクラス夕順位が得られる。 なお、 図 1 3に示すようなクラスタリング結果がユーザに表示され、 ュ一ザは このようなクラスタリング結果の一覧表を見て、 自分の欲しい情報の入っていそ うな文書のタイ トル部分をクリックすれば、 そのタイ トルに対応する本文が表示 されるというような表示処理がなされる。
以上説明したように、 本発明の第 2の実施形態では、 ユーザの入力したキーヮ —ドによって検索された多数の文書に対し、 これら多数の文書のタイ トルに含ま れる特徴要素に基づいてクラスタリング処理し、 さらに、 そのクラスタリング結 果に対して、 それそれのクラス夕ごとにそのクラス夕に含まれる文書のスコアの 平均を求める。 そして、 その平均のスコアをクラスタスコアとし、 それそれのク ラスタごとのクラス夕スコアに基づいて、 クラスタ順位の再構成を行う。 つまり、 クラスタスコアの大きい順にクラス夕の並べ替えを行い、 図 1 3に示すようなク ラス夕リング結果として表示する。
これによつて、 ユーザの欲しい情報の入っていそうなクラスタが一覧表の上位 に位置した状態で表示されているので、 自分の欲しい情報を探しやすくなる。 また、 これまでの説明では、 ある 1つの汎用の検索サービスで検索された結果 をクラスタリング処理する場合について説明したが、 複数の検索サービスにより 検索された結果をクラスタリング処理する場合にも適用できる。
検索サービスはそれそれに得意の分野があることも多く、 たとえば、 ある検索 サービスはスポーツ関係の情報を多数保有し、 ある検索サービスは学術関係の情 報を多数保有し、 また、 ある検索サービスは芸能関係の情報を多数保有している というように、 それそれの得意の分野が存在する場合も多い。 これらそれそれの 得意分野については豊富な情報を所有しており、 ユーザの所望とする情報が適切 に取り出される可能性が高い。 したがって、 情報検索を行う際は、 検索サービス を使い分けることも普通に行われる。
このように、 複数の検索サービスを用いてクラス夕リング処理する場合には、 それそれの検索サービスにより検索された検索結果の内容、 長さ、 検索結果出力 順序などがまちまちなので、 それそれの検索サ一ビスからのファイルをクラス夕 リングモジュール 1 0 3で処理可能な形式に変換する変換モジュール 1 0 2を複 数の検索サ一ビスに対応して用意する。 そして、 さらに、 そのクラス夕リング結 果におけるクラスタ順位再構成を行う場合には、 それそれのクラス夕のクラスタ スコアを求める処理をそれそれの検索サービスに対応して行うようにする。
たとえば、 本実施形態のクラスタ順位再構成処理についていえば、 検索サ一ビ スによって幾つかの対策を講じる必要がある。 たとえば、 スコアの分布の幅が非 常に大きい場合(たとえば、スコアを表す数値が最大 1 0 0 0から最小は 2など) は、 対数を取って計算するなどの措置を講じたり、 また、 きわめてスコアの値が 小さい文書 (たとえば、 殆どの文書が数百のスコアの値があるのに 2や 3の値し かない文書) はクラス夕リング対象から外すといった措置を講じる。
このように、 複数の検索サービスに対応できるようにすることで、 ユーザは検 索しょうとする情報の分野に応じて検索サービスを使い分けることができ、 それ それの得意分野に応じた検索が可能となるばかりでなく、 ある 1つの検索サ一ビ スが混み合つているような場合には、 他の検索サービスに切り換えて検索を行う というような柔軟な検索も可能となる。
なお、 本発明の第 2の実施形態は、 上記の内容に限定されるものではなく、 上 記の要旨を逸脱しない範囲で種々変形実施可能となるものである。 たとえば、 こ れまで説明した実施形態では、 それそれのクラス夕のクラス夕スコアは、 そのク ラスタに含まれる文書のスコアの単純平均を用いた例について説明したが、 この クラスタスコアとしては、 それそれのクラスタ内に含まれる文書のなかで最大の スコアを有する文書のスコアを用いるようにしてもよく、 また、 それそれのクラ スタ内に含まれる文書に付されたスコアのなかで中央に位置する文書のスコアを 用いるようにしてもよい。
このように、 クラス夕ごとのスコアの最大値を用いることで、 クラスタ順位を 決めるために足し算したり割り算したりという計算を行う必要がなく、 計算量を 少なくすることができ、 しかも、 同じクラスタ内に、 極端に低いスコアを持つ文 書が少数あっても、 その影響をあまり受けないようにすることができる。 また、 クラスタごとのスコアの中央値を用いる場合も、 最大値を用いるのと同様、 クラ ス夕順位を決めるための計算量を少なくすることができ、 しかも、 中央値の場合、 同じクラスタ内に、 極端に高いスコアや極端に低いスコアを持つ文書が少数あつ ても、 その影響をあまり受けないようにすることができる。
また、 本実施形態では、 クラスタリングを行うための情報 (クラス夕リング対 象情報) として、 検索されたそれそれの文書のタイ トルを用いた例について説明 したが、 これは、 タイ トルだけでなく、 たとえば、 U R Lアドレス (http:〃を取 り除いた部分) 、 更新日時 (単純な時間または最近 1力月以内の更新日時) 、 フ アイルサイズ (webページ本文のバイ トサイズなど) を用いてクラス夕リングす ることもできる。 また、 これらは、 単独で用いてクラスタリングするようにして もよく、 幾つかを組み合わせてもよい。 このように、 クラス夕リング対象情報を 種々選ぶことによって、 それそれに応じた特色のあるクラスタリングが行える。 そして、 これらのどれを用いるかは、 最初にメニューなどで選択項目を選ぶこと で可能となる。 また、 選んだ項目が無い場合には、 他の項目を代用する。 たとえ ば、 タイ トルを選んだ場合、 webページにタイ トルが無い場合には、 U R Lアド レスを代用する。
(第 3の実施形態)
次に、 本発明の第 3の実施形態について説明する。
情報分類処理において、 クラスタリングによって得られたクラスタの数がそれ ほど多くはない場合、 ユーザはそのクラス夕リング結果全体を把握するのにそれ 程多くの時間を費やさないで済む。
しかし、 クラスタリングによって得られたクラスタの数は時として何十個ある いは何百個といった膨大な数量となる場合もある。 このような場合、 クラスタリ ング結果全体を見るだけでも大変である。
そこで本発明の第 3の実施形態においては、 汎用の検索サービスで得られた検 索結果をクラスタリング処理を施し、 かつ、 クラス夕リングによって得られたク ラスタリング結果全体の概要を一目で把握できるような一覧表を作成することで、 ユーザが自分の欲しい情報を効率よく探すことができるようにしている。
以下に、 第 3の実施形態について詳細に説明する。
図 1 4は本発明の第 3の実施形態の概略の構成を示すもので、 大きく分けると、 検索サ一ビス 1 4 1、 変換モジュール 1 4 2、 クラスタリングモジュール 1 4 3、 クラスタリング結果概要一覧表作成モジュール (以下、 概要一覧表作成モジュ一 ルという) 1 4 4、 表示制御モジュール 1 4 5とから構成され、 変換モジュール 1 4 2、 クラスタリングモジュール 1 4 3、 概要一覧表作成モジュール 1 4 4、 表示制御モジュール 1 4 5が情報分類装置に相当し、 特に、 概要一覧表作成モジ ユール 1 4 4を設けたことに本発明の第 3の実施形態の特徴がある。 検索サービス 1 4 1はインタ一ネヅトなどで一般に広く使用されている汎用の 検索サービスであり、 ュ一ザからの検索要求としてのキ一ヮ一ドが入力されるこ とにより、 たとえば webページなどから、 入力されたキーワードに基づいた情報 検索を行う。 この検索サービス 1 4 1で検索された検索結果はファイル形式で出 力され、 クラスタリングモジュール 1 4 3に渡されるが、 複数の検索サービスが 存在する場合、 それそれの検索サービスによって出力されるデータ形式が異なる ので、 どのような検索サービスからのファイルであってもその内容を読めるよう な形式にファイルを変換するために変換モジュール 1 4 2が設けられる。
クラス夕リングモジュール 1 4 3は、 検索サービス 1 4 1により出力された検 索結果 (変換モジュール 1 4 2による変換後のファイル内容) に対しクラスタリ ング処理を行うもので、 この実施の形態では、 それそれの文書から文書のタイ ト ルを抽出し、 そのタイ トルに含まれる特徴的な用語を特徴要素として抽出し、 抽 出された特徴要素に基づいてクラスタリング処理を行う。
具体的には、 それそれの文書からタイ トルとして抽出された部分を形態素解析 し、 形態素解析された結果から特徴的な用語を特徴要素として抽出する。 その後、 抽出された特徴要素とそれそれの文書との関係を示す特徴テ一ブルを作成する。 この特徴テーブルは、 たとえば、 抽出されたそれそれの特徴要素が各文書のタイ トルに幾つ含まれているかを、 それそれの特徴要素とそれそれの文書と対応づけ て示すもので、 一例として、 それそれの文書のタイ トルから、 「概要」、 「L P」、 「仕様」 、 「デバイス」 、 「半導体」 、 「電子」 というような特徴要素が抽出さ れたとすると、 これらの特徴要素が、 それそれの文書のそれそれのタイ トルに、 それぞれ何個含まれているかを示す内容となっている。
このような特徴テ一ブルに基づいて、 多数の文書を意味的に共通性のある複数 のクラス夕に分類する。 つまり、 それそれの文書のそれそれのタイ トルに存在す る特徴要素に基づいて、 タイ トルの中に共通する特徴要素を持つ文書を 1つのま とまりとし、 そのまとまりを 1つのクラス夕とする。
このクラスタリングモジュール 1 4 3から、 たとえば、 第 2の実施形態におい て説明した図 1 1のようなクラス夕リング結果が出力されたとする。 この図 1 1 は前述したように、 クラスタリングされることによって得られた各クラスタの名 称 (上述の特徴要素に相当し、 それをここではクラスタ名と呼んでいる) と、 そ のクラスタに属するそれそれの文書のタイ トルと、 そのクラス夕には幾つの文書 が含まれているかを示す文書数、 さらには、 それそれのタイ トルごとにスコアを 示す数値などが表形式で示されている。
なお、 このスコアは、 与えられたキーワードとそれそれの文書との適合度を示 す客観的な尺度として用いられ、 ここでは、 値が大きいほど、 与えられたキ一ヮ ―ドに適合する内容を有する文書であるとする。
そして、 このクラス夕リングモジュール 1 4 3によって得られたクラス夕リン グ結果におけるそれそれのクラス夕の配列は、 図 1 1に示されるように、 ここで は、 それそれのクラス夕に含まれる文書の数の多い順となっている。 前述したよ うに、 この場合、 上から順に、 概要クラス夕、 L Pクラスタ、 仕様クラスタ、 デ バイスクラス夕、 半導体クラスタ、 電子クラス夕の順となっている。
概要一覧表作成モジュール 1 4 4は、 クラスタリングモジュール 1 4 3から出 力されたクラスタリング結果に基づいて、 それそれのクラスタのクラス夕名に基 づいて、 クラスタリング結果の概要を表すクラスタリング結果概要一覧表 (概要 一覧表という) を作成するものである。
表示制御モジュール 1 4 5は、 クラス夕リングモジュール 1 4 3によって得ら れたクラスタリング結果や、 概要一覧表作成モジュール 1 4 4で作成された概要 一覧表をユーザに提示するために様々な表示制御を行うもので、 この実施の形態 では、 クラス夕リング結果とともに概要一覧表を表示させることは勿論、 クラス 夕リング結果と概要一覧表のリンク部分の相互の表示制御、 さらには、 注目すベ きクラスタをユーザの目に付きやすい表示とするといつた様々な表示制御を行う。 その具体的な表示制御内容については後述する。
このような構成において、 本発明の第 3の実施形態の情報分類処理について説 明する。 本実施形態において行う情報分類処理手順は概略的には、 図 1 5のフロ —チャートに示すように、 まず、 汎用の検索サービス 1で検索された検索結果を 取得し (ステップ 1 5 S 1 ) 、 取得した検索結果に対しクラスタリング処理を施 し (ステヅブ 1 5 S 2 ) 、 そのクラスタリング結果を出力する (ステヅブ 1 5 S 3 )。そして、 そのクラスタリング結果に基づいて概要一覧表作成処理を行い(ス テヅプ 1 5 S 4 ) 、 作成された概要一覧表を上述のクラスタリング結果とともに 表示する (ステップ 1 5 S 5 ) 。 なお、 この作成された概要一覧表を上述のクラ ス夕リング結果とともに表示する際の表示の仕方としては、 たとえば、 クラス夕 リング結果に概要一覧表を画面上で重ねて表示するようにしてもよく、 また、 概 要一覧表とクラスタリング結果を別個に配置し、 概要一覧表の後に続いてクラス タリング結果を表示させるようにしてもよい。 なお、 クラスタリング結果の内容 量が多い場合には、 画面をスクロールすることによって、 クラス夕リング結果を 順次画面上に現すようにする。
以下、 本発明の第 3の実施形態における情報分類処理内容について具体例を参 照しながら詳細に説明する。
この実施の形態では、 クラスタリングモジュール 1 4 3が行うクラスタリング 処理は、 検索サービス 1 4 1で検索された文書に対し、 それそれの文書のタイ ト ルを抽出し、 そのタイ トルから特徴要素を抽出して、 抽出された特徴要素とそれ それの文書との関係を示す特徴テーブルを作成して、 その特徴テ一ブルの内容に 基づいて、 それそれの文書を意味的に共通性のある複数のクラスタに分類する。 また、 この実施の形態では、 ユーザが 「半導体」 というキ一ワードを検索要求と して検索サービス 1 4 1に入力し、 それによつて得られた多数の文書がクラス夕 リングモジュール 1 4 3によってクラス夕リングされ、 そのクラスタリング結果 が図 1 1に示すような結果であったとする。
このクラスタリングモジュール 1 4 3からのクラスタリング結果は、 概要一覧 表作成モジュール 1 4 4に入力され、 以下に示すような処理がなされる。
まず、 図 1 1で示されるクラスタリング結果における各クラスタ (概要クラス 夕、 L Pクラスタ、 仕様クラスタ、 デバイスクラスタ、 半導体クラスタ、 電子ク ラスタ) において、 それそれのクラス夕名 ( 「概要」、 「L P」 、 「仕様」 、 「デ バイス」 、 「半導体」 、 「電子」 ) を用いた概要一覧表を作成し、 その概要一覧 表をクラス夕リング結果とともに表示する。
図 1 6は概要一覧表 1 6 1 0をクラス夕リング結果 1 6 2 0とともに表示した 例を示すもので、 この表示例では、 概要一覧表 1 6 1 0に続いてクラスタリング 結果 1 6 2 0を表示した例である。 ここで用いたクラスタリング結果 1 6 2 0は、 クラス夕数が 6個ときわめて少ない例であるが、 実際には、 クラスタ数は何十個 あるいは何百個というような場合もあり、 その中から自分の欲しい情報を探すに は、 クラスタリング結果全体を見ながら探すことになるので、 単に、 クラスタリ ング結果全体を見せられただけでは自分の欲しい情報を探すのに大変な労力を要 する。 これに対し、 クラスタ名による概要一覧表が表示されることによって、 そ の概要一覧表を構成するクラスタ名を見渡すことで、 クラスタリング結果にはど のようなクラス夕があるのか、 自分の欲しい情報はその中のどのクラスタに入つ ていそうかといつたことをおおよそ見当付けることができる。
そして、 概要一覧表 1 6 1 0を構成するそれそれのクラス夕名とクラスタリン グ結果とはそれそれ対応する部分がリンクされている。 したがって、 たとえば、 クラスタリング結果のクラス夕数が多く、 一つの画面上ですベてのクラス夕リン グ結果が表示しきれないような場合でも、 図 1 1で示される概要一覧表 1 6 1 0 の任意のクラスタ名をクリックすると、 それに対応するクラス夕リング結果 1 6 2 0のクラスタ部分が即座に表示され、 その状態で、 今度はクラスタリング結果 のクラスタ名をクリックすると概要一覧表に即座に戻るといった表示制御が可能 となる。
このような表示制御を行う際、 使い易さをより一層向上させるために次のよう な機能を付加する。
まず、 概要一覧表におけるクラス夕名の配列順序は、 クラス夕リング結果にお けるそれそれのクラス夕の配列順序に従う。 すなわち、 図 1 1のクラスタリング 結果を例に取れば、 そのクラスタリング結果におけるそれそれのクラスタの配列 順序は、 それそれのクラス夕に含まれる文書数の多い順となっている。 たとえば、 概要クラス夕には文書数は 1 6個、 L Pクラスタにも文書数は 1 6個、 仕様クラ ス夕には文書数は 1 4個、 デバイスクラス夕には文書数は 9個、 半導体クラスタ には文書数は 7個、 電子クラスタには文書数は 4個といった具合である。 したが つて、 この場合、 概要一覧表においても、 図 1 1に示すように、 一覧表の左から 右に、 「概要」 、 「L P」 、 「仕様」 、 「デバイス」 、 「半導体」 、 「電子」 の 順とした配列とする。 なお、 クラス夕リング結果におけるクラスタ順位の付け方としては、 文書数だ けではなく、 それそれのクラスタのスコアに基づいて決めることもできる。 図 1 1のクラス夕リング結果を見ると、 前述したように、 そのクラス夕に属するそれ それの文書の夕ィ トルと、 そのクラス夕には幾つの文書が含まれているかを示す 文書数、 さらには、 それそれのタイ トルごとにスコアを示す数値などが表形式で 示されている。
このスコアは、 与えられたキーヮードに対しその検索サービスが独自の方法で 検索したとき、 検索された文書対応に付けられた値であり、 一般には、 与えられ たキーヮ一ドとそれそれの文書との適合度を示す客観的な尺度として用いられ、 汎用の検索サービスによる検索結果にはこのスコアが付されるのが普通である。 このスコアは、 検索方式により計算の仕方や値の考え方などが異なるものの、 一般に、 値が大きいほど、 与えられたキーワードに適合する内容を有する文書で あるといえる。
したがって、 それそれのクラス夕ごとにそれそれのクラス夕におけるスコアの 平均などを求め、 その平均のスコアの大きいクラス夕順に配列することも考えら れる。 このように、 クラスタリング結果におけるそれそれのクラス夕順位を、 平 均のスコアの大きいクラスタ順とした場合には、 それによつて作成される概要一 覧表のクラス夕名の順序もそれに従う。
たとえば、 概要クラスタの平均のスコア (このスコアはキ一ワードとの適合度 を表すものであるので、 その単位しては、 %や点数など検索サービスによって異 なるがこの実施の形態では点数で表すものとする) が約 3 6点と求められ、 L P クラス夕の平均のスコアが約 2 8点と求められ、 仕様クラスタの平均のスコアが 2 9点と求められ、 デバイスクラスタの平均のスコアが約 9 4点と求められ、 半 導体クラスタの平均のスコアが 1 0 8点と求められ、 電子クラス夕の平均のスコ ァが 8 7点と求められたとする。 このように計算された平均のスコアを各クラス 夕のスコア (クラス夕スコアと呼ぶ) とする。 そして、 このクラス夕スコアの高 い順にクラスタの順位を再構成すると、 この場合、 クラスタスコアの最も高いク ラス夕は、 半導体クラスタの 1 0 8点であり、 第 2位はデバイスクラスタの 9 4 点であり、第 3位は電子クラスタの 8 7点であり、以下、概要クラス夕 (3 6点)、 仕様クラス夕 (2 9点) 、 L Pクラス夕 (2 8点) といった順序となる。
このように、 クラスタリング結果におけるそれそれのクラス夕の配列順序が、 それそれのクラス夕のクラス夕スコアの高い順となっているとすれば、 それによ つて作成される概要一覧表のクラスタ名の順序も、 クラスタリング結果のクラス 夕配列順序に従って、 「半導体」 、 「デバイス」 、 「電子」 、 「概要」、 「仕様」、 「L P j の順序とする。
ここで、 各クラスタ内のスコアの合計及び平均については、 図 1 6のように表 示しなくても良いし、 また、 表示しても良い。
一般に、 クラス夕リング結果のクラスタ順序は何らかの意味を持っているので、 概要一覧表のクラス夕名の順序もそれに従うようにした方が、 ユーザが情報を探 す上で都合がよい場合が多い。 ユーザは一般に上から順に見て行く傾向にあるの で、 概要一覧表のクラス夕名の配置順序をクラスタリング結果におけるクラスタ の配置順序と同じにすれば、 自分の欲しい情報を探すのに便利である。
次に、 概要一覧表 1 6 1 0の或るクラスタ名をクリヅクしてそれにリンクされ たクラスタリング結果 1 6 2 0のクラスタ部分を表示させる際、 そのクラスタを 囲っている枠 (クラス夕枠という) の最上部を先頭にした表示を行う。 これは、 もしクラス夕のクラスタ名部分を基準にしてそのクラスタ名部分を先頭にした表 示を行うと、 表示させたときに、 そのクラスタ名に対応するクラスタ要素 (図 1 1ではクラス夕に含まれる文書のタイ トル) が表示画面上に表示されない場合が あるという不都合が生じる。 たとえば、 画面上にクラスタリング結果 1 6 2 0の 半導体クラスタが現れていない状態で、 概要一覧表 1 6 1 0の 「半導体」 という クラスタ名がクリックされたとすると、 そのクリヅク動作とほぼ同時にクラスタ リング結果 1 6 2 0の半導体クラスタ部分の表示に移行することになるが、 その とき、 そのクラスタ枠内の最上段の行に位置するクラス夕要素(この場合は、 「 1 5 7 半導体事業部環境方針」 という文書のタイ トル) が表示画面上で見えない ということがしばしば生じる。
これを防ぐために、 クラスタ枠を基準にしてそのクラスタ枠の最上部を先頭に した表示を行うようにする。 これによつて、 そのクラス夕枠内の最上段に位置す る行のクラスタ要素が確実に表示がなされるようになる。 また、 さらに確実性を高めるため、 それより 1つ前に位置するクラスタの最終 行のクラスタ要素を先頭にした表示を行うようにしてもよい。 たとえば、 前述の 例で考えれば、 概要一覧表 1 6 1 0の 「半導体」 というクラスタ名がクリックさ れたとすると、 クラスタリング結果の半導体クラス夕が表示されることになるが、 このとき、 それよりも 1つ前のデバイスクラス夕の最終行のクラス夕要素 (図 1 1では、 「5 6 デバイス一半導体—A S S P」 ) といったクラス夕要素を先頭 にした表示を行うようにしてもよい。 このように、 1つ前に位置するクラス夕の 最終行のクラス夕要素から表示させるようにすれば、 本来表示すベきクラスタの クラスタ要素は確実に表示がなされるようになる。
次に、 概要一覧表 1 6 1 0に表示されるそれそれのクラスタ名は、 クラス夕リ ング結果 1 6 2 0におけるそれそれのクラス夕の内容によって表示の大きさや色 を変える。 このクラス夕リング結果におけるそれそれのクラス夕の内容というの は、 具体的には、 それそれのクラス夕の重要度を示すもので、 ユーザの与えたキ —ヮ一ドに対する適合度などであり、 それそれのクラスタに含まれる文書数やそ れそれのクラス夕のスコアなどを用いて決める。 たとえば、 前述したように、 そ れそれのクラス夕におけるスコアの平均を求め、 その平均のスコアの大きいクラ ス夕が重要度の高いクラス夕であるとすれば、 重要度の高いクラスタに対する概 要一覧表 1 6 1 0のクラス夕名の表示の仕方を変える。
たとえば、 前述した例によれば、 図 1 1のクラス夕リング結果におけるそれそ れのクラスタのなかで、 半導体クラスタのクラス夕スコアが最も高い値であった ので、 半導体クラス夕に対応する概要一覧表のクラス夕名 「半導体」 の表示の仕 方を他のクラスタのクラス夕名と異ならせる。 具体的には、 「半導体」 というク ラスタ名を他のクラス夕名と色を変えて表示したり、 「半導体」 というクラスタ 名を囲っている枠だけを他よりも太く したり、 その枠内の面積を他よりも大きな 面積としたり、 さらにはそのクラス夕名をブリンク表示させたりすることによつ て、 ユーザの目につきやすい表示を行う。
また、 それぞれのクラス夕においてそれそれのクラス夕に含まれる文書数の多 いクラス夕についても同様に、 ユーザの目につきやすい表示を行うようにするこ ともできる。 さらに、 スコアの高いクラス夕は色を他のクラス夕とは異ならせ、 文書数の多いクラスタは枠内の面積を大きくするなど、 クラス夕の特徴によって 表示の仕方を多種多様に設定するようにしてもよい。 このようにすれば、 どのク ラスタがどの同様な特徴を持ったクラス夕であるかということが、 概要一覧表 1 6 1 0を見るだけで一目でわかる。 '
また、 概要一覧表 1 6 1 0においてユーザの入力したキ一ワードが含まれるク ラスタ名は、 それをユーザに知らせるために他のクラスタ名と異なった表示を行
Ό。
たとえば、 図 1 1のクラス夕リング結果の例では、 ユーザの与えたキーワードは
「半導体」 であるため、 クラスタリング結果により得られたクラスタのうち、 半 導体クラス夕はまさにキーヮ一ドそのものを含むクラス夕である。
この場合、 そのクラスタリング結果 1 6 2 0により作成された概要一覧表 1 6 1 0において、 「半導体」 部分は他のクラス夕とは異ならせた表示として、 たと えば、 ブリンクさせたり、 色を変えたり、 両者を組み合わせるなど、 ユーザの目 に付きやすい表示を行う。 一般に、 ユーザは自分の入力したキーワードと同じも のがあるかを探すことが多い。 したがって、 概要一覧表 1 6 1 0内に自分の与え たキーヮ一ドと同じクラスタ名が有るかどうかを一目でわかるようにすれば、 ュ 一ザにとっては自分の欲しい情報を探す上で便利なものとなる。
また、 画面上にクラスタリング結果 1 6 2 0の或る部分が表示されている状態 のときに、 その表示内容から或るクラス夕名をクリックすると概要一覧表 1 6 1 0の表示に戻るが、 そのとき、 概要一覧表 1 6 1 0の先頭に戻って、 概要一覧表 1 6 1 0の先頭部分からの表示がなされるようにする方が都合がよい。
概要一覧表 1 6 1 0はクラス夕リング結果の概要を簡略化して表すものではあ るが、 場合によってはそのサイズがきわめて大きなものとなることもある。 また、 複数の概要一覧表が作成される場合もある。 すなわち、 これまでの説明では、 そ れそれの文書のタイ トルを用い、 そのタイ トルによってクラスタリング処理しそ れによって得られたクラスタリング結果に基づいて概要一覧表を作成する例につ いて説明したが、 クラスタリング処理は、 タイ トルだけでなく、 U R Lアドレス (http:〃を取り除いた部分) などの情報を用いても行うことができる。
たとえば、 図 1 1のクラスタリング結果を得るために用いた多数の文書に対し、 U R Lを用いてクラス夕リング処理し、 それによつて得られたクラスタリング結 果に基づいて概要一覧表を作成することもできる。
図 1 7は図 1 1 と同じ文書に対し、 U R Lアドレスによってクラス夕リングさ れたクラスタリング結果 1 7 3 0とそれに基づいて作成された概要一覧表 1 7 4 0の例を示すものである。 この場合、 クラス夕リングされることによって得られ たクラスタのクラス夕名としては、 クラス夕リングする際の用いられたそれそれ の U R Lアドレス厂 www. epson. co. jp」 と「www. i- love- epsoiune . jp」や「その他」 であり、 概要一覧表 1 7 4 0を構成するクラス夕名は、 これらの U R Lアドレス 厂 www. epson. co. jp」 と 厂 www. i— love— epson.ne. jp」 さら【こ 「その他」 力5'用レヽられ る。
この例で説明したように、 クラスタリング処理は、 幾つもの方法によってなさ れる可能性があり、 その場合、 それそれによつて得られたクラスタリング結果に 対する複数の概要一覧表が作成されることになる。
このように、 複数の概要一覧表が作成される場合や、 一つの概要一覧表であつ ても一覧表のデータ量がきわめて大きい場合、 画面上でクラスタリング結果を見 ていて、 それに対応する概要一覧表のクラス夕名部分に戻したとき、 対応するク ラス夕名部分からの表示を行うのではなく、 複数の概要一覧表が存在する場合に は、 複数の概要一覧表のなかで先頭に位置する概要一覧表の先頭部分からの表示 がなされるようにする。 また、 1つの概要一覧表の場合でも、 その概要一覧表の 先頭部分からの表示がなされるようにする。
これは、 たとえば、 ユーザがクラスタリング結果を見ていて、 もう一度、 概要 一覧表に戻ってクラスタリング結果全体を見たいというような場合に対処するも のである。 このような場合、 概要一覧表の対応するクラス夕名部分に戻ると、 戻 つた位置が一覧表全体のどの位置かがわからなくなる可能性があるが、 概要一覧 表が複数存在していても、 あるいは概要一覧表のデータ量が多くても、 概要一覧 表全体の先頭部分からの表示がなされるようにすれば、 一覧表全体を見渡すこと ができる。
以上説明したような種々の機能を追加することによって、 概要一覧表の有用性 をより一層高めることができる。 以上説明したように、 この実施の形態では、 膨大な情報をクラス夕リングし、 そのクラスタリング結果の概要が一目でわかるような概要一覧表をクラス夕リン グ結果とともに表示するようにしたので、 クラス夕リング結果が膨大な内容とな つたとしても、 クラスタリング結果全体を見渡すことができ、 ユーザが自分の欲 しい情報を探す際の大きな助けとなる。 また、 その概要一覧表とクラス夕リング 結果との間に前述したような種々の機能を持たせることによって、 ユーザの与え たキ一ワードに対し重要度の高いクラスタはどれであるかなどが一目でわかり、 また、 概要一覧表からクラス夕リング結果に移行する際、 あるいは、 クラスタリ ング結果から概要一覧表に戻る際、 表示する際の先頭を的確な位置に選ぶことに よって、 クラスタリング結果と概要一覧表とを相互に表示するような操作を繰り 返し行う場合、 必要な部分の表示が切れて見えない状態となったり、 自分の注目 している部分がどこにあるのかがわからなくなることがなくなり、 能率よく快適 な操作が可能となる。
なお、 本実施の形態は上記の内容に限定されるものではなく、 上記の要旨を逸 脱しない範囲で種々変形実施可能となるものである。 たとえば、 本実施形態にお いては、 検索されたそれそれの文書のタイ トルを用いてクラスタリングする例に ついて説明したが、 タイ トルだけでなく、 前述したように、 U R Lアドレス (http:〃を取り除いた部分) を用いたクラス夕リングも可能である。
その他、 更新日時 (単純な時間または最近 1力月以内の更新日時) 、 ファイル サイズ (webページ本文のバイ トサイズなど) を用いてクラス夕リングすること もできる。 また、 これらは、 単独で用いてクラスタリングするようにしてもよく、 幾つかを組み合わせてもよい。 このように、 クラスタリング対象情報を種々選ぶ ことによって、 それそれに応じた特色のあるクラス夕リングが行える。 そして、 それそれのクラスタリング結果に基づいてそれそれの概要一覧表を作成すること ができる。
また、 これまでの説明では、 ある 1つの汎用の検索サービスで検索された結果 をクラスタリング処理する場合について説明したが、 複数の検索サービスにより 検索された結果をクラスタリング処理する場合にも適用できる。 そして、 それそ れの検索サービスによって検索された結果に基づいてクラス夕リング処理し、 そ れによって得られたクラス夕リング結果に基づいて概要一覧表の作成を行うこと が可能である。
以上説明したように本実施形態においては、 検索された複数の文書をクラスタ リング処理し、 それによつて得られたクラスタリング結果に対し、 そのクラス夕 リング結果の概要が一目でわかるようなクラス夕リング結果概要一覧表を作成し、 そのクラス夕リング概要一覧表をクラスタリング結果とともに表示するようにし たので、 クラスタリング結果が膨大な内容となったとしても、 クラスタリング結 果全体のおおよその内容を把握することができ、 ュ一ザが自分の欲しい情報を探 す際の大きな助けとなる。 また、 クラスタリング結果全体のおおよその内容を把 握できることから、 ユーザは自分の欲しい情報を効率よく探すことができるばか りでなく、 思わぬ情報の存在を発見することもでき、 新規情報の発掘も容易に行 えるようになる。
また、 クラス夕リング結果とクラス夕リング結果概要一覧表とを相互にリンク することで、 クラスタリング結果概要一覧表からクラス夕リング結果の対応する クラスタ部分に簡単に移行することができ、 また、 その状態から、 クラスタリン グ結果概要一覧表にも容易に戻ることもきるので、 クラス夕リング結果が膨大な 内容であっても、 このような操作を何回か行うことで、 やがては欲しい情報の入 つていそうなクラスタを探すことができ、 自分の欲しい情報を効率よく探すこと ができる。
また、 クラス夕リング結果概要一覧表の表示を行う際、 クラスタリング結果の それそれ対応するクラスタの重要度に応じて、 クラスタリング結果概要一覧表内 のクラス夕名の表示の仕方を変えるようにしたり、 ユーザの与えたキ一ヮ一ドを 含むクラスタ名の表示の仕方を他のクラス夕名とは異ならせるようにすることで、 自分の欲しい情報がどこに入っているかがそのクラスタリング結果概要一覧を見 るだけでおおよその見当を付けることができ、 自分の欲しい情報を効率よく探す ことができる。

Claims

請求の範囲
1 . 検索サ一ビスで検索された複数の検索結果をクラスタリングモジュール が取得して、 そのクラスタリングモジュールでは、 その検索結果に対しクラス夕 リング処理を施し、 そのクラス夕リング処理結果を出力することを特徴とする情 報分類方法。
2 . 前記検索サービスで検索された検索結果を前記クラスタリングモジュ一 ルが処理可能な形式に変換する変換モジュールを備えたことを特徴とする請求項 1に記載の情報分類方法。
3 . 前記変換モジュールは、 クラスタリング処理を複数の検索サービスに対 応して行う場合、 複数の検索サービスそれそれに対応して設けられることを特徴 とする請求項 2に記載の情報分類方法。
4 . 前記複数の検索サービスのいずれかを選択的に用いて検索処理を行い、 選択された検索サービスで検索された検索結果に対してクラス夕リング処理を行 うことを特徴とする請求項 3に記載の情報分類方法。
5 . 前記複数の検索サービスの少なくとも 2つの検索サービスを用いて並行 的な検索処理を行い、 それそれの検索結果を収集して、 その収集された検索結果 に対してクラスタリング処理を行うことを特徴とする請求項 3に記載の情報分類 方法。
6 . 前記複数の検索サービスの少なくとも 2つの検索サービスを用いて並行 的な検索処理を行い、 それそれの検索結果に対し個別にクラスタリング処理を行 うことを特徴とする請求項 3に記載の情報分類方法。
7 . 前記検索結果に対しクラスタリング処理を行う際、 クラスタリング対象 とする情報は、 それそれの検索結果における文書のタイ トル、 U R Lアドレス、 更新日時、 ファイルサイズの少なくとも 1つであることを特徴とする請求項 1か ら 6のいずれか 1項に記載の情報分類方法。
8 . 請求項 1に記載の情報分類方法において、 前記クラス夕リング処理結果 に対し、 検索されたそれそれの文書対応に付された検索要求との適合性を示すス コアを用いて、 前記クラスタリング処理結果のクラスタの順位を再構成し、 その クラス夕順位が再構成されたクラスタリング結果を出力することを特徴とする情 報分類方法。
9 . 前記それそれのクラスタの順位を再構成する処理は、 それぞれのクラス 夕に含まれるそれそれの文書対応に付されたスコアの平均値をそれそれのクラス タごとに求め、 クラス夕ごとの平均値をそれそれのクラスタのクラスタスコアと し、 そのクラス夕スコアによって、 クラス夕の順位を再構成することを特徴とす る請求項 8に記載の情報分類方法。
1 0 . 前記それそれのクラスタの順位を再構成する処理は、 それそれのクラ ス夕に含まれるそれそれの文書対応に付されたスコアの最大値をそれそれのクラ ス夕ごとに得て、 そのクラス夕ごとのスコアの最大値をそれそれのクラスタスコ ァとし、 そのクラスタスコアによって、 クラス夕の順位を再構成することを特徴 とする請求項 8に記載の情報分類方法。
1 1 . 前記それそれのクラスタの順位を再構成する処理は、 それそれのクラ ス夕に含まれるそれそれの文書がそれそれの文書対応に付されたスコアの大きい 順に並べられている場合、 その中央または中央付近に位置するスコアをそれそれ のクラス夕ごとに得て、 そのクラスタごとの中央または中央付近に位置するスコ ァをそれそれのクラス夕スコアとし、 そのクラスタスコアによって、 クラス夕の 順位を再構成することを特徴とする請求項 8記載の情報分類方法。
1 2 . 前記クラスタリング処理を複数の検索サービスによって得られた検索 結果に対応して行うことを可能とする場合、 前記クラスタの順位を再構成するた めのクラスタスコアを求める処理は、 複数の検索サービスそれそれに対応して行 うことを特徴とする請求項 9から 1 1のいずれか 1項に記載の情報分類方法。
1 3 . 前記クラス夕リング処理は、 それそれの文書のタイトルを検出し、 そ のタイトルに含まれる特徴的な用語を特徴要素として抽出し、 抽出された特徴要 素に基づいて行うことを特徴とする請求項 8から 1 2のいずれか 1項に記載の情 報分類方法。
1 4 . 前記クラスタ順位が再構成されたクラスタリング結果の出力の仕方は、 クラスタスコアの高いクラス夕順に表示し、 クラスタスコアが同じであるクラス 夕が存在する場合には、 クラスタ内の文書数の多いクラス夕を高順位とすること を特徴とする請求項 8から 1 3のいずれか 1項に記載の情報分類方法。
1 5 . 請求項 1に記載の情報分類方法において、 前記クラス夕リング処理結 果に対し、 クラスタリング処理結果の概要を表すクラスタリング結果概要一覧表 を作成し、 そのクラスタリング結果概要一覧表を前記クラス夕リング処理結果と ともに出力するようにしたことを特徴とする情報分類方法。
1 6 . 前記クラス夕リング結果概要一覧表は、 クラスタリング処理されるこ とによって得られたそれそれのクラス夕のクラス夕名によって構成されることを 特徴とする請求項 1 5に記載の情報分類方法。
1 7 . 前記クラス夕リング結果とクラス夕リング結果概要一覧表とを相互に リンクし、 クラス夕リング結果概要一覧表の所定のクラスタ名部分が指示される と、 前記クラスタリング結果の対応するクラス夕部分の表示を可能とし、 クラス 夕リング結果の或るクラス夕部分を指示すると、 クラスタリング結果概要一覧表 の表示を可能とすることを特徴とする請求項 1 6に記載の情報分類方法。
1 8 . 前記クラスタリング結果概要一覧表の或るクラス夕名部分が指示され ることによって、 前記クラスタリング結果内の対応するクラスタ部分の表示を行 う際、 そのクラスタを囲む枠の最上部またはそれより 1つ手前に存在するクラス 夕の枠内に存在する最終行部分を先頭にした表示を行うことを特徴とする請求項
1 7に記載の情報分類方法。
1 9 . 前記クラスタリング結果の或るクラスタ部分が指示されることによつ て、 前記クラスタリング結果概要一覧表の表示を行う際、 クラス夕リング結果概 要一覧表の先頭部分からの表示を行うことを特徴とする請求項 1 8に記載の情報 分類方法。
2 0 . 前記クラスタリング結果概要一覧表を構成するそれそれのクラスタ名 の配列順序は前記クラス夕リング結果内のクラス夕配列順序に従うことを特徴と する請求項 1 6から 1 9のいずれか 1項に記載の情報分類方法。
2 1 . 前記クラス夕リング結果概要一覧表の表示を行う際、 前記クラス夕リ ング結果のそれそれ対応するクラス夕の重要度に応じて、 クラスタリング結果概 要一覧表上におけるクラス夕名の表示の仕方を変えることを特徴とする請求項 1 6から 2 0のいずれか 1項に記載の情報分類方法。
2 2 . クラスタリング対象となる複数の文書が、 ユーザの与えたキーワード によって検索された文書である場合、 ユーザの与えたキーヮ一ドを含むクラスタ 名は前記クラスタリング結果概要一覧表上においてそのクラス夕名の表示の仕方 を他のクラスタ名とは異ならせることを特徴とする請求項 1 6から 2 1のいずれ か 1項に記載の情報分類方法。
2 3 . 検索サービスで検索された複数の検索結果が入力され、 入力された複 数の検索結果に対してクラス夕リング処理を施し、 そのクラスタリング処理結果 を出力するクラス夕リングモジュールを含んでなることを特徴とする情報分類装
2 4 . 前記検索サービスで検索された検索結果を前記クラス夕リングモジュ —ルが処理可能な形式に変換する変換モジュールをさらに備えたことを特徴とす る請求項 2 3に記載の情報分類装置。
2 5 . 前記クラスタリングモジュールによって得られたクラスタリング結果 に対し、 検索されたそれそれの文書対応に付された検索要求との適合性を示すス コアを用いて、 前記クラスタリング処理によって得られたそれそれのクラスタの 順位を再構成し、 そのクラスタ順位が再構成されたクラスタリング結果を出力す るクラス夕順位設定モジュールと、
を有することを特徴とする請求項 2 3に記載の情報分類装置。
2 6 . 前記クラスタリングモジュールによって得られたクラスタリング結果 に対し、 クラスタリング結果の概要を表すクラスタリング結果概要一覧表を作成 する概要一覧表作成部と、
そのクラス夕リング結果概要一覧表を前記クラス夕リング結果とともに出力す る表示制御モジュールと、
を有することを特徴とする請求項 2 3に記載の情報分類装置。
2 7 . 検索サービスで検索されたユーザの検索要求に対する複数の検索結果 をクラスタリングモジュールがクラスタリング処理してそのクラス夕リング処理 結果を出力する情報分類プログラムを記録した記録媒体であって、
その情報分類プログラムは、 前記検索サービスからの検索結果を取得する手順 と、
取得した検索結果に対してクラス夕リング処理を施し、 そのクラスタリング処 理結果を出力する手順とを含んでなることを特徴とする情報分類処理プログラム を記録した記録媒体。
2 8 . 前記検索サービスで検索された検索結果を前記クラス夕リングモジュ —ルが処理可能な形式に変換する手順を行った後に、 前記クラス夕リング処理を 行うことを特徴とする請求項 2 7に記載の情報分類プログラムを記録した記録媒 体。
2 9 . 前記クラス夕リング処理によって得られたクラス夕リング処理結果に 対し、 検索されたそれそれの文書対応に付された検索要求との適合性を示すスコ ァを用いて、 前記クラスタリング処理によって得られたそれそれのクラスタの順 位を再構成し、 そのクラスタ順位が再構成されたクラスタリング結果を出力する 手順と、
を含んでなることを特徴とする請求項 2 7に記載の情報分類プログラムを記録 した記録媒体。
3 0 . 前記クラスタリング処理によって得られたクラスタリング処理結果に 対し、 クラスタリング結果の概要を表すクラスタリング結果概要一覧表を作成す る概要一覧表作成手順と、
そのクラスタリング結果概要一覧表を前記クラスタリング結果とともに出力す る手順と、
を含んでなることを特徴とする請求項 2 7に記載の情報分類プログラムを記録 した記録媒体。
PCT/JP2000/003623 1999-06-04 2000-06-02 Procede de triage d'informations, trieur d'informations, support enregistre sur lequel le programme de triage d'informations est enregistre WO2000075809A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
AU49540/00A AU4954000A (en) 1999-06-04 2000-06-02 Information sorting method, information sorter, recorded medium on which information sorting program is recorded
US09/762,127 US7062487B1 (en) 1999-06-04 2000-06-02 Information categorizing method and apparatus, and a program for implementing the method
EP00931688A EP1102181A4 (en) 1999-06-04 2000-06-02 INFORMATION SORTING PROCESS, INFORMATION SORTER, RECORDED MEDIUM ON WHICH THE INFORMATION SORTING PROGRAM IS RECORDED

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP11/158497 1999-06-04
JP15849799 1999-06-04
JP17172399 1999-06-17
JP11/171723 1999-06-17
JP11/193141 1999-07-07
JP19314199 1999-07-07

Publications (1)

Publication Number Publication Date
WO2000075809A1 true WO2000075809A1 (fr) 2000-12-14

Family

ID=27321358

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/003623 WO2000075809A1 (fr) 1999-06-04 2000-06-02 Procede de triage d'informations, trieur d'informations, support enregistre sur lequel le programme de triage d'informations est enregistre

Country Status (4)

Country Link
US (1) US7062487B1 (ja)
EP (1) EP1102181A4 (ja)
AU (1) AU4954000A (ja)
WO (1) WO2000075809A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030098A (ja) * 2001-07-13 2003-01-31 Toshiba Corp コンテンツ提供装置及びコンテンツ提供方法
JP2006508434A (ja) * 2002-11-15 2006-03-09 フォン・シュヴェーバー,エリック 情報サーベイのための方法及び装置
WO2007122878A1 (ja) * 2006-04-19 2007-11-01 Sony Computer Entertainment Inc. 情報検索システム、及び索引情報生成装置
JP2013101511A (ja) * 2011-11-08 2013-05-23 Fujitsu Ltd 化合物分類装置、化合物分類プログラムおよび化合物分類方法
CN108647529A (zh) * 2018-05-09 2018-10-12 上海海事大学 一种基于语义的多关键词排序搜索隐私保护系统及方法

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195573B2 (en) * 2001-04-12 2012-06-05 Catherine Lin-Hendel System and method for list shopping over a computer network
DE10221606A1 (de) * 2002-05-15 2003-12-04 Georg S Wengler Verfahren und Vorrichtung zur computergestützten Durchführung einer Literaturanalyse
US7024404B1 (en) * 2002-05-28 2006-04-04 The State University Rutgers Retrieval and display of data objects using a cross-group ranking metric
US7334195B2 (en) * 2003-10-14 2008-02-19 Microsoft Corporation System and process for presenting search results in a histogram/cluster format
US7814085B1 (en) * 2004-02-26 2010-10-12 Google Inc. System and method for determining a composite score for categorized search results
US9760629B1 (en) 2004-12-29 2017-09-12 Google Inc. Systems and methods for implementing a news round table
US7680773B1 (en) * 2005-03-31 2010-03-16 Google Inc. System for automatically managing duplicate documents when crawling dynamic documents
JP2007328714A (ja) * 2006-06-09 2007-12-20 Hitachi Ltd 文書検索装置及び文書検索プログラム
US20080021897A1 (en) * 2006-07-19 2008-01-24 International Business Machines Corporation Techniques for detection of multi-dimensional clusters in arbitrary subspaces of high-dimensional data
EP2062171A4 (en) 2006-09-14 2010-10-06 Veveo Inc METHOD AND SYSTEMS FOR THE DYNAMIC REORGANIZATION OF SEARCH RESULTS IN HIERARCHICALLY ORGANIZED CLAUSE CLUSTERS
US7966225B2 (en) * 2007-03-30 2011-06-21 Amazon Technologies, Inc. Method, system, and medium for cluster-based categorization and presentation of item recommendations
US8095521B2 (en) * 2007-03-30 2012-01-10 Amazon Technologies, Inc. Recommendation system with cluster-based filtering of recommendations
US8019766B2 (en) * 2007-03-30 2011-09-13 Amazon Technologies, Inc. Processes for calculating item distances and performing item clustering
US7752201B2 (en) * 2007-05-10 2010-07-06 Microsoft Corporation Recommendation of related electronic assets based on user search behavior
US8037042B2 (en) * 2007-05-10 2011-10-11 Microsoft Corporation Automated analysis of user search behavior
US8019760B2 (en) * 2007-07-09 2011-09-13 Vivisimo, Inc. Clustering system and method
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
US8874565B1 (en) 2007-12-31 2014-10-28 Google Inc. Detection of proxy pad sites
US7970760B2 (en) * 2008-03-11 2011-06-28 Yahoo! Inc. System and method for automatic detection of needy queries
CN102124439B (zh) * 2008-06-13 2015-05-20 电子湾有限公司 用于集群化的方法和系统
US20100121790A1 (en) * 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for categorizing web content
US20100121842A1 (en) * 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for presenting categorized search results
US8543381B2 (en) 2010-01-25 2013-09-24 Holovisions LLC Morphing text by splicing end-compatible segments
US9679316B2 (en) * 2011-06-06 2017-06-13 Paypal, Inc. Selecting diverse product titles to display on a website
JP5967577B2 (ja) * 2012-10-18 2016-08-10 パナソニックIpマネジメント株式会社 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路
US9251292B2 (en) 2013-03-11 2016-02-02 Wal-Mart Stores, Inc. Search result ranking using query clustering
US11580186B2 (en) * 2016-06-14 2023-02-14 Google Llc Reducing latency of digital content delivery over a network
CN110169039B (zh) * 2017-06-13 2022-05-03 谷歌有限责任公司 在低延迟环境中传输高延迟数字分量
US10747800B2 (en) 2017-06-29 2020-08-18 Microsoft Technology Licensing, Llc Clustering search results in an enterprise search system
US10826862B1 (en) 2018-02-27 2020-11-03 Amazon Technologies, Inc. Generation and transmission of hierarchical notifications to networked devices

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319905A (ja) * 1994-05-25 1995-12-08 Fujitsu Ltd 情報検索装置
JPH1074206A (ja) * 1996-08-30 1998-03-17 Matsushita Electric Ind Co Ltd 情報提供システム
JPH11149479A (ja) * 1997-11-17 1999-06-02 Nec Corp ハイパーメディアシステムにおける検索情報表示方法と検索情報表示装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995012173A2 (en) * 1993-10-28 1995-05-04 Teltech Resource Network Corporation Database search summary with user determined characteristics
US5787420A (en) * 1995-12-14 1998-07-28 Xerox Corporation Method of ordering document clusters without requiring knowledge of user interests
US5787422A (en) * 1996-01-11 1998-07-28 Xerox Corporation Method and apparatus for information accesss employing overlapping clusters
US5864855A (en) * 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
US5926812A (en) * 1996-06-20 1999-07-20 Mantra Technologies, Inc. Document extraction and comparison method with applications to automatic personalized database searching
US5864845A (en) * 1996-06-28 1999-01-26 Siemens Corporate Research, Inc. Facilitating world wide web searches utilizing a multiple search engine query clustering fusion strategy
EP0822502A1 (en) * 1996-07-31 1998-02-04 BRITISH TELECOMMUNICATIONS public limited company Data access system
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
JP2940501B2 (ja) * 1996-12-25 1999-08-25 日本電気株式会社 ドキュメント分類装置及び方法
US6167397A (en) * 1997-09-23 2000-12-26 At&T Corporation Method of clustering electronic documents in response to a search query
US6415282B1 (en) * 1998-04-22 2002-07-02 Nec Usa, Inc. Method and apparatus for query refinement
US6385602B1 (en) * 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
US6519585B1 (en) * 1999-04-27 2003-02-11 Infospace, Inc. System and method for facilitating presentation of subject categorizations for use in an on-line search query engine

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319905A (ja) * 1994-05-25 1995-12-08 Fujitsu Ltd 情報検索装置
JPH1074206A (ja) * 1996-08-30 1998-03-17 Matsushita Electric Ind Co Ltd 情報提供システム
JPH11149479A (ja) * 1997-11-17 1999-06-02 Nec Corp ハイパーメディアシステムにおける検索情報表示方法と検索情報表示装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DANIEL DREILINGER, ADELE E. HOWE: "Experiences with selecting search engines using metasearch", ACM TRANSACTIONS INFORMATION SYSTEMS, vol. 15, no. 3, July 1997 (1997-07-01), pages 195 - 222, XP002930745 *
IWADERA ET AL.: "Tagengo bunsan joho kensaku architecture ni kansuru kentou", RESEARCH REPORT OF INFORMATION PROCESSING SOCIETY OF JAPAN (IPSJ), vol. 98, no. 82 (98-NL-127), 17 September 1998 (1998-09-17), (JAPAN), pages 63 - 70, XP002945880 *
KAWAMAE, N, AOKI T, YASUDA H: "STUDY ON THE STRUCTURE OF INDEX DATA FOR METASEARCH SYSTEM", WORKSHOP MATERIALS OF THE JINKO CHINO KISO KENKYUKAI AND THECHISHIKI BASE SYSTEM KENKYUKAI, XX, XX, 1 September 1999 (1999-09-01), XX, pages 37 - 42, XP002945882 *
OREN ZAMIR, OREN ETZIONI: "Grouper: A dynamic clustering interface to web search results", COMPUTER NETWORKS, vol. 31, no. 11-16, 17 May 1999 (1999-05-17), pages 1361 - 1374, XP002930744 *
See also references of EP1102181A4 *
SHIMAMURA ET AL.: "WWW document kensaku ni okeru domain mei clustering no riyou", RESEARCH REPORT OF INFORMATION PROCESSING SOCIETY OF JAPAN (IPSJ), vol. 98, no. 22 (98-HI-77), 13 March 1998 (1998-03-13), (JAPAN), pages 7 - 12, XP002945881 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030098A (ja) * 2001-07-13 2003-01-31 Toshiba Corp コンテンツ提供装置及びコンテンツ提供方法
JP2006508434A (ja) * 2002-11-15 2006-03-09 フォン・シュヴェーバー,エリック 情報サーベイのための方法及び装置
JP2011008807A (ja) * 2002-11-15 2011-01-13 Schweber Erick Von 情報サーベイのための方法及び装置
WO2007122878A1 (ja) * 2006-04-19 2007-11-01 Sony Computer Entertainment Inc. 情報検索システム、及び索引情報生成装置
JP2013101511A (ja) * 2011-11-08 2013-05-23 Fujitsu Ltd 化合物分類装置、化合物分類プログラムおよび化合物分類方法
CN108647529A (zh) * 2018-05-09 2018-10-12 上海海事大学 一种基于语义的多关键词排序搜索隐私保护系统及方法

Also Published As

Publication number Publication date
EP1102181A4 (en) 2004-12-08
US7062487B1 (en) 2006-06-13
AU4954000A (en) 2000-12-28
EP1102181A1 (en) 2001-05-23

Similar Documents

Publication Publication Date Title
WO2000075809A1 (fr) Procede de triage d'informations, trieur d'informations, support enregistre sur lequel le programme de triage d'informations est enregistre
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US9146999B2 (en) Search keyword improvement apparatus, server and method
JP4583003B2 (ja) 検索処理方法及びプログラム
KR101078864B1 (ko) 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
JP3577819B2 (ja) 情報探索装置及び情報探索方法
JP3849318B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2000075810A1 (fr) Procede de tri de documents, appareil de tri de documents et support enregistre sur lequel un programme de tri de documents est memorise
JP2020135891A (ja) 検索提案を提供する方法、装置、機器及び媒体
JP2009009461A (ja) キーワードの入力支援システム、コンテンツ検索システム、コンテンツ登録システム、コンテンツ検索・登録システム、およびこれらの方法、並びにプログラム
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP2004102818A (ja) 検索支援方法および検索支援装置
JP4640861B2 (ja) 検索処理方法及びプログラム
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JP2003208447A (ja) 文書検索装置、文書検索方法、文書検索プログラム及び文書検索プログラムを記録した媒体
JP2018073309A (ja) 文書検索方法及び装置
JPH1185794A (ja) 検索語入力装置および検索語入力プログラムを記録した記録媒体
JP2000067126A (ja) スケジュール情報処理装置および表示情報処理装置ならびにスケジュールおよび表示情報処理制御プログラムを記憶した媒体
JP3924894B2 (ja) 文書検索装置および文書検索方法ならびに記録媒体
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
JPH06348756A (ja) 索引作成装置及び索引利用装置
JP4248828B2 (ja) 文書処理装置、文書処理方法及び記録媒体
JP3264252B2 (ja) 文書処理装置及び処理方法並びに制御プログラムを記録した記録媒体

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY CA CH CN CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

ENP Entry into the national phase

Ref country code: JP

Ref document number: 2001 502011

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 09762127

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2000931688

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2000931688

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWW Wipo information: withdrawn in national office

Ref document number: 2000931688

Country of ref document: EP