WO2015181962A1 - 検索方法及び装置並びに記憶媒体 - Google Patents

検索方法及び装置並びに記憶媒体 Download PDF

Info

Publication number
WO2015181962A1
WO2015181962A1 PCT/JP2014/064455 JP2014064455W WO2015181962A1 WO 2015181962 A1 WO2015181962 A1 WO 2015181962A1 JP 2014064455 W JP2014064455 W JP 2014064455W WO 2015181962 A1 WO2015181962 A1 WO 2015181962A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
correspondence history
search
correspondence
cluster
Prior art date
Application number
PCT/JP2014/064455
Other languages
English (en)
French (fr)
Inventor
千種 健太郎
土田 正士
幸生 中野
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US15/129,483 priority Critical patent/US10311111B2/en
Priority to PCT/JP2014/064455 priority patent/WO2015181962A1/ja
Priority to JP2016523067A priority patent/JP6216873B2/ja
Publication of WO2015181962A1 publication Critical patent/WO2015181962A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Definitions

  • the present invention relates to a search method, apparatus, and storage medium. For example, when creating an answer to a query from a customer at a call center or the like, a search that searches for a response history document having a content similar to that query from past response history documents It is suitable for application to an apparatus.
  • a document that records all interactions between a customer and a call center that accepts inquiries about products from customers (text that includes all inquiries / progress / final answers)
  • the analysis and utilization of this (hereinafter referred to as a correspondence history document) is attracting attention.
  • a call center as described above uses a past response history document when seeking an appropriate solution for a new inquiry.
  • a person in charge of problem solving such as a call center first searches for a keyword etc. using a search system etc. And search for past correspondence history documents including the keyword. Next, the details of past correspondence history documents that are considered to be similar are read from the search results. Then, a history search process of determining whether the read correspondence history document is useful for a new query is executed.
  • Patent Document 1 a keyword is mechanically extracted from the content of an exchange between a problem-solving person and a customer, and a search process by a problem-solving person is performed by searching a past correspondence history document including the keyword. It is omitted and aims to shorten the history search process itself.
  • the accuracy of the search result answer depends on the expression form of the content of the exchange between the problem solving person and the customer. That is, according to the technique disclosed in Patent Document 1, since a document including the extracted keyword is searched, even if the past history is deeply related to the query content, if the keyword does not match or is similar, the search is performed. As a result, no hit occurs, and as a result, the history search process is executed again.
  • the present invention has been made in consideration of the above points, and intends to propose a search method and apparatus, and a storage medium that can improve the accuracy of answers to search results.
  • a query statement representing the content of a new query from a customer and the content of the query are selected from a plurality of response history documents each including a query from the customer and an answer to the query.
  • a search method executed in a search device for searching for similar correspondence history documents wherein the search device classifies a plurality of correspondence history documents into a plurality of clusters according to contents, and A second step in which the search device extracts, as a representative document, the correspondence history document that represents the cluster for each cluster; and the search device searches for the correspondence history document that is related to the query statement.
  • the response history in which the content of the query is similar to the query text representing the content of the new query from the customer out of a plurality of response history documents each including a query from the customer and an answer to the query.
  • a correspondence history document classification unit that classifies a plurality of correspondence history documents into a plurality of clusters according to contents, and the correspondence history document that represents the cluster for each cluster is represented as a representative document
  • a document search unit that searches for the correspondence history document having a relation with the query statement and presents the representative document of the cluster to which the correspondence history document detected by the search belongs. And so on.
  • the response history in which the content of the query is similar to the query text representing the content of the new query from the customer out of a plurality of response history documents each including a query from the customer and an answer to the query.
  • a storage medium storing a program to be executed by a search device for searching for a document, wherein the search device classifies the plurality of correspondence history documents into a plurality of clusters according to contents, and the cluster
  • a second step of extracting the correspondence history document as a representative of the cluster as a representative document, and searching for the correspondence history document related to the query statement, the correspondence history document detected by the search is Storing a program for executing a process comprising a third step of presenting the representative document of the cluster to which the cluster belongs as a search result Was to so that.
  • a query representative expression in the query sentence is presented in order to present the representative document of the cluster to which the correspondence history document related to the query sentence belongs. It is possible to present a correspondence history document having a query content closely related to the query sentence.
  • reference numeral 1 denotes a retrieval device according to the present embodiment as a whole.
  • the search device 1 includes a CPU (Central Processing Unit) 2, a memory 3, a storage device 4, a network interface 5, an external storage medium drive 6, an input device 7, and a display device 8. Are connected to each other.
  • CPU Central Processing Unit
  • the CPU 2 is a processor that controls operation of the entire search device 1.
  • the memory 3 is composed of, for example, a volatile semiconductor memory, and is used to hold various programs including an operating system (OS) 10.
  • OS operating system
  • a document management unit 11, an inter-document relationship management unit 12, and a search execution unit 13, which will be described later, are also stored and held in the memory 3.
  • the memory 3 is also used as a work memory for the CPU 2. Therefore, the memory 3 is provided with a work area 14 that the CPU 2 uses when executing each process.
  • the storage device 4 is composed of, for example, a hard disk device or an SSD (Solid State Drive), and is used for storing programs and data for a long period of time.
  • the storage device 4 stores correspondence history document information 15 including all past correspondence history documents, inter-document related information 16 described later, and the like.
  • the “correspondence history document” in the present embodiment includes a query sentence indicating the contents of a query from a customer and an answer to the query.
  • a document text
  • Inquiries contact details from the customer to the call center operator
  • Data collection request contents of communication from the person in charge to the customer
  • Document contents of communication from customer to person in charge
  • Survey request (contents of contact from the person in charge to the product department)
  • Survey response (contents of contact from the product department to the person in charge) 6).
  • Final response contents of contact from customer to customer
  • the response history document may include confirmations, questions and / or requests from the person in charge of the inquiry, and responses from the customer to these.
  • the correspondence history document may include a plurality of inquiries and a plurality of responses in one correspondence history document. 2 to 4 show examples of the structure of such correspondence history documents.
  • the network interface 5 is composed of, for example, a NIC (Network Interface Card) or the like, and performs protocol control during communication with other communication devices via the network 17.
  • the external storage medium drive 6 is a drive for a portable storage medium 18 such as a disk medium such as a CD (Compact Disk) or a DVD (Digital Versatile Disk) or a semiconductor memory card such as an SD card. Under the control, data is read from and written to the loaded storage medium 18.
  • the input device 7 includes, for example, a keyboard and a mouse, and is used by a user to input various information and commands.
  • the display device 8 is composed of a liquid crystal display device, for example, and is used to display various information and various GUIs (Graphical User Interface).
  • the search device 1 holds all past correspondence history documents in the storage device 4 as correspondence history document information 15. Then, the search device 1 can store the correspondence history stored in the storage device 4 periodically (for example, one week or one month) or irregularly according to an instruction from the user input via the input device 7.
  • the correspondence history documents included in the document information 15 are compared with each other in character components included in the correspondence history documents (so-called concept search), and the degree of similarity between the correspondence history documents is calculated as a numerical value.
  • this numerical value is referred to as a similarity score.
  • the search device 1 creates a related structure between correspondence history documents in which the calculated similarity score is equal to or greater than a preset threshold (hereinafter referred to as the similarity score threshold).
  • the search device 1 creates a graph 20 as shown in FIG. 5, for example, as a related structure between correspondence history documents.
  • nodes 21 representing correspondence history documents having a similarity score equal to or higher than the similarity score threshold are connected by a line called an edge 22.
  • the search device 1 performs so-called clustering for classifying the graph 20 created in this way for each character string feature included in each correspondence history document, as shown in FIG. All correspondence history documents included in the document information 15 are classified into a plurality of clusters 23. Thereafter, the search device 1 extracts one correspondence history document from each correspondence history document belonging to the cluster 23 as a representative document.
  • the “representative document” in the present embodiment has a high calculated value representing the relationship with other correspondence history documents in the cluster (in this embodiment, This refers to the corresponding history document.
  • the correspondence history document becomes the representative document of the cluster.
  • the correspondence history document 24D including the responses described in the correspondence history documents 24A to 24C is the cluster history. It becomes a representative document.
  • search device 1 when a search instruction for an answer example for a query from a customer is given to the search device 1, a search is performed for a corresponding history document for a query whose content is similar to that query, and A corresponding history document search function for presenting a representative document or the like as a search result to the user is also installed.
  • the search device 1 is operated by the input device 7 by a user such as a call center operator or a problem-solving person, and inputs a query sentence indicating the content of the query from the customer and a search instruction for an example of an answer to the query. Then, a correspondence history document for a query having a content similar to the query sentence is searched by concept search.
  • the search device 1 When the search device 1 detects a correspondence history document for a query having the most similar content to the query sentence by this search, the search device 1 includes a link to a screen displaying the text of the representative document of the cluster to which the correspondence history document belongs, and the representative Link to each screen for displaying the text of the corresponding history document whose query content is similar to the document (for example, the corresponding history document corresponding to each node 21 connected to the node 21 of the representative document via the edge 22 in FIG. 5) Is displayed on the display device 8.
  • a response history document having a similar content to a query sentence such as “server backup does not end within a predetermined time” or a query sentence “backup does not end as scheduled” If any of the correspondence history documents 24A to 24D is detected, a link to a screen for displaying the text of the correspondence history document 24D, which is a representative document of the cluster to which the correspondence history documents 24A to 24D belong, and the correspondence history document A search result screen on which links to the respective screens for displaying the texts of the correspondence history documents 24A to 24C having similar query contents to 24D are displayed on the display device 8.
  • the memory 3 of the search device 1 stores a corresponding history document classification unit 19 and a search execution unit 13, and the storage device 4 stores inter-document related information 16.
  • the correspondence history document classification unit 19 is a program having a function of classifying correspondence history documents included in the correspondence history document information stored in the storage device 4, and includes a document management unit 11 and an inter-document relationship management unit 12. Is done.
  • the document management unit 11 is a module having a function of extracting a relationship between correspondence history documents included in correspondence history document information.
  • the document management unit 11 includes a correspondence history document management unit 30 and a correspondence history document related calculation unit 31.
  • the correspondence history document management unit 30 writes the correspondence history document data as correspondence history document information 15 in the storage device 4 or reads the correspondence history document data included in the correspondence history document information 15 into the work area 14 of the memory 3. Alternatively, it is a module for managing correspondence history documents such as deleting unnecessary correspondence history documents from the correspondence history document information 15.
  • the correspondence history document relation calculation unit 31 is a module that calculates the relation between correspondence history documents as the above-described similarity score.
  • the inter-document relation management unit 12 is a module having a function of classifying (clustering) correspondence history documents stored in the storage device 4.
  • the inter-document relationship management unit 12 includes a related structure creation unit 32 and a related structure analysis unit 33.
  • the related structure creation unit 32 creates the graph 20 described above with reference to FIG. 5 based on the similarity score between correspondence history documents calculated by the correspondence history document relation calculation unit 31 of the document management unit 11, and creates the created graph 20 Is stored in the storage device 4 as the inter-document related information 16.
  • the related structure analysis unit 33 is a module having a function of classifying the correspondence history document into a plurality of clusters based on the inter-document related information 16 stored in the storage device 4.
  • the search execution unit 13 searches the correspondence history document information 15 for a correspondence history document having a query content similar to the query sentence from the customer given by the user, and obtains the text of the representative document of the cluster to which the detected correspondence history document belongs. This is a program having a function of causing the display device 8 to display a search result screen including a link to a screen to be displayed.
  • the search execution unit 13 includes a search sentence reception / analysis unit 34 and a document search unit 35.
  • the document search unit 35 further includes a similar document search unit 36, a similar cluster detection unit 37, and a representative document extraction unit 38. It is prepared for.
  • the search sentence reception / analysis unit 34 is a module having a function of receiving a query sentence of a customer's inquiry input by the user via the input device 7.
  • the similar document search unit 36 is a module having a function of searching the correspondence history document information 15 for a correspondence history document similar to the query sentence accepted by the retrieval sentence reception / analysis unit 34.
  • the similar cluster detection unit 37 is a module having a function of specifying a cluster including the correspondence history document detected by the above-described search
  • the representative document extraction unit 38 is a related structure analysis unit of the inter-document relationship management unit 12. This module has a function of extracting a representative document of each cluster based on the analysis result of 33 or extracting a representative document of a cluster specified by the similar cluster detection unit 37.
  • the inter-document relation information 16 is created by the relation structure creation section 32 of the inter-document relation management section 12, and the relation structure (graph structure) of the correspondence history document stored in the storage device 4 and the inter-document relation management section 12. This information is used to hold the result of clustering executed by the related structure analysis unit 33.
  • the inter-document related information 16 has a table structure including an edge ID column 16A, a start node ID column 16B, an end node ID column 16C, and a cluster number column 16D, as shown in FIG.
  • the identifier (edge ID) assigned to each edge 22 of the graph 20 described above with reference to FIG. 5 is stored in the edge ID column 16A.
  • the start node ID column 16B stores an identifier (hereinafter referred to as a node ID) assigned to the node 21 connected to the start point of the corresponding edge 22, and the end node ID column 16C includes a corresponding item.
  • the node ID assigned to the node 21 connected to the end point side of the edge 22 to be stored is stored.
  • an undirected graph is used as the relation structure between correspondence history documents, and there is no concept of the start point and end point of the edge 22, so the corresponding edge 22
  • the node ID of any one of the two nodes 21 connected to is stored in the start node ID column 16B, and the node ID of the other node 21 is only stored in the end node ID column 16C. Which of the start point and the end point of the edge 22 is connected to the node 21 has no particular meaning.
  • the cluster number column 16D stores the identification number (cluster number) of the cluster to which the correspondence history document associated with the node 21 connected to the end point side of the corresponding edge 22 belongs.
  • the information in the edge ID column 16A, the start node ID column 16B and the end node ID column 16C among the information of each record (row) of the inter-document related information 16 is the correspondence history document of the document management unit 11.
  • the information is registered by the relation calculation unit 31, and the information in the cluster number column 16D is registered by the relation structure analysis unit 33 of the inter-document relation management unit 12.
  • FIG. 9 shows correspondence history document relationship creation executed by the correspondence history document classification unit 19 and the search execution unit 13 in relation to the correspondence history document relationship creation function described above. A specific processing procedure of the processing is shown. This association processing between correspondence history documents is executed periodically or irregularly upon receiving a process execution instruction from the user.
  • the correspondence history document management unit 30 of the document management unit 11 stores one correspondence history document included in the correspondence history document information 15 stored in the storage device 4 in the work area of the memory 3. 14 and notifies the corresponding history document related calculation unit 31 to that effect (SP1).
  • the correspondence history document relation calculation unit 31 When receiving the notification from the correspondence history document management unit 30, the correspondence history document relation calculation unit 31 reads the correspondence history document read into the work area 14 (hereinafter referred to as a target correspondence history document) and other than this. Character component comparison (concept search) with all correspondence history documents is executed, and the similarity score is calculated (SP2). As a result, a similarity score list 40 as shown in FIG. 10 is created on the work area 14 of the memory 3 at the stage where the processing of step SP2 is completed.
  • the correspondence history document relation calculation unit 31 relates to all correspondence history documents whose similarity score with the target correspondence history document calculated in step SP2 is equal to or higher than a similarity score threshold (for example, 70), with the target correspondence history document. Are registered in the inter-document related information 16 (FIG. 8), respectively (SP3).
  • a similarity score threshold for example, 70
  • the correspondence history document relation calculation unit 31 stores the identifier (node ID) of the node 21 corresponding to the target correspondence history document in the start node ID column 16B (FIG. 8) of the inter-document relation information 16, and the target The node ID of the node 21 corresponding to the correspondence history document whose correspondence score is equal to or higher than the similarity score threshold is stored in the end node ID column 16C (FIG. 8) of the inter-document related information 16 and these target correspondence history documents. And the edge IDs assigned to the edges 22 connecting the nodes 21 respectively associated with the correspondence history documents are stored in the edge ID column 16A of the record of the inter-document relation information 16, and these correspondence history documents are stored. Is registered in the inter-document related information 16.
  • the correspondence history document relation calculating unit 31 determines whether or not the processing of steps SP1 to SP3 has been executed with all the correspondence history documents included in the correspondence history document information 15 as target correspondence history documents (SP4).
  • step SP1 the correspondence history document relation calculation unit 31 notifies the correspondence history document management unit 30 to that effect, and then the correspondence history document management unit 30 performs the work in the memory 3 in step SP1.
  • the processing from step SP1 to step SP4 is repeated while sequentially switching the correspondence history document to be read into the area 14 to another correspondence history document that has not been processed.
  • step SP4 Eventually, when all processing history documents included in the correspondence history document information 15 are processed as target correspondence history documents and the processing of steps SP1 to SP3 is completed and a positive result is obtained in step SP4, that fact is related to the inter-document relationship. This is notified to the related structure creation unit 32 of the management unit 12.
  • the related structure creation unit 32 that has received this notification creates the graph 20 described above with reference to FIG. 5 as the related structure between the correspondence history documents based on the inter-document relation information 16 stored in the storage device 4. This is notified to the related structure analysis unit 33 (SP5).
  • the related structure analysis unit 33 that has received this notification refers to the graph 20 created in step SP5 to each corresponding history document corresponding to each of the two nodes 21 connected via the respective edges 22.
  • the corresponding correspondence history document is classified into a plurality of clusters by performing character string feature amount analysis (so-called clustering).
  • clustering character string feature amount analysis
  • the related structure analysis unit 33 associates the cluster number field 16D (FIG. 8) of each record of the inter-document related information 16 with the node 21 connected to the end point side of the corresponding edge 22.
  • the cluster number of the cluster to which the correspondence history document is distributed is stored, and thereafter, the fact is notified to the representative document extraction unit 38 of the search execution unit 13 (SP6).
  • the representative document extracting unit 38 When the representative document extracting unit 38 receives the notification from the related structure analyzing unit 33, the representative document extracting unit 38 extracts the representative document of each cluster created in step SP6 (SP7).
  • the representative document extraction unit 38 corresponds to the node 21 having the largest number of connected edges 22 in the cluster (the node having the highest degree centrality in the centrality analysis) for each cluster.
  • the correspondence history document is extracted as a representative document of the cluster.
  • FIG. 11 shows a specific processing procedure of the correspondence history document search process executed by the search execution unit 13 in relation to the above-described correspondence history document search function.
  • This correspondence history document search process is executed in response to a search instruction from the user.
  • the search sentence reception / analysis unit 34 (FIG. 1) of the search execution unit 13 receives a search sentence input screen display request from the user via the input device 7, and the search sentence as shown in FIG.
  • the input screen 50 is displayed on the display device 8 (SP10).
  • the search text input screen 50 is a screen for a user to input a query text from a customer as a search text, and includes a query text input field 51 and a search button 52.
  • the user inputs a query text from the customer in the query text input field 51 using the input device 7, and then clicks the search button 52, thereby converting the query text into the search text.
  • the search apparatus 1 can be instructed to execute the search.
  • the search text reception / analysis unit 34 captures the query text as a search text, and retrieves the retrieved search text. Data is stored in the work area 14 of the memory 3 (SP11). Then, the search sentence reception / analysis unit 34 notifies the similar document search unit 36 of the document search unit 35 to that effect.
  • the similar document search unit 36 When the similar document search unit 36 receives the notification from the search statement reception / analysis unit 34, the similar document search unit 36 selects a corresponding history document including a query statement whose content is similar to the search statement whose data is stored in the work area 14 of the memory 3. The search is performed by concept search, and the search result is notified to the similar cluster detection unit 37 (FIG. 1) (SP12).
  • the similar cluster detection unit 37 acquires the cluster ID of the cluster to which the correspondence history document detected in step SP12 belongs from the inter-document relation information 16 (FIG. 1) ( SP13) The acquired cluster ID is notified to the representative document extraction unit 38 (SP14).
  • the representative document extracting unit 38 receives the cluster ID of the representative documents of each cluster extracted in step SP7 of the correspondence history document relation creating process described above with reference to FIG.
  • the representative document of the cluster to which is assigned is acquired.
  • the representative document extraction unit 38 includes a link to a screen that displays the acquired representative document and a link to each screen that displays several corresponding history documents that have similar inquiry contents to the representative document.
  • the search result screen is displayed on the display device 8 (SP14).
  • the correspondence history documents are classified into a plurality of clusters according to the contents, and each cluster has another
  • the correspondence history document having the largest number of relations with the correspondence history document is extracted as a representative document, and when searching for the correspondence history document similar to the query sentence, the correspondence history document having a relation with the query sentence is searched and detected by the search.
  • the representative document of the cluster to which the corresponding history record document belongs is presented to the user as a search result.
  • the present search device 1 it is possible to present a correspondence history document of a query content that is closely related to the query statement without depending on the expression form of the query content in the query statement, and thus the response of the search result Accuracy can be improved. Therefore, by using the search device 1, an effective answer can be presented in a short time with respect to the inquiry from the customer.
  • reference numeral 60 denotes a search apparatus according to the second embodiment as a whole.
  • This search device 60 uses the correspondence history documents associated with the two nodes 21 connected to each edge 22 of the graph 20 (FIG. 5) created in the correspondence history document relation creation processing. Weights corresponding to the strengths of association are set, and the same configuration as that of the search device 1 according to the first embodiment is used except that the representative documents of each category of the corresponding history document are extracted using the weights. Yes.
  • the inter-document related information 61 includes an edge ID column 61A, a start node ID column 61B, an end node ID column 61C, and a cluster number column 61D.
  • a weight column 61E is provided in the edge ID column 61A, the start point node ID column 61B, the end point node ID column 61C, and the cluster number column 61D.
  • the edge ID column 16A and the start point node ID column 16B of the inter-document related information 16 according to the first embodiment are provided.
  • the same information as the information stored in the end node ID column 16C and the cluster number column 16D is stored, respectively, while the weight assigned to the corresponding edge 22 (FIG. 5) is stored in the weight column 61E.
  • the weight set for the edge 22 is set to 1/10 of the similarity score between the correspondence history documents respectively associated with the two nodes 21 to which the edge 22 is connected.
  • the weight of each edge can be set by other methods. For example, when creating a response to an inquiry from a customer, when referring to a plurality of correspondence history documents other than the representative document presented by the search device 60, in what order the correspondence history documents were referred to The history search process of the user is stored, and the weight of each edge 22 is set so as to increase the weight of the edge 22 between corresponding history documents that are frequently followed (that is, often referred to together). May be. In this case, the number of times the correspondence history documents are referred to together is counted, and the count value is set as a weight as it is.
  • FIG. 14 shows a specific processing procedure of correspondence history document relation creation processing according to the present embodiment, which is executed using the document relation information 61 having the above-described configuration.
  • the correspondence history document relation creation processing is started periodically or in response to a processing execution instruction from the user, similarly to the correspondence history document relationship creation processing (FIG. 9) according to the first embodiment.
  • step SP20 to step SP22 the processing from step SP20 to step SP22 is performed in the same manner as steps SP1 to SP3 of the correspondence history document relation creation processing according to the first embodiment.
  • step SP24 to step SP26 is processed in the same manner as steps SP4 to SP6 of the correspondence history document relation creation processing of the first embodiment.
  • the representative document extraction unit 64 of the document search unit 63 of the search execution unit 62 extracts the document that becomes the center of each cluster created in step SP26 as a representative document (SP27).
  • the representative document extraction unit 64 selects, for each cluster, the corresponding history document corresponding to the node 21 having the largest weight value set for each connected edge 22 in the cluster. Extract as a cluster representative document.
  • the search device 60 for each edge 22 of the graph 20, the strength of the association between the correspondence history documents respectively associated with the two nodes 21 to which the edge 22 is connected. Set the corresponding weight. Therefore, according to the search device 60, the relationship between the correspondence history documents can be expressed more precisely, and thus the accuracy of the search result is further improved as compared with the search device 1 of the first embodiment. Can be made.
  • each correspondence history document is assigned a weight corresponding to the number of times the correspondence history document is referenced, and the degree centrality of each correspondence history document calculated by centrality analysis is assigned to each correspondence history document.
  • a representative document is extracted based on the degree centrality of each corresponding history document after the correction. In this way, a representative document that matches the actual situation can be extracted.
  • FIG. 15 in which parts corresponding to those in FIG. 1 are assigned the same reference numerals shows the configuration of the search device 70 according to this embodiment.
  • the search device 70 according to the present embodiment includes reference history information 72 stored in the storage device 4 in addition to the corresponding history document information 15 and the inter-document related information 16, and a search execution unit 73 stored in the memory 3. Except that the reference history registration unit 75 is provided in the document search unit 74 and the function of the representative document extraction unit 76 of the document search unit 74 is different from that of the search device 1 of the first embodiment. It is constituted similarly.
  • FIG. 16 shows a configuration example of the reference history information 72.
  • the reference history information 72 is information used for managing the reference count from the user for each corresponding history document, and has a table structure including a document ID column 72A and a reference count column 72B.
  • the document ID column 72A stores the identifiers of the corresponding history documents (hereinafter referred to as document IDs), and the reference count column 72B stores the reference counts of the corresponding history records.
  • the reference count is incremented by one by the reference history registration unit 75 of the document search unit 74 every time the corresponding corresponding history document is referred to.
  • FIG. 17 shows the processing procedure of the correspondence history document relation creation processing executed by the search device 70 of the present embodiment.
  • steps SP30 to SP35 are processed in the same manner as steps SP1 to SP6 of the correspondence history document relationship creation processing of the first embodiment described above with reference to FIG.
  • the representative document extraction unit 76 calculates the degree centrality of each corresponding history document for each cluster created in step SP35 (SP36). After that, the representative document extraction unit 76 normalizes the degree centrality of each correspondence history document calculated in step SP36 for each cluster (divides by the total number of nodes), and then each normalized correspondence history document. The degree centrality is corrected based on the reference history information 72, and the representative documents of the cluster are extracted based on the correction result (SP37).
  • the representative document extracting unit 76 C indicates the normalized degree centrality of the correspondence history document calculated in step SP36, R indicates the number of times of reference of the correspondence history document obtained from the reference history information 72, and the correspondence history document.
  • TR be the total value of the reference counts of all correspondence history documents to which Thus, the normalized degree centrality correction value C ′ of each correspondence history document is calculated, and the correspondence history document having the largest degree centrality correction value C ′ normalized in the cluster is used as the representative document of the cluster. Extract.
  • the normalized degree centrality of each correspondence history document calculated in step SP36 is a value as shown in FIG. 18, and the total number of reference times of the cluster to which these correspondence history documents belong is 100 times. If there is, the normalized degree centrality of these correspondence history documents is corrected in step SP37 as shown in FIG. Accordingly, in the stage before correction (FIG. 18), the normalized degree centrality of the correspondence history document with the document ID “20140231_0232” was the largest, but “20131005_0002” in the stage after correction (FIG. 19). Since the normalized degree centrality of the correspondence history document with the document ID is the largest, in step SP37, the correspondence history document with the document ID of “20131005_0002” is extracted as the representative document of this cluster.
  • FIG. 20 shows a processing procedure of correspondence history document search processing executed by the search device 70 of the present embodiment.
  • steps SP40 to SP44 are processed in the same manner as steps SP10 to SP14 of the correspondence history document search process of the first embodiment described above with reference to FIG.
  • each link to a screen for displaying a number of correspondence history documents (including representative documents) similar in content to the query sentence input to the search sentence input screen 50 (FIG. 12) is included.
  • a search result screen is displayed on the display device 8 (FIG. 15).
  • the reference history registration unit 75 updates the reference history information 72 so as to increase the reference count of the corresponding history document by 1 (SP45).
  • each correspondence history document is set with a weight corresponding to the number of references to the correspondence history document, and the degree centrality of each correspondence history document calculated by centrality analysis is set. Is corrected based on the weight of the correspondence history document, and a representative document is extracted based on the degree centrality of each correspondence history document after the correction. Therefore, according to the search device 70, it is possible to extract a representative document that matches the actual situation, so that the accuracy of the search result can be further improved as compared with the search device 1 of the first embodiment. Can do.
  • the search target of the concept search (target to compare the search sentence and the character component) is selected. All correspondence history documents. However, when all the correspondence history documents are set as search targets for the concept search in this way, there is a possibility that the processing time may be prolonged depending on the number of correspondence history documents.
  • FIG. 21 in which parts corresponding to those in FIG. 1 are assigned the same reference numerals, shows the configuration of the search device 80 according to this embodiment.
  • This search device 80 is the same as that of the first embodiment except that the document search unit 82 of the search execution unit 81 stored in the memory 3 is composed only of the similar document search unit 83 and the representative document extraction unit 38.
  • the configuration is the same as that of the search device 1.
  • FIG. 22 shows a specific processing procedure of the correspondence history document search processing according to this embodiment. This correspondence history document search process is executed in response to a search instruction from the user.
  • step SP50 and step SP51 are processed in the same manner as step SP10 and step SP11 of the correspondence history document search process (FIG. 11) of the first embodiment.
  • the similar document search unit 83 searches for a representative document similar to a search sentence whose data is stored in the work area 14 of the memory 3 by a concept search (SP52).
  • a concept search method at this time for example, in addition to a search method with a condition such as a WHERE clause of SQL (Structured Query Language), a set of documents in which only representative documents are gathered in advance is created. It is possible to apply a method of searching only for a set of.
  • the similar document search unit 83 displays a link to a screen that displays the representative document detected by the search and each of the screens that display several other corresponding history documents that are similar to the representative document in the inquiry content.
  • the search result screen on which the link is posted is displayed on the display device 8 (SP53). Thereafter, the correspondence history document search process ends.
  • the search device 80 executes a concept search for only representative documents in each category of the corresponding history document during the corresponding history document search process. Therefore, according to the search device 80, the number of correspondence history documents to be searched can be reduced, and the search speed can be increased as compared with the search device 1 of the first embodiment.
  • the graph created by the related structure analysis unit 33 of the inter-document relationship management unit 12 is an undirected graph.
  • the present invention is not limited to this, and the graph created by the related structure analysis unit 33 may create a directed graph 90 as shown in FIG. 23, for example.
  • the direction of the edge 92 is the direction from the node 91 corresponding to the correspondence history document of the search source to the node 91 corresponding to the correspondence history document detected by the search, and the degree centrality of each node 91 is self-dependent.
  • An in-order centrality that counts the number of edges 92 facing the node 91 may be applied.
  • each cluster is represented using a centrality other than the order centrality, such as the proximity centrality that represents a point close to any point in the graph and the median centrality that represents how important the role is in the graph.
  • a document may be extracted.
  • a correspondence history document having a high calculated value representing a relationship with another correspondence history document in the cluster may be extracted as a representative document.
  • the present invention is not limited to this, and
  • the information may be held directly in a graph database.
  • the relational database such classification can be performed at a higher speed when the corresponding history documents are classified into a plurality of clusters.
  • the correspondence history document relation creation processing is performed periodically or in response to a processing execution instruction from the user has been described.
  • the present invention is not limited to this.
  • the correspondence history document relation creation processing may be executed each time a correspondence history document is added. Various timings can be widely applied.
  • the present invention is not limited to this, and the weight of the edge 22 is set.
  • the setting method various other setting methods can be widely applied.
  • the present invention is not limited to this, and the correspondence history is not limited thereto.
  • the number of times that a document is actually copied and pasted and used as an answer to an inquiry may be counted as the number of references to the corresponding history document.
  • the correspondence history document other than the representative document is used more frequently than the representative document as an answer to a new inquiry
  • the number of times of reference to the correspondence history document increases, and the correspondence history document is Since it is extracted as a representative document, it is possible to provide the user with information (search results for a new inquiry from a customer) that is more realistic.
  • the search device 70 does not automatically count the number of times the correspondence history document has been used to answer inquiries from customers. For example, a link to a screen that displays a representative screen displayed on the search result screen, In addition, a check box is provided in the search result screen corresponding to the link to the screen displaying other correspondence history documents, and the user checks the check box corresponding to the correspondence history document actually used for the inquiry from the customer. The number of checked items may be counted for each corresponding history document.
  • the degree centrality of each normalized correspondence history document is corrected based on the reference history information 72, and the correction result
  • the degree centrality may be corrected based on the reference history information 72, and the representative document of the cluster may be extracted based on the correction result.
  • the present invention can be widely applied to a search device that executes document search.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 検索結果の回答の精度を向上させ得る検索方法及び装置並びに記憶媒体を提案する。 【解決手段】 それぞれ顧客からの問合せ及び当該問合せに対する回答を含む複数の対応履歴文書の中から、顧客からの新たな問合せの内容を表す問合せ文と問合せの内容が類似する対応履歴文書を検索する検索装置が、複数の対応履歴文書を内容に応じて複数のクラスタに分類し、クラスタごとに、当該クラスタの代表となる対応履歴文書を代表文書として抽出し、問合せ文と関連を有する対応履歴文書を検索し、当該検索により検出した対応履歴文書が属するクラスタの代表文書を検索結果として提示するようにした。

Description

検索方法及び装置並びに記憶媒体
 本発明は検索方法及び装置並びに記憶媒体に関し、例えば、コールセンタなどにおいて顧客からの問合せに対する回答を作成するにあたり、過去の対応履歴文書の中からその問合せに類似する内容の対応履歴文書を検索する検索装置に適用して好適なものである。
 顧客とのコンタクトを記録し、その内容を分析し、以後の顧客対応や製品開発などに活用する事例がある。このような事例自体は以前から存在するが、ビッグデータの活用例として、顧客と顧客から製品に対する問合せを受け付けるコールセンタとのやり取りをすべて記録した文書(問合せ/途中経過/最終回答を全て含むテキストであり、以下、これを対応履歴文書と呼ぶ)の分析及び活用が注目を浴びている。例えば、上記のようなコールセンタでは過去の対応履歴文書を、新たな問合せに対する適切な解決策を求める際に利用している。
特開2007-304793号公報
 ところで、コールセンタ等の問題解決担当者は顧客からの新規の問合せに対する回答を作成するにあたり、過去の対応履歴文書から回答の参考となる類似の事例を探すために、まず、検索システム等でキーワード等を入力し、そのキーワードを含む過去の対応履歴文書を検索する。次に検索の結果の中から類似すると思われる過去の対応履歴文書の詳細を読む。そして、読んだ対応履歴文書が新規の問合せに対して有用かを判断するという履歴探索プロセスを実行している。
 このうち検索プロセスではシステム等で過去の類似する対応履歴文書を検索し、この後の確認プロセス、選択プロセス及び判断プロセスでその検索結果から回答作成に有効な対応履歴文書があるかを見極める。見極めた結果、新規の問合せに対して参考になるような対応履歴文書が存在すればその対応履歴文書を参考に回答を作成するが、存在しない場合には、検索条件を変えるなどして、再度、上述の履歴探索プロセスを実行する。
 顧客からの問合せに対して短時間で有効な回答を作成するためには、この履歴探索プロセスの実行回数を減らすことが望まれる。そして、履歴探索プロセスの実行回数を減らすためには、検索結果の回答の精度を上げることが求められる。
 この場合において、かかる履歴探索プロセスの実行回数を減らすことを目的とした発明は従来から存在する。例えば、特許文献1では、問題解決担当者と顧客とのやり取りの内容からキーワードを機械的に抽出し、そのキーワードを含む過去の対応履歴文書を検索することで、問題解決担当者による検索プロセスを省略し、履歴探索プロセス自体を短くすることを目的としている。
 しかしながら、このような従来技術によると、検索結果の回答の精度が問題解決担当者と顧客とのやり取りの内容の表現形態に依存することになる。すなわち、特許文献1に開示された技術によれば、抽出されたキーワードを含む文書を検索するため、問合せ内容に関連が深い過去履歴であっても、キーワードが一致又は類似していなければ検索の結果としてヒットせず、その結果、再度履歴探索プロセスを実行することになる。
 本発明は以上の点を考慮してなされたもので、検索結果の回答の精度を向上させ得る検索方法及び装置並びに記憶媒体を提案しようとするものである。
 かかる課題を解決するため本発明においては、それぞれ顧客からの問合せ及び当該問合せに対する回答を含む複数の対応履歴文書の中から、顧客からの新たな問合せの内容を表す問合せ文と前記問合せの内容が類似する前記対応履歴文書を検索する検索装置において実行される検索方法であって、前記検索装置が、複数の前記対応履歴文書を内容に応じて複数のクラスタに分類する第1のステップと、前記検索装置が、前記クラスタごとに、当該クラスタの代表となる前記対応履歴文書を代表文書として抽出する第2のステップと、前記検索装置が、前記問合せ文と関連を有する前記対応履歴文書を検索し、当該検索により検出した前記対応履歴文書が属する前記クラスタの前記代表文書を検索結果として提示する第3のステップとを設けるようにした。
 また本発明においては、それぞれ顧客からの問合せ及び当該問合せに対する回答を含む複数の対応履歴文書の中から、顧客からの新たな問合せの内容を表す問合せ文と前記問合せの内容が類似する前記対応履歴文書を検索する検索装置において、複数の前記対応履歴文書を内容に応じて複数のクラスタに分類する対応履歴文書分類部と、前記クラスタごとに、当該クラスタの代表となる前記対応履歴文書を代表文書として抽出する代表文書抽出部と、前記問合せ文と関連を有する前記対応履歴文書を検索し、当該検索により検出した前記対応履歴文書が属する前記クラスタの前記代表文書を検索結果として提示する文書検索部とを設けるようにした。
 さらに本発明においては、それぞれ顧客からの問合せ及び当該問合せに対する回答を含む複数の対応履歴文書の中から、顧客からの新たな問合せの内容を表す問合せ文と前記問合せの内容が類似する前記対応履歴文書を検索する検索装置に実行させるプログラムが格納された記憶媒体であって、前記検索装置に、複数の前記対応履歴文書を内容に応じて複数のクラスタに分類する第1のステップと、前記クラスタごとに、当該クラスタの代表となる前記対応履歴文書を代表文書として抽出する第2のステップと、前記問合せ文と関連を有する前記対応履歴文書を検索し、当該検索により検出した前記対応履歴文書が属する前記クラスタの前記代表文書を検索結果として提示する第3のステップとを備える処理を実行させるプログラムを格納するようにした。
 本検索方法及び本検索装置と、本記憶媒体に格納されたプログラムとによれば、問合せ文と関連を有する対応履歴文書が属するクラスタの代表文書を提示するため、問合せ文における問合せ内容の表現形態等に依存することなく、問合せ文と関連が深い問合せ内容の対応履歴文書を提示することができる。
 本発明によれば、検索結果の回答の精度を向上させ得る検索方法及び装置並びに記憶媒体を実現できる。
第1及び第2の実施の形態による検索装置の全体構成を示すブロック図である。 対応履歴文書の構成例を示す図である。 対応履歴文書の構成例を示す図である。 対応履歴文書の構成例を示す図である。 グラフの構成例を示す概念図である。 クラスタの説明に供する概念図である。 代表文書の説明に供する概念図である。 文書間関連情報の構成例を示す概念図である。 対応履歴文書間関連作成処理の処理手順を示すフローチャートである。 類似度スコア一覧の構成例を示す概念図である。 対応履歴文書検索処理の処理手順を示すフローチャートである。 検索文入力画面の構成例を示す略線図である。 第2の実施の形態による文書間関連情報を示す概念図である。 第2の実施の形態による対応履歴文書間関連作成処理の処理手順を示すフローチャートである。 第3の実施の形態による検索装置の全体構成を示すブロック図である。 参照履歴情報の構成例を示す概念図である。 第3の実施の形態による対応履歴文書間関連作成処理の処理手順を示すフローチャートである。 第3の実施の形態による対応履歴文書間関連作成処理の説明に供する図表である。 第3の実施の形態による対応履歴文書間関連作成処理の説明に供する図表である。 第3の実施の形態による対応履歴文書検索処理の処理手順を示すフローチャートである。 第4の実施の形態による検索装置の全体構成を示すブロック図である。 第4の実施の形態による対応履歴文書検索処理の処理手順を示すフローチャートである。 他の実施の形態の説明に供する概念図である。
 以下図面について、本発明の一実施の形態を詳述する。
(1)第1の実施の形態
(1-1)本実施の形態による検索装置の構成
 図1において、1は全体として本実施の形態による検索装置を示す。この検索装置1は、CPU(Central Processing Unit)2、メモリ3、記憶装置4、ネットワークインタフェース5、外部記憶媒体ドライブ6、入力装置7及び表示装置8を備えて構成され、これらが内部バス9を介して相互に接続されている。
 CPU2は、検索装置1全体の動作制御を司るプロセッサである。またメモリ3は、例えば揮発性の半導体メモリから構成され、オペレーティングシステム(OS:Operating System)10を始めとする各種プログラムなどを保持するために利用される。後述の文書管理部11、文書間関連管理部12及び検索実行部13もこのメモリ3に格納されて保持される。またメモリ3は、CPU2のワークメモリとしても用いられる。このためメモリ3には、CPU2が各処理の実行時に利用するワークエリア14が設けられている。
 記憶装置4は、例えばハードディスク装置やSSD(Solid State Drive)などから構成され、プログラムやデータを長期間保存するために利用される。本実施の形態の場合、記憶装置4には、過去のすべての対応履歴文書を含む対応履歴文書情報15と、後述する文書間関連情報16となどが格納される。
 なお、本実施の形態における「対応履歴文書」とは、顧客からの問合せの内容を表す問合せ文とその問合せに対する回答とを含み、その一例として問合せ案件単位で下記の項目を記録した文書(テキスト)であり、以下の内容を含む。
1.問合せ(顧客からコールセンタのオペレータ等の担当者への連絡内容)
2.資料採取依頼(担当者から顧客への連絡内容)
3.資料(顧客から担当者への連絡内容)
4.調査依頼(担当者から製品部署への連絡内容)
5.調査回答(製品部署から担当者への連絡内容)
6.最終回答(担当者から顧客への連絡内容)
 また対応履歴文書は、問合せに対する担当者からの確認、質問及び又は依頼などや、これらに対する顧客からの回答を含む場合もある。さらに対応履歴文書は、ひとつの対応履歴文書に複数の問合せと複数の回答とを含む場合もある。図2~図4にこのような対応履歴文書の構成例を示す。
 ネットワークインタフェース5は、例えばNIC(Network Interface Card)などから構成され、ネットワーク17を介した他の通信機器との通信時におけるプロトコル制御を行う。また外部記憶媒体ドライブ6は、例えば、CD(Compact Disk)若しくはDVD(Digital Versatile Disk)などのディスク媒体、又は、SDカードなどの半導体メモリカードといった、可搬性の記憶媒体18に対するドライブであり、CPU2の制御の下に、装填された記憶媒体18に対してデータを読み書きする。
 入力装置7は、例えばキーボードやマウスなどから構成され、ユーザが各種情報やコマンドを入力するために利用される。また表示装置8は、例えば、液晶ディスプレイ装置などから構成され、各種情報や各種GUI(Graphical User Interface)を表示するために利用される。
(1-2)検索装置に搭載された各種機能
 次に、本検索装置1に搭載されたデータ検索に関する各種機能について説明する。本検索装置1には、過去の対応履歴文書をその内容に応じて複数のクラスタに分類すると共に、クラスタごとに、そのクラスタの代表となる対応履歴文書(以下、これを代表文書と呼ぶ)をそれぞれ抽出する対応履歴文書間関連作成機能が搭載されている。
 実際上、本検索装置1は、過去のすべての対応履歴文書を対応履歴文書情報15として記憶装置4に保持している。そして検索装置1は、定期的(例えば1週間又は1か月)に、又は、入力装置7を介して入力されたユーザからの指示に応じて非定期に、記憶装置4に格納された対応履歴文書情報15に含まれる対応履歴文書同士でその対応履歴文書に含まれる文字の成分比較(いわゆる概念検索)を行い、対応履歴文書同士の類似の度合を数値としてそれぞれ算出する。以下においては、この数値を類似度スコアと呼ぶものとする。
 また検索装置1は、算出した類似度スコアが予め設定された閾値(以下、これを類似度スコア閾値と呼ぶ)以上の対応履歴文書間の関連構造を作成する。本実施の形態の場合、検索装置1は、対応履歴文書間の関連構造として、例えば図5に示すようなグラフ20を作成する。このグラフ20は、類似度スコアが類似度スコア閾値以上の対応履歴文書を表すノード21同士をエッジ22と呼ばれる線で繋いだものである。
 さらに検索装置1は、このようにして作成したグラフ20に対して、各対応履歴文書に含まれる文字列の特徴ごとに分類する、いわゆるクラスタリングを行うことにより、図6に示すように、対応履歴文書情報15に含まれるすべての対応履歴文書を複数のクラスタ23に分類する。そして検索装置1は、この後、個々のクラスタ23について、そのクラスタ23に属する対応履歴文書の中から1つの対応履歴文書を代表文書して抽出する。
 ここで、本実施の形態における「代表文書」とは、そのクラスタ内で他の対応履歴文書との関連を表す計算値の高い(本実施の形態では、そのクラスタ内で他の対応履歴文書との関連数が最も多い)対応履歴文書のことを指す。例えば、クラスタに属する対応履歴文書のうち、そのクラスタ内のより多くの対応履歴文書に記述されている回答を含む対応履歴文書が存在する場合、その対応履歴文書がそのクラスタの代表文書となる。具体的には、あるクラスタに図7に示すような4つの対応履歴文書24A~24Dのみが属する場合、対応履歴文書24A~24Cにそれぞれ記述されている回答を含む対応履歴文書24Dがそのクラスタの代表文書となる。
 一方、検索装置1には、顧客からの問合せに対する回答例の検索指示が与えられた場合に、その問合せに内容が類似する問合せについての対応履歴文書を検索し、その対応履歴文書が属するクラスタの代表文書等をその検索結果としてユーザに提示する対応履歴文書検索機能も搭載されている。
 実際上、検索装置1は、コールセンタのオペレータや問題解決担当者などのユーザにより入力装置7が操作されて、顧客からの問合せ内容を表す問合せ文と、その問合せに対する回答例の検索指示とが入力されると、当該問合せ文と類似する内容の問合せについての対応履歴文書を概念検索により検索する。
 そして検索装置1は、この検索により問合せ文と最も内容が類似する問合せについての対応履歴文書を検出すると、その対応履歴文書が属するクラスタの代表文書のテキストを表示する画面へのリンクと、当該代表文書と問合せ内容が類似する対応履歴文書(例えば図5において代表文書のノード21とエッジ22を介して接続された各ノード21と対応する対応履歴文書)のテキストをそれぞれ表示する各画面へのリンクとが掲載された検索結果画面を表示装置8に表示する。
 例えば図7の例の場合、「サーバのバックアップが所定時間内に終わらない」といった問合せ文や、「バックアップが予定通り終了しない」といった問合せ文に対して、問合せ文と類似する内容の対応履歴文書として対応履歴文書24A~24Dのいずれかが検出された場合、この対応履歴文書24A~24Dが属するクラスタの代表文書である対応履歴文書24Dのテキストを表示する画面へのリンクと、当該対応履歴文書24Dと問合せ内容が類似する対応履歴文書24A~24Cのテキストをそれぞれ表示する各画面へのリンクとが表示された検索結果画面が表示装置8に表示されることになる。
 以上のような対応履歴文書間関連作成機能及び対応履歴文書検索機能(以下、適宜、この2つの機能をまとめてデータ検索機能と呼ぶ)を実現するための手段として、図1に示すように、検索装置1のメモリ3には対応履歴文書分類部19及び検索実行部13が格納され、記憶装置4には文書間関連情報16が格納されている。
 対応履歴文書分類部19は、記憶装置4に格納された対応履歴文書情報に含まれる対応履歴文書を分類する機能を有するプログラムであり、文書管理部11及び文書間関連管理部12を備えて構成される。
 文書管理部11は、対応履歴文書情報に含まれる対応履歴文書同士の関連を抽出する機能を有するモジュールである。この文書管理部11は、対応履歴文書管理部30及び対応履歴文書関連算出部31を備えて構成される。
 対応履歴文書管理部30は、対応履歴文書のデータを対応履歴文書情報15として記憶装置4に書き込んだり、当該対応履歴文書情報15に含まれる対応履歴文書のデータをメモリ3のワークエリア14に読み込み、又は、対応履歴文書情報15から不要な対応履歴文書を削除するなど、対応履歴文書の管理を行うモジュールである。また対応履歴文書関連算出部31は、対応履歴文書同士の関連を上述の類似度スコアとして算出するモジュールである。
 また文書間関連管理部12は、記憶装置4に格納された対応履歴文書を分類(クラスタリング)する機能を有するモジュールである。この文書間関連管理部12は、関連構造作成部32及び関連構造分析部33を備えて構成される。
 関連構造作成部32は、文書管理部11の対応履歴文書関連算出部31により算出された対応履歴文書間の類似度スコアに基づいて、図5について上述したグラフ20を作成し、作成したグラフ20を文書間関連情報16として記憶装置4に格納するモジュールである。また関連構造分析部33は、記憶装置4に格納された文書間関連情報16に基づいて、対応履歴文書を複数のクラスタに分類する機能を有するモジュールである。
 検索実行部13は、ユーザから与えられた顧客からの問合せ文に類似する問合せ内容の対応履歴文書を対応履歴文書情報15上で検索し、検出した対応履歴文書が属するクラスタの代表文書のテキストを表示する画面等へのリンクを含む検索結果画面を表示装置8に表示させる機能を有するプログラムである。この検索実行部13は、検索文受付・解析部34及び文書検索部35を備えて構成され、文書検索部35は、さらに類似文書検索部36、類似クラスタ検出部37及び代表文書抽出部38を備えて構成される。
 このうち検索文受付・解析部34は、入力装置7を介してユーザにより入力された顧客からの問合せの問合せ文を受け付ける機能を有するモジュールである。また類似文書検索部36は、検索文受付・解析部34が受け付けた問合せ文と類似する対応履歴文書を対応履歴文書情報15上で検索する機能を有するモジュールである。
 さらに類似クラスタ検出部37は、上述の検索により検出された対応履歴文書が含まれるクラスタを特定する機能を有するモジュールであり、代表文書抽出部38は、文書間関連管理部12の関連構造分析部33の分析結果に基づいて各クラスタの代表文書を抽出したり、類似クラスタ検出部37により特定されたクラスタの代表文書を抽出等する機能を有するモジュールである。
 なお以下においては、各種処理の処理主体を「モジュール」として説明するが、そのモジュールに基づいてCPU2(図1)がその処理を実行することは言うまでもない。
 一方、文書間関連情報16は、文書間関連管理部12の関連構造作成部32により作成され、記憶装置4に格納された対応履歴文書の関連構造(グラフ構造)と、文書間関連管理部12の関連構造分析部33により実行されたクラスタリングの結果とを保持するために利用される情報である。
 この文書間関連情報16は、図8に示すように、エッジID欄16A、始点ノードID欄16B、終点ノードID欄16C及びクラスタ番号欄16Dを備えるテーブル構造を有する。そしてエッジID欄16Aには、図5について上述したグラフ20の各エッジ22にそれぞれ付与された識別子(エッジID)が格納される。
 また始点ノードID欄16Bには、対応するエッジ22の始点側に接続されるノード21に付与された識別子(以下、これをノードIDと呼ぶ)が格納され、終点ノードID欄16Cには、対応するエッジ22の終点側に接続されるノード21に付与されたノードIDが格納される。
 ただし、本実施の形態においては、図5からも明らかなように、対応履歴文書間の関連構造として無向グラフを用いており、エッジ22の始点及び終点という概念がないため、対応するエッジ22に接続される2つのノード21のうちの任意の一方のノード21のノードIDが始点ノードID欄16Bに格納され、他方のノード21のノードIDが終点ノードID欄16Cに格納されるだけであり、ノード21がエッジ22の始点及び終点のいずれが接続されているかは特に意味をもたない。
 さらにクラスタ番号欄16Dには、対応するエッジ22の終点側に接続されるノード21と対応付けられた対応履歴文書が属するクラスタの識別番号(クラスタ番号)が格納される。
 なお、後述のように、文書間関連情報16の各レコード(行)の情報のうち、エッジID欄16A、始点ノードID欄16B及び終点ノードID欄16Cの情報は文書管理部11の対応履歴文書関連算出部31により登録され、クラスタ番号欄16Dの情報は文書間関連管理部12の関連構造分析部33により登録される。
(1-3)対応履歴文書間関連作成処理
 図9は、上述の対応履歴文書間関連作成機能に関連して対応履歴文書分類部19及び検索実行部13により実行される対応履歴文書間関連作成処理の具体的な処理手順を示す。この対応履歴文書間関連作成処理は、定期的に又はユーザからの処理実行指示を受けて非定期に実行される。
 対応履歴文書間関連作成処理では、まず、文書管理部11の対応履歴文書管理部30が、記憶装置4に格納された対応履歴文書情報15に含まれる1つの対応履歴文書をメモリ3のワークエリア14に読み込み、その旨を対応履歴文書関連算出部31に通知する(SP1)。
 対応履歴文書関連算出部31は、対応履歴文書管理部30からのかかる通知を受信すると、ワークエリア14に読み込まれた対応履歴文書(以下、これを対象対応履歴文書と呼ぶ)と、これ以外のすべての対応履歴文書との文字の成分比較(概念検索)をそれぞれ実行し、その類似度スコアをそれぞれ算出する(SP2)。この結果、このステップSP2の処理が完了した段階で、図10に示すような類似度スコア一覧40がメモリ3のワークエリア14上に作成される。
 次いで、対応履歴文書関連算出部31は、ステップSP2で算出した対象対応履歴文書との類似度スコアが類似度スコア閾値(例えば70)以上のすべての対応履歴文書について、対象対応履歴文書との関連を文書間関連情報16(図8)にそれぞれ登録する(SP3)。
 具体的に、対応履歴文書関連算出部31は、対象対応履歴文書に対応するノード21の識別子(ノードID)を文書間関連情報16の始点ノードID欄16B(図8)に格納すると共に、対象対応履歴文書と類似度スコアが類似度スコア閾値以上の対応履歴文書に対応するノード21のノードIDを文書間関連情報16の終点ノードID欄16C(図8)に格納し、これら対象対応履歴文書及び対応履歴文書にそれぞれ対応付けられたノード21間を接続するエッジ22に付与されるエッジIDを文書間関連情報16のそのレコードのエッジID欄16Aに格納するようにして、これらの対応履歴文書を文書間関連情報16に登録する。
 さらに対応履歴文書関連算出部31は、対応履歴文書情報15に含まれるすべての対応履歴文書を対象対応履歴文書としてステップSP1~ステップSP3の処理を実行し終えたか否かを判断する(SP4)。
 そしてこの判断で否定結果が得られた場合、その旨を対応履歴文書関連算出部31が対応履歴文書管理部30に通知し、この後、対応履歴文書管理部30がステップSP1でメモリ3のワークエリア14に読み込む対応履歴文書を未処理の他の対応履歴文書に順次切り替えながら、ステップSP1~ステップSP4の処理が繰り返される。
 やがて、対応履歴文書情報15に含まれるすべての対応履歴文書を対象対応履歴文書としてステップSP1~ステップSP3の処理を実行し終えることによりステップSP4で肯定結果が得られると、その旨が文書間関連管理部12の関連構造作成部32に通知される。そしてこの通知を受信した関連構造作成部32は、記憶装置4に格納されている文書間関連情報16に基づいて、対応履歴文書間の関連構造として、図5について上述したグラフ20を作成し、その旨を関連構造分析部33に通知する(SP5)。
 そして、この通知を受信した関連構造分析部33は、ステップSP5で作成されたグラフ20を参照して、各エッジ22をそれぞれ介して接続された2つのノード21にそれぞれ対応する各対応履歴文書に対して文字列の特徴量分析(いわゆるクラスタリング)を実行することにより該当する対応履歴文書を複数のクラスタに分類する。そして関連構造分析部33は、このクラスタリング結果に基づいて、文書間関連情報16の各レコードのクラスタ番号欄16D(図8)に、対応するエッジ22の終点側に接続されたノード21と対応付けられた対応履歴文書が振り分けられたクラスタのクラスタ番号を格納し、この後、その旨を検索実行部13の代表文書抽出部38に通知する(SP6)。
 代表文書抽出部38は、関連構造分析部33からのかかる通知を受信すると、ステップSP6で作成された各クラスタの代表文書をそれぞれ抽出する(SP7)。本実施の形態の場合、代表文書抽出部38は、クラスタごとに、接続されたエッジ22の数がそのクラスタ内で最も多いノード(中心性解析における次数中心性が最も高いノード)21と対応する対応履歴文書をそのクラスタの代表文書として抽出する。
 以上の処理により、クラスタごとの代表文書が抽出され、この後、この対応履歴文書間関連作成処理が終了する。
(1-4)対応履歴文書検索処理
 一方、図11は、上述の対応履歴文書検索機能に関連して検索実行部13により実行される対応履歴文書検索処理の具体的な処理手順を示す。この対応履歴文書検索処理は、ユーザからの検索指示を受けて実行される。
 実際上、検索実行部13の検索文受付・解析部34(図1)は、入力装置7を介したユーザからの検索文入力画面の表示要求が与えられると、図12に示すような検索文入力画面50を表示装置8に表示させる(SP10)。
 この検索文入力画面50は、ユーザが顧客からの問合せ文を検索文として入力するための画面であり、問合せ文入力フィールド51及び検索ボタン52を備えて構成される。そして検索文入力画面50では、ユーザが入力装置7を利用して問合せ文入力フィールド51に顧客からの問合せ文を入力し、その後、検索ボタン52をクリックすることにより、その問合せ文を検索文とした検索の実行を検索装置1に指示することができる。
 そして検索文受付・解析部34は、上述のようにして検索文入力画面50に問合せ文が入力されて検索ボタン52がクリックされると、その問合せ文を検索文として取り込み、取り込んだ検索文のデータをメモリ3のワークエリア14に格納する(SP11)。そして検索文受付・解析部34は、その旨を文書検索部35の類似文書検索部36に通知する。
 類似文書検索部36は、検索文受付・解析部34からのかかる通知を受信すると、メモリ3のワークエリア14にデータが格納されている検索文と内容が類似する問合せ文を含む対応履歴文書を概念検索で検索し、検索結果を類似クラスタ検出部37(図1)に通知する(SP12)。
 また類似クラスタ検出部37は、類似文書検索部36からのかかる通知を受信すると、ステップSP12において検出された対応履歴文書が属するクラスタのクラスタIDを文書間関連情報16(図1)から取得し(SP13)、取得したクラスタIDを代表文書抽出部38に通知する(SP14)。
 代表文書抽出部38は、類似クラスタ検出部37からかかるクラスタIDが与えられると、図9について上述した対応履歴文書間関連作成処理のステップSP7で抽出した各クラスタの代表文書のうちのそのクラスタIDが付与されたクラスタの代表文書を取得する。そして代表文書抽出部38は、取得した代表文書を表示する画面へのリンクと、当該代表文書と問合せ内容が類似する幾つかの対応履歴文書をそれぞれ表示する各画面へのリンクとが掲載された検索結果画面を表示装置8に表示させる(SP14)。
 そして、この後、この対応履歴文書検索処理が終了する。
(1-5)本実施の形態の効果
 以上のように本実施の形態の検索装置1では、対応履歴文書を内容に応じて複数のクラスタに分類し、クラスタごとに、そのクラスタ内で他の対応履歴文書との関連数が最も多い対応履歴文書を代表文書として抽出し、問合せ文に類似する対応履歴文書の検索時には、当該問合せ文と関連を有する対応履歴文書を検索し、当該検索により検出した対応履歴文書が属するクラスタの代表文書を検索結果としてユーザに提示する。
 従って、本検索装置1によれば、問合せ文における問合せ内容の表現形態等に依存することなく、問合せ文と関連が深い問合せ内容の対応履歴文書を提示することができ、かくして検索結果の回答の精度を向上することができる。よって、本検索装置1を利用することによって、顧客からの問合せに対して短時間で有効な回答を提示できるようになる。
(2)第2の実施の形態
 図1において、60は全体として第2の実施の形態による検索装置を示す。この検索装置60は、対応履歴文書間関連作成処理において作成されるグラフ20(図5)の各エッジ22に、そのエッジ22が接続する2つのノード21とそれぞれ対応付けられた対応履歴文書同士の関連の強さに応じた重みがそれぞれ設定され、この重みを用いて対応履歴文書の各カテゴリの代表文書を抽出する点を除いて第1の実施の形態による検索装置1と同様に構成されている。
 実際上、本実施の形態の検索装置60の場合、図13に示すように、文書間関連情報61には、エッジID欄61A、始点ノードID欄61B、終点ノードID欄61C及びクラスタ番号欄61Dに加えて、重み欄61Eが設けられている。そして、エッジID欄61A、始点ノードID欄61B、終点ノードID欄61C及びクラスタ番号欄61Dには、それぞれ第1の実施の形態の文書間関連情報16のエッジID欄16A、始点ノードID欄16B、終点ノードID欄16C及びクラスタ番号欄16Dに格納される情報とそれぞれ同じ情報が格納される一方、重み欄61Eには、対応するエッジ22(図5)に対して付与された重みが格納される。
 本実施の形態の場合、エッジ22に設定する重みは、そのエッジ22が接続する2つのノード21とそれぞれ対応付けられた対応履歴文書間の類似度スコアの1/10に設定されるものとする。ただしこれ以外の方法により各エッジの重みを設定することもできる。例えば、ユーザが顧客からの問合せに対する回答を作成する際、検索装置60が提示した代表文書以外の複数の対応履歴文書を参照したときに、どのような順番で対応履歴文書を参照していったかというユーザの履歴探索プロセスを記憶しておき、よく辿られる(つまり一緒に参照されることが多い)対応履歴文書間のエッジ22の重みを高くするように各エッジ22の重みを設定するようにしても良い。この場合には、対応履歴文書間で一緒に参照された回数をそれぞれカウントしておき、そのカウント値をそのまま重みとして設定する。
 図14は、上述のような構成を有する文書間関連情報61を用いて実行される本実施の形態による対応履歴文書間関連作成処理の具体的な処理手順を示す。この対応履歴文書間関連作成処理は、第1の実施の形態による対応履歴文書間関連作成処理(図9)と同様に、定期的に又はユーザからの処理実行指示を受けて開始される。
 そして本実施の形態の対応履歴文書間関連作成処理では、ステップSP20~ステップSP22の処理が第1の実施の形態の対応履歴文書間関連作成処理のステップSP1~ステップSP3と同様に処理される。
 続いて、対応履歴文書関連算出部31が、ステップSP22で文書間関連情報61に登録した各エッジ22について、そのエッジ22が接続する2つのノード21とそれぞれ対応付けられた対応履歴文書間の類似度スコアの値をSとして、次式
Figure JPOXMLDOC01-appb-M000001
により重みWをそれぞれ算出し、算出した各エッジ22の重みをそれぞれ文書間関連情報61の対応するレコードの重み欄61Eに格納する(SP23)。
 この後、本実施の形態の対応履歴文書間関連作成処理では、ステップSP24~ステップSP26の処理が第1の実施の形態の対応履歴文書間関連作成処理のステップSP4~ステップSP6と同様に処理される。
 そして、さらにこの後、検索実行部62の文書検索部63の代表文書抽出部64が、ステップSP26で作成した各クラスタの中心となる文書を代表文書としてそれぞれ抽出する(SP27)。本実施の形態の場合、代表文書抽出部64は、クラスタごとに、接続された各エッジ22に設定された重みの平均値がそのクラスタ内で最も大きくなるノード21に対応する対応履歴文書をそのクラスタの代表文書として抽出する。
 以上の処理により、クラスタごとの代表文書がエッジ22の重みを加味して抽出される。そして、この後、この対応履歴文書間関連作成処理が終了する。
 以上のように本実施の形態の検索装置60では、グラフ20の各エッジ22に対して、当該エッジ22が接続する2つのノード21とそれぞれ対応付けられた対応履歴文書同士の関連の強さに応じた重みを設定する。従って、本検索装置60によれば、対応履歴文書間の関連をより精密に表すことができ、かくして第1の実施の形態の検索装置1と比して、検索結果の精度をより一層と向上させることができる。
(3)第3の実施の形態
 第2の実施の形態では、文書間関連情報16に基づき作成されるグラフ20(図5)の各エッジ22(図5)に重みを設定することについて説明した。これに対して本実施の形態では、各対応履歴文書にその対応履歴文書の参照回数に応じた重みをそれぞれ設定し、中心性解析によって算出された各対応履歴文書の次数中心性をそれぞれその対応履歴文書の重みに基づいて補正した上で、その補正後の各対応履歴文書の次数中心性に基づいて代表文書を抽出する。このようにすることによって、実情に合致した代表文書を抽出することができる。
 図1との対応部分に同一符号を付した図15は、このような本実施の形態による検索装置70の構成を示す。本実施の形態の検索装置70は、記憶装置4に対応履歴文書情報15及び文書間関連情報16に加えて参照履歴情報72が格納されている点と、メモリ3に格納された検索実行部73の文書検索部74に参照履歴登録部75が設けられている点と、当該文書検索部74の代表文書抽出部76の機能が異なる点とを除いて第1の実施の形態の検索装置1と同様に構成されている。
 図16は、参照履歴情報72の構成例を示す。参照履歴情報72は、対応履歴文書ごとのユーザからの参照回数を管理するために利用される情報であり、文書ID欄72A及び参照回数欄72Bを備えるテーブル構造を有する。そして文書ID欄72Aには、各対応履歴文書の識別子(以下、これを文書IDと呼ぶ)がそれぞれ格納され、参照回数欄72Bには、対応する対応履歴文書の現在までの参照回数が格納される。この参照回数は、対応する対応履歴文書が参照されるごとに文書検索部74の参照履歴登録部75により1ずつカウントアップされる。
 一方、図17は、本実施の形態の検索装置70により実行される対応履歴文書間関連作成処理の処理手順を示す。この対応履歴文書間関連作成処理では、ステップSP30~ステップSP35が図9について上述した第1の実施の形態の対応履歴文書間関連作成処理のステップSP1~ステップSP6と同様に処理される。
 続いて、代表文書抽出部76が、ステップSP35で作成されたクラスタごとに、各対応履歴文書の次数中心性を算出する(SP36)。また、この後、代表文書抽出部76が、クラスタごとに、ステップSP36において算出した各対応履歴文書の次数中心性を正規化(全ノード数で除算)した後に、正規化した各対応履歴文書の次数中心性を参照履歴情報72に基づいて補正し、補正結果に基づいて、そのクラスタの代表文書をそれぞれ抽出する(SP37)。
 具体的に、代表文書抽出部76は、ステップSP36において算出した対応履歴文書の正規化した次数中心性をC、参照履歴情報72から得られるその対応履歴文書の参照回数をR、その対応履歴文書が属するすべての対応履歴文書の参照回数の合計値をTRとして、次式
Figure JPOXMLDOC01-appb-M000002
により、各対応履歴文書の正規化した次数中心性の補正値C´をそれぞれ算出し、クラスタ内で正規化した次数中心性の補正値C´が最も大きい対応履歴文書をそのクラスタの代表文書として抽出する。
 例えば、あるクラスタにおいて、ステップSP36において算出した各対応履歴文書の正規化した次数中心性が図18のような値であり、これらの対応履歴文書が属するクラスタの参照回数の合計値が100回であった場合、これら対応履歴文書の正規化した次数中心性はステップSP37においてそれぞれ図19のように補正される。従って、補正前の段階(図18)では「20140231_0232」という文書IDの対応履歴文書の正規化した次数中心性が最も大きかったにも関わらず、補正後の段階(図19)では「20131005_0002」という文書IDの対応履歴文書の正規化した次数中心性が最も大きくなったため、ステップSP37ではこの「20131005_0002」という文書IDの対応履歴文書がこのクラスタの代表文書として抽出されることになる。
 図20は、本実施の形態の検索装置70により実行される対応履歴文書検索処理の処理手順を示す。この対応履歴文書検索処理では、ステップSP40~ステップSP44が図11について上述した第1の実施の形態の対応履歴文書検索処理のステップSP10~ステップSP14と同様に処理される。この結果、上述のように検索文入力画面50(図12)に入力された問合せ文と内容が類似する幾つかの対応履歴文書(代表文書を含む)をそれぞれ表示する画面への各リンクを含む検索結果画面が表示装置8(図15)に表示される。
 続いて、検索結果画面上のユーザの操作を文書検索部74の参照履歴登録部75が監視し、当該検索結果画面においていずれかの対応履歴文書を表示する画面へのリンクがクリックされた場合に、その対応履歴文書の参照回数を1増加させるように参照履歴登録部75が参照履歴情報72を更新する(SP45)。
 そして、この後、この検索結果画面がクローズされると、この対応履歴文書検索処理が終了する。
 以上のように本実施の形態の検索装置70では、各対応履歴文書にその対応履歴文書の参照回数に応じた重みをそれぞれ設定し、中心性解析によって算出された各対応履歴文書の次数中心性をそれぞれその対応履歴文書の重みに基づいて補正した上で、その補正後の各対応履歴文書の次数中心性に基づいて代表文書を抽出する。従って、本検索装置70によれば、実情に合致した代表文書を抽出することができるため、第1の実施の形態の検索装置1と比して、検索結果の精度をより一層と向上させることができる。
(4)第4の実施の形態
 第1の実施の形態による検索装置1では、対応履歴文書検索処理(図11)において、概念検索の検索対象(検索文と文字の成分比較を行う対象)をすべての対応履歴文書としている。しかしながら、このようにすべての対応履歴文書を概念検索の検索対象とした場合、対応履歴文書の数に応じて処理時間が長時間化するおそれがある。
 そこで、本実施の形態においては、かかる対応履歴文書検索処理における概念検索の検索対象を対応履歴文書の各カテゴリの代表文書のみとする。このようにすることによって、検索対象の対応履歴文書数を低減させ、検索の高速化を図ることができる。
 図1との対応部分に同一符号を付して示す図21は、このような本実施の形態による検索装置80の構成を示す。この検索装置80は、メモリ3に格納された検索実行部81の文書検索部82が類似文書検索部83及び代表文書抽出部38のみから構成されている点を除いて第1の実施の形態の検索装置1と同様に構成されている。
 図22は、本実施の形態による対応履歴文書検索処理の具体的な処理手順を示す。この対応履歴文書検索処理は、ユーザからの検索指示を受けて実行される。
 そして本実施の形態の対応履歴文書検索処理では、ステップSP50及びステップSP51が第1の実施の形態の対応履歴文書検索処理(図11)のステップSP10及びステップSP11と同様に処理される。
 次いで、類似文書検索部83が、メモリ3のワークエリア14にデータが格納されている検索文と類似する代表文書を概念検索で検索する(SP52)。なお、この際の概念検索方法としては、例えばSQL(Structured Query Language)のWHERE句のように条件を付けて検索する方法のほか、予め代表文書のみをまとめた文書の集合を作成し、その文書の集合のみを対象に検索する方法を適用することができる。
 この後、類似文書検索部83が、かかる検索により検出した代表文書を表示する画面へのリンクと、当該代表文書と問合せ内容が類似する他の幾つかの対応履歴文書をそれぞれ表示する各画面へのリンクとが掲載された検索結果画面を表示装置8に表示させる(SP53)。そして、この後、この対応履歴文書検索処理が終了する。
 以上のように本実施の形態による検索装置80では、対応履歴文書検索処理時、対応履歴文書の各カテゴリの代表文書のみを対象として概念検索を実行する。従って、本検索装置80によれば、検索対象の対応履歴文書数を低減させることができ、第1の実施の形態の検索装置1と比して検索の高速化を図ることができる。
(5)他の実施の形態
 なお上述の第1~第4の実施の形態においては、文書間関連管理部12の関連構造分析部33が作成するグラフが無向グラフである場合について述べたが、本発明はこれに限らず、関連構造分析部33が作成するグラフが例えば図23に示すような有向グラフ90を作成するようにしても良い。この場合において、エッジ92の向きは、検索元の対応履歴文書に対応するノード91から検索により検出された対応履歴文書に対応するノード91への向きとし、各ノード91の次数中心性は、自ノード91を向いているエッジ92の数を数える入次数中心性を適用すれば良い。
 また上述の第1~第4の実施の形態においては、対応履歴文書の各クラスタの代表文書を抽出する手法として次数中心性を利用するようにした場合について述べたが、本発明はこれに限らず、例えばグラフのどの点にも近い点を表す近接中心性や、グラフにおいてどれだけ重要な役割を果たすかを表す媒介中心性など、次数中心性以外の中心性を利用して各クラスタの代表文書を抽出するようにしても良い。この場合、クラスタごとに、当該クラスタ内で他の対応履歴文書との関連を表す計算値の高い対応履歴文書を代表文書として抽出すれば良い。
 さらに上述の第1~第4の実施の形態においては、対応履歴文書の各クラスタの情報をいわゆるリレーショナルデータベースに格納するようにした場合について述べたが、本発明はこれに限らず、各クラスタの情報を例えばグラフデータベースに直接保持するようにしても良い。ただし、各クラスタの情報をリレーショナルデータベースに格納することによって、各対応履歴文書を複数のクラスタに分類する際、かかる分類をより高速に行うことができる。
 さらに上述の第1~第4の実施の形態においては、対応履歴文書間関連作成処理を定期的に又はユーザからの処理実行指示を受けて非定期に実施するようにした場合について述べたが、本発明はこれに限らず、例えば対応履歴文書が追加されるごとに対応履歴文書間関連作成処理を実行するようにしても良く、対応履歴文書間関連作成処理の実行のタイミングとしては、この他種々のタイミングを広く適用することができる。
 さらに上述の第1~第4の実施の形態においては、対応履歴文書分類部19及び検索実行部13,62,73,81をそれぞれ別のプログラムとして作成するようにした場合について述べたが、本発明はこれに限らず、これらを1つのプログラムとして構成するようにしても良い。
 さらに上述の第2の実施の形態においては、エッジ22に設定する重みを、類似度スコアの1/10とするようにした場合について述べたが、本発明はこれに限らず、エッジ22の重みの設定方法としては、この他種々の設定方法を広く適用することができる。
 さらに上述の第3の実施の形態においては、対応履歴文書が閲覧された回数をその対応履歴文書の参照回数としてカウントするようにした場合について述べたが、本発明はこれに限らず、対応履歴文書が実際にコピー及びペーストされて問合せの回答として利用された回数(コピーされた回数)をその対応履歴文書の参照回数としてカウントするようにしても良い。このようにすることによって、例えば代表文書以外の対応履歴文書が新規問合せの回答として代表文書よりも多く利用された場合に、その対応履歴文書の参照回数が増加し、当該対応履歴文書が次の代表文書として抽出されることになるため、より実情に沿った情報(顧客からの新規問合せに対する検索結果)をユーザに提供することができる。
 また、対応履歴文書が顧客からの問合せの回答に利用された回数を検索装置70が自動的にカウントするのではなく、例えば、検索結果画面に表示された代表画面を表示する画面へのリンクや、他の対応履歴文書を表示する画面へのリンクにそれぞれ対応させて検索結果画面内にチェックボックスを設け、顧客からの問合せに実際に利用した対応履歴文書に対応するチェックボックスにユーザがチェックを入れ、そのチェックが入れられた数を対応履歴文書ごとにカウントするようにしても良い。
 さらに上述の第3の実施の形態においては、各対応履歴文書の次数中心性を正規化した後に、正規化した各対応履歴文書の次数中心性を参照履歴情報72に基づいて補正し、補正結果に基づいて、そのクラスタの代表文書をそれぞれ抽出するようにした場合について述べたが、本発明はこれに限らず、各対応履歴文書の次数中心性を正規化することなく、各対応履歴文書の次数中心性を参照履歴情報72に基づいて補正し、補正結果に基づいて、そのクラスタの代表文書をそれぞれ抽出するようにしても良い。
 本発明は、文書検索を実行する検索装置に広く適用することができる。
 1,60,70,80……検索装置、2……CPU、3……メモリ、4……記憶装置、7……入力装置、8……表示装置、11……文書管理部、12……文書間関連管理部、13,62,73,81……検索実行部、15……対応履歴文書情報、16,61……文書間関連情報、19……対応履歴文書分類部、20,90……グラブ、21,91……ノード、22,92……エッジ、23……クラスタ、30……対応履歴文書管理部、24A~24D……対応履歴文書、25A,25B……問合せ文、31……対応履歴文書関連算出部、32……関連構造作成部、33……関連構造分析部、34……検索文受付・解析部、35,74,82……文書検索部、36,83……類似文書検索部、37……類似クラスタ検出部、38,64,76……代表文書抽出部、40……類似度スコア一覧、50……検索文入力画面、72……参照履歴情報、75……参照履歴登録部。

Claims (11)

  1.  それぞれ顧客からの問合せ及び当該問合せに対する回答を含む複数の対応履歴文書の中から、顧客からの新たな問合せの内容を表す問合せ文と前記問合せの内容が類似する前記対応履歴文書を検索する検索装置において実行される検索方法であって、
     前記検索装置が、複数の前記対応履歴文書を内容に応じて複数のクラスタに分類する第1のステップと、
     前記検索装置が、前記クラスタごとに、当該クラスタの代表となる前記対応履歴文書を代表文書として抽出する第2のステップと、
     前記検索装置が、前記問合せ文と関連を有する前記対応履歴文書を検索し、当該検索により検出した前記対応履歴文書が属する前記クラスタの前記代表文書を検索結果として提示する第3のステップと
     を備えることを特徴とする検索方法。
  2.  前記第1のステップは、
     前記対応履歴文書同士の関連を算出する対応履歴文書関連算出ステップと、
     算出した前記対応履歴文書同士の関連に基づいて前記対応履歴文書の関連構造を作成する関連構造作成ステップと、
     作成した前記対応履歴文書の前記関連構造に基づいて、複数の前記対応履歴文書を複数の前記クラスタに分類する対応履歴文書分類ステップと
     を備えることを特徴とする請求項1に記載の検索方法。
  3.  前記対応履歴文書関連算出ステップでは、
     前記対応履歴文書の文字の成分を比較する概念検索により、前記対応履歴文書間の関連を当該対応履歴文書同士の類似性の度合を表す数値として算出する
     ことを特徴とする請求項2に記載の検索方法。
  4.  前記関連構造分析ステップでは、
     各前記対応履歴文書を、前記対応履歴文書に含まれる文字列の特徴ごとに分類するクラスタリングにより複数のクラスタに分類する
     ことを特徴とする請求項2に記載の検索方法。
  5.  前記第3のステップでは、
     前記クラスタごとに、当該クラスタ内で他の前記対応履歴文書との関連を表す計算値の高い前記対応履歴文書を前記代表文書として抽出する
     ことを特徴とする請求項1に記載の検索方法。
  6.  前記クラスタ内で他の前記対応履歴文書との関連数が最も多い前記対応履歴文書とは、当該クラスタ内のより多くの前記対応履歴文書に記述されている回答を含む前記対応履歴文書である
     ことを特徴とする請求項5に記載の検索方法。
  7.  前記第1のステップは、
     前記対応履歴文書同士の関連を算出する対応履歴文書関連算出ステップと、
     算出した前記対応履歴文書同士の関連に基づいて前記対応履歴文書の関連構造を作成する関連構造作成ステップと、
     作成した前記対応履歴文書の前記関連構造に基づいて、複数の前記対応履歴文書を複数の前記クラスタに分類する対応履歴文書分類ステップと
     を有し、
     前記関連構造作成ステップでは、
     前記対応履歴文書の前記関連構造としてグラフを作成し、
     前記対応履歴文書関連算出ステップでは、
     前記グラフを構成する各エッジに対して、それぞれ算出した前記対応履歴文書同士の関連の強さ応じた重みを設定し、
     前記関連構造分析ステップでは、
     各前記エッジにそれぞれ設定された前記重みに基づいて、前記クラスタごとの前記代表文書を抽出する
     ことを特徴とする請求項5に記載の検索方法。
  8.  各前記対応履歴文書の参照回数をそれぞれ管理し、
     前記第2のステップでは、
     前記参照回数に基づいて前記代表文書を抽出する
     ことを特徴とする請求項5に記載の検索方法。
  9.  前記第3のステップでは、
     前記問合せ文と関連を有する前記対応履歴文書を、各前記クラスタの前記代表文書を検索対象として検索する
     ことを特徴とする請求項1に記載の検索方法。
  10.  それぞれ顧客からの問合せ及び当該問合せに対する回答を含む複数の対応履歴文書の中から、顧客からの新たな問合せの内容を表す問合せ文と前記問合せの内容が類似する前記対応履歴文書を検索する検索装置において、
     複数の前記対応履歴文書を内容に応じて複数のクラスタに分類する対応履歴文書分類部と、
     前記クラスタごとに、当該クラスタの代表となる前記対応履歴文書を代表文書として抽出する代表文書抽出部と、
     前記問合せ文と関連を有する前記対応履歴文書を検索し、当該検索により検出した前記対応履歴文書が属する前記クラスタの前記代表文書を検索結果として提示する文書検索部と
     を備えることを特徴とする検索装置。
  11.  それぞれ顧客からの問合せ及び当該問合せに対する回答を含む複数の対応履歴文書の中から、顧客からの新たな問合せの内容を表す問合せ文と前記問合せの内容が類似する前記対応履歴文書を検索する検索装置に実行させるプログラムが格納された記憶媒体であって、
     前記検索装置に、
     複数の前記対応履歴文書を内容に応じて複数のクラスタに分類する第1のステップと、
     前記クラスタごとに、当該クラスタの代表となる前記対応履歴文書を代表文書として抽出する第2のステップと、
     前記問合せ文と関連を有する前記対応履歴文書を検索し、当該検索により検出した前記対応履歴文書が属する前記クラスタの前記代表文書を検索結果として提示する第3のステップと
     を備える処理を実行させるプログラムが格納されたことを特徴とする記憶媒体。
PCT/JP2014/064455 2014-05-30 2014-05-30 検索方法及び装置並びに記憶媒体 WO2015181962A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US15/129,483 US10311111B2 (en) 2014-05-30 2014-05-30 Search method and apparatus and storage medium
PCT/JP2014/064455 WO2015181962A1 (ja) 2014-05-30 2014-05-30 検索方法及び装置並びに記憶媒体
JP2016523067A JP6216873B2 (ja) 2014-05-30 2014-05-30 検索方法及び装置並びに記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/064455 WO2015181962A1 (ja) 2014-05-30 2014-05-30 検索方法及び装置並びに記憶媒体

Publications (1)

Publication Number Publication Date
WO2015181962A1 true WO2015181962A1 (ja) 2015-12-03

Family

ID=54698337

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/064455 WO2015181962A1 (ja) 2014-05-30 2014-05-30 検索方法及び装置並びに記憶媒体

Country Status (3)

Country Link
US (1) US10311111B2 (ja)
JP (1) JP6216873B2 (ja)
WO (1) WO2015181962A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019139746A (ja) * 2018-02-09 2019-08-22 株式会社日立製作所 情報検索システムおよび方法
JP2020166426A (ja) * 2019-03-28 2020-10-08 株式会社日立ソリューションズ東日本 文書分析装置および文書分析方法
JPWO2020234929A1 (ja) * 2019-05-17 2020-11-26
JP2022525547A (ja) * 2019-03-19 2022-05-17 サービスナウ, インコーポレイテッド ケース・マネジメントのためのアクション決定

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019099894A1 (en) * 2017-11-16 2019-05-23 [24]7.ai, Inc. Method and system for facilitating collaboration among enterprise agents
US10878808B1 (en) * 2018-01-09 2020-12-29 Amazon Technologies, Inc. Speech processing dialog management
CN113454954A (zh) * 2019-01-29 2021-09-28 推特股份有限公司 社交数据流上的实时事件检测
US11055666B2 (en) * 2020-11-09 2021-07-06 The Abstract Operations Company Systems and methods for automation of corporate workflow processes via machine learning techniques
US11972441B2 (en) * 2022-03-10 2024-04-30 Dell Products, L.P. Intelligent product pedigree framework for product authenticity and verification
CN116112434B (zh) * 2023-04-12 2023-06-09 深圳市网联天下科技有限公司 一种路由器数据智能缓存方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276487A (ja) * 1999-03-26 2000-10-06 Mitsubishi Electric Corp 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
JP2002230005A (ja) * 2001-02-05 2002-08-16 Seiko Epson Corp サポートセンターシステム
JP2004102407A (ja) * 2002-09-05 2004-04-02 Dainippon Printing Co Ltd 検索システム、サーバコンピュータ、プログラム、及び記録媒体
JP2011170583A (ja) * 2010-02-18 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法、情報検索プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304793A (ja) 2006-05-10 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置
JP5885689B2 (ja) * 2012-03-06 2016-03-15 株式会社オウケイウェイヴ Q&aシステム
TW201508525A (zh) * 2013-08-29 2015-03-01 Ubic Inc 文件分類系統、文件分類方法及文件分類程式

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276487A (ja) * 1999-03-26 2000-10-06 Mitsubishi Electric Corp 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
JP2002230005A (ja) * 2001-02-05 2002-08-16 Seiko Epson Corp サポートセンターシステム
JP2004102407A (ja) * 2002-09-05 2004-04-02 Dainippon Printing Co Ltd 検索システム、サーバコンピュータ、プログラム、及び記録媒体
JP2011170583A (ja) * 2010-02-18 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法、情報検索プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019139746A (ja) * 2018-02-09 2019-08-22 株式会社日立製作所 情報検索システムおよび方法
JP2022525547A (ja) * 2019-03-19 2022-05-17 サービスナウ, インコーポレイテッド ケース・マネジメントのためのアクション決定
JP7296476B2 (ja) 2019-03-19 2023-06-22 サービスナウ, インコーポレイテッド ケース・マネジメントのためのアクション決定
JP2020166426A (ja) * 2019-03-28 2020-10-08 株式会社日立ソリューションズ東日本 文書分析装置および文書分析方法
JP7272846B2 (ja) 2019-03-28 2023-05-12 株式会社日立ソリューションズ東日本 文書分析装置および文書分析方法
JPWO2020234929A1 (ja) * 2019-05-17 2020-11-26
WO2020234929A1 (ja) * 2019-05-17 2020-11-26 株式会社アイエクセス 要約作成方法、要約作成システム、及び要約作成プログラム
US11816421B2 (en) 2019-05-17 2023-11-14 Aixs, Inc. Summary creation method, summary creation system, and summary creation program

Also Published As

Publication number Publication date
US10311111B2 (en) 2019-06-04
US20170116189A1 (en) 2017-04-27
JP6216873B2 (ja) 2017-10-18
JPWO2015181962A1 (ja) 2017-04-20

Similar Documents

Publication Publication Date Title
JP6216873B2 (ja) 検索方法及び装置並びに記憶媒体
JP6200602B2 (ja) 関連情報取得方法及び装置並びに記憶媒体
JP6894534B2 (ja) 情報処理方法及び端末、コンピュータ記憶媒体
Kalmegh Analysis of weka data mining algorithm reptree, simple cart and randomtree for classification of indian news
US8019771B2 (en) Method for dynamically finding relations between database tables
US20210042366A1 (en) Machine-learning system for servicing queries for digital content
US8214411B2 (en) Atomic deletion of database data categories
US10255324B2 (en) Query modification in a database management system
US9384240B2 (en) Method and system for analyzing data
US10936637B2 (en) Associating insights with data
US20190228342A1 (en) Systems and methods for automated incident response
AU2020257140A1 (en) Detecting correlation among sets of time series data
US11954110B2 (en) Methods and apparatus for visualizing entity instance relationships in a database
JP6832903B2 (ja) 情報検索システムおよび方法
CN107004036B (zh) 用以搜索包含大量条目的日志的方法和系统
US20140067447A1 (en) Erp transaction recording to api system and method
JP6438295B2 (ja) ハイパーグラフソルバーのためのグラフ入力の自動編集
US9239867B2 (en) System and method for fast identification of variable roles during initial data exploration
US11379669B2 (en) Identifying ambiguity in semantic resources
CN112131215B (zh) 自底向上的数据库信息获取方法及装置
CN110019547B (zh) 获取客户间的关联关系的方法、装置、设备及介质
US10614083B2 (en) Method and system for identifying incipient field-specific entity records
JP5444071B2 (ja) 障害情報収集システムと方法およびプログラム
JP6369841B2 (ja) リレーショナル・データベースにおける効率的なソートのための方法およびシステム
US20190354520A1 (en) Method, apparatus for data generation, and non-transitory computer-readable storage medium for storing program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14892895

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016523067

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15129483

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14892895

Country of ref document: EP

Kind code of ref document: A1