WO2011001584A1 - 情報分類装置、情報分類方法及び情報分類プログラム - Google Patents

情報分類装置、情報分類方法及び情報分類プログラム Download PDF

Info

Publication number
WO2011001584A1
WO2011001584A1 PCT/JP2010/003205 JP2010003205W WO2011001584A1 WO 2011001584 A1 WO2011001584 A1 WO 2011001584A1 JP 2010003205 W JP2010003205 W JP 2010003205W WO 2011001584 A1 WO2011001584 A1 WO 2011001584A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
group
relationship
type
document
Prior art date
Application number
PCT/JP2010/003205
Other languages
English (en)
French (fr)
Inventor
本橋洋介
坂上秀和
一色友宏
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/378,637 priority Critical patent/US20120096003A1/en
Priority to JP2011520746A priority patent/JPWO2011001584A1/ja
Publication of WO2011001584A1 publication Critical patent/WO2011001584A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Definitions

  • the present invention relates to an information classification device, an information classification method, and an information classification program for classifying searched information into appropriate groups.
  • a method When searching for information corresponding to a keyword indicating a feature (hereinafter referred to as a feature word), a method may be used in which a feature word is extracted and stored in advance from a search target document, email, or Web page. is there. According to this method, when a user inputs a feature word that the user wants to search, a document including the feature word can be extracted and displayed.
  • Patent Document 1 describes a concept search system that makes it easy for a searcher to extract documents in a field that the searcher wants to extract.
  • the stem vector creation means divides a field in the dictionary creation document group into a plurality of fields and creates a stem vector for each field.
  • the search target document vector creating means creates a search target document vector group for each field using the stem vector and the search target document group.
  • the vector calculation means searches for the search target document vector group based on the search text vector and the field data. And the vector operation value is calculated.
  • Patent Document 2 describes a document search device that expands search results and further extracts highly relevant documents.
  • the document classification unit classifies the search result documents into the first document set based on the citation relationship index in which the citation relationship between documents is registered. Then, the document extension unit searches for a second document set having a high degree of relevance with documents included in the first document set and configured by documents not included in the first document set.
  • Patent Document 3 describes a document classification device that repeatedly and efficiently repeats document classification that reflects the operator's intention.
  • the vector generation unit when the analysis unit analyzes the input document data, the vector generation unit generates a document feature vector from the result.
  • the conversion function calculation unit calculates an expression space function to be projected onto a space reflecting the similarity between the document feature vectors, the vector conversion unit converts the document feature vector using the function.
  • the classification unit classifies the document based on the similarity between the converted document feature vectors.
  • Patent Document 4 describes a person introduction system that can appropriately introduce a person with knowledge in a specific field.
  • a combination of keywords, a document title, a task ID, or the like is input as a search condition
  • the person introduction system described in Patent Document 4 searches related tasks and documents, and determines the creator of the document and the task. A person who participates in a predetermined role is extracted.
  • JP 2004-86635 A (paragraph 0012) JP 2007-328714 A (paragraphs 0010 and 0019) JP-A-11-296552 (paragraphs 0127 to 0129) JP 2002-304536 A (paragraphs 0021 to 0024, 0036 to 0039)
  • Patent Document 1 since the concept search system described in Patent Document 1 performs a search based on a group of vectors created for each field, for example, if the fields are the same, documents created by different tasks and projects are also included. They are classified into the same group. For this reason, the concept search system described in Patent Document 1 has a problem that information in the same field cannot be extracted in units of the same business or related projects.
  • the document classification apparatus described in Patent Document 3 generates a document feature vector based on the number of occurrences of words in a document and the co-occurrence of each word, and performs document classification using the document feature vector. .
  • the co-occurrence of words included in documents used in the same job or related projects and the words that occur in many cases are often the same. For this reason, the document classification apparatus described in Patent Document 3 has a problem that the same type of information including similar words cannot be grouped for the same business or related projects.
  • Patent Document 4 it is possible to extract a document corresponding to a specified keyword or the like for each related user, but various documents included in the extracted document are included. There is a problem that the type of information cannot be properly classified. For this reason, the viewing burden of the extraction result is increased for the user.
  • Patent Documents 1 to 4 Even if the techniques described in Patent Documents 1 to 4 are used, documents of the same type, such as documents used in related projects and operations, cannot be properly classified.
  • an object of the present invention is to provide an information classification device, an information classification method, and an information classification program that can classify information into appropriate groups even if the retrieved information is the same type of information.
  • the information classification device is based on the relationship between the information group of the first information type and the information group of the second information type, and the information group of the first information type and the information group of the second information type. And a classifying unit for classifying the information group of the first information type based on a processing result by the space arranging unit.
  • the information classification method according to the present invention is based on the relationship between the information group of the first information type and the information group of the second information type, and the information group of the first information type and the information group of the second information type. And the information group of the first information type is classified based on the processing result.
  • An information classification program allows a computer to store an information group of the first information type and a second information type based on the relationship between the information group of the first information type and the information group of the second information type. And a classification process for classifying the information group of the first information type based on the processing result of the spatial arrangement process and the processing result of the spatial arrangement process.
  • the information can be classified into an appropriate group.
  • FIG. 6 is an explanatory diagram illustrating an example of information stored in an information storage unit 161.
  • FIG. 6 is an explanatory diagram illustrating an example of a relationship between management information stored in a relationship storage unit 162.
  • FIG. It is explanatory drawing which shows the example of the information notified to the classification
  • FIG. 1 is a block diagram showing an embodiment of an information classification device according to the present invention.
  • the information classification device in this embodiment includes a server 101.
  • the server 101 is connected to the mail system 171, the document management system 172, the schedule management system 173, and the like, and receives documents (electronic documents), mails (emails), mail transmission / reception log data, and the like from these connection destinations.
  • documents electronic documents
  • mails electronic mails
  • mail transmission / reception log data and the like from these connection destinations.
  • the information classification apparatus according to the present invention can cooperate with other systems such as the mail system 171, the document management system 172, and the schedule management system 173.
  • the mail system 171, the document management system 172, the schedule management system 173, and the like are not essential components for the information classification apparatus according to the present invention.
  • the server 101 includes a mail system 171, a document management system 172, and a schedule management system. 173 or the like may not be connected.
  • the server 101 includes an arithmetic device 110 and a storage device 160.
  • the storage device 160 includes an information storage unit 161 and a relationship storage unit 162.
  • the information storage unit 161 stores the ID and name of information to be managed (hereinafter referred to as management information).
  • the information storage unit 161 is realized by, for example, a magnetic disk device provided in the storage device 160.
  • the management information is all information managed by the system that implements the present invention.
  • the management information includes search target information (hereinafter referred to as search target information), information related to the search target information (hereinafter referred to as related information), and the like.
  • the relationship information may be information different from information representing the attributes of the search target information.
  • search target information and the relationship information are concepts determined according to a search instruction, and do not mean that the management information belongs to one of the search target information or the relationship information.
  • Management information is memorize
  • the information storage unit 161 stores at least one of document information, mail, and screen information for displaying a Web page (hereinafter referred to as Web page information) as management information.
  • the information storage unit 161 may store information indicating a person, a meeting, a schedule, a project, a task, an organization, a tag, a book, an image, a moving image, and the like as management information.
  • ID an identifier
  • FIG. 2 is an explanatory diagram illustrating an example of information stored in the information storage unit 161.
  • the information storage unit 161 stores the ID 201, the name 202, the information type 203, and the information URL 204.
  • ID 201 is an identifier for identifying management information.
  • a name 202 is a name representing the contents of the management information.
  • the information type 203 is information used to narrow down target information when searching for management information or classifying search result information, and is predetermined information.
  • the information URL 204 is information for specifying the position where the entity of the management information exists.
  • the information storage unit 161 stores the ID 201, the name 202, the information type 203, and the information URL 204 , but the content stored in the information storage unit 161 is not limited to these pieces of information.
  • the information storage unit 161 may store a registrant, registration date and time, access right, and the like.
  • the information URL 204 may be blank depending on the content of the information type 203.
  • the relationship storage unit 162 stores information indicating a relationship between management information.
  • the relationship storage unit 162 is realized by, for example, a magnetic disk device included in the storage device 160.
  • Information indicating the relationship between the management information is stored in the relationship storage unit 162 by, for example, a registration unit 140 described later or a user.
  • FIG. 3 is an explanatory diagram illustrating an example of information indicating a relationship between management information stored in the relationship storage unit 162.
  • the relationship storage unit 162 stores the relationship source information ID 301, the relationship destination information ID 302, the relationship type 303, and the weight value 304.
  • the relation source information ID 301 and the relation destination information ID 302 are identifiers (that is, IDs) for identifying management information, and are between the management information identified by the relation source information ID 301 and the management information identified by the relation destination information ID 302. , Indicates that there is some relationship.
  • the relationship type 303 is information indicating the type of relationship between the management information identified by the relationship source information ID 301 and the management information identified by the relationship destination information ID 302.
  • the relationship type 303 is used when, for example, only a specific relationship is extracted from the relationship between information.
  • the weight value 304 is a value indicating the degree of relationship between the information identified by the relation source information ID 301 and the information identified by the relation destination information ID 302.
  • the relationship storage unit 162 stores the relationship source information ID 301, the relationship destination information ID 302, the relationship type 303, and the weight value 304 , but the content stored in the relationship storage unit 162 It is not limited to information.
  • the relationship storage unit 162 may store an associated person ID, an association date and time, and the like.
  • the computing device 110 includes a search unit 120, a classification unit 130, a registration unit 140, and an input / output unit 150.
  • the input / output unit 150 receives a search request input in accordance with a user operation, and notifies the search unit 120 of the search request. Note that the input / output unit 150 may notify the search unit 120 of a search request received from the user terminal.
  • the search request includes a keyword (hereinafter referred to as a search term) for narrowing down the search target information, but the content included in the search request is not limited to the search term.
  • the search request includes a type for identifying information stored in the information storage unit 161 (hereinafter referred to as a search information type), the number of search results displayed, and related information for classifying search target information. May be included (hereinafter referred to as classification conditions or classification standard information).
  • the input / output unit 150 generates a display screen for presentation to the user based on the classification result received from the classification unit 130, and outputs the display screen.
  • the search unit 120 includes an information search unit 121 and a related information search unit 122.
  • the information search unit 121 searches the management information stored in the information storage unit 161 based on the search term and search information type input via the input / output unit 150.
  • the search method performed by the information search unit 121 can be realized by a well-known search method.
  • the information search unit 121 may search for management information whose name 202 includes a search word, or search for management information whose information type 203 matches the search information type.
  • the information search unit 121 may perform the search for the management information specified by the URL.
  • the management information group searched by the information search unit 121 based on the search word and the search information type is referred to as a first information group.
  • the relationship information search unit 122 searches the relationship storage unit 162 based on the search result received from the information search unit 121 (that is, the first information group), and searches for management information related to the first information group. To do. Specifically, the relationship information search unit 122 extracts, from the relationship storage unit 162, a row including “relation source ID” or “relation destination ID” that matches the ID included in the first information group. The relation information search unit 122 then matches the “relationship ID” or the “relationship ID” corresponding to the ID (that is, the ID corresponding to the “relationship ID” is the “relationship ID”, The ID corresponding to “ID” is searched from the information storage unit 161 for management information identified by “related source ID”). In the following description, the information group searched by the related information search unit 122 based on the first information group is referred to as a second information group.
  • the relationship information search unit 122 generates information (hereinafter referred to as relationship information) indicating the relationship between the first information group and the second information group.
  • relationship information information indicating the relationship between the first information group and the second information group.
  • the relationship information search unit 122 may generate information in which the weight value is associated with the ID of the first information group and the ID of the second information group as the relationship information.
  • the relationship information search unit 122 notifies the classification unit 130 together with the first information group, the second information group, and the relationship information. In addition, when a classification condition is input via the input / output unit 150, the classification condition is also notified to the classification unit 130.
  • FIG. 4 is an explanatory diagram showing an example of information notified to the classification unit 130 by the related information search unit 122.
  • the search unit 120 searches the management information based on the search word input via the input / output unit 150 as a whole, and the search result of the information search unit 121 (that is, the first information group). It can be said that it has a function of notifying the classification unit 130 of the search results (that is, the second information group and the relationship information) of the relationship information search unit 122 together.
  • the first information group is assumed to be management information narrowed down by the search information type “document” or “mail”.
  • the second information group is management information narrowed down by the classification condition “person”.
  • the relationship information is information indicating the relationship between the “document” or “mail” and the “person”.
  • the search information type and the classification condition for narrowing down the first information group and the second information group are not limited to the above contents.
  • the first information group may be management information narrowed down by the search information type “person”
  • the second information group may be management information narrowed down by the classification condition “document” or “mail”.
  • the first information group may be management information narrowed down by the search information type “image” (such as “moving image”).
  • the second information group may be management information narrowed down by the classification condition “project” or “event”.
  • information included in the first information group narrowed down by the search information type is referred to as information of the first type, information included in the second information group narrowed down according to the classification condition, Sometimes referred to as two types of information.
  • the classification unit 130 includes a space arrangement calculation unit 131, a clustering unit 132, a representative information extraction unit 133, and a cluster label calculation unit 134.
  • the space arrangement calculation unit 131 receives the information included in the first information group based on the first information group, the second information group, and the relationship information received from the relationship information search unit 122, and the second information group
  • the information included in the information group is arranged in space.
  • the spatial arrangement means that each piece of information is arranged in the coordinate space according to the relationship with other information groups. Also, in the following description, it is assumed that the space is arranged so that the distance becomes shorter as the relationship between information becomes higher.
  • FIG. 5 is an explanatory diagram for explaining an example in which a plurality of pieces of information are spatially arranged.
  • information to be spatially arranged is information A, B, and C.
  • each piece of independent information exists on an independent dimension axis, and initially, each piece of information A, B, and C is assumed to be irrelevant (independent) information. It shall be present at an equal distance on the dimension axis.
  • An example of this state is shown in FIG.
  • the space arrangement calculation unit 131 changes the distance between the information according to these relationships, Deploy.
  • the information A and the information B are “persons”, and the information A and the information B have a relationship for performing mail communication.
  • the spatial arrangement calculation unit 131 determines that the two pieces of information have a relationship, moves the position of the information A in the direction of the dimension axis of the information B, and moves the position of the information B in the direction of the dimension axis of the information A (That is, the distance between the information A and the information B is made closer).
  • each information is spatially arranged by performing a calculation using a matrix by the spatial arrangement calculation unit 131.
  • the method of spatial arrangement of each information by the spatial arrangement calculation unit 131 uses a matrix. It is not limited to the case.
  • the space arrangement calculation unit 131 may arrange each information in space by performing an operation using a vector.
  • the spatial arrangement calculation unit 131 spatially arranges the first type information based on the relationship information between the first type information and the second type information, and further arranges the information of the spatially arranged information.
  • the second type information is spatially arranged based on the above. Note that the order of spatial arrangement may be reversed. That is, the spatial arrangement calculation unit 131 spatially arranges the second type of information based on the relationship information between the first type of information and the second type of information.
  • the first type of information may be spatially arranged based on the arrangement.
  • the spatial arrangement calculation unit 131 first spatially arranges the second type of information (ie, “person”), and the first type based on the arrangement of the spatially arranged second type of information.
  • the spatial arrangement calculating unit 131 first spatially arranges the first type of information (that is, “document” or “mail”), and first sets the first type of information based on the arrangement of the spatially arranged first type of information.
  • Two types of information ie, “person” may be arranged in space.
  • the space arrangement calculation unit 131 creates a relationship matrix A indicating the relationship between the first information group and the second information group. For example, the space arrangement calculation unit 131 creates the relation matrix A based on the condition shown in the following (Equation 1).
  • the relationship matrix A exemplified in (Equation 1) represents the presence or absence of the relationship between information (that is, relationship information).
  • each element of the relationship matrix A is 1 or 0.
  • the spatial arrangement calculation unit 131 creates a relationship matrix A by replacing this with the weight value read from the relationship storage unit 162. May be.
  • the space arrangement calculation unit 131 creates a relationship matrix B indicating the relationship between the pieces of information of the second information group. For example, the space arrangement calculation unit 131 creates the relation matrix B based on the following (Equation 2).
  • the matrix C is a matrix obtained by normalizing each row of the relation matrix A
  • the matrix D is a matrix obtained by normalizing each column of the relation matrix A.
  • normalization is to make the sum of the values of each row or each column a constant value, and to mean that the sum is 1.
  • the spatial arrangement calculation unit 131 creates a matrix C in which values of each row of the relationship matrix A are added for each row, and each value of the corresponding row is divided and assigned to each element of the matrix. To do.
  • the spatial arrangement calculation unit 131 creates a matrix D in which the values of each column of the relation matrix A are added for each column and the values obtained by dividing the values of the corresponding columns are assigned to the elements of the matrix. .
  • Creating the relationship matrix B by (Equation 2) means that when there is a relationship between the second type of information, the distance between the information is reduced. That is, creating the relationship matrix B means that the second type of information is spatially arranged based on the relationship between the first type of information and the second type of information.
  • each row of the relationship matrix B becomes the spatial coordinates of the information of the second information group.
  • the vector extracted from the first row of the relationship matrix B becomes the coordinates of the first information of the second information group.
  • the space arrangement calculation unit 131 creates a relationship matrix E indicating the relationship between each piece of information in the first information group. For example, the space arrangement calculation unit 131 creates the relation matrix E based on the following (Equation 3).
  • FIG. 6 is an explanatory diagram illustrating an example in which the first type of information is arranged at the weighted center of gravity of the second type of information.
  • weight value “0.8” between “document A” and “person A”, and between “document A” and “person B”.
  • weight value “0.4” there is a relationship of weight value “0.4”.
  • “document A” is spatially arranged at a position obtained by internally dividing the distance between “person A” and “person B” into a ratio of 1 / 0.8: 1 / 0.4.
  • information C is arranged when the coordinates of the arranged information A and B are Xa and Xb, respectively, and the weight values (relationship weight values) of the information C and information A and B are Wac and Wbc, respectively.
  • the coordinate Xc can also be calculated by the following (Formula 4).
  • the coordinates of the information to be arranged are calculated based on the two pieces of arranged information, but the number of arranged information is not limited to two.
  • the coordinates of the information to be arranged can be similarly calculated for three or more pieces of information.
  • placing on the weighted center of gravity means that the coordinates of the second type of information are based on the degree of relationship (weight value) between the first type of information and the second type of information.
  • the first type of information is arranged at the inner dividing point. That is, creating the relationship matrix E in this way is based on the coordinates of the second information group arranged in space and the weight values of the second information group and the first information group. Is spatially arranged.
  • each row of the relationship matrix E becomes the spatial coordinates of the information of the first information group.
  • the vector extracted from the first row of the relationship matrix E becomes the coordinates of the first information in the first information group.
  • the clustering unit 132 groups each piece of information arranged in space based on the proximity of the information group arranged by the space arrangement calculation unit 131. That is, since the spatial arrangement calculation unit 131 spatially arranges highly related information at close distances, grouping based on the proximity means that the clustering unit 132 combines information existing at close distances. It can be said that it is grouping.
  • the clustering unit 132 groups each piece of information using a general non-hierarchical clustering method such as a K-means method (k average method). Note that the method for grouping information is not limited to the K-means method.
  • the clustering unit 132 may group information using, for example, a hierarchical clustering method or a specific method such as the Ward method. In the following description, grouping pieces of spatially arranged information may be described as clustering. In addition, each classified group may be referred to as a cluster.
  • the clustering unit 132 randomly selects k elements from each element. This element is referred to as weed. In order to create k clusters including each weed, the clustering unit 132 classifies all elements into the cluster including the closest weed. The clustering unit 132 calculates the centroid of the element in each cluster, and determines the centroid as a new weed. The clustering unit 132 recursively repeats the process of classifying all the elements into the newly determined weed and including the nearest weed. The clustering unit 132 ends the process when the coordinates of the weed stop moving beyond a certain level.
  • the representative information extraction unit 133 extracts representative information in the cluster grouped by the clustering unit 132 (hereinafter referred to as representative information). For example, when the representative information is determined from the first information group in the cluster, the representative information extraction unit 133 selects each information of the classified first information group and the second type other than the information to be classified. The representative information is determined based on the relationship with the information. At this time, the representative information extraction unit 133 may determine information having the highest relationship with the second type of information as representative information. For example, the representative information extraction unit 133 sets the second type of information (ie, “person”) in the same cluster for each of the first information group (ie, “document” or “mail”) in the cluster.
  • representative information sets the second type of information (ie, “person”) in the same cluster for each of the first information group (ie, “document” or “mail”) in the cluster.
  • the number of pieces of related information may be counted, and the first type of information having the largest number of pieces of the second type of information may be used as representative information in the cluster.
  • the representative information extraction unit 133 similarly determines representative information based on the relationship with the first type of information. .
  • the representative information determined by the representative information extraction unit 133 is, for example, notified to the input / output unit 150 and output to a display unit (not shown) that displays the classification result.
  • the representative information extraction unit 133 extracts the representative information in the cluster, thereby reducing the user's burden of browsing the search result.
  • the cluster label calculation unit 134 determines a word (hereinafter referred to as a label) indicating the characteristics of the cluster. For example, the cluster label calculation unit 134 determines a word (that is, a label) indicating the characteristics of the first information group among the information in the cluster. For example, the cluster label calculation unit 134 determines the label of each cluster based on words and sentences (hereinafter referred to as content words) extracted from each of the first type information included in the cluster. Specifically, the cluster label calculation unit 134 extracts content words from the first type of information included in each cluster by performing morphological analysis. And the cluster label calculating part 134 determines the characteristic content word which shows the content of a cluster among the extracted content words as a label, and provides it to each cluster. The label determined by the cluster label calculation unit 134 is notified to the input / output unit 150, for example, and output to a display unit (not shown) that displays the classification result.
  • a label indicating the characteristics of the cluster.
  • the cluster label calculation unit 134
  • the cluster label calculation unit 134 determines a characteristic content word indicating the content of the cluster by using the TF / IDF method that extracts a characteristic word based on the appearance frequency of the word existing in the document. Also good.
  • methods for performing morphological analysis are widely known. For example, an existing morphological analysis algorithm (for example, “MeCab” or “ChaSen”) may be used. It is not limited to.
  • the cluster label calculation unit 134 determines the label in the cluster, the characteristics of the cluster can be grasped at a glance, so that the burden of browsing the search result of the user can be reduced.
  • the classification unit 130 has a function of classifying search results based on the search results (that is, the first information group and the second information group) received from the search unit 120 and the relationship information. It can be said that it has.
  • the registration unit 140 stores information in the storage device 160 (more specifically, the information storage unit 161 and the relationship storage unit 162) based on the log data of the mail system 171 and the document management system 172.
  • the registration unit 140 stores the mail data and the sender / receiver in the information storage unit 161 based on a predetermined rule, and relates the relationship between the sender / receiver and the mail.
  • the registration unit 140 may receive log information periodically transmitted from the mail system 171 or the document management system 172 and store the information generated based on the information in the storage device 160.
  • FIG. 7 is an explanatory diagram illustrating an example in which the registration unit 140 registers information in the information storage unit 161 and the relationship storage unit 162.
  • the setting information storage unit (not shown) of the server 101 stores the rules exemplified in FIGS. 7B and 7C as predetermined rules. To do.
  • the registration unit 140 sets the mail storage name to the name 202 and “mail” based on the conditions illustrated in FIG.
  • the mail storage destination is stored in the information URL 204, respectively.
  • the result of storing these pieces of information is shown in FIG.
  • the registration unit 140 stores the relationship between the “mail file” and “From” as the relationship type “mail author” and the weight value “1” based on the conditions illustrated in FIG. Stored in the unit 162. The result of storing these pieces of information is shown in FIG. Note that the weight values illustrated in FIG. 7C are values set in advance by the user based on the relationship between information, for example. For example, when there is a “download” relationship between two pieces of information, the weight value is set to “1” in advance, and when the relationship is “reference”, the weight value is set to “0.5” in advance. May be. By setting the weight value in this way, the registration unit 140 can generate information illustrated in FIG. 3, for example.
  • Search unit 120 (more specifically, information search unit 121 and relationship information search unit 122), classification unit 130 (more specifically, space layout calculation unit 131, clustering unit 132, and representative information extraction unit) 133, the cluster label calculation unit 134), the registration unit 140, and the input / output unit 150 are realized by a CPU of a computer that operates according to a program (information classification program).
  • the program is stored in a storage unit (not shown) of the server 101, and the CPU reads the program, and in accordance with the program, the search unit 120 (more specifically, the information search unit 121 and the related information search unit 122).
  • the classification unit 130 (more specifically, the spatial arrangement calculation unit 131, the clustering unit 132, the representative information extraction unit 133, and the cluster label calculation unit 134), the registration unit 140, and the input / output unit 150.
  • the search unit 120 (more specifically, the information search unit 121 and the relationship information search unit 122), the classification unit 130 (more specifically, the space arrangement calculation unit 131, the clustering unit 132, and the representative information).
  • the extraction unit 133, the cluster label calculation unit 134), the registration unit 140, and the input / output unit 150 may be realized by dedicated hardware, respectively.
  • FIG. 8 is a flowchart showing an example of the entire process in the present embodiment.
  • the information search unit 121 stores management information related to the search word. Is retrieved from the information storage unit 161 (step S402). This search result is taken as a first information group.
  • the relationship information search unit 122 searches for management information related to each of the first information group (step S403). This search result is defined as a second information group.
  • the relationship information search unit 122 generates relationship information indicating the relationship between the first information group and the second information group.
  • the clustering unit 132 performs clustering based on the proximity of the result of the spatial arrangement. (Step S405).
  • the representative information extraction unit 133 extracts representative information (for example, representative document) of the grouped information (ie, cluster) (step S406), and the cluster label calculation unit 134 assigns a label to the cluster (step S407). ).
  • the cluster label calculation unit 134 determines whether to further group the clustered group (step S408). For example, the cluster label calculation unit 134 may determine that the grouping is performed until the number of documents included in each cluster is equal to or less than a certain number, and the grouping is performed until the number of hierarchies is equal to or greater than the certain number. It may be determined that conversion will be performed.
  • step S408 the clustering unit 132, the representative information extraction unit 133, and the cluster label calculation unit 134 repeat the processing from step S405 to step S407. That is, the clustering unit 132 performs clustering based on the spatial arrangement formed by the clustered information (step S404), the representative information extraction unit 133 extracts the cluster representative document, and the cluster label calculation unit 134 The process of assigning a label to the cluster (step S407) is repeated.
  • This iterative process can be said to be a recursive process for generating a hierarchical cluster structure by creating child clusters within the classified clusters.
  • the cluster label calculation unit 134 since the cluster label calculation unit 134 generates a hierarchical cluster structure, more detailed classification is possible, so that the viewing burden on the user can be reduced.
  • the input / output unit 150 generates information for displaying a display screen for presentation to the user based on the classification result, and the information is displayed. It outputs to a display part (not shown) etc. (step S409).
  • FIG. 9 is a flowchart illustrating an example of processing performed by the space arrangement calculation unit 131.
  • the space arrangement calculation unit 131 determines information to be arranged first among the first information group and the second information group received from the search unit 120 (step S501).
  • the information initially arranged may be either the first information group or the second information group. However, it is more preferable to arrange an information group with a small number of information first because an information group to be arranged later can be mapped more appropriately. In the following description, a case where the second information group is arranged first will be described.
  • the space arrangement calculation unit 131 creates a relationship matrix A indicating the relationship between the first information group and the second information group (step S502). And the space arrangement
  • FIG. 10 is a flowchart illustrating an example of processing performed by the representative information extraction unit 133.
  • the representative information extraction unit 133 extracts the first type information and the second type information included in each cluster (step S601).
  • the representative information extraction unit 133 counts, for each of the first information groups in each cluster, the number of related types of information of the second type in the same cluster (step S602).
  • the representative information extraction unit 133 determines the first type of information having the largest number as representative information in the cluster (step S603).
  • FIG. 11 is a flowchart illustrating an example of processing performed by the cluster label calculation unit 134.
  • the cluster label calculation unit 134 extracts document, mail, or Web page information included in each cluster (step S701).
  • the cluster label calculation unit 134 extracts content words of the extracted information (that is, document, mail, Web page information) by morphological analysis or the like (step S702).
  • the cluster label calculation unit 134 compares the extracted content words, and determines a characteristic content word (that is, a label) of the cluster (step S703).
  • the spatial arrangement calculation unit 131 performs the first based on the relationship (for example, weight value) between the first type information group and the second type information group.
  • a process of spatially arranging the information group of the second type and the information group of the second type (for example, arranged at the weighted center of gravity) is executed.
  • the clustering unit 132 classifies the second type information group (or the first type information group) based on the processing result of the spatial layout calculation unit 131. Therefore, even if the searched information is the same type of information, the information can be classified into an appropriate group.
  • the spatial arrangement calculation unit 131 executes a process of spatially arranging the “person” information group based on the relationship between “document” or “mail” and “person”. Then, based on the processing result and the relationship, a process of spatially arranging the “document” or “mail” information group is executed. Therefore, even if the searched information is the same type of information, the information can be classified into an appropriate group. Specifically, the target document can be classified appropriately for each related business or project. By presenting the results classified in this way to the user, the burden on the user when browsing the search results is reduced.
  • a search text vector is created based on the search text.
  • the search text vector cannot be generated from an image file or a person, these information are stored. Cannot be classified.
  • even a result of searching for information that does not include content words such as images and people can be classified by related project or business unit.
  • the spatial arrangement calculation unit 131 uses the second type of information based on the relationship between the first type of information and the second type of information different from the content representing the attribute of the first type of information.
  • the type information (also the first type information) may be spatially arranged. In this case, in addition to the above effects, even if the information used for classification is information of a type different from the content representing the attribute of the searched information, the searched information can be classified into an appropriate group.
  • the relationship information search unit 122 generates two types of information groups and relationship information of the information groups, and the spatial arrangement calculation unit 131 spatially arranges one type of information group.
  • the relationship information search unit 122 generates three or more types of information groups and the relationship information of these information groups, and the spatial arrangement calculation unit 131 sequentially arranges each type of information group in space.
  • it differs from the said embodiment. About other than that, it is the same as that of the said embodiment.
  • the relationship information search unit 122 searches the relationship storage unit 162 based on the search result received from the information search unit 121 (that is, the first information group), and searches for management information related to the first information group. To do. This is referred to as a second information group. Then, the relationship information search unit 122 generates relationship information (referred to as first-second relationship information) between the first information group and the second information group.
  • the relationship information search unit 122 searches the relationship storage unit 162 based on the second information group, and searches for management information related to the second information group. This is referred to as a third information group. Then, the relationship information search unit 122 generates relationship information (denoted as second-third relationship information) between the second information group and the third information group. Here, the relationship information search unit 122 may generate relationship information (referred to as first to third relationship information) between the first information group and the third information group. The above processing is repeated for the number of pieces of related information used for classification.
  • the relationship information search unit 122 searches the plurality of information groups (for example, the first information group, the second information group, and the third information group) and the plurality of relationship information (for example, the first to first information groups). 2 relationship information and 2nd to 3rd relationship information) are notified to the classification unit 130 together.
  • the space arrangement calculation unit 131 includes a plurality of information groups (for example, a first information group, a second information group, and a third information group) received from the relationship information search unit 122, and a plurality of relationship information (for example, Based on the first-second relationship information and the second-third relationship information), information included in each information group is spatially arranged. Specifically, the spatial arrangement calculation unit 131 spatially arranges the first type information based on the relationship information, and sets the second type to the weighted centroid of the first type information spatially arranged. The information of is arranged in space. Further, the spatial arrangement calculation unit 131 spatially arranges information included in the third information group at the weighted centroid of the second type of information arranged in space.
  • information groups for example, a first information group, a second information group, and a third information group
  • relationship information for example, Based on the first-second relationship information and the second-third relationship information
  • the spatial arrangement calculation unit 131 repeats the process of spatially arranging information of other information groups sequentially on the weighted centroids of the spatially arranged information.
  • the space arrangement calculation unit 131 may arrange information in a multi-dimensional coordinate space such as three-dimensional or four-dimensional depending on the number of types of information to be used.
  • the space arrangement calculation unit 131 assigns the first type of information group to the space based on the relationship between the first type of information group and the second type of information group. Execute the placement process. Furthermore, the space arrangement calculation unit 131 determines other types of information groups (for example, the third information group) based on the processing results and the relationship with other types of information groups (for example, the third information group) different from the first type. , A third information group). Then, the clustering unit 132 sets the first information based on the arrangement result of another type of information group different from the second type (third information group or other information group used for classification). Classify information group of type. In this way, the searched information can be classified even when three or more types of information are used.
  • 12 and 13 are explanatory diagrams illustrating examples of screens on which the input / output unit 150 receives a search request.
  • the user inputs a search term and other detailed conditions on these screens. Detailed conditions may be set in advance. In this case, the user does not need to input detailed conditions.
  • the “person” selected in advance may be used as the classification reference information. .
  • “car” is input as a search term
  • “document” and “mail” are selected as search target information. It also indicates that “person” has been selected in advance as the classification criterion information.
  • the user can select the type of information to be searched (first information group), the type of information used for classification (second information group), the number of searches, and the clustering hierarchy. Presence / absence can be set.
  • FIG. 14 is an explanatory diagram showing an example of the entire processing in the first embodiment.
  • the information search unit 121 searches for “document” or “mail” related to the search word (step S801).
  • the relationship information search unit 122 searches for “person” related to “document” or “mail” as a search result (step S803).
  • the space arrangement calculation unit 131 creates a relation matrix from the relationship between “document” or “mail” and “person” and arranges the person in space (step S804).
  • the space arrangement calculation unit 131 arranges “document” or “mail” based on the coordinates of the “person” arranged in space (step S805). Then, the clustering unit 132 clusters the arranged “document” or “mail” (step S806). Thereafter, the representative information extraction unit 133 extracts representative information of each cluster (step S807). In addition, the cluster label calculation unit 134 determines a label for each cluster and assigns the label to each cluster (step S809). Then, the input / output unit 150 displays a display screen for presenting to the user based on the representative information and feature words received from the classification unit 130, information classified into each cluster (including names and attributes), and the like. Generate and output the display screen.
  • FIG. 15 is an explanatory diagram showing an example of a search result screen output by the input / output unit 150 in this embodiment.
  • the input / output unit 150 displays the hierarchized clusters in the search result screen in a tree format or the like.
  • the display format of the search result screen is not limited to the tree format.
  • the input / output unit 150 may display search results in a list format. At this time, the user can obtain a document or mail included in the cluster by selecting the required cluster.
  • the information search unit 121 searches for a “document” related to the search word. Then, the relationship information search unit 122 searches for “person” related to the “document” of the search result.
  • the space arrangement calculation unit 131 creates a relation matrix from the relationship between “document” and “person” and arranges “document” in space. Furthermore, the space arrangement calculation unit 131 arranges “person” based on the coordinates of the “document” arranged in space. Then, the clustering unit 132 clusters the arranged “persons”.
  • a document is spatially arranged based on the relationship between information, and a person is spatially arranged based on the result. Can be classified. By presenting the results classified in this way to the user, the burden on the user when browsing the search results can be reduced.
  • the information search unit 121 searches for a “document” related to the search word. Then, the relationship information search unit 122 searches for “mail” related to “document” as a search result. Further, the relationship information search unit 122 searches for “person” related to “mail” as a search result.
  • the space arrangement calculation unit 131 creates a relationship matrix from the relationship between “person” and “mail” and arranges “person” in space. Next, the space arrangement calculation unit 131 arranges “mail” based on the coordinates of the “person” arranged in space. Further, the space arrangement calculation unit 131 arranges “document” based on the coordinates of “mail” arranged in space. Then, the clustering unit 132 clusters the arranged “documents”. As described above, the information to be searched can be clustered even if three information groups are used.
  • the information search unit 121 searches for a “document” related to the search word. Then, the relationship information search unit 122 searches for “mail” related to “document” as a search result. Next, the relationship information search unit 122 searches for a “project” related to “mail” as a search result. Further, the relationship information search unit 122 searches for “person” related to “project” as a search result.
  • the space arrangement calculation unit 131 creates a relation matrix from the relationship between “person” and “project” and arranges “person” in space. Next, the space arrangement calculation unit 131 arranges a “project” based on the coordinates of the “person” arranged in space. Furthermore, the space arrangement calculation unit 131 arranges “mail” based on the coordinates of the “project” arranged in space. Finally, the space arrangement calculation unit 131 arranges “document” based on the coordinates of the “mail” arranged in space. Then, the clustering unit 132 clusters the arranged “documents”. As described above, the information to be searched can be clustered even when three or more types (four types in this case) of information are used.
  • the fifth embodiment is the same as the third embodiment in that three information groups are spatially arranged.
  • the third embodiment is different in that each information group includes a plurality of types of information. And different. Specifically, when “document” or “mail” is designated as the first information group, “event” or “schedule” is designated as the second information group, and “person” is designated as the third information group Next, a case where the first information group (that is, “document” or “mail”) is classified will be described.
  • the information search unit 121 searches for “document” or “mail” related to the search word. Then, the relationship information search unit 122 searches for “event” or “schedule” related to “document” or “mail” as a search result. Further, the relationship information search unit 122 searches for “person” related to “event” or “schedule” of the search result.
  • the spatial arrangement calculation unit 131 creates a relation matrix from the relationship between “person” and “event” or “schedule” and arranges “person” in space. Next, the spatial arrangement calculation unit 131 arranges an “event” or a “schedule” based on the coordinates of the “person” arranged in space.
  • the space arrangement calculation unit 131 arranges “document” or “mail” based on the coordinates of the “event” or “schedule” arranged in space. Then, the clustering unit 132 clusters the arranged “document” or “mail”. In this way, the information to be searched can be clustered even if a plurality of types of information is used for each information group.
  • the sixth embodiment is the same as the third and fifth embodiments in that three information groups are spatially arranged, except that an information group that does not include a content word exists in the information group.
  • the second information group is designated.
  • a case of classifying that is, “moving image”) will be described.
  • the information search unit 121 searches for a “document” related to the search word.
  • the relationship information search unit 122 searches for “moving image” related to the “document” of the search result.
  • the relationship information search unit 122 searches for “performers” related to “document” as a search result.
  • the space arrangement calculation unit 131 creates a relationship matrix from the relationship between the “document” and the “performer”, and arranges the “performer” in space.
  • the space arrangement calculation unit 131 arranges “documents” based on the coordinates of the “performers” arranged in space.
  • the space arrangement calculation unit 131 arranges “moving image” based on the coordinates of the “document” arranged in space.
  • the clustering unit 132 clusters the arranged “moving images”. In this way, the information to be searched can be clustered even if a plurality of types of information is used for each information group.
  • relationship information may be used for clustering “video”.
  • the information search unit 121 searches for “moving image” from the management information.
  • the relationship information search unit 122 searches for “documents” related to the “moving image” of the search result.
  • the relationship information search unit 122 searches for “performers” related to “document” as a search result.
  • the space arrangement calculation unit 131 creates a relationship matrix from the relationship between the “appearance character” and the “document”, and arranges the “appearance character” in space.
  • the space arrangement calculation unit 131 arranges “document” based on the coordinates of the “space person” arranged in space.
  • the space arrangement calculation unit 131 arranges “moving image” based on the coordinates of the “document” arranged in space. Then, the clustering unit 132 clusters the arranged “moving images”. Thus, according to the present embodiment, it is possible to perform clustering even on information that does not include content words.
  • the present invention can also be applied to the search functions of various systems described below.
  • systems to which the present invention can be applied include Web search systems, groupware, document sharing systems, content management systems, schedule management systems, and the like, but systems to which the present invention can be applied are limited to these systems. Absent. Other systems include a task management system and a weblog system.
  • FIG. 16 is a block diagram showing the minimum configuration of the present invention.
  • the information classification device has a relationship between an information group of a first information type (for example, a first type of information) and an information group of a second information type (for example, a second type of information) (
  • a space arrangement unit 81 for example, a space arrangement calculation unit
  • classification means 82 for example, clustering unit 132 for classifying the information group of the first information type based on the processing result by the space arrangement means 81.
  • the information can be classified into an appropriate group.
  • Relationship for example, relationship information between an information group of the first information type (for example, first type information) and an information group of the second information type (for example, second type information) , A weight value), a space placement unit (for example, a space placement calculation unit 131) that executes a process of spatially placing the information group of the first information type and the information group of the second information type,
  • An information classification apparatus including classification means (for example, clustering unit 132) for classifying the information group of the first information type based on the processing result of the means.
  • the space arrangement means is based on the relationship between the information group of the first information type (for example, “document” or “mail”) and the information group of the second information type (for example, “person”).
  • An information classification device that executes a process of spatially arranging an information group of the second information type, and executes a process of spatially arranging an information group of the first information type based on the processing result and the relationship.
  • the distance (for example, the distance in the coordinate space) is increased as the weight value, which is a value indicating the degree of relationship between the information of the first information type and the information of the second information type, increases.
  • Is an information classification device that executes processing for spatial arrangement (for example, processing for creating relationship matrix B and relationship matrix E).
  • the second information that is different from the information representing the attribute of the information group of the first information type and the information of the first information type (for example, “document” or “mail”).
  • Information classification apparatus that executes processing for spatially arranging the information group of the first information type and the information group of the second information type based on the relationship with the information group of the information type (for example, “person”) .
  • a representative information determining unit (for example, representative information extracting unit 133) that determines representative information that is a representative of the group of information classified by the classifying unit is provided.
  • Classifying apparatus that determines representative information based on the relationship between each piece of information and information other than the information to be classified (for example, the number of pieces of related information).
  • a feature word determining unit (for example, a cluster label calculation unit 134) that determines a word (for example, a label) indicating a feature for each group of information classified by the classifying unit is provided, and the feature word determining unit is included in the group Classifying apparatus that determines a word indicating a feature in a group based on a word extracted from each piece of information.
  • the spatial arrangement means executes a process of spatially arranging the person information based on the relationship between the document or mail and the person information, and the document is determined based on the arrangement and relationship of the spatially arranged person information.
  • an information classification device that executes processing for spatially arranging mails, and the classifying unit classifies the documents or mails based on the spatially arranged documents or mails.
  • the spatial arrangement means executes a process of spatially arranging the document or mail based on the relationship between the person information and the document or mail, and based on the arrangement and relation of the spatially arranged document or mail.
  • An information classification device that executes processing for spatially arranging person information, and classifying means classifies the person information based on the arrangement of the person information arranged in space.
  • Spatial arrangement means executes a process of spatially arranging the person information based on the relationship between the image and the person information, and spatially arranges the image based on the arrangement and relationship of the spatially arranged person information.
  • An information classification device that executes a process to classify an image based on the arrangement of spatially arranged images.
  • the spatial arrangement unit executes a process of spatially arranging the images based on the relationship between the person information and the image, and spatially arranges the person information based on the arrangement and relationship of the spatially arranged images.
  • An information classification device that executes processing and classifies the person information based on the arrangement of the person information arranged in space.
  • the spatial arrangement means executes a process of spatially arranging the project or event based on the relationship between the document or mail and the project or event, and is based on the arrangement and relationship of the spatially arranged project or event.
  • An information classification device that executes processing for spatially arranging documents or mails, and that classifies the documents or mails based on the spatial arrangement of the documents or mails.
  • the spatial arrangement means executes a process of spatially arranging the document or mail based on the relationship between the project or event and the document or mail, and based on the arrangement and relation of the spatially arranged document or mail.
  • An information classification device that executes a process of spatially arranging projects or events, and classifying means classifies the projects or events based on the arrangement of spatially arranged projects or events.
  • the spatial arrangement unit executes a process of spatially arranging the information group of the second information type based on the relationship between the information group of the first information type and the information group of the second information type, Information groups of other information types (for example, third information group) based on the relationship between the processing result and information groups of other information types different from the first information type (for example, third information group) , And the classification means is based on the result of the arrangement of the information group of the other information type different from the second information type (third information group or other information group used for classification).
  • An information classification device for classifying an information group of one information type.
  • the present invention is preferably applied to an information classification device that classifies searched information into an appropriate group.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 本発明は、検索された情報が同種の情報であっても、それらの情報を適切なグループに分類できる情報分類装置を提供することを目的とする。本発明による情報分類装置は、空間配置手段と、分類手段とを備えている。空間配置手段は、第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて、第1の情報種別の情報群と第2の情報種別の情報群とを空間配置する処理を実行する。分類手段は、空間配置手段による処理結果に基づいて、第1の情報種別の情報群を分類する。

Description

情報分類装置、情報分類方法及び情報分類プログラム
 本発明は、検索した情報を適切なグループに分類する情報分類装置、情報分類方法及び情報分類プログラムに関する。
 ある特徴を示すキーワード(以下、特徴語と記す)に該当する情報を検索する場合、検索対象になる文書やメール、Webページから特徴語を予め抽出して保存しておく方法がとられることがある。この方法によれば、ユーザが検索したい特徴語を入力した際に、その特徴語を含む文書を抽出し、表示することができる。
 また、予め特徴語を抽出しなくとも該当の情報を検索できる方法が各種知られている。
 特許文献1には、検索者が抽出したい分野の文献を抽出しやすくなるような概念検索システムが記載されている。特許文献1に記載された概念検索システムでは、ステムベクトル作成手段が、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成する。そして、検索対象文書ベクトル作成手段が、そのステムベクトルおよび検索対象文書群を用いて、分野ごとに検索対象文書ベクトル群を作成する。検索用文章ベクトル作成手段が、検索用データと分野データに基づくステムベクトルとを用いて検索用文章ベクトルを作成すると、ベクトル演算手段が、その検索用文章ベクトルと分野データに基づく検索対象文書ベクトル群とを用いて、ベクトル演算値を演算する。
 また、特許文献2には、検索結果を拡張し、関連性の高い文書をさらに抽出する文書検索装置が記載されている。特許文献2に記載された文書検索装置では、文書分類部が、文書間の引用関係が登録された引用関係インデックスに基づき、検索結果の文書を第1の文書集合に分類する。そして、文書拡張部が、第1の文書集合に含まれる文書と関連度が高く、第1の文書集合に含まれない文書によって構成される第2の文書集合を検索する。
 特許文献3には、操作者の意図を反映する文書分類を短時間で効率よく繰り返し行う文書分類装置が記載されている。特許文献1に記載された文書分類装置では、解析部が入力された文書データを解析すると、ベクトル生成部は、その結果から文書特徴ベクトルを生成する。変換関数算出部が、その文書特徴ベクトル相互の類似性を反映する空間に射影されるための表現空間関数を算出すると、ベクトル変換部は、その関数を用いて文書特徴ベクトルを変換する。そして、分類部は、変換した文書特徴ベクトル間の類似度に基づいて文書を分類する。
 特許文献4には、特定の分野の知識を備えた人物を適切に紹介することのできる人物紹介システムが記載されている。特許文献4に記載された人物紹介システムは、キーワードの組合せや文書タイトル、タスクID等が検索条件として入力されると、関連するタスク及び文書の検索を行い、その文書の作成者及びそのタスクに所定の役割で参加している人物を抽出する。
特開2004-86635号公報(段落0012) 特開2007-328714号公報(段落0010、0019) 特開平11-296552号公報(段落0127~0129) 特開2002-304536号公報(段落0021~0024,0036~0039)
 大量の文書やメール、Webページから抽出された特徴語を対象として検索する場合、抽出した検索結果が膨大になる恐れや、結果の閲覧に時間がかかってしまうという恐れがある。また、この場合、ユーザは、目的の情報にたどり着くまでに手間がかかったり、最適な情報を手に入れられなかったりするという課題がある。これらの課題は、特許文献1~4に記載された技術を用いることにより、ある程度解消することは可能である。
 しかし、特許文献1に記載された概念検索システムでは、分野ごとに作成されたベクトル群をもとに検索を行うため、例えば、分野が同一であれば、異なる業務やプロジェクトで作成された文書も同一のグループに分類されてしまう。そのため、特許文献1に記載された概念検索システムでは、同一の分野の情報を、同一の業務や、関係するプロジェクトといった単位で情報を抽出できないという課題がある。
 また、特許文献2に記載された文書検索装置では、引用関係のある文書を第1の文書集合に分類する。しかし、実際の業務では、引用関係のない文書が多数存在するため、特許文献2に記載された文書検索装置ではこのような文書を適切にグループ化できないという課題がある。
 さらに、特許文献3に記載された文書分類装置では、文書内の単語の出現回数や各単語の共起性をもとに文書特徴ベクトルを生成し、その文書特徴ベクトルを用いて文書分類を行う。しかし、同一の業務や、関係するプロジェクトで使用される文書に含まれる単語、及び、その際生じる単語の共起性は同様になることが多い。そのため、特許文献3に記載された文書分類装置では、同様の単語が含まれる同種の情報を、同一の業務や、関係するプロジェクトごとにグループ化できないという課題がある。
 また、特許文献4に記載された人物紹介システムでは、指定されたキーワード等に該当する文書を、関連するユーザごとに抽出することは可能であるが、抽出された文書の中に含まれる様々な種類の情報を適切に分類することはできないという課題がある。そのため、ユーザにとっては、抽出結果の閲覧負担が大きくなってしまう。
 以上のように、特許文献1~4に記載された技術を用いたとしても、関係するプロジェクトや業務で使われた文書など、同種の文書を適切に分類することはできなかった。
 そこで、本発明は、検索された情報が同種の情報であっても、それらの情報を適切なグループに分類できる情報分類装置、情報分類方法及び情報分類プログラムを提供することを目的とする。
 本発明による情報分類装置は、第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて、第1の情報種別の情報群と第2の情報種別の情報群とを空間配置する処理を実行する空間配置手段と、空間配置手段による処理結果に基づいて、第1の情報種別の情報群を分類する分類手段とを備えたことを特徴とする。
 本発明による情報分類方法は、第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて、第1の情報種別の情報群と第2の情報種別の情報群とを空間配置する処理を実行し、処理結果に基づいて、第1の情報種別の情報群を分類することを特徴とする。
 本発明による情報分類プログラムは、コンピュータに、第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて、第1の情報種別の情報群と第2の情報種別の情報群とを空間配置する処理を実行する空間配置処理、および、空間配置処理の処理結果に基づいて、第1の情報種別の情報群を分類する分類処理を実行させることを特徴とする。
 本発明によれば、検索された情報が同種の情報であっても、それらの情報を適切なグループに分類できる。
本発明による情報分類装置の一実施形態を示すブロック図である。 情報記憶部161に記憶される情報の例を示す説明図である。 関係性記憶部162に記憶される管理情報間の関係の例を示す説明図である。 分類部130に通知する情報の例を示す説明図である。 複数の情報を空間配置する場合の例を説明する説明図である。 重み付き重心に情報を配置する例を示す説明図である。 登録部140が、情報記憶部161及び関係性記憶部162に情報を登録する場合の例を示す説明図である。 本実施形態における処理全体の例を示すフローチャートである。 空間配置演算部131が行う処理の例を示すフローチャートである。 代表情報抽出部133が行う処理の例を示すフローチャートである。 クラスタラベル演算部134が行う処理の例を示すフローチャートである。 入出力部150が検索要求を受け付ける画面の例を示す説明図である。 入出力部150が検索要求を受け付ける画面の例を示す説明図である。 第1の実施例における処理全体の例を示す説明図である。 検索結果画面の例を示す説明図である。 本発明の最小構成を示すブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。
 図1は、本発明による情報分類装置の一実施形態を示すブロック図である。本実施形態における情報分類装置は、サーバ101を備えている。サーバ101は、メールシステム171や、文書管理システム172、スケジュール管理システム173等と接続し、これらの接続先から文書(電子文書)やメール(電子メール)、メール送受信のログデータなどを受信する。すなわち、本発明による情報分類装置は、メールシステム171や文書管理システム172、スケジュール管理システム173など他のシステムと連携できると言える。
 なお、メールシステム171や、文書管理システム172、スケジュール管理システム173等は、本発明における情報分類装置に必須の構成ではない。例えば、サーバ101が備える記憶部(図示せず)に、文書やメール、メール送受信のログデータ等を予め記憶している場合、サーバ101は、メールシステム171や、文書管理システム172、スケジュール管理システム173等に接続されていなくてもよい。
 サーバ101は、演算装置110と、記憶装置160とを備えている。記憶装置160は、情報記憶部161と、関係性記憶部162とを備えている。情報記憶部161は、管理する情報(以下、管理情報と記す。)のIDや名前などを記憶する。情報記憶部161は、例えば、記憶装置160が備える磁気ディスク装置等によって実現される。ここで、管理情報とは、本発明を実現するシステムで管理するすべての情報のことである。管理情報には、検索対象の情報(以下、検索対象情報と記す。)や、検索対象情報と関係性のある情報(以下、関係情報と記す。)などが含まれる。関係情報は、検索対象情報の属性を表す情報とは異なる情報であってもよい。なお、検索対象情報や関係情報は、検索指示に応じて定まる概念であり、管理情報が、検索対象情報又は関係情報のうちの一方に属することを意味するものではない。管理情報は、例えば、後述の登録部140やユーザにより情報記憶部161に記憶される。
 具体的には、情報記憶部161は、管理情報として、文書ファイルやメール、Webページを表示するための画面情報(以下、Webページ情報と記す。)のいずれかを少なくとも記憶する。他にも、情報記憶部161は、管理情報として、人物や、会議、スケジュール、プロジェクト、タスク、組織、タグ、書籍を示す情報、画像、動画などを記憶していてもよい。なお、以下の説明では、情報記憶部161が、管理情報を識別する識別子(以下、IDと記す。)及び管理情報の内容を表す名称と対応付けて記憶する場合について説明する。
 図2は、情報記憶部161に記憶される情報の例を示す説明図である。図2に示す例では、情報記憶部161が、ID201と、名称202と、情報種別203と、情報URL204とを記憶していることを示す。ID201は、管理情報を識別する識別子である。名称202は、管理情報の内容を表す名称である。情報種別203は、管理情報を検索するとき、もしくは、検索結果の情報を分類するとき、対象の情報を絞り込むために使用される情報であり、予め定められる情報である。情報URL204は、管理情報の実体が存在する位置を特定するための情報である。
 以下の説明では、情報記憶部161が、ID201、名称202、情報種別203及び情報URL204を記憶する場合について説明するが、情報記憶部161が記憶する内容は、これらの情報に限定されない。例えば、情報記憶部161は、他にも、登録者や登録日時、アクセス権等を記憶していてもよい。また、情報URL204は情報種別203の内容によっては空白であってもよい。
 関係性記憶部162は、管理情報間の関係を示す情報を記憶する。関係性記憶部162は、例えば、記憶装置160が備える磁気ディスク装置等によって実現される。管理情報間の関係を示す情報は、例えば、後述の登録部140やユーザにより関係性記憶部162に記憶される。
 図3は、関係性記憶部162に記憶される管理情報間の関係を示す情報の例を示す説明図である。図3に示す例では、関係性記憶部162が、関係元情報ID301と、関係先情報ID302と、関係種別303と、重み値304とを記憶していることを示す。関係元情報ID301及び関係先情報ID302は、管理情報を識別する識別子(すなわちID)であり、関係元情報ID301で識別される管理情報と、関係先情報ID302で識別される管理情報との間に、何らかの関係性を有していることを示す。
 関係種別303は、関係元情報ID301で識別される管理情報と、関係先情報ID302で識別される管理情報との間における関係の種類を示す情報である。関係種別303は、例えば、情報間の関係の中から、特定の関係のみを抽出する場合などに利用される。重み値304は、関係元情報ID301で識別される情報と関係先情報ID302で識別される情報との関係性の度合いを示す値である。
 以下の説明では、関係性記憶部162が、関係元情報ID301、関係先情報ID302、関係種別303及び重み値304を記憶する場合について説明するが、関係性記憶部162が記憶する内容は、これらの情報に限定されない。例えば、関係性記憶部162は、他にも、関連付け人物IDや、関連付け日時などを記憶していてもよい。
 演算装置110は、検索部120と、分類部130と、登録部140と、入出力部150とを備えている。入出力部150は、ユーザの操作に従って入力された検索要求を受信し、その検索要求を検索部120に通知する。なお、入出力部150は、ユーザ端末から受信した検索要求を検索部120に通知してもよい。検索要求には、検索対象情報を絞り込むためのキーワード(以下、検索語と記す。)が含まれるが、検索要求に含まれる内容は検索語に限定されない。例えば、検索要求には、情報記憶部161に記憶された情報を識別するための種別(以下、検索情報種別と記す。)や、検索結果の表示件数、検索対象情報を分類するための関係情報を指定する条件(以下、分類条件、または、分類基準情報と記す。)などを含んでいてもよい。また、入出力部150は、分類部130から受け取った分類結果をもとに、ユーザに提示するための表示画面を生成し、その表示画面を出力する。
 検索部120は、情報検索部121と、関係情報検索部122とを備えている。情報検索部121は、入出力部150を介して入力された検索語や検索情報種別をもとに、情報記憶部161に記憶された管理情報を検索する。情報検索部121が行う検索方法は、広く知られた検索方法で実現できる。例えば、情報検索部121は、名称202に検索語を含む管理情報を検索したり、情報種別203が検索情報種別に一致する管理情報を検索したりしてもよい。また、情報URL204にURLが指定されている場合、情報検索部121は、そのURLで特定される管理情報に対して上記検索を行ってもよい。なお、以下の説明では、情報検索部121が、検索語や検索情報種別をもとに検索した管理情報群を、第1の情報群と記す。
 関係情報検索部122は、情報検索部121から受け取った検索結果(すなわち、第1の情報群)をもとに関係性記憶部162を検索し、第1の情報群に関係する管理情報を検索する。具体的には、関係情報検索部122は、第1の情報群に含まれるIDと一致する「関係元ID」又は「関係先ID」を含む行を関係性記憶部162から抽出する。そして、関係情報検索部122は、一致した「関係元ID」又は「関係先ID」に対応するID(すなわち、「関係元ID」に対応するIDは「関係先ID」であり、「関係先ID」に対応するIDは、「関係元ID」)で識別される管理情報を情報記憶部161から検索する。なお、以下の説明では、関係情報検索部122が、第1の情報群をもとに検索した情報群を、第2の情報群と記す。
 また、関係情報検索部122は、第1の情報群と第2の情報群との間の関係性を示す情報(以下、関係性情報と記す。)を生成する。例えば、関係情報検索部122は、第1の情報群のID及び第2の情報群のIDに、重み値を対応付けた情報を関係性情報として生成してもよい。
 関係情報検索部122は、第1の情報群、第2の情報群及び関係性情報を併せて、分類部130に通知する。また、入出力部150を介して分類条件が入力されている場合には、分類条件もさらに併せて、分類部130に通知する。
 図4は、関係情報検索部122が、分類部130に通知する情報の例を示す説明図である。図4に示す例では、情報検索部121が、ID=0001,0004を含む情報を第1の情報群21として検索し、関係情報検索部122が、ID=0003,0005,0006,0007,0027,0046,0057を含む情報を第2の情報群として検索したことを示す。また、図4に示す例では、関係情報検索部122が、第1の情報群のID=0001と第2の情報群のID=0003とが重み値1の関係性を有することを示す関係性情報23を生成したことを示す。なお、他のIDと重み値との関係も同様であるため、説明を省略する。
 このように、検索部120は、全体として、入出力部150を介して入力された検索語をもとに管理情報を検索し、情報検索部121の検索結果(すなわち、第1の情報群)、関係情報検索部122の検索結果(すなわち、第2の情報群及び関係性情報)を併せて分類部130に通知する機能を持つと言える。
 以下の説明では、第1の情報群を、検索情報種別「文書」又は「メール」で絞り込まれた管理情報とする。また、第2の情報群を、分類条件「人物」で絞り込まれた管理情報とする。このとき、関係性情報は、「文書」又は「メール」と、「人物」との関係性を示す情報になる。なお、第1の情報群及び第2の情報群を絞り込む検索情報種別や分類条件は、上記内容に限定されない。例えば、第1の情報群を、検索情報種別「人物」で絞り込まれた管理情報に、第2の情報群を、分類条件「文書」又は「メール」で絞り込まれた管理情報にしてもよい。さらに、例えば、第1の情報群を、検索情報種別「画像」(「動画」など)で絞り込まれた管理情報にしてもよい。また、例えば、第2の情報群を、分類条件「プロジェクト」又は「イベント」で絞り込まれた管理情報としてもよい。
 なお、以下の説明では、検索情報種別で絞り込まれた第1の情報群に含まれる情報を、第1の種類の情報、分類条件で絞り込まれた第2の情報群に含まれる情報を、第2の種類の情報と記すこともある。
 分類部130は、空間配置演算部131と、クラスタリング部132と、代表情報抽出部133と、クラスタラベル演算部134とを備えている。
 空間配置演算部131は、関係情報検索部122から受け取った、第1の情報群、第2の情報群及び関係性情報をもとに、第1の情報群に含まれる情報、及び、第2の情報群に含まれる情報を空間配置する。ここで、空間配置とは、他の情報群との関係性に応じて各情報を座標空間に配置することを言う。また、以下の説明では、情報同士の関係性が高くなるに従って、距離が近くなるように空間配置するものとする。
 図5は、複数の情報を空間配置する場合の例を説明する説明図である。図5に示す例では、空間配置する対象の情報が、情報A,B,Cであるとする。また、独立したそれぞれの情報は、独立した次元軸上に存在するものと仮定し、初めは、情報A,B,Cのそれぞれは、関係しない(独立した)情報であると仮定して、各次元軸上に等しい距離で存在するものとする。この状態の例を、図5(a)に示す。
 ここで、情報Aと情報Bとの間に、何らかの関係性を有している場合、空間配置演算部131は、これらの関係性に応じて、情報間の距離を変更して各情報を空間配置する。図5(b)に示す例では、情報Aと情報Bが「人物」であるとし、情報Aと情報Bがメール通信を行う関係性を有しているとする。このとき、空間配置演算部131は、2つの情報が関係性を有すると判断し、情報Aの位置を情報Bの次元軸方向に移動し、情報Bの位置を情報Aの次元軸方向に移動する(すなわち、情報Aと情報Bとの距離を近づける)空間配置を行う。
 以下の説明では、空間配置演算部131が行列を用いた演算を行うことにより各情報を空間配置する場合について説明するが、空間配置演算部131が各情報を空間配置する方法は、行列を用いる場合に限定されない。例えば、空間配置演算部131は、ベクトルを用いた演算を行うことにより各情報を空間配置してもよい。
 空間配置演算部131は、第1の種類の情報と第2の種類の情報との関係性情報をもとに、第1の種類の情報を空間配置し、さらに、空間配置された情報の配置に基づいて第2の種類の情報を空間配置する。なお、空間配置の順番は、逆であってもよい。すなわち、空間配置演算部131が、第1の種類の情報と第2の種類の情報との関係性情報をもとに、第2の種類の情報を空間配置し、さらに、空間配置された情報の配置に基づいて第1の種類の情報を空間配置してもよい。
 以下の説明では、空間配置演算部131が、まず、第2の種類の情報(すなわち、「人物」)を空間配置し、空間配置された第2の種類の情報の配置に基づいて第1の種類の情報(すなわち、「文書」または「メール」)を空間配置する場合について説明する。ただし、空間配置演算部131は、先に、第1の種類の情報(すなわち、「文書」または「メール」)を空間配置し、空間配置された第1の種類の情報の配置に基づいて第2の種類の情報(すなわち、「人物」)を空間配置してもよい。
 以下、空間配置演算部131の動作について説明する。空間配置演算部131は、第1の情報群と第2の情報群の間の関係性を示す関係行列Aを作成する。空間配置演算部131は、例えば、以下の(式1)に示す条件に基づいて関係行列Aを作成する。
Figure JPOXMLDOC01-appb-M000001
 (式1)に例示する関係行列Aは、情報間の関係性の有無(すなわち、関係性情報)を表現したものであるといえる。なお、(式1)では、関係行列Aの各要素は1または0であるが、空間配置演算部131は、これを関係性記憶部162から読み取った重み値に置き換えた関係行列Aを作成してもよい。
 次に、空間配置演算部131は、第2の情報群のそれぞれの情報間の関係性を示す関係行列Bを作成する。空間配置演算部131は、例えば、以下の(式2)に基づいて関係行列Bを作成する。
Figure JPOXMLDOC01-appb-M000002
 ここで、行列Cは、関係行列Aの各行を正規化した行列であり、行列Dは、関係行列Aの各列を正規化した行列である。ここで、正規化とは、各行または各列の値の和を一定の値にすることであり、和を1にすることを意味するものとする。具体的には、空間配置演算部131は、関係行列Aの各行の値を行ごとに加算した値で、該当する行の各値を割ったものを行列の各要素に割り当てた行列Cを作成する。同様に、空間配置演算部131は、関係行列Aの各列の値を列ごとに加算した値で、該当する列の各値を割ったものを行列の各要素に割り当てた行列Dを作成する。
 (式2)により関係行列Bを作成することは、第2の種類の情報間に関係性がある場合、それらの情報間の距離を近づけることを意味する。すなわち、関係行列Bを作成することは、第1の種類の情報と第2の種類の情報との関係性をもとに、第2の種類の情報を空間配置することを意味する。ここで、関係行列Bの各行が第2の情報群のそれぞれの情報の空間座標になる。例えば、関係行列Bの1行目を取り出したベクトルが第2の情報群の1つ目の情報の座標になる。
 次に、空間配置演算部131は、第1の情報群のそれぞれの情報間の関係性を示す関係行列Eを作成する。空間配置演算部131は、例えば、以下の(式3)に基づいて関係行列Eを作成する。
Figure JPOXMLDOC01-appb-M000003
 (式3)により関係行列Eを作成することは、第1の情報群の各々の情報が、関係する第2の情報群が配置された座標の重み付き重心に配置されることを意味する。図6は、第2の種類の情報の重み付き重心に第1の種類の情報を配置する例を示す説明図である。図6に示す例では、「文書A」と、「人A」との間に、重み値「0.8」の関係性を有し、「文書A」と、「人B」との間に、重み値「0.4」の関係性を有しているとする。この場合、「文書A」は、「人A」と「人B」の距離を、1/0.8:1/0.4の比率に内分した位置に空間配置される。
 また、配置済みの情報A,Bの座標をそれぞれXa,Xbとし、配置する情報Cと情報A,Bの重み値(関係重み値)をそれぞれWac,Wbcとしたとき、情報Cが配置される座標Xcは、以下の(式4)によっても算出できる。
Figure JPOXMLDOC01-appb-M000004
 例えば、Xa=(2,3)、Xb=(8,9)とし、情報Cと情報Aの重み値Wacを0.9、情報Cと情報Bの重み値Wbcを0.6とした場合、情報Cの座標Xcは、(式4)に基づき、Xc=(4.4,5.4)と算出される。
 (式4)に示す式では、配置する情報の座標を、配置済みの2つの情報をもとに算出しているが、配置済みの情報は2つに限られない。配置する情報の座標は、3つ以上の情報に対しても同様に算出可能である。
 このように、重み付き重心に配置するとは、第1の種類の情報と第2の種類の情報との関係性の度合(重み値)をもとに、第2の種類の情報の座標間の内分点に第1の種類の情報を配置することであると言える。すなわち、このように関係行列Eを作成することは、空間配置された第2の情報群の座標及び第2の情報群と第1の情報群との重み値に基づいて、第1の情報群を空間配置することを意味する。ここで、関係行列Eの各行が第1の情報群のそれぞれの情報の空間座標になる。例えば、関係行列Eの1行目を取り出したベクトルが第1の情報群の1つ目の情報の座標になる。
 クラスタリング部132は、空間配置演算部131が配置した情報群の近接度をもとに、空間配置された各情報をグループ化する。すなわち、空間配置演算部131が、関係性の高い情報同士を近い距離に空間配置しているため、近接度をもとにグループ化するとは、クラスタリング部132が、近い距離に存在する情報同士をグループ化することであると言える。クラスタリング部132は、K-means法(k平均法)などの一般的な非階層クラスタリング手法を用いて、各情報をグループ化する。なお、情報をグループ化する方法は、K-means法に限定されない。クラスタリング部132は、例えば、階層型クラスタリング手法や、その具体的手法であるウォード法などを用いて情報をグループ化してもよい。なお、以下の説明では、空間配置された各情報をグループ化することをクラスタ化すると記すこともある。また、分類された各グループのことをクラスタと記すこともある。
 なお、上記のK-means法については、以下のURLで示される文献「http://ibisforest.org/index.php?k-means%E6%B3%95」に、階層型クラスタリング手法については、以下のURLで示される文献「http://gihyo.jp/dev/feature/01/visualization/0002 」に、ウォード法については、以下のURLで示される「http://case.f7.ems.okayama-u.ac.jp/statedu/hbw2-book/node124.html 」に、それぞれ記載されている。
 ここで、K-means法を利用して、各要素を分類する方法について説明する。まず、クラスタリング部132は、各要素の中から、ランダムにk個の要素を選択する。この要素をweedと記す。各weedを含むクラスタをk個作成するため、クラスタリング部132は、最も近いweedを含むクラスタに全ての要素を分類する。クラスタリング部132は、各クラスタ内の要素の重心を計算し、その重心を新しいweedに決定する。クラスタリング部132は、新しく決定したweedであって、最も近いweedを含むクラスタに全ての要素を分類する処理を再帰的に繰り返す。クラスタリング部132は、weedの座標が一定以上移動しなくなったら処理を終了する。
 代表情報抽出部133は、クラスタリング部132がグループ化したクラスタ内の代表的な情報(以下、代表情報と記す。)を抽出する。例えば、クラスタ内の第1の情報群の中から代表情報を決定する場合、代表情報抽出部133は、分類された第1の情報群の各情報と、分類対象の情報以外の第2の種類の情報との関係性に基づいて代表情報を決定する。このとき、代表情報抽出部133は、第2の種類の情報との関係性が最も高い情報を代表情報に決定してもよい。例えば、代表情報抽出部133は、クラスタ内の第1の情報群(すなわち、「文書」または「メール」)の各々について、同じクラスタ内の第2の種類の情報(すなわち、「人物」)のうち関係性がある情報の個数を数え、第2の種類の情報の個数が最も多い第1の種類の情報を、そのクラスタにおける代表情報としてもよい。なお、クラスタ内の第2の情報群の中から代表情報を決定する場合、代表情報抽出部133は、同様に、第1の種類の情報との関係性に基づいて代表情報を決定すればよい。代表情報抽出部133が決定した代表情報は、例えば、入出力部150に通知され、分類結果を表示する表示部(図示せず)などに出力される。
 このように、代表情報抽出部133が、クラスタ内の代表情報を抽出することで、ユーザの検索結果の閲覧負担を軽減できる。
 クラスタラベル演算部134は、クラスタの特徴を示す語(以下、ラベルと記す。)を決定する。例えば、クラスタラベル演算部134は、クラスタ内の情報のうち、第1の情報群の特徴を示す語(すなわち、ラベル)を決定する。例えば、クラスタラベル演算部134は、クラスタ内に含まれる第1の種類の情報それぞれから抽出した単語や文章(以下、内容語と記す。)をもとに、各クラスタのラベルを決定する。具体的には、クラスタラベル演算部134は、形態素解析を行うことで各クラスタに含まれる第1の種類の情報から内容語を抽出する。そして、クラスタラベル演算部134は、抽出した内容語のうち、クラスタの内容を示す特徴的な内容語をラベルとして決定し、各クラスタに付与する。クラスタラベル演算部134が決定したラベルは、例えば、入出力部150に通知され、分類結果を表示する表示部(図示せず)などに出力される。
 クラスタラベル演算部134は、例えば、文書内に存在する単語の出現頻度に基づいて特徴的な語を抽出するTF/IDF法を使用してクラスタの内容を示す特徴的な内容語を決定してもよい。なお、形態素解析を行う方法は広く知られており、例えば、既存の形態素解析アルゴリズム(例えば「MeCab」や「ChaSen」など)を利用してもよいが、形態素解析を行う方法は、これらの方法に限定されない。
 なお、上記の「ChaSen」については、以下のURLで示される文献「http://chasen-legacy.sourceforge.jp/」に、「MeCab」については、以下のURLで示される文献「http://mecab.sourceforge.net」に、TF/IDF法については、以下のURLで示される文献「http://ja.wikipedia.org/wiki/Tf-idf 」または「http://www.forest.dnj.ynu.ac.jp/~ohmori/Paper/NL121/node6.html」に、それぞれ記載されている。
 このように、クラスタラベル演算部134がクラスタ内のラベルを決定することで、そのクラスタの特徴が一目で把握できるため、ユーザの検索結果の閲覧負担を軽減できる。
 以上のように、分類部130は、検索部120から受け取った検索結果(すなわち、第1の情報群及び第2の情報群)と関係性情報とをもとに、検索結果を分類する機能を持つと言える。
 登録部140は、メールシステム171や文書管理システム172のログデータをもとに、記憶装置160(より具体的には、情報記憶部161及び関係性記憶部162)に情報を記憶させる。例えば、ログ情報がメールの送信ログの場合、登録部140は、予め定められたルールに基づき、メールデータおよび送受信者を情報記憶部161に記憶させ、送受信者とメールの間の関係性を関係性記憶部162に記憶させる。例えば、登録部140は、メールシステム171や文書管理システム172から定期的に送信されるログ情報などを受信し、その情報をもとに生成した情報を記憶装置160に記憶させてもよい。
 図7は、登録部140が、情報記憶部161及び関係性記憶部162に情報を登録する場合の例を示す説明図である。図7に示す例では、サーバ101の設定情報記憶部(図示せず)が、予め定められたルールとして、図7(b)及び図7(c)に例示するルールを記憶しているものとする。例えば、サーバ101が、図7(a)に例示するメールMを受信すると、登録部140は、図7(b)に例示された条件に基づき、メール保存名を名称202に、「メール」を情報種別203に、メール保存先を情報URL204にそれぞれ記憶させる。メールの送信元についても同様である。これらの情報を記憶させた結果を、図7(d)に示す。
 また、登録部140は、図7(c)に例示された条件に基づき、「メールファイル」と、「From」との関係を、関係種別「メール作者」、重み値「1」として関係性記憶部162に記憶させる。これらの情報を記憶させた結果を、図7(e)に示す。なお、図7(c)に例示する重み値は、例えば、ユーザにより、情報間の関係に基づいて予め設定される値である。例えば、2つの情報の間に「download」という関係を有する場合、重み値を予め「1」に設定し、「reference 」という関係を有する場合に、重み値を予め「0.5」に設定してもよい。このように重み値を設定することにより、登録部140は、例えば、図3に例示する情報を生成できる。
 検索部120(より具体的には、情報検索部121と、関係情報検索部122)と、分類部130(より具体的には、空間配置演算部131と、クラスタリング部132と、代表情報抽出部133と、クラスタラベル演算部134)と、登録部140と、入出力部150は、プログラム(情報分類プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、サーバ101の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、検索部120(より具体的には、情報検索部121及び関係情報検索部122)、及び、分類部130(より具体的には、空間配置演算部131、クラスタリング部132、代表情報抽出部133及びクラスタラベル演算部134)、登録部140、入出力部150として動作してもよい。また、検索部120(より具体的には、情報検索部121と、関係情報検索部122)と、分類部130(より具体的には、空間配置演算部131と、クラスタリング部132と、代表情報抽出部133と、クラスタラベル演算部134)と、登録部140と、入出力部150とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に動作について説明する。図8は、本実施形態における処理全体の例を示すフローチャートである。まず、入出力部150が、ユーザ端末から送信された検索語やユーザの操作に従って入力された検索語(キーワード)を受信すると(ステップS401)、情報検索部121は、検索語に関係する管理情報を情報記憶部161から検索する(ステップS402)。この検索結果を第1の情報群とする。次に、関係情報検索部122は、第1の情報群のそれぞれに関係する管理情報を検索する(ステップS403)。この検索結果を第2の情報群とする。また、関係情報検索部122は、第1の情報群と第2の情報群の関係性を示す関係性情報を生成する。空間配置演算部131が、第1の情報群と第2の情報群の空間配置を行うと(ステップS404)、クラスタリング部132は、空間配置された結果の近接度をもとにクラスタ化を行う(ステップS405)。代表情報抽出部133は、グループ化した情報(すなわち、クラスタ)の代表情報(例えば、代表文書)を抽出し(ステップS406)、クラスタラベル演算部134は、そのクラスタにラベルを付与する(ステップS407)。
 クラスタラベル演算部134は、クラスタ化されたグループを、さらにグループ化するか否かを判断する(ステップS408)。クラスタラベル演算部134は、例えば、各クラスタに含まれる文書数が一定数以下になるまでグループ化を行うと判断してもよく、また、グループ化した階層数が、一定数以上になるまでグループ化を行うと判断してもよい。
 グループ化すると判断した場合(ステップS408におけるYES)、クラスタリング部132、代表情報抽出部133及びクラスタラベル演算部134は、ステップS405からステップS407の処理を繰り返す。すなわち、クラスタリング部132が、クラスタ化した情報が形成する空間配置をもとにクラスタ化を行い(ステップS404)、代表情報抽出部133が、クラスタの代表文書を抽出し、クラスタラベル演算部134が、そのクラスタにラベルを付与する(ステップS407)処理を繰り返す。この繰り返し処理は、分類されたクラスタ内に子クラスタを作ることで階層的なクラスタ構造を生成する再帰的な処理であると言える。このように、クラスタラベル演算部134が、階層的なクラスタ構造を生成することにより、より詳細な分類が可能になるため、ユーザにとっては、閲覧負担を軽減できる。
 一方、グループ化しないと判断した場合(ステップS408におけるNO)、入出力部150は、分類結果をもとに、ユーザに提示するための表示画面を表示するための情報を生成し、その情報を表示部(図示せず)などに出力する(ステップS409)。
 次に、空間配置演算部131が、第1の情報群及び第2の情報群を空間配置する動作について説明する。図9は、空間配置演算部131が行う処理の例を示すフローチャートである。まず、空間配置演算部131は、検索部120から受け取った第1の情報群及び第2の情報群のうち、最初に配置する情報を決定する(ステップS501)。最初に配置される情報は第1の情報群と第2の情報群のどちらでもよい。ただし、情報の個数が少ない情報群を最初に配置する方が、後に配置する情報群をより適切にマッピングできるため、より好ましい。以下の説明では、第2の情報群を先に配置する場合について説明する。
 空間配置演算部131は、第1の情報群と第2の情報群の間の関係性を示す関係行列Aを作成する(ステップS502)。そして、空間配置演算部131は、第2の情報群の中のそれぞれの情報間の関係性を示す関係行列Bを作成する(ステップS503)。最後に、空間配置演算部131は、第1の情報群の中のそれぞれの情報間の関係性を示す関係行列Eを作成する(ステップS504)。
 次に、代表情報抽出部133が代表情報を抽出する動作について説明する。図10は、代表情報抽出部133が行う処理の例を示すフローチャートである。まず、代表情報抽出部133は、各クラスタ内に含まれる第1の種類の情報、及び、第2の種類の情報を抽出する(ステップS601)。次に、代表情報抽出部133は、各クラスタ内の第1の情報群のそれぞれについて、同じクラスタ内の第2の種類の情報のうち関係性があるものの個数を数える(ステップS602)。そして、代表情報抽出部133は、この個数が最も多い第1の種類の情報を、そのクラスタにおける代表情報に決定する(ステップS603)。
 次に、クラスタラベル演算部134がラベルを決定する動作について説明する。図11は、クラスタラベル演算部134が行う処理の例を示すフローチャートである。まず、クラスタラベル演算部134は、各クラスタ内に含まれる文書、メール、またはWebページ情報を抽出する(ステップS701)。次に、クラスタラベル演算部134は、抽出した情報(すなわち、文書、メール、Webページ情報)の内容語を形態素解析などで抽出する(ステップS702)。そして、クラスタラベル演算部134は、抽出した内容語を、それぞれ比較し、クラスタの特徴的な内容語(すなわち、ラベル)を決定する(ステップS703)。
 以上のように、本発明によれば、空間配置演算部131が、第1の種類の情報群と、第2の種類の情報群との関係性(例えば、重み値)に基づいて、第1の種類の情報群と第2の種類の情報群とを空間配置(例えば、重み付き重心に配置)する処理を実行する。そして、クラスタリング部132が、空間配置演算部131の処理結果に基づいて、第2の種類の情報群(または、第1の種類の情報群)を分類する。そのため、検索された情報が同種の情報であっても、それらの情報を適切なグループに分類できる。
 すなわち、本実施形態で説明したように、空間配置演算部131が、「文書」または「メール」と、「人物」との関係性に基づいて「人物」の情報群を空間配置する処理を実行し、その処理結果及び上記関係性に基づいて「文書」または「メール」の情報群を空間配置する処理を実行する。そのため、検索された情報が同種の情報であっても、それらの情報を適切なグループに分類できる。具体的には、関係する業務やプロジェクトごとに対象の文書を適切に分類できる。このように分類された結果をユーザに提示することにより、ユーザにとっては、検索結果を閲覧する時の負担が低減する。
 また、本発明によれば、画像や人物など内容語を含まない情報であっても、他の情報との関係性をもとにこれらの情報を空間配置して、関係する業務やプロジェクトごとに対象の画像や人物を分類する。そのため、このように分類された結果をユーザに提示することによっても、ユーザが検索結果を閲覧する時の負担を低減できる。
 例えば、特許文献1に記載された概念検索システムでは、検索用文章をもとに検索用文章ベクトルを作成するが、画像ファイルや人物などからは検索用文章ベクトルを生成できないため、これらの情報を分類することが出来ない。しかし、本発明によれば、画像や人物など内容語を含まない情報を検索した結果であっても、関係するプロジェクトや業務単位で分類できる。
 また、空間配置演算部131が、第1の種類の情報と、その第1の種類の情報の属性を表す内容とは異なる第2の種類の情報との関係性をもとに、第2の種類の情報(また第1の種類の情報)を空間配置してもよい。この場合、上記効果に加え、分類する際に使用する情報が、検索された情報の属性を表す内容とは異なる種類の情報であっても、検索された情報を適切なグループに分類できる。
 例えば、「人物」は、「文書」または「メール」の属性を表す内容とは異なる種類の情報であると言える。しかし、本発明によれば、このような情報であっても、検索対象の情報を適切にグループ化できる。
 なお、本実施形態では、「人物」と、「文書」または「メール」との関係性を用いて説明した。この2つの情報(すなわち、「文書」または「メール」と、「人物」)の関係性は、それぞれの情報を分類するために有効に作用すると考えられ、また、この2つの情報の関係のデータは、比較的入手がしやすい。そのため、この2つの情報を分類対象とすることにより、それぞれの情報を適切なグループに分類できる。
 次に、本発明における変形例について説明する。上記実施形態では、関係情報検索部122が、2種類の情報群と、それらの情報群の関係性情報を生成し、空間配置演算部131が、一方の種類の情報群を空間配置し、その空間配置をもとに、もう一方の情報群を空間配置する場合について説明した。本変形例では、関係情報検索部122が、3種類以上の情報群と、それらの情報群の関係性情報を生成し、空間配置演算部131が、各種類の情報群を順次空間配置する点において、上記実施形態と異なる。それ以外については、上記実施形態と同様である。
 関係情報検索部122は、情報検索部121から受け取った検索結果(すなわち、第1の情報群)をもとに関係性記憶部162を検索し、第1の情報群に関係する管理情報を検索する。これを、第2の情報群と記す。そして、関係情報検索部122は、第1の情報群と第2の情報群との関係性情報(第1-第2関係性情報と記す。)を生成する。
 さらに、関係情報検索部122は、第2の情報群をもとに関係性記憶部162を検索し、第2の情報群に関係する管理情報を検索する。これを、第3の情報群と記す。そして、関係情報検索部122は、第2の情報群と第3の情報群との関係性情報(第2-第3関係性情報と記す。)を生成する。ここで、関係情報検索部122は、第1の情報群と第3の情報群との関係性情報(第1-第3関係性情報と記す。)を生成してもよい。以上の処理を、分類するために使用する関係情報の数だけ繰り返す。
 そして、関係情報検索部122は、検索した複数の情報群(例えば、第1の情報群、第2の情報群及び第3の情報群)と、複数の関係性情報(例えば、第1-第2関係性情報及び第2-第3関係性情報)を併せて、分類部130に通知する。
 空間配置演算部131は、関係情報検索部122から受け取った複数の情報群(例えば、第1の情報群、第2の情報群及び第3の情報群)と、複数の関係性情報(例えば、第1-第2関係性情報及び第2-第3関係性情報)とをもとに、各情報群に含まれる情報を空間配置する。具体的には、空間配置演算部131は、関係性情報をもとに、第1の種類の情報を空間配置し、空間配置した第1の種類の情報の重み付き重心に、第2の種類の情報を空間配置する。さらに、空間配置演算部131は、空間配置した第2の種類の情報の重み付き重心に、第3の情報群に含まれる情報を空間配置する。このように、空間配置演算部131は、空間配置した情報の重み付き重心に、順次他の情報群の情報を空間配置する処理を繰り返す。なお、空間配置演算部131は、用いる情報の種類の数に応じ、3次元や4次元などの多次元の座標空間に情報を配置してもよい。
 なお、その他の構成については、上記実施形態と同様であるため、説明を省略する。
 以上のように、本変形例によれば、空間配置演算部131は、第1の種類の情報群と第2の種類の情報群との関係性に基づいて第1の種類の情報群を空間配置する処理を実行する。さらに、空間配置演算部131は、その処理結果及び第1の種類とは異なる他の種類の情報群(例えば、第3の情報群)との関係性に基づいてその他の種類の情報群(例えば、第3の情報群)を配置する。そして、クラスタリング部132は、第2の種類とは異なる他の種類の情報群(第3の情報群や、分類するために使用する他の情報群)の配置結果に基づいて、第1の情報種別の情報群を分類する。このように、3種類以上の情報を利用しても、検索された情報を分類できる。
 以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。図12及び図13は、入出力部150が検索要求を受け付ける画面の例を示す説明図である。ユーザはこれらの画面に対して、検索語とその他の詳細な条件を入力する。なお、詳細な条件は、予め設定されていてもよい。この場合、ユーザは、詳細な条件を入力しなくてもよい。例えば、図13に例示する画面で、分類基準情報として予め「人物」が選択されている場合、分類基準情報を特に指定しない場合には、予め選択された「人物」を分類基準情報としてもよい。
 図12に示す例では、検索語として「自動車」が入力され、検索対象情報として「文書」と「メール」が選択されたことを示す。また、分類基準情報として、予め「人物」が選択されていることを示す。また、図13に例示する画面を利用し、ユーザは、検索対象の情報(第1の情報群)の種別や、分類に用いる情報(第2の情報群)の種別、検索件数やクラスタリング階層の有無などを設定することができる。
 第1の実施例では、第1の情報群として「メール」または「文書」が、第2の情報群として「人物」が、それぞれ指定されたときに、第1の情報群(すなわち、「メール」または「文書」)を分類する場合について説明する。
 図14は、第1の実施例における処理全体の例を示す説明図である。まず、ユーザが図12及び図13に例示する画面を介して検索語を入力すると(ステップS801)、情報検索部121は、その検索語に関係する「文書」または「メール」を検索する(ステップS802)。そして、関係情報検索部122は、検索結果の「文書」または「メール」に関係する「人物」を検索する(ステップS803)。ここで、空間配置演算部131は、「文書」または「メール」と、「人物」との関係性から関係行列を作成して人物を空間配置する(ステップS804)。さらに、空間配置演算部131は、空間配置された「人物」の座標をもとに、「文書」または「メール」を配置する(ステップS805)。そして、クラスタリング部132は、配置された「文書」または「メール」をクラスタリングする(ステップS806)。その後、代表情報抽出部133は、各クラスタの代表情報を抽出する(ステップS807)。また、クラスタラベル演算部134は、各クラスタのラベルを決定し、クラスタごとにそのラベルを付与する(ステップS809)。そして、入出力部150は、分類部130から受け取った代表情報や特徴語、各クラスタに分類された情報(名前や属性などを含む)などをもとに、ユーザに提示するための表示画面を生成し、その表示画面を出力する。
 図15は、本実施例における入出力部150が出力する検索結果画面の例を示す説明図である。図15の例に示すように、入出力部150は、検索結果画面に階層化されたクラスタをツリー形式などで表示する。なお、検索結果画面の表示形式はツリー形式に限定されない。例えば、入出力部150は、検索結果を一覧表形式で表示してもよい。このとき、ユーザは必要とするクラスタを選択することで、そのクラスタに含まれる文書またはメールを手に入れることができる。
 なお、本実施例では、第1の情報群として「文書」または「メール」が指定された場合について説明した。第1の情報群には、複数の種類の情報を指定してもよく、「文書」のみ、もしくは、「メール」のみのように、1種類の情報を指定してもよい。
 次に、第2の実施例について説明する。第1の実施例では、第1の情報群(すなわち、「文書」または「メール」)を分類する場合について説明した。第2の実施例では、第1の情報群として「文書」が、第2の情報群として「人物」が、それぞれ指定されたときに、第2の情報群(すなわち、「人物」)を分類する場合について説明する。
 まず、検索語が入力されると、情報検索部121は、その検索語に関係する「文書」を検索する。そして、関係情報検索部122は、検索結果の「文書」に関係する「人物」を検索する。ここで、空間配置演算部131は、「文書」と、「人物」との関係性から関係行列を作成して「文書」を空間配置する。さらに、空間配置演算部131は、空間配置された「文書」の座標をもとに「人物」を配置する。そして、クラスタリング部132は、配置された「人物」をクラスタリングする。
 このように、第2の実施例によれば、情報間の関係性をもとに文書を空間配置し、その結果から人物を空間配置することで、関係する業務やプロジェクトごとに対象の人物を分類できる。このように分類された結果をユーザに提示することにより、ユーザが検索結果を閲覧する時の負担を低減できる。
 次に、第3の実施例について説明する。第1の実施例及び第2の実施例では、2つの情報群を空間配置する場合について説明した。第3の実施例では、3つの情報群を空間配置する場合について説明する。具体的には、第1の情報群として「文書」が、第2の情報群として「メール」が、第3の情報群として「人物」がそれぞれ指定されたときに、第1の情報群(すなわち、「文書」)を分類する場合について説明する。
 まず、検索語が入力されると、情報検索部121は、その検索語に関係する「文書」を検索する。そして、関係情報検索部122は、検索結果の「文書」に関係する「メール」を検索する。さらに、関係情報検索部122は、検索結果の「メール」に関係する「人物」を検索する。ここで、空間配置演算部131は、「人物」と「メール」との関係性から関係行列を作成して「人物」を空間配置する。次に、空間配置演算部131は、空間配置された「人物」の座標をもとに「メール」を配置する。さらに、空間配置演算部131は、空間配置された「メール」の座標をもとに「文書」を配置する。そして、クラスタリング部132は、配置された「文書」をクラスタリングする。このように、3つの情報群を使用しても、検索対象の情報をクラスタリングできる。
 次に、第4の実施例について説明する。第4実施例では、4つの情報群を空間配置する場合について説明する。具体的には、第1の情報群として「文書」が、第2の情報群として「メール」が、第3の情報群として「プロジェクト」が、第4の情報群として「人物」がそれぞれ指定されたときに、第1の情報群(すなわち、「文書」)を分類する場合について説明する。
 まず、検索語が入力されると、情報検索部121は、その検索語に関係する「文書」を検索する。そして、関係情報検索部122は、検索結果の「文書」に関係する「メール」を検索する。次に、関係情報検索部122は、検索結果の「メール」に関係する「プロジェクト」を検索する。さらに、関係情報検索部122は、検索結果の「プロジェクト」に関係する「人物」を検索する。
 ここで、空間配置演算部131は、「人物」と「プロジェクト」との関係性から関係行列を作成して「人物」を空間配置する。次に、空間配置演算部131は、空間配置された「人物」の座標をもとに「プロジェクト」を配置する。さらに、空間配置演算部131は、空間配置された「プロジェクト」の座標をもとに「メール」を配置する。最後に、空間配置演算部131は、空間配置された「メール」の座標をもとに「文書」を配置する。そして、クラスタリング部132は、配置された「文書」をクラスタリングする。このように、3種類以上(ここでは、4種類)の情報を使用しても、検索対象の情報をクラスタリングできる。
 次に、第5の実施例について説明する。第5の実施例では、3つの情報群を空間配置する点において、第3の実施例と同様であるが、各情報群に、複数種類の情報を含んでいる点において、第3の実施例と異なる。具体的には、第1の情報群として「文書」または「メール」が、第2の情報群として「イベント」または「スケジュール」が、第3の情報群として「人物」がそれぞれ指定されたときに、第1の情報群(すなわち、「文書」または「メール」)を分類する場合について説明する。
 まず、検索語が入力されると、情報検索部121は、その検索語に関係する「文書」または「メール」を検索する。そして、関係情報検索部122は、検索結果の「文書」または「メール」に関係する「イベント」または「スケジュール」を検索する。さらに、関係情報検索部122は、検索結果の「イベント」または「スケジュール」に関係する「人物」を検索する。ここで、空間配置演算部131は、「人物」と、「イベント」または「スケジュール」との関係性から関係行列を作成して「人物」を空間配置する。次に、空間配置演算部131は、空間配置された「人物」の座標をもとに「イベント」または「スケジュール」を配置する。さらに、空間配置演算部131は、空間配置された「イベント」または「スケジュール」の座標をもとに「文書」または「メール」を配置する。そして、クラスタリング部132は、配置された「文書」または「メール」をクラスタリングする。このように、各情報群に複数の種類の情報を使用しても、検索対象の情報をクラスタリングできる。
 次に、第6の実施例について説明する。第6の実施例では、3つの情報群を空間配置する点において、第3及び第5の実施例と同様であるが、情報群の中に、内容語を含まない情報群が存在する点において、第3及び第5の実施例と異なる。具体的には、第1の情報群として「文書」が、第2の情報群として「動画」が、第3の情報群として「出演人物」がそれぞれ指定されたときに、第2の情報群(すなわち、「動画」)を分類する場合について説明する。
 まず、検索語が入力されると、情報検索部121は、その検索語に関係する「文書」を検索する。そして、関係情報検索部122は、検索結果の「文書」に関係する「動画」を検索する。また、関係情報検索部122は、検索結果の「文書」に関係する「出演人物」を検索する。ここで、空間配置演算部131は、「文書」と「出演人物」との関係性から関係行列を作成して「出演人物」を空間配置する。次に、空間配置演算部131は、空間配置された「出演人物」の座標をもとに「文書」を配置する。さらに、空間配置演算部131は、空間配置された「文書」の座標をもとに「動画」を配置する。そして、クラスタリング部132は、配置された「動画」をクラスタリングする。このように、各情報群に複数の種類の情報を使用しても、検索対象の情報をクラスタリングできる。
 なお、「動画」をクラスタリングするため、別の関係性情報を用いてもよい。まず、検索対象情報として「動画」が指定されると、情報検索部121は、管理情報の中から「動画」を検索する。そして、関係情報検索部122は、検索結果の「動画」に関係する「文書」を検索する。さらに、関係情報検索部122は、検索結果の「文書」に関係する「出演人物」を検索する。ここで、空間配置演算部131は、「出演人物」と、「文書」との関係性から関係行列を作成して「出演人物」を空間配置する。次に、空間配置演算部131は、空間配置された「空間人物」の座標をもとに「文書」を配置する。さらに、空間配置演算部131は、空間配置された「文書」の座標をもとに「動画」を配置する。そして、クラスタリング部132は、配置された「動画」をクラスタリングする。このように、本実施例によれば、内容語を含まない情報に対してもクラスタリングできる。
 以上、具体的な実施例により本発明を説明したが、本発明は、以下に示す様々なシステムの検索機能にも適用することができる。例えば、本発明を適用できるシステムの例として、Web検索システム、グループウェア、文書共有システム、コンテンツマネージメントシステム、スケジュール管理システムなどが挙げられるが、本発明を適用できるシステムは、これらのシステムに限られない。他のシステムとして、タスク管理システムや、ウェブログシステムなども挙げられる。
 次に、本発明の最小構成を説明する。図16は、本発明の最小構成を示すブロック図である。本発明による情報分類装置は、第1の情報種別(例えば、第1の種類の情報)の情報群と第2の情報種別(例えば、第2の種類の情報)の情報群との関係性(例えば、関係性情報、重み値)に基づいて、第1の情報種別の情報群と第2の情報種別の情報群とを空間配置する処理を実行する空間配置手段81(例えば、空間配置演算部131)と、空間配置手段81による処理結果に基づいて、第1の情報種別の情報群を分類する分類手段82(例えば、クラスタリング部132)とを備えている。
 そのような構成により、検索された情報が同種の情報であっても、それらの情報を適切なグループに分類できる。
 また、少なくとも以下に示すような情報分類装置も、上記に示すいずれかの実施形態及び実施例に記載されていると言える。
(1)第1の情報種別(例えば、第1の種類の情報)の情報群と第2の情報種別(例えば、第2の種類の情報)の情報群との関係性(例えば、関係性情報、重み値)に基づいて、第1の情報種別の情報群と第2の情報種別の情報群とを空間配置する処理を実行する空間配置手段(例えば、空間配置演算部131)と、空間配置手段による処理結果に基づいて、第1の情報種別の情報群を分類する分類手段(例えば、クラスタリング部132)とを備えた情報分類装置。
(2)空間配置手段が、第1の情報種別(例えば、「文書」または「メール」)の情報群と第2の情報種別(例えば、「人物」)の情報群との関係性に基づいて第2の情報種別の情報群を空間配置する処理を実行し、その処理結果及び関係性に基づいて第1の情報種別の情報群を空間配置する処理を実行する情報分類装置。
(3)空間配置手段が、第1の情報種別の情報と第2の情報種別の情報との関係性の度合いを示す値である重み値が高くになるに従って距離(例えば、座標空間上の距離)が近くなるように空間配置する処理(例えば、関係行列B、関係行列Eを作成する処理)を実行する情報分類装置。
(4)空間配置手段が、第1の情報種別の情報群と、その第1の情報種別の情報(例えば、「文書」または「メール」)の属性を表す内容とは異なる情報である第2の情報種別(例えば、「人物」)の情報群との関係性に基づいて、第1の情報種別の情報群と第2の情報種別の情報群とを空間配置する処理を実行する情報分類装置。
(5)分類手段が分類した情報のグループの中から、そのグループの代表である代表情報を決定する代表情報決定手段(例えば、代表情報抽出部133)を備え、代表情報決定手段が、分類対象の各情報と、分類対象の情報以外の情報との関係性(例えば、関係する情報の個数)に基づいて代表情報を決定する情報分類装置。
(6)分類手段が分類した情報のグループごとの特徴を示す語(例えば、ラベル)を決定する特徴語決定手段(例えば、クラスタラベル演算部134)を備え、特徴語決定手段が、グループに含まれる情報のそれぞれから抽出した語をもとに、グループにおける特徴を示す語を決定する情報分類装置。
(7)空間配置手段が、文書またはメールと、人物情報との関係性に基づいて、人物情報を空間配置する処理を実行し、空間配置された人物情報の配置及び関係性に基づいて、文書またはメールを空間配置する処理を実行し、分類手段が、空間配置された文書またはメールの配置に基づいて、その文書またはメールを分類する情報分類装置。
(8)空間配置手段が、人物情報と、文書またはメールとの関係性に基づいて、文書またはメールを空間配置する処理を実行し、空間配置された文書またはメールの配置及び関係性に基づいて、人物情報を空間配置する処理を実行し、分類手段が、空間配置された人物情報の配置に基づいて、その人物情報を分類する情報分類装置。
(9)空間配置手段が、画像と人物情報との関係性に基づいて、人物情報を空間配置する処理を実行し、空間配置された人物情報の配置及び関係性に基づいて、画像を空間配置する処理を実行し、分類手段が、空間配置された画像の配置に基づいて、その画像を分類する情報分類装置。
(10)空間配置手段が、人物情報と画像との関係性に基づいて、画像を空間配置する処理を実行し、空間配置された画像の配置及び関係性に基づいて、人物情報を空間配置する処理を実行し、分類手段が、空間配置された人物情報の配置に基づいて、その人物情報を分類する情報分類装置。
(11)空間配置手段が、文書またはメールと、プロジェクトまたはイベントとの関係性に基づいて、プロジェクトまたはイベントを空間配置する処理を実行し、空間配置されたプロジェクトまたはイベントの配置及び関係性に基づいて、文書またはメールを空間配置する処理を実行し、分類手段が、空間配置された文書またはメールの配置に基づいて、その文書またはメールを分類する情報分類装置。
(12)空間配置手段が、プロジェクトまたはイベントと、文書またはメールとの関係性に基づいて、文書またはメールを空間配置する処理を実行し、空間配置された文書またはメールの配置及び関係性に基づいて、プロジェクトまたはイベントを空間配置する処理を実行し、分類手段が、空間配置されたプロジェクトまたはイベントの配置に基づいて、そのプロジェクトまたはイベントを分類する情報分類装置。
(13)空間配置手段が、第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて第2の情報種別の情報群を空間配置する処理を実行し、その処理結果及び第1の情報種別とは異なる他の情報種別の情報群(例えば、第3の情報群)との関係性に基づいてその他の情報種別の情報群(例えば、第3の情報群)を配置し、分類手段が、第2の情報種別とは異なる他の情報種別の情報群(第3の情報群や、分類するために使用する他の情報群)の配置結果に基づいて、第1の情報種別の情報群を分類する情報分類装置。
 以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2009年6月29日に出願された日本特許出願2009-154212を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、検索した情報を適切なグループに分類する情報分類装置に好適に適用される。
 101 サーバ
 110 演算装置
 120 検索部
 121 情報検索部
 122 関係情報検索部
 130 分類部
 131 空間配置演算部
 132 クラスタリング部
 133 代表情報抽出部
 134 クラスタラベル演算部
 140 登録部
 150 入出力部
 160 記憶装置
 161 情報記憶部
 162 関係性記憶部
 171 メールシステム
 172 文書管理システム
 173 スケジュール管理システム

Claims (19)

  1.  第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて、前記第1の情報種別の情報群と前記第2の情報種別の情報群とを空間配置する処理を実行する空間配置手段と、
     前記空間配置手段による処理結果に基づいて、前記第1の情報種別の情報群を分類する分類手段とを備えた
     ことを特徴とする情報分類装置。
  2.  空間配置手段は、第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて前記第2の情報種別の情報群を空間配置する処理を実行し、当該処理結果及び前記関係性に基づいて前記第1の情報種別の情報群を空間配置する処理を実行する
     請求項1記載の情報分類装置。
  3.  空間配置手段は、第1の情報種別の情報と第2の情報種別の情報との関係性の度合いを示す値である重み値が高くになるに従って距離が近くなるように空間配置する処理を実行する
     請求項1または請求項2記載の情報分類装置。
  4.  空間配置手段は、第1の情報種別の情報群と、当該第1の情報種別の情報の属性を表す内容とは異なる情報である第2の情報種別の情報群との関係性に基づいて、前記第1の情報種別の情報群と前記第2の情報種別の情報群とを空間配置する処理を実行する
     請求項1から請求項3のうちの記載の情報分類装置。
  5.  分類手段が分類した情報のグループの中から、当該グループの代表である代表情報を決定する代表情報決定手段を備え、
     前記代表情報決定手段は、分類対象の各情報と、分類対象の情報以外の情報との関係性に基づいて前記代表情報を決定する
     請求項1から請求項4のうちのいずれか1項に記載の情報分類装置。
  6.  分類手段が分類した情報のグループごとの特徴を示す語を決定する特徴語決定手段を備え、
     前記特徴語決定手段は、前記グループに含まれる前記情報のそれぞれから抽出した語をもとに、前記グループにおける特徴を示す語を決定する
     請求項1から請求項5のうちのいずれか1項に記載の情報分類装置。
  7.  空間配置手段は、文書またはメールと、人物情報との関係性に基づいて、前記人物情報を空間配置する処理を実行し、空間配置された人物情報の配置及び前記関係性に基づいて、前記文書またはメールを空間配置する処理を実行し、
     分類手段は、空間配置された文書またはメールの配置に基づいて、当該前記文書またはメールを分類する
     請求項1から請求項6のうちのいずれか1項に記載の情報分類装置。
  8.  空間配置手段は、人物情報と、文書またはメールとの関係性に基づいて、前記文書またはメールを空間配置する処理を実行し、空間配置された文書またはメールの配置及び前記関係性に基づいて、前記人物情報を空間配置する処理を実行し、
     分類手段は、空間配置された人物情報の配置に基づいて、当該人物情報を分類する
     請求項1から請求項6のうちのいずれか1項に記載の情報分類装置。
  9.  空間配置手段は、画像と人物情報との関係性に基づいて、前記人物情報を空間配置する処理を実行し、空間配置された人物情報の配置及び前記関係性に基づいて、前記画像を空間配置する処理を実行し、
     分類手段は、空間配置された画像の配置に基づいて、当該画像を分類する
     請求項1から請求項6のうちのいずれか1項に記載の情報分類装置。
  10.  空間配置手段は、人物情報と画像との関係性に基づいて、前記画像を空間配置する処理を実行し、空間配置された画像の配置及び前記関係性に基づいて、前記人物情報を空間配置する処理を実行し、
     分類手段は、空間配置された人物情報の配置に基づいて、当該人物情報を分類する
     請求項1から請求項6のうちのいずれか1項に記載の情報分類装置。
  11.  空間配置手段は、文書またはメールと、プロジェクトまたはイベントとの関係性に基づいて、前記プロジェクトまたはイベントを空間配置する処理を実行し、空間配置されたプロジェクトまたはイベントの配置及び前記関係性に基づいて、前記文書またはメールを空間配置する処理を実行し、
     分類手段は、空間配置された文書またはメールの配置に基づいて、当該文書またはメールを分類する
     請求項1から請求項6のうちのいずれか1項に記載の情報分類装置。
  12.  空間配置手段は、プロジェクトまたはイベントと、文書またはメールとの関係性に基づいて、前記文書またはメールを空間配置する処理を実行し、空間配置された文書またはメールの配置及び前記関係性に基づいて、前記プロジェクトまたはイベントを空間配置し、
     分類手段は、空間配置されたプロジェクトまたはイベントの配置に基づいて、当該プロジェクトまたはイベントを分類する
     請求項1から請求項6のうちのいずれか1項に記載の情報分類装置。
  13.  空間配置手段は、第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて前記第2の情報種別の情報群を空間配置する処理を実行し、当該処理結果及び第1の情報種別とは異なる他の情報種別の情報群との関係性に基づいて当該他の情報種別の情報群を配置し、
     分類手段は、第2の情報種別とは異なる他の情報種別の情報群の配置結果に基づいて、第1の情報種別の情報群を分類する
     請求項1記載の情報分類装置。
  14.  第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて、前記第1の情報種別の情報群と前記第2の情報種別の情報群とを空間配置する処理を実行し、
     前記処理結果に基づいて、前記第1の情報種別の情報群を分類する
     ことを特徴とする情報分類方法。
  15.  第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて前記第2の情報種別の情報群を空間配置する処理を実行し、当該処理結果及び前記関係性に基づいて前記第1の情報種別の情報群を空間配置する処理を実行する
     請求項14記載の情報分類方法。
  16.  第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて前記第2の情報種別の情報群を空間配置する処理を実行し、
     前記処理結果及び第1の情報種別とは異なる他の情報種別の情報群との関係性に基づいて当該他の情報種別の情報群を配置し、
     第2の情報種別とは異なる他の情報種別の情報群の配置結果に基づいて、第1の情報種別の情報群を分類する
     請求項14記載の情報分類方法。
  17.  コンピュータに、
     第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて、前記第1の情報種別の情報群と前記第2の情報種別の情報群とを空間配置する処理を実行する空間配置処理、および、
     前記空間配置処理の処理結果に基づいて、前記第1の情報種別の情報群を分類する分類処理
     を実行させるための情報分類プログラム。
  18.  コンピュータに、
     空間配置処理で、第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて前記第2の情報種別の情報群を空間配置する処理を実行させ、当該処理結果及び前記関係性に基づいて前記第1の情報種別の情報群を空間配置する処理を実行させる
     請求項17記載の情報分類プログラム。
  19.  コンピュータに、
     空間配置処理で、第1の情報種別の情報群と第2の情報種別の情報群との関係性に基づいて前記第2の情報種別の情報群を空間配置する処理を実行させ、当該処理結果及び第1の情報種別とは異なる他の情報種別の情報群との関係性に基づいて当該他の情報種別の情報群を配置させ、
     分類処理で、第2の情報種別とは異なる他の情報種別の情報群の配置結果に基づいて、第1の情報種別の情報群を分類させる
     請求項17記載の情報分類プログラム。
PCT/JP2010/003205 2009-06-29 2010-05-12 情報分類装置、情報分類方法及び情報分類プログラム WO2011001584A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/378,637 US20120096003A1 (en) 2009-06-29 2010-05-12 Information classification device, information classification method, and information classification program
JP2011520746A JPWO2011001584A1 (ja) 2009-06-29 2010-05-12 情報分類装置、情報分類方法及び情報分類プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009154212 2009-06-29
JP2009-154212 2009-06-29

Publications (1)

Publication Number Publication Date
WO2011001584A1 true WO2011001584A1 (ja) 2011-01-06

Family

ID=43410677

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/003205 WO2011001584A1 (ja) 2009-06-29 2010-05-12 情報分類装置、情報分類方法及び情報分類プログラム

Country Status (3)

Country Link
US (1) US20120096003A1 (ja)
JP (1) JPWO2011001584A1 (ja)
WO (1) WO2011001584A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5723067B1 (ja) * 2014-02-04 2015-05-27 株式会社Ubic データ分析システム、データ分析方法、および、データ分析プログラム
JP2016170765A (ja) * 2015-03-13 2016-09-23 ネイバー コーポレーションNAVER Corporation 効率的なメール検索のためのメールサービスシステムおよび方法
US9612463B2 (en) 2011-06-22 2017-04-04 Continental Automotive Gmbh Display device having a liquid crystal display and method for protecting a liquid crystal display
JP2022026987A (ja) * 2020-07-31 2022-02-10 ウーブン・コア株式会社 情報検索表示システム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5585472B2 (ja) * 2011-01-28 2014-09-10 富士通株式会社 情報照合装置、情報照合方法および情報照合プログラム
JP5899946B2 (ja) * 2012-01-17 2016-04-06 富士通株式会社 分割装置、分割方法、および分割プログラム
WO2016157336A1 (ja) * 2015-03-27 2016-10-06 株式会社日立製作所 文書検索システムおよび検索方法
WO2019026152A1 (ja) * 2017-07-31 2019-02-07 楽天株式会社 処理システム、処理装置、処理方法、プログラム、ならびに、情報記録媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11149485A (ja) * 1997-09-24 1999-06-02 Ricoh Co Ltd 文書画像データベース検索方法、文書画像データベース編成方法、記録媒体、及び、文書画像データベース編成装置
JP2001306594A (ja) * 2000-04-19 2001-11-02 Mitsubishi Electric Corp 情報検索装置及び情報検索プログラムを格納した記憶媒体
JP2001331516A (ja) * 2000-05-23 2001-11-30 Matsushita Electric Ind Co Ltd データ分析方法、情報探索方法および情報推薦方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4173246B2 (ja) * 1999-04-28 2008-10-29 株式会社リコー 類似画像表示方法及び類似画像表示処理プログラムを格納した記録媒体
KR100426382B1 (ko) * 2000-08-23 2004-04-08 학교법인 김포대학 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
AU2003900520A0 (en) * 2003-02-06 2003-02-20 Email Analysis Pty Ltd Information classification and retrieval using concept lattices
US20090024598A1 (en) * 2006-12-20 2009-01-22 Ying Xie System, method, and computer program product for information sorting and retrieval using a language-modeling kernel function

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11149485A (ja) * 1997-09-24 1999-06-02 Ricoh Co Ltd 文書画像データベース検索方法、文書画像データベース編成方法、記録媒体、及び、文書画像データベース編成装置
JP2001306594A (ja) * 2000-04-19 2001-11-02 Mitsubishi Electric Corp 情報検索装置及び情報検索プログラムを格納した記憶媒体
JP2001331516A (ja) * 2000-05-23 2001-11-30 Matsushita Electric Ind Co Ltd データ分析方法、情報探索方法および情報推薦方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9612463B2 (en) 2011-06-22 2017-04-04 Continental Automotive Gmbh Display device having a liquid crystal display and method for protecting a liquid crystal display
JP5723067B1 (ja) * 2014-02-04 2015-05-27 株式会社Ubic データ分析システム、データ分析方法、および、データ分析プログラム
JP2016170765A (ja) * 2015-03-13 2016-09-23 ネイバー コーポレーションNAVER Corporation 効率的なメール検索のためのメールサービスシステムおよび方法
US10762096B2 (en) 2015-03-13 2020-09-01 Naver Corporation Method for providing mail search result including at least one mail card, and mail service system for performing same
JP2022026987A (ja) * 2020-07-31 2022-02-10 ウーブン・コア株式会社 情報検索表示システム
JP7353247B2 (ja) 2020-07-31 2023-09-29 ウーブン・バイ・トヨタ株式会社 情報検索表示システム

Also Published As

Publication number Publication date
JPWO2011001584A1 (ja) 2012-12-10
US20120096003A1 (en) 2012-04-19

Similar Documents

Publication Publication Date Title
WO2011001584A1 (ja) 情報分類装置、情報分類方法及び情報分類プログラム
US10929605B1 (en) Methods and apparatus for sentiment analysis
CN115699109A (zh) 使用多模态融合框架来处理承载有图像的电子文档
Rusyn et al. The virtual library system design and development
JPWO2007119567A1 (ja) 文書処理装置および文書処理方法
US20120046937A1 (en) Semantic classification of variable data campaign information
JP2014153744A (ja) 情報検索装置及び情報検索プログラム
EP3343362A1 (en) Tools for designing applications with an automatic determination of content of interest and generation of layout based on content of interest
JP4361526B2 (ja) 評判情報処理装置、評判情報処理方法、評判情報処理プログラム、及び記録媒体
US20160085389A1 (en) Knowledge automation system thumbnail image generation
CN109952571A (zh) 基于上下文的图像搜索结果
JPWO2014049708A1 (ja) 文書分析装置およびプログラム
US20170242851A1 (en) Non-transitory computer readable medium, information search apparatus, and information search method
JP6144968B2 (ja) 情報提示装置、方法、及びプログラム
JP2010224625A (ja) キーワード二次元可視化方法およびキーワード二次元可視化プログラム
JP4667889B2 (ja) データマップ作成サーバ、およびデータマップ作成プログラム
JP6140835B2 (ja) 情報検索システムおよび情報検索方法
US8195458B2 (en) Open class noun classification
EP4002151A1 (en) Data tagging and synchronisation system
US11475485B2 (en) Automated curation of digital information and user interface for same
CN109213830B (zh) 专业性技术文档的文档检索系统
KR20100088892A (ko) 문서 분류 시스템
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP6887002B2 (ja) 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム
US20230215207A1 (en) Geographic management of document content

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10793762

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13378637

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2011520746

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10793762

Country of ref document: EP

Kind code of ref document: A1