WO2022014328A1 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2022014328A1
WO2022014328A1 PCT/JP2021/024674 JP2021024674W WO2022014328A1 WO 2022014328 A1 WO2022014328 A1 WO 2022014328A1 JP 2021024674 W JP2021024674 W JP 2021024674W WO 2022014328 A1 WO2022014328 A1 WO 2022014328A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
information processing
processing apparatus
classification
keyword
Prior art date
Application number
PCT/JP2021/024674
Other languages
English (en)
French (fr)
Inventor
寿理 八重田
由紀子 荒川
早紀 横山
千明 宮崎
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2022536235A priority Critical patent/JPWO2022014328A1/ja
Publication of WO2022014328A1 publication Critical patent/WO2022014328A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Definitions

  • This disclosure relates to an information processing device and an information processing method.
  • general terms are extracted from sentences based on predefined part of speech information
  • compound words different from general terms are extracted from sentences based on the frequency of occurrence of compound words as user terms. ..
  • the prior art does not always allow the data to be properly classified.
  • the prior art classifies sentences using keywords extracted from the sentences to be classified. Therefore, the conventional technique is different when compared as a character string, but conceptually, when keywords having the same meaning are extracted, those sentences cannot be classified into the same category.
  • the information processing apparatus has a keyword extraction unit that extracts keywords from each of a plurality of data to be classified, and a keyword extraction unit that extracts keywords from each of the plurality of data. It is provided with a classification unit for classifying the plurality of data by using related words related to the extracted keyword which is a keyword.
  • Embodiment 1-1 Outline of information processing according to the embodiment of the present disclosure 1-1-1. Keyword extraction 1-1-2. Data classification 1-1-3. Classification processing example 1-1-4. Processing example using related words 1-1-5. Background and effects 1-2. Configuration of Information Processing Device According to Embodiment 1-3. Information processing procedure according to the embodiment 1-4. Example of keyword extraction other than sentences 1-5. Classification update example 1-6. Classification conditions 2. Other Embodiments 2-1. Modification example 2-1-1. Classification according to user 2-2. Other configuration examples 2-3. Others 3. Effect of this disclosure 4. Hardware configuration
  • the information processing according to the embodiment of the present disclosure is realized by the information processing apparatus 100 (FIG. 10).
  • the information processing apparatus 100 extracts a keyword (hereinafter, also referred to as “extracted keyword”) from each of a plurality of data to be classified, and a keyword related to each extracted keyword of the plurality of data (hereinafter, also referred to as “related word”). ) Is used to classify multiple data.
  • the keyword here is a character string indicating the meaning (content) of the data.
  • related words include hypernyms of extracted keywords, keywords in which extracted keywords are paraphrased into other expressions (hereinafter also referred to as “paraphrases”), or keywords associated with extracted keywords (hereinafter also referred to as “associative words”).
  • paraphrases keywords in which extracted keywords are paraphrased into other expressions
  • associate words keywords associated with extracted keywords
  • text data (hereinafter, also referred to as "text” and “document”) will be mainly described, but a plurality of data to be classified are also referred to as image data (hereinafter, also referred to as "image”). ) May be included.
  • image data hereinafter, also referred to as "image”
  • the plurality of data to be classified include time-series data such as video data (hereinafter also referred to as "video”), audio data (hereinafter also referred to as “audio”), and waveform data (hereinafter also referred to as "waveform”). May be included. That is, any kind of data may be included in the plurality of data to be classified as long as the extraction keyword can be extracted.
  • FIG. 1 is a diagram showing an example of a keyword extraction process according to an embodiment of the present disclosure.
  • the keyword extraction process of FIG. 1 is executed by the keyword extraction unit 152 (see FIG. 10) of the information processing apparatus 100.
  • FIG. 1 shows, as an example, a case where an extraction keyword is extracted from a sentence X which is one data DT1 in a data group to be separated.
  • the information processing apparatus 100 extracts the extracted keyword from the sentence X by using the text mining technique (step S1).
  • the information processing apparatus 100 extracts the extracted keyword from the sentence X by morphological analysis, word count, co-occurrence network, or the like.
  • the information processing apparatus 100 extracts character strings such as “dog”, “pet”, “chihuahua”, “hut”, and “cute” from the sentence X as extraction keywords, as shown in the keyword information KX.
  • the information processing apparatus 100 may specify the part of speech of each extracted keyword and associate the information of the specified part of speech with each extracted keyword.
  • the extracted keyword extracted from the sentence X is a word having an important meaning in the sentence X.
  • the information processing apparatus 100 calculates points for each extracted keyword of the sentence X according to the degree of association with the sentence X, and assigns the calculated points to each extracted keyword. For example, the information processing apparatus 100 calculates the points of each extracted keyword by using the method of TF-IDF, which is a method of evaluating the importance of words in a sentence (document). Further, the information processing apparatus 100 corrects (normalizes) so that the total of the points given to the extracted keywords becomes 1. In the example of FIG. 1, the information processing apparatus 100 sets the point of "dog” to "0.6", the point of "pet” to "0.2", and the point of "chihuahua" for each extraction keyword of sentence X.
  • TF-IDF is a method of evaluating the importance of words in a sentence (document).
  • the information processing apparatus 100 is not limited to the TF-IDF, and the points of each extracted keyword may be calculated by any method as long as the points can be calculated.
  • the information processing apparatus 100 may use frequency as a point. In this case, the information processing apparatus 100 may calculate the points so that the more frequently the extracted keywords are, the larger the points are.
  • the information processing apparatus 100 calculates points for data other than sentences, the information processing apparatus 100 calculates points according to the type of data. For example, when the data is an image, the information processing apparatus 100 may calculate the extraction keyword indicating the object included in the image by using the ratio of the object in the image as a point. Further, for example, when the data is a moving image, the information processing apparatus 100 may calculate the extraction keyword indicating the object included in the moving image by using the time when the object is shown in the moving image as a point. Details of data other than sentences will be described later.
  • the maximum number of keywords extracted from each data may be limited. For example, when the maximum number of extractions is specified as "4", the information processing apparatus 100 extracts extraction keywords from each data up to four. In this case, the information processing apparatus 100 may extract the extracted keywords from the data, calculate the points of each extracted keyword, and then exclude the extracted keywords other than the four extracted keywords having the larger points.
  • FIG. 2 is a diagram showing an outline of data classification processing according to the embodiment of the present disclosure.
  • the classification process of FIG. 2 is executed by the classification unit 154 (see FIG. 10) of the information processing apparatus 100.
  • the example of FIG. 2 shows an outline of processing when a plurality of data such as sentence A, sentence B, sentence C, and sentence D are classified.
  • the keyword information KA indicates an extracted keyword extracted from the sentence A by the information processing apparatus 100.
  • Keyword information KB, KC, and KD indicate extracted keywords extracted from each of sentence B, sentence C, and sentence D by the information processing apparatus 100.
  • the information processing apparatus 100 classifies a plurality of data such as sentence A, sentence B, sentence C, and sentence D by using the keyword information KA, KB, KC, KD, etc. (step S2).
  • the information processing apparatus 100 extracts a plurality of data such as sentence A, sentence B, sentence C, and sentence D based on the commonality of the extracted keywords, and classifies the plurality of data as shown in the classification result RS1. It is classified into (hereinafter also referred to as "group").
  • the information processing apparatus 100 classifies sentences A, B, etc. into a group shown as "classification # 1", and classifies sentences C, D, etc. into a group shown as "classification # 2".
  • the information processing device 100 classifies the data group with an appropriate particle size based on the extracted extraction keywords. For example, if the information processing apparatus 100 has an existing classification result, the new classification target may be classified using the existing classification result.
  • FIG. 3 is a flowchart showing a procedure for executing the classification process. For example, when there is a classification result RS1 shown in FIG. 2, a case where a new data DX is classified as a classification target will be described as an example.
  • the information processing apparatus 100 determines whether the new data applies to the existing classification (step S11). For example, the information processing apparatus 100 determines whether the data DX falls under any of the existing classifications "classification # 1" and "classification # 2".
  • the information processing apparatus 100 determines whether the particle size is appropriate (step S12). For example, the information processing apparatus 100 determines that the granularity is not appropriate when the number of data in the group to which the data DX is added exceeds the upper limit of the number of data belonging to one group (also referred to as "maximum number of items"). do.
  • step S12 the information processing apparatus 100 adds new data to the corresponding classification and ends the process. For example, when the number of data in the "classification # 1" to which the data DX is added is less than or equal to the maximum number of items, the information processing apparatus 100 adds the data DX to the corresponding "classification # 1" and ends the process. ..
  • the information processing apparatus 100 executes the classification process (step S13) when the new data applies to the existing classification (step S11: No). For example, the information processing apparatus 100 reclassifies the entire data group to which new data is added. Further, when the particle size is not appropriate (step S12: No), the information processing apparatus 100 executes the classification process (step S13).
  • the information processing apparatus 100 appropriately uses various information to determine whether the new data is applicable to the existing classification or whether the particle size is appropriate. An example will be described below on this point.
  • FIG. 4 is a diagram showing an example of data classification.
  • FIG. 5 is a diagram showing an example of data classification results.
  • the particle size of the classification greatly affects the searchability of the data group.
  • the user who uses the information processing apparatus 100 sets the particle size of classification by designating the maximum number of items or the classification threshold value.
  • the maximum number of items is the maximum number of items (data) included in one classification (group).
  • the classification threshold value is used as a standard for determining whether or not to classify based on whether the score (point) of a group such as the classification classified by a certain common keyword exceeds the threshold value.
  • the classification threshold is used for comparison with the average value of the points of the common keyword of each data in the group classified by the common keyword (hereinafter, also referred to as “group points”).
  • the four data of the sentence A, the sentence B, the sentence C, and the sentence D are extracted by the information processing apparatus 100, and the extracted keywords are extracted. Points have been calculated.
  • the data group consists of four sentences A, sentence B, sentence C, and sentence D, and the maximum number of items is "4" or less, and the information processing apparatus 100 determines that classification is unnecessary.
  • the information processing apparatus 100 has a "tennis” point of "0.4", a "sports” point of "0.3”, and a "professional” point of "0.15" for each extracted keyword of sentence A. Normalize the "court” points to "0.12" and the "player” points to "0.03". The information processing apparatus 100 similarly normalizes the points of the extracted keywords of the sentence B, the sentence C, and the sentence D.
  • sentence E is newly added.
  • the extracted keyword is extracted by the information processing apparatus 100, and the points of the extracted keyword are calculated.
  • the information processing apparatus 100 sets the point of "hamster” to "0.5", the point of "pet” to “0.4”, and the point of "childbirth” to "0.04" for each extracted keyword of sentence E. Normalize the point of "turning wheel” to "0.03" and the point of "discipline” to "0.03".
  • the data group consists of five sentences A, sentence B, sentence C, sentence D, and sentence E, which exceeds the maximum number of items "4". Therefore, the information processing apparatus 100 determines that the particle size is inappropriate.
  • the classification process is executed (step S21).
  • the information processing apparatus 100 executes the classification process using the extracted keyword and the assigned point.
  • the information processing apparatus 100 compares the extraction keywords of each data and identifies the data in which the extraction keywords are common. For example, the information processing apparatus 100 specifies that the sentence A and the sentence B are common to the keyword "sports" from the degree of relevance of each data. Then, the information processing apparatus 100 is the sum of the point "0.3" of the extraction keyword "sports" of the sentence A and the point "0.2" of the extraction keyword "sports" of the sentence B (also referred to as "total points"). Is calculated as "0.5".
  • the information processing apparatus 100 has an average value of the extraction keyword "sports" of the sentence A and the extraction keyword "sports” of the sentence B.
  • the information processing apparatus 100 has a common extraction keyword such that sentence C, sentence D, and sentence E are "pet” or "discipline".
  • the information processing apparatus 100 has a plurality of keywords common to the data corresponding to one group, it may be regarded as more similar sentences (documents) and added together for calculation.
  • the information processing apparatus 100 has an average point "0.3" of the sentence C, the sentence D, and the sentence E, and an average point "0.”
  • the information processing apparatus 100 classifies the sentence A and the sentence B into the group "sports" as shown in the classification result RS2, and sets the sentence C, the sentence D, and the sentence E. Classify into the group "pets”.
  • Figure 5 shows the details of the classification result when the sentence E is added.
  • sentence A and sentence B are classified into group G1 corresponding to the classification word "sports”
  • sentence C, sentence D, and sentence E correspond to the classification word "pet”. It is classified into group G2.
  • the information processing apparatus 100 may set bookmark classification items for the classification word "sports" including the sentences A and B and the classification word "pet” including the sentences C, D, and E.
  • FIG. 6 is a diagram showing an example of the keyword normalization process according to the embodiment of the present disclosure.
  • the process of normalizing the keyword of FIG. 6 is executed by the keyword normalization unit 153 (see FIG. 10) of the information processing apparatus 100.
  • the information processing apparatus 100 uses the extracted extracted keywords to change to keywords more suitable for classification, exclude extracted keywords, or add keywords.
  • the exclusion (deletion) of extracted keywords will be explained.
  • keywords such as "delicious” and "make” may be extracted.
  • the information processing apparatus 100 excludes (deletes) such words based on individual concepts and actions (hereinafter, also referred to as “exclusion target words”) from the extracted keywords.
  • the information processing apparatus 100 again normalizes the points for the extracted keywords after excluding the exclusion target words.
  • the information processing apparatus 100 may select a keyword corresponding to a specific part of speech such as an adjective or a verb as an exclusion target word.
  • the information processing apparatus 100 may exclude the corresponding extracted keyword by using the exclusion keyword information indicating the part of speech to be excluded.
  • the information processing apparatus 100 may exclude keywords by any method.
  • the information processing apparatus 100 uses the list information of the excluded keywords such as "te”, “ni", “o”, and "ha” to exclude the extracted keywords matching the character strings in the list information. May be good.
  • the information processing apparatus 100 identifies a related word of the extracted keyword and associates the related word with the extracted keyword.
  • the related word includes a higher-level concept (high-level word), a paraphrase expression (paraphrase), an associative word, and the like of the keyword.
  • high-level word high-level word
  • paraphrase expression paraphrase
  • an associative word an associative word, and the like of the keyword.
  • “dog” is a superordinate concept of "chihuahua”
  • “animal” is a superordinate concept. That is, “dog” and “animal” can be related words to "chihuahua”.
  • the paraphrase expression of "domestic dog” corresponds to "pet”. That is, "pet” can be a related word for "domestic dog”.
  • the information processing apparatus 100 specifies a related word for each keyword by using a conceptual dictionary showing a conceptual relationship between languages.
  • a conceptual dictionary showing a conceptual relationship between languages.
  • various concept dictionaries such as WordNet disclosed in the following documents are used.
  • the information processing apparatus 100 uses WordNet to specify related words for each keyword. ⁇ Japanese WordNet ⁇ http://compling.hss.ntu.edu.sg/wnja/>
  • FIG. 6 shows an example of extracting an extracted keyword from a sentence X which is one data DT1 among the data groups to be separated.
  • the information processing apparatus 100 extracts the extracted keyword from the sentence X (step S31).
  • the information processing apparatus 100 extracts character strings such as “dog”, “pet”, “chihuahua”, “hut”, and “cute” from the sentence X as extraction keywords, as shown in the keyword information KX.
  • the information processing apparatus 100 normalizes the extracted keywords extracted from the sentence X (step S32).
  • the information processing apparatus 100 excludes "cute” corresponding to the part of speech "adjective" to be excluded from the extracted keywords, as shown in the normalized keyword information RKX.
  • the information processing apparatus 100 corrects (normalizes) so that the total of the points given to each extracted keyword after excluding "cute” becomes 1.
  • the information processing apparatus 100 sets the point of "dog” to "0.61", the point of "pet” to "0.21", and the point of "chihuahua” for each extraction keyword of sentence X. Normalize the points of "0.11" and “shed” to "0.07".
  • the information processing apparatus 100 specifies a related word of each extracted keyword.
  • the information processing apparatus 100 uses a conceptual dictionary such as WordNet to specify related words for each of "dog”, “chihuahua”, and "hut".
  • WordNet a conceptual dictionary such as WordNet to specify related words for each of "dog”, “chihuahua”, and "hut".
  • the information processing apparatus 100 specifies "pet” and “animal” as related words of "dog” and “animal” as related words of "pet” as shown in the normalized keyword information RKX. Identify.
  • the information processing apparatus 100 specifies "dog”, “pet” and “animal” as related words of "chihuahua", and "building” as related words of "hut”.
  • the information processing apparatus 100 may use any information as long as the related words of each keyword can be specified.
  • the information processing apparatus 100 stores a related word list in which each keyword is associated with the related word of the keyword in the storage unit 120 (see FIG. 10), and uses the related word list to store the related word of each keyword. May be specified.
  • the related words of the keyword may be specified by using the personal information of the user. ..
  • the information processing apparatus 100 has personal information of the user U1 indicating a family relationship such as the mother of the user U1 being "Yuko”, in the case of the user U1, it is a replacement expression as a related word of the keyword "Yuko".
  • the keyword "mother” may be specified.
  • the information processing apparatus 100 may specify the hypernym "family", which is a hypernym of the "mother”, as a related word of the keyword "Yuko".
  • the information processing apparatus 100 assigns the specified related word to the extracted keyword, and stores the specified related word in association with the extracted keyword. As described above, the information processing apparatus 100 can be classified more conceptually by using the specified related words.
  • FIG. 7 is a diagram showing an example of data classification using related words.
  • FIG. 8 is a diagram showing an example of data classification results using related words.
  • the four data of sentence A, sentence B, sentence C, and sentence D are related words for each extracted keyword by the information processing apparatus 100.
  • the data group consists of four sentences A, sentence B, sentence C, and sentence D, and the maximum number of items is "4" or less, and the information processing apparatus 100 determines that classification is unnecessary.
  • sentence F is newly added.
  • the extracted keyword is extracted by the information processing apparatus 100, the points of the extracted keyword are calculated, and the related word is specified for the extracted keyword.
  • the information processing apparatus 100 sets the point of "elephant” to "0.6", the point of "zoo” to "0.3", and the point of "meal” to "0.05". Normalize the "cost” points to "0.03" and the "Ueno” points to "0.02". Further, the information processing apparatus 100 identifies "animal” as a related word of "elephant", “rice” and “food” as related words of "meal”, and “Tokyo” and “Japan” as “Ueno". ”Is identified as a related word.
  • the information processing apparatus 100 executes a classification process for the data groups of the sentence A, the sentence B, the sentence C, the sentence D, and the sentence F (step S41).
  • the information processing apparatus 100 executes the classification process using the related words.
  • the information processing apparatus 100 compares the extracted keywords and related words of each data, and identifies the data in which the extracted keywords or related words are common.
  • the information processing apparatus 100 specifies that the sentence C, the sentence D, and the sentence F are common to the extraction keyword "animal".
  • the information processing apparatus 100 calculates the average points by using the points of the extraction keyword having the largest point among the extraction keywords associated with the related word "animal”.
  • the points calculated by using a predetermined function from the points of the extracted keywords may be used. ..
  • the related word is a paraphrase expression, it is 1 times the extracted keyword (that is, it is used as it is), if the related word is a superordinate concept (superordinate word), it is 0.8 times the extracted keyword, and the superordinate concept is further 0.
  • the point may be lowered as the conceptual relationship is farther from 8 times. The details of this point will be described later.
  • the information processing apparatus 100 classifies the sentence A and the sentence B into the group "sports" as shown in the classification result RS11, and sets the sentence C, the sentence D, and the sentence F. Classify into the group "animals”.
  • Figure 8 shows the details of the classification result when the sentence F is added.
  • the sentence A and the sentence B are classified into the group G11 corresponding to the classification word "sports", and the sentences C, the sentence D and the sentence F correspond to the classification word "animal”. It is classified into group G12.
  • the information processing apparatus 100 may set bookmark classification items for the classification word "sports" including the sentences A and B and the classification word "animal” including the sentences C, D, and F.
  • the information processing apparatus 100 classifies the data using the related words of the extracted keywords extracted from each data. As a result, the information processing apparatus 100 can appropriately classify data that cannot be classified into one group when only the extracted keywords are used, such as sentence C, sentence D, and sentence F. Therefore, the information processing apparatus 100 can appropriately classify the data.
  • the points of the group may be calculated by taking those points into consideration.
  • the information processing apparatus 100 may classify data in which the extracted keywords and related words are common into one group. For example, the information processing apparatus 100 may classify data having "travel" only in the extracted keyword and data having "travel” only in related words into one group "travel". As described above, the information processing apparatus 100 may perform the classification process based on the commonality of the entire keyword between the extracted keyword and the related word.
  • FIG. 9 is a diagram showing an example of points when related words are used. Specifically, FIG. 9 shows an example of the case where the related word points are applied to the group G11 corresponding to the classification word “sports” in the classification result RS11 of FIG.
  • the information processing apparatus 100 extracts keywords from various data such as time-series data such as sentences, images, and moving images, and uses related words related to the extracted extracted keywords to group the data. Classify. As described above, the information processing apparatus 100 can easily find the target data by sorting the data according to the contents from a large amount of data groups regardless of the type of data. Further, the information processing apparatus 100 does not require the user to consider the distribution setting for collecting the target data group, and can suppress the occurrence of human error. In addition, the information processing apparatus 100 is useful for determining documents having the same content, and can facilitate the organization of documents. Further, the information processing apparatus 100 can also classify the contents of an image in which a character string is copied. As a result, the information processing apparatus 100 can collectively manage the document group and the image group in which the character string is copied according to the same classification rule.
  • FIG. 10 is a diagram showing a configuration example of the information processing apparatus 100 according to the embodiment of the present disclosure.
  • the information processing device 100 shown in FIG. 10 is an example of the information processing device.
  • the information processing device 100 is a computer that realizes a function as an information processing device described later.
  • the information processing apparatus 100 includes a communication unit 11, an input unit 12, a display unit 13, a storage unit 14, and a control unit 15.
  • the information processing device 100 includes an input unit 12 (for example, a keyboard, a mouse, etc.) that receives various operations from the administrator of the information processing device 100, and a display unit 13 (for example, a display unit 13) for displaying various information. , Liquid crystal display, etc.).
  • the communication unit 11 is realized by, for example, a NIC (Network Interface Card), a communication circuit, or the like.
  • the communication unit 11 is connected to a communication network N (a network such as the Internet) by wire or wirelessly, and transmits / receives information to / from another device or the like via the communication network N.
  • a communication network N a network such as the Internet
  • the input unit 12 accepts input by the operator.
  • the input unit 12 may accept the designation by the operator regarding the classification conditions such as the maximum number of items and the maximum number of classifications.
  • the input unit 12 may accept various operations from the operator via the keyboard, mouse, or touch panel provided in the information processing apparatus 100.
  • the display unit 13 displays various information.
  • the display unit 13 is a display device (display unit) such as a display, and displays various information.
  • the display unit 13 displays information on each data such as extracted keywords and related words.
  • the display unit 13 displays information on the classification result by the classification unit 154.
  • the information processing apparatus 100 is not limited to the display unit 13, and may have a functional configuration for outputting information.
  • the information processing device 100 may have a function of outputting information as voice.
  • the information processing device 100 may have an audio output unit such as a speaker that outputs audio.
  • the storage unit 14 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the storage unit 14 has a concept dictionary storage unit 141, a classification target data storage unit 142, and a classification condition storage unit 143.
  • the concept dictionary storage unit 141 stores various information related to the concept dictionary showing the conceptual relationship of languages.
  • the concept dictionary storage unit 141 stores WordNet information.
  • the concept dictionary storage unit 141 may store a concept dictionary for each language. In this case, even if the concept dictionary storage unit 141 stores concept dictionaries of various languages such as a concept dictionary for Japanese, a concept dictionary for English, a concept dictionary for German, and a concept dictionary for Chinese. good.
  • the classification target data storage unit 142 stores information related to the classification target data.
  • the classification target data storage unit 142 stores data and information such as extraction keywords, points, and related words corresponding to the data.
  • FIG. 11 is a diagram showing an example of a classification target data storage unit according to the embodiment of the present disclosure.
  • FIG. 11 shows an example of the classification target data storage unit 142 according to the embodiment.
  • the classification target data storage unit 142 includes items such as “data”, “type”, “extracted keyword”, “point”, and “related word”.
  • Data indicates each data.
  • a data ID that identifies each data may be stored in association with each data.
  • Type indicates the type of each data. In the “type”, information indicating the type of the data such as text, image, moving image, voice, waveform, other time series data, etc. is stored.
  • Extracted keyword indicates an extracted keyword extracted from the data.
  • the "point” indicates a point (score) indicating the degree of relevance of the extraction keyword to the data of the extraction source.
  • “Related word” indicates a related word of the extracted keyword. As shown in FIG. 11, a plurality of related words may be associated with one extracted keyword.
  • the sentence A which is the data of the type “sentence” indicates that keywords such as “tennis”, “sports”, “professional”, “court”, and “player” have been extracted as extraction keywords. .. Further, the extracted keyword “tennis” indicates that the hypernym "sports” is associated as a related word.
  • the video MV which is the data of the type "video” indicates that keywords such as “dog”, “park”, “chihuahua”, and “frisbee” have been extracted as extraction keywords.
  • the extraction keyword “dog” indicates that the hypernym “animal” is associated as a related word.
  • the extracted keyword “Chihuahua” indicates that the hypernym “dog” and the hypernym “animal” are associated as related words.
  • the extraction keyword “Frisbee” indicates that the hypernym "toy” is associated as a related word.
  • the related word is not limited to the hypernym, but may be a paraphrase of the extracted keyword or an associative word associated with the extracted keyword.
  • the classification target data storage unit 142 is not limited to the above, and may store various information depending on the purpose.
  • the classification target data storage unit 142 may store information indicating the classification result of each data.
  • the classification target data storage unit 142 may store information indicating a group to which each data corresponds.
  • the classification condition storage unit 143 stores various information regarding the conditions for performing classification. For example, the classification condition storage unit 143 stores information on the maximum number of items indicating the upper limit of the number of data belonging to each group. Further, the classification condition storage unit 143 stores information on the classification threshold value, which is a predetermined value used for determining whether the points of each group satisfy the criteria. Further, the classification condition storage unit 143 stores information on the maximum number of classifications, which is the threshold number of classifications indicating the upper limit of the group to be classified. Further, the classification condition storage unit 143 stores information (coefficients such as 0.8 and the like) for calculating points used when grouping using related words. Further, for example, the classification condition storage unit 143 stores information on the number of processing times indicating the upper limit of the repetition of the classification processing until the classification is confirmed. For example, the classification condition storage unit 143 stores the excluded keyword information indicating the keywords to be excluded.
  • control unit 15 for example, a program stored inside the information processing apparatus 100 by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like (for example, an information processing program according to the present disclosure) is a RAM (Random Access Memory). ) Etc. are executed as a work area. Further, the control unit 15 is a controller, and may be realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • control unit 15 includes an acquisition unit 151, a keyword extraction unit 152, a keyword normalization unit 153, a classification unit 154, and a transmission unit 155, and has information processing described below. Realize or execute a function or action.
  • the internal configuration of the control unit 15 is not limited to the configuration shown in FIG. 10, and may be any other configuration as long as it is configured to perform information processing described later.
  • the acquisition unit 151 acquires various information.
  • the acquisition unit 151 acquires various information from the storage unit 14.
  • the acquisition unit 151 acquires the information received by the input unit 12.
  • the acquisition unit 151 acquires various information from the storage unit 14.
  • the acquisition unit 151 acquires various information from the concept dictionary storage unit 141, the classification target data storage unit 142, and the classification condition storage unit 143.
  • the acquisition unit 151 functions as a reception unit that receives various information from an external information processing device.
  • the acquisition unit 151 receives various information from the terminal device (user terminal 10 and the like in FIG. 16) used by the user.
  • the keyword extraction unit 152 performs a process of extracting a keyword.
  • the keyword extraction unit 152 extracts data keywords in order to classify the data group.
  • the keyword extraction unit 152 extracts keywords based on the information stored in the storage unit 14.
  • the keyword extraction unit 152 extracts keywords from each of the data stored in the classification target data storage unit 142 based on the information.
  • the keyword extraction unit 152 stores the extraction keyword extracted from the data in the classification target data storage unit 142 in association with the data of the extraction source.
  • the keyword extraction unit 152 extracts keywords from each of a plurality of data to be classified.
  • the keyword extraction unit 152 extracts keywords from each of a plurality of data including text data, image data, and time series data.
  • the keyword extraction unit 152 extracts keywords from each of a plurality of data including moving image data, audio data, or waveform data.
  • the keyword extraction unit 152 performs the keyword extraction process shown in FIGS. 1 and 6.
  • the keyword extraction unit 152 has a function as a data analysis unit that extracts extracted keywords from data other than sentences.
  • the keyword extraction unit 152 extracts an extracted keyword from an image by using a technique related to image analysis. For example, the keyword extraction unit 152 analyzes an image, recognizes an object contained in the image, and extracts the name of the recognized object as an extraction keyword. Further, the keyword extraction unit 152 analyzes the image, estimates the ratio (occupancy rate) of the object contained in the image in the image, and extracts the object based on the estimated occupancy rate of the object. Calculate the points of the keyword.
  • the keyword extraction unit 152 recognizes characters in an image or a moving image.
  • the keyword extraction unit 152 recognizes a character from an image or a moving image on which the character is copied by using a technique related to character recognition.
  • the keyword extraction unit 152 may extract a character string from an image including the character string by a character recognizer or the like, and extract an extracted keyword from the extracted character string.
  • the keyword extraction unit 152 may have a function of a character recognizer.
  • the keyword extraction unit 152 extracts the extracted keyword from the character string extracted from the image and calculates the points of each extracted keyword, as in the case where the data is a sentence.
  • the keyword extraction unit 152 extracts the extracted keyword from the time series data by using the technique related to the time series data analysis.
  • the keyword extraction unit 152 extracts the extracted keyword from the moving image by using the technique related to the moving image analysis. For example, the keyword extraction unit 152 analyzes a moving image, recognizes an object included in the moving object, and extracts the name of the recognized object as an extraction keyword. Further, the keyword extraction unit 152 analyzes the moving image, identifies the time when the object appears in the moving image, and calculates the points of the extracted keyword indicating the object based on the specified time.
  • the keyword extraction unit 152 extracts the extracted keyword from the voice by using the technique related to the voice analysis. For example, the keyword extraction unit 152 analyzes the voice and converts the voice into text (character information). Further, the keyword extraction unit 152 extracts the extracted keyword from the text obtained by converting the voice, and calculates the points of each extracted keyword, as in the case where the data is a sentence.
  • the keyword extraction unit 152 may extract the extraction keyword from the waveform by using the technique related to the waveform analysis.
  • the above is an example, and the keyword extraction unit 152 may extract the extracted keywords and calculate the points by any method as long as the extracted keywords can be extracted from the data and the points can be calculated.
  • the keyword extraction unit 152 extracts the extracted keyword from the data by a method according to the type of data, and calculates the points of the extracted keyword.
  • the keyword normalization unit 153 performs a process of normalizing the keywords of each data.
  • the keyword normalization unit 153 normalizes the keywords extracted from the data.
  • the keyword normalization unit 153 assigns a related word to the data extraction keyword.
  • the keyword normalization unit 153 identifies the related word of the extracted keyword, associates it with the data of the extraction source of the extracted keyword, and stores it in the classification target data storage unit 142.
  • the keyword normalization unit 153 identifies the related words of the extracted keywords by using the concept dictionary stored in the concept dictionary storage unit 141.
  • the keyword normalization unit 153 excludes keywords that satisfy the exclusion conditions from the extracted keywords.
  • the keyword normalization unit 153 excludes the keyword corresponding to the part of speech to be excluded from the extracted keywords.
  • the keyword normalization unit 153 excludes keywords that satisfy the exclusion conditions of the keywords stored in the classification condition storage unit 143 from the extracted keywords.
  • the keyword normalization unit 153 performs the keyword normalization process shown in FIG.
  • the classification unit 154 performs a process of classifying data.
  • the classification unit 154 classifies a plurality of data stored in the classification target data storage unit 142.
  • the classification unit 154 determines whether the newly classified data applies to the existing classification. Further, the classification unit 154 determines whether the particle size of the classification of the classification result is correct.
  • the classification unit 154 performs the classification processing shown in FIGS. 4 and 7.
  • the classification unit 154 classifies a plurality of data by using related words related to the extracted keyword, which is a keyword extracted from each of the plurality of data. Multiple data are classified using paraphrases paraphrased in expressions or related words that are associative words associated with extracted keywords.
  • the classification unit 154 classifies a plurality of data based on the commonality of related words or extracted keywords.
  • the classification unit 154 classifies a plurality of data by classifying the data in which the related words or the extracted keywords are common into the same group.
  • the classification unit 154 classifies a plurality of data based on the related words specified by the keyword normalization unit 153.
  • the classification unit 154 may randomly classify a plurality of data as long as it satisfies the criteria of data in which related words or extracted keywords are common. Further, the classification unit 154 classifies a plurality of data by grouping the data and the data having the related word or the extraction keyword in the same group, starting from the data having the extraction keyword with the largest point. May be good.
  • the classification unit 154 classifies a plurality of data into a plurality of groups.
  • the classification unit 154 classifies a plurality of data into a plurality of groups by using the points of the extraction keyword indicating the degree of association of the extraction keyword with the data of the extraction source.
  • the classification unit 154 classifies a plurality of data into a plurality of groups by using the points of each extraction keyword stored in the classification target data storage unit 142.
  • the classification unit 154 classifies a plurality of data using the points of each of the plurality of groups calculated by using the points of the corresponding extraction keywords of the plurality of groups.
  • the classification unit 154 may generate a plurality of division patterns to be classified into a plurality of groups, and may use the division pattern having the maximum average value of the points of each group among the plurality of division patterns.
  • the classification unit 154 may generate a division pattern having a set number of patterns (for example, 10 or 100), and use the division pattern having the maximum average value of the points of each group among the division patterns of the number of patterns. good.
  • the classification unit 154 may randomly generate a division pattern as long as it satisfies the criteria of data in which related words or extracted keywords are common. Further, the classification unit 154 may generate a division pattern by grouping the data and the data having the related word or the extraction keyword in the same group, starting from the data having the extraction keyword with the largest point. good.
  • the classification unit 154 classifies a plurality of data into a plurality of groups when each point of the plurality of groups meets a predetermined criterion.
  • the classification unit 154 classifies a plurality of data into a plurality of groups when the points of each of the plurality of groups are equal to or more than a predetermined value.
  • the classification unit 154 classifies the plurality of data into the plurality of groups.
  • the classification unit 154 classifies a plurality of data into groups in which the number of applicable data is equal to or less than a predetermined number.
  • the classification unit 154 classifies the data so that the number of data corresponding to each group is equal to or less than the maximum number of items stored in the classification condition storage unit 143. For example, if there is a group generated by the classification process in which the number of applicable data exceeds the maximum number of items, the classification unit 154 performs the classification process again.
  • the classification unit 154 repeats the classification process until the number of data corresponding to each of all the groups of the classification results by the classification process is equal to or less than the maximum number of items.
  • the classification unit 154 classifies a plurality of data into groups equal to or less than the classification number threshold.
  • the classification unit 154 classifies the data so that the number of groups in which the data is classified is equal to or less than the maximum number of classifications stored in the classification condition storage unit 143. For example, when the number of classification result groups generated by the classification process exceeds the maximum number of classifications, the classification unit 154 performs the classification process again. The classification unit 154 repeats the classification process until the number of classification result groups is equal to or less than the maximum number of classifications.
  • the transmission unit 155 transmits various information.
  • the transmission unit 155 transmits various information to an external information processing device.
  • the transmission unit 155 transmits various information to a terminal device (user terminal 10 or the like in FIG. 16) used by the user.
  • the transmission unit 155 transmits the information stored in the storage unit 14.
  • the transmission unit 155 transmits the classification result by the classification unit 154.
  • FIG. 12 is a flowchart showing an information processing procedure according to the embodiment of the present disclosure.
  • the information processing apparatus 100 extracts an extraction keyword from each of a plurality of data to be classified (step S101).
  • the information processing apparatus 100 classifies a plurality of data based on the extracted keywords extracted from each of the plurality of data and the related words related to the extracted keywords (step S102).
  • the data to be classified is not limited to sentences (character information), but may be images, or may be time-series data such as moving images, sounds, and waveforms.
  • the data to be classified may be sensing aggregate data (hereinafter, also referred to as “sensing data”) generated by the detection of the sensor, such as a moving image captured by an image sensor.
  • the sensing may be any data as long as it is data generated by the detection of the sensor, and includes waveform data and image data.
  • FIG. 13 is a diagram showing an example of keyword extraction from data other than sentences. The same points as those described above, such as those in FIGS. 1 and 6, will be omitted as appropriate.
  • the information processing apparatus 100 extracts an extraction keyword from the sensing data (data DT11) which is a moving image Y (step S51).
  • the information processing apparatus 100 uses a moving image analysis technique to extract an extraction keyword from the moving image Y.
  • the information processing apparatus 100 extracts extracted keywords such as “dog”, “park”, “chihuahua”, “frisby”, and “running” from the moving image Y, as shown in the keyword information KY. Further, the information processing apparatus 100 identifies the part of speech of each extracted keyword, and associates the information of the specified part of speech with each extracted keyword.
  • the information processing apparatus 100 calculates points for each extracted keyword of the moving image Y according to the degree of association with the moving image Y, and assigns the calculated points to each extracted keyword. For example, the information processing apparatus 100 calculates the points of each extracted keyword based on the time when the object corresponding to each extracted keyword is shown in the moving image. The information processing apparatus 100 calculates the points of each extracted keyword so that the longer the time spent in the moving image, the higher the points. The information processing apparatus 100 may use the time when the object corresponding to each extraction keyword is shown in the moving image as the point of each extraction keyword.
  • the information processing apparatus 100 corrects (normalizes) so that the total of the points given to the extracted keywords becomes 1.
  • the information processing apparatus 100 sets the point of "dog” to "0.6", the point of "park” to "0.2", and the point of "chiwawa” for each extraction keyword of the moving image Y. Normalize the points of "0.1” and “Frisby” to "0.06" and the points of "run” to "0.04".
  • the information processing apparatus 100 normalizes the extracted keywords extracted from the sentence X (step S52).
  • the information processing apparatus 100 excludes "run” corresponding to the part of speech "verb” to be excluded from the extracted keywords, as shown in the normalized keyword information RKY.
  • the information processing apparatus 100 corrects (normalizes) so that the total of the points given to each extracted keyword after excluding "running" becomes 1.
  • the information processing apparatus 100 sets the point of "dog” to "0.61", the point of "park” to "0.21", and the point of "chihuahua” for each extraction keyword of the moving image Y. Normalize the points of "0.11" and “Frisby” to "0.07".
  • the information processing apparatus 100 specifies a related word of each extracted keyword.
  • the information processing apparatus 100 identifies "pet” and “animal” as related words of "dog” as shown in the normalized keyword information RKY, and "dog", "pet” and “animal”. Is specified as a related word of "Chihuahua”, and "toy” is specified as a related word of "Frisby".
  • the information processing apparatus 100 extracts the information contained in the moving image by analyzing the moving image.
  • the information processing apparatus 100 extracts information contained in a moving image by using a data analysis method such as recognition of an object in an image.
  • the information processing apparatus 100 divides a moving image into images for each frame, applies object recognition to each, and calculates the ratio of the number of frames in which an object (object) is recognized to the total number of frames as a point. May be good.
  • the information processing apparatus 100 may use time-series information as a keyword for moving image recognition. Among the keywords extracted in FIG. 13, "running" and the like correspond to keyword information in chronological order. Further, the information processing apparatus 100 may extract voice information from the moving image and perform voice analysis.
  • the information processing apparatus 100 may apply voice recognition and extract a keyword from a meaningful character string in the same manner as in text analysis. Further, the information processing apparatus 100 may classify the voice data such as the bark of an animal or the outdoors. Further, the information processing apparatus 100 may perform these voice analyzes and determine the extracted keywords in combination with the keywords obtained from the moving image. The above is an example, and the information processing apparatus 100 may extract an extraction keyword from data such as a moving image by another method.
  • FIG. 14 is a diagram showing an example of updating the classification.
  • FIG. 15 is a diagram showing an example of the update result of the classification.
  • FIGS. 14 and 15 show an example in which only the extracted keywords are used for simplification of the explanation, the information processing apparatus 100 may perform the classification process using the information of the related words of each extracted keyword. good.
  • the sentence A, the sentence B, and the sentence G are classified into the group G21 corresponding to the classification word “sports”, and the sentence C, the sentence D, and the sentence H are classified into the classification word “pet”. It shall be classified into the corresponding group G12.
  • sentence I is newly added.
  • the information processing apparatus 100 extracts the extracted keywords from the sentence I and calculates the points of each extracted keyword.
  • the information processing apparatus 100 sets the point of "recipe” to "0.4", the point of "time saving” to "0.3”, and the point of "making” to "0.2” for each extracted keyword of sentence I. , Normalize the "range” point to "0.06” and the “easy” point to "0.04".
  • the information processing apparatus 100 since the extraction keywords of the sentence I do not include "sports" and "pets", the information processing apparatus 100 does not include the sentence I in the classification or updates the entire classification including the sentence I. Make a decision. As shown in FIG. 14, there is an abstract keyword “recipe” common to sentences G, H, and I. Therefore, the information processing apparatus 100 generates the classification result RS22, which classifies the sentence G, the sentence H, and the sentence I into one group, as a classification candidate.
  • the sentence G, the sentence H, and the sentence I are classified into the group G26 corresponding to the classification word “recipe”. Further, the sentence A and the sentence B are classified into the group G24 corresponding to the classification word "sports”, and the sentences C, the sentence D and the sentence E are classified into the group G25 corresponding to the classification word "pet”.
  • the point of the group G26 corresponding to the classification word "recipe” is "0.3". Further, the points of the group G24 corresponding to the classification word "sports” are "0.25", and the points of the group G25 corresponding to the classification word "pet” are "0.3".
  • the information processing apparatus 100 determines whether or not to update the classification by using the average value of the points of each group in each classification result. The information processing apparatus 100 determines whether to update the classification based on the average value of the points of each group in the classification at the time of determination and the average value of the points of each group in the generated classification candidates. As described above, the information processing apparatus 100 has the average value of the points of each group when the new sentence I is not added to the classification, and the average value of the points of each group when the new sentence I is added to the classification target. Determine if you want to update the classification based on.
  • the information processing apparatus 100 has an average value of points of each group in the classification result RS21, which is the classification at the time of determination, and an average value of points of each group in the classification result RS22, which is a classification candidate. Determine whether to update the classification based on the comparison results. Specifically, the information processing apparatus 100 determines that the classification is updated when the average value of the points of each group in the classification result RS22 is equal to or larger than the average value of the points of each group in the classification result RS21.
  • the information processing apparatus 100 compares the point "0.25" of the classification result RS21 with the point "0.283" of the classification result RS22. Then, since the information processing apparatus 100 determines that the points of the classification result RS22 are equal to or higher than the points of the classification result RS21, the classification result RS22 determines that the classification is more in line with the contents of the data, and classifies the data. Decide to update. In this case, the information processing apparatus 100 updates the classification from the classification result RS21 to the classification result RS22 (step S61).
  • the information processing apparatus 100 may determine whether or not to update the classification by using various information, not limited to the average value of the points of each group of each classification.
  • the information processing apparatus 100 is not limited to the above-mentioned example, and may be classified according to various classification conditions.
  • Each data may belong to a plurality of groups.
  • the sentence G may belong to two groups, the group G24 corresponding to the classification word “sports” and the group G26 corresponding to the classification word “recipe”.
  • the sentence H may belong to two groups, a group G25 corresponding to the classification word "pet” and a group G26 corresponding to the classification word "recipe”.
  • the information processing apparatus 100 allows each data to belong to a plurality of groups and classifies each data.
  • An upper limit of the number of groups to which each data belongs (for example, 3 or 5) may be set.
  • the information processing apparatus 100 is not limited to the maximum number of items, but can set the maximum number of classifications or use machine learning to further determine the number of classifications (number of groups) and the number of items in the classification (number of data included in the group). It may be optimized.
  • the classification process may not be performed completely automatically, and one or a plurality of patterns (also referred to as “classification candidates”) may be presented to the user as candidates for the classification method. Then, the pattern selected by the user may be used as the classification result. As a result, the user can select a classification that is more in line with his / her own sense, and the execution result can be incorporated into the machine learning data again as a user's preference. Further, regarding the classification, the user may be allowed to select when a certain threshold value is exceeded. Further, the user's selection may be determined as the user's preference and reflected in the subsequent automatic classification result.
  • FIG. 16 is a diagram showing a configuration example of an information processing system according to a modification of the present disclosure.
  • the information processing system 1 includes a user terminal 10 and an information processing device 100.
  • the user terminal 10 and the information processing device 100 are connected to each other via a communication network N so as to be communicable by wire or wirelessly.
  • the information processing system 1 shown in FIG. 16 may include a plurality of user terminals 10 and a plurality of information processing devices 100.
  • the information processing system 1 may include a plurality of user terminals 10 such as a user terminal 10 used by the user U1 and a user terminal 10 used by the user U2.
  • the information processing device 100 generates a plurality of classification results for a plurality of data to be classified. Then, the information processing apparatus 100 transmits the plurality of classification results to the user terminal 10 as a plurality of classification candidates.
  • the information processing apparatus 100 receives information indicating a classification candidate selected by the user from the user terminal 10.
  • the information processing apparatus 100 associates the information indicating the classification candidate selected by the received user with the user, and stores the information in the storage unit 120 as the user's selection history. Then, the information processing apparatus 100 uses the user's selection history to generate a classification result for that user.
  • the user terminal 10 is an information processing device used by the user.
  • the user terminal 10 is realized by, for example, a smartphone, a tablet terminal, a smart speaker, a mobile phone, a PDA (Personal Digital Assistant), a notebook PC (Personal Computer), a desktop PC, a smartphone, or the like. ..
  • the user terminal 10 may be any terminal device as long as it can display the information provided by the information processing device 100 and transmit the information indicating the classification selected by the user to the information processing device 100.
  • the user terminal 10 accepts an operation by the user.
  • the user terminal 10 displays the information received from the information processing apparatus 100 on the screen.
  • the user terminal 10 displays the classification result received from the information processing apparatus 100.
  • the user terminal 10 displays a plurality of classification candidates provided by the information processing apparatus 100. Further, the user terminal 10 accepts the user's selection for a plurality of classification candidates, and transmits information indicating the classification candidate selected by the user to the information processing apparatus 100.
  • FIG. 17 is a diagram showing an example of classification according to the user.
  • FIG. 17 shows an example in which two users, user U1 and user U2, are taken as an example, and when the user selects a classification, the user's preference is reflected, and the subsequent classification differs for each user.
  • FIG. 17 shows 11 data of sentences A to L.
  • each of the keyword information KA to the keyword information KL corresponds to the sentences A to L, respectively.
  • the illustration of related words is omitted.
  • the related word "recipe" is associated with the extracted keyword "cake" of the sentence H shown in the keyword information KH.
  • the classification result RS31 and the classification result RS41 in FIG. 17 show the classification results for eight data of sentences A, B, C, D, E, G, H, and I.
  • the classification result RS31 indicates the classification result selected by the user U1.
  • Classification result RS31 classifies sentence G with "muscle training" and “recipe” as keywords and sentence H with "cake” and “pet” as keywords into group G33 corresponding to the classification word "recipe”.
  • the information processing apparatus 100 reflects the selection of the user U1 as the preference of the user U1 in the classification process when providing the user U1.
  • the classification result RS41 indicates the classification result selected by the user U2.
  • the classification result RS41 classifies the sentence G with the keywords "muscle training" and "recipe” into the group G41 corresponding to the classification word "sports”, and the sentence H with the keywords "cake” and "pet” as the classification word. It is a classification result which is classified into the group G42 corresponding to the "recipe".
  • the information processing device 100 reflects the selection of the user U2 as the preference of the user U2 in the classification process when providing the classification result to the user U2.
  • the information processing apparatus 100 corrects the classification so as to reflect the preference of the user U2.
  • the information processing apparatus 100 in the classification process when the information processing device 100 provides the classification result to the user U2, even if the data is related to the recipe, if the content related to sports or pets is described, the classification is prioritized to the group. do. Further, for example, the information processing apparatus 100 assumes that the user U2 has little interest in the recipe, and corrects the data including the keywords related to the recipe so that the classification is selected by the user U2 instead of the recipe. May be good. In this case, the information processing apparatus 100 may lower the points of the keywords related to the recipe.
  • the information processing apparatus 100 may generate different classification results for the user U1 and the user U2.
  • the user U1 is classified as the classification result RS32 (step S71). Further, when the information processing apparatus 100 newly adds three data of the sentence J, the sentence K, and the sentence L, the user U2 is classified as the classification result RS42 (step S81).
  • the information processing apparatus 100 classifies the sentence J into the group G36 corresponding to the classification word "recipe" for the user U1 without correction.
  • the information processing apparatus 100 does not classify the sentence J as recipe-related with respect to the user U2 to be corrected.
  • the information processing apparatus 100 classifies the sentence J into the group G44 corresponding to the classification word “sports” for the user U2.
  • the processing related to each of the above-described embodiments and modifications may be performed in various different forms (modifications) other than the above-described embodiments and modifications.
  • the information processing device 100 may be integrated with the user terminal 10.
  • the user terminal 10 used by each user may have a function as the information processing device 100.
  • the above is an example, and the information processing system may be realized by various configurations.
  • each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of them may be functionally or physically distributed / physically in any unit according to various loads and usage conditions. Can be integrated and configured.
  • the information processing device includes a keyword extraction unit (keyword extraction unit 152 in the embodiment) and a classification unit (classification unit 154 in the embodiment). ..
  • the keyword extraction unit extracts keywords from each of a plurality of data to be classified.
  • the classification unit classifies a plurality of data by using the related words related to the extracted keywords, which are the keywords extracted from each of the plurality of data.
  • the information processing apparatus can classify the data by adding the information of the related words related to the extracted keywords extracted from the plurality of data as the classification mode, so that the data can be appropriately classified. can do.
  • the classification unit classifies a plurality of data by using a hypernym of the extracted keyword, a paraphrase in which the extracted keyword is paraphrased into another expression, or a related word which is an associative word associated with the extracted keyword.
  • the information processing device can classify the data appropriately by using the hypernyms, paraphrases, or associative words of the extracted keywords, taking into account the conceptual commonality of the extracted keywords. Can be categorized.
  • the classification unit classifies multiple data based on the commonality of related words or extracted keywords.
  • the information processing apparatus can classify the data in consideration of the commonality of the related words or the extracted keywords, so that the data can be appropriately classified.
  • the information processing apparatus includes a keyword normalization unit (keyword normalization unit 153 in the embodiment).
  • the keyword normalization unit identifies the related words of the extracted keyword and associates them with the data of the extraction source of the extracted keyword.
  • the classification unit classifies a plurality of data based on the related words specified by the keyword normalization unit. Thereby, the information processing apparatus can identify the related word of the extracted keyword and appropriately classify the data by using the related word associated with the data of the extraction source of the extracted keyword.
  • the keyword normalization unit identifies the related words of the extracted keywords using a conceptual dictionary that shows the conceptual relationship of the language.
  • the information processing apparatus can appropriately identify the related words of the extracted keywords based on the conceptual relationship of the language.
  • the keyword normalization department excludes keywords that satisfy the exclusion conditions from the extracted keywords.
  • the information processing apparatus can classify the data by excluding the extraction keywords unnecessary for the classification process, so that the data can be appropriately classified.
  • the keyword normalization department excludes the keywords corresponding to the part of speech to be excluded from the extracted keywords.
  • the information processing apparatus can classify the data group by excluding the extracted keywords corresponding to the part of speech unnecessary for the classification process, so that the data can be appropriately classified.
  • the classification unit classifies multiple data into multiple groups.
  • the information processing apparatus can classify the data group in consideration of the commonality of the related words or the extracted keywords, so that the data can be appropriately classified.
  • the classification unit classifies a plurality of data into a plurality of groups by using the points of the extraction keyword indicating the degree of relevance of the extraction keyword to the data of the extraction source.
  • the information processing apparatus can classify the data group in consideration of the degree of relevance of the extracted keyword to the data, so that the data can be appropriately classified.
  • the classification unit classifies a plurality of data using the points of each of the plurality of groups calculated by using the points of the corresponding extraction keywords of the plurality of groups.
  • the information processing apparatus can classify the data group in consideration of the points of each group in which the data is classified, so that the data can be appropriately classified.
  • the classification unit classifies a plurality of data into a plurality of groups when each point of the plurality of groups meets a predetermined criterion.
  • the information processing apparatus can appropriately classify the data by classifying the data in the group when the points of each group in which the data is classified satisfy the criteria.
  • the classification unit classifies a plurality of data into a plurality of groups when the points of each of the plurality of groups are equal to or more than a predetermined value.
  • the information processing apparatus can appropriately classify the data by classifying the data in the group when the points of each group in which the data is classified are equal to or more than a predetermined value.
  • the classification unit classifies a plurality of data into groups in which the number of applicable data is less than or equal to a predetermined number.
  • the information processing apparatus can prevent a large amount of data from falling into one group by classifying the data so that the number of data belonging to the group does not exceed a predetermined value, and classifies the data appropriately. Can be done.
  • the classification unit classifies multiple data into groups below the classification number threshold.
  • the information processing apparatus can prevent the data from being classified into a large number of groups, and can appropriately classify the data.
  • multiple data include text data.
  • the information processing apparatus can appropriately classify the data by targeting a plurality of data including the text data as the classification target.
  • multiple data include image data.
  • the information processing apparatus can appropriately classify the data by targeting a plurality of data including the image data as the classification target.
  • multiple data include time series data.
  • the information processing apparatus can appropriately classify the data by targeting a plurality of data including the time series data as the classification target.
  • the time series data is video data, audio data, or waveform data.
  • the information processing apparatus can appropriately classify the data by targeting a plurality of data including the moving image data, the audio data, or the waveform data as the classification target.
  • FIG. 18 is a hardware configuration diagram showing an example of a computer 1000 that realizes the functions of an information processing device such as the information processing device 100.
  • the computer 1000 has a CPU 1100, a RAM 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600.
  • Each part of the computer 1000 is connected by a bus 1050.
  • the CPU 1100 operates based on the program stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands the program stored in the ROM 1300 or the HDD 1400 into the RAM 1200, and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program depending on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by the program.
  • the HDD 1400 is a recording medium for recording an information processing program according to the present disclosure, which is an example of program data 1450.
  • the communication interface 1500 is an interface for the computer 1000 to connect to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • the media is, for example, an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • a magneto-optical recording medium such as MO (Magneto-Optical disk)
  • tape medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • MO Magneto-optical disk
  • the CPU 1100 of the computer 1000 realizes the functions of the control unit 15 and the like by executing the information processing program loaded on the RAM 1200.
  • the information processing program according to the present disclosure and the data in the storage unit 14 are stored in the HDD 1400.
  • the CPU 1100 reads the program data 1450 from the HDD 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
  • the present technology can also have the following configurations.
  • a keyword extractor that extracts keywords from each of multiple data to be classified,
  • a classification unit that classifies the plurality of data using related words related to the extracted keywords, which are keywords extracted from each of the plurality of data.
  • Information processing device equipped with (2)
  • the classification unit The plurality of data are classified by using a hypernym of the extracted keyword, a paraphrase in which the extracted keyword is paraphrased into another expression, or the related word which is an associative word associated with the extracted keyword.
  • the information processing device according to (1).
  • the classification unit Classify the plurality of data based on the commonality of the related word or the extracted keyword.
  • the information processing apparatus according to (1) or (2).
  • the classification unit By classifying the data in which the related word or the extracted keyword is common into the same group, the plurality of data are classified.
  • a keyword normalization unit that identifies the related word of the extracted keyword and associates it with the data of the extraction source of the extracted keyword. Equipped with The classification unit The plurality of data are classified based on the related words specified by the keyword normalization unit.
  • the keyword normalization unit is Identify the relevant words of the extracted keywords using a conceptual dictionary showing the conceptual relationships of languages.
  • the keyword normalization unit is Exclude keywords that satisfy the exclusion conditions from the extracted keywords, The information processing apparatus according to (5) or (6).
  • the keyword normalization unit is Exclude keywords corresponding to the part of speech to be excluded from the extracted keywords, The information processing apparatus according to (7).
  • the classification unit Classify the plurality of data into a plurality of groups, The information processing apparatus according to any one of (1) to (8).
  • the classification unit The plurality of data are classified into the plurality of groups by using the points of the extracted keyword indicating the degree of association of the extracted keyword with the data of the extraction source.
  • (11) The classification unit The plurality of data are classified using the points of each of the plurality of groups calculated by using the points of the corresponding extraction keywords of the plurality of groups.
  • the classification unit When each point of the plurality of groups meets a predetermined criterion, the plurality of data are classified into the plurality of groups.
  • the classification unit When each point of the plurality of groups is equal to or more than a predetermined value, the plurality of data are classified into the plurality of groups.
  • the classification unit Classify the plurality of data into groups in which the number of applicable data is less than or equal to a predetermined number.
  • the information processing apparatus according to any one of (1) to (13).
  • the classification unit Classify the plurality of data into groups below the classification number threshold.
  • the information processing apparatus according to any one of (1) to (14).
  • the plurality of data are Including text data, The information processing apparatus according to any one of (1) to (15).
  • the plurality of data are Including image data, The information processing apparatus according to any one of (1) to (16).
  • the plurality of data are Including time series data, The information processing apparatus according to any one of (1) to (17).
  • the time series data is Video data, audio data, or waveform data, The information processing apparatus according to (18).
  • Keywords are extracted from each of multiple data to be classified, and The plurality of data are classified by using the related words related to the extracted keywords, which are the keywords extracted from each of the plurality of data.
  • Information processing device 11 Communication unit 12 Input unit 13 Display unit (display) 14 Storage unit 141 Conceptual dictionary storage unit 142 Classification target data storage unit 143 Classification condition storage unit 15 Control unit 151 Acquisition unit 152 Keyword extraction unit 153 Keyword normalization unit 154 Classification unit 155 Transmission unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示に係る情報処理装置は、分類対象となる複数のデータの各々からキーワードを抽出するキーワード抽出部と、前記複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、前記複数のデータを分類する分類部と、を備える。

Description

情報処理装置及び情報処理方法
 本開示は、情報処理装置及び情報処理方法に関する。
 文書(文章)等のデータ群を分類する技術が提供されている。例えば、文章から抽出したキーワードを用いて文章をクラスタリング(分類)する技術が提供されている(例えば、特許文献1)。
特開2015-060581号公報
 従来技術によれば、文章から予め定義された品詞情報に基づいて一般用語を抽出したり、文章から、複合語の出現頻度に基づいて一般用語とは異なる複合語をユーザ用語として抽出したりする。
 しかしながら、従来技術は、データを適切に分類することができるとは限らない。例えば、従来技術は、分類対象となる文章から抽出されたキーワードを用いて文章を分類している。そのため、従来技術は、文字列として比較した場合は異なるが、概念的には同義のキーワード等が抽出された場合、それらの文章を同じ分類にすることができない。このように、分類対象となるデータから抽出されたキーワードのみを用いるだけでは、データを適切に分類することが難しい場合がある。そのため、データを適切に分類することが望まれている。
 そこで、本開示では、データを適切に分類することができる情報処理装置及び情報処理方法を提案する。
 上記の課題を解決するために、本開示に係る一形態の情報処理装置は、分類対象となる複数のデータの各々からキーワードを抽出するキーワード抽出部と、前記複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、前記複数のデータを分類する分類部と、を備える。
本開示の実施形態に係るキーワード抽出処理の一例を示す図である。 本開示の実施形態に係るデータの分類処理の概要を示す図である。 分類処理実行に関する手順を示すフローチャートである。 データの分類の一例を示す図である。 データの分類結果の一例を示す図である。 本開示の実施形態に係るキーワードの正規化処理の一例を示す図である。 関連ワードを用いたデータの分類の一例を示す図である。 関連ワードを用いたデータの分類結果の一例を示す図である。 関連ワードを用いる場合のポイントの一例を示す図である。 本開示の実施形態に係る情報処理装置の構成例を示す図である。 本開示の実施形態に係る分類対象データ記憶部の一例を示す図である。 本開示の実施形態に係る情報処理の手順を示すフローチャートである。 文章以外のデータからのキーワード抽出の一例を示す図である。 分類の更新の一例を示す図である。 分類の更新結果の一例を示す図である。 本開示の変形例に係る情報処理システムの構成例を示す図である。 ユーザに応じた分類の一例を示す図である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本願にかかる情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 以下に示す項目順序に従って本開示を説明する。
  1.実施形態
   1-1.本開示の実施形態に係る情報処理の概要
    1-1-1.キーワード抽出
    1-1-2.データ分類
    1-1-3.分類処理例
    1-1-4.関連ワードを用いた処理例
    1-1-5.背景及び効果等
   1-2.実施形態に係る情報処理装置の構成
   1-3.実施形態に係る情報処理の手順
   1-4.文章以外のキーワード抽出例
   1-5.分類の更新例
   1-6.分類条件
  2.その他の実施形態
   2-1.変形例
    2-1-1.ユーザに応じた分類
   2-2.その他の構成例
   2-3.その他
  3.本開示に係る効果
  4.ハードウェア構成
[1.実施形態]
[1-1.本開示の実施形態に係る情報処理の概要]
 本開示の実施形態に係る情報処理は、情報処理装置100(図10)によって実現される。情報処理装置100は、分類対象となる複数のデータの各々からキーワード(以下「抽出キーワード」ともいう)を抽出し、複数のデータの各々の抽出キーワードに関連するキーワード(以下「関連ワード」ともいう)を用いて、複数のデータを分類するコンピュータである。ここでいうキーワードは、データの意味(内容)を示す文字列である。また、関連ワードは、抽出キーワードの上位語、抽出キーワードを別の表現に言い換えたキーワード(以下「パラフレーズ」ともいう)、または抽出キーワードから連想されるキーワード(以下「連想ワード」ともいう)等であるが具体例については後述する。
 まず、以下では情報処理装置100により実行される各種の処理について説明し、情報処理装置100の構成の詳細は後述する。なお、以下では、データの一例として、文章データ(以下「文章」、「文書」ともいう)を主に説明するが、分類対象となる複数のデータには、画像データ(以下「画像」ともいう)が含まれてもよい。また、分類対象となる複数のデータには、動画データ(以下「動画」ともいう)、音声データ(以下「音声」ともいう)、波形データ(以下「波形」ともいう)等の時系列データが含まれてもよい。すなわち、分類対象となる複数のデータには、抽出キーワードの抽出が可能であれば、どのような種別のデータが含まれてもよい。
[1-1-1.キーワード抽出]
 まず、図1を用いてデータからのキーワード抽出について説明する。図1は、本開示の実施形態に係るキーワード抽出処理の一例を示す図である。図1のキーワード抽出の処理は、情報処理装置100のキーワード抽出部152(図10参照)により実行される。具体的には、図1は、分離対象となるデータ群のうち、1個のデータDT1である文章Xから抽出キーワードを抽出する場合を一例として示す。
 情報処理装置100は、テキストマイニングの技術を用いて文章Xから抽出キーワードを抽出する(ステップS1)。情報処理装置100は、形態素解析やワードカウント、共起ネットワーク等により文章Xから抽出キーワードを抽出する。図1では、情報処理装置100は、キーワード情報KXに示すように、文章Xから「犬」、「ペット」、「チワワ」、「小屋」、「かわいい」といった文字列を抽出キーワードとして抽出する。情報処理装置100は、各抽出キーワードの品詞を特定し、特定した品詞の情報を各抽出キーワードに対応付けてもよい。例えば、文章Xから抽出される抽出キーワードは文章X内で重要な意味を持つ単語である。
 情報処理装置100は、文章Xの各抽出キーワードに対して、文章Xとの関連度合いに応じてポイントを算出し、算出したポイントを各抽出キーワードに付与する。例えば、情報処理装置100は、文章(文書)中の単語の重要度を評価する手法であるTF-IDFの手法を用いて、各抽出キーワードのポイントを算出する。また、情報処理装置100は、抽出キーワードに付与されたポイントの合計が1になるように補正(正規化)する。図1の例では、情報処理装置100は、文章Xの各抽出キーワードについて、「犬」のポイントを「0.6」、「ペット」のポイントを「0.2」、「チワワ」のポイントを「0.1」、「小屋」のポイントを「0.06」、「かわいい」のポイントを「0.04」に正規化する。このように、文章Xの抽出キーワードのうち、「犬」のポイントが最大であるため、文章Xは主に「犬」に関連する文章である可能性が高いことを示す。
 なお、情報処理装置100は、TF-IDFに限らず、ポイントを算出可能であればどのような手法により各抽出キーワードのポイントを算出してもよい。例えば、情報処理装置100は、頻度をポイントとして用いてもよい。この場合、情報処理装置100は、頻度が大きい抽出キーワード程、ポイントが大きくなるようにポイントを算出してもよい。また、情報処理装置100は、文章以外のデータを対象としてポイントを算出する場合、データの種別に応じてポイントを算出する。例えば、情報処理装置100は、データが画像である場合、画像に含まれる対象物を示す抽出キーワードについては、その画像にその対象物が占める割合をポイントとして算出してもよい。また、例えば、情報処理装置100は、データが動画である場合、動画に含まれる対象物を示す抽出キーワードについては、その動画中で対象物が写っている時間をポイントとして算出してもよい。なお、文章以外のデータについての詳細は後述する。
 また、各データから抽出されるキーワードの最大数(抽出最大数)に制限を持たせてもよい。例えば、抽出最大数が「4」に指定されている場合、情報処理装置100は、4個を上限として、各データから抽出キーワードを抽出する。この場合、情報処理装置100は、データから抽出キーワードを抽出し、各抽出キーワードのポイントを算出した後、抽出キーワードのうち、ポイントが大きい4個の抽出キーワード以外を除外してもよい。
[1-1-2.データ分類]
 次に、図2を用いて抽出キーワードに基づくデータ分類の概要について説明する。図2は、本開示の実施形態に係るデータの分類処理の概要を示す図である。図2の分類処理は、情報処理装置100の分類部154(図10参照)により実行される。
 図2の例では、文章A、文章B、文章C、及び文章D等の複数のデータを分類する場合の処理概要を示す。キーワード情報KAは、情報処理装置100が文章Aから抽出した抽出キーワードを示す。キーワード情報KB、KC、KDは、情報処理装置100が文章B、文章C、及び文章Dの各々から抽出した抽出キーワードを示す。
 情報処理装置100は、キーワード情報KA、KB、KC、KD等を用いて、文章A、文章B、文章C、及び文章D等の複数のデータを分類する(ステップS2)。図2の例では、情報処理装置100は、文章A、文章B、文章C、及び文章D等の複数のデータを抽出キーワードの共通性に基づいて、分類結果RS1に示すように、複数の分類(以下「グループ」ともいう)に分類する。情報処理装置100は、文章A、文章B等を「分類#1」として示すグループに分類し、文章C、文章D等を「分類#2」として示すグループに分類する。
 情報処理装置100は、抽出した抽出キーワードをもとに、データ群を適切な粒度で分類する。例えば、情報処理装置100は、既存の分類結果がある場合、既存の分類結果を用いて、新たな分類対象を分類してもよい。この場合の処理について、図3を用いて説明する。図3は、分類処理実行に関する手順を示すフローチャートである。例えば、図2に示す分類結果RS1がある場合に、新たなデータDXが分類対象とされた場合を一例として説明する。
 まず、情報処理装置100は、新たなデータが既存の分類に当てはまるかを判定する(ステップS11)。例えば、情報処理装置100は、データDXが既存の分類「分類#1」、「分類#2」のいずれかに当てはまるかを判定する。
 情報処理装置100は、新たなデータが既存の分類に当てはまる場合(ステップS11:Yes)、粒度が適切かを判定する(ステップS12)。例えば、情報処理装置100は、データDXが追加されたグループのデータ数が1個のグループに属するデータ数の上限値(「最大項目数」ともいう)を超える場合、粒度が適切ではないと判定する。
 情報処理装置100は、粒度が適切である場合(ステップS12:Yes)、新たなデータを該当する分類に追加して、処理を終了する。例えば、情報処理装置100は、データDXが追加された「分類#1」のデータ数が最大項目数を以下である場合、データDXを該当する「分類#1」に追加して処理を終了する。
 情報処理装置100は、新たなデータが既存の分類に当てはまる場合(ステップS11:No)、分類処理を実行する(ステップS13)。例えば、情報処理装置100は、新たなデータを加えたデータ群全体を対象として再度分類処理を行う。また、情報処理装置100は、粒度が適切ではない場合(ステップS12:No)、分類処理を実行する(ステップS13)。
 なお、上記の処理は一例であり、情報処理装置100は、種々の情報を適宜用いて、新たなデータが既存の分類に当てはまるかを判定したり、粒度が適切かを判定したりする。この点について以下例を説明する。
[1-1-3.分類処理例]
 ここから、図4及び図5を用いて分類処理の一例を説明する。図4は、データの分類の一例を示す図である。また、図5は、データの分類結果の一例を示す図である。
 ここで、分類の粒度は、データ群の検索性に大きく影響する。例えば、情報処理装置100を利用するユーザは、最大項目数または分類閾値を指定することにより、分類の粒度を設定する。上述したように、最大項目数とは1個の分類(グループ)内に含まれる項目(データ)の最大数である。1個の分類(グループ)内の項目(データ)数がこの値を超えると分類処理を実行する。また、分類閾値とは、例えば、ある共通キーワードで分類した分類のようなグループのスコア(ポイント)が閾値を超えているかで分類するか否かを判断するための基準に用いる。
 以下では、最大項目数と分類閾値を使用した場合の具体的な分類手順に関して説明する。具体的には、最大項目数を「4」、分類閾値を「0.1」とする。分類閾値は、共通キーワードで分類されたグループ内の各データの共通キーワードのポイントの平均値(以下「グループのポイント」ともいう)との比較に用いる。
 ここから、図4を用いて具体的に説明する。図4中のキーワード情報KA、KB、KC、KDに示すように、文章A、文章B、文章C、文章Dの4個のデータは、情報処理装置100により抽出キーワードが抽出され、抽出キーワードのポイントが算出されている。この場合、データ群は、文章A、文章B、文章C、文章Dの4個であり、最大項目数「4」以下であり、情報処理装置100は、分類を不要と判定する。
 なお、図4の場合、文章A、文章B、文章C、文章Dの各データのキーワードに付与されたポイントの合計が1になるように正規化されている。情報処理装置100は、文章Aの各抽出キーワードについて、「テニス」のポイントを「0.4」、「スポーツ」のポイントを「0.3」、「プロ」のポイントを「0.15」、「コート」のポイントを「0.12」、「選手」のポイントを「0.03」に正規化する。情報処理装置100は、文章B、文章C、文章Dの各抽出キーワードのポイントについても同様に正規化する。
 ここで、文章Eが新たに追加される。文章Eは、キーワード情報KEに示すように、情報処理装置100により抽出キーワードが抽出され、抽出キーワードのポイントが算出される。情報処理装置100は、文章Eの各抽出キーワードについて、「ハムスター」のポイントを「0.5」、「ペット」のポイントを「0.4」、「出産」のポイントを「0.04」、「回し車」のポイントを「0.03」、「しつけ」のポイントを「0.03」に正規化する。
 この場合、データ群は、文章A、文章B、文章C、文章D、文章Eの5個となり、最大項目数「4」を超えるため、情報処理装置100は、粒度が不適切と判定し、分類処理を実行する(ステップS21)。
 情報処理装置100は、抽出キーワードと付与されたポイントを使用して、分類処理を実行する。情報処理装置100は、各データの抽出キーワードを比較して、抽出キーワードが共通するデータを特定する。例えば、情報処理装置100は、各データの関連度合いから文章Aと文章Bがキーワード「スポーツ」で共通すると特定する。そして、情報処理装置100は、文章Aの抽出キーワード「スポーツ」のポイント「0.3」と文章Bの抽出キーワード「スポーツ」のポイント「0.2」との合計(「合計ポイント」ともいう)は「0.5」と算出する。そして、情報処理装置100は、文章Aと文章Bを1個のグループ「スポーツ」として括った(分類した)場合、文章Aの抽出キーワード「スポーツ」及び文章Bの抽出キーワード「スポーツ」の平均値(平均ポイント)である、グループ「スポーツ」のポイントは「0.25(=0.5/2)」であると算出する。グループ「スポーツ」のポイントは「0.25」は、分類基準である分類閾値「0.1」を超えるため、情報処理装置100は、グループ「スポーツ」の分類が有効であると判定する。
 また、情報処理装置100は、文章C、文章D、文章Eは「ペット」もしくは「しつけ」という共通の抽出キーワードが存在する。情報処理装置100は、文章C、文章D、文章Eを「ペット」で括った場合の合計ポイントは「0.9(=0.2+0.3+0.4)」になると算出する。また、情報処理装置100は、文章C、文章D、文章Eを「しつけ」で括った場合の合計ポイントは「0.12(=0.06+0.03+0.03)」と算出する。そのため、情報処理装置100は、合計ポイントが大きい「ペット」がより文章A、文章B、文章Eのまとまりを示すキーワードとしてはふさわしいと判定する。
 また、情報処理装置100は、文章C、文章D、文章Eを「ペット」として括った場合の平均ポイントは「0.3(=0.9/3)」となるため、グループ「ペット」の分類が有効であると判定する。なお、情報処理装置100は、1個のグループに該当するデータに共通するキーワードが複数存在する場合、より類似した文章(文書)であるとみなしこれらを加算して計算してもよい。図4の例では、情報処理装置100は、文章C、文章D、文章Eの平均ポイント「0.3」に、文章C、文章D、文章Eの「しつけ」のポイントの平均ポイント「0.04(=0.12/3)」を加算したポイント「0.34(=0.3+0.04)」をグループ「ペット」のポイントとする。
 以上のように、文章Eが追加された場合、情報処理装置100は、分類結果RS2に示すように、文章A、文章Bをグループ「スポーツ」に分類し、文章C、文章D、文章Eをグループ「ペット」に分類する。
 文章Eが追加された場合の分類結果の詳細を図5に示す。図5の分類結果RS2に示すように、文章A、文章Bは、分類ワード「スポーツ」に対応するグループG1に分類され、文章C、文章D、文章Eは、分類ワード「ペット」に対応するグループG2に分類される。この場合、情報処理装置100は、文章A、文章Bを含む分類ワード「スポーツ」と文章C、文章D、文章Eを含む分類ワード「ペット」のブックマークの分類項目を設定してもよい。
[1-1-4.関連ワードを用いた処理例]
 ここから、関連ワードを用いた分類処理について説明する。なお、上述した図1~図5と同様の点については適宜説明を省略する。
 まず、図6を用いて、関連ワードの特定を含むキーワードの正規化処理について説明する。図6は、本開示の実施形態に係るキーワードの正規化処理の一例を示す図である。図6のキーワードを正規化する処理は、情報処理装置100のキーワード正規化部153(図10参照)により実行される。
 情報処理装置100は、抽出した抽出キーワードを用いて、より分類にふさわしいキーワードへの変更、抽出キーワードの除外、またはキーワードの追加を行う。
 まず、抽出キーワードの除外(削除)について説明する。例えば、料理に関する文章Zから抽出キーワードを抽出した場合、「おいしい」、「作る」といったキーワードが抽出される場合がある。情報処理装置100は、このような個人の概念や行動に基づく単語(以下「除外対象ワード」ともいう)を抽出キーワードから除外(削除)する。そして、情報処理装置100は、除外対象ワードを除外後の抽出キーワードを対象として、再度ポイントの正規化を行う。例えば、情報処理装置100は、形容詞や動詞といった特定の品詞に該当するキーワードを除外対象ワードとして選定してもよい。例えば、情報処理装置100は、除外する品詞を示す除外キーワード情報を用いて、該当する抽出キーワードを除外してもよい。なお、上記は一例であり、情報処理装置100は、どのような手法によりキーワードを除外してもよい。例えば、情報処理装置100は、「て」、「に」、「を」、「は」等の除外するキーワードの一覧情報を用いて、一覧情報中の文字列に一致する抽出キーワードを除外してもよい。
 次に、抽出キーワードの関連ワードの特定について説明する。情報処理装置100は、抽出キーワードの関連ワードを特定し、抽出キーワードに関連ワードを関連付ける。上述したように、関連ワードとは、キーワードの上位概念(上位語)や言い換え表現(パラフレーズ)や連想ワード等が含まれる。例えば、「チワワ」の上位概念に「犬」があり、その上位概念に「動物」がある。つまり、「犬」及び「動物」が「チワワ」の関連ワードとなり得る。また、言い換え表現としては、「飼い犬」の言い換え表現が「ペット」にあたる。つまり、「ペット」が「飼い犬」の関連ワードとなり得る。
 例えば、情報処理装置100は、言語の概念的な関係を示す概念辞書を用いて各キーワードの関連ワードを特定する。例えば、概念辞書としては、下記の文献に開示されるWordNet等の各種の概念辞書が用いられる。情報処理装置100は、WordNetを用いて、各キーワードの関連ワードを特定する。
 ・日本語 WordNet <http://compling.hss.ntu.edu.sg/wnja/>
 図6では、分離対象となるデータ群のうち、1個のデータDT1である文章Xから抽出キーワードを抽出する場合を一例として示す。情報処理装置100は、文章Xから抽出キーワードを抽出する(ステップS31)。図6では、情報処理装置100は、キーワード情報KXに示すように、文章Xから「犬」、「ペット」、「チワワ」、「小屋」、「かわいい」といった文字列を抽出キーワードとして抽出する。
 そして、情報処理装置100は、文章Xから抽出した抽出キーワードの正規化を行う(ステップS32)。情報処理装置100は、正規化後キーワード情報RKXに示すように、除外する品詞「形容詞」に該当する「かわいい」を抽出キーワードから除外する。そして、情報処理装置100は、「かわいい」を除外後の各抽出キーワードに付与されたポイントの合計が1になるように補正(正規化)する。図6の例では、情報処理装置100は、文章Xの各抽出キーワードについて、「犬」のポイントを「0.61」、「ペット」のポイントを「0.21」、「チワワ」のポイントを「0.11」、「小屋」のポイントを「0.07」に正規化する。
 また、情報処理装置100は、各抽出キーワードの関連ワードを特定する。情報処理装置100は、WordNet等の概念辞書を用いて、「犬」、「チワワ」、「小屋」の各々について関連ワードを特定する。図6では、情報処理装置100は、正規化後キーワード情報RKXに示すように、「ペット」及び「動物」を「犬」の関連ワードとして特定し、「動物」を「ペット」の関連ワードとして特定する。情報処理装置100は、「犬」、「ペット」及び「動物」を「チワワ」の関連ワードとして特定し、「建造物」を「小屋」の関連ワードとして特定する。
 なお、上記は一例であり、情報処理装置100は、各キーワードの関連ワードが特定可能であれば、どのような情報を用いてもよい。例えば、情報処理装置100は、記憶部120(図10参照)に各キーワードと、そのキーワードの関連ワードとを対応付けた関連ワードリストを記憶し、関連ワードリストをもちいて、各キーワードの関連ワードを特定してもよい。
 また、例えば、情報処理装置100は、電話帳のような個人情報や家族情報といったユーザの個人情報を保持している場合、ユーザの個人情報を用いて、キーワードの関連ワードを特定してもよい。例えば、情報処理装置100は、ユーザU1の母親が「ユウコ」である等の家族関係を示すユーザU1の個人情報を有する場合、ユーザU1の場合、キーワード「ユウコ」の関連ワードとして置き換え表現であるキーワード「母」を特定してもよい。また、情報処理装置100は、ユーザU1の場合、キーワード「ユウコ」の関連ワードとして、「母」の上位概念である上位語の「家族」を特定してもよい。
 情報処理装置100は、特定した関連ワードを抽出キーワードに付与することで、抽出キーワードに特定した関連ワードを対応付けて記憶する。このように、情報処理装置100は、特定した関連ワードを用いることで、より概念的な分類が可能となる。
 ここから、図7及び図8を用いて、関連ワードを利用した分類処理の一例を説明する。図7は、関連ワードを用いたデータの分類の一例を示す図である。図8は、関連ワードを用いたデータの分類結果の一例を示す図である。
 図7中の正規化後キーワード情報RKA、RKB、RKC、RKDに示すように、文章A、文章B、文章C、文章Dの4個のデータは、情報処理装置100により各抽出キーワードについて関連ワードが特定されている。この場合、データ群は、文章A、文章B、文章C、文章Dの4個であり、最大項目数「4」以下であり、情報処理装置100は、分類を不要と判定する。
 ここで、文章Fが新たに追加される。文章Fは、正規化後キーワード情報RKEに示すように、情報処理装置100により抽出キーワードが抽出され、抽出キーワードのポイントが算出され、抽出キーワードについて関連ワードが特定される。情報処理装置100は、文章Fの各抽出キーワードについて、「象」のポイントを「0.6」、「動物園」のポイントを「0.3」、「食事」のポイントを「0.05」、「費用」のポイントを「0.03」、「上野」のポイントを「0.02」に正規化する。また、情報処理装置100は、「動物」を「象」の関連ワードとして特定し、「ごはん」及び「エサ」を「食事」の関連ワードとして特定し、「東京」、「日本」を「上野」の関連ワードとして特定する。
 情報処理装置100は、文章A、文章B、文章C、文章D、文章Fのデータ群を対象として、分類処理を実行する(ステップS41)。情報処理装置100は、関連ワードを用いて、分類処理を実行する。情報処理装置100は、各データの抽出キーワード及び関連ワードを比較して、抽出キーワードまたは関連ワードが共通するデータを特定する。
 ここで、抽出キーワードのみでは、文章A、文章B、文章C、文章Dのうち、文章Fとキーワードが共通するデータが存在しない。一方で、関連ワードを比較すると文章C、文章D、及び文章Fに「動物」という共通のキーワードが存在する。そのため、情報処理装置100は、文章C、文章D、及び文章Fが抽出キーワード「動物」で共通すると特定する。
 そして、図6の例では、情報処理装置100は、「動物」という関連ワードが対応付けられた抽出キーワードのうち、ポイントが最大の抽出キーワードのポイントを用いて、平均ポイントを算出する。情報処理装置100は、文章Cの「犬」のポイント「0.6」、文章Dの「猫」のポイント「0.5」、文章Fの「象」のポイント「0.6」を合計して、文章C、文章D、文章Fを「動物」で括った場合の合計ポイントは「1.7(=0.6+0.5+0.6)」になると算出する。
 なお、上記の算出は一例であり、関連ワードを用いる場合のポイントについては、抽出キーワードのポイントから所定の関数を用いて算出したポイント(以下「関連ワード用ポイント」ともいう)を用いてもよい。例えば、関連ワードが言い換え表現である場合、抽出キーワードの1倍(すなわちそのまま利用)、関連ワードが上位概念(上位語)である場合、抽出キーワードの0.8倍、その上位概念はさらに0.8倍と、概念関係が遠い程ポイントを低くしてもよい。なお、この点の詳細は後述する。
 情報処理装置100は、文章C、文章D、文章Eを「動物」として括った場合の平均ポイントは「0.57(=1.7/3)」となるため、分類閾値「0.1」を超えており、グループ「動物」の分類が有効であると判定する。
 また、情報処理装置100は、文章Aと文章Bが関連ワード「スポーツ」が共通すると特定する。そして、図6の例では、情報処理装置100は、「スポーツ」という関連ワードが対応付けられた抽出キーワードのうち、ポイントが最大の抽出キーワードのポイントを用いて、平均ポイントを算出する。情報処理装置100は、文章Aの抽出キーワード「テニス」のポイント「0.4」と文章Bの抽出キーワード「水泳」のポイント「0.5」を合計して、文章A、文章Bを「スポーツ」で括った場合の合計ポイントは「0.9(=0.4+0.5)」になると算出する。情報処理装置100は、文章A、文章Bを「スポーツ」として括った場合の平均ポイントは「0.45(=0.9/2)」となるため、分類閾値「0.1」を超えており、グループ「スポーツ」の分類が有効であると判定する。
 以上のように、文章Fが追加された場合、情報処理装置100は、分類結果RS11に示すように、文章A、文章Bをグループ「スポーツ」に分類し、文章C、文章D、文章Fをグループ「動物」に分類する。
 文章Fが追加された場合の分類結果の詳細を図8に示す。図8の分類結果RS11に示すように、文章A、文章Bは、分類ワード「スポーツ」に対応するグループG11に分類され、文章C、文章D、文章Fは、分類ワード「動物」に対応するグループG12に分類される。この場合、情報処理装置100は、文章A、文章Bを含む分類ワード「スポーツ」と文章C、文章D、文章Fを含む分類ワード「動物」のブックマークの分類項目を設定してもよい。
 上述のように、情報処理装置100は、各データから抽出された抽出キーワードの関連ワードを用いて、データを分類する。これにより、情報処理装置100は、文章C、文章D、文章Fのように、抽出キーワードのみを用いた場合では、1つのグループに分類できないデータを適切に1つのグループに分類できる。したがって、情報処理装置100は、データを適切に分類することができる。
 なお、文章A、文章Bの抽出キーワードには「スポーツ」が含まれるため、それらのポイントも加味してグループのポイントを算出してもよい。例えば、情報処理装置100は、文章Aのキーワード「スポーツ」のポイント「0.7(=0.4+0.3)」と文章Bのキーワード「スポーツ」のポイント「0.7(=0.5+0.2)」とを用いて、グループ「スポーツ」のポイントを算出してもよい。この場合、情報処理装置100は、文章Aのキーワード「スポーツ」のポイント「0.7」と文章Bのキーワード「スポーツ」のポイント「0.7」を合計した合計ポイント「1.4(=0.7+0.7)」を用いて、グループ「スポーツ」のポイントを「0.7(=1.4/2)」と算出してもよい。
 情報処理装置100は、抽出キーワードと関連ワードとが共通するデータを1つのグループに分類してもよい。例えば、情報処理装置100は、抽出キーワードにのみ「旅行」があるデータと、関連ワードにのみ「旅行」があるデータとを1つのグループ「旅行」に分類してもよい。このように、情報処理装置100は、抽出キーワードと関連ワードとの全体のキーワードの共通性に基づいて、分類処理を行ってもよい。
 ここで、図9を用いて、上述した関連ワード用ポイントの一例について説明する。図9は、関連ワードを用いる場合のポイントの一例を示す図である。具体的には、図9は、図8の分類結果RS11のうち、分類ワード「スポーツ」に対応するグループG11に関連ワードポイントを適用した場合の一例を示す。
 図9の例では、情報処理装置100は、文章Aについて、関連ワード「スポーツ」が抽出キーワード「テニス」の上位語であるため、抽出キーワード「テニス」のポイント「0.4」に係数「0.8」を乗算して、関連ワードポイントを算出する。具体的には、情報処理装置100は、正規化後キーワード情報RKA2に示すように、文章Aについて、関連ワード「スポーツ」の関連ワードポイントを「0.32(=0.4*0.8)」と算出する。また、情報処理装置100は、正規化後キーワード情報RKB2に示すように、文章Bについて、関連ワード「スポーツ」の関連ワードポイントを「0.4(=0.5*0.8)」と算出する。この場合、情報処理装置100は、文章A、文章Bを「スポーツ」として括った場合の平均ポイントは「0.36(=(0.32+0.4)/2)」になると算出する。
[1-1-5.背景及び効果等]
 例えば、電子メール、ブックマーク、画像、動画等の時系列データといった各種のデータ群は一見しただけで内容の判断が困難であり、データ群に含まれる量が増えるほど検索性が悪くなる。そこでデータ群の各データの内容を解析し、半自動でフォルダ分けやタグ付与などの分類を行う事が望まれている。
 例えば、予めメールフォルダに関連キーワードを設定しておくことで、新規の電子メールをどのメールフォルダに振り分けるべきかの候補を提示してくれる技術がある。しかしながら、まず人手によるキーワードを付与する必要があり、メールフォルダが複数になるほど、共通要素のあるデータを正しく分類するようルールを定めるのは困難になる。加えて、1個のメールフォルダ内に電子メールが増え、検索性が悪化した場合、より検索性の高い振り分け方法を再度設定する必要がある。
 また書類を撮影するなどして電子画像データとして管理するケースが増えている。しかしながら、近年の画像分類では文書としての分類にとどまることが多い。そこで画像内の文書を解析し、内容を分類する方法が必要である。
 一方で、情報処理装置100は、文章、画像、動画等の時系列データ等の各種のデータについて、データからキーワードを抽出し、抽出した抽出キーワードに関連する関連ワードを用いて、データをグループに分類する。このように、情報処理装置100は、データの種別に依らずに、多量のデータ群の中から内容にそったデータの仕分けがされることで、目的のデータを見つけやすくすることができる。また、情報処理装置100は、目的のデータ群を集めるための振り分け設定をユーザ自らが考える必要がなく、ヒューマンエラーの発生も抑制することができる。また、情報処理装置100は、同一内容の文書の判断にも役立ち、文書の整理も行いやすくすることができる。また、情報処理装置100は、文字列を写した画像の内容分類も可能である。これにより、情報処理装置100は、文書群と文字列を写す画像群を同一分類規則に従い一括管理することが可能になる。
[1-2.実施形態に係る情報処理装置の構成]
 次に、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置100の構成について説明する。図10は、本開示の実施形態に係る情報処理装置100の構成例を示す図である。例えば、図10に示す情報処理装置100は、情報処理装置の一例である。情報処理装置100は、後述する情報処理装置としての機能を実現するコンピュータである。
 図10に示すように、情報処理装置100は、通信部11と、入力部12と、表示部13と、記憶部14と、制御部15とを有する。図10の例では、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部12(例えば、キーボードやマウス等)や、各種情報を表示するための表示部13(例えば、液晶ディスプレイ等)を有する。
 通信部11は、例えば、NIC(Network Interface Card)や通信回路等によって実現される。通信部11は、通信網N(インターネット等のネットワーク)と有線又は無線で接続され、通信網Nを介して、他の装置等との間で情報の送受信を行う。
 入力部12は、情報処理装置100の管理者等(「操作者」ともいう)から各種操作が入力される。入力部12は、操作者による入力を受け付ける。入力部12は、最大項目数や最大分類数等の分類条件等について、操作者による指定を受け付けてもよい。入力部12は、情報処理装置100に設けられたキーボードやマウスやタッチパネルを介して操作者からの各種操作を受け付けてもよい。
 表示部13は、各種情報を表示する。表示部13は、ディスプレイ等の表示装置(表示部)であり、各種情報を表示する。表示部13は、抽出キーワードや関連ワード等の各データの情報を表示する。表示部13は、分類部154による分類結果の情報を表示する。
 また、情報処理装置100は、表示部13に限らず、情報を出力する機能構成を有してもよい。なお、情報処理装置100は、情報を音声として出力する機能を有してもよい。例えば、情報処理装置100は、音声を出力するスピーカー等の音声出力部を有してもよい。
 記憶部14は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14は、概念辞書記憶部141と、分類対象データ記憶部142と、分類条件記憶部143とを有する。
 図示を省略するが、概念辞書記憶部141には、言語の概念的な関係を示す概念辞書に関する各種情報が格納される。例えば、概念辞書記憶部141は、WordNetの情報を記憶する。
 概念辞書記憶部141には、言語ごとの概念辞書が記憶されてもよい。この場合、概念辞書記憶部141には、日本語用の概念辞書、英語用の概念辞書、ドイツ語用の概念辞書、中国語用の概念辞書等、種々の言語の概念辞書が記憶されてもよい。
 実施形態に係る分類対象データ記憶部142は、分類対象となるデータに関する情報を記憶する。例えば、分類対象データ記憶部142は、データ、及びそのデータに対応する抽出キーワード、ポイント、関連ワード等の情報を記憶する。図11は、本開示の実施形態に係る分類対象データ記憶部の一例を示す図である。図11に、実施形態に係る分類対象データ記憶部142の一例を示す。図11に示した例では、分類対象データ記憶部142は、「データ」、「種別」、「抽出キーワード」、「ポイント」、「関連ワード」といった項目が含まれる。
 「データ」は、各データを示す。なお、各データを識別するデータIDを各データに対応付けて記憶してもよい。「種別」は、各データの種別を示す。「種別」には、文章、画像、動画、音声、波形、他の時系列データ、その他等、そのデータの種別を示す情報が記憶される。
 「抽出キーワード」は、データから抽出された抽出キーワードを示す。「ポイント」は、抽出キーワードの抽出元のデータとの関連度合いを示すポイント(スコア)を示す。「関連ワード」は、抽出キーワードの関連ワードを示す。図11に示すように1個の抽出キーワードに対して複数の関連ワードが対応付けられてもよい。
 図11の例では、種別「文章」のデータである文章Aは、抽出キーワードとして、「テニス」、「スポーツ」、「プロ」、「コート」、「選手」といったキーワードが抽出されたことを示す。また、抽出キーワード「テニス」は、上位語である「スポーツ」が関連ワードとして対応付けられていることを示す。
 また、種別「動画」のデータである動画MVは、抽出キーワードとして、「犬」、「公園」、「チワワ」、「フリスビー」といったキーワードが抽出されたことを示す。抽出キーワード「犬」は、上位語である「動物」が関連ワードとして対応付けられていることを示す。また、抽出キーワード「チワワ」は、上位語である「犬」及び、さらに上位語の「動物」が関連ワードとして対応付けられていることを示す。抽出キーワード「フリスビー」は、上位語である「おもちゃ」が関連ワードとして対応付けられていることを示す。関連ワードは、上位語に限らず、抽出キーワードのパラフレーズ、または抽出キーワードから連想される連想ワードであってもよい。
 なお、分類対象データ記憶部142は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、分類対象データ記憶部142は、各データの分類結果を示す情報が記憶されてもよい。分類対象データ記憶部142は、各データが該当するグループを示す情報が記憶されてもよい。
 分類条件記憶部143は、分類を行う際の条件に関する各種情報を記憶する。例えば、分類条件記憶部143は、各グループに属するデータ数の上限値を示す最大項目数の情報を記憶する。また、分類条件記憶部143は、各グループのポイントが基準を満たすかの判定に用いる所定値である分類閾値の情報を記憶する。また、分類条件記憶部143は、分類するグループの上限値を示す分類数閾値である最大分類数の情報を記憶する。また、分類条件記憶部143は、関連ワードを用いてグループ化する際に用いるポイントの算出するための情報(0.8等の係数等)を記憶する。また、例えば、分類条件記憶部143は、分類を確定するまでの分類処理の繰り返しの上限値を示す処理回数の情報を記憶する。例えば、分類条件記憶部143は、除外するキーワードを示す除外キーワード情報を記憶する。
 図10に戻り、説明を続ける。制御部15は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部15は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
 図10に示すように、制御部15は、取得部151と、キーワード抽出部152と、キーワード正規化部153と、分類部154と、送信部155とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、図10に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
 取得部151は、各種情報を取得する。取得部151は、記憶部14から各種情報を取得する。取得部151は、入力部12により受け付けられた情報を取得する。取得部151は、記憶部14から各種情報を取得する。取得部151は、概念辞書記憶部141や分類対象データ記憶部142や分類条件記憶部143から各種情報を取得する。取得部151は、外部の情報処理装置から各種情報を受信する受信部として機能する。取得部151は、ユーザが利用する端末装置(図16のユーザ端末10等)から各種情報を受信する。
 キーワード抽出部152は、キーワードを抽出する処理を行う。キーワード抽出部152は、データ群を分類するため、データのキーワードを抽出する。キーワード抽出部152は、記憶部14に記憶された情報に基づいて、キーワードを抽出する。キーワード抽出部152は、分類対象データ記憶部142に記憶されたデータの各々から情報に基づいて、キーワードを抽出する。キーワード抽出部152は、データから抽出した抽出キーワードを、抽出元のデータに対応付けて、分類対象データ記憶部142に格納する。
 キーワード抽出部152は、分類対象となる複数のデータの各々からキーワードを抽出する。キーワード抽出部152は、文章データ、画像データ、または時系列データを含む複数のデータの各々からキーワードを抽出する。キーワード抽出部152は、動画データ、音声データ、または波形データを含む複数のデータの各々からキーワードを抽出する。キーワード抽出部152は、図1や図6に示すキーワードの抽出処理を行う。
 キーワード抽出部152は、文章以外のデータから抽出キーワードを抽出するデータ解析部としての機能を有する。キーワード抽出部152は、画像解析に関する技術を用いて、画像から抽出キーワードを抽出する。例えば、キーワード抽出部152は、画像を解析し、画像に含まれる対象物を認識し、認識した対象物の名称を抽出キーワードとして抽出する。また、キーワード抽出部152は、画像を解析し、画像に含まれる対象物が画像中に占める割合(占有率)を推定し、推定した対象物の占有率を基に、その対象物を示す抽出キーワードのポイントを算出する。
 また、キーワード抽出部152は、画像または動画中の文字を認識する。キーワード抽出部152は、文字認識に関する技術を用いて、文字を写された画像または動画から文字を認識する。キーワード抽出部152は、画像が文字列を写した画像である場合、文字列を含む画像から文字認識器等により文字列を抽出し、抽出した文字列から抽出キーワードを抽出してもよい。キーワード抽出部152は、文字認識器の機能を有してもよい。画像が文字列を写した画像である場合、キーワード抽出部152は、データが文章である場合と同様に、画像から抽出した文字列から抽出キーワードを抽出し、各抽出キーワードのポイントを算出する。
 キーワード抽出部152は、時系列データ解析に関する技術を用いて、時系列データから抽出キーワードを抽出する。キーワード抽出部152は、動画解析に関する技術を用いて、動画から抽出キーワードを抽出する。例えば、キーワード抽出部152は、動画を解析し、動画に含まれる対象物を認識し、認識した対象物の名称を抽出キーワードとして抽出する。また、キーワード抽出部152は、動画を解析し、動画に対象物が写っている時間を特定し、特定した時間を基に、その対象物を示す抽出キーワードのポイントを算出する。
 キーワード抽出部152は、音声解析に関する技術を用いて、音声から抽出キーワードを抽出する。例えば、キーワード抽出部152は、音声を解析し、音声をテキスト(文字情報)に変換する。また、キーワード抽出部152は、データが文章である場合と同様に、音声を変換したテキストから抽出キーワードを抽出し、各抽出キーワードのポイントを算出する。
 また、キーワード抽出部152は、波形解析に関する技術を用いて、波形から抽出キーワードを抽出してもよい。なお、上記は一例であり、キーワード抽出部152は、データから抽出キーワードを抽出し、ポイントを算出できれば、どのような手法により、抽出キーワードの抽出、ポイントの算出を行ってもよい。キーワード抽出部152は、データの種別に応じた手法により、データから抽出キーワードを抽出し、その抽出キーワードのポイントを算出する。
 キーワード正規化部153は、各データのキーワードを正規化する処理を行う。キーワード正規化部153は、データから抽出されたキーワードの正規化を行う。キーワード正規化部153は、データの抽出キーワードに関連ワードを付与する。キーワード正規化部153は、抽出キーワードの関連ワードを特定し、抽出キーワードの抽出元のデータに対応付けて、分類対象データ記憶部142に格納する。キーワード正規化部153は、概念辞書記憶部141に記憶された概念辞書を用いて抽出キーワードの関連ワードを特定する。
 キーワード正規化部153は、除外条件を満たすキーワードを抽出キーワードから除外する。キーワード正規化部153は、除外する品詞に該当するキーワードを抽出キーワードから除外する。キーワード正規化部153は、分類条件記憶部143に記憶されたキーワードの除外条件を満たすキーワードを抽出キーワードから除外する。キーワード正規化部153は、図6に示すキーワードの正規化処理を行う。
 分類部154は、データを分類する処理を行う。分類部154は、分類対象データ記憶部142に記憶された複数のデータを分類する。分類部154は、新たに分類対象とされたデータが既存の分類に当てはまるかを判断する。また、分類部154は、分類結果の分類の粒度が正しいかを判断する。分類部154は、図4や図7に示す分類処理を行う。
 分類部154は、複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、複数のデータを分類する分類部154は、抽出キーワードの上位語、抽出キーワードを別の表現に言い換えたパラフレーズ、または抽出キーワードから連想される連想ワードである関連ワードを用いて、複数のデータを分類する。
 分類部154は、関連ワードまたは抽出キーワードの共通性に基づいて、複数のデータを分類する。分類部154は、関連ワードまたは抽出キーワードが共通するデータを同じグループに分類することにより、複数のデータを分類する。分類部154は、キーワード正規化部153により特定された関連ワードに基づいて、複数のデータを分類する。なお、分類部154は、関連ワードまたは抽出キーワードが共通するデータという基準を満たせば、ランダムに複数のデータを分類してもよい。また、分類部154は、ポイントが大きい抽出キーワードを有するデータから順にそのデータを起点として、そのデータと関連ワードまたは抽出キーワードが共通するデータを同じグループにすることにより、複数のデータを分類してもよい。
 分類部154は、複数のデータを複数のグループに分類する。分類部154は、抽出キーワードの抽出元のデータとの関連度合いを示す抽出キーワードのポイントを用いて、複数のデータを複数のグループに分類する。分類部154は、分類対象データ記憶部142に記憶された各抽出キーワードのポイントを用いて、複数のデータを複数のグループに分類する。分類部154は、複数のグループの各々の該当する抽出キーワードのポイントを用いて算出される複数のグループの各々のポイントを用いて、複数のデータを分類する。例えば、分類部154は、複数のグループに分類する分割パターンを複数生成し、複数の分割パターンのうち、各グループのポイントの平均値が最大の分割パターンを用いてもよい。例えば、分類部154は、設定されたパターン数(例えば10や100等)の分割パターンを生成し、パターン数の分割パターンのうち、各グループのポイントの平均値が最大の分割パターンを用いてもよい。なお、分類部154は、関連ワードまたは抽出キーワードが共通するデータという基準を満たせば、ランダムに分割パターンを生成してもよい。また、分類部154は、ポイントが大きい抽出キーワードを有するデータから順にそのデータを起点として、そのデータと関連ワードまたは抽出キーワードが共通するデータを同じグループにすることにより、分割パターンを生成してもよい。
 分類部154は、複数のグループの各々のポイントが所定の基準を満たす場合、複数のグループに複数のデータを分類する。分類部154は、複数のグループの各々のポイントが所定値以上である場合、複数のグループに複数のデータを分類する。分類部154は、複数のグループの各々のポイントが分類条件記憶部143に記憶されたポイント閾値以上ある場合、その複数のグループに複数のデータを分類する。
 分類部154は、該当するデータの数が所定数以下となるグループに複数のデータを分類する。分類部154は、各グループに該当するデータの数が分類条件記憶部143に記憶された最大項目数以下となるように、データを分類する。例えば、分類部154は、分類処理により生成しグループのうち、該当するデータの数が最大項目数を超えるグループがある場合、分類処理を再度行う。分類部154は、分類処理による分類結果の全グループの各々に該当するデータの数が最大項目数以下になるまで、分類処理を繰り返す。
 分類部154は、分類数閾値以下のグループに複数のデータを分類する。分類部154は、データが分類されるグループの数が分類条件記憶部143に記憶された最大分類数以下となるように、データを分類する。例えば、分類部154は、分類処理により生成した分類結果のグループの数が最大分類数を超えた場合、分類処理を再度行う。分類部154は、分類結果のグループの数が最大分類数以下になるまで、分類処理を繰り返す。
 送信部155は、各種情報を送信する。送信部155は、外部の情報処理装置へ各種情報を送信する。送信部155は、ユーザが利用する端末装置(図16のユーザ端末10等)へ各種情報を送信する。送信部155は、記憶部14に記憶された情報を送信する。送信部155は、分類部154による分類結果を送信する。
[1-3.実施形態に係る情報処理の手順]
 次に、図12を用いて、実施形態に係る情報処理の手順について説明する。図12は、本開示の実施形態に係る情報処理の手順を示すフローチャートである。
 図12に示すように、情報処理装置100は、分類対象となる複数のデータの各々から抽出キーワードを抽出する(ステップS101)。情報処理装置100は、複数のデータの各々から抽出された抽出キーワードと、抽出キーワードに関連する関連ワードとに基づいて、複数のデータを分類する(ステップS102)。
[1-4.文章以外のキーワード抽出例]
 なお、上述したように分類対象となるデータは、文章(文字情報)に限らず、画像であってもよく、動画、音声、波形等の時系列データであってもよい。例えば、分類対象となるデータは、イメージセンサにより撮像された動画等、センサの検知により生成されるセンシング集合データ(以下「センシングデータ」ともいう)であってもよい。センシングは、センサの検知により生成されるデータであれば、どのようなデータであってもよく、波形データや画像データを含む。図13では、動画を一例として、文章以外のキーワード抽出例について説明する。図13は、文章以外のデータからのキーワード抽出の一例を示す図である。なお、図1、図6等、上述した内容と同様の点については、適宜説明を省略する。
 情報処理装置100は、動画Yであるセンシングデータ(データDT11)から抽出キーワードを抽出する(ステップS51)。情報処理装置100は、動画解析の技術を用いて、動画Yから抽出キーワードを抽出する。図13では、情報処理装置100は、キーワード情報KYに示すように、動画Yから「犬」、「公園」、「チワワ」、「フリスビー」、「走る」といった抽出キーワードを抽出する。また、情報処理装置100は、各抽出キーワードの品詞を特定し、特定した品詞の情報を各抽出キーワードに対応付ける。
 情報処理装置100は、動画Yの各抽出キーワードに対して、動画Yとの関連度合いに応じてポイントを算出し、算出したポイントを各抽出キーワードに付与する。例えば、情報処理装置100は、動画中で各抽出キーワードに対応する対象物が写っている時間を基に、各抽出キーワードのポイントを算出する。情報処理装置100は、動画中で写っている時間が長い程、高いポイントとなるように各抽出キーワードのポイントを算出する。情報処理装置100は、動画中で各抽出キーワードに対応する対象物が写っている時間を、各抽出キーワードのポイントとして用いてもよい。
 また、情報処理装置100は、抽出キーワードに付与されたポイントの合計が1になるように補正(正規化)する。図13の例では、情報処理装置100は、動画Yの各抽出キーワードについて、「犬」のポイントを「0.6」、「公園」のポイントを「0.2」、「チワワ」のポイントを「0.1」、「フリスビー」のポイントを「0.06」、「走る」のポイントを「0.04」に正規化する。
 そして、情報処理装置100は、文章Xから抽出した抽出キーワードの正規化を行う(ステップS52)。情報処理装置100は、正規化後キーワード情報RKYに示すように、除外する品詞「動詞」に該当する「走る」を抽出キーワードから除外する。そして、情報処理装置100は、「走る」を除外後の各抽出キーワードに付与されたポイントの合計が1になるように補正(正規化)する。図13の例では、情報処理装置100は、動画Yの各抽出キーワードについて、「犬」のポイントを「0.61」、「公園」のポイントを「0.21」、「チワワ」のポイントを「0.11」、「フリスビー」のポイントを「0.07」に正規化する。
 また、情報処理装置100は、各抽出キーワードの関連ワードを特定する。WordNet等の概念辞書を用いて、「犬」、「チワワ」、「フリスビー」の各々について関連ワードを特定する。図13では、情報処理装置100は、正規化後キーワード情報RKYに示すように、「ペット」及び「動物」を「犬」の関連ワードとして特定し、「犬」、「ペット」及び「動物」を「チワワ」の関連ワードとして特定し、「おもちゃ」を「フリスビー」の関連ワードとして特定する。
 このように、情報処理装置100は、動画を解析することにより、動画に含まれる情報を抽出する。例えば、情報処理装置100は、画像内の物体認識等のデータ解析手法を用いて、動画に含まれる情報を抽出する。例えば、情報処理装置100は、動画をフレームごとの画像に分け、それぞれ物体認識を適応し、全体のフレーム数に対して物体(対象物)が認識されたフレーム数の割合をポイントとして算出してもよい。また、例えば、情報処理装置100は、動画像認識として時系列情報をキーワードにして用いてもよい。図13で抽出されたキーワードのうち、「走る」等が時系列によるキーワード情報にあたる。また、情報処理装置100は、動画から音声情報を抽出し、音声解析を行ってもよい。このとき、情報処理装置100は、音声認識を適応し、意味を有した文字列からテキスト解析と同様にキーワードを抽出してもよい。また、情報処理装置100は、動物の鳴き声や屋外といった音声データのクラス分類を行ってもよい。また、情報処理装置100は、これらの音声解析を行い、動画から得られたキーワードと複合的に抽出キーワードを定めてもよい。なお、上記は一例であり、情報処理装置100は、他の手法により、動画等のデータから抽出キーワードを抽出してもよい。
[1-5.分類の更新例]
 例えば、新規に追加されたデータが既存の分類(グループ)に該当しない場合、再度既存データに対しても分類を再考することもある。このような場合、情報処理装置100は、再度分類処理を行う事により、分類を更新してもよい。図14及び図15を用いて、分類の更新例について説明する。図14は、分類の更新の一例を示す図である。図15は、分類の更新結果の一例を示す図である。なお、図14及び図15では、説明を簡単化するために抽出キーワードのみを用いた例を示すが、情報処理装置100は、各抽出キーワードの関連ワードの情報を用いて分類処理を行ってもよい。
 図14では、分類結果RS21に示すように、文章A、文章B、文章Gが分類ワード「スポーツ」に対応するグループG21に分類され、文章C、文章D、文章Hが分類ワード「ペット」に対応するグループG12に分類されているものとする。
 ここで、文章Iが新たに追加される。情報処理装置100は、キーワード情報KIに示すように、文章Iから抽出キーワードを抽出し、各抽出キーワードのポイントを算出する。情報処理装置100は、文章Iの各抽出キーワードについて、「レシピ」のポイントを「0.4」、「時短」のポイントを「0.3」、「つくりおき」のポイントを「0.2」、「レンジ」のポイントを「0.06」、「簡単」のポイントを「0.04」に正規化する。
 ここで、文章Iの抽出キーワードに「スポーツ」、「ペット」が含まれないため、情報処理装置100は、文章Iを分類に含めないか、文章Iを含めて全体の分類を更新するかの判断を行う。図14に示すように、文章G、文章H、文章Iに共通する抽象キーワード「レシピ」が存在する。そのため、情報処理装置100は、文章G、文章H、文章Iを1つのグループに分類した分類結果RS22を、分類候補として生成する。
 図15に示す分類結果RS22の場合、文章G、文章H、文章Iは、分類ワード「レシピ」に対応するグループG26に分類される。また、文章A、文章Bは、分類ワード「スポーツ」に対応するグループG24に分類され、文章C、文章D、文章Eは、分類ワード「ペット」に対応するグループG25に分類される。
 また、分類結果RS22の場合、分類ワード「レシピ」に対応するグループG26のポイントは「0.3」となる。また、分類ワード「スポーツ」に対応するグループG24のポイントは「0.25」となり、分類ワード「ペット」に対応するグループG25のポイントは「0.3」となる。
 情報処理装置100は、各分類結果における各グループのポイントの平均値を用いて、分類を更新するかどうかを判断する。情報処理装置100は、判断時点での分類における各グループのポイントの平均値と、生成した分類候補における各グループのポイントの平均値とに基づいて、分類を更新するかを判断する。このように、情報処理装置100は、新規の文章Iを分類に追加しない場合の各グループのポイントの平均値と、新規の文章Iを分類対象に追加した場合の各グループのポイントの平均値とに基づいて、分類を更新するかを判断する。
 図14及び図15は、情報処理装置100は、判断時点での分類である分類結果RS21における各グループのポイントの平均値と、分類候補である分類結果RS22における各グループのポイントの平均値との比較結果に基づいて、分類を更新するかを判断する。具体的には、情報処理装置100は、分類結果RS22における各グループのポイントの平均値が、分類結果RS21における各グループのポイントの平均値以上である場合、分類を更新すると判断する。
 ここで、分類結果RS21に示すように、新規の文章Iを分類に追加しない場合、分類ワード「スポーツ」に対応するグループG21のポイントは「0.2」となり、分類ワード「ペット」に対応するグループG22のポイントは「0.3」となる。そのため、情報処理装置100は、分類結果RS21における各グループG21、G22のポイントの平均値(以下「分類結果RS21のポイント」とする)を「0.25(=(0.2+0.3)/2)」と算出する。
 また、分類結果RS22に示すように、新規の文章Iを分類に追加した場合、分類ワード「スポーツ」に対応するグループG24のポイントは「0.25」となり、分類ワード「ペット」に対応するグループG25のポイントは「0.3」となり、分類ワード「レシピ」に対応するグループG26のポイントは「0.3」となる。そのため、情報処理装置100は、分類結果RS22(以下「分類結果RS22のポイント」とする)における各グループG24、G25、G26のポイントの平均値を「0.283(=(0.25+0.3+0.3)/3)」と算出する。
 情報処理装置100は、分類結果RS21のポイント「0.25」と、分類結果RS22のポイント「0.283」とを比較する。そして、情報処理装置100は、分類結果RS22のポイントの方が分類結果RS21のポイント以上であるため、分類結果RS22の方が、よりデータの内容に沿った分類ができていると判断し、分類を更新すると決定する。この場合、情報処理装置100は、分類結果RS21から分類結果RS22に分類を更新する(ステップS61)。
 なお、上記は一例であり、情報処理装置100は、各分類の各グループのポイントの平均値に限らず、種々の情報を用いて、分類を更新するか否かを判断してもよい。
[1-6.分類条件]
 情報処理装置100は、上述した例に限らず、種々の分類条件により分類を行ってもよい。各データは、複数のグループに属してもよい。図15の例では、文章Gが分類ワード「スポーツ」に対応するグループG24、及び分類ワード「レシピ」に対応するグループG26の2つのグループに属してもよい。また、文章Hが分類ワード「ペット」に対応するグループG25、及び分類ワード「レシピ」に対応するグループG26の2つのグループに属してもよい。この場合、情報処理装置100は、各データが複数のグループに属することを許容して、各データを分類する。なお、各データが属するグループの数の上限(例えば3や5等)を設定してもよい。
 また、情報処理装置100は、最大項目数に限らず、最大分類数を設定したり、機械学習を用いてより分類数(グループ数)と分類内の項目数(グループに含まれるデータ数)を最適化したりしてもよい。
[2.その他の実施形態]
 上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態(変形例)にて実施されてよい。例えばシステム構成は、上述した例に限らず、種々の態様であってもよい。この点について以下説明する。なお、以下では、実施形態に係る情報処理装置100と同様の点については、適宜説明を省略する。
[2-1.変形例]
 例えば、分類処理を完全に自動的には行わず、分類方法の候補として1つまたは複数のパターン(「分類候補」ともいう)をユーザに提示してもよい。そして、ユーザが選択したパターンを分類結果として用いてもよい。これにより、ユーザがより自らの感覚に沿った分類を選択することができ、その実行結果をユーザの嗜好として再度機械学習データに盛り込むことも可能となる。また、分類に関しては一定閾値を超えていた場合等、ユーザに選択させてもよい。また、ユーザの選択をユーザの嗜好と判断し、その後の自動分類結果に反映してもよい。
 上記のように、ユーザに分類を選択させる場合の情報処理システム1の構成例について、図16を用いて説明する。図16は、本開示の変形例に係る情報処理システムの構成例を示す図である。
 図16に示すように、情報処理システム1には、ユーザ端末10と、情報処理装置100とが含まれる。ユーザ端末10及び情報処理装置100は通信網Nを介して、有線又は無線により通信可能に接続される。なお、図16に示した情報処理システム1には、複数台のユーザ端末10や、複数台の情報処理装置100が含まれてもよい。例えば、情報処理システム1には、ユーザU1が利用するユーザ端末10やユーザU2が利用するユーザ端末10等の複数のユーザ端末10が含まれてもよい。
 情報処理装置100は、分類対象となる複数のデータについて、複数の分類結果を生成する。そして、情報処理装置100は、複数の分類結果を複数の分類候補としてユーザ端末10へ送信する。情報処理装置100は、ユーザが選択した分類候補を示す情報をユーザ端末10から受信する。情報処理装置100は、受信したユーザが選択した分類候補を示す情報を、そのユーザに対応付けて、ユーザの選択履歴として記憶部120に記憶する。そして、情報処理装置100は、ユーザの選択履歴を用いて、そのユーザに対する分類結果を生成する。
 ユーザ端末10は、ユーザによって利用される情報処理装置である。ユーザ端末10は、例えば、スマートフォンや、タブレット型端末や、スマートスピーカや、携帯電話機や、PDA(Personal Digital Assistant)や、ノート型PC(Personal Computer)や、デスクトップPCや、スマートフォン等により実現される。なお、ユーザ端末10は、情報処理装置100が提供する情報を表示し、ユーザが選択した分類を示す情報を情報処理装置100へ送信可能であればどのような端末装置であってもよい。
 また、ユーザ端末10は、ユーザによる操作を受け付ける。ユーザ端末10は、情報処理装置100から受信した情報を画面に表示する。ユーザ端末10は、情報処理装置100から受信した分類結果を表示する。
 ユーザ端末10は、情報処理装置100が提供した複数の分類候補を表示する。また、ユーザ端末10は、複数の分類候補に対するユーザの選択を受け付け、ユーザが選択した分類候補を示す情報を情報処理装置100へ送信する。
[2-1-1.ユーザに応じた分類]
 ここで、図17を用いて、ユーザに応じた分類について説明する。図17は、ユーザに応じた分類の一例を示す図である。図17では、ユーザU1及びユーザU2の2人のユーザを一例として、ユーザが分類を選択していくとユーザの嗜好が反映され、その後の分類がユーザごとに異なる場合の一例を示す。図17は、文章A~文章Lの11個のデータを示す。また、キーワード情報KA~キーワード情報KLの各々は、文章A~文章Lに各々対応する。なお、図17では、関連ワードの図示を省略する。例えば、キーワード情報KHに示す文章Hの抽出キーワード「ケーキ」には、関連ワード「レシピ」が対応付けられている。
 図17中の分類結果RS31及び分類結果RS41は、文章A、B、C、D、E、G、H、Iの8個のデータについて分類結果を示す。
 分類結果RS31は、ユーザU1が選択した分類結果を示す。分類結果RS31は、「筋トレ」、「レシピ」をキーワードとする文章G、及び「ケーキ」、「ペット」をキーワードとする文章Hを分類ワード「レシピ」に対応するグループG33に分類する分類結果である。情報処理装置100は、ユーザU1の選択をユーザU1の嗜好として、ユーザU1に提供する際の分類処理に反映する。
 分類結果RS41は、ユーザU2が選択した分類結果を示す。分類結果RS41は、「筋トレ」、「レシピ」をキーワードとする文章Gを分類ワード「スポーツ」に対応するグループG41に分類し、「ケーキ」、「ペット」をキーワードとする文章Hを分類ワード「レシピ」に対応するグループG42に分類する分類結果である。
 情報処理装置100は、ユーザU2の選択をユーザU2の嗜好として、ユーザU2に分類結果を提供する際の分類処理に反映する。情報処理装置100は、ユーザU2の嗜好を反映するように分類を補正する。
 例えば、情報処理装置100は、ユーザU2に分類結果を提供する際の分類処理においては、レシピ関連のデータであっても、スポーツやペットに関する内容が記載されていれば、そのグループに優先した分類する。また、例えば、情報処理装置100は、ユーザU2がレシピへの興味が少ないと仮定して、レシピ関連のキーワードを含むデータに関しては、レシピではなく、ユーザU2が選択した分類になるよう補正してもよい。この場合、情報処理装置100は、レシピに関するキーワードのポイントを低くしてもよい。
 これにより、新規のデータが追加された際に、情報処理装置100は、ユーザU1とユーザU2とで異なる分類結果を生成する場合がある。
 情報処理装置100は、新たに文章J、文章K、文章Lの3個のデータが追加された場合、ユーザU1については、分類結果RS32のように分類する(ステップS71)。また、情報処理装置100は、新たに文章J、文章K、文章Lの3個のデータが追加された場合、ユーザU2については、分類結果RS42のように分類する(ステップS81)。
 図17の例では、「鍋」、「相撲」というキーワードを含む文章Jについて、異なる分類となる場合を示す。情報処理装置100は、補正のないユーザU1に関しては、分類ワード「レシピ」に対応するグループG36に文章Jを分類する。
 一方、情報処理装置100は、補正されるユーザU2に関しては、文章Jをレシピ関連として分類しない。図17の例では、情報処理装置100は、ユーザU2に関しては、分類ワード「スポーツ」に対応するグループG44に文章Jを分類する。
 同様に、「ダイエットレシピ」、「犬」のキーワードをもつ文章Kは、ユーザU1に関しては、分類ワード「レシピ」に対応するグループG36に分類されるが、ユーザU2に関しては、分類ワード「ペット」に対応するグループG45に分類される。
[2-2.その他の構成例]
 また、上述した各実施形態や変形例に係る処理は、上記実施形態や変形例以外にも種々の異なる形態(変形例)にて実施されてよい。例えば、情報処理装置100は、ユーザ端末10と一体であってもよい。このように、各ユーザが利用するユーザ端末10が情報処理装置100としての機能を有してもよい。なお、上記は一例であり、情報処理システムは種々の構成により実現されてもよい。
[2-3.その他]
 また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
 また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
[3.本開示に係る効果]
 上述のように、本開示に係る情報処理装置(実施形態では情報処理装置100)は、キーワード抽出部(実施形態ではキーワード抽出部152)と、分類部(実施形態では分類部154)とを備える。キーワード抽出部は、分類対象となる複数のデータの各々からキーワードを抽出する。分類部は、複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、複数のデータを分類する。
 これにより、本開示に係る情報処理装置は、分類態様となる複数のデータから抽出した抽出キーワードに関連する関連ワードの情報を加味して、データを分類することができるため、データを適切に分類することができる。
 また、分類部は、抽出キーワードの上位語、抽出キーワードを別の表現に言い換えたパラフレーズ、または抽出キーワードから連想される連想ワードである関連ワードを用いて、複数のデータを分類する。これにより、情報処理装置は、抽出キーワードの上位語、パラフレーズ、または連想ワード等を用いて、抽出キーワードの概念的な共通性を加味してデータを分類することができるため、データを適切に分類することができる。
 また、分類部は、関連ワードまたは抽出キーワードの共通性に基づいて、複数のデータを分類する。これにより、情報処理装置は、関連ワードまたは抽出キーワードの共通性を加味してデータを分類することができるため、データを適切に分類することができる。
 また、本開示に係る情報処理装置は、キーワード正規化部(実施形態ではキーワード正規化部153)を備える。キーワード正規化部は、抽出キーワードの関連ワードを特定し、抽出キーワードの抽出元のデータに対応付ける。分類部は、キーワード正規化部により特定された関連ワードに基づいて、複数のデータを分類する。これにより、情報処理装置は、抽出キーワードの関連ワードを特定し、抽出キーワードの抽出元のデータに対応付けられた関連ワードを用いて、データを適切に分類することができる。
 また、キーワード正規化部は、言語の概念的な関係を示す概念辞書を用いて抽出キーワードの関連ワードを特定する。これにより、情報処理装置は、言語の概念的な関係を基に、抽出キーワードの関連ワードを適切に特定することができる。
 また、キーワード正規化部は、除外条件を満たすキーワードを抽出キーワードから除外する。これにより、情報処理装置は、分類処理に不要な抽出キーワードを除外してデータの分類ができるため、データを適切に分類することができる。
 また、キーワード正規化部は、除外する品詞に該当するキーワードを抽出キーワードから除外する。これにより、情報処理装置は、分類処理に不要な品詞に該当する抽出キーワードを除外してデータ群の分類ができるため、データを適切に分類することができる。
 また、分類部は、複数のデータを複数のグループに分類する。これにより、情報処理装置は、関連ワードまたは抽出キーワードの共通性を加味してデータ群を分類することができるため、データを適切に分類することができる。
 また、分類部は、抽出キーワードの抽出元のデータとの関連度合いを示す抽出キーワードのポイントを用いて、複数のデータを複数のグループに分類する。これにより、情報処理装置は、抽出キーワードのデータとの関連度合いを加味してデータ群を分類することができるため、データを適切に分類することができる。
 また、分類部は、複数のグループの各々の該当する抽出キーワードのポイントを用いて算出される複数のグループの各々のポイントを用いて、複数のデータを分類する。これにより、情報処理装置は、データが分類される各グループのポイントを加味してデータ群を分類することができるため、データを適切に分類することができる。
 また、分類部は、複数のグループの各々のポイントが所定の基準を満たす場合、複数のグループに複数のデータを分類する。これにより、情報処理装置は、データが分類される各グループのポイントが基準を満たす場合に、そのグループで分類を行うことで、データを適切に分類することができる。
 また、分類部は、複数のグループの各々のポイントが所定値以上である場合、複数のグループに複数のデータを分類する。これにより、情報処理装置は、データが分類される各グループのポイントが所定値以上である場合に、そのグループで分類を行うことで、データを適切に分類することができる。
 また、分類部は、該当するデータの数が所定数以下となるグループに複数のデータを分類する。これにより、情報処理装置は、グループに属するデータの数が所定値を超えないように分類することで、1個のグループに多くのデータが該当することを抑制でき、データを適切に分類することができる。
 また、分類部は、分類数閾値以下のグループに複数のデータを分類する。これにより、情報処理装置は、大量のグループにデータが分類されることを抑制でき、データを適切に分類することができる。
 また、複数のデータは、文章データを含む。これにより、情報処理装置は、文章データを含む複数のデータを分類対象として、データを適切に分類することができる。
 また、複数のデータは、画像データを含む。これにより、情報処理装置は、画像データを含む複数のデータを分類対象として、データを適切に分類することができる。
 また、複数のデータは、時系列データを含む。これにより、情報処理装置は、時系列データを含む複数のデータを分類対象として、データを適切に分類することができる。
 また、時系列データは、動画データ、音声データ、または波形データである。これにより、情報処理装置は、動画データ、音声データ、または波形データを含む複数のデータを分類対象として、データを適切に分類することができる。
[4.ハードウェア構成]
 上述してきた各実施形態に係る情報処理装置100等の情報機器は、例えば図18に示すような構成のコンピュータ1000によって実現される。図18は、情報処理装置100等の情報処理装置の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置100を例に挙げて説明する。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部15等の機能を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部14内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 分類対象となる複数のデータの各々からキーワードを抽出するキーワード抽出部と、
 前記複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、前記複数のデータを分類する分類部と、
 を備える情報処理装置。
(2)
 前記分類部は、
 前記抽出キーワードの上位語、前記抽出キーワードを別の表現に言い換えたパラフレーズ、または前記抽出キーワードから連想される連想ワードである前記関連ワードを用いて、前記複数のデータを分類する、
 (1)に記載の情報処理装置。
(3)
 前記分類部は、
 前記関連ワードまたは前記抽出キーワードの共通性に基づいて、前記複数のデータを分類する、
 (1)または(2)に記載の情報処理装置。
(4)
 前記分類部は、
 前記関連ワードまたは前記抽出キーワードが共通するデータを同じグループに分類することにより、前記複数のデータを分類する、
 (3)に記載の情報処理装置。
(5)
 前記抽出キーワードの前記関連ワードを特定し、前記抽出キーワードの抽出元のデータに対応付けるキーワード正規化部、
 を備え、
 前記分類部は、
 前記キーワード正規化部により特定された前記関連ワードに基づいて、前記複数のデータを分類する、
 (1)~(4)のいずれか1つに記載の情報処理装置。
(6)
 前記キーワード正規化部は、
 言語の概念的な関係を示す概念辞書を用いて前記抽出キーワードの前記関連ワードを特定する、
 (5)に記載の情報処理装置。
(7)
 前記キーワード正規化部は、
 除外条件を満たすキーワードを前記抽出キーワードから除外する、
 (5)または(6)に記載の情報処理装置。
(8)
 前記キーワード正規化部は、
 除外する品詞に該当するキーワードを前記抽出キーワードから除外する、
 (7)に記載の情報処理装置。
(9)
 前記分類部は、
 前記複数のデータを複数のグループに分類する、
 (1)~(8)のいずれか1つに記載の情報処理装置。
(10)
 前記分類部は、
 前記抽出キーワードの抽出元のデータとの関連度合いを示す前記抽出キーワードのポイントを用いて、前記複数のデータを前記複数のグループに分類する、
 (9)に記載の情報処理装置。
(11)
 前記分類部は、
 前記複数のグループの各々の該当する前記抽出キーワードのポイントを用いて算出される前記複数のグループの各々のポイントを用いて、前記複数のデータを分類する、
 (10)に記載の情報処理装置。
(12)
 前記分類部は、
 前記複数のグループの各々のポイントが所定の基準を満たす場合、前記複数のグループに前記複数のデータを分類する、
 (11)に記載の情報処理装置。
(13)
 前記分類部は、
 前記複数のグループの各々のポイントが所定値以上である場合、前記複数のグループに前記複数のデータを分類する、
 (12)に記載の情報処理装置。
(14)
 前記分類部は、
 該当するデータの数が所定数以下となるグループに前記複数のデータを分類する、
 (1)~(13)のいずれか1つに記載の情報処理装置。
(15)
 前記分類部は、
 分類数閾値以下のグループに前記複数のデータを分類する、
 (1)~(14)のいずれか1つに記載の情報処理装置。
(16)
 前記複数のデータは、
 文章データを含む、
 (1)~(15)のいずれか1つに記載の情報処理装置。
(17)
 前記複数のデータは、
 画像データを含む、
 (1)~(16)のいずれか1つに記載の情報処理装置。
(18)
 前記複数のデータは、
 時系列データを含む、
 (1)~(17)のいずれか1つに記載の情報処理装置。
(19)
 前記時系列データは、
 動画データ、音声データ、または波形データである、
 (18)に記載の情報処理装置。
(20)
 分類対象となる複数のデータの各々からキーワードを抽出し、
 前記複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、前記複数のデータを分類する、
 処理を実行する情報処理方法。
 100 情報処理装置
 11 通信部
 12 入力部
 13 表示部(ディスプレイ)
 14 記憶部
 141 概念辞書記憶部
 142 分類対象データ記憶部
 143 分類条件記憶部
 15 制御部
 151 取得部
 152 キーワード抽出部
 153 キーワード正規化部
 154 分類部
 155 送信部

Claims (20)

  1.  分類対象となる複数のデータの各々からキーワードを抽出するキーワード抽出部と、
     前記複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、前記複数のデータを分類する分類部と、
     を備える情報処理装置。
  2.  前記分類部は、
     前記抽出キーワードの上位語、前記抽出キーワードを別の表現に言い換えたパラフレーズ、または前記抽出キーワードから連想される連想ワードである前記関連ワードを用いて、前記複数のデータを分類する、
     請求項1に記載の情報処理装置。
  3.  前記分類部は、
     前記関連ワードまたは前記抽出キーワードの共通性に基づいて、前記複数のデータを分類する、
     請求項1に記載の情報処理装置。
  4.  前記分類部は、
     前記関連ワードまたは前記抽出キーワードが共通するデータを同じグループに分類することにより、前記複数のデータを分類する、
     請求項3に記載の情報処理装置。
  5.  前記抽出キーワードの前記関連ワードを特定し、前記抽出キーワードの抽出元のデータに対応付けるキーワード正規化部、
     を備え、
     前記分類部は、
     前記キーワード正規化部により特定された前記関連ワードに基づいて、前記複数のデータを分類する、
     請求項1に記載の情報処理装置。
  6.  前記キーワード正規化部は、
     言語の概念的な関係を示す概念辞書を用いて前記抽出キーワードの前記関連ワードを特定する、
     請求項5に記載の情報処理装置。
  7.  前記キーワード正規化部は、
     除外条件を満たすキーワードを前記抽出キーワードから除外する、
     請求項5に記載の情報処理装置。
  8.  前記キーワード正規化部は、
     除外する品詞に該当するキーワードを前記抽出キーワードから除外する、
     請求項7に記載の情報処理装置。
  9.  前記分類部は、
     前記複数のデータを複数のグループに分類する、
     請求項1に記載の情報処理装置。
  10.  前記分類部は、
     前記抽出キーワードの抽出元のデータとの関連度合いを示す前記抽出キーワードのポイントを用いて、前記複数のデータを前記複数のグループに分類する、
     請求項9に記載の情報処理装置。
  11.  前記分類部は、
     前記複数のグループの各々の該当する前記抽出キーワードのポイントを用いて算出される前記複数のグループの各々のポイントを用いて、前記複数のデータを分類する、
     請求項10に記載の情報処理装置。
  12.  前記分類部は、
     前記複数のグループの各々のポイントが所定の基準を満たす場合、前記複数のグループに前記複数のデータを分類する、
     請求項11に記載の情報処理装置。
  13.  前記分類部は、
     前記複数のグループの各々のポイントが所定値以上である場合、前記複数のグループに前記複数のデータを分類する、
     請求項12に記載の情報処理装置。
  14.  前記分類部は、
     該当するデータの数が所定数以下となるグループに前記複数のデータを分類する、
     請求項1に記載の情報処理装置。
  15.  前記分類部は、
     分類数閾値以下のグループに前記複数のデータを分類する、
     請求項1に記載の情報処理装置。
  16.  前記複数のデータは、
     文章データを含む、
     請求項1に記載の情報処理装置。
  17.  前記複数のデータは、
     画像データを含む、
     請求項1に記載の情報処理装置。
  18.  前記複数のデータは、
     時系列データを含む、
     請求項1に記載の情報処理装置。
  19.  前記時系列データは、
     動画データ、音声データ、または波形データである、
     請求項18に記載の情報処理装置。
  20.  分類対象となる複数のデータの各々からキーワードを抽出し、
     前記複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、前記複数のデータを分類する、
     処理を実行する情報処理方法。
PCT/JP2021/024674 2020-07-15 2021-06-30 情報処理装置及び情報処理方法 WO2022014328A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022536235A JPWO2022014328A1 (ja) 2020-07-15 2021-06-30

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020121317 2020-07-15
JP2020-121317 2020-07-15

Publications (1)

Publication Number Publication Date
WO2022014328A1 true WO2022014328A1 (ja) 2022-01-20

Family

ID=79555464

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/024674 WO2022014328A1 (ja) 2020-07-15 2021-06-30 情報処理装置及び情報処理方法

Country Status (2)

Country Link
JP (1) JPWO2022014328A1 (ja)
WO (1) WO2022014328A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107688A (ja) * 2003-09-29 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 情報表示方法及びシステム及び情報表示プログラム
WO2013038774A1 (ja) * 2011-09-15 2013-03-21 株式会社東芝 文書分類装置、方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107688A (ja) * 2003-09-29 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 情報表示方法及びシステム及び情報表示プログラム
WO2013038774A1 (ja) * 2011-09-15 2013-03-21 株式会社東芝 文書分類装置、方法およびプログラム

Also Published As

Publication number Publication date
JPWO2022014328A1 (ja) 2022-01-20

Similar Documents

Publication Publication Date Title
WO2020244073A1 (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
KR101737887B1 (ko) 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
KR101983975B1 (ko) 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치
US11429810B2 (en) Question answering method, terminal, and non-transitory computer readable storage medium
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
JP2021089713A (ja) マルチメディア会話からの意図発見のためのシステムおよび方法
TW201638803A (zh) 文本挖掘系統和工具
US20150254332A1 (en) Document classification device, document classification method, and computer readable medium
KR20160026892A (ko) 논팩토이드형 질의 응답 시스템 및 방법
US20160189057A1 (en) Computer implemented system and method for categorizing data
CN111930929A (zh) 一种文章标题生成方法、装置及计算设备
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
WO2018171295A1 (zh) 一种给文章标注标签的方法、装置、终端及计算机可读存储介质
WO2023129339A1 (en) Extracting and classifying entities from digital content items
CN115062621A (zh) 标签提取方法、装置、电子设备和存储介质
CN109829154B (zh) 基于语义的人格预测方法、用户设备、存储介质及装置
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN112528638A (zh) 异常对象识别方法及装置、电子设备、存储介质
WO2022014328A1 (ja) 情報処理装置及び情報処理方法
JP2003281159A (ja) 文書処理装置及び文書処理方法、文書処理プログラム
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
US20170293597A1 (en) Methods and systems for data processing
US20200175068A1 (en) Method and system to extract domain concepts to create domain dictionaries and ontologies
CN113378555B (zh) 个股的智能关联方法及相关产品
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21843131

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022536235

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21843131

Country of ref document: EP

Kind code of ref document: A1