WO2022244189A1 - 情報処理装置、処理方法、及び処理プログラム - Google Patents

情報処理装置、処理方法、及び処理プログラム Download PDF

Info

Publication number
WO2022244189A1
WO2022244189A1 PCT/JP2021/019170 JP2021019170W WO2022244189A1 WO 2022244189 A1 WO2022244189 A1 WO 2022244189A1 JP 2021019170 W JP2021019170 W JP 2021019170W WO 2022244189 A1 WO2022244189 A1 WO 2022244189A1
Authority
WO
WIPO (PCT)
Prior art keywords
words
word
texts
class
contribution
Prior art date
Application number
PCT/JP2021/019170
Other languages
English (en)
French (fr)
Inventor
隼人 内出
典宏 長徳
Original Assignee
三菱電機株式会社
三菱電機ビルソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社, 三菱電機ビルソリューションズ株式会社 filed Critical 三菱電機株式会社
Priority to JP2022560867A priority Critical patent/JP7209909B1/ja
Priority to PCT/JP2021/019170 priority patent/WO2022244189A1/ja
Publication of WO2022244189A1 publication Critical patent/WO2022244189A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Definitions

  • the present disclosure relates to an information processing device, a processing method, and a processing program.
  • Non-Patent Document 1 An automatic document classification method has been proposed as a method for automatically classifying a large amount of text (see Non-Patent Document 1).
  • Non-Patent Document 1 describes a method for calculating scores.
  • the score is called contribution.
  • the method of Non-Patent Document 1 may not be preferable as a method of calculating the degree of contribution.
  • the purpose of this disclosure is to calculate the degree of contribution.
  • the information processing device includes an acquisition unit that acquires a plurality of texts, a morphological analysis unit that performs morphological analysis on the plurality of texts associated with a class that is an identifier, and a plurality of texts obtained by the morphological analysis.
  • a word vector generator for generating a plurality of word vectors based on the words; and a similarity between the word vectors of the words in the class and the word vectors of all the words in the plurality of texts based on the plurality of word vectors.
  • a calculation unit that calculates a sum of degrees, and uses the calculated sum to calculate a degree of contribution, which is a degree of contribution of each of the plurality of words when creating word sense information.
  • the degree of contribution can be calculated.
  • FIG. 4 is a diagram for explaining classification of texts according to the first embodiment;
  • FIG. FIG. 10 is a diagram showing an example of contribution according to the first embodiment;
  • FIG. It is a figure which shows the calculation example of appearance frequency.
  • 2 illustrates hardware included in the information processing apparatus according to the first embodiment;
  • FIG. 2 is a block diagram showing functions of the information processing apparatus according to Embodiment 1;
  • FIG. 4 is a diagram showing an example of summation calculation according to the first embodiment;
  • FIG. FIG. 10 is a diagram showing a specific example of the degree of contribution for each word according to the first embodiment;
  • FIG. FIG. 3 is a diagram showing an example of a subgraph according to Embodiment 1;
  • FIG. 4 is a diagram showing a specific example of a state in which clustering has been performed according to the first embodiment; 4 is a flowchart (part 1) showing an example of processing executed by the information processing apparatus according to the first embodiment; 7 is a flowchart (part 2) showing an example of processing executed by the information processing apparatus according to the first embodiment; 4A and 4B are diagrams showing an example of a label addition method according to the first embodiment; FIG. 3 is a block diagram showing functions of an information processing apparatus according to a second embodiment; FIG. 10 is a flow chart showing an example of processing executed by the information processing apparatus according to the second embodiment;
  • FIG. 1 is a diagram for explaining text classification according to the first embodiment.
  • FIG. 1 shows texts A, B, C, D.
  • FIG. When classifying texts A, B, C, and D into four classification destinations, a method of adding labels to words in the texts can be considered. Computers can easily classify text by classifying it based on labels.
  • Non-Patent Document 1 the degree of contribution is called a score. However, in the following description, the score will be referred to as contribution. The definition of the degree of contribution will be explained later.
  • Non-Patent Literature 1 describes a formula regarding the degree of contribution.
  • the contribution Y ij is expressed using Equation (1). Note that i and j are positive integers. Also, M ij in Equation (1) is called a theoretical frequency (theoretical frequency in Non-Patent Document 1). F ij in Equation (1) is called frequency of appearance (frequency in Non-Patent Document 1).
  • Equation (2) The theoretical frequency M ij is expressed using Equation (2).
  • FIG. 2 is a diagram showing an example of contribution degrees according to the first embodiment.
  • FIG. 2 shows the contribution Yij .
  • c indicates a class.
  • w indicates a word.
  • class ci is associated with text.
  • the theoretical frequency M ij may be expressed as the theoretical frequency M ij of word w j in class c i .
  • the appearance frequency F ij of word w j in class c i is calculated as follows.
  • FIG. 3 is a diagram showing an example of calculating the appearance frequency.
  • the vertical direction indicates words within a piece of text.
  • the horizontal direction shows all words in all texts. Words that are duplicated among all words in all texts are grouped together.
  • one text contains two words "power”. Therefore, the appearance frequency of "power supply” is "2". Also, for example, the words “door”, “switch”, and “capacitor” are not included in one text. Therefore, the appearance frequency of "door”, “switch”, and “capacitor” is "0".
  • Non-Patent Document 1 may not be preferable as a method of calculating the degree of contribution.
  • the degree of contribution is the degree of contribution when creating word sense information.
  • the degree of contribution is the degree of contribution when creating word sense information.
  • FIG. 4 is a diagram showing hardware included in the information processing apparatus according to the first embodiment.
  • the information processing device 100 is a device that executes a processing method.
  • the information processing device 100 has a processor 101 , a volatile memory device 102 and a nonvolatile memory device 103 .
  • the processor 101 controls the information processing apparatus 100 as a whole.
  • the processor 101 is a CPU (Central Processing Unit), FPGA (Field Programmable Gate Array), or the like.
  • Processor 101 may be a multiprocessor.
  • the information processing device 100 may have a processing circuit.
  • the processing circuit may be a single circuit or multiple circuits.
  • the volatile memory device 102 is the main memory device of the information processing device 100 .
  • the volatile memory device 102 is RAM (Random Access Memory).
  • the nonvolatile storage device 103 is an auxiliary storage device of the information processing device 100 .
  • the nonvolatile storage device 103 is a HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • FIG. 5 is a block diagram showing functions of the information processing apparatus according to the first embodiment.
  • the information processing apparatus 100 has a storage unit 110 , an acquisition unit 120 , a morphological analysis unit 130 , a word vector creation unit 140 , a calculation unit 150 , an identification unit 160 and a creation processing unit 170 .
  • the storage unit 110 may be implemented as a storage area secured in the volatile storage device 102 or the nonvolatile storage device 103 .
  • a part or all of the acquisition unit 120, the morphological analysis unit 130, the word vector creation unit 140, the calculation unit 150, the identification unit 160, and the creation processing unit 170 may be realized by a processing circuit.
  • Some or all of the acquisition unit 120, the morphological analysis unit 130, the word vector creation unit 140, the calculation unit 150, the identification unit 160, and the creation processing unit 170 may be implemented as modules of a program executed by the processor 101. good.
  • a program executed by the processor 101 is also called a processing program.
  • the processing program is recorded on a recording medium.
  • the storage unit 110 may store a plurality of texts 111.
  • Each of the multiple texts 111 is associated with a class.
  • a class is associated with multiple texts 111 by a user's computer operation.
  • a class may also be called an identifier.
  • Classes are numbers, symbols, letters, strings, and so on.
  • the class type is one or more types. For example, FIG. 5 shows that "class 1" is associated with "text 1".
  • the acquisition unit 120 acquires multiple texts 111 .
  • the acquisition unit 120 acquires multiple texts 111 from the storage unit 110 .
  • the multiple texts 111 may be stored in an external device (eg, cloud server).
  • the acquisition unit 120 acquires the multiple texts 111 from the external device.
  • the morphological analysis unit 130 performs morphological analysis on the multiple texts 111 .
  • the word vector creation unit 140 creates a plurality of word vectors based on the plurality of words obtained by the morphological analysis. For example, the word vector creation unit 140 creates a plurality of word vectors using the plurality of words and word2vec.
  • the calculation unit 150 calculates the sum S ij of similarities between the word vector of word w j in class c i and the word vectors of all words in the texts 111 based on the plurality of word vectors.
  • the summation S ij is expressed by equation (3).
  • v w_ij in equation (3) indicates the word vector of word w j in class c i .
  • v w_k in equation (3) indicates the word vectors of all words in multiple texts 111 .
  • cos indicates cosine similarity.
  • FIG. 6 is a diagram illustrating an example of summation calculation according to the first embodiment.
  • the vertical direction shows the word vectors of the words in class c i .
  • the horizontal direction shows the word vectors of all words in all texts. In other words, the horizontal direction shows word vectors of all words in the plurality of texts 111 .
  • the calculating unit 150 calculates a similarity of “0.9” based on the word vector of “door” and the word vector of “door”. Calculation unit 150 then calculates the total sum “0.9”. Thus, even if the words do not match, a number greater than 0 is calculated as the sum. The calculation unit 150 similarly calculates the total sum S ij for each class c i .
  • the calculation unit 150 calculates the degree of contribution Y ij of each of the plurality of words using the total sum S ij calculated for each class c i . Note that when there is only one class, the calculation unit 150 calculates the degree of contribution Y ij of each of a plurality of words using the total sum S ij calculated for one class.
  • the contribution Y ij is expressed using Equation (4).
  • Equation (5) The theoretical frequency M ij is expressed using Equation (5).
  • Equations (4) and (5) are equations obtained by replacing F ij in Equations (1) and (2) with S ij .
  • the information processing apparatus 100 prevents the denominator of Equation (5) from becoming 0 by using Equation (3). Therefore, according to Embodiment 1, the information processing apparatus 100 can calculate the degree of contribution Y ij .
  • the calculation unit 150 can calculate the degree of contribution Y ij of each of a plurality of words by using Equation (4). That is, as shown in FIG. 2, the degree of contribution Y ij of each of a plurality of words is calculated. A specific example of the degree of contribution for each word is shown here.
  • FIG. 7 is a diagram showing a specific example of the degree of contribution for each word according to the first embodiment. For example, FIG. 7 shows that the contribution of "power supply" is "34741.3".
  • the identifying unit 160 identifies words corresponding to contributions equal to or greater than a preset threshold based on the contribution Y ij of each of the plurality of words. That is, the identifying unit 160 identifies words with a high degree of contribution.
  • the creation processing unit 170 When one word is specified, the creation processing unit 170 performs the following processing.
  • the creation processing unit 170 creates clusters based on the identified words and co-occurring words that co-occur with the identified words in the text containing the identified words.
  • the creation processing unit 170 creates word sense information indicating the word sense of the specified word based on the created cluster.
  • the creation processing unit 170 When two or more words are specified, the creation processing unit 170 performs the following processing.
  • the creation processing unit 170 creates, for each specified word, a subgraph showing the relationship between the specified word and the co-occurring word.
  • the creation processing unit 170 clusters the plurality of created subgraphs.
  • the creation processing unit 170 creates the word sense information based on the clusters formed by clustering.
  • Creation processing unit 170 selects one word from the specified plurality of words. For example, the creation processing unit 170 selects "power source” from among the specified words. Here, the selected word is called the selected word.
  • the creation processing unit 170 extracts the text including the selected word from the multiple texts 111 . For example, the creation processing unit 170 extracts texts containing “power” from among the plurality of texts 111 .
  • the creation processing unit 170 creates a subgraph showing the relationship between the selected word and words co-occurring with the selected word in the extracted text. Words that co-occur with the selected word are co-occurring words. Here is an example of a subgraph.
  • FIG. 8 is a diagram showing an example of a subgraph according to the first embodiment.
  • FIG. 8 shows that "power supply” is the selected word.
  • FIG. 8 shows that the extracted text includes “equipment”, “still”, “replace”, and the like. Words such as “apparatus”, “stationary”, “replacement” are co-occurring words.
  • the selected word and the co-occurring word may be considered as nodes.
  • FIG. 8 shows that "device" appears 15 times in the extracted text.
  • selected words and co-occurring words are connected via edges.
  • the number of appearances is added to the edge.
  • the number of appearances may be called the number of co-occurrences. Note that when the number of occurrences is equal to or less than a preset threshold value, the co-occurring word corresponding to the number of occurrences and the edges connected to the co-occurring word may not be included in the subgraph.
  • the creation processing unit 170 similarly creates subgraphs corresponding to each of the plurality of specified words.
  • the creation processing unit 170 clusters a plurality of subgraphs. For example, the creation processing unit 170 clusters a plurality of subgraphs using Markov clustering. Further, for example, the creation processing unit 170 may create word vectors of co-occurring words using word2vec, and perform clustering using the created word vectors and a well-known clustering technique.
  • well-known clustering techniques include K-means and GMM (Gaussian Mixture Model). A specific example of a state in which clustering is performed is shown.
  • FIG. 9 is a diagram showing a specific example of a state in which clustering according to Embodiment 1 has been performed. As shown in FIG. 9, clustering is performed on a plurality of subgraphs. This forms a plurality of clusters. For example, clusters are formed that include "Power”, “Device”, “Stationary”, and "Replace”.
  • the creation processing unit 170 sets the meaning of the central word of the cluster (that is, the selected word) to a word that is related to the central word within the cluster. In other words, the creation processing unit 170 sets the meaning of the word of the central node of the cluster to the word of the node connected to the central node within the cluster. For example, the creation processing unit 170 defines the meanings of "power supply” as “apparatus", “standstill", and "replacement”. Moreover, the creation processing unit 170 may associate a class associated with a text containing many words in the cluster with the cluster. For example, the creation processing unit 170 associates a cluster including "power supply", “apparatus”, etc. with the class "power supply for A”.
  • the creation processing unit 170 creates word sense information for each cluster. The process of creating word meaning information will be described in detail.
  • the creation processing unit 170 creates word sense information, which is information indicating the correspondence relationship between the central word and the word that is the meaning of the central word.
  • the creation processing unit 170 creates word meaning information, which is information indicating the correspondence between "power” and the meanings of "power” such as "apparatus", "still", and "replace”.
  • the creation processing unit 170 may store the word sense information in the storage unit 110 .
  • the semantic information may be associated with the class associated with the cluster.
  • FIG. 10 is a flowchart (part 1) illustrating an example of processing executed by the information processing apparatus according to the first embodiment; FIG.
  • Step S ⁇ b>11 The acquisition unit 120 acquires multiple texts 111 .
  • Step S ⁇ b>12 The morphological analysis unit 130 performs morphological analysis on the multiple texts 111 .
  • Step S13 The word vector creation unit 140 creates a plurality of word vectors based on the plurality of words obtained by the morphological analysis.
  • Step S14 The calculation unit 150 calculates the sum total S ij based on a plurality of word vectors.
  • the calculation unit 150 calculates the degree of contribution Y ij of each of the plurality of words using the sum S ij . Thereby, the contribution Y ij of each of the plurality of words is calculated. Then, the process proceeds to step S21.
  • FIG. 11 is a flowchart (part 2) illustrating an example of processing executed by the information processing apparatus according to the first embodiment; FIG.
  • the specifying unit 160 specifies a word corresponding to a degree of contribution equal to or greater than a preset threshold based on the degree of contribution Y ij of each of the plurality of words. That is, the identifying unit 160 identifies words with a high degree of contribution.
  • the creation processing unit 170 selects one word from the plurality of specified words.
  • Step S ⁇ b>23 The creation processing unit 170 extracts texts including the selected word from among the plurality of texts 111 .
  • Step S24 The creation processing unit 170 creates a subgraph showing the relationship between the selected word and co-occurring words co-occurring with the selected word in the extracted text.
  • Step S25 The creation processing unit 170 determines whether or not all words have been selected. If all words have been selected, the process proceeds to step S26. If there are words that have not been selected, the process proceeds to step S22.
  • Step S26 The creation processing unit 170 clusters a plurality of subgraphs. This forms a plurality of clusters.
  • Step S27 The creation processing unit 170 creates word sense information based on the clusters.
  • 12A and 12B are diagrams showing an example of the label addition method according to the first embodiment.
  • the word meaning information indicates that the word meanings of "power source” are "apparatus”, “still”, and “replacement”. Further, the word meaning information is associated with the class "power supply for A”.
  • FIG. 12(A) shows an example (part 1) of the label addition method.
  • the information processing apparatus 100 uses word sense information when estimating the meaning of "power supply” in the text A.
  • FIG. The information processing apparatus 100 identifies that the text A includes “still”.
  • the information processing apparatus 100 identifies that "still” is included in the word sense information.
  • the information processing apparatus 100 presumes that the meaning of "power supply” is “still”.
  • the information processing apparatus 100 adds a label of "still” to "power supply”.
  • FIG. 12B shows an example (part 2) of the label addition method.
  • the information processing apparatus 100 uses the word sense information when adding a label to "power source" in the text A.
  • FIG. The information processing apparatus 100 identifies that the text A includes “still”.
  • the information processing apparatus 100 identifies that "still” is included in the word sense information.
  • the information processing apparatus 100 adds the label of the class "A power supply” associated with the word sense information to "power supply”. By adding labels to words in this way, the information processing apparatus 100 can easily classify the texts when classifying the texts.
  • Embodiment 2 Next, Embodiment 2 will be described. In Embodiment 2, mainly matters different from Embodiment 1 will be described. In the second embodiment, descriptions of items common to the first embodiment are omitted.
  • each of the plurality of texts 111 is associated with a class.
  • a plurality of texts 111 that are not associated with classes are handled.
  • the information processing apparatus 100 associates each of the plurality of texts 111 with a class.
  • FIG. 13 is a block diagram showing functions of the information processing apparatus according to the second embodiment.
  • the information processing apparatus 100 further has a class addition processing section 180 .
  • a part or all of the class addition processing unit 180 may be implemented by a processing circuit. Also, part or all of the class addition processing unit 180 may be implemented as a program module executed by the processor 101 .
  • the acquisition unit 120 acquires a plurality of texts 111 with no associated class.
  • the class addition processing unit 180 performs morphological analysis on the text for each text, creates a plurality of word vectors based on the plurality of words obtained by the morphological analysis, and creates a plurality of word vectors based on the created word vectors. Calculate the mean vector.
  • the class addition processing unit 180 clusters the plurality of texts 111 to which no class is associated. For clustering, K-means, GMM, etc. may be used. This forms a plurality of clusters. A cluster contains one or more texts.
  • the class addition processing unit 180 creates a plurality of texts 111 associated with the classes by adding the classes to the texts included in each formed cluster.
  • the class addition processor 180 adds the same class (eg, class 1) to the two texts.
  • a class is added to each of the plurality of texts 111 as shown in FIG.
  • FIG. 14 is a flowchart illustrating an example of processing executed by the information processing apparatus according to the second embodiment; FIG.
  • the process of FIG. 14 differs from the process of FIG. 10 in that steps S11a to 11f are executed. Therefore, in FIG. 14, steps S11a to 11f will be explained. A description of the processes other than steps S11a to 11f will be omitted.
  • Step S11a The acquisition unit 120 acquires a plurality of texts 111 that are not associated with a class.
  • Step S ⁇ b>11 b The class addition processing section 180 selects one text from among the plurality of texts 111 .
  • Step S11c The class addition processing unit 180 performs morphological analysis on the selected text.
  • the class addition processing unit 180 creates a plurality of word vectors based on the plurality of words obtained by the morphological analysis.
  • a class addition processing unit 180 calculates an average vector based on a plurality of word vectors.
  • Step S11d The class addition processing unit 180 determines whether or not all texts have been selected. If all texts have been selected, the process proceeds to step S11d. If unselected text exists, the process proceeds to step S11a.
  • Step S11e The class addition processing unit 180 clusters the plurality of texts 111 using the average vector calculated for each text.
  • Step S11f For each cluster, the class addition processing unit 180 adds a class to the text included in the cluster.
  • step S11c is executed multiple times, morphological analysis is performed multiple times.
  • the morphological analysis performed multiple times is the same as the process performed in step S12. Therefore, step S12 may not be executed.
  • step S11c is executed a plurality of times, the word vector creation process is executed a plurality of times.
  • the process of creating word vectors multiple times is the same as the process performed in step S13. Therefore, step S13 may not be executed.
  • the information processing apparatus 100 automatically adds classes to text. Therefore, the user does not need to add the class to the text. Therefore, the information processing apparatus 100 can reduce the burden on the user.
  • 100 information processing device 101 processor, 102 volatile storage device, 103 non-volatile storage device, 110 storage unit, 111 multiple texts, 120 acquisition unit, 130 morphological analysis unit, 140 word vector creation unit, 150 calculation unit, 160 identification section, 170 creation processing section, 180 class addition processing section.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置(100)は、複数のテキストを取得する取得部(120)と、識別子であるクラスが対応付けられている複数のテキスト(111)に対して形態素解析を行う形態素解析部(130)と、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部(140)と、複数の単語ベクトルに基づいて、クラスにおける単語の単語ベクトルと、複数のテキスト(111)内の全単語の単語ベクトルとの類似度の総和を算出し、算出された総和を用いて、複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部(150)とを有する。

Description

情報処理装置、処理方法、及び処理プログラム
 本開示は、情報処理装置、処理方法、及び処理プログラムに関する。
 大量のテキストを分類したい場合がある。例えば、ユーザが大量のテキストを手作業で分類する方法が考えられる。しかし、当該方法では、ユーザの負担が大きい。そこで、コンピュータが大量のテキストを自動で分類する技術が求められる。例えば、大量のテキストを自動で分類する方法として、文書自動分類方式が提案されている(非特許文献1を参照)。
河合敦夫「意味属性の学習結果にもとづく文書自動分類方式」、情報処理学会論文誌、1992年
 ところで、非特許文献1には、得点を算出する方法が記載されている。以下の説明では、得点は、寄与度と呼ぶ。しかし、非特許文献1の方法は、寄与度の算出方法として、好ましくない場合がある。
 本開示の目的は、寄与度を算出することである。
 本開示の一態様に係る情報処理装置が提供される。情報処理装置は、複数のテキストを取得する取得部と、識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行う形態素解析部と、前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部と、前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部と、を有する。
 本開示によれば、寄与度を算出することができる。
実施の形態1のテキストの分類を説明するための図である。 実施の形態1の寄与度の例を示す図である。 出現頻度の算出例を示す図である。 実施の形態1の情報処理装置が有するハードウェアを示す図である。 実施の形態1の情報処理装置の機能を示すブロック図である。 実施の形態1の総和の算出例を示す図である。 実施の形態1の単語ごとの寄与度の具体例を示す図である。 実施の形態1の部分グラフの例を示す図である。 実施の形態1のクラスタリングが行われた状態の具体例を示す図である。 実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その1)である。 実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その2)である。 (A),(B)は、実施の形態1のラベルの付加方法の例を示す図である。 実施の形態2の情報処理装置の機能を示すブロック図である。 実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。
 以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
実施の形態1.
 図1は、実施の形態1のテキストの分類を説明するための図である。図1は、テキストA,B,C,Dを示している。テキストA,B,C,Dを4つの分類先に分類する場合、テキスト内の単語にラベルを付加する方法が考えられる。コンピュータは、ラベルに基づいてテキストを分類することで、容易にテキストを分類することができる。
 しかし、ラベルが付加される対象の単語が、どのような意味であるかが不明である。そのため、対象の単語には、どのようなラベルを付加すればよいかが問題となる。解決方法として、語義情報を用いて対象の単語の意味を特定して、当該意味のラベルを対象の単語に付加する方法が考えられる。当該方法を実現するために、語義情報を作成する必要がある。語義情報を作成する場合、寄与度に基づいて語義情報を作成する方法が考えられる。そこで、寄与度の算出を説明する。
 まず、非特許文献1では、寄与度は、得点と呼んでいる。しかし、以下の説明では、得点は、寄与度と呼ぶ。なお、寄与度の定義については、後で説明する。非特許文献1には、寄与度に関する式が記載されている。寄与度Yijは、式(1)を用いて、表現される。なお、i及びjは、正の整数である。また、式(1)内のMijは、理論頻度(非特許文献1では、理論度数)と呼ぶ。式(1)内のFijは、出現頻度(非特許文献1では、頻度)と呼ぶ。
Figure JPOXMLDOC01-appb-M000001
 理論頻度Mijは、式(2)を用いて、表現される。
Figure JPOXMLDOC01-appb-M000002
 また、寄与度Yijは、次のように表現される。
 図2は、実施の形態1の寄与度の例を示す図である。図2は、寄与度Yijを示している。cは、クラスを示す。wは、単語を示す。また、クラスcは、テキストに対応付けられている。理論頻度Mijは、クラスcにおける単語wの理論頻度Mijと表現してもよい。クラスcにおける単語wの出現頻度Fijは、次のように算出される。
 図3は、出現頻度の算出例を示す図である。縦方向は、1つのテキスト内の単語を示している。横方向は、全てのテキスト内の全単語を示している。全てのテキスト内の全単語の中で重複する単語は、1つにまとめられている。
 例えば、ある1つのテキスト内には、“電源”の単語が2つ含まれている。そのため、“電源”の出現頻度は、“2”になる。
 また、例えば、ある1つのテキスト内には、“ドア”、“スイッチ”、及び“コンデンサ”の単語が含まれていない。そのため、“ドア”、“スイッチ”、及び“コンデンサ”の出現頻度は、“0”になる。
 出現頻度が“0”である場合、式(2)の分母が0になる。このように、式(2)の分母が0になるため、非特許文献1の方法は、寄与度の算出方法として、好ましくない場合がある。
 そこで、以下、寄与度が算出される場合を説明する。ここで、寄与度とは、語義情報を作成する際に寄与する度合である。
 まず、情報処理装置が有するハードウェアを説明する。
 図4は、実施の形態1の情報処理装置が有するハードウェアを示す図である。情報処理装置100は、処理方法を実行する装置である。情報処理装置100は、プロセッサ101、揮発性記憶装置102、及び不揮発性記憶装置103を有する。
 プロセッサ101は、情報処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。また、情報処理装置100は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。
 揮発性記憶装置102は、情報処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、情報処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)である。
 次に、情報処理装置100が有する機能を説明する。
 図5は、実施の形態1の情報処理装置の機能を示すブロック図である。情報処理装置100は、記憶部110、取得部120、形態素解析部130、単語ベクトル作成部140、算出部150、特定部160、及び作成処理部170を有する。
 記憶部110は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現してもよい。
 取得部120、形態素解析部130、単語ベクトル作成部140、算出部150、特定部160、及び作成処理部170の一部又は全部は、処理回路によって実現してもよい。また、取得部120、形態素解析部130、単語ベクトル作成部140、算出部150、特定部160、及び作成処理部170の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、処理プログラムとも言う。例えば、処理プログラムは、記録媒体に記録されている。
 記憶部110は、複数のテキスト111を記憶してもよい。複数のテキスト111のそれぞれには、クラスが対応付けられている。例えば、クラスは、ユーザのコンピュータ操作により、複数のテキスト111に対応付けられる。クラスは、識別子と呼んでもよい。クラスは、数字、記号、文字、文字列などである。クラスの種類は、1以上の種類である。例えば、図5は、“テキスト1”に“クラス1”が対応付けられていることを示している。
 取得部120は、複数のテキスト111を取得する。例えば、取得部120は、複数のテキスト111を記憶部110から取得する。ここで、複数のテキスト111は、外部装置(例えば、クラウドサーバ)に格納されてもよい。複数のテキスト111が外部装置に格納されている場合、取得部120は、複数のテキスト111を外部装置から取得する。
 形態素解析部130は、複数のテキスト111に対して形態素解析を行う。
 単語ベクトル作成部140は、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する。例えば、単語ベクトル作成部140は、当該複数の単語とword2vecとを用いて、複数の単語ベクトルを作成する。
 算出部150は、複数の単語ベクトルに基づいて、クラスcにおける単語wの単語ベクトルと、複数のテキスト111内の全単語の単語ベクトルとの類似度の総和Sijを算出する。総和Sijは、式(3)によって、表現される。なお、式(3)のvw_ijはクラスcにおける単語wの単語ベクトルを示す。式(3)のvw_kは、複数のテキスト111内の全単語の単語ベクトルを示す。cosは、コサイン類似度を示している。
Figure JPOXMLDOC01-appb-M000003
 ここで、総和Sijの算出例を示す。
 図6は、実施の形態1の総和の算出例を示す図である。縦方向は、クラスcにおける単語の単語ベクトルを示している。横方向は、全てのテキスト内の全単語の単語ベクトルを示している。言い換えれば、横方向は、複数のテキスト111内の全単語の単語ベクトルを示している。
 例えば、算出部150は、“扉”の単語ベクトルと“ドア”の単語ベクトルとに基づいて、類似度“0.9”を算出する。そして、算出部150は、総和“0.9”を算出する。このように、単語が一致しない場合でも、0よりも大きい数字が、総和として算出される。
 算出部150は、同様に、クラスcごとに、総和Sijを算出する。
 算出部150は、クラスcごとに算出された総和Sijを用いて、複数の単語のそれぞれの寄与度Yijを算出する。なお、クラスが1種類のみである場合、算出部150は、1つのクラスで算出された総和Sijを用いて、複数の単語のそれぞれの寄与度Yijを算出する。寄与度Yijは、式(4)を用いて、表現される。
Figure JPOXMLDOC01-appb-M000004
 理論頻度Mijは、式(5)を用いて、表現される。
Figure JPOXMLDOC01-appb-M000005
 なお、式(4)及び式(5)は、式(1)及び式(2)のFijがSijに変更された式である。
 ここで、図6で例示したように、情報処理装置100は、式(3)を用いることで、式(5)の分母が0になることを防止する。よって、実施の形態1によれば、情報処理装置100は、寄与度Yijを算出することができる。
 次に、寄与度Yijに基づいて、語義情報が作成される処理を説明する。
 まず、算出部150は、式(4)を用いることで、複数の単語のそれぞれの寄与度Yijを算出できる。すなわち、図2のように、複数の単語のそれぞれの寄与度Yijが算出される。ここで、単語ごとの寄与度の具体例を示す。
 図7は、実施の形態1の単語ごとの寄与度の具体例を示す図である。例えば、図7は、“電源”の寄与度が“34741.3”であることを示している。
 特定部160は、複数の単語のそれぞれの寄与度Yijに基づいて、予め設定された閾値以上の寄与度に対応する単語を特定する。すなわち、特定部160は、寄与度の高い単語を特定する。
 1つの単語が特定された場合、作成処理部170は、次の処理を行う。作成処理部170は、特定された単語と、特定された単語を含むテキストの中で、特定された単語と共起する単語である共起単語とに基づいて、クラスタを作成する。作成処理部170は、作成されたクラスタに基づいて、特定された単語の語義を示す語義情報を作成する。
 2つ以上の単語が特定された場合、作成処理部170は、次の処理を行う。作成処理部170は、特定された単語ごとに、特定された単語と当該共起単語との関係を示す部分グラフを作成する。作成処理部170は、作成された複数の部分グラフに対してクラスタリングを行う。作成処理部170は、クラスタリングにより形成されたクラスタに基づいて、当該語義情報を作成する。
 以下、詳細に語義情報の作成処理を説明する。また、当該説明では、2つ以上の単語が特定された場合を説明する。
 作成処理部170は、特定された複数の単語の中から1つの単語を選択する。例えば、作成処理部170は、特定された複数の単語の中から、“電源”を選択する。ここで、選択された単語は、選択単語と呼ぶ。作成処理部170は、複数のテキスト111の中から選択単語を含むテキストを抽出する。例えば、作成処理部170は、複数のテキスト111の中から、“電源”を含むテキストを抽出する。作成処理部170は、選択単語と、抽出されたテキスト内で選択単語と共起する単語との関係を示す部分グラフを作成する。選択単語と共起する単語は、共起単語である。ここで、部分グラフの例を示す。
 図8は、実施の形態1の部分グラフの例を示す図である。図8は、“電源”が選択単語であることを示している。図8は、抽出されたテキスト内には、“装置”、“静止”、“取り換え”などが含まれていることを示している。“装置”、“静止”、“取り換え”などの単語は、共起単語である。ここで、選択単語と共起単語は、ノードと考えてもよい。
 また、例えば、図8は、抽出されたテキスト内に、“装置”が15回出現していることを示している。部分グラフでは、選択単語と共起単語は、エッジを介して接続する。エッジには、出現回数が付加される。出現回数は、共起回数と呼んでもよい。なお、出現回数が予め設定された閾値以下である場合、出現回数に対応する共起単語、及び当該共起単語に接続するエッジは、部分グラフに含まれなくてもよい。
 作成処理部170は、同様に、特定された複数の単語のそれぞれに対応する部分グラフを作成する。
 作成処理部170は、複数の部分グラフに対してクラスタリングを行う。例えば、作成処理部170は、マルコフクラスタリングを用いて、複数の部分グラフに対してクラスタリングを行う。また、例えば、作成処理部170は、word2vecを用いて、共起単語の単語ベクトルを作成し、作成された単語ベクトルと周知技術のクラスタリング技術とを用いて、クラスタリングを行ってもよい。なお、例えば、周知技術のクラスタリング技術は、K-means、GMM(Gaussian Mixture Model)などである。クラスタリングが行われた状態の具体例を示す。
 図9は、実施の形態1のクラスタリングが行われた状態の具体例を示す図である。図9が示すように、複数の部分グラフに対してクラスタリングが行われる。これにより、複数のクラスタが形成される。例えば、“電源”、“装置”、“静止”、及び“取り換え”を含むクラスタが形成される。
 作成処理部170は、クラスタの中心単語(すなわち、選択単語)の語義を、当該クラスタ内で中心単語と関係を有する単語とする。言い換えれば、作成処理部170は、クラスタの中心ノードの単語の語義を、当該クラスタ内で中心ノードと接続しているノードの単語とする。例えば、作成処理部170は、“電源”の語義を、“装置”、“静止”、及び“取り換え”とする。また、作成処理部170は、クラスタ内の単語を多く含むテキストに対応付けられているクラスを、クラスタに対応付けてもよい。例えば、作成処理部170は、“電源”、“装置”などを含むクラスタに、クラス“A用電源”を対応付ける。
 作成処理部170は、クラスタごとに語義情報を作成する。詳細に語義情報の作成処理を説明する。作成処理部170は、中心単語と、中心単語の語義である単語との対応関係を示す情報である語義情報を作成する。例えば、作成処理部170は、“電源”と、“電源”の語義である“装置”、“静止”、及び“取り換え”との対応関係を示す情報である語義情報を作成する。作成処理部170は、語義情報を記憶部110に格納してもよい。語義情報には、クラスタに対応付けられたクラスが対応付けられてもよい。
 次に、情報処理装置100が実行する処理を、フローチャートを用いて、説明する。
 図10は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その1)である。
 (ステップS11)取得部120は、複数のテキスト111を取得する。
 (ステップS12)形態素解析部130は、複数のテキスト111に対して形態素解析を行う。
 (ステップS13)単語ベクトル作成部140は、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する。
 (ステップS14)算出部150は、複数の単語ベクトルに基づいて、総和Sijを算出する。
 (ステップS15)算出部150は、総和Sijを用いて、複数の単語のそれぞれの寄与度Yijを算出する。これにより、複数の単語のそれぞれの寄与度Yijが、算出される。そして、処理は、ステップS21に進む。
 図11は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その2)である。
 (ステップS21)特定部160は、複数の単語のそれぞれの寄与度Yijに基づいて、予め設定された閾値以上の寄与度に対応する単語を特定する。すなわち、特定部160は、寄与度の高い単語を特定する。
 (ステップS22)作成処理部170は、特定された複数の単語の中から1つの単語を選択する。
 (ステップS23)作成処理部170は、複数のテキスト111の中から選択単語を含むテキストを抽出する。
 (ステップS24)作成処理部170は、選択単語と、抽出されたテキスト内で、選択単語と共起する共起単語との関係を示す部分グラフを作成する。
 (ステップS25)作成処理部170は、全ての単語を選択したか否かを判定する。全ての単語が選択された場合、処理は、ステップS26に進む。選択されていない単語がある場合、処理は、ステップS22に進む。
 (ステップS26)作成処理部170は、複数の部分グラフに対してクラスタリングを行う。これにより、複数のクラスタが形成される。
 (ステップS27)作成処理部170は、クラスタに基づいて、語義情報を作成する。
 次に、ラベルの付加方法を説明する。
 図12(A),(B)は、実施の形態1のラベルの付加方法の例を示す図である。まず、語義情報は、“電源”の語義が、“装置”、“静止”、及び“取り換え”であることを示しているものとする。また、当該語義情報には、クラス“A用電源”が対応付けられている。
 図12(A)は、ラベルの付加方法の例(その1)を示している。情報処理装置100は、テキストA内の“電源”の意味を推定する場合、語義情報を用いる。情報処理装置100は、テキストA内に“静止”が含まれていることを特定する。情報処理装置100は、“静止”が語義情報に含まれていることを特定する。情報処理装置100は、“電源”の意味が“静止”であると推定する。情報処理装置100は、“電源”に“静止”のラベルを付加する。
 図12(B)は、ラベルの付加方法の例(その2)を示している。情報処理装置100は、テキストA内の“電源”にラベルを付加する場合、語義情報を用いる。情報処理装置100は、テキストA内に“静止”が含まれていることを特定する。情報処理装置100は、“静止”が語義情報に含まれていることを特定する。情報処理装置100は、語義情報に対応付けられているクラス“A用電源”のラベルを“電源”に付加する。
 このように、単語にラベルが付加されることで、情報処理装置100は、テキストを分類する場合、容易にテキストを分類することができる。
実施の形態2.
 次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
 実施の形態1では、複数のテキスト111のそれぞれに、クラスが対応付けられていた。実施の形態2では、クラスが対応付けられていない複数のテキスト111が扱われる。そして、実施の形態2では、情報処理装置100が、複数のテキスト111のそれぞれにクラスを対応付ける場合を説明する。
 図13は、実施の形態2の情報処理装置の機能を示すブロック図である。情報処理装置100は、さらに、クラス付加処理部180を有する。
 クラス付加処理部180の一部又は全部は、処理回路によって実現してもよい。また、クラス付加処理部180の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。
 取得部120は、クラスが対応付けられていない複数のテキスト111を取得する。
 クラス付加処理部180は、テキストごとに、テキストに対して形態素解析を行い、形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成し、作成された複数の単語ベクトルに基づいて平均ベクトルを算出する。クラス付加処理部180は、テキストごとに算出された平均ベクトルを用いて、クラスが対応付けられていない複数のテキスト111に対してクラスタリングを行う。クラスタリングでは、K-means、GMMなどが用いられてもよい。これにより、複数のクラスタが形成される。クラスタには、1以上のテキストが含まれる。クラス付加処理部180は、形成されたクラスタごとに、クラスタに含まれているテキストにクラスを付加することにより、クラスが対応付けられている複数のテキスト111を作成する。例えば、1つのクラスタに2つのテキスト(例えば、テキスト1,2)が含まれている場合、クラス付加処理部180は、当該2つのテキストに同じクラス(例えば、クラス1)を付加する。これにより、例えば、図5のように、複数のテキスト111のそれぞれにクラスが付加される。
 次に、情報処理装置100が実行する処理を、フローチャートを用いて説明する。
 図14は、実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。図14の処理は、ステップS11a~11fが実行される点が図10の処理と異なる。そのため、図14では、ステップS11a~11fを説明する。そして、ステップS11a~11f以外の処理の説明は、省略する。
 (ステップS11a)取得部120は、クラスが対応付けられていない複数のテキスト111を取得する。
 (ステップS11b)クラス付加処理部180は、複数のテキスト111の中から1つのテキストを選択する。
 (ステップS11c)クラス付加処理部180は、選択されたテキストに対して形態素解析を行う。クラス付加処理部180は、形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成する。クラス付加処理部180は、複数の単語ベクトルに基づいて平均ベクトルを算出する。
 (ステップS11d)クラス付加処理部180は、全てのテキストを選択したか否かを判定する。全てのテキストが選択された場合、処理は、ステップS11dに進む。選択されていないテキストが存在する場合、処理は、ステップS11aに進む。
 (ステップS11e)クラス付加処理部180は、テキストごとに算出された平均ベクトルを用いて、複数のテキスト111に対してクラスタリングを行う。
 (ステップS11f)クラス付加処理部180は、クラスタごとに、クラスタに含まれているテキストにクラスを付加する。
 ここで、複数回のステップS11cが実行されるため、複数回の形態素解析が行われる。複数回の形態素解析は、ステップS12で行われる処理と同じである。そのため、ステップS12は、実行されなくてもよい。また、複数回のステップS11cが実行されるため、複数回の単語ベクトルの作成処理が実行される。複数回の単語ベクトルの作成処理は、ステップS13で行われる処理と同じである。そのため、ステップS13は、実行されなくてもよい。
 実施の形態2によれば、情報処理装置100は、自動的にテキストにクラスを付加する。そのため、ユーザがテキストにクラスを付加する作業を行わなくて済む。よって、情報処理装置100は、ユーザの負担を軽減できる。
 以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。
 100 情報処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 110 記憶部、 111 複数のテキスト、 120 取得部、 130 形態素解析部、 140 単語ベクトル作成部、 150 算出部、 160 特定部、 170 作成処理部、 180 クラス付加処理部。

Claims (7)

  1.  複数のテキストを取得する取得部と、
     識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行う形態素解析部と、
     前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部と、
     前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部と、
     を有する情報処理装置。
  2.  前記クラスは、複数の種類のクラスであり、
     前記算出部は、前記クラスごとに、前記総和を算出し、前記クラスごとに算出された前記総和を用いて、前記複数の単語のそれぞれの前記寄与度を算出する、
     請求項1に記載の情報処理装置。
  3.  前記複数の単語のそれぞれの前記寄与度に基づいて、予め設定された閾値以上の前記寄与度に対応する単語を特定する特定部と、
     特定された単語と、特定された単語を含むテキストの中で、特定された単語と共起する単語である共起単語とに基づいて、クラスタを作成し、作成されたクラスタに基づいて、特定された単語の語義を示す前記語義情報を作成する作成処理部と、
     をさらに有する、
     請求項1又は2に記載の情報処理装置。
  4.  前記作成処理部は、特定された単語ごとに、特定された単語と前記共起単語との関係を示す部分グラフを作成し、作成された複数の部分グラフに対してクラスタリングを行い、クラスタリングにより形成されたクラスタに基づいて、前記語義情報を作成する、
     請求項3に記載の情報処理装置。
  5.  クラス付加処理部をさらに有し、
     前記取得部は、前記クラスが対応付けられていない複数のテキストを取得し、
     前記クラス付加処理部は、テキストごとに、テキストに対して形態素解析を行い、前記形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成し、作成された複数の単語ベクトルに基づいて平均ベクトルを算出し、テキストごとに算出された平均ベクトルを用いて、前記クラスが対応付けられていない複数のテキストに対してクラスタリングを行い、形成されたクラスタごとに、クラスタに含まれているテキストに前記クラスを付加することにより、前記複数のテキストを作成する、
     請求項1から4のいずれか1項に記載の情報処理装置。
  6.  情報処理装置が、
     複数のテキストを取得し、
     識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行い、
     前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成し、
     前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、
     算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する、
     処理方法。
  7.  情報処理装置に、
     複数のテキストを取得し、
     識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行い、
     前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成し、
     前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、
     算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する、
     処理を実行させる処理プログラム。
     
PCT/JP2021/019170 2021-05-20 2021-05-20 情報処理装置、処理方法、及び処理プログラム WO2022244189A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022560867A JP7209909B1 (ja) 2021-05-20 2021-05-20 情報処理装置、処理方法、及び処理プログラム
PCT/JP2021/019170 WO2022244189A1 (ja) 2021-05-20 2021-05-20 情報処理装置、処理方法、及び処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/019170 WO2022244189A1 (ja) 2021-05-20 2021-05-20 情報処理装置、処理方法、及び処理プログラム

Publications (1)

Publication Number Publication Date
WO2022244189A1 true WO2022244189A1 (ja) 2022-11-24

Family

ID=84141540

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/019170 WO2022244189A1 (ja) 2021-05-20 2021-05-20 情報処理装置、処理方法、及び処理プログラム

Country Status (2)

Country Link
JP (1) JP7209909B1 (ja)
WO (1) WO2022244189A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013016011A (ja) * 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 同義語辞書生成装置、その方法、及びプログラム
JP2016027493A (ja) * 2015-09-29 2016-02-18 株式会社東芝 文書分類支援装置、方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537821B2 (en) * 2019-04-10 2022-12-27 International Business Machines Corporation Evaluating text classification anomalies predicted by a text classification model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013016011A (ja) * 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 同義語辞書生成装置、その方法、及びプログラム
JP2016027493A (ja) * 2015-09-29 2016-02-18 株式会社東芝 文書分類支援装置、方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HIRAKAWA, KOJI : "Improvement in video search accuracy by narrowing down the meaning of words in query", PROCEEDINGS OF THE 24TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING (NLP); OKAYAMA, JAPAN; MARCH 12-16, 2018, vol. 24, 5 March 2018 (2018-03-05), pages 1027 - 1030, XP009541736 *
KAWAI, ATSUO: "Automatic classification system of documents based on learning results of meaning attributes", IPSJ JOURNAL, vol. 33, no. 9, 16 September 1992 (1992-09-16), JP , pages 1114 - 1122, XP009541722, ISSN: 0387-5806 *

Also Published As

Publication number Publication date
JPWO2022244189A1 (ja) 2022-11-24
JP7209909B1 (ja) 2023-01-20

Similar Documents

Publication Publication Date Title
Rastegari et al. Predictable dual-view hashing
Lin et al. Semantics-preserving hashing for cross-view retrieval
Hertz et al. Learning distance functions for image retrieval
US10007679B2 (en) Enhanced max margin learning on multimodal data mining in a multimedia database
Niu et al. Word sense disambiguation using label propagation based semi-supervised learning
Hoi et al. A unified log-based relevance feedback scheme for image retrieval
Lu et al. Source free transfer learning for text classification
RU2583716C2 (ru) Метод построения и обнаружения тематической структуры корпуса
WO2008098956A1 (en) Method and apparatus for automatically discovering features in free form heterogeneous data
Carbonneau et al. Bag-level aggregation for multiple-instance active learning in instance classification problems
US10366108B2 (en) Distributional alignment of sets
US20150131899A1 (en) Devices, systems, and methods for learning a discriminant image representation
Li et al. Hierarchical latent concept discovery for video event detection
Foncubierta-Rodríguez et al. Medical image retrieval using bag of meaningful visual words: unsupervised visual vocabulary pruning with PLSA
Tsarev et al. Using NMF-based text summarization to improve supervised and unsupervised classification
US11880755B2 (en) Semi-supervised learning with group constraints
US10339407B2 (en) Noise mitigation in vector space representations of item collections
Amayri et al. On online high-dimensional spherical data clustering and feature selection
Haripriya et al. Multi label prediction using association rule generation and simple k-means
WO2022244189A1 (ja) 情報処理装置、処理方法、及び処理プログラム
Morsillo et al. Youtube scale, large vocabulary video annotation
Escoter et al. Grouping business news stories based on salience of named entities
Song et al. Iterative 3D shape classification by online metric learning
CN114265964A (zh) 大数据异常行为检测方法及装置、存储介质及电子设备
Lei et al. An HMM-SVM-based automatic image annotation approach

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2022560867

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21940803

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21940803

Country of ref document: EP

Kind code of ref document: A1