WO2022244189A1

WO2022244189A1 - 情報処理装置、処理方法、及び処理プログラム

Info

Publication number: WO2022244189A1
Application number: PCT/JP2021/019170
Authority: WO
Inventors: 隼人内出; 典宏長徳
Original assignee: 三菱電機株式会社; 三菱電機ビルソリューションズ株式会社
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2022-11-24
Also published as: JPWO2022244189A1; JP7209909B1

Abstract

情報処理装置（１００）は、複数のテキストを取得する取得部（１２０）と、識別子であるクラスが対応付けられている複数のテキスト（１１１）に対して形態素解析を行う形態素解析部（１３０）と、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部（１４０）と、複数の単語ベクトルに基づいて、クラスにおける単語の単語ベクトルと、複数のテキスト（１１１）内の全単語の単語ベクトルとの類似度の総和を算出し、算出された総和を用いて、複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部（１５０）とを有する。

Description

情報処理装置、処理方法、及び処理プログラム

　本開示は、情報処理装置、処理方法、及び処理プログラムに関する。

　大量のテキストを分類したい場合がある。例えば、ユーザが大量のテキストを手作業で分類する方法が考えられる。しかし、当該方法では、ユーザの負担が大きい。そこで、コンピュータが大量のテキストを自動で分類する技術が求められる。例えば、大量のテキストを自動で分類する方法として、文書自動分類方式が提案されている（非特許文献１を参照）。

河合敦夫「意味属性の学習結果にもとづく文書自動分類方式」、情報処理学会論文誌、１９９２年

　ところで、非特許文献１には、得点を算出する方法が記載されている。以下の説明では、得点は、寄与度と呼ぶ。しかし、非特許文献１の方法は、寄与度の算出方法として、好ましくない場合がある。

　本開示の目的は、寄与度を算出することである。

　本開示の一態様に係る情報処理装置が提供される。情報処理装置は、複数のテキストを取得する取得部と、識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行う形態素解析部と、前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部と、前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部と、を有する。

　本開示によれば、寄与度を算出することができる。

実施の形態１のテキストの分類を説明するための図である。実施の形態１の寄与度の例を示す図である。出現頻度の算出例を示す図である。実施の形態１の情報処理装置が有するハードウェアを示す図である。実施の形態１の情報処理装置の機能を示すブロック図である。実施の形態１の総和の算出例を示す図である。実施の形態１の単語ごとの寄与度の具体例を示す図である。実施の形態１の部分グラフの例を示す図である。実施の形態１のクラスタリングが行われた状態の具体例を示す図である。実施の形態１の情報処理装置が実行する処理の例を示すフローチャート（その１）である。実施の形態１の情報処理装置が実行する処理の例を示すフローチャート（その２）である。（Ａ），（Ｂ）は、実施の形態１のラベルの付加方法の例を示す図である。実施の形態２の情報処理装置の機能を示すブロック図である。実施の形態２の情報処理装置が実行する処理の例を示すフローチャートである。

　以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。

実施の形態１．
　図１は、実施の形態１のテキストの分類を説明するための図である。図１は、テキストＡ，Ｂ，Ｃ，Ｄを示している。テキストＡ，Ｂ，Ｃ，Ｄを４つの分類先に分類する場合、テキスト内の単語にラベルを付加する方法が考えられる。コンピュータは、ラベルに基づいてテキストを分類することで、容易にテキストを分類することができる。

　しかし、ラベルが付加される対象の単語が、どのような意味であるかが不明である。そのため、対象の単語には、どのようなラベルを付加すればよいかが問題となる。解決方法として、語義情報を用いて対象の単語の意味を特定して、当該意味のラベルを対象の単語に付加する方法が考えられる。当該方法を実現するために、語義情報を作成する必要がある。語義情報を作成する場合、寄与度に基づいて語義情報を作成する方法が考えられる。そこで、寄与度の算出を説明する。

　まず、非特許文献１では、寄与度は、得点と呼んでいる。しかし、以下の説明では、得点は、寄与度と呼ぶ。なお、寄与度の定義については、後で説明する。非特許文献１には、寄与度に関する式が記載されている。寄与度Ｙ_ｉｊは、式（１）を用いて、表現される。なお、ｉ及びｊは、正の整数である。また、式（１）内のＭ_ｉｊは、理論頻度（非特許文献１では、理論度数）と呼ぶ。式（１）内のＦ_ｉｊは、出現頻度（非特許文献１では、頻度）と呼ぶ。

　理論頻度Ｍ_ｉｊは、式（２）を用いて、表現される。

　また、寄与度Ｙ_ｉｊは、次のように表現される。
　図２は、実施の形態１の寄与度の例を示す図である。図２は、寄与度Ｙ_ｉｊを示している。ｃは、クラスを示す。ｗは、単語を示す。また、クラスｃ_ｉは、テキストに対応付けられている。理論頻度Ｍ_ｉｊは、クラスｃ_ｉにおける単語ｗ_ｊの理論頻度Ｍ_ｉｊと表現してもよい。クラスｃ_ｉにおける単語ｗ_ｊの出現頻度Ｆ_ｉｊは、次のように算出される。

　図３は、出現頻度の算出例を示す図である。縦方向は、１つのテキスト内の単語を示している。横方向は、全てのテキスト内の全単語を示している。全てのテキスト内の全単語の中で重複する単語は、１つにまとめられている。

　例えば、ある１つのテキスト内には、“電源”の単語が２つ含まれている。そのため、“電源”の出現頻度は、“２”になる。
　また、例えば、ある１つのテキスト内には、“ドア”、“スイッチ”、及び“コンデンサ”の単語が含まれていない。そのため、“ドア”、“スイッチ”、及び“コンデンサ”の出現頻度は、“０”になる。

　出現頻度が“０”である場合、式（２）の分母が０になる。このように、式（２）の分母が０になるため、非特許文献１の方法は、寄与度の算出方法として、好ましくない場合がある。

　そこで、以下、寄与度が算出される場合を説明する。ここで、寄与度とは、語義情報を作成する際に寄与する度合である。
　まず、情報処理装置が有するハードウェアを説明する。

　図４は、実施の形態１の情報処理装置が有するハードウェアを示す図である。情報処理装置１００は、処理方法を実行する装置である。情報処理装置１００は、プロセッサ１０１、揮発性記憶装置１０２、及び不揮発性記憶装置１０３を有する。

　プロセッサ１０１は、情報処理装置１００全体を制御する。例えば、プロセッサ１０１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）などである。プロセッサ１０１は、マルチプロセッサでもよい。また、情報処理装置１００は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。

　揮発性記憶装置１０２は、情報処理装置１００の主記憶装置である。例えば、揮発性記憶装置１０２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。不揮発性記憶装置１０３は、情報処理装置１００の補助記憶装置である。例えば、不揮発性記憶装置１０３は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）である。

　次に、情報処理装置１００が有する機能を説明する。
　図５は、実施の形態１の情報処理装置の機能を示すブロック図である。情報処理装置１００は、記憶部１１０、取得部１２０、形態素解析部１３０、単語ベクトル作成部１４０、算出部１５０、特定部１６０、及び作成処理部１７０を有する。

　記憶部１１０は、揮発性記憶装置１０２又は不揮発性記憶装置１０３に確保した記憶領域として実現してもよい。
　取得部１２０、形態素解析部１３０、単語ベクトル作成部１４０、算出部１５０、特定部１６０、及び作成処理部１７０の一部又は全部は、処理回路によって実現してもよい。また、取得部１２０、形態素解析部１３０、単語ベクトル作成部１４０、算出部１５０、特定部１６０、及び作成処理部１７０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ１０１が実行するプログラムは、処理プログラムとも言う。例えば、処理プログラムは、記録媒体に記録されている。

　記憶部１１０は、複数のテキスト１１１を記憶してもよい。複数のテキスト１１１のそれぞれには、クラスが対応付けられている。例えば、クラスは、ユーザのコンピュータ操作により、複数のテキスト１１１に対応付けられる。クラスは、識別子と呼んでもよい。クラスは、数字、記号、文字、文字列などである。クラスの種類は、１以上の種類である。例えば、図５は、“テキスト１”に“クラス１”が対応付けられていることを示している。

　取得部１２０は、複数のテキスト１１１を取得する。例えば、取得部１２０は、複数のテキスト１１１を記憶部１１０から取得する。ここで、複数のテキスト１１１は、外部装置（例えば、クラウドサーバ）に格納されてもよい。複数のテキスト１１１が外部装置に格納されている場合、取得部１２０は、複数のテキスト１１１を外部装置から取得する。

　形態素解析部１３０は、複数のテキスト１１１に対して形態素解析を行う。
　単語ベクトル作成部１４０は、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する。例えば、単語ベクトル作成部１４０は、当該複数の単語とｗｏｒｄ２ｖｅｃとを用いて、複数の単語ベクトルを作成する。

　算出部１５０は、複数の単語ベクトルに基づいて、クラスｃ_ｉにおける単語ｗ_ｊの単語ベクトルと、複数のテキスト１１１内の全単語の単語ベクトルとの類似度の総和Ｓ_ｉｊを算出する。総和Ｓ_ｉｊは、式（３）によって、表現される。なお、式（３）のｖ_ｗ＿ｉｊはクラスｃ_ｉにおける単語ｗ_ｊの単語ベクトルを示す。式（３）のｖ_ｗ＿ｋは、複数のテキスト１１１内の全単語の単語ベクトルを示す。ｃｏｓは、コサイン類似度を示している。

　ここで、総和Ｓ_ｉｊの算出例を示す。
　図６は、実施の形態１の総和の算出例を示す図である。縦方向は、クラスｃ_ｉにおける単語の単語ベクトルを示している。横方向は、全てのテキスト内の全単語の単語ベクトルを示している。言い換えれば、横方向は、複数のテキスト１１１内の全単語の単語ベクトルを示している。

　例えば、算出部１５０は、“扉”の単語ベクトルと“ドア”の単語ベクトルとに基づいて、類似度“０．９”を算出する。そして、算出部１５０は、総和“０．９”を算出する。このように、単語が一致しない場合でも、０よりも大きい数字が、総和として算出される。
　算出部１５０は、同様に、クラスｃ_ｉごとに、総和Ｓ_ｉｊを算出する。

　算出部１５０は、クラスｃ_ｉごとに算出された総和Ｓ_ｉｊを用いて、複数の単語のそれぞれの寄与度Ｙ_ｉｊを算出する。なお、クラスが１種類のみである場合、算出部１５０は、１つのクラスで算出された総和Ｓ_ｉｊを用いて、複数の単語のそれぞれの寄与度Ｙ_ｉｊを算出する。寄与度Ｙ_ｉｊは、式（４）を用いて、表現される。

　理論頻度Ｍ_ｉｊは、式（５）を用いて、表現される。

　なお、式（４）及び式（５）は、式（１）及び式（２）のＦ_ｉｊがＳ_ｉｊに変更された式である。
　ここで、図６で例示したように、情報処理装置１００は、式（３）を用いることで、式（５）の分母が０になることを防止する。よって、実施の形態１によれば、情報処理装置１００は、寄与度Ｙ_ｉｊを算出することができる。

　次に、寄与度Ｙ_ｉｊに基づいて、語義情報が作成される処理を説明する。
　まず、算出部１５０は、式（４）を用いることで、複数の単語のそれぞれの寄与度Ｙ_ｉｊを算出できる。すなわち、図２のように、複数の単語のそれぞれの寄与度Ｙ_ｉｊが算出される。ここで、単語ごとの寄与度の具体例を示す。

　図７は、実施の形態１の単語ごとの寄与度の具体例を示す図である。例えば、図７は、“電源”の寄与度が“３４７４１．３”であることを示している。
　特定部１６０は、複数の単語のそれぞれの寄与度Ｙ_ｉｊに基づいて、予め設定された閾値以上の寄与度に対応する単語を特定する。すなわち、特定部１６０は、寄与度の高い単語を特定する。

　１つの単語が特定された場合、作成処理部１７０は、次の処理を行う。作成処理部１７０は、特定された単語と、特定された単語を含むテキストの中で、特定された単語と共起する単語である共起単語とに基づいて、クラスタを作成する。作成処理部１７０は、作成されたクラスタに基づいて、特定された単語の語義を示す語義情報を作成する。

　２つ以上の単語が特定された場合、作成処理部１７０は、次の処理を行う。作成処理部１７０は、特定された単語ごとに、特定された単語と当該共起単語との関係を示す部分グラフを作成する。作成処理部１７０は、作成された複数の部分グラフに対してクラスタリングを行う。作成処理部１７０は、クラスタリングにより形成されたクラスタに基づいて、当該語義情報を作成する。

　以下、詳細に語義情報の作成処理を説明する。また、当該説明では、２つ以上の単語が特定された場合を説明する。
　作成処理部１７０は、特定された複数の単語の中から１つの単語を選択する。例えば、作成処理部１７０は、特定された複数の単語の中から、“電源”を選択する。ここで、選択された単語は、選択単語と呼ぶ。作成処理部１７０は、複数のテキスト１１１の中から選択単語を含むテキストを抽出する。例えば、作成処理部１７０は、複数のテキスト１１１の中から、“電源”を含むテキストを抽出する。作成処理部１７０は、選択単語と、抽出されたテキスト内で選択単語と共起する単語との関係を示す部分グラフを作成する。選択単語と共起する単語は、共起単語である。ここで、部分グラフの例を示す。

　図８は、実施の形態１の部分グラフの例を示す図である。図８は、“電源”が選択単語であることを示している。図８は、抽出されたテキスト内には、“装置”、“静止”、“取り換え”などが含まれていることを示している。“装置”、“静止”、“取り換え”などの単語は、共起単語である。ここで、選択単語と共起単語は、ノードと考えてもよい。

　また、例えば、図８は、抽出されたテキスト内に、“装置”が１５回出現していることを示している。部分グラフでは、選択単語と共起単語は、エッジを介して接続する。エッジには、出現回数が付加される。出現回数は、共起回数と呼んでもよい。なお、出現回数が予め設定された閾値以下である場合、出現回数に対応する共起単語、及び当該共起単語に接続するエッジは、部分グラフに含まれなくてもよい。

　作成処理部１７０は、同様に、特定された複数の単語のそれぞれに対応する部分グラフを作成する。

　作成処理部１７０は、複数の部分グラフに対してクラスタリングを行う。例えば、作成処理部１７０は、マルコフクラスタリングを用いて、複数の部分グラフに対してクラスタリングを行う。また、例えば、作成処理部１７０は、ｗｏｒｄ２ｖｅｃを用いて、共起単語の単語ベクトルを作成し、作成された単語ベクトルと周知技術のクラスタリング技術とを用いて、クラスタリングを行ってもよい。なお、例えば、周知技術のクラスタリング技術は、Ｋ－ｍｅａｎｓ、ＧＭＭ（Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ）などである。クラスタリングが行われた状態の具体例を示す。

　図９は、実施の形態１のクラスタリングが行われた状態の具体例を示す図である。図９が示すように、複数の部分グラフに対してクラスタリングが行われる。これにより、複数のクラスタが形成される。例えば、“電源”、“装置”、“静止”、及び“取り換え”を含むクラスタが形成される。

　作成処理部１７０は、クラスタの中心単語（すなわち、選択単語）の語義を、当該クラスタ内で中心単語と関係を有する単語とする。言い換えれば、作成処理部１７０は、クラスタの中心ノードの単語の語義を、当該クラスタ内で中心ノードと接続しているノードの単語とする。例えば、作成処理部１７０は、“電源”の語義を、“装置”、“静止”、及び“取り換え”とする。また、作成処理部１７０は、クラスタ内の単語を多く含むテキストに対応付けられているクラスを、クラスタに対応付けてもよい。例えば、作成処理部１７０は、“電源”、“装置”などを含むクラスタに、クラス“Ａ用電源”を対応付ける。

　作成処理部１７０は、クラスタごとに語義情報を作成する。詳細に語義情報の作成処理を説明する。作成処理部１７０は、中心単語と、中心単語の語義である単語との対応関係を示す情報である語義情報を作成する。例えば、作成処理部１７０は、“電源”と、“電源”の語義である“装置”、“静止”、及び“取り換え”との対応関係を示す情報である語義情報を作成する。作成処理部１７０は、語義情報を記憶部１１０に格納してもよい。語義情報には、クラスタに対応付けられたクラスが対応付けられてもよい。

　次に、情報処理装置１００が実行する処理を、フローチャートを用いて、説明する。
　図１０は、実施の形態１の情報処理装置が実行する処理の例を示すフローチャート（その１）である。
　（ステップＳ１１）取得部１２０は、複数のテキスト１１１を取得する。
　（ステップＳ１２）形態素解析部１３０は、複数のテキスト１１１に対して形態素解析を行う。
　（ステップＳ１３）単語ベクトル作成部１４０は、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する。

　（ステップＳ１４）算出部１５０は、複数の単語ベクトルに基づいて、総和Ｓ_ｉｊを算出する。
　（ステップＳ１５）算出部１５０は、総和Ｓ_ｉｊを用いて、複数の単語のそれぞれの寄与度Ｙ_ｉｊを算出する。これにより、複数の単語のそれぞれの寄与度Ｙ_ｉｊが、算出される。そして、処理は、ステップＳ２１に進む。

　図１１は、実施の形態１の情報処理装置が実行する処理の例を示すフローチャート（その２）である。
　（ステップＳ２１）特定部１６０は、複数の単語のそれぞれの寄与度Ｙ_ｉｊに基づいて、予め設定された閾値以上の寄与度に対応する単語を特定する。すなわち、特定部１６０は、寄与度の高い単語を特定する。
　（ステップＳ２２）作成処理部１７０は、特定された複数の単語の中から１つの単語を選択する。

　（ステップＳ２３）作成処理部１７０は、複数のテキスト１１１の中から選択単語を含むテキストを抽出する。
　（ステップＳ２４）作成処理部１７０は、選択単語と、抽出されたテキスト内で、選択単語と共起する共起単語との関係を示す部分グラフを作成する。

　（ステップＳ２５）作成処理部１７０は、全ての単語を選択したか否かを判定する。全ての単語が選択された場合、処理は、ステップＳ２６に進む。選択されていない単語がある場合、処理は、ステップＳ２２に進む。
　（ステップＳ２６）作成処理部１７０は、複数の部分グラフに対してクラスタリングを行う。これにより、複数のクラスタが形成される。
　（ステップＳ２７）作成処理部１７０は、クラスタに基づいて、語義情報を作成する。

　次に、ラベルの付加方法を説明する。
　図１２（Ａ），（Ｂ）は、実施の形態１のラベルの付加方法の例を示す図である。まず、語義情報は、“電源”の語義が、“装置”、“静止”、及び“取り換え”であることを示しているものとする。また、当該語義情報には、クラス“Ａ用電源”が対応付けられている。

　図１２（Ａ）は、ラベルの付加方法の例（その１）を示している。情報処理装置１００は、テキストＡ内の“電源”の意味を推定する場合、語義情報を用いる。情報処理装置１００は、テキストＡ内に“静止”が含まれていることを特定する。情報処理装置１００は、“静止”が語義情報に含まれていることを特定する。情報処理装置１００は、“電源”の意味が“静止”であると推定する。情報処理装置１００は、“電源”に“静止”のラベルを付加する。

　図１２（Ｂ）は、ラベルの付加方法の例（その２）を示している。情報処理装置１００は、テキストＡ内の“電源”にラベルを付加する場合、語義情報を用いる。情報処理装置１００は、テキストＡ内に“静止”が含まれていることを特定する。情報処理装置１００は、“静止”が語義情報に含まれていることを特定する。情報処理装置１００は、語義情報に対応付けられているクラス“Ａ用電源”のラベルを“電源”に付加する。
　このように、単語にラベルが付加されることで、情報処理装置１００は、テキストを分類する場合、容易にテキストを分類することができる。

実施の形態２．
　次に、実施の形態２を説明する。実施の形態２では、実施の形態１と相違する事項を主に説明する。そして、実施の形態２では、実施の形態１と共通する事項の説明を省略する。

　実施の形態１では、複数のテキスト１１１のそれぞれに、クラスが対応付けられていた。実施の形態２では、クラスが対応付けられていない複数のテキスト１１１が扱われる。そして、実施の形態２では、情報処理装置１００が、複数のテキスト１１１のそれぞれにクラスを対応付ける場合を説明する。

　図１３は、実施の形態２の情報処理装置の機能を示すブロック図である。情報処理装置１００は、さらに、クラス付加処理部１８０を有する。
　クラス付加処理部１８０の一部又は全部は、処理回路によって実現してもよい。また、クラス付加処理部１８０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。

　取得部１２０は、クラスが対応付けられていない複数のテキスト１１１を取得する。
　クラス付加処理部１８０は、テキストごとに、テキストに対して形態素解析を行い、形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成し、作成された複数の単語ベクトルに基づいて平均ベクトルを算出する。クラス付加処理部１８０は、テキストごとに算出された平均ベクトルを用いて、クラスが対応付けられていない複数のテキスト１１１に対してクラスタリングを行う。クラスタリングでは、Ｋ－ｍｅａｎｓ、ＧＭＭなどが用いられてもよい。これにより、複数のクラスタが形成される。クラスタには、１以上のテキストが含まれる。クラス付加処理部１８０は、形成されたクラスタごとに、クラスタに含まれているテキストにクラスを付加することにより、クラスが対応付けられている複数のテキスト１１１を作成する。例えば、１つのクラスタに２つのテキスト（例えば、テキスト１，２）が含まれている場合、クラス付加処理部１８０は、当該２つのテキストに同じクラス（例えば、クラス１）を付加する。これにより、例えば、図５のように、複数のテキスト１１１のそれぞれにクラスが付加される。

　次に、情報処理装置１００が実行する処理を、フローチャートを用いて説明する。
　図１４は、実施の形態２の情報処理装置が実行する処理の例を示すフローチャートである。図１４の処理は、ステップＳ１１ａ～１１ｆが実行される点が図１０の処理と異なる。そのため、図１４では、ステップＳ１１ａ～１１ｆを説明する。そして、ステップＳ１１ａ～１１ｆ以外の処理の説明は、省略する。

　（ステップＳ１１ａ）取得部１２０は、クラスが対応付けられていない複数のテキスト１１１を取得する。
　（ステップＳ１１ｂ）クラス付加処理部１８０は、複数のテキスト１１１の中から１つのテキストを選択する。

　（ステップＳ１１ｃ）クラス付加処理部１８０は、選択されたテキストに対して形態素解析を行う。クラス付加処理部１８０は、形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成する。クラス付加処理部１８０は、複数の単語ベクトルに基づいて平均ベクトルを算出する。

　（ステップＳ１１ｄ）クラス付加処理部１８０は、全てのテキストを選択したか否かを判定する。全てのテキストが選択された場合、処理は、ステップＳ１１ｄに進む。選択されていないテキストが存在する場合、処理は、ステップＳ１１ａに進む。
　（ステップＳ１１ｅ）クラス付加処理部１８０は、テキストごとに算出された平均ベクトルを用いて、複数のテキスト１１１に対してクラスタリングを行う。
　（ステップＳ１１ｆ）クラス付加処理部１８０は、クラスタごとに、クラスタに含まれているテキストにクラスを付加する。

　ここで、複数回のステップＳ１１ｃが実行されるため、複数回の形態素解析が行われる。複数回の形態素解析は、ステップＳ１２で行われる処理と同じである。そのため、ステップＳ１２は、実行されなくてもよい。また、複数回のステップＳ１１ｃが実行されるため、複数回の単語ベクトルの作成処理が実行される。複数回の単語ベクトルの作成処理は、ステップＳ１３で行われる処理と同じである。そのため、ステップＳ１３は、実行されなくてもよい。

　実施の形態２によれば、情報処理装置１００は、自動的にテキストにクラスを付加する。そのため、ユーザがテキストにクラスを付加する作業を行わなくて済む。よって、情報処理装置１００は、ユーザの負担を軽減できる。

　以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。

　１００　情報処理装置、　１０１　プロセッサ、　１０２　揮発性記憶装置、　１０３　不揮発性記憶装置、　１１０　記憶部、　１１１　複数のテキスト、　１２０　取得部、　１３０　形態素解析部、　１４０　単語ベクトル作成部、　１５０　算出部、　１６０　特定部、　１７０　作成処理部、　１８０　クラス付加処理部。

Claims

　複数のテキストを取得する取得部と、
　識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行う形態素解析部と、
　前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部と、
　前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部と、
　を有する情報処理装置。
　前記クラスは、複数の種類のクラスであり、
　前記算出部は、前記クラスごとに、前記総和を算出し、前記クラスごとに算出された前記総和を用いて、前記複数の単語のそれぞれの前記寄与度を算出する、
　請求項１に記載の情報処理装置。
　前記複数の単語のそれぞれの前記寄与度に基づいて、予め設定された閾値以上の前記寄与度に対応する単語を特定する特定部と、
　特定された単語と、特定された単語を含むテキストの中で、特定された単語と共起する単語である共起単語とに基づいて、クラスタを作成し、作成されたクラスタに基づいて、特定された単語の語義を示す前記語義情報を作成する作成処理部と、
　をさらに有する、
　請求項１又は２に記載の情報処理装置。
　前記作成処理部は、特定された単語ごとに、特定された単語と前記共起単語との関係を示す部分グラフを作成し、作成された複数の部分グラフに対してクラスタリングを行い、クラスタリングにより形成されたクラスタに基づいて、前記語義情報を作成する、
　請求項３に記載の情報処理装置。
　クラス付加処理部をさらに有し、
　前記取得部は、前記クラスが対応付けられていない複数のテキストを取得し、
　前記クラス付加処理部は、テキストごとに、テキストに対して形態素解析を行い、前記形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成し、作成された複数の単語ベクトルに基づいて平均ベクトルを算出し、テキストごとに算出された平均ベクトルを用いて、前記クラスが対応付けられていない複数のテキストに対してクラスタリングを行い、形成されたクラスタごとに、クラスタに含まれているテキストに前記クラスを付加することにより、前記複数のテキストを作成する、
　請求項１から４のいずれか１項に記載の情報処理装置。
　情報処理装置が、
　複数のテキストを取得し、
　識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行い、
　前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成し、
　前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、
　算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する、
　処理方法。
　情報処理装置に、
　複数のテキストを取得し、
　識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行い、
　前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成し、
　前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、
　算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する、
　処理を実行させる処理プログラム。