WO2022014328A1

WO2022014328A1 - 情報処理装置及び情報処理方法

Info

Publication number: WO2022014328A1
Application number: PCT/JP2021/024674
Authority: WO
Inventors: 寿理八重田; 由紀子荒川; 早紀横山; 千明宮崎
Original assignee: ソニーグループ株式会社
Priority date: 2020-07-15
Filing date: 2021-06-30
Publication date: 2022-01-20
Also published as: JPWO2022014328A1

Abstract

本開示に係る情報処理装置は、分類対象となる複数のデータの各々からキーワードを抽出するキーワード抽出部と、前記複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、前記複数のデータを分類する分類部と、を備える。

Description

情報処理装置及び情報処理方法

　本開示は、情報処理装置及び情報処理方法に関する。

　文書（文章）等のデータ群を分類する技術が提供されている。例えば、文章から抽出したキーワードを用いて文章をクラスタリング（分類）する技術が提供されている（例えば、特許文献１）。

特開２０１５－０６０５８１号公報

　従来技術によれば、文章から予め定義された品詞情報に基づいて一般用語を抽出したり、文章から、複合語の出現頻度に基づいて一般用語とは異なる複合語をユーザ用語として抽出したりする。

　しかしながら、従来技術は、データを適切に分類することができるとは限らない。例えば、従来技術は、分類対象となる文章から抽出されたキーワードを用いて文章を分類している。そのため、従来技術は、文字列として比較した場合は異なるが、概念的には同義のキーワード等が抽出された場合、それらの文章を同じ分類にすることができない。このように、分類対象となるデータから抽出されたキーワードのみを用いるだけでは、データを適切に分類することが難しい場合がある。そのため、データを適切に分類することが望まれている。

　そこで、本開示では、データを適切に分類することができる情報処理装置及び情報処理方法を提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、分類対象となる複数のデータの各々からキーワードを抽出するキーワード抽出部と、前記複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、前記複数のデータを分類する分類部と、を備える。

本開示の実施形態に係るキーワード抽出処理の一例を示す図である。本開示の実施形態に係るデータの分類処理の概要を示す図である。分類処理実行に関する手順を示すフローチャートである。データの分類の一例を示す図である。データの分類結果の一例を示す図である。本開示の実施形態に係るキーワードの正規化処理の一例を示す図である。関連ワードを用いたデータの分類の一例を示す図である。関連ワードを用いたデータの分類結果の一例を示す図である。関連ワードを用いる場合のポイントの一例を示す図である。本開示の実施形態に係る情報処理装置の構成例を示す図である。本開示の実施形態に係る分類対象データ記憶部の一例を示す図である。本開示の実施形態に係る情報処理の手順を示すフローチャートである。文章以外のデータからのキーワード抽出の一例を示す図である。分類の更新の一例を示す図である。分類の更新結果の一例を示す図である。本開示の変形例に係る情報処理システムの構成例を示す図である。ユーザに応じた分類の一例を示す図である。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本願にかかる情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．本開示の実施形態に係る情報処理の概要
　　　　１－１－１．キーワード抽出
　　　　１－１－２．データ分類
　　　　１－１－３．分類処理例
　　　　１－１－４．関連ワードを用いた処理例
　　　　１－１－５．背景及び効果等
　　　１－２．実施形態に係る情報処理装置の構成
　　　１－３．実施形態に係る情報処理の手順
　　　１－４．文章以外のキーワード抽出例
　　　１－５．分類の更新例
　　　１－６．分類条件
　　２．その他の実施形態
　　　２－１．変形例
　　　　２－１－１．ユーザに応じた分類
　　　２－２．その他の構成例
　　　２－３．その他
　　３．本開示に係る効果
　　４．ハードウェア構成

［１．実施形態］
［１－１．本開示の実施形態に係る情報処理の概要］
　本開示の実施形態に係る情報処理は、情報処理装置１００（図１０）によって実現される。情報処理装置１００は、分類対象となる複数のデータの各々からキーワード（以下「抽出キーワード」ともいう）を抽出し、複数のデータの各々の抽出キーワードに関連するキーワード（以下「関連ワード」ともいう）を用いて、複数のデータを分類するコンピュータである。ここでいうキーワードは、データの意味（内容）を示す文字列である。また、関連ワードは、抽出キーワードの上位語、抽出キーワードを別の表現に言い換えたキーワード（以下「パラフレーズ」ともいう）、または抽出キーワードから連想されるキーワード（以下「連想ワード」ともいう）等であるが具体例については後述する。

　まず、以下では情報処理装置１００により実行される各種の処理について説明し、情報処理装置１００の構成の詳細は後述する。なお、以下では、データの一例として、文章データ（以下「文章」、「文書」ともいう）を主に説明するが、分類対象となる複数のデータには、画像データ（以下「画像」ともいう）が含まれてもよい。また、分類対象となる複数のデータには、動画データ（以下「動画」ともいう）、音声データ（以下「音声」ともいう）、波形データ（以下「波形」ともいう）等の時系列データが含まれてもよい。すなわち、分類対象となる複数のデータには、抽出キーワードの抽出が可能であれば、どのような種別のデータが含まれてもよい。

［１－１－１．キーワード抽出］
　まず、図１を用いてデータからのキーワード抽出について説明する。図１は、本開示の実施形態に係るキーワード抽出処理の一例を示す図である。図１のキーワード抽出の処理は、情報処理装置１００のキーワード抽出部１５２（図１０参照）により実行される。具体的には、図１は、分離対象となるデータ群のうち、１個のデータＤＴ１である文章Ｘから抽出キーワードを抽出する場合を一例として示す。

　情報処理装置１００は、テキストマイニングの技術を用いて文章Ｘから抽出キーワードを抽出する（ステップＳ１）。情報処理装置１００は、形態素解析やワードカウント、共起ネットワーク等により文章Ｘから抽出キーワードを抽出する。図１では、情報処理装置１００は、キーワード情報ＫＸに示すように、文章Ｘから「犬」、「ペット」、「チワワ」、「小屋」、「かわいい」といった文字列を抽出キーワードとして抽出する。情報処理装置１００は、各抽出キーワードの品詞を特定し、特定した品詞の情報を各抽出キーワードに対応付けてもよい。例えば、文章Ｘから抽出される抽出キーワードは文章Ｘ内で重要な意味を持つ単語である。

　情報処理装置１００は、文章Ｘの各抽出キーワードに対して、文章Ｘとの関連度合いに応じてポイントを算出し、算出したポイントを各抽出キーワードに付与する。例えば、情報処理装置１００は、文章（文書）中の単語の重要度を評価する手法であるＴＦ－ＩＤＦの手法を用いて、各抽出キーワードのポイントを算出する。また、情報処理装置１００は、抽出キーワードに付与されたポイントの合計が１になるように補正（正規化）する。図１の例では、情報処理装置１００は、文章Ｘの各抽出キーワードについて、「犬」のポイントを「０．６」、「ペット」のポイントを「０．２」、「チワワ」のポイントを「０．１」、「小屋」のポイントを「０．０６」、「かわいい」のポイントを「０．０４」に正規化する。このように、文章Ｘの抽出キーワードのうち、「犬」のポイントが最大であるため、文章Ｘは主に「犬」に関連する文章である可能性が高いことを示す。

　なお、情報処理装置１００は、ＴＦ－ＩＤＦに限らず、ポイントを算出可能であればどのような手法により各抽出キーワードのポイントを算出してもよい。例えば、情報処理装置１００は、頻度をポイントとして用いてもよい。この場合、情報処理装置１００は、頻度が大きい抽出キーワード程、ポイントが大きくなるようにポイントを算出してもよい。また、情報処理装置１００は、文章以外のデータを対象としてポイントを算出する場合、データの種別に応じてポイントを算出する。例えば、情報処理装置１００は、データが画像である場合、画像に含まれる対象物を示す抽出キーワードについては、その画像にその対象物が占める割合をポイントとして算出してもよい。また、例えば、情報処理装置１００は、データが動画である場合、動画に含まれる対象物を示す抽出キーワードについては、その動画中で対象物が写っている時間をポイントとして算出してもよい。なお、文章以外のデータについての詳細は後述する。

　また、各データから抽出されるキーワードの最大数（抽出最大数）に制限を持たせてもよい。例えば、抽出最大数が「４」に指定されている場合、情報処理装置１００は、４個を上限として、各データから抽出キーワードを抽出する。この場合、情報処理装置１００は、データから抽出キーワードを抽出し、各抽出キーワードのポイントを算出した後、抽出キーワードのうち、ポイントが大きい４個の抽出キーワード以外を除外してもよい。

［１－１－２．データ分類］
　次に、図２を用いて抽出キーワードに基づくデータ分類の概要について説明する。図２は、本開示の実施形態に係るデータの分類処理の概要を示す図である。図２の分類処理は、情報処理装置１００の分類部１５４（図１０参照）により実行される。

　図２の例では、文章Ａ、文章Ｂ、文章Ｃ、及び文章Ｄ等の複数のデータを分類する場合の処理概要を示す。キーワード情報ＫＡは、情報処理装置１００が文章Ａから抽出した抽出キーワードを示す。キーワード情報ＫＢ、ＫＣ、ＫＤは、情報処理装置１００が文章Ｂ、文章Ｃ、及び文章Ｄの各々から抽出した抽出キーワードを示す。

　情報処理装置１００は、キーワード情報ＫＡ、ＫＢ、ＫＣ、ＫＤ等を用いて、文章Ａ、文章Ｂ、文章Ｃ、及び文章Ｄ等の複数のデータを分類する（ステップＳ２）。図２の例では、情報処理装置１００は、文章Ａ、文章Ｂ、文章Ｃ、及び文章Ｄ等の複数のデータを抽出キーワードの共通性に基づいて、分類結果ＲＳ１に示すように、複数の分類（以下「グループ」ともいう）に分類する。情報処理装置１００は、文章Ａ、文章Ｂ等を「分類＃１」として示すグループに分類し、文章Ｃ、文章Ｄ等を「分類＃２」として示すグループに分類する。

　情報処理装置１００は、抽出した抽出キーワードをもとに、データ群を適切な粒度で分類する。例えば、情報処理装置１００は、既存の分類結果がある場合、既存の分類結果を用いて、新たな分類対象を分類してもよい。この場合の処理について、図３を用いて説明する。図３は、分類処理実行に関する手順を示すフローチャートである。例えば、図２に示す分類結果ＲＳ１がある場合に、新たなデータＤＸが分類対象とされた場合を一例として説明する。

　まず、情報処理装置１００は、新たなデータが既存の分類に当てはまるかを判定する（ステップＳ１１）。例えば、情報処理装置１００は、データＤＸが既存の分類「分類＃１」、「分類＃２」のいずれかに当てはまるかを判定する。

　情報処理装置１００は、新たなデータが既存の分類に当てはまる場合（ステップＳ１１：Ｙｅｓ）、粒度が適切かを判定する（ステップＳ１２）。例えば、情報処理装置１００は、データＤＸが追加されたグループのデータ数が１個のグループに属するデータ数の上限値（「最大項目数」ともいう）を超える場合、粒度が適切ではないと判定する。

　情報処理装置１００は、粒度が適切である場合（ステップＳ１２：Ｙｅｓ）、新たなデータを該当する分類に追加して、処理を終了する。例えば、情報処理装置１００は、データＤＸが追加された「分類＃１」のデータ数が最大項目数を以下である場合、データＤＸを該当する「分類＃１」に追加して処理を終了する。

　情報処理装置１００は、新たなデータが既存の分類に当てはまる場合（ステップＳ１１：Ｎｏ）、分類処理を実行する（ステップＳ１３）。例えば、情報処理装置１００は、新たなデータを加えたデータ群全体を対象として再度分類処理を行う。また、情報処理装置１００は、粒度が適切ではない場合（ステップＳ１２：Ｎｏ）、分類処理を実行する（ステップＳ１３）。

　なお、上記の処理は一例であり、情報処理装置１００は、種々の情報を適宜用いて、新たなデータが既存の分類に当てはまるかを判定したり、粒度が適切かを判定したりする。この点について以下例を説明する。

［１－１－３．分類処理例］
　ここから、図４及び図５を用いて分類処理の一例を説明する。図４は、データの分類の一例を示す図である。また、図５は、データの分類結果の一例を示す図である。

　ここで、分類の粒度は、データ群の検索性に大きく影響する。例えば、情報処理装置１００を利用するユーザは、最大項目数または分類閾値を指定することにより、分類の粒度を設定する。上述したように、最大項目数とは１個の分類（グループ）内に含まれる項目（データ）の最大数である。１個の分類（グループ）内の項目（データ）数がこの値を超えると分類処理を実行する。また、分類閾値とは、例えば、ある共通キーワードで分類した分類のようなグループのスコア（ポイント）が閾値を超えているかで分類するか否かを判断するための基準に用いる。

　以下では、最大項目数と分類閾値を使用した場合の具体的な分類手順に関して説明する。具体的には、最大項目数を「４」、分類閾値を「０．１」とする。分類閾値は、共通キーワードで分類されたグループ内の各データの共通キーワードのポイントの平均値（以下「グループのポイント」ともいう）との比較に用いる。

　ここから、図４を用いて具体的に説明する。図４中のキーワード情報ＫＡ、ＫＢ、ＫＣ、ＫＤに示すように、文章Ａ、文章Ｂ、文章Ｃ、文章Ｄの４個のデータは、情報処理装置１００により抽出キーワードが抽出され、抽出キーワードのポイントが算出されている。この場合、データ群は、文章Ａ、文章Ｂ、文章Ｃ、文章Ｄの４個であり、最大項目数「４」以下であり、情報処理装置１００は、分類を不要と判定する。

　なお、図４の場合、文章Ａ、文章Ｂ、文章Ｃ、文章Ｄの各データのキーワードに付与されたポイントの合計が１になるように正規化されている。情報処理装置１００は、文章Ａの各抽出キーワードについて、「テニス」のポイントを「０．４」、「スポーツ」のポイントを「０．３」、「プロ」のポイントを「０．１５」、「コート」のポイントを「０．１２」、「選手」のポイントを「０．０３」に正規化する。情報処理装置１００は、文章Ｂ、文章Ｃ、文章Ｄの各抽出キーワードのポイントについても同様に正規化する。

　ここで、文章Ｅが新たに追加される。文章Ｅは、キーワード情報ＫＥに示すように、情報処理装置１００により抽出キーワードが抽出され、抽出キーワードのポイントが算出される。情報処理装置１００は、文章Ｅの各抽出キーワードについて、「ハムスター」のポイントを「０．５」、「ペット」のポイントを「０．４」、「出産」のポイントを「０．０４」、「回し車」のポイントを「０．０３」、「しつけ」のポイントを「０．０３」に正規化する。

　この場合、データ群は、文章Ａ、文章Ｂ、文章Ｃ、文章Ｄ、文章Ｅの５個となり、最大項目数「４」を超えるため、情報処理装置１００は、粒度が不適切と判定し、分類処理を実行する（ステップＳ２１）。

　情報処理装置１００は、抽出キーワードと付与されたポイントを使用して、分類処理を実行する。情報処理装置１００は、各データの抽出キーワードを比較して、抽出キーワードが共通するデータを特定する。例えば、情報処理装置１００は、各データの関連度合いから文章Ａと文章Ｂがキーワード「スポーツ」で共通すると特定する。そして、情報処理装置１００は、文章Ａの抽出キーワード「スポーツ」のポイント「０．３」と文章Ｂの抽出キーワード「スポーツ」のポイント「０．２」との合計（「合計ポイント」ともいう）は「０．５」と算出する。そして、情報処理装置１００は、文章Ａと文章Ｂを１個のグループ「スポーツ」として括った（分類した）場合、文章Ａの抽出キーワード「スポーツ」及び文章Ｂの抽出キーワード「スポーツ」の平均値（平均ポイント）である、グループ「スポーツ」のポイントは「０．２５（＝０．５／２）」であると算出する。グループ「スポーツ」のポイントは「０．２５」は、分類基準である分類閾値「０．１」を超えるため、情報処理装置１００は、グループ「スポーツ」の分類が有効であると判定する。

　また、情報処理装置１００は、文章Ｃ、文章Ｄ、文章Ｅは「ペット」もしくは「しつけ」という共通の抽出キーワードが存在する。情報処理装置１００は、文章Ｃ、文章Ｄ、文章Ｅを「ペット」で括った場合の合計ポイントは「０．９（＝０．２＋０．３＋０．４）」になると算出する。また、情報処理装置１００は、文章Ｃ、文章Ｄ、文章Ｅを「しつけ」で括った場合の合計ポイントは「０．１２（＝０．０６＋０．０３＋０．０３）」と算出する。そのため、情報処理装置１００は、合計ポイントが大きい「ペット」がより文章Ａ、文章Ｂ、文章Ｅのまとまりを示すキーワードとしてはふさわしいと判定する。

　また、情報処理装置１００は、文章Ｃ、文章Ｄ、文章Ｅを「ペット」として括った場合の平均ポイントは「０．３（＝０．９／３）」となるため、グループ「ペット」の分類が有効であると判定する。なお、情報処理装置１００は、１個のグループに該当するデータに共通するキーワードが複数存在する場合、より類似した文章（文書）であるとみなしこれらを加算して計算してもよい。図４の例では、情報処理装置１００は、文章Ｃ、文章Ｄ、文章Ｅの平均ポイント「０．３」に、文章Ｃ、文章Ｄ、文章Ｅの「しつけ」のポイントの平均ポイント「０．０４（＝０．１２／３）」を加算したポイント「０．３４（＝０．３＋０．０４）」をグループ「ペット」のポイントとする。

　以上のように、文章Ｅが追加された場合、情報処理装置１００は、分類結果ＲＳ２に示すように、文章Ａ、文章Ｂをグループ「スポーツ」に分類し、文章Ｃ、文章Ｄ、文章Ｅをグループ「ペット」に分類する。

　文章Ｅが追加された場合の分類結果の詳細を図５に示す。図５の分類結果ＲＳ２に示すように、文章Ａ、文章Ｂは、分類ワード「スポーツ」に対応するグループＧ１に分類され、文章Ｃ、文章Ｄ、文章Ｅは、分類ワード「ペット」に対応するグループＧ２に分類される。この場合、情報処理装置１００は、文章Ａ、文章Ｂを含む分類ワード「スポーツ」と文章Ｃ、文章Ｄ、文章Ｅを含む分類ワード「ペット」のブックマークの分類項目を設定してもよい。

［１－１－４．関連ワードを用いた処理例］
　ここから、関連ワードを用いた分類処理について説明する。なお、上述した図１～図５と同様の点については適宜説明を省略する。

　まず、図６を用いて、関連ワードの特定を含むキーワードの正規化処理について説明する。図６は、本開示の実施形態に係るキーワードの正規化処理の一例を示す図である。図６のキーワードを正規化する処理は、情報処理装置１００のキーワード正規化部１５３（図１０参照）により実行される。

　情報処理装置１００は、抽出した抽出キーワードを用いて、より分類にふさわしいキーワードへの変更、抽出キーワードの除外、またはキーワードの追加を行う。

　まず、抽出キーワードの除外（削除）について説明する。例えば、料理に関する文章Ｚから抽出キーワードを抽出した場合、「おいしい」、「作る」といったキーワードが抽出される場合がある。情報処理装置１００は、このような個人の概念や行動に基づく単語（以下「除外対象ワード」ともいう）を抽出キーワードから除外（削除）する。そして、情報処理装置１００は、除外対象ワードを除外後の抽出キーワードを対象として、再度ポイントの正規化を行う。例えば、情報処理装置１００は、形容詞や動詞といった特定の品詞に該当するキーワードを除外対象ワードとして選定してもよい。例えば、情報処理装置１００は、除外する品詞を示す除外キーワード情報を用いて、該当する抽出キーワードを除外してもよい。なお、上記は一例であり、情報処理装置１００は、どのような手法によりキーワードを除外してもよい。例えば、情報処理装置１００は、「て」、「に」、「を」、「は」等の除外するキーワードの一覧情報を用いて、一覧情報中の文字列に一致する抽出キーワードを除外してもよい。

　次に、抽出キーワードの関連ワードの特定について説明する。情報処理装置１００は、抽出キーワードの関連ワードを特定し、抽出キーワードに関連ワードを関連付ける。上述したように、関連ワードとは、キーワードの上位概念（上位語）や言い換え表現（パラフレーズ）や連想ワード等が含まれる。例えば、「チワワ」の上位概念に「犬」があり、その上位概念に「動物」がある。つまり、「犬」及び「動物」が「チワワ」の関連ワードとなり得る。また、言い換え表現としては、「飼い犬」の言い換え表現が「ペット」にあたる。つまり、「ペット」が「飼い犬」の関連ワードとなり得る。

　例えば、情報処理装置１００は、言語の概念的な関係を示す概念辞書を用いて各キーワードの関連ワードを特定する。例えば、概念辞書としては、下記の文献に開示されるWordNet等の各種の概念辞書が用いられる。情報処理装置１００は、WordNetを用いて、各キーワードの関連ワードを特定する。
　・日本語　WordNet　<http://compling.hss.ntu.edu.sg/wnja/>

　図６では、分離対象となるデータ群のうち、１個のデータＤＴ１である文章Ｘから抽出キーワードを抽出する場合を一例として示す。情報処理装置１００は、文章Ｘから抽出キーワードを抽出する（ステップＳ３１）。図６では、情報処理装置１００は、キーワード情報ＫＸに示すように、文章Ｘから「犬」、「ペット」、「チワワ」、「小屋」、「かわいい」といった文字列を抽出キーワードとして抽出する。

　そして、情報処理装置１００は、文章Ｘから抽出した抽出キーワードの正規化を行う（ステップＳ３２）。情報処理装置１００は、正規化後キーワード情報ＲＫＸに示すように、除外する品詞「形容詞」に該当する「かわいい」を抽出キーワードから除外する。そして、情報処理装置１００は、「かわいい」を除外後の各抽出キーワードに付与されたポイントの合計が１になるように補正（正規化）する。図６の例では、情報処理装置１００は、文章Ｘの各抽出キーワードについて、「犬」のポイントを「０．６１」、「ペット」のポイントを「０．２１」、「チワワ」のポイントを「０．１１」、「小屋」のポイントを「０．０７」に正規化する。

　また、情報処理装置１００は、各抽出キーワードの関連ワードを特定する。情報処理装置１００は、WordNet等の概念辞書を用いて、「犬」、「チワワ」、「小屋」の各々について関連ワードを特定する。図６では、情報処理装置１００は、正規化後キーワード情報ＲＫＸに示すように、「ペット」及び「動物」を「犬」の関連ワードとして特定し、「動物」を「ペット」の関連ワードとして特定する。情報処理装置１００は、「犬」、「ペット」及び「動物」を「チワワ」の関連ワードとして特定し、「建造物」を「小屋」の関連ワードとして特定する。

　なお、上記は一例であり、情報処理装置１００は、各キーワードの関連ワードが特定可能であれば、どのような情報を用いてもよい。例えば、情報処理装置１００は、記憶部１２０（図１０参照）に各キーワードと、そのキーワードの関連ワードとを対応付けた関連ワードリストを記憶し、関連ワードリストをもちいて、各キーワードの関連ワードを特定してもよい。

　また、例えば、情報処理装置１００は、電話帳のような個人情報や家族情報といったユーザの個人情報を保持している場合、ユーザの個人情報を用いて、キーワードの関連ワードを特定してもよい。例えば、情報処理装置１００は、ユーザＵ１の母親が「ユウコ」である等の家族関係を示すユーザＵ１の個人情報を有する場合、ユーザＵ１の場合、キーワード「ユウコ」の関連ワードとして置き換え表現であるキーワード「母」を特定してもよい。また、情報処理装置１００は、ユーザＵ１の場合、キーワード「ユウコ」の関連ワードとして、「母」の上位概念である上位語の「家族」を特定してもよい。

　情報処理装置１００は、特定した関連ワードを抽出キーワードに付与することで、抽出キーワードに特定した関連ワードを対応付けて記憶する。このように、情報処理装置１００は、特定した関連ワードを用いることで、より概念的な分類が可能となる。

　ここから、図７及び図８を用いて、関連ワードを利用した分類処理の一例を説明する。図７は、関連ワードを用いたデータの分類の一例を示す図である。図８は、関連ワードを用いたデータの分類結果の一例を示す図である。

　図７中の正規化後キーワード情報ＲＫＡ、ＲＫＢ、ＲＫＣ、ＲＫＤに示すように、文章Ａ、文章Ｂ、文章Ｃ、文章Ｄの４個のデータは、情報処理装置１００により各抽出キーワードについて関連ワードが特定されている。この場合、データ群は、文章Ａ、文章Ｂ、文章Ｃ、文章Ｄの４個であり、最大項目数「４」以下であり、情報処理装置１００は、分類を不要と判定する。

　ここで、文章Ｆが新たに追加される。文章Ｆは、正規化後キーワード情報ＲＫＥに示すように、情報処理装置１００により抽出キーワードが抽出され、抽出キーワードのポイントが算出され、抽出キーワードについて関連ワードが特定される。情報処理装置１００は、文章Ｆの各抽出キーワードについて、「象」のポイントを「０．６」、「動物園」のポイントを「０．３」、「食事」のポイントを「０．０５」、「費用」のポイントを「０．０３」、「上野」のポイントを「０．０２」に正規化する。また、情報処理装置１００は、「動物」を「象」の関連ワードとして特定し、「ごはん」及び「エサ」を「食事」の関連ワードとして特定し、「東京」、「日本」を「上野」の関連ワードとして特定する。

　情報処理装置１００は、文章Ａ、文章Ｂ、文章Ｃ、文章Ｄ、文章Ｆのデータ群を対象として、分類処理を実行する（ステップＳ４１）。情報処理装置１００は、関連ワードを用いて、分類処理を実行する。情報処理装置１００は、各データの抽出キーワード及び関連ワードを比較して、抽出キーワードまたは関連ワードが共通するデータを特定する。

　ここで、抽出キーワードのみでは、文章Ａ、文章Ｂ、文章Ｃ、文章Ｄのうち、文章Ｆとキーワードが共通するデータが存在しない。一方で、関連ワードを比較すると文章Ｃ、文章Ｄ、及び文章Ｆに「動物」という共通のキーワードが存在する。そのため、情報処理装置１００は、文章Ｃ、文章Ｄ、及び文章Ｆが抽出キーワード「動物」で共通すると特定する。

　そして、図６の例では、情報処理装置１００は、「動物」という関連ワードが対応付けられた抽出キーワードのうち、ポイントが最大の抽出キーワードのポイントを用いて、平均ポイントを算出する。情報処理装置１００は、文章Ｃの「犬」のポイント「０．６」、文章Ｄの「猫」のポイント「０．５」、文章Ｆの「象」のポイント「０．６」を合計して、文章Ｃ、文章Ｄ、文章Ｆを「動物」で括った場合の合計ポイントは「１．７（＝０．６＋０．５＋０．６）」になると算出する。

　なお、上記の算出は一例であり、関連ワードを用いる場合のポイントについては、抽出キーワードのポイントから所定の関数を用いて算出したポイント（以下「関連ワード用ポイント」ともいう）を用いてもよい。例えば、関連ワードが言い換え表現である場合、抽出キーワードの１倍（すなわちそのまま利用）、関連ワードが上位概念（上位語）である場合、抽出キーワードの０．８倍、その上位概念はさらに０．８倍と、概念関係が遠い程ポイントを低くしてもよい。なお、この点の詳細は後述する。

　情報処理装置１００は、文章Ｃ、文章Ｄ、文章Ｅを「動物」として括った場合の平均ポイントは「０．５７（＝１．７／３）」となるため、分類閾値「０．１」を超えており、グループ「動物」の分類が有効であると判定する。

　また、情報処理装置１００は、文章Ａと文章Ｂが関連ワード「スポーツ」が共通すると特定する。そして、図６の例では、情報処理装置１００は、「スポーツ」という関連ワードが対応付けられた抽出キーワードのうち、ポイントが最大の抽出キーワードのポイントを用いて、平均ポイントを算出する。情報処理装置１００は、文章Ａの抽出キーワード「テニス」のポイント「０．４」と文章Ｂの抽出キーワード「水泳」のポイント「０．５」を合計して、文章Ａ、文章Ｂを「スポーツ」で括った場合の合計ポイントは「０．９（＝０．４＋０．５）」になると算出する。情報処理装置１００は、文章Ａ、文章Ｂを「スポーツ」として括った場合の平均ポイントは「０．４５（＝０．９／２）」となるため、分類閾値「０．１」を超えており、グループ「スポーツ」の分類が有効であると判定する。

　以上のように、文章Ｆが追加された場合、情報処理装置１００は、分類結果ＲＳ１１に示すように、文章Ａ、文章Ｂをグループ「スポーツ」に分類し、文章Ｃ、文章Ｄ、文章Ｆをグループ「動物」に分類する。

　文章Ｆが追加された場合の分類結果の詳細を図８に示す。図８の分類結果ＲＳ１１に示すように、文章Ａ、文章Ｂは、分類ワード「スポーツ」に対応するグループＧ１１に分類され、文章Ｃ、文章Ｄ、文章Ｆは、分類ワード「動物」に対応するグループＧ１２に分類される。この場合、情報処理装置１００は、文章Ａ、文章Ｂを含む分類ワード「スポーツ」と文章Ｃ、文章Ｄ、文章Ｆを含む分類ワード「動物」のブックマークの分類項目を設定してもよい。

　上述のように、情報処理装置１００は、各データから抽出された抽出キーワードの関連ワードを用いて、データを分類する。これにより、情報処理装置１００は、文章Ｃ、文章Ｄ、文章Ｆのように、抽出キーワードのみを用いた場合では、１つのグループに分類できないデータを適切に１つのグループに分類できる。したがって、情報処理装置１００は、データを適切に分類することができる。

　なお、文章Ａ、文章Ｂの抽出キーワードには「スポーツ」が含まれるため、それらのポイントも加味してグループのポイントを算出してもよい。例えば、情報処理装置１００は、文章Ａのキーワード「スポーツ」のポイント「０．７（＝０．４＋０．３）」と文章Ｂのキーワード「スポーツ」のポイント「０．７（＝０．５＋０．２）」とを用いて、グループ「スポーツ」のポイントを算出してもよい。この場合、情報処理装置１００は、文章Ａのキーワード「スポーツ」のポイント「０．７」と文章Ｂのキーワード「スポーツ」のポイント「０．７」を合計した合計ポイント「１．４（＝０．７＋０．７）」を用いて、グループ「スポーツ」のポイントを「０．７（＝１．４／２）」と算出してもよい。

　情報処理装置１００は、抽出キーワードと関連ワードとが共通するデータを１つのグループに分類してもよい。例えば、情報処理装置１００は、抽出キーワードにのみ「旅行」があるデータと、関連ワードにのみ「旅行」があるデータとを１つのグループ「旅行」に分類してもよい。このように、情報処理装置１００は、抽出キーワードと関連ワードとの全体のキーワードの共通性に基づいて、分類処理を行ってもよい。

　ここで、図９を用いて、上述した関連ワード用ポイントの一例について説明する。図９は、関連ワードを用いる場合のポイントの一例を示す図である。具体的には、図９は、図８の分類結果ＲＳ１１のうち、分類ワード「スポーツ」に対応するグループＧ１１に関連ワードポイントを適用した場合の一例を示す。

　図９の例では、情報処理装置１００は、文章Ａについて、関連ワード「スポーツ」が抽出キーワード「テニス」の上位語であるため、抽出キーワード「テニス」のポイント「０．４」に係数「０．８」を乗算して、関連ワードポイントを算出する。具体的には、情報処理装置１００は、正規化後キーワード情報ＲＫＡ２に示すように、文章Ａについて、関連ワード「スポーツ」の関連ワードポイントを「０．３２（＝０．４＊０．８）」と算出する。また、情報処理装置１００は、正規化後キーワード情報ＲＫＢ２に示すように、文章Ｂについて、関連ワード「スポーツ」の関連ワードポイントを「０．４（＝０．５＊０．８）」と算出する。この場合、情報処理装置１００は、文章Ａ、文章Ｂを「スポーツ」として括った場合の平均ポイントは「０．３６（＝（０．３２＋０．４）／２）」になると算出する。

[１－１－５．背景及び効果等]
　例えば、電子メール、ブックマーク、画像、動画等の時系列データといった各種のデータ群は一見しただけで内容の判断が困難であり、データ群に含まれる量が増えるほど検索性が悪くなる。そこでデータ群の各データの内容を解析し、半自動でフォルダ分けやタグ付与などの分類を行う事が望まれている。

　例えば、予めメールフォルダに関連キーワードを設定しておくことで、新規の電子メールをどのメールフォルダに振り分けるべきかの候補を提示してくれる技術がある。しかしながら、まず人手によるキーワードを付与する必要があり、メールフォルダが複数になるほど、共通要素のあるデータを正しく分類するようルールを定めるのは困難になる。加えて、１個のメールフォルダ内に電子メールが増え、検索性が悪化した場合、より検索性の高い振り分け方法を再度設定する必要がある。

　また書類を撮影するなどして電子画像データとして管理するケースが増えている。しかしながら、近年の画像分類では文書としての分類にとどまることが多い。そこで画像内の文書を解析し、内容を分類する方法が必要である。

　一方で、情報処理装置１００は、文章、画像、動画等の時系列データ等の各種のデータについて、データからキーワードを抽出し、抽出した抽出キーワードに関連する関連ワードを用いて、データをグループに分類する。このように、情報処理装置１００は、データの種別に依らずに、多量のデータ群の中から内容にそったデータの仕分けがされることで、目的のデータを見つけやすくすることができる。また、情報処理装置１００は、目的のデータ群を集めるための振り分け設定をユーザ自らが考える必要がなく、ヒューマンエラーの発生も抑制することができる。また、情報処理装置１００は、同一内容の文書の判断にも役立ち、文書の整理も行いやすくすることができる。また、情報処理装置１００は、文字列を写した画像の内容分類も可能である。これにより、情報処理装置１００は、文書群と文字列を写す画像群を同一分類規則に従い一括管理することが可能になる。

［１－２．実施形態に係る情報処理装置の構成］
　次に、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置１００の構成について説明する。図１０は、本開示の実施形態に係る情報処理装置１００の構成例を示す図である。例えば、図１０に示す情報処理装置１００は、情報処理装置の一例である。情報処理装置１００は、後述する情報処理装置としての機能を実現するコンピュータである。

　図１０に示すように、情報処理装置１００は、通信部１１と、入力部１２と、表示部１３と、記憶部１４と、制御部１５とを有する。図１０の例では、情報処理装置１００は、情報処理装置１００の管理者等から各種操作を受け付ける入力部１２（例えば、キーボードやマウス等）や、各種情報を表示するための表示部１３（例えば、液晶ディスプレイ等）を有する。

　通信部１１は、例えば、ＮＩＣ（Network　Interface　Card）や通信回路等によって実現される。通信部１１は、通信網Ｎ（インターネット等のネットワーク）と有線又は無線で接続され、通信網Ｎを介して、他の装置等との間で情報の送受信を行う。

　入力部１２は、情報処理装置１００の管理者等（「操作者」ともいう）から各種操作が入力される。入力部１２は、操作者による入力を受け付ける。入力部１２は、最大項目数や最大分類数等の分類条件等について、操作者による指定を受け付けてもよい。入力部１２は、情報処理装置１００に設けられたキーボードやマウスやタッチパネルを介して操作者からの各種操作を受け付けてもよい。

　表示部１３は、各種情報を表示する。表示部１３は、ディスプレイ等の表示装置（表示部）であり、各種情報を表示する。表示部１３は、抽出キーワードや関連ワード等の各データの情報を表示する。表示部１３は、分類部１５４による分類結果の情報を表示する。

　また、情報処理装置１００は、表示部１３に限らず、情報を出力する機能構成を有してもよい。なお、情報処理装置１００は、情報を音声として出力する機能を有してもよい。例えば、情報処理装置１００は、音声を出力するスピーカー等の音声出力部を有してもよい。

　記憶部１４は、例えば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４は、概念辞書記憶部１４１と、分類対象データ記憶部１４２と、分類条件記憶部１４３とを有する。

　図示を省略するが、概念辞書記憶部１４１には、言語の概念的な関係を示す概念辞書に関する各種情報が格納される。例えば、概念辞書記憶部１４１は、WordNetの情報を記憶する。

　概念辞書記憶部１４１には、言語ごとの概念辞書が記憶されてもよい。この場合、概念辞書記憶部１４１には、日本語用の概念辞書、英語用の概念辞書、ドイツ語用の概念辞書、中国語用の概念辞書等、種々の言語の概念辞書が記憶されてもよい。

　実施形態に係る分類対象データ記憶部１４２は、分類対象となるデータに関する情報を記憶する。例えば、分類対象データ記憶部１４２は、データ、及びそのデータに対応する抽出キーワード、ポイント、関連ワード等の情報を記憶する。図１１は、本開示の実施形態に係る分類対象データ記憶部の一例を示す図である。図１１に、実施形態に係る分類対象データ記憶部１４２の一例を示す。図１１に示した例では、分類対象データ記憶部１４２は、「データ」、「種別」、「抽出キーワード」、「ポイント」、「関連ワード」といった項目が含まれる。

　「データ」は、各データを示す。なお、各データを識別するデータＩＤを各データに対応付けて記憶してもよい。「種別」は、各データの種別を示す。「種別」には、文章、画像、動画、音声、波形、他の時系列データ、その他等、そのデータの種別を示す情報が記憶される。

　「抽出キーワード」は、データから抽出された抽出キーワードを示す。「ポイント」は、抽出キーワードの抽出元のデータとの関連度合いを示すポイント（スコア）を示す。「関連ワード」は、抽出キーワードの関連ワードを示す。図１１に示すように１個の抽出キーワードに対して複数の関連ワードが対応付けられてもよい。

　図１１の例では、種別「文章」のデータである文章Ａは、抽出キーワードとして、「テニス」、「スポーツ」、「プロ」、「コート」、「選手」といったキーワードが抽出されたことを示す。また、抽出キーワード「テニス」は、上位語である「スポーツ」が関連ワードとして対応付けられていることを示す。

　また、種別「動画」のデータである動画ＭＶは、抽出キーワードとして、「犬」、「公園」、「チワワ」、「フリスビー」といったキーワードが抽出されたことを示す。抽出キーワード「犬」は、上位語である「動物」が関連ワードとして対応付けられていることを示す。また、抽出キーワード「チワワ」は、上位語である「犬」及び、さらに上位語の「動物」が関連ワードとして対応付けられていることを示す。抽出キーワード「フリスビー」は、上位語である「おもちゃ」が関連ワードとして対応付けられていることを示す。関連ワードは、上位語に限らず、抽出キーワードのパラフレーズ、または抽出キーワードから連想される連想ワードであってもよい。

　なお、分類対象データ記憶部１４２は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、分類対象データ記憶部１４２は、各データの分類結果を示す情報が記憶されてもよい。分類対象データ記憶部１４２は、各データが該当するグループを示す情報が記憶されてもよい。

　分類条件記憶部１４３は、分類を行う際の条件に関する各種情報を記憶する。例えば、分類条件記憶部１４３は、各グループに属するデータ数の上限値を示す最大項目数の情報を記憶する。また、分類条件記憶部１４３は、各グループのポイントが基準を満たすかの判定に用いる所定値である分類閾値の情報を記憶する。また、分類条件記憶部１４３は、分類するグループの上限値を示す分類数閾値である最大分類数の情報を記憶する。また、分類条件記憶部１４３は、関連ワードを用いてグループ化する際に用いるポイントの算出するための情報（０．８等の係数等）を記憶する。また、例えば、分類条件記憶部１４３は、分類を確定するまでの分類処理の繰り返しの上限値を示す処理回数の情報を記憶する。例えば、分類条件記憶部１４３は、除外するキーワードを示す除外キーワード情報を記憶する。

　図１０に戻り、説明を続ける。制御部１５は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、情報処理装置１００内部に記憶されたプログラム（例えば、本開示に係る情報処理プログラム）がＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１５は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。

　図１０に示すように、制御部１５は、取得部１５１と、キーワード抽出部１５２と、キーワード正規化部１５３と、分類部１５４と、送信部１５５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１５の内部構成は、図１０に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

　取得部１５１は、各種情報を取得する。取得部１５１は、記憶部１４から各種情報を取得する。取得部１５１は、入力部１２により受け付けられた情報を取得する。取得部１５１は、記憶部１４から各種情報を取得する。取得部１５１は、概念辞書記憶部１４１や分類対象データ記憶部１４２や分類条件記憶部１４３から各種情報を取得する。取得部１５１は、外部の情報処理装置から各種情報を受信する受信部として機能する。取得部１５１は、ユーザが利用する端末装置（図１６のユーザ端末１０等）から各種情報を受信する。

　キーワード抽出部１５２は、キーワードを抽出する処理を行う。キーワード抽出部１５２は、データ群を分類するため、データのキーワードを抽出する。キーワード抽出部１５２は、記憶部１４に記憶された情報に基づいて、キーワードを抽出する。キーワード抽出部１５２は、分類対象データ記憶部１４２に記憶されたデータの各々から情報に基づいて、キーワードを抽出する。キーワード抽出部１５２は、データから抽出した抽出キーワードを、抽出元のデータに対応付けて、分類対象データ記憶部１４２に格納する。

　キーワード抽出部１５２は、分類対象となる複数のデータの各々からキーワードを抽出する。キーワード抽出部１５２は、文章データ、画像データ、または時系列データを含む複数のデータの各々からキーワードを抽出する。キーワード抽出部１５２は、動画データ、音声データ、または波形データを含む複数のデータの各々からキーワードを抽出する。キーワード抽出部１５２は、図１や図６に示すキーワードの抽出処理を行う。

　キーワード抽出部１５２は、文章以外のデータから抽出キーワードを抽出するデータ解析部としての機能を有する。キーワード抽出部１５２は、画像解析に関する技術を用いて、画像から抽出キーワードを抽出する。例えば、キーワード抽出部１５２は、画像を解析し、画像に含まれる対象物を認識し、認識した対象物の名称を抽出キーワードとして抽出する。また、キーワード抽出部１５２は、画像を解析し、画像に含まれる対象物が画像中に占める割合（占有率）を推定し、推定した対象物の占有率を基に、その対象物を示す抽出キーワードのポイントを算出する。

　また、キーワード抽出部１５２は、画像または動画中の文字を認識する。キーワード抽出部１５２は、文字認識に関する技術を用いて、文字を写された画像または動画から文字を認識する。キーワード抽出部１５２は、画像が文字列を写した画像である場合、文字列を含む画像から文字認識器等により文字列を抽出し、抽出した文字列から抽出キーワードを抽出してもよい。キーワード抽出部１５２は、文字認識器の機能を有してもよい。画像が文字列を写した画像である場合、キーワード抽出部１５２は、データが文章である場合と同様に、画像から抽出した文字列から抽出キーワードを抽出し、各抽出キーワードのポイントを算出する。

　キーワード抽出部１５２は、時系列データ解析に関する技術を用いて、時系列データから抽出キーワードを抽出する。キーワード抽出部１５２は、動画解析に関する技術を用いて、動画から抽出キーワードを抽出する。例えば、キーワード抽出部１５２は、動画を解析し、動画に含まれる対象物を認識し、認識した対象物の名称を抽出キーワードとして抽出する。また、キーワード抽出部１５２は、動画を解析し、動画に対象物が写っている時間を特定し、特定した時間を基に、その対象物を示す抽出キーワードのポイントを算出する。

　キーワード抽出部１５２は、音声解析に関する技術を用いて、音声から抽出キーワードを抽出する。例えば、キーワード抽出部１５２は、音声を解析し、音声をテキスト（文字情報）に変換する。また、キーワード抽出部１５２は、データが文章である場合と同様に、音声を変換したテキストから抽出キーワードを抽出し、各抽出キーワードのポイントを算出する。

　また、キーワード抽出部１５２は、波形解析に関する技術を用いて、波形から抽出キーワードを抽出してもよい。なお、上記は一例であり、キーワード抽出部１５２は、データから抽出キーワードを抽出し、ポイントを算出できれば、どのような手法により、抽出キーワードの抽出、ポイントの算出を行ってもよい。キーワード抽出部１５２は、データの種別に応じた手法により、データから抽出キーワードを抽出し、その抽出キーワードのポイントを算出する。

　キーワード正規化部１５３は、各データのキーワードを正規化する処理を行う。キーワード正規化部１５３は、データから抽出されたキーワードの正規化を行う。キーワード正規化部１５３は、データの抽出キーワードに関連ワードを付与する。キーワード正規化部１５３は、抽出キーワードの関連ワードを特定し、抽出キーワードの抽出元のデータに対応付けて、分類対象データ記憶部１４２に格納する。キーワード正規化部１５３は、概念辞書記憶部１４１に記憶された概念辞書を用いて抽出キーワードの関連ワードを特定する。

　キーワード正規化部１５３は、除外条件を満たすキーワードを抽出キーワードから除外する。キーワード正規化部１５３は、除外する品詞に該当するキーワードを抽出キーワードから除外する。キーワード正規化部１５３は、分類条件記憶部１４３に記憶されたキーワードの除外条件を満たすキーワードを抽出キーワードから除外する。キーワード正規化部１５３は、図６に示すキーワードの正規化処理を行う。

　分類部１５４は、データを分類する処理を行う。分類部１５４は、分類対象データ記憶部１４２に記憶された複数のデータを分類する。分類部１５４は、新たに分類対象とされたデータが既存の分類に当てはまるかを判断する。また、分類部１５４は、分類結果の分類の粒度が正しいかを判断する。分類部１５４は、図４や図７に示す分類処理を行う。

　分類部１５４は、複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、複数のデータを分類する分類部１５４は、抽出キーワードの上位語、抽出キーワードを別の表現に言い換えたパラフレーズ、または抽出キーワードから連想される連想ワードである関連ワードを用いて、複数のデータを分類する。

　分類部１５４は、関連ワードまたは抽出キーワードの共通性に基づいて、複数のデータを分類する。分類部１５４は、関連ワードまたは抽出キーワードが共通するデータを同じグループに分類することにより、複数のデータを分類する。分類部１５４は、キーワード正規化部１５３により特定された関連ワードに基づいて、複数のデータを分類する。なお、分類部１５４は、関連ワードまたは抽出キーワードが共通するデータという基準を満たせば、ランダムに複数のデータを分類してもよい。また、分類部１５４は、ポイントが大きい抽出キーワードを有するデータから順にそのデータを起点として、そのデータと関連ワードまたは抽出キーワードが共通するデータを同じグループにすることにより、複数のデータを分類してもよい。

　分類部１５４は、複数のデータを複数のグループに分類する。分類部１５４は、抽出キーワードの抽出元のデータとの関連度合いを示す抽出キーワードのポイントを用いて、複数のデータを複数のグループに分類する。分類部１５４は、分類対象データ記憶部１４２に記憶された各抽出キーワードのポイントを用いて、複数のデータを複数のグループに分類する。分類部１５４は、複数のグループの各々の該当する抽出キーワードのポイントを用いて算出される複数のグループの各々のポイントを用いて、複数のデータを分類する。例えば、分類部１５４は、複数のグループに分類する分割パターンを複数生成し、複数の分割パターンのうち、各グループのポイントの平均値が最大の分割パターンを用いてもよい。例えば、分類部１５４は、設定されたパターン数（例えば１０や１００等）の分割パターンを生成し、パターン数の分割パターンのうち、各グループのポイントの平均値が最大の分割パターンを用いてもよい。なお、分類部１５４は、関連ワードまたは抽出キーワードが共通するデータという基準を満たせば、ランダムに分割パターンを生成してもよい。また、分類部１５４は、ポイントが大きい抽出キーワードを有するデータから順にそのデータを起点として、そのデータと関連ワードまたは抽出キーワードが共通するデータを同じグループにすることにより、分割パターンを生成してもよい。

　分類部１５４は、複数のグループの各々のポイントが所定の基準を満たす場合、複数のグループに複数のデータを分類する。分類部１５４は、複数のグループの各々のポイントが所定値以上である場合、複数のグループに複数のデータを分類する。分類部１５４は、複数のグループの各々のポイントが分類条件記憶部１４３に記憶されたポイント閾値以上ある場合、その複数のグループに複数のデータを分類する。

　分類部１５４は、該当するデータの数が所定数以下となるグループに複数のデータを分類する。分類部１５４は、各グループに該当するデータの数が分類条件記憶部１４３に記憶された最大項目数以下となるように、データを分類する。例えば、分類部１５４は、分類処理により生成しグループのうち、該当するデータの数が最大項目数を超えるグループがある場合、分類処理を再度行う。分類部１５４は、分類処理による分類結果の全グループの各々に該当するデータの数が最大項目数以下になるまで、分類処理を繰り返す。

　分類部１５４は、分類数閾値以下のグループに複数のデータを分類する。分類部１５４は、データが分類されるグループの数が分類条件記憶部１４３に記憶された最大分類数以下となるように、データを分類する。例えば、分類部１５４は、分類処理により生成した分類結果のグループの数が最大分類数を超えた場合、分類処理を再度行う。分類部１５４は、分類結果のグループの数が最大分類数以下になるまで、分類処理を繰り返す。

　送信部１５５は、各種情報を送信する。送信部１５５は、外部の情報処理装置へ各種情報を送信する。送信部１５５は、ユーザが利用する端末装置（図１６のユーザ端末１０等）へ各種情報を送信する。送信部１５５は、記憶部１４に記憶された情報を送信する。送信部１５５は、分類部１５４による分類結果を送信する。

［１－３．実施形態に係る情報処理の手順］
　次に、図１２を用いて、実施形態に係る情報処理の手順について説明する。図１２は、本開示の実施形態に係る情報処理の手順を示すフローチャートである。

　図１２に示すように、情報処理装置１００は、分類対象となる複数のデータの各々から抽出キーワードを抽出する（ステップＳ１０１）。情報処理装置１００は、複数のデータの各々から抽出された抽出キーワードと、抽出キーワードに関連する関連ワードとに基づいて、複数のデータを分類する（ステップＳ１０２）。

［１－４．文章以外のキーワード抽出例］
　なお、上述したように分類対象となるデータは、文章（文字情報）に限らず、画像であってもよく、動画、音声、波形等の時系列データであってもよい。例えば、分類対象となるデータは、イメージセンサにより撮像された動画等、センサの検知により生成されるセンシング集合データ（以下「センシングデータ」ともいう）であってもよい。センシングは、センサの検知により生成されるデータであれば、どのようなデータであってもよく、波形データや画像データを含む。図１３では、動画を一例として、文章以外のキーワード抽出例について説明する。図１３は、文章以外のデータからのキーワード抽出の一例を示す図である。なお、図１、図６等、上述した内容と同様の点については、適宜説明を省略する。

　情報処理装置１００は、動画Ｙであるセンシングデータ（データＤＴ１１）から抽出キーワードを抽出する（ステップＳ５１）。情報処理装置１００は、動画解析の技術を用いて、動画Ｙから抽出キーワードを抽出する。図１３では、情報処理装置１００は、キーワード情報ＫＹに示すように、動画Ｙから「犬」、「公園」、「チワワ」、「フリスビー」、「走る」といった抽出キーワードを抽出する。また、情報処理装置１００は、各抽出キーワードの品詞を特定し、特定した品詞の情報を各抽出キーワードに対応付ける。

　情報処理装置１００は、動画Ｙの各抽出キーワードに対して、動画Ｙとの関連度合いに応じてポイントを算出し、算出したポイントを各抽出キーワードに付与する。例えば、情報処理装置１００は、動画中で各抽出キーワードに対応する対象物が写っている時間を基に、各抽出キーワードのポイントを算出する。情報処理装置１００は、動画中で写っている時間が長い程、高いポイントとなるように各抽出キーワードのポイントを算出する。情報処理装置１００は、動画中で各抽出キーワードに対応する対象物が写っている時間を、各抽出キーワードのポイントとして用いてもよい。

　また、情報処理装置１００は、抽出キーワードに付与されたポイントの合計が１になるように補正（正規化）する。図１３の例では、情報処理装置１００は、動画Ｙの各抽出キーワードについて、「犬」のポイントを「０．６」、「公園」のポイントを「０．２」、「チワワ」のポイントを「０．１」、「フリスビー」のポイントを「０．０６」、「走る」のポイントを「０．０４」に正規化する。

　そして、情報処理装置１００は、文章Ｘから抽出した抽出キーワードの正規化を行う（ステップＳ５２）。情報処理装置１００は、正規化後キーワード情報ＲＫＹに示すように、除外する品詞「動詞」に該当する「走る」を抽出キーワードから除外する。そして、情報処理装置１００は、「走る」を除外後の各抽出キーワードに付与されたポイントの合計が１になるように補正（正規化）する。図１３の例では、情報処理装置１００は、動画Ｙの各抽出キーワードについて、「犬」のポイントを「０．６１」、「公園」のポイントを「０．２１」、「チワワ」のポイントを「０．１１」、「フリスビー」のポイントを「０．０７」に正規化する。

　また、情報処理装置１００は、各抽出キーワードの関連ワードを特定する。WordNet等の概念辞書を用いて、「犬」、「チワワ」、「フリスビー」の各々について関連ワードを特定する。図１３では、情報処理装置１００は、正規化後キーワード情報ＲＫＹに示すように、「ペット」及び「動物」を「犬」の関連ワードとして特定し、「犬」、「ペット」及び「動物」を「チワワ」の関連ワードとして特定し、「おもちゃ」を「フリスビー」の関連ワードとして特定する。

　このように、情報処理装置１００は、動画を解析することにより、動画に含まれる情報を抽出する。例えば、情報処理装置１００は、画像内の物体認識等のデータ解析手法を用いて、動画に含まれる情報を抽出する。例えば、情報処理装置１００は、動画をフレームごとの画像に分け、それぞれ物体認識を適応し、全体のフレーム数に対して物体（対象物）が認識されたフレーム数の割合をポイントとして算出してもよい。また、例えば、情報処理装置１００は、動画像認識として時系列情報をキーワードにして用いてもよい。図１３で抽出されたキーワードのうち、「走る」等が時系列によるキーワード情報にあたる。また、情報処理装置１００は、動画から音声情報を抽出し、音声解析を行ってもよい。このとき、情報処理装置１００は、音声認識を適応し、意味を有した文字列からテキスト解析と同様にキーワードを抽出してもよい。また、情報処理装置１００は、動物の鳴き声や屋外といった音声データのクラス分類を行ってもよい。また、情報処理装置１００は、これらの音声解析を行い、動画から得られたキーワードと複合的に抽出キーワードを定めてもよい。なお、上記は一例であり、情報処理装置１００は、他の手法により、動画等のデータから抽出キーワードを抽出してもよい。

［１－５．分類の更新例］
　例えば、新規に追加されたデータが既存の分類（グループ）に該当しない場合、再度既存データに対しても分類を再考することもある。このような場合、情報処理装置１００は、再度分類処理を行う事により、分類を更新してもよい。図１４及び図１５を用いて、分類の更新例について説明する。図１４は、分類の更新の一例を示す図である。図１５は、分類の更新結果の一例を示す図である。なお、図１４及び図１５では、説明を簡単化するために抽出キーワードのみを用いた例を示すが、情報処理装置１００は、各抽出キーワードの関連ワードの情報を用いて分類処理を行ってもよい。

　図１４では、分類結果ＲＳ２１に示すように、文章Ａ、文章Ｂ、文章Ｇが分類ワード「スポーツ」に対応するグループＧ２１に分類され、文章Ｃ、文章Ｄ、文章Ｈが分類ワード「ペット」に対応するグループＧ１２に分類されているものとする。

　ここで、文章Ｉが新たに追加される。情報処理装置１００は、キーワード情報ＫＩに示すように、文章Ｉから抽出キーワードを抽出し、各抽出キーワードのポイントを算出する。情報処理装置１００は、文章Ｉの各抽出キーワードについて、「レシピ」のポイントを「０．４」、「時短」のポイントを「０．３」、「つくりおき」のポイントを「０．２」、「レンジ」のポイントを「０．０６」、「簡単」のポイントを「０．０４」に正規化する。

　ここで、文章Ｉの抽出キーワードに「スポーツ」、「ペット」が含まれないため、情報処理装置１００は、文章Ｉを分類に含めないか、文章Ｉを含めて全体の分類を更新するかの判断を行う。図１４に示すように、文章Ｇ、文章Ｈ、文章Ｉに共通する抽象キーワード「レシピ」が存在する。そのため、情報処理装置１００は、文章Ｇ、文章Ｈ、文章Ｉを１つのグループに分類した分類結果ＲＳ２２を、分類候補として生成する。

　図１５に示す分類結果ＲＳ２２の場合、文章Ｇ、文章Ｈ、文章Ｉは、分類ワード「レシピ」に対応するグループＧ２６に分類される。また、文章Ａ、文章Ｂは、分類ワード「スポーツ」に対応するグループＧ２４に分類され、文章Ｃ、文章Ｄ、文章Ｅは、分類ワード「ペット」に対応するグループＧ２５に分類される。

　また、分類結果ＲＳ２２の場合、分類ワード「レシピ」に対応するグループＧ２６のポイントは「０．３」となる。また、分類ワード「スポーツ」に対応するグループＧ２４のポイントは「０．２５」となり、分類ワード「ペット」に対応するグループＧ２５のポイントは「０．３」となる。

　情報処理装置１００は、各分類結果における各グループのポイントの平均値を用いて、分類を更新するかどうかを判断する。情報処理装置１００は、判断時点での分類における各グループのポイントの平均値と、生成した分類候補における各グループのポイントの平均値とに基づいて、分類を更新するかを判断する。このように、情報処理装置１００は、新規の文章Ｉを分類に追加しない場合の各グループのポイントの平均値と、新規の文章Ｉを分類対象に追加した場合の各グループのポイントの平均値とに基づいて、分類を更新するかを判断する。

　図１４及び図１５は、情報処理装置１００は、判断時点での分類である分類結果ＲＳ２１における各グループのポイントの平均値と、分類候補である分類結果ＲＳ２２における各グループのポイントの平均値との比較結果に基づいて、分類を更新するかを判断する。具体的には、情報処理装置１００は、分類結果ＲＳ２２における各グループのポイントの平均値が、分類結果ＲＳ２１における各グループのポイントの平均値以上である場合、分類を更新すると判断する。

　ここで、分類結果ＲＳ２１に示すように、新規の文章Ｉを分類に追加しない場合、分類ワード「スポーツ」に対応するグループＧ２１のポイントは「０．２」となり、分類ワード「ペット」に対応するグループＧ２２のポイントは「０．３」となる。そのため、情報処理装置１００は、分類結果ＲＳ２１における各グループＧ２１、Ｇ２２のポイントの平均値（以下「分類結果ＲＳ２１のポイント」とする）を「０．２５（＝（０．２＋０．３）／２）」と算出する。

　また、分類結果ＲＳ２２に示すように、新規の文章Ｉを分類に追加した場合、分類ワード「スポーツ」に対応するグループＧ２４のポイントは「０．２５」となり、分類ワード「ペット」に対応するグループＧ２５のポイントは「０．３」となり、分類ワード「レシピ」に対応するグループＧ２６のポイントは「０．３」となる。そのため、情報処理装置１００は、分類結果ＲＳ２２（以下「分類結果ＲＳ２２のポイント」とする）における各グループＧ２４、Ｇ２５、Ｇ２６のポイントの平均値を「０．２８３（＝（０．２５＋０．３＋０．３）／３）」と算出する。

　情報処理装置１００は、分類結果ＲＳ２１のポイント「０．２５」と、分類結果ＲＳ２２のポイント「０．２８３」とを比較する。そして、情報処理装置１００は、分類結果ＲＳ２２のポイントの方が分類結果ＲＳ２１のポイント以上であるため、分類結果ＲＳ２２の方が、よりデータの内容に沿った分類ができていると判断し、分類を更新すると決定する。この場合、情報処理装置１００は、分類結果ＲＳ２１から分類結果ＲＳ２２に分類を更新する（ステップＳ６１）。

　なお、上記は一例であり、情報処理装置１００は、各分類の各グループのポイントの平均値に限らず、種々の情報を用いて、分類を更新するか否かを判断してもよい。

［１－６．分類条件］
　情報処理装置１００は、上述した例に限らず、種々の分類条件により分類を行ってもよい。各データは、複数のグループに属してもよい。図１５の例では、文章Ｇが分類ワード「スポーツ」に対応するグループＧ２４、及び分類ワード「レシピ」に対応するグループＧ２６の２つのグループに属してもよい。また、文章Ｈが分類ワード「ペット」に対応するグループＧ２５、及び分類ワード「レシピ」に対応するグループＧ２６の２つのグループに属してもよい。この場合、情報処理装置１００は、各データが複数のグループに属することを許容して、各データを分類する。なお、各データが属するグループの数の上限（例えば３や５等）を設定してもよい。

　また、情報処理装置１００は、最大項目数に限らず、最大分類数を設定したり、機械学習を用いてより分類数（グループ数）と分類内の項目数（グループに含まれるデータ数）を最適化したりしてもよい。

［２．その他の実施形態］
　上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態（変形例）にて実施されてよい。例えばシステム構成は、上述した例に限らず、種々の態様であってもよい。この点について以下説明する。なお、以下では、実施形態に係る情報処理装置１００と同様の点については、適宜説明を省略する。

［２－１．変形例］
　例えば、分類処理を完全に自動的には行わず、分類方法の候補として１つまたは複数のパターン（「分類候補」ともいう）をユーザに提示してもよい。そして、ユーザが選択したパターンを分類結果として用いてもよい。これにより、ユーザがより自らの感覚に沿った分類を選択することができ、その実行結果をユーザの嗜好として再度機械学習データに盛り込むことも可能となる。また、分類に関しては一定閾値を超えていた場合等、ユーザに選択させてもよい。また、ユーザの選択をユーザの嗜好と判断し、その後の自動分類結果に反映してもよい。

　上記のように、ユーザに分類を選択させる場合の情報処理システム１の構成例について、図１６を用いて説明する。図１６は、本開示の変形例に係る情報処理システムの構成例を示す図である。

　図１６に示すように、情報処理システム１には、ユーザ端末１０と、情報処理装置１００とが含まれる。ユーザ端末１０及び情報処理装置１００は通信網Ｎを介して、有線又は無線により通信可能に接続される。なお、図１６に示した情報処理システム１には、複数台のユーザ端末１０や、複数台の情報処理装置１００が含まれてもよい。例えば、情報処理システム１には、ユーザＵ１が利用するユーザ端末１０やユーザＵ２が利用するユーザ端末１０等の複数のユーザ端末１０が含まれてもよい。

　情報処理装置１００は、分類対象となる複数のデータについて、複数の分類結果を生成する。そして、情報処理装置１００は、複数の分類結果を複数の分類候補としてユーザ端末１０へ送信する。情報処理装置１００は、ユーザが選択した分類候補を示す情報をユーザ端末１０から受信する。情報処理装置１００は、受信したユーザが選択した分類候補を示す情報を、そのユーザに対応付けて、ユーザの選択履歴として記憶部１２０に記憶する。そして、情報処理装置１００は、ユーザの選択履歴を用いて、そのユーザに対する分類結果を生成する。

　ユーザ端末１０は、ユーザによって利用される情報処理装置である。ユーザ端末１０は、例えば、スマートフォンや、タブレット型端末や、スマートスピーカや、携帯電話機や、ＰＤＡ（Personal　Digital　Assistant）や、ノート型ＰＣ（Personal　Computer）や、デスクトップＰＣや、スマートフォン等により実現される。なお、ユーザ端末１０は、情報処理装置１００が提供する情報を表示し、ユーザが選択した分類を示す情報を情報処理装置１００へ送信可能であればどのような端末装置であってもよい。

　また、ユーザ端末１０は、ユーザによる操作を受け付ける。ユーザ端末１０は、情報処理装置１００から受信した情報を画面に表示する。ユーザ端末１０は、情報処理装置１００から受信した分類結果を表示する。

　ユーザ端末１０は、情報処理装置１００が提供した複数の分類候補を表示する。また、ユーザ端末１０は、複数の分類候補に対するユーザの選択を受け付け、ユーザが選択した分類候補を示す情報を情報処理装置１００へ送信する。

［２－１－１．ユーザに応じた分類］
　ここで、図１７を用いて、ユーザに応じた分類について説明する。図１７は、ユーザに応じた分類の一例を示す図である。図１７では、ユーザＵ１及びユーザＵ２の２人のユーザを一例として、ユーザが分類を選択していくとユーザの嗜好が反映され、その後の分類がユーザごとに異なる場合の一例を示す。図１７は、文章Ａ～文章Ｌの１１個のデータを示す。また、キーワード情報ＫＡ～キーワード情報ＫＬの各々は、文章Ａ～文章Ｌに各々対応する。なお、図１７では、関連ワードの図示を省略する。例えば、キーワード情報ＫＨに示す文章Ｈの抽出キーワード「ケーキ」には、関連ワード「レシピ」が対応付けられている。

　図１７中の分類結果ＲＳ３１及び分類結果ＲＳ４１は、文章Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｇ、Ｈ、Ｉの８個のデータについて分類結果を示す。

　分類結果ＲＳ３１は、ユーザＵ１が選択した分類結果を示す。分類結果ＲＳ３１は、「筋トレ」、「レシピ」をキーワードとする文章Ｇ、及び「ケーキ」、「ペット」をキーワードとする文章Ｈを分類ワード「レシピ」に対応するグループＧ３３に分類する分類結果である。情報処理装置１００は、ユーザＵ１の選択をユーザＵ１の嗜好として、ユーザＵ１に提供する際の分類処理に反映する。

　分類結果ＲＳ４１は、ユーザＵ２が選択した分類結果を示す。分類結果ＲＳ４１は、「筋トレ」、「レシピ」をキーワードとする文章Ｇを分類ワード「スポーツ」に対応するグループＧ４１に分類し、「ケーキ」、「ペット」をキーワードとする文章Ｈを分類ワード「レシピ」に対応するグループＧ４２に分類する分類結果である。

　情報処理装置１００は、ユーザＵ２の選択をユーザＵ２の嗜好として、ユーザＵ２に分類結果を提供する際の分類処理に反映する。情報処理装置１００は、ユーザＵ２の嗜好を反映するように分類を補正する。

　例えば、情報処理装置１００は、ユーザＵ２に分類結果を提供する際の分類処理においては、レシピ関連のデータであっても、スポーツやペットに関する内容が記載されていれば、そのグループに優先した分類する。また、例えば、情報処理装置１００は、ユーザＵ２がレシピへの興味が少ないと仮定して、レシピ関連のキーワードを含むデータに関しては、レシピではなく、ユーザＵ２が選択した分類になるよう補正してもよい。この場合、情報処理装置１００は、レシピに関するキーワードのポイントを低くしてもよい。

　これにより、新規のデータが追加された際に、情報処理装置１００は、ユーザＵ１とユーザＵ２とで異なる分類結果を生成する場合がある。

　情報処理装置１００は、新たに文章Ｊ、文章Ｋ、文章Ｌの３個のデータが追加された場合、ユーザＵ１については、分類結果ＲＳ３２のように分類する（ステップＳ７１）。また、情報処理装置１００は、新たに文章Ｊ、文章Ｋ、文章Ｌの３個のデータが追加された場合、ユーザＵ２については、分類結果ＲＳ４２のように分類する（ステップＳ８１）。

　図１７の例では、「鍋」、「相撲」というキーワードを含む文章Ｊについて、異なる分類となる場合を示す。情報処理装置１００は、補正のないユーザＵ１に関しては、分類ワード「レシピ」に対応するグループＧ３６に文章Ｊを分類する。

　一方、情報処理装置１００は、補正されるユーザＵ２に関しては、文章Ｊをレシピ関連として分類しない。図１７の例では、情報処理装置１００は、ユーザＵ２に関しては、分類ワード「スポーツ」に対応するグループＧ４４に文章Ｊを分類する。

　同様に、「ダイエットレシピ」、「犬」のキーワードをもつ文章Ｋは、ユーザＵ１に関しては、分類ワード「レシピ」に対応するグループＧ３６に分類されるが、ユーザＵ２に関しては、分類ワード「ペット」に対応するグループＧ４５に分類される。

［２－２．その他の構成例］
　また、上述した各実施形態や変形例に係る処理は、上記実施形態や変形例以外にも種々の異なる形態（変形例）にて実施されてよい。例えば、情報処理装置１００は、ユーザ端末１０と一体であってもよい。このように、各ユーザが利用するユーザ端末１０が情報処理装置１００としての機能を有してもよい。なお、上記は一例であり、情報処理システムは種々の構成により実現されてもよい。

［２－３．その他］
　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

［３．本開示に係る効果］
　上述のように、本開示に係る情報処理装置（実施形態では情報処理装置１００）は、キーワード抽出部（実施形態ではキーワード抽出部１５２）と、分類部（実施形態では分類部１５４）とを備える。キーワード抽出部は、分類対象となる複数のデータの各々からキーワードを抽出する。分類部は、複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、複数のデータを分類する。

　これにより、本開示に係る情報処理装置は、分類態様となる複数のデータから抽出した抽出キーワードに関連する関連ワードの情報を加味して、データを分類することができるため、データを適切に分類することができる。

　また、分類部は、抽出キーワードの上位語、抽出キーワードを別の表現に言い換えたパラフレーズ、または抽出キーワードから連想される連想ワードである関連ワードを用いて、複数のデータを分類する。これにより、情報処理装置は、抽出キーワードの上位語、パラフレーズ、または連想ワード等を用いて、抽出キーワードの概念的な共通性を加味してデータを分類することができるため、データを適切に分類することができる。

　また、分類部は、関連ワードまたは抽出キーワードの共通性に基づいて、複数のデータを分類する。これにより、情報処理装置は、関連ワードまたは抽出キーワードの共通性を加味してデータを分類することができるため、データを適切に分類することができる。

　また、本開示に係る情報処理装置は、キーワード正規化部（実施形態ではキーワード正規化部１５３）を備える。キーワード正規化部は、抽出キーワードの関連ワードを特定し、抽出キーワードの抽出元のデータに対応付ける。分類部は、キーワード正規化部により特定された関連ワードに基づいて、複数のデータを分類する。これにより、情報処理装置は、抽出キーワードの関連ワードを特定し、抽出キーワードの抽出元のデータに対応付けられた関連ワードを用いて、データを適切に分類することができる。

　また、キーワード正規化部は、言語の概念的な関係を示す概念辞書を用いて抽出キーワードの関連ワードを特定する。これにより、情報処理装置は、言語の概念的な関係を基に、抽出キーワードの関連ワードを適切に特定することができる。

　また、キーワード正規化部は、除外条件を満たすキーワードを抽出キーワードから除外する。これにより、情報処理装置は、分類処理に不要な抽出キーワードを除外してデータの分類ができるため、データを適切に分類することができる。

　また、キーワード正規化部は、除外する品詞に該当するキーワードを抽出キーワードから除外する。これにより、情報処理装置は、分類処理に不要な品詞に該当する抽出キーワードを除外してデータ群の分類ができるため、データを適切に分類することができる。

　また、分類部は、複数のデータを複数のグループに分類する。これにより、情報処理装置は、関連ワードまたは抽出キーワードの共通性を加味してデータ群を分類することができるため、データを適切に分類することができる。

　また、分類部は、抽出キーワードの抽出元のデータとの関連度合いを示す抽出キーワードのポイントを用いて、複数のデータを複数のグループに分類する。これにより、情報処理装置は、抽出キーワードのデータとの関連度合いを加味してデータ群を分類することができるため、データを適切に分類することができる。

　また、分類部は、複数のグループの各々の該当する抽出キーワードのポイントを用いて算出される複数のグループの各々のポイントを用いて、複数のデータを分類する。これにより、情報処理装置は、データが分類される各グループのポイントを加味してデータ群を分類することができるため、データを適切に分類することができる。

　また、分類部は、複数のグループの各々のポイントが所定の基準を満たす場合、複数のグループに複数のデータを分類する。これにより、情報処理装置は、データが分類される各グループのポイントが基準を満たす場合に、そのグループで分類を行うことで、データを適切に分類することができる。

　また、分類部は、複数のグループの各々のポイントが所定値以上である場合、複数のグループに複数のデータを分類する。これにより、情報処理装置は、データが分類される各グループのポイントが所定値以上である場合に、そのグループで分類を行うことで、データを適切に分類することができる。

　また、分類部は、該当するデータの数が所定数以下となるグループに複数のデータを分類する。これにより、情報処理装置は、グループに属するデータの数が所定値を超えないように分類することで、１個のグループに多くのデータが該当することを抑制でき、データを適切に分類することができる。

　また、分類部は、分類数閾値以下のグループに複数のデータを分類する。これにより、情報処理装置は、大量のグループにデータが分類されることを抑制でき、データを適切に分類することができる。

　また、複数のデータは、文章データを含む。これにより、情報処理装置は、文章データを含む複数のデータを分類対象として、データを適切に分類することができる。

　また、複数のデータは、画像データを含む。これにより、情報処理装置は、画像データを含む複数のデータを分類対象として、データを適切に分類することができる。

　また、複数のデータは、時系列データを含む。これにより、情報処理装置は、時系列データを含む複数のデータを分類対象として、データを適切に分類することができる。

　また、時系列データは、動画データ、音声データ、または波形データである。これにより、情報処理装置は、動画データ、音声データ、または波形データを含む複数のデータを分類対象として、データを適切に分類することができる。

［４．ハードウェア構成］
　上述してきた各実施形態に係る情報処理装置１００等の情報機器は、例えば図１８に示すような構成のコンピュータ１０００によって実現される。図１８は、情報処理装置１００等の情報処理装置の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置１００を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１５等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部１４内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　分類対象となる複数のデータの各々からキーワードを抽出するキーワード抽出部と、
　前記複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、前記複数のデータを分類する分類部と、
　を備える情報処理装置。
（２）
　前記分類部は、
　前記抽出キーワードの上位語、前記抽出キーワードを別の表現に言い換えたパラフレーズ、または前記抽出キーワードから連想される連想ワードである前記関連ワードを用いて、前記複数のデータを分類する、
　（１）に記載の情報処理装置。
（３）
　前記分類部は、
　前記関連ワードまたは前記抽出キーワードの共通性に基づいて、前記複数のデータを分類する、
　（１）または（２）に記載の情報処理装置。
（４）
　前記分類部は、
　前記関連ワードまたは前記抽出キーワードが共通するデータを同じグループに分類することにより、前記複数のデータを分類する、
　（３）に記載の情報処理装置。
（５）
　前記抽出キーワードの前記関連ワードを特定し、前記抽出キーワードの抽出元のデータに対応付けるキーワード正規化部、
　を備え、
　前記分類部は、
　前記キーワード正規化部により特定された前記関連ワードに基づいて、前記複数のデータを分類する、
　（１）～（４）のいずれか１つに記載の情報処理装置。
（６）
　前記キーワード正規化部は、
　言語の概念的な関係を示す概念辞書を用いて前記抽出キーワードの前記関連ワードを特定する、
　（５）に記載の情報処理装置。
（７）
　前記キーワード正規化部は、
　除外条件を満たすキーワードを前記抽出キーワードから除外する、
　（５）または（６）に記載の情報処理装置。
（８）
　前記キーワード正規化部は、
　除外する品詞に該当するキーワードを前記抽出キーワードから除外する、
　（７）に記載の情報処理装置。
（９）
　前記分類部は、
　前記複数のデータを複数のグループに分類する、
　（１）～（８）のいずれか１つに記載の情報処理装置。
（１０）
　前記分類部は、
　前記抽出キーワードの抽出元のデータとの関連度合いを示す前記抽出キーワードのポイントを用いて、前記複数のデータを前記複数のグループに分類する、
　（９）に記載の情報処理装置。
（１１）
　前記分類部は、
　前記複数のグループの各々の該当する前記抽出キーワードのポイントを用いて算出される前記複数のグループの各々のポイントを用いて、前記複数のデータを分類する、
　（１０）に記載の情報処理装置。
（１２）
　前記分類部は、
　前記複数のグループの各々のポイントが所定の基準を満たす場合、前記複数のグループに前記複数のデータを分類する、
　（１１）に記載の情報処理装置。
（１３）
　前記分類部は、
　前記複数のグループの各々のポイントが所定値以上である場合、前記複数のグループに前記複数のデータを分類する、
　（１２）に記載の情報処理装置。
（１４）
　前記分類部は、
　該当するデータの数が所定数以下となるグループに前記複数のデータを分類する、
　（１）～（１３）のいずれか１つに記載の情報処理装置。
（１５）
　前記分類部は、
　分類数閾値以下のグループに前記複数のデータを分類する、
　（１）～（１４）のいずれか１つに記載の情報処理装置。
（１６）
　前記複数のデータは、
　文章データを含む、
　（１）～（１５）のいずれか１つに記載の情報処理装置。
（１７）
　前記複数のデータは、
　画像データを含む、
　（１）～（１６）のいずれか１つに記載の情報処理装置。
（１８）
　前記複数のデータは、
　時系列データを含む、
　（１）～（１７）のいずれか１つに記載の情報処理装置。
（１９）
　前記時系列データは、
　動画データ、音声データ、または波形データである、
　（１８）に記載の情報処理装置。
（２０）
　分類対象となる複数のデータの各々からキーワードを抽出し、
　前記複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、前記複数のデータを分類する、
　処理を実行する情報処理方法。

　１００　情報処理装置
　１１　通信部
　１２　入力部
　１３　表示部（ディスプレイ）
　１４　記憶部
　１４１　概念辞書記憶部
　１４２　分類対象データ記憶部
　１４３　分類条件記憶部
　１５　制御部
　１５１　取得部
　１５２　キーワード抽出部
　１５３　キーワード正規化部
　１５４　分類部
　１５５　送信部

Claims

　分類対象となる複数のデータの各々からキーワードを抽出するキーワード抽出部と、
　前記複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、前記複数のデータを分類する分類部と、
　を備える情報処理装置。
　前記分類部は、
　前記抽出キーワードの上位語、前記抽出キーワードを別の表現に言い換えたパラフレーズ、または前記抽出キーワードから連想される連想ワードである前記関連ワードを用いて、前記複数のデータを分類する、
　請求項１に記載の情報処理装置。
　前記分類部は、
　前記関連ワードまたは前記抽出キーワードの共通性に基づいて、前記複数のデータを分類する、
　請求項１に記載の情報処理装置。
　前記分類部は、
　前記関連ワードまたは前記抽出キーワードが共通するデータを同じグループに分類することにより、前記複数のデータを分類する、
　請求項３に記載の情報処理装置。
　前記抽出キーワードの前記関連ワードを特定し、前記抽出キーワードの抽出元のデータに対応付けるキーワード正規化部、
　を備え、
　前記分類部は、
　前記キーワード正規化部により特定された前記関連ワードに基づいて、前記複数のデータを分類する、
　請求項１に記載の情報処理装置。
　前記キーワード正規化部は、
　言語の概念的な関係を示す概念辞書を用いて前記抽出キーワードの前記関連ワードを特定する、
　請求項５に記載の情報処理装置。
　前記キーワード正規化部は、
　除外条件を満たすキーワードを前記抽出キーワードから除外する、
　請求項５に記載の情報処理装置。
　前記キーワード正規化部は、
　除外する品詞に該当するキーワードを前記抽出キーワードから除外する、
　請求項７に記載の情報処理装置。
　前記分類部は、
　前記複数のデータを複数のグループに分類する、
　請求項１に記載の情報処理装置。
　前記分類部は、
　前記抽出キーワードの抽出元のデータとの関連度合いを示す前記抽出キーワードのポイントを用いて、前記複数のデータを前記複数のグループに分類する、
　請求項９に記載の情報処理装置。
　前記分類部は、
　前記複数のグループの各々の該当する前記抽出キーワードのポイントを用いて算出される前記複数のグループの各々のポイントを用いて、前記複数のデータを分類する、
　請求項１０に記載の情報処理装置。
　前記分類部は、
　前記複数のグループの各々のポイントが所定の基準を満たす場合、前記複数のグループに前記複数のデータを分類する、
　請求項１１に記載の情報処理装置。
　前記分類部は、
　前記複数のグループの各々のポイントが所定値以上である場合、前記複数のグループに前記複数のデータを分類する、
　請求項１２に記載の情報処理装置。
　前記分類部は、
　該当するデータの数が所定数以下となるグループに前記複数のデータを分類する、
　請求項１に記載の情報処理装置。
　前記分類部は、
　分類数閾値以下のグループに前記複数のデータを分類する、
　請求項１に記載の情報処理装置。
　前記複数のデータは、
　文章データを含む、
　請求項１に記載の情報処理装置。
　前記複数のデータは、
　画像データを含む、
　請求項１に記載の情報処理装置。
　前記複数のデータは、
　時系列データを含む、
　請求項１に記載の情報処理装置。
　前記時系列データは、
　動画データ、音声データ、または波形データである、
　請求項１８に記載の情報処理装置。
　分類対象となる複数のデータの各々からキーワードを抽出し、
　前記複数のデータの各々から抽出されたキーワードである抽出キーワードに関連する関連ワードを用いて、前記複数のデータを分類する、
　処理を実行する情報処理方法。