JPWO2018230551A1

JPWO2018230551A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JPWO2018230551A1
Application number: JP2018567326A
Authority: JP
Inventors: 勲園部; 喬三淵; 田中　秀明; 秀明田中; 弘明鷹栖; 一宏山田; 泰弘光野
Original assignee: NS Solutions Corp
Current assignee: NS Solutions Corp
Priority date: 2017-06-16
Filing date: 2018-06-12
Publication date: 2019-06-27
Anticipated expiration: 2038-06-12
Also published as: CN110612524B; US20200293553A1; WO2018230551A1; CN110612524A; US11386354B2; JP6622430B2

Abstract

文書データである入力データから複数の特徴量を抽出し、抽出された複数の特徴量それぞれに対応する単語の分散表現を取得し、取得された分散表現に基づいて、抽出された複数の特徴量を、複数の区分に集約する。

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

近年、人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）の研究開発が活発に行われ、急速に実用化が進んできている。ＡＩは、コンピュータにより、人が実現する学習、推論、判断等の様々な知覚や知性を人工的に再現するものである。
ＡＩのなかで、知的労働者の作業や意思決定の姿を手本にしてロボット化するＲＰＡ（ＲｏｂｏｔｉｃＰｒｏｃｅｓｓＡｕｔｏｍａｔｉｏｎ、ＤｉｇｉｔａｌＬａｂｏｒ）は、業務の自動化、効率化を図るものである。ＲＰＡにおいて、ＡＩが文書を評価することが行われている。
このような文書の品質を評価する技術に関して、特許文献１には、文書の品質を評価するとともに見本となる文書を提示するという技術が提案されている。
特許文献１は、入力者に対してテキスト文書群の品質の評価結果に加えて、改善すべき文章及び見本とすべき文章の例を提示する文書品質評価システムであって、テキスト文書群内の各文章について構文解析を行ない、テキスト文書群についての品質を複数の評価項目についてスコアリングし、評価結果を第１のユーザに提示し、第１のユーザについての最低評価項目において低評価となる条件に該当する第１の文章群と、最低評価項目において第１のユーザよりも評価が高い第２のユーザについての高評価となる条件に該当する第２の文章群とを抽出し、第１と第２の文章群からそれぞれ類似度の高い第１と第２の文章を抽出し、第１の文章を改善対象の例文、第２の文章を見本の例文として提示するものである。

特開２０１１‐１７０５３５号公報

文書の評価は、文書データから抽出された特徴量に基づいて行われる場合がある。文書データからは様々な特徴量が抽出できるが、文書データから抽出される特徴量には、類似する特徴量も多数あり、煩雑である。例えば、ユーザが、これらの特徴量を確認しても、その文書がどのような文書であるかを把握することは困難である。そこで、文書データから抽出される類似する特徴量を集約したいという要望があった。
特許文献１では、文書データから抽出される類似する特徴量を集約できなかった。

そこで、本発明の情報処理装置は、文書データである入力データから複数の特徴量を抽出する抽出手段と、前記抽出手段により抽出された前記複数の特徴量それぞれに対応する単語の分散表現を取得する取得手段と、前記取得手段により取得された分散表現に基づいて、前記抽出手段により抽出された前記複数の特徴量を、複数の区分に集約する集約手段と、を有する。

本発明によれば、文書データから抽出される類似する特徴量を集約することができる。

図１は、情報処理装置のハードウェア構成の一例を示す図である。図２は、情報処理装置の機能構成の一例を示す図である。図３は、評価基準決定処理の一例を示すフローチャートである。図４は、クラスタリング結果を示すデンドログラムの一例を示す図である。図５Ａは、単語提示画面の一例を示す図である。図５Ｂは、単語提示画面の一例を示す図である。図５Ｃは、単語提示画面の一例を示す図である。図５Ｄは、単語提示画面の一例を示す図である。図５Ｅは、単語提示画面の一例を示す図である。図５Ｆは、単語提示画面の一例を示す図である。図５Ｇは、単語提示画面の一例を示す図である。図５Ｈは、単語提示画面の一例を示す図である。図５Ｉは、単語提示画面の一例を示す図である。図５Ｊは、単語提示画面の一例を示す図である。図５Ｋは、単語提示画面の一例を示す図である。図５Ｌは、単語提示画面の一例を示す図である。図５Ｍは、単語提示画面の一例を示す図である。図５Ｎは、単語提示画面の一例を示す図である。図５Ｏは、単語提示画面の一例を示す図である。

以下、本発明の実施形態について図面に基づいて説明する。
＜実施形態１＞
（本実施形態の処理の概要）
本実施形態の処理の概要を説明する。本実施形態では、情報処理装置１００が処理の主体であるとする。情報処理装置１００は、パーソナルコンピュータ（ＰＣ）、サーバ装置、タブレット装置、スマートホン等の情報処理装置である。
本実施形態では、情報処理装置１００は、課題管理システムにおけるチケットデータ（文書データ）から、チケットデータの評価を担当するユーザの個性が反映された特徴量を抽出し、抽出した特徴量に対応する単語を分散表現に変換する。そして、情報処理装置１００は、分散表現に変換した単語同士の距離に基づいて、抽出した特徴量を、クラスタリングすることで集約する。
情報処理装置１００は、評価基準の決定に利用される特徴量を含むクラスタの指定を受付け、受け付けた指定が示すクラスタに含まれる特徴量に基づいて、チケットデータの評価を担当するユーザの個性が反映されたチケットデータの評価基準を決定する。

（情報処理装置のハードウェア構成）
図１は、情報処理装置１００のハードウェア構成の一例を示す図である。
情報処理装置１００は、ＣＰＵ１０１、主記憶装置１０２、補助記憶装置１０３、ネットワークＩ／Ｆ１０４、入出力Ｉ／Ｆ１０５を含む。各要素は、システムバス１０６を介して、相互に通信可能に接続されている。
ＣＰＵ１０１は、情報処理装置１００を制御する中央演算装置である。主記憶装置１０２は、ＣＰＵ１０１のワークエリアやデータの一時的な記憶場所として機能するＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）等の記憶装置である。

補助記憶装置１０３は、各種設定情報、各種プログラム、教師データ、各種辞書データ、各種モデル情報等を記憶する記憶装置である。補助記憶装置１０３は、例えば、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、フラッシュメモリ等の記憶媒体として、構成される。
ネットワークＩ／Ｆ１０４は、インターネットやＬＡＮ等のネットワークを介した外部の装置との間での通信に利用されるインターフェースである。入出力Ｉ／Ｆ１０５は、マウス、キーボード、タッチパネルの操作部等の入力装置からの情報の入力に利用されるインターフェースである。また、入出力Ｉ／Ｆ１０５は、ディスプレイ、タッチパネルの表示部、スピーカ等の出力装置への情報の出力に利用されるインターフェースである。
ＣＰＵ１０１が、補助記憶装置１０３に記憶されたプログラムに基づき処理を実行することで、図２で後述する情報処理装置１００の機能及び図３で後述するフローチャートの処理等が実現される。

（情報処理装置の機能構成）
図２は、情報処理装置１００の機能構成の一例を示す図である。
情報処理装置１００は、解析部２０１、学習部２０２、抽出部２０３、取得部２０４、集約部２０５、出力部２０６、受付部２０７、決定部２０８、評価部２０９を含む。
解析部２０１は、文書データに対して、形態素解析、係り受け解析、単語のカテゴリ分類、文書データ内の文節の特徴量の決定（例えば、文節への意味役割付与等）等の解析を行う。
学習部２０２は、予めユーザにより質が良いと確認されたチケットデータから構成される正例の教師データと、予めユーザにより質が悪いと確認されたチケットデータから構成される負例の教師データと、に基づいて、チケットデータの質の良し悪しの識別に利用される分類モデルを学習する。本実施形態では、教師データは、予め、補助記憶装置１０３等に記憶されている。学習部２０２は、例えば、ＮａｉｖｅＢａｙｅｓ、ＲａｎｄｏｍＦｏｒｅｓｔ等を用いて、この分類モデルを学習する。教師データは、入力データの一例である。
抽出部２０３は、学習部２０２により学習された分類モデルにおける教師データの特徴量それぞれの寄与度に基づいて、教師データの特徴量から、ユーザの個性が反映された特徴量を抽出する。

取得部２０４は、抽出部２０３により抽出された特徴量に対応する単語を、分散表現に変換する。
分散表現とは、単語を複数次元（例えば、１００〜３００次元）の実数ベクトルで表現する技術である。文書内の単語の意味は、周辺の単語（文脈語）から定まるとする分布仮説というものがある。分布仮説を前提とすると、単語を、各要素が各文脈語の出現確率を示すベクトルとして表現できる。文脈語となる単語は、膨大（１兆個以上）であるため、このベクトルのサイズも膨大（１兆以上の次元）となってしまう。しかし、このベクトルの要素は、ほとんどが０である。そのため、このベクトルは、圧縮が可能（例えば、１００次元のサイズに圧縮）である。分散表現では、分布仮説を前提として、単語がこのように圧縮されたベクトルとして表現されることとなる。

分散表現で表された単語同士は、単語同士の意味が近い程、近いベクトルとなる。この性質により、抽出部２０３により抽出された特徴量それぞれに対応する単語の分散表現が示すベクトルは、意味が近いものほど近いベクトルとなる。本実施形態では、情報処理装置１００は、この性質を利用して、抽出部２０３により抽出された特徴量に対応する単語の分散表現が示すベクトル同士の距離に基づいて、これらの特徴量をクラスタリングする。ベクトル同士の距離とは、ベクトル同士の相違の程度を示す指標であり、例えば、双方のベクトルの始点を同じ点とした場合のベクトルの終点同士の距離等である。これにより、情報処理装置１００は、文書データから抽出された特徴量を、意味が類似するもの同士が同じクラスタに含まれるようにクラスタリングできる。クラスタは、特徴量が集約された区分の一例である。
また、分散表現で表された単語には、次のような性質もある。即ち、単語（１）と単語（２）との差を示すベクトルと、単語（３）と単語（４）との差を示すベクトルと、が近しいベクトルである程、単語（１）と単語（２）との関係性と、単語（３）と単語（４）との関係性と、が類似するという性質である。

集約部２０５は、取得部２０４により分散表現に変換された単語に基づいて、抽出部２０３により抽出された特徴量をクラスタリングする。即ち、集約部２０５は、対応する単語の分散表現のベクトル同士の距離に基づいて、抽出部２０３により抽出された特徴量をクラスタリングし、特徴量が集約された複数のクラスタを決定する。
出力部２０６は、集約部２０５により決定された各クラスタの情報、各クラスタに含まれる特徴量に対応する単語の情報等を、出力する。
受付部２０７は、集約部２０５により決定された複数のクラスタから、評価基準の決定に利用される特徴量を含むクラスタの指定を受付ける。
決定部２０８は、受付部２０７により受付けられた指定が示すクラスタに含まれる特徴量に基づいて、ユーザの個性が反映されたチケットデータの評価基準を決定する。
評価部２０９は、決定部２０８により決定された評価基準を用いて、チケットデータの評価を行う。

（評価基準決定処理）
図３は、評価基準決定処理の一例を示すフローチャートである。
Ｓ３０１において、解析部２０１は、補助記憶装置１０３に記憶されている教師データについて、解析処理を行う。解析部２０１は、教師データ内のチケットデータそれぞれについて、形態素解析、係り受け解析、単語のカテゴリ分類、各文節への特徴量（例えば、意味役割）の付与等の解析処理を行う。形態素解析とは、文書を、形態素（言語における意味を持つ最小単位）に分解して、各形態素の品詞等を判別する処理である。係り受け解析とは、どの文節がどの文節に係っているかを判別する処理である。単語のカテゴリ分類とは、単語とカテゴリとの対応情報を記憶する辞書等を参照して、文書中の単語のカテゴリを判別する処理である。各文節への意味役割の付与とは、文書中の文章について、構造を解析し、文章中の述語に係る各文節に対して、その述語の意味を解釈する上での文節の役割（例えば、「動作主」や「対象物」等）を付与する処理である。解析部２０１は、例えば、意味役割付与ツールを用いて、文節に意味役割を付与する。
Ｓ３０１の処理により、解析部２０１は、学習部２０２による分類モデルの学習に利用される特徴量を抽出する。本実施形態では、解析部２０１は、学習部２０２による分類モデルの学習に利用される特徴量として、Ｓ３０１で各文節に付与された意味役割を抽出するとする。しかし、解析部２０１は、学習部２０２による分類モデルの学習に利用される特徴量として、単語のカテゴリや単語そのものを抽出してもよい。また、解析部２０１は、学習部２０２による分類モデルの学習に利用される特徴量として、各文節に付与された意味役割、単語のカテゴリ、単語そのもの等の組み合わせを抽出してもよい。
Ｓ３０２において、学習部２０２は、Ｓ３０１で教師データから抽出された特徴量に基づいて、チケットデータの質の良し悪しを識別する分類モデルを学習する。

Ｓ３０２で学習された分類モデルは、予めユーザにより正例と確認された正例データと、予めユーザにより負例と確認された負例データと、を含む教師データから学習されたモデルである。そのため、この分類モデルにおける寄与度が大きい程、チケットデータの評価におけるユーザの個性が反映された特徴量となると仮定できる。寄与度とは、チケットデータの質の良し悪しの識別において、その特徴量がどの程度寄与しているかを示す指標である。
Ｓ３０３において、抽出部２０３は、Ｓ３０１で抽出された特徴量から、Ｓ３０２で学習された分類モデルにおける寄与度が最も大きなものから予め定められた数Ｎ（例えば、３０等）個を抽出することで、チケットデータの評価におけるユーザの個性が反映された特徴量を抽出する。本実施形態では、抽出部２０３は、ある特徴量の寄与度を、教師データ内の正例データと負例データとにおける、その特徴量を持つ文節の出現確率に基づいて、決定する。例えば、抽出部２０３は、教師データ内の正例データにおける、その特徴量を持つ文節の出現確率を、負例データにおけるその特徴量を持つ文節の出現確率で割った値を、その特徴量の寄与度として決定する。そして、抽出部２０３は、取得した寄与度のうち、最も大きなものからＮ個を特定し、特定した寄与度に対応する特徴量を抽出する。
また、抽出部２０３は、ある着目する特徴量について、教師データから抽出されたその特徴量の値（出現回数）をサンプル間でシャッフルしたときの誤り率の変化量を、寄与度として決定してもよい。また、抽出部２０３は、ジニ係数を寄与度として決定してもよい。
抽出部２０３は、Ｓ３０１で抽出された特徴量から、Ｓ３０２で学習された分類モデルにおける寄与度が予め定められた閾値以上であるものを、チケットデータの評価におけるユーザの個性が反映された特徴量として抽出することとしてもよい。

Ｓ３０４において、取得部２０４は、Ｓ３０３で抽出された特徴量それぞれに対応する文節の主要語を特定する。主要語とは、その文節を代表する単語であり、例えば、文節中の名詞部分、文節中の動詞部分の原形等である。取得部２０４は、例えば、意味役割付与ツールを用いて、文節から主要語を特定する。Ｓ３０３で抽出された特徴量それぞれに対応する文節の主要語は、Ｓ３０３で抽出された特徴量それぞれに対応する単語の一例である。
Ｓ３０５において、取得部２０４は、Ｓ３０４で特定した単語の分散表現を取得する。取得部２０４は、例えば、教師なし学習（ｗｏｒｄ２ｖｅｃ、ｆａｓｔＴｅｘｔ等）により、Ｓ３０４で特定した単語の分散表現を取得する。
Ｓ３０６において、集約部２０５は、Ｓ３０５で取得された分散表現に基づいて、Ｓ３０３で抽出された特徴量をクラスタリングする。より具体的には、集約部２０５は、Ｓ３０５で取得された分散表現が示すベクトル同士の距離に基づいて、Ｓ３０３で抽出された特徴量をクラスタリングする。分散表現が示すベクトルは、単語の意味が近い程、近いベクトルとなるという性質を有する。そのため、集約部２０５は、類似する特徴量同士を集約することができる。集約部２０５は、例えば、Ｓ３０６の処理の結果として、図４で後述するデンドログラムを生成する。
集約部２０５は、例えば、ＮＮ（ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）法、ウォード法等の階層型クラスタリングの手法を用いて、Ｓ３０３で抽出された特徴量をクラスタリングする。集約部２０５は、非階層型クラスタリングの手法を用いて、Ｓ３０３で抽出された特徴量をクラスタリングしてもよい。

Ｓ３０７において、出力部２０６は、Ｓ３０６の処理の結果を出力する。出力部２０６は、例えば、入出力Ｉ／Ｆ１０５を介して接続されたディスプレイや、ネットワークＩ／Ｆ１０５を介して接続された外部の装置のモニタ等の表示部に対して、Ｓ３０７で決定された特徴量を示す情報を表示させることで、出力する。出力部２０６は、例えば、Ｓ３０６の処理の結果を、図４に示すようなデンドログラムの形式で出力することとしてもよい。
図４は、Ｓ３０６でのクラスタリング処理の途中経過を階層構造で示したデンドログラム（樹形図）の一例を示す図である。分岐の末端又は分岐点に記載されている数字は、クラスタのＩＤを示す。図４のデンドログラムの右端のＩＤ（１５、０７、２７、０９、・・・、０５、０３）が示すクラスタは、Ｓ３０３で抽出された特徴量それぞれに対応するクラスタである。２つのクラスタが結合しているクラスタは、結合された２つのクラスタの特徴量が集約された特徴量に対応するクラスタである。例えば、ＩＤ３４のクラスタは、ＩＤが１５のクラスタと、ＩＤが０７のクラスタと、が結合されたクラスタであり、ＩＤが１５のクラスタの特徴量と、ＩＤが０７のクラスタの特徴量と、が集約された特徴量に対応するクラスタである。また、結合の回数が少ない程、より類似する特徴量同士が集約された特徴量に対応するクラスタとなる。デンドログラムの左端のＩＤ（５８）が示すクラスタは、右端のクラスタが全て結合されたクラスタとなる。

本実施形態では、出力部２０６は、図４のデンドログラムを含み、評価基準の決定に利用される特徴量を含むカテゴリの指定に利用される指定画面を表示部に表示することで、Ｓ３０６の処理の結果を出力する。
出力部２０６は、指定画面において、ＩＤへのカーソル合せ等の操作を検知した場合、選択操作が行われたＩＤのクラスタが示す特徴量に対応する文節の主要語を提示する提示画面を表示部に表示する。図５Ａ〜Ｏは、ＩＤのクラスタが示す特徴量に対応する文節の主要語を提示する提示画面の一例を示す図である。図５Ａ〜Ｏのような提示画面は、集約された複数のクラスタそれぞれについて、クラスタに含まれる特徴量に対応する単語を示す情報の一例である。本実施形態では、情報処理装置１００は、日本語の文書データである教師データを用いることとする。そのため、図５Ａ〜Ｏのような提示画面では、対応するクラスタに含まれる特徴量に対応する日本語の単語、又は、それらの日本語の単語が他の言語（例えば、英語等）に訳された単語が提示される。
出力部２０６は、図５Ａ〜Ｏの提示画面における各単語のサイズを、単語に対応する特徴量がクラスタの中心に近い程、大きくなるようにする。単語に対応する特徴量がクラスタの中心に近い程、その単語は、そのクラスタを代表する平均的な単語となる。そのため、出力部２０６は、そのクラスタが意味するところをより適切に表現している単語程、より大きくなるよう表示することとなる。これにより、提示画面を視認するユーザは、より容易にそのクラスタが意味するところを理解できるようになる。
また、出力部２０６は、例えば、対応する特徴量がクラスタの中心に近いものから、予め定められた数（例えば、１０、２０等）の単語を提示画面に含ませる。これにより、提示画面を視認するユーザは、そのクラスタに含まれる全ての単語を確認せずとも、予め定められた数の単語のみを視認することで、そのクラスタが意味するところを理解できるようになる。
ユーザは、各ＩＤのクラスタに対応する提示画面を視認しながら、各クラスタが、複数の特徴量が統一感のあるように集約されているクラスタであるか否かを確認できる。

図５Ｉの提示画面は、図５Ｂに対応するＩＤが０５のクラスタと、図５Ｄに対応するＩＤが１８のクラスタと、が結合されたＩＤが４５のクラスタに対応する提示画面である。図５Ｉの提示画面を見てみると、各単語は、「物の状態変化」を示す単語であり、全体的に統一感があることが見て取れる。
また、図５Ｊの提示画面は、図５Ａに対応するＩＤが０３のクラスタと、図５Ｉに対応するＩＤが４５のクラスタと、が結合されたＩＤが４７のクラスタに対応する提示画面である。図５Ｊの提示画面を見てみると、各単語は、「物の状態変化」を示す単語であり、全体的に統一感があることが見て取れる。
また、図５Ｏの提示画面は、図５Ｊに対応するＩＤが４７のクラスタと、図５Ｎに対応するＩＤが５４のクラスタと、が結合されたＩＤが５６のクラスタに対応する提示画面である。図５Ｏの提示画面を見てみると、各単語は、全体的にまとまりがない（例えば、「仰る」と「はみ出す」とをまとめる概念を見いだせない）ことが見て取れる。

図５Ｋの提示画面は、図５Ｃに対応するＩＤが１０のクラスタと、図５Ｈに対応するＩＤが４１のクラスタと、が結合されたＩＤが５０のクラスタに対応する提示画面である。図５Ｋの提示画面を見てみると、各単語は、「伝達・判断」という概念を示す単語であり、全体的に統一感があることが見て取れる。
また、図５Ｇの提示画面は、図５Ｅに対応するＩＤが２１のクラスタと、図５Ｆに対応するＩＤが３０のクラスタと、が結合されたＩＤが３５のクラスタに対応する提示画面である。図５Ｇの提示画面を見てみると、各単語は、「評価」という概念を示す単語であり、全体的に統一感があることが見て取れる。
また、図５Ｍの提示画面は、図５Ｇに対応するＩＤが３５のクラスタと、図５Ｋに対応するＩＤが５０のクラスタと、が結合されたＩＤが５３のクラスタに対応する提示画面である。図５Ｍの提示画面を見てみると、各単語は、「認識・判断」という概念を示す単語であり、全体的に統一感があることが見て取れる。
また、図５Ｎの提示画面は、図５Ｌに対応するＩＤが５１のクラスタと、図５Ｍに対応するＩＤが５３のクラスタと、が結合されたＩＤが５４のクラスタに対応する提示画面である。図５Ｎの提示画面を見てみると、各単語は、全体的にまとまりがない（例えば、「張り替える」と「適切だ」とをまとめる概念を見いだせない）ことが見て取れる。

ユーザは、統一感のあるように特徴量が集約されているクラスタを確認し、どのような観点でチケットデータの質の良し悪しが識別されているかを把握することができる。
ユーザは、チケットデータの評価基準の決定に利用する特徴量を含むクラスタのＩＤに対して、例えば、クリックやタップ等の選択操作を行う。本実施形態では、ユーザは、特に質の良し悪しの指標として重要視している特徴量が集約されたクラスタのＩＤに対して、選択操作を行う。受付部２０７は、クラスタのＩＤに対する選択操作を検知した場合、選択操作が行われたＩＤのクラスタの指定を受付け、選択操作が行われたＩＤに対応するクラスタに対応する特徴量を、チケットデータの評価基準の決定に利用する特徴量として決定する。

Ｓ３０８において、受付部２０７は、Ｓ３０７で出力された指定画面を介して、クラスタの指定を受付けたか否かを判定する。受付部２０７は、クラスタの指定を受付けたと判定した場合、Ｓ３０９の処理に進み、クラスタの指定を受付けていないと判定した場合、図３の処理を終了する。
Ｓ３０９において、決定部２０８は、Ｓ３０８で受付けたと判定された指定が示すクラスタに対応する特徴量に基づいて、チケットデータの評価基準を決定する。例えば、Ｓ３０８で受付けたと判定された指定が示すクラスタが、図４のデンドログラムにおけるＩＤが４７のクラスタであるとする。この場合、Ｓ３０８で受付けたと判定された指定が示すクラスタに対応する特徴量は、「状態変化有り‐関係の変化‐関係の変化（対象）」、「状態変化有り‐位置変化‐位置関係の変化（物理）」、「状態変化有り‐位置変化‐位置変化（物理）」の３つである。

例えば、決定部２０８は、以下のようにして評価基準を決定する。即ち、決定部２０８は、教師データの正例データにおけるこれらの特徴量の出現頻度を特定し、特定した出現頻度を表示部に表示する等して出力することで、ユーザに提示する。そして、ユーザは、提示された各特徴量の出現頻度を確認し、評価態様をどうするか（例えば、閾値判定にするか否か、また、その際の閾値をどのようにするか等）を検討する。ユーザは、検討後に、入出力Ｉ／Ｆ１０５を介して接続された入力装置を介した操作を行い、情報処理装置１００への評価態様の指示を行う。
決定部２０８は、入出力Ｉ／Ｆ１０５を介して接続された入力装置を介した操作に基づいて、評価態様を決定する。決定部２０８は、例えば、入出力Ｉ／Ｆ１０５を介して接続された入力装置を介した操作に基づいて、閾値判定を行うことを示す指示と、その際に用いられる閾値の値と、を取得する。そして、決定部２０８は、取得した指示と、閾値と、Ｓ３０８で受付けたと判定された指定が示すクラスタに対応する特徴量と、に基づいて、評価基準を決定する。例えば、低評価と、中評価と、を分ける閾値として１が取得され、中評価と、高評価と、を分ける閾値として２が取得されたとする。この場合、決定部２０８は、特徴量（「状態変化有り‐関係の変化‐関係の変化（対象）」、「状態変化有り‐位置変化‐位置関係の変化（物理）」、「状態変化有り‐位置変化‐位置変化（物理）」）の出現回数が、１回未満ならば評価値を低評価とし、１回以上であり２回未満ならば評価値を中評価とし、２回以上であるならば評価値を高評価とするという評価基準を決定する。

また、決定部２０８は、決定した評価基準に、その評価基準がどのような観点からの評価基準であるかを決定してもよい。例えば、ユーザは、クラスタに対応する提示画面中の単語を確認し、確認した各単語がどのような概念を示すかを把握し、把握した概念を示す情報（例えば、文字列等）を、入出力Ｉ／Ｆ１０５を介して接続された入力装置を用いて、情報処理装置１００に入力する。決定部２０８は、入出力Ｉ／Ｆ１０５を介して接続された入力装置を介して入力された情報に基づいて、「指定されたクラスタに基づく評価基準がどのような観点からの評価基準であるか」を人が理解しやすいように、決定した評価基準に自然言語のラベルを付与する。
また、評価態様には、各特徴量の出現回数の閾値判定以外にも、例えば、各特徴量の出現回数の偏差値が所定の範囲か否かに基づいて、評価値を決定する態様がある。
また、決定部２０８は、ユーザから評価態様の指定を受付けずに、Ｓ３０８で受付けたと判定された指定が示すクラスタに対応する特徴量と、予め定められた評価態様と、に基づいて、評価基準を決定してもよい。
Ｓ３０８で指定が受付けられたクラスタの数は、１つでもよいし、複数でもよい。複数のクラスタの指定が行われた場合、Ｓ３０９で、決定部２０８は、クラスタ毎に、評価基準の決定を行う。

（評価処理）
評価部２０９は、図３の処理で決定された評価基準を用いて、新たに入力されたチケットデータを評価する。
Ｓ３０９で決定された評価基準で決定された評価基準が、特徴量（例えば、「状態変化有り‐関係の変化‐関係の変化（対象）」、「状態変化有り‐位置変化‐位置関係の変化（物理）」、「状態変化有り‐位置変化‐位置変化（物理）」）の出現回数が、１回未満ならば評価値を低評価とし、１回以上であり２回未満ならば評価値を中評価とし、２回以上であるならば評価値を高評価とするという評価基準であるとする。
この場合、評価部２０９は、入力されたチケットデータから特徴量を抽出し、抽出した各特徴量に、評価基準に関する特徴量がどれだけ含まれるかを特定する。評価部２０９は、特定した数に基づいて、評価基準に則り、チケットデータの評価値を決定することで、チケットデータを評価する。
また、評価部２０９は、図３の処理で、複数の評価基準が決定された場合、評価基準毎に、チケットデータの評価を行う。

このように、評価部２０９は、図３の処理で決定された評価基準を用いて、チケットデータを評価することで、評価を行う役割のユーザの個性が反映された評価を行うことができる。これにより、情報処理装置１００は、評価を行う役割のユーザがチケットデータを評価する手間を軽減できる。
出力部２０６は、例えば、評価部２０９による評価結果を表示部に表示することで、出力する。また、出力部２０６は、評価部２０９による評価の結果が予め定められた評価値（例えば、高評価等）でなかった場合、例文を出力することとしてもよい。この例文の情報は、予め、補助記憶装置１０３に記憶されている。また、出力部２０６は、評価部２０９による評価の結果が予め定められた評価値でなかった場合、アドバイス情報を出力することとしてもよい。アドバイス情報は、予め補助記憶装置１０３に記憶されている。このような処理により、出力部２０６は、チケットデータの作成者に対して、チケットデータ作成の補助を行うことができる。この例文の情報や、アドバイス情報は、チケットデータの作成者への支援情報の一例である。
出力部２０６は、例えば、以下のような形式で評価結果を出力する。以下の評価結果の例における○、△、×は、それぞれ高評価、中評価、低評価を示す。○、△、×は、それぞれ、別個の評価基準における評価値を示す。△、×の後の記載は、チケットデータの作成者へのアドバイス情報の一例である。

＝＝＝＝＝＝＝＝＝＝＝評価結果例＝＝＝＝＝＝＝＝＝＝＝＝＝
△−「場所又は時間」に関する記述が足りないかもしれません。具体的な場所や明確な日時に関する情報を増やすと良いかもしれません。
×−「判断や予測」に関する記述が少ないようです。あなたが事象をどう認識し、判断したかについて記述を増やしてください。認識、判断を事実のように断定してしまっているパターンもあるかもしれません。
△−「目的」に関する記述が検知できませんでした。起票したチケットが継続的改善系の場合は、何を実現したいのかといった目的を書いてみてはいかがでしょう。
○−「対象」について明確に書かれています。
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

（効果）
以上、本実施形態では、情報処理装置１００は、教師データから抽出した複数の特徴量に対応する文節に含まれる単語の分散表現を取得し、取得した分散表現に基づいて、抽出した複数の特徴量をクラスタリングすることで、集約した。分散表現が示すベクトルは、意味が近い程に近いベクトルとなるという性質を有するため、これにより、情報処理装置１００は、文書データから抽出された類似する特徴量を集約できる。
また、情報処理装置１００は、正例と負例とを含む教師データに基づいて、チケットデータの質の良し悪しを識別する分類モデルを学習した。そして、情報処理装置１００は、学習した分類モデルにおける教師データの特徴量の寄与度に基づいて、チケットデータの評価におけるユーザの個性が反映された複数の特徴量を抽出した。情報処理装置１００は、抽出した特徴量を、クラスタリングし、集約し、複数のクラスタを決定した。これにより、情報処理装置１００は、チケットデータの評価におけるユーザの個性が反映された特徴量について、類似する特徴量を集約できる。
そして、情報処理装置１００は、集約した各クラスタのうち、チケットデータの評価基準の決定に利用される特徴量を含むクラスタの指定を受付け、受け付けた指定が示すクラスタに含まれる特徴量に基づいて、チケットデータの評価基準を決定した。これにより、情報処理装置１００は、ユーザの個性が反映されたチケットデータの評価基準を決定できる。個性という情報は暗黙的であり、表現することが困難であるが、本実施形態の処理により、情報処理装置１００は、ユーザの個性が反映されたチケットデータの評価基準を決定することが可能となる。更に、情報処理装置１００は、決定した評価基準に基づいて、チケットデータを評価することとした。これにより、情報処理装置１００は、チケットデータについて、ユーザの個性が反映された評価を行うことができ、ユーザが直接チケットデータを評価する手間を軽減できる。

（変形例）
本実施形態では、情報処理装置１００は、それぞれがチケットデータである教師データから抽出された特徴量を集約することとした。しかし、情報処理装置１００は、他のデータから抽出された特徴量を集約することとしてもよい。
例えば、情報処理装置１００は、あるユーザがコメントの投稿サービス等に過去に投稿した複数のコメントから、Ｓ３０１と同様の処理で、各文節について特徴量を抽出する事としてもよい。そして、情報処理装置１００は、抽出した特徴量に対応する文節の主要語を特定し、特定した主要語の分散表現を取得する。情報処理装置１００は、取得した分散表現に基づいて、抽出した特徴量をクラスタリングすることで、意味が類似する特徴量を集約する。情報処理装置１００は、集約した結果を示す情報を、図５のような提示画面を含む図４のようなデンドログラムとして、表示部に表示する。これにより、ユーザは、自分が投稿しているコメントに表れている個性を把握することができるようになる。例えば、ユーザは、自分が他人に対してどのような意見をよく投稿しているか等を把握できる。
本実施形態では、情報処理装置１００の評価部２０９が、図３の処理で決定された評価基準を用いて、新たに入力されたチケットデータを評価することとした。しかし、情報処理装置１００に実装されたＡＩが、図３の処理で決定された評価基準を用いて、新たに入力されたチケットデータを評価することとしてもよい。また、外部の情報処理装置に実装されたＡＩが、情報処理装置１００により図３の処理で決定された評価基準を用いて、新たに入力されたチケットデータを評価することとしてもよい。

＜実施形態２＞
従来の会議、打合せ等の話し合いにおいては、論点の幅はその参加者の思いつく範囲に限定されるが、思いつく範囲が狭いと、発想が乏しくなり議論が行き詰まったり、リスクを見落として手戻りが発生してしまったりする可能性がある。そのため、参加者というチームの枠を超えた発想を生み出すために、過去のチームの知恵等の現在のチームの知恵以外の知恵を簡易に利用できるようにしたいという要望があった。
そこで、本実施形態では、情報処理装置１００が会議を行うチームに対して、話し合いが不足している可能性のある観点を提示する処理について説明する。
本実施形態の情報処理装置１００のハードウェア構成及び機能構成は、実施形態１と同様である。

本実施形態では、補助記憶装置１０３は、過去に行われた会議の内容を示す議事録データ（例えば、テキストデータ、音声データ等の文書データ）を予め記憶しているとする。また、議事録データは、ユーザにより予め適切な内容であると確認された正例であるデータ（正例データ）と、ユーザにより予め不適切な内容であると確認された負例であるデータ（負例データ）と、を含むとする。
本実施形態の評価基準決定処理について、図３を用いて説明する。本実施形態のＳ３０１〜Ｓ３０７の処理は、チケットデータの代わりに議事録データが用いられる点を除いて、実施形態１と同様である。
本実施形態では、情報処理装置１００は、複数の評価基準を決定することとする。情報処理装置１００は、例えば、Ｓ３０８〜Ｓ３０９の処理を、複数回、繰り返すことで、複数の評価基準を決定する。また、情報処理装置１００は、例えば、Ｓ３０８で複数のクラスタの指定を受付けて、Ｓ３０９で、その複数クラスタそれぞれについて、対応する特徴量に基づいて、評価基準を決定してもよい。また、情報処理装置１００は、例えば、Ｓ３０８で全てのクラスタの指定を受付けたとして、Ｓ３０９で、全てのクラスタそれぞれについて、対応する特徴量に基づいて、評価基準を決定してもよい。

そして、あるチームが会議を行い、その会議の議事録データが、新たに情報処理装置１００に入力され、評価の対象として指定されたとする。
評価部２０９は、図３の処理で決定された複数の評価基準それぞれを用いて、新たに入力された議事録データを評価する。そして、評価部２０９は、図３の処理で決定された複数の評価基準それぞれに対応する複数の評価結果を決定する。
本実施形態では、図３の処理で決定された複数の評価基準それぞれに対応する複数の評価結果それぞれは、大きい程、良好であることを示し、小さい程、不良であることを示す値で表されることとする。
評価部２０９は、例えば、これらの複数の評価結果のうち値の小さいものから予め定められた個数だけ選択する。また、評価部２０９は、例えば、これらの複数の評価結果に含まれる予め定められた閾値以下の評価結果のうち値の小さいものから予め定められた個数だけ選択してもよい。そして、評価部２０９は、選択した評価結果それぞれに対応する評価基準を特定し、特定した評価基準の決定に用いられたクラスタを特定する。
出力部２０６は、例えば、評価部２０９により特定されたクラスタを、対応する評価結果の低い順にソートして、表示部に表示することで、出力する。

以上、本実施形態では、情報処理装置１００は、過去の議事録データに基づいて、複数の評価基準を決定して、決定した複数の評価基準を用いて、評価の対象となる文書データを評価した。そして、情報処理装置１００は、評価結果の低いものから一部を選択して、選択した評価結果に対応する評価基準に対応するクラスタを出力することとした。これにより、情報処理装置１００は、評価の対象となる文書データに適切に含まれていない観点を示すクラスタを出力することで、会議を行っているチームに属するユーザに提示できる。ユーザは、提示されたクラスタが示す観点についての話し合いが不足していたことを確認し、以後の話し合いをより適切に行うことができるようになる。このように、情報処理装置１００は、現在のチームの知恵以外の知恵を簡易に利用できるようにすることができる。
また、情報処理装置１００は、人間を介さずに、現在のチームの知恵以外の知恵を簡易に利用できるようにするため、例えば、過去に会議を行った人が退職等したとしても、その人の知恵を残し続けることができる。また、会議が行われる程、利用できる議事録データが増加するため、情報処理装置１００は、より多くの知恵を利用できるようにすることができる。

＜実施形態３＞
本実施形態では、実施形態２と異なる方法で、情報処理装置１００が会議を行うチームに対して、話し合いが不足している可能性のある観点を提示する処理について説明する。
本実施形態の情報処理装置１００のハードウェア構成及び機能構成は、実施形態１と同様である。

本実施形態では、補助記憶装置１０３は、実施形態２と同様に、過去に行われた会議の内容を示す議事録データを予め記憶しているとする。また、本実施形態では、補助記憶装置１０３に予め記憶された議事録データは、ユーザにより予め適切な内容であると確認された正例データと、ユーザにより予め不適切な内容であると確認された負例データと、の区別のないデータである。
本実施形態の処理について説明する。

本実施形態では、取得部２０４は、補助記憶装置１０３に予め記憶された過去の議事録データを教師データとして、教師データから単語を抽出し、抽出した単語の分散表現を取得する。集約部２０５は、取得部２０４により取得された分散表現に基づいて、取得部２０４により抽出された単語をクラスタリングする。このクラスタリングの結果、得られた各クラスタを、単語の特徴量となる単語クラスタとする。単語クラスタとは、複数の単語をクラスタリングして得られる複数のクラスタそれぞれを示す特徴量である。ある単語の特徴量である単語クラスタは、その単語が属しているクラスタを示している。また、集約部２０５は、各単語クラスタについて、クラスタの中心に最も近い予め定められた個数の単語を並べたものを各単語クラスタの名前として決定する。
そして、出力部２０６は、集約部２０５によるクラスタリングの結果を出力する。出力部２０６は、例えば、集約部２０５によるクラスタリングの結果を、図４に示すようなデンドログラムの形式で出力することとしてもよい。

その後、あるチームが会議を行い、その会議の議事録データが、新たに情報処理装置１００に入力され、評価の対象として指定されたとする。
解析部２０１は、指定された議事録データに含まれる全ての単語を抽出し、抽出した各単語について、特徴量（単語クラスタ）を抽出する。解析部２０１は、例えば、抽出した各単語の分散表現を求めて、求めた分散表現が、どのクラスタに属するかに基づいて、各単語の単語クラスタを抽出する。
そして、解析部２０１は、特徴量（単語クラスタ）毎に、特徴量に対応する単語が評価対象の議事録データ内にどのくらい出現するかを示す指標を求める。本実施形態では、この指標として、以下のように定義する議論率を用いる。議論率は、（評価対象の議事録データに含まれるある特徴量に対応する単語の総数）／（教師データ（補助記憶装置１０３に予め記憶された議事録データ）に含まれるその特徴量に対応する単語の総数）として定義される指標である。
解析部２０１は、特徴量（単語クラスタ）毎に、議論率を求める。議論率が高い程、その特徴量に対応する観点について、よく議論されていると解釈できる。また、議論率が低い程、その特徴量に対応する観点について、議論が足りていないと解釈できる。

解析部２０１は、求めた議論率のうち、値の小さいものから予め定められた個数だけ選択する。また、解析部２０１は、例えば、求めた議論率に含まれる予め定められた閾値以下である議論率のうち値の小さいものから予め定められた個数だけ選択してもよい。解析部２０１は、選択した議論率に対応する特徴量（単語クラスタ）を特定する。
そして、出力部２０６は、解析部２０１により特定された特徴量を、対応する議論率の低い順にソートして、表示部に表示することで、出力する。これにより、出力部２０６は、ユーザに対して、議論が足りていないと解釈される観点を提示できる。また、出力部２０６は、解析部２０１により特定された特徴量に対応する単語（単語クラスタに含まれる単語）を提示する画面を、表示部に表示することで、出力してもよい。これにより、出力部２０６は、ユーザに対して、議論が足りていないと解釈される観点をより詳細に提示できる。

本実施形態では、特徴量（単語クラスタ）毎に、特徴量に対応する単語が評価対象の議事録データ内にどのくらい出現するかを示す指標である議論率は、（評価対象の議事録データに含まれるある特徴量に対応する単語の総数）／（教師データ（補助記憶装置１０３に予め記憶された議事録データ）に含まれるその特徴量に対応する単語の総数）として定義されることとした。しかし、議論率は、以下で説明するように定義される指標であるとしてもよい。
まず、単語群（複数の単語の集合）について、単語群の体積を以下のように定義する。即ち、分散表現のベクトル空間（意味空間）における凸包であって、ある単語群に含まれる各単語に対応するベクトルを示す複数の点から選択された点を各頂点として、その複数の点のうち頂点とした点以外の点を全て内包する凸包の体積（超体積）を、その単語群の体積として定義する。
そして、議論率は、例えば、この単語群の体積を用いて以下のように定義される指標であるとしてもよい。即ち、議論率は、（評価対象の議事録データに含まれるある特徴量に対応する全ての単語の集合である単語群の体積）／（教師データ（補助記憶装置１０３に予め記憶された議事録データ）に含まれるその特徴量に対応する全ての単語の集合である単語群の体積）として定義される指標であるとしてもよい。

その場合、解析部２０１は、議論率を以下のようにして求める。即ち、解析部２０１は、まず、評価対象の議事録データに含まれるある特徴量に対応する全ての単語の集合である単語群を特定し、特定した単語群に含まれる全ての単語の意味空間上における点を特定する。そして、解析部２０１は、特定した点に含まれる点を頂点として、特定した点のうち頂点とした点以外の全てを内包する意味空間上の凸包を特定し、特定した凸包の体積（超体積）を、その単語群の体積として求める。
次に、解析部２０１は、補助記憶装置１０３に予め記憶された議事録データに含まれるその特徴量に対応する全ての単語の集合である単語群を特定し、特定した単語群に含まれる全ての単語の意味空間上における点を特定する。そして、解析部２０１は、特定した点に含まれる点を頂点として、特定した点のうち頂点とした点以外の全てを内包する意味空間上の凸包を特定し、特定した凸包の体積（超体積）を、その単語の体積として求める。
そして、解析部２０１は、例えば、評価対象の議事録データから求めた単語の体積を、教師データである補助記憶装置１０３に予め記憶された議事録データから求めた単語の体積で除することで、議論率を求めることとなる。

本実施形態では、補助記憶装置１０３に予め記憶された議事録データは、ユーザにより予め適切な内容であると確認された正例データと、ユーザにより予め不適切な内容であると確認された負例データと、の区別がないデータであるとした。しかし、補助記憶装置１０３に予め記憶された議事録データは、ユーザにより予め適切な内容であると確認された正例データと、ユーザにより予め不適切な内容であると確認された負例データと、の区別があるデータであるとしてもよい。
その場合、情報処理装置１００は、例えば、以下のような処理を行う。
情報処理装置１００は、Ｓ３０１で抽出され以降の処理で用いられる特徴量として単語クラスタを用いる点を除いて、Ｓ３０７の処理までは実施形態２と同様の処理を行う。

その後、あるチームが会議を行い、その会議の議事録データが、新たに情報処理装置１００に入力され、評価の対象として指定されたとする。
解析部２０１は、指定された議事録データに含まれる全ての単語を抽出し、抽出した各単語について、特徴量（単語クラスタ）を抽出する。そして、解析部２０１は、特徴量（単語クラスタ）毎に、特徴量に対応する単語が評価対象の議事録データ内にどのくらい出現するかを示す議論率を求める。この場合の議論率は、例えば、（評価対象の議事録データに含まれるある特徴量に対応する単語の総数（体積））／（教師データ（Ｓ３０１で特徴量抽出の対象となった過去の議事録データ）に含まれるその特徴量に対応する単語の総数（体積））として求められる。

そして、解析部２０１は、例えば、特徴量（単語クラスタ）毎に、議論率を求め、求めた議論率のうち、値の小さいものから予め定められた個数だけ選択する。また、解析部２０１は、例えば、求めた議論率に含まれる予め定められた閾値以下である議論率のうち値の小さいものから予め定められた個数だけ選択してもよい。解析部２０１は、選択した議論率に対応する特徴量（単語クラスタ）を特定する。そして、出力部２０６は、解析部２０１により特定された特徴量を、対応する議論率の低い順にソートして、表示部に表示することで、出力する。また、出力部２０６は、各特徴量に対応する単語群についても出力することとしてもよい。
補助記憶装置１０３に予め記憶された議事録データに正例データと負例データとの区別がある場合、情報処理装置１００は、以上のような処理を行うこととしてもよい。

また、補助記憶装置１０３に予め記憶された議事録データに正例データと負例データとの区別がある場合、情報処理装置１００は、以下のような処理を行うこととしてもよい。
取得部２０４は、正例データに含まれる単語の集合から、負例データに含まれる単語を除いた単語の集合を特定する。取得部２０４は、特定した単語の集合から単語を抽出し、抽出した単語の分散表現を取得する。集約部２０５は、取得部２０４により取得された分散表現に基づいて、特定した単語の集合に含まれる単語をクラスタリングする。このクラスタリングの結果、得られた各クラスタを、特徴量である単語クラスタとする。集約部２０５は、クラスタリングの処理の結果として、図４のようなデンドログラムを生成する。
そして、出力部２０６は、集約部２０５によるクラスタリングの結果を出力する。

その後、あるチームが会議を行い、その会議の議事録データが、新たに情報処理装置１００に入力され、評価の対象として指定されたとする。
解析部２０１は、指定された議事録データに含まれる全ての単語を抽出し、抽出した各単語について、特徴量（単語クラスタ）を抽出する。そして、解析部２０１は、特徴量（単語クラスタ）毎に、特徴量に対応する単語が評価対象の議事録データ内にどのくらい出現するかを示す議論率を求める。この場合の議論率は、例えば、（評価対象の議事録データに含まれるある特徴量に対応する単語の総数（体積））／（教師データ（補助記憶装置１０３に予め記憶された過去の議事録データに含まれる正例データ）に含まれるその特徴量に対応する単語の総数（体積））として求められる。

そして、解析部２０１は、例えば、特徴量（単語クラスタ）毎に、議論率を求め、求めた議論率のうち、値の小さいものから予め定められた個数だけ選択する。また、解析部２０１は、例えば、求めた議論率に含まれる予め定められた閾値以下である議論率のうち値の小さいものから予め定められた個数だけ選択してもよい。解析部２０１は、選択した議論率に対応する特徴量（単語クラスタ）を特定する。そして、出力部２０６は、解析部２０１により特定された特徴量を、対応する議論率の低い順にソートして、表示部に表示することで、出力する。また、出力部２０６は、各特徴量に対応する単語群についても出力することとしてもよい。
補助記憶装置１０３に予め記憶された議事録データに正例データと負例データとが含まれる場合、情報処理装置１００は、以上のような処理を行うこととしてもよい。

また、補助記憶装置１０３に予め記憶された議事録データに正例データと負例データとの区別がある場合、情報処理装置１００は、以下のような処理を行うこととしてもよい。
取得部２０４は、負例データに含まれる単語の集合から、正例データに含まれる単語を除いた単語の集合を特定する。取得部２０４は、特定した単語の集合から単語を抽出し、抽出した単語の分散表現を取得する。集約部２０５は、取得部２０４により取得された分散表現に基づいて、特定した単語の集合に含まれる単語をクラスタリングする。このクラスタリングの結果、得られた各クラスタを、特徴量である単語クラスタとする。この場合、特徴量である単語クラスタは、負例データのみに現れ、正例データに現れない単語のクラスタとなっている。そのため、これらの特徴量を持つ単語の出現の頻度が高い程、不適切な観点の話し合いがより多く行われていると解釈できる。
集約部２０５は、クラスタリングの処理の結果として、図４のようなデンドログラムを生成する。そして、出力部２０６は、集約部２０５によるクラスタリングの結果を出力する。

その後、あるチームが会議を行い、その会議の議事録データが、新たに情報処理装置１００に入力され、評価の対象として指定されたとする。
解析部２０１は、指定された議事録データに含まれる全ての単語を抽出し、抽出した各単語について、特徴量（単語クラスタ）を抽出する。そして、解析部２０１は、特徴量（単語クラスタ）毎に、特徴量に対応する単語が評価対象の議事録データ内にどのくらい出現するかを示す議論率を求める。この場合の議論率は、例えば、（評価対象の議事録データに含まれるある特徴量に対応する単語の総数（体積））／（教師データ（補助記憶装置１０３に予め記憶された過去の議事録データに含まれる負例データ）に含まれるその特徴量に対応する単語の総数（体積））として求められる。

そして、解析部２０１は、例えば、特徴量（単語クラスタ）毎に、議論率を求め、求めた議論率のうち、値の高いものから予め定められた個数だけ選択する。また、解析部２０１は、例えば、求めた議論率に含まれる予め定められた閾値以上である議論率のうち値の高いものから予め定められた個数だけ選択してもよい。解析部２０１は、選択した議論率に対応する特徴量（単語クラスタ）を特定する。そして、出力部２０６は、解析部２０１により特定された特徴量を、対応する議論率の高い順にソートして、表示部に表示することで、出力する。また、出力部２０６は、各特徴量に対応する単語群についても出力することとしてもよい。
これにより、情報処理装置１００は、ユーザに対して、話し合われている不適切な観点を提示することができ、このような観点について話し合いが継続されることに対して、ユーザに注意を喚起できる。
補助記憶装置１０３に予め記憶された議事録データに正例データと負例データとが含まれる場合、情報処理装置１００は、以上のような処理を行うこととしてもよい。

以上、本実施形態では、情報処理装置１００は、抽出される各特徴量について議論率を求めて、求めた議論率に基づいて、評価対象の議事録データに対応する話し合いにおいて留意すべき観点（議論が足りていないと解釈できる観点、不適切な議論がなされている観点等）を示す特徴量を特定した。そして、情報処理装置１００は、特定した特徴量を出力することで、会議を行うチームに属するユーザに提示した。これにより、ユーザは、留意すべき観点を把握できる。ユーザは、提示された特徴量が示す観点について把握したうえで、以後の話し合いをより適切に行うことができるようになる。このように、情報処理装置１００は、現在のチームの知恵以外の知恵を簡易に利用できるようにすることができる。

＜その他の実施形態＞
実施形態１〜３では、情報処理装置１００は、単体の情報処理装置であるとした。しかし、情報処理装置１００は、ネットワーク（ＬＡＮやインターネット）を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置１００に含まれる複数の情報処理装置それぞれのＣＰＵが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、図２の機能及び図３のフローチャートの処理等が実現される。

また、実施形態１、２では、情報処理装置１００は、各特徴量に対応する単語の分散表現に基づいて、複数の特徴量をクラスタリングし、クラスタリング結果に基づいて、評価基準を決定し、決定した評価基準に基づいた評価結果として、話し合いが不足している観点を示す特徴量やその特徴量に対応する単語を出力することで、ユーザに提示することとした。
しかし、情報処理装置１００は、単語の代わりに、文節や文、パラグラフ（文の列）、文書（パラグラフの列（文の列））（以下では、文節等とする）を用いて、単語の分散表現の代わりに、文節等から、例えば、ニューラル言語モデル（深層学習の既存の手法）等を用いて求まるベクトルを用いることとしてもよい。ニューラル言語モデル等を用いて、文節等について、互いの意味が近い程、互いに近いベクトルになるという単語の分散表現と同様の性質を持った文節等に対応するベクトルを求めることができる。以下では、このようなベクトルを、文節等ベクトルとする。
その場合、情報処理装置１００は、各特徴量に対応する文節等の文節等ベクトルに基づいて、複数の特徴量をクラスタリングし、クラスタリング結果に基づいて、評価基準を決定し、決定した評価基準に基づいた評価結果として、話し合いが不足している観点を示す特徴量やその特徴量に対応する文節等を出力することで、ユーザに提示することとしてもよい

また、実施形態２、３では、情報処理装置１００が、過去の議事録データに含まれる単語をクラスタリングすることで、特徴量としての単語クラスタを決定し、特徴量（単語クラスタ）毎の議論率を求めて、求めた議論率のうち、大きい（小さい）ものから選択された議論率に対応する特徴量や特徴量に対応する単語を出力する処理を説明した。しかし、情報処理装置１００は、単語の代わりに、文節等を用いて、単語の分散表現の代わりに、文節等ベクトルを用いることとしてもよい。
その場合、情報処理装置１００が、過去の議事録データに含まれる文節等をクラスタリングすることで、特徴量としての文節等クラスタを決定し、特徴量（文節等クラスタ）毎の議論率を求めて、求めた議論率のうち、大きい（小さい）ものから選択された議論率に対応する特徴量や特徴量に対応する文節等を出力することとしてもよい。この場合、議論率は、例えば、（評価対象の議事録データに含まれるある特徴量に対応する文節等の総数（体積））／（教師データ（補助記憶装置１０３に予め記憶された過去の議事録データ）に含まれるその特徴量に対応する文節等の総数（体積））として求められる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置１００の機能構成の一部又は全てをハードウェアとして情報処理装置１００に実装してもよい。

Claims

文書データである入力データから複数の特徴量を抽出する抽出手段と、
前記抽出手段により抽出された前記複数の特徴量それぞれに対応する単語の分散表現を取得する取得手段と、
前記取得手段により取得された分散表現に基づいて、前記抽出手段により抽出された前記複数の特徴量を、複数の区分に集約する集約手段と、
を有する情報処理装置。
前記集約手段により集約された前記複数の区分を示す情報を出力する第１の出力手段を更に有する請求項１記載の情報処理装置。
前記集約手段により集約された前記複数の区分のうち、文書データの評価基準の決定に利用される特徴量を含む区分の指定を受付ける受付手段と、
前記受付手段により受付けられた指定が示す区分に含まれる特徴量に基づいて、前記評価基準を決定する決定手段と、
を更に有する請求項１又は２記載の情報処理装置。
前記決定手段により決定された前記評価基準に基づいて、文書データの評価を行う評価手段を更に有する請求項３記載の情報処理装置。
前記評価手段による評価の結果を出力する第２の出力手段を更に有する請求項４記載の情報処理装置。
前記第２の出力手段は、前記評価手段による評価の結果が、予め定められた評価値である場合、文書データの作成者への支援情報を、更に出力する請求項５記載の情報処理装置。
前記評価手段は、前記決定手段により決定された複数の前記評価基準それぞれに基づいて、文書データの評価を行い、
前記決定手段により決定された複数の前記評価基準それぞれに対応する前記評価手段による複数の評価結果に基づいて選択された前記複数の区分に含まれる区分を出力する第３の出力手段を更に有する請求項４乃至６何れか１項記載の情報処理装置。
前記受付手段は、更に、前記評価基準における評価態様の指定を受付け、
前記決定手段は、前記受付手段により受付けられた指定が示す区分と評価態様と、に基づいて、前記評価基準を決定する請求項３乃至７何れか１項記載の情報処理装置。
前記受付手段は、前記評価基準の決定に利用される特徴量を含む区分の指定に利用される指定画面を介して、前記集約手段により集約された前記複数の区分のうち、前記評価基準の決定に利用される特徴量を含む区分の指定を受付ける請求項３乃至８何れか１項記載の情報処理装置。
前記指定画面は、前記集約手段により集約された前記複数の区分それぞれについて、区分に含まれる特徴量に対応する単語を示す情報を含む請求項９記載の情報処理装置。
前記入力データは、ユーザにより正例であると確認された正例データと前記ユーザにより負例であると確認された負例データとを含み、
前記抽出手段は、前記入力データに基づき学習され、文書データが正例であるか負例であるかの識別に利用される分類モデルにおける前記入力データの特徴量それぞれの寄与度に基づいて、前記複数の特徴量を抽出する請求項１乃至１０何れか１項記載の情報処理装置。
前記抽出手段は、前記分類モデルにおける前記入力データの特徴量それぞれの寄与度に基づいて、寄与度が最も大きいものから順に予め定められた数の特徴量を、前記複数の特徴量として抽出する請求項１１記載の情報処理装置。
前記抽出手段は、前記分類モデルにおける前記入力データの特徴量それぞれの寄与度に基づいて、寄与度が予め定められた閾値以上の特徴量を、前記複数の特徴量として抽出する請求項１１記載の情報処理装置。
前記抽出手段により抽出された前記複数の特徴量それぞれに対応する単語が指定された文書データにそれぞれどれくらい出現するかを示す指標に基づいて選択された特徴量を出力する第４の出力手段を更に有する請求項１乃至１３何れか１項記載の情報処理装置。
前記抽出手段により抽出された前記複数の特徴量それぞれに対応する単語が指定された文書データにそれぞれどれくらい出現するかを示す指標に基づいて選択された特徴量に対応する単語を出力する第５の出力手段を更に有する請求項１乃至１４何れか１項記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
文書データである入力データから複数の特徴量を抽出する抽出ステップと、
前記抽出ステップで抽出された前記複数の特徴量それぞれに対応する単語の分散表現を取得する取得ステップと、
前記取得ステップで取得された分散表現に基づいて、前記抽出ステップで抽出された前記複数の特徴量を、複数の区分に集約する集約ステップと、
を含む情報処理方法。
コンピュータを、請求項１乃至１５何れか１項記載の情報処理装置の各手段として、機能させるためのプログラム。