JPWO2018230551A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JPWO2018230551A1
JPWO2018230551A1 JP2018567326A JP2018567326A JPWO2018230551A1 JP WO2018230551 A1 JPWO2018230551 A1 JP WO2018230551A1 JP 2018567326 A JP2018567326 A JP 2018567326A JP 2018567326 A JP2018567326 A JP 2018567326A JP WO2018230551 A1 JPWO2018230551 A1 JP WO2018230551A1
Authority
JP
Japan
Prior art keywords
information processing
evaluation
processing apparatus
unit
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018567326A
Other languages
English (en)
Other versions
JP6622430B2 (ja
Inventor
勲 園部
勲 園部
喬 三淵
喬 三淵
田中 秀明
秀明 田中
弘明 鷹栖
弘明 鷹栖
一宏 山田
一宏 山田
泰弘 光野
泰弘 光野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NS Solutions Corp
Original Assignee
NS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NS Solutions Corp filed Critical NS Solutions Corp
Publication of JPWO2018230551A1 publication Critical patent/JPWO2018230551A1/ja
Application granted granted Critical
Publication of JP6622430B2 publication Critical patent/JP6622430B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

文書データである入力データから複数の特徴量を抽出し、抽出された複数の特徴量それぞれに対応する単語の分散表現を取得し、取得された分散表現に基づいて、抽出された複数の特徴量を、複数の区分に集約する。

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
近年、人工知能(AI:Artificial Intelligence)の研究開発が活発に行われ、急速に実用化が進んできている。AIは、コンピュータにより、人が実現する学習、推論、判断等の様々な知覚や知性を人工的に再現するものである。
AIのなかで、知的労働者の作業や意思決定の姿を手本にしてロボット化するRPA(Robotic Process Automation、Digital Labor)は、業務の自動化、効率化を図るものである。RPAにおいて、AIが文書を評価することが行われている。
このような文書の品質を評価する技術に関して、特許文献1には、文書の品質を評価するとともに見本となる文書を提示するという技術が提案されている。
特許文献1は、入力者に対してテキスト文書群の品質の評価結果に加えて、改善すべき文章及び見本とすべき文章の例を提示する文書品質評価システムであって、テキスト文書群内の各文章について構文解析を行ない、テキスト文書群についての品質を複数の評価項目についてスコアリングし、評価結果を第1のユーザに提示し、第1のユーザについての最低評価項目において低評価となる条件に該当する第1の文章群と、最低評価項目において第1のユーザよりも評価が高い第2のユーザについての高評価となる条件に該当する第2の文章群とを抽出し、第1と第2の文章群からそれぞれ類似度の高い第1と第2の文章を抽出し、第1の文章を改善対象の例文、第2の文章を見本の例文として提示するものである。
特開2011‐170535号公報
文書の評価は、文書データから抽出された特徴量に基づいて行われる場合がある。文書データからは様々な特徴量が抽出できるが、文書データから抽出される特徴量には、類似する特徴量も多数あり、煩雑である。例えば、ユーザが、これらの特徴量を確認しても、その文書がどのような文書であるかを把握することは困難である。そこで、文書データから抽出される類似する特徴量を集約したいという要望があった。
特許文献1では、文書データから抽出される類似する特徴量を集約できなかった。
そこで、本発明の情報処理装置は、文書データである入力データから複数の特徴量を抽出する抽出手段と、前記抽出手段により抽出された前記複数の特徴量それぞれに対応する単語の分散表現を取得する取得手段と、前記取得手段により取得された分散表現に基づいて、前記抽出手段により抽出された前記複数の特徴量を、複数の区分に集約する集約手段と、を有する。
本発明によれば、文書データから抽出される類似する特徴量を集約することができる。
図1は、情報処理装置のハードウェア構成の一例を示す図である。 図2は、情報処理装置の機能構成の一例を示す図である。 図3は、評価基準決定処理の一例を示すフローチャートである。 図4は、クラスタリング結果を示すデンドログラムの一例を示す図である。 図5Aは、単語提示画面の一例を示す図である。 図5Bは、単語提示画面の一例を示す図である。 図5Cは、単語提示画面の一例を示す図である。 図5Dは、単語提示画面の一例を示す図である。 図5Eは、単語提示画面の一例を示す図である。 図5Fは、単語提示画面の一例を示す図である。 図5Gは、単語提示画面の一例を示す図である。 図5Hは、単語提示画面の一例を示す図である。 図5Iは、単語提示画面の一例を示す図である。 図5Jは、単語提示画面の一例を示す図である。 図5Kは、単語提示画面の一例を示す図である。 図5Lは、単語提示画面の一例を示す図である。 図5Mは、単語提示画面の一例を示す図である。 図5Nは、単語提示画面の一例を示す図である。 図5Oは、単語提示画面の一例を示す図である。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
(本実施形態の処理の概要)
本実施形態の処理の概要を説明する。本実施形態では、情報処理装置100が処理の主体であるとする。情報処理装置100は、パーソナルコンピュータ(PC)、サーバ装置、タブレット装置、スマートホン等の情報処理装置である。
本実施形態では、情報処理装置100は、課題管理システムにおけるチケットデータ(文書データ)から、チケットデータの評価を担当するユーザの個性が反映された特徴量を抽出し、抽出した特徴量に対応する単語を分散表現に変換する。そして、情報処理装置100は、分散表現に変換した単語同士の距離に基づいて、抽出した特徴量を、クラスタリングすることで集約する。
情報処理装置100は、評価基準の決定に利用される特徴量を含むクラスタの指定を受付け、受け付けた指定が示すクラスタに含まれる特徴量に基づいて、チケットデータの評価を担当するユーザの個性が反映されたチケットデータの評価基準を決定する。
(情報処理装置のハードウェア構成)
図1は、情報処理装置100のハードウェア構成の一例を示す図である。
情報処理装置100は、CPU101、主記憶装置102、補助記憶装置103、ネットワークI/F104、入出力I/F105を含む。各要素は、システムバス106を介して、相互に通信可能に接続されている。
CPU101は、情報処理装置100を制御する中央演算装置である。主記憶装置102は、CPU101のワークエリアやデータの一時的な記憶場所として機能するRandom Access Memory(RAM)等の記憶装置である。
補助記憶装置103は、各種設定情報、各種プログラム、教師データ、各種辞書データ、各種モデル情報等を記憶する記憶装置である。補助記憶装置103は、例えば、Read Only Memory(ROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュメモリ等の記憶媒体として、構成される。
ネットワークI/F104は、インターネットやLAN等のネットワークを介した外部の装置との間での通信に利用されるインターフェースである。入出力I/F105は、マウス、キーボード、タッチパネルの操作部等の入力装置からの情報の入力に利用されるインターフェースである。また、入出力I/F105は、ディスプレイ、タッチパネルの表示部、スピーカ等の出力装置への情報の出力に利用されるインターフェースである。
CPU101が、補助記憶装置103に記憶されたプログラムに基づき処理を実行することで、図2で後述する情報処理装置100の機能及び図3で後述するフローチャートの処理等が実現される。
(情報処理装置の機能構成)
図2は、情報処理装置100の機能構成の一例を示す図である。
情報処理装置100は、解析部201、学習部202、抽出部203、取得部204、集約部205、出力部206、受付部207、決定部208、評価部209を含む。
解析部201は、文書データに対して、形態素解析、係り受け解析、単語のカテゴリ分類、文書データ内の文節の特徴量の決定(例えば、文節への意味役割付与等)等の解析を行う。
学習部202は、予めユーザにより質が良いと確認されたチケットデータから構成される正例の教師データと、予めユーザにより質が悪いと確認されたチケットデータから構成される負例の教師データと、に基づいて、チケットデータの質の良し悪しの識別に利用される分類モデルを学習する。本実施形態では、教師データは、予め、補助記憶装置103等に記憶されている。学習部202は、例えば、Naive Bayes、Random Forest等を用いて、この分類モデルを学習する。教師データは、入力データの一例である。
抽出部203は、学習部202により学習された分類モデルにおける教師データの特徴量それぞれの寄与度に基づいて、教師データの特徴量から、ユーザの個性が反映された特徴量を抽出する。
取得部204は、抽出部203により抽出された特徴量に対応する単語を、分散表現に変換する。
分散表現とは、単語を複数次元(例えば、100〜300次元)の実数ベクトルで表現する技術である。文書内の単語の意味は、周辺の単語(文脈語)から定まるとする分布仮説というものがある。分布仮説を前提とすると、単語を、各要素が各文脈語の出現確率を示すベクトルとして表現できる。文脈語となる単語は、膨大(1兆個以上)であるため、このベクトルのサイズも膨大(1兆以上の次元)となってしまう。しかし、このベクトルの要素は、ほとんどが0である。そのため、このベクトルは、圧縮が可能(例えば、100次元のサイズに圧縮)である。分散表現では、分布仮説を前提として、単語がこのように圧縮されたベクトルとして表現されることとなる。
分散表現で表された単語同士は、単語同士の意味が近い程、近いベクトルとなる。この性質により、抽出部203により抽出された特徴量それぞれに対応する単語の分散表現が示すベクトルは、意味が近いものほど近いベクトルとなる。本実施形態では、情報処理装置100は、この性質を利用して、抽出部203により抽出された特徴量に対応する単語の分散表現が示すベクトル同士の距離に基づいて、これらの特徴量をクラスタリングする。ベクトル同士の距離とは、ベクトル同士の相違の程度を示す指標であり、例えば、双方のベクトルの始点を同じ点とした場合のベクトルの終点同士の距離等である。これにより、情報処理装置100は、文書データから抽出された特徴量を、意味が類似するもの同士が同じクラスタに含まれるようにクラスタリングできる。クラスタは、特徴量が集約された区分の一例である。
また、分散表現で表された単語には、次のような性質もある。即ち、単語(1)と単語(2)との差を示すベクトルと、単語(3)と単語(4)との差を示すベクトルと、が近しいベクトルである程、単語(1)と単語(2)との関係性と、単語(3)と単語(4)との関係性と、が類似するという性質である。
集約部205は、取得部204により分散表現に変換された単語に基づいて、抽出部203により抽出された特徴量をクラスタリングする。即ち、集約部205は、対応する単語の分散表現のベクトル同士の距離に基づいて、抽出部203により抽出された特徴量をクラスタリングし、特徴量が集約された複数のクラスタを決定する。
出力部206は、集約部205により決定された各クラスタの情報、各クラスタに含まれる特徴量に対応する単語の情報等を、出力する。
受付部207は、集約部205により決定された複数のクラスタから、評価基準の決定に利用される特徴量を含むクラスタの指定を受付ける。
決定部208は、受付部207により受付けられた指定が示すクラスタに含まれる特徴量に基づいて、ユーザの個性が反映されたチケットデータの評価基準を決定する。
評価部209は、決定部208により決定された評価基準を用いて、チケットデータの評価を行う。
(評価基準決定処理)
図3は、評価基準決定処理の一例を示すフローチャートである。
S301において、解析部201は、補助記憶装置103に記憶されている教師データについて、解析処理を行う。解析部201は、教師データ内のチケットデータそれぞれについて、形態素解析、係り受け解析、単語のカテゴリ分類、各文節への特徴量(例えば、意味役割)の付与等の解析処理を行う。形態素解析とは、文書を、形態素(言語における意味を持つ最小単位)に分解して、各形態素の品詞等を判別する処理である。係り受け解析とは、どの文節がどの文節に係っているかを判別する処理である。単語のカテゴリ分類とは、単語とカテゴリとの対応情報を記憶する辞書等を参照して、文書中の単語のカテゴリを判別する処理である。各文節への意味役割の付与とは、文書中の文章について、構造を解析し、文章中の述語に係る各文節に対して、その述語の意味を解釈する上での文節の役割(例えば、「動作主」や「対象物」等)を付与する処理である。解析部201は、例えば、意味役割付与ツールを用いて、文節に意味役割を付与する。
S301の処理により、解析部201は、学習部202による分類モデルの学習に利用される特徴量を抽出する。本実施形態では、解析部201は、学習部202による分類モデルの学習に利用される特徴量として、S301で各文節に付与された意味役割を抽出するとする。しかし、解析部201は、学習部202による分類モデルの学習に利用される特徴量として、単語のカテゴリや単語そのものを抽出してもよい。また、解析部201は、学習部202による分類モデルの学習に利用される特徴量として、各文節に付与された意味役割、単語のカテゴリ、単語そのもの等の組み合わせを抽出してもよい。
S302において、学習部202は、S301で教師データから抽出された特徴量に基づいて、チケットデータの質の良し悪しを識別する分類モデルを学習する。
S302で学習された分類モデルは、予めユーザにより正例と確認された正例データと、予めユーザにより負例と確認された負例データと、を含む教師データから学習されたモデルである。そのため、この分類モデルにおける寄与度が大きい程、チケットデータの評価におけるユーザの個性が反映された特徴量となると仮定できる。寄与度とは、チケットデータの質の良し悪しの識別において、その特徴量がどの程度寄与しているかを示す指標である。
S303において、抽出部203は、S301で抽出された特徴量から、S302で学習された分類モデルにおける寄与度が最も大きなものから予め定められた数N(例えば、30等)個を抽出することで、チケットデータの評価におけるユーザの個性が反映された特徴量を抽出する。本実施形態では、抽出部203は、ある特徴量の寄与度を、教師データ内の正例データと負例データとにおける、その特徴量を持つ文節の出現確率に基づいて、決定する。例えば、抽出部203は、教師データ内の正例データにおける、その特徴量を持つ文節の出現確率を、負例データにおけるその特徴量を持つ文節の出現確率で割った値を、その特徴量の寄与度として決定する。そして、抽出部203は、取得した寄与度のうち、最も大きなものからN個を特定し、特定した寄与度に対応する特徴量を抽出する。
また、抽出部203は、ある着目する特徴量について、教師データから抽出されたその特徴量の値(出現回数)をサンプル間でシャッフルしたときの誤り率の変化量を、寄与度として決定してもよい。また、抽出部203は、ジニ係数を寄与度として決定してもよい。
抽出部203は、S301で抽出された特徴量から、S302で学習された分類モデルにおける寄与度が予め定められた閾値以上であるものを、チケットデータの評価におけるユーザの個性が反映された特徴量として抽出することとしてもよい。
S304において、取得部204は、S303で抽出された特徴量それぞれに対応する文節の主要語を特定する。主要語とは、その文節を代表する単語であり、例えば、文節中の名詞部分、文節中の動詞部分の原形等である。取得部204は、例えば、意味役割付与ツールを用いて、文節から主要語を特定する。S303で抽出された特徴量それぞれに対応する文節の主要語は、S303で抽出された特徴量それぞれに対応する単語の一例である。
S305において、取得部204は、S304で特定した単語の分散表現を取得する。取得部204は、例えば、教師なし学習(word2vec、fastText等)により、S304で特定した単語の分散表現を取得する。
S306において、集約部205は、S305で取得された分散表現に基づいて、S303で抽出された特徴量をクラスタリングする。より具体的には、集約部205は、S305で取得された分散表現が示すベクトル同士の距離に基づいて、S303で抽出された特徴量をクラスタリングする。分散表現が示すベクトルは、単語の意味が近い程、近いベクトルとなるという性質を有する。そのため、集約部205は、類似する特徴量同士を集約することができる。集約部205は、例えば、S306の処理の結果として、図4で後述するデンドログラムを生成する。
集約部205は、例えば、NN(Nearest Neighbor)法、ウォード法等の階層型クラスタリングの手法を用いて、S303で抽出された特徴量をクラスタリングする。集約部205は、非階層型クラスタリングの手法を用いて、S303で抽出された特徴量をクラスタリングしてもよい。
S307において、出力部206は、S306の処理の結果を出力する。出力部206は、例えば、入出力I/F105を介して接続されたディスプレイや、ネットワークI/F105を介して接続された外部の装置のモニタ等の表示部に対して、S307で決定された特徴量を示す情報を表示させることで、出力する。出力部206は、例えば、S306の処理の結果を、図4に示すようなデンドログラムの形式で出力することとしてもよい。
図4は、S306でのクラスタリング処理の途中経過を階層構造で示したデンドログラム(樹形図)の一例を示す図である。分岐の末端又は分岐点に記載されている数字は、クラスタのIDを示す。図4のデンドログラムの右端のID(15、07、27、09、・・・、05、03)が示すクラスタは、S303で抽出された特徴量それぞれに対応するクラスタである。2つのクラスタが結合しているクラスタは、結合された2つのクラスタの特徴量が集約された特徴量に対応するクラスタである。例えば、ID34のクラスタは、IDが15のクラスタと、IDが07のクラスタと、が結合されたクラスタであり、IDが15のクラスタの特徴量と、IDが07のクラスタの特徴量と、が集約された特徴量に対応するクラスタである。また、結合の回数が少ない程、より類似する特徴量同士が集約された特徴量に対応するクラスタとなる。デンドログラムの左端のID(58)が示すクラスタは、右端のクラスタが全て結合されたクラスタとなる。
本実施形態では、出力部206は、図4のデンドログラムを含み、評価基準の決定に利用される特徴量を含むカテゴリの指定に利用される指定画面を表示部に表示することで、S306の処理の結果を出力する。
出力部206は、指定画面において、IDへのカーソル合せ等の操作を検知した場合、選択操作が行われたIDのクラスタが示す特徴量に対応する文節の主要語を提示する提示画面を表示部に表示する。図5A〜Oは、IDのクラスタが示す特徴量に対応する文節の主要語を提示する提示画面の一例を示す図である。図5A〜Oのような提示画面は、集約された複数のクラスタそれぞれについて、クラスタに含まれる特徴量に対応する単語を示す情報の一例である。本実施形態では、情報処理装置100は、日本語の文書データである教師データを用いることとする。そのため、図5A〜Oのような提示画面では、対応するクラスタに含まれる特徴量に対応する日本語の単語、又は、それらの日本語の単語が他の言語(例えば、英語等)に訳された単語が提示される。
出力部206は、図5A〜Oの提示画面における各単語のサイズを、単語に対応する特徴量がクラスタの中心に近い程、大きくなるようにする。単語に対応する特徴量がクラスタの中心に近い程、その単語は、そのクラスタを代表する平均的な単語となる。そのため、出力部206は、そのクラスタが意味するところをより適切に表現している単語程、より大きくなるよう表示することとなる。これにより、提示画面を視認するユーザは、より容易にそのクラスタが意味するところを理解できるようになる。
また、出力部206は、例えば、対応する特徴量がクラスタの中心に近いものから、予め定められた数(例えば、10、20等)の単語を提示画面に含ませる。これにより、提示画面を視認するユーザは、そのクラスタに含まれる全ての単語を確認せずとも、予め定められた数の単語のみを視認することで、そのクラスタが意味するところを理解できるようになる。
ユーザは、各IDのクラスタに対応する提示画面を視認しながら、各クラスタが、複数の特徴量が統一感のあるように集約されているクラスタであるか否かを確認できる。
図5Iの提示画面は、図5Bに対応するIDが05のクラスタと、図5Dに対応するIDが18のクラスタと、が結合されたIDが45のクラスタに対応する提示画面である。図5Iの提示画面を見てみると、各単語は、「物の状態変化」を示す単語であり、全体的に統一感があることが見て取れる。
また、図5Jの提示画面は、図5Aに対応するIDが03のクラスタと、図5Iに対応するIDが45のクラスタと、が結合されたIDが47のクラスタに対応する提示画面である。図5Jの提示画面を見てみると、各単語は、「物の状態変化」を示す単語であり、全体的に統一感があることが見て取れる。
また、図5Oの提示画面は、図5Jに対応するIDが47のクラスタと、図5Nに対応するIDが54のクラスタと、が結合されたIDが56のクラスタに対応する提示画面である。図5Oの提示画面を見てみると、各単語は、全体的にまとまりがない(例えば、「仰る」と「はみ出す」とをまとめる概念を見いだせない)ことが見て取れる。
図5Kの提示画面は、図5Cに対応するIDが10のクラスタと、図5Hに対応するIDが41のクラスタと、が結合されたIDが50のクラスタに対応する提示画面である。図5Kの提示画面を見てみると、各単語は、「伝達・判断」という概念を示す単語であり、全体的に統一感があることが見て取れる。
また、図5Gの提示画面は、図5Eに対応するIDが21のクラスタと、図5Fに対応するIDが30のクラスタと、が結合されたIDが35のクラスタに対応する提示画面である。図5Gの提示画面を見てみると、各単語は、「評価」という概念を示す単語であり、全体的に統一感があることが見て取れる。
また、図5Mの提示画面は、図5Gに対応するIDが35のクラスタと、図5Kに対応するIDが50のクラスタと、が結合されたIDが53のクラスタに対応する提示画面である。図5Mの提示画面を見てみると、各単語は、「認識・判断」という概念を示す単語であり、全体的に統一感があることが見て取れる。
また、図5Nの提示画面は、図5Lに対応するIDが51のクラスタと、図5Mに対応するIDが53のクラスタと、が結合されたIDが54のクラスタに対応する提示画面である。図5Nの提示画面を見てみると、各単語は、全体的にまとまりがない(例えば、「張り替える」と「適切だ」とをまとめる概念を見いだせない)ことが見て取れる。
ユーザは、統一感のあるように特徴量が集約されているクラスタを確認し、どのような観点でチケットデータの質の良し悪しが識別されているかを把握することができる。
ユーザは、チケットデータの評価基準の決定に利用する特徴量を含むクラスタのIDに対して、例えば、クリックやタップ等の選択操作を行う。本実施形態では、ユーザは、特に質の良し悪しの指標として重要視している特徴量が集約されたクラスタのIDに対して、選択操作を行う。受付部207は、クラスタのIDに対する選択操作を検知した場合、選択操作が行われたIDのクラスタの指定を受付け、選択操作が行われたIDに対応するクラスタに対応する特徴量を、チケットデータの評価基準の決定に利用する特徴量として決定する。
S308において、受付部207は、S307で出力された指定画面を介して、クラスタの指定を受付けたか否かを判定する。受付部207は、クラスタの指定を受付けたと判定した場合、S309の処理に進み、クラスタの指定を受付けていないと判定した場合、図3の処理を終了する。
S309において、決定部208は、S308で受付けたと判定された指定が示すクラスタに対応する特徴量に基づいて、チケットデータの評価基準を決定する。例えば、S308で受付けたと判定された指定が示すクラスタが、図4のデンドログラムにおけるIDが47のクラスタであるとする。この場合、S308で受付けたと判定された指定が示すクラスタに対応する特徴量は、「状態変化有り‐関係の変化‐関係の変化(対象)」、「状態変化有り‐位置変化‐位置関係の変化(物理)」、「状態変化有り‐位置変化‐位置変化(物理)」の3つである。
例えば、決定部208は、以下のようにして評価基準を決定する。即ち、決定部208は、教師データの正例データにおけるこれらの特徴量の出現頻度を特定し、特定した出現頻度を表示部に表示する等して出力することで、ユーザに提示する。そして、ユーザは、提示された各特徴量の出現頻度を確認し、評価態様をどうするか(例えば、閾値判定にするか否か、また、その際の閾値をどのようにするか等)を検討する。ユーザは、検討後に、入出力I/F105を介して接続された入力装置を介した操作を行い、情報処理装置100への評価態様の指示を行う。
決定部208は、入出力I/F105を介して接続された入力装置を介した操作に基づいて、評価態様を決定する。決定部208は、例えば、入出力I/F105を介して接続された入力装置を介した操作に基づいて、閾値判定を行うことを示す指示と、その際に用いられる閾値の値と、を取得する。そして、決定部208は、取得した指示と、閾値と、S308で受付けたと判定された指定が示すクラスタに対応する特徴量と、に基づいて、評価基準を決定する。例えば、低評価と、中評価と、を分ける閾値として1が取得され、中評価と、高評価と、を分ける閾値として2が取得されたとする。この場合、決定部208は、特徴量(「状態変化有り‐関係の変化‐関係の変化(対象)」、「状態変化有り‐位置変化‐位置関係の変化(物理)」、「状態変化有り‐位置変化‐位置変化(物理)」)の出現回数が、1回未満ならば評価値を低評価とし、1回以上であり2回未満ならば評価値を中評価とし、2回以上であるならば評価値を高評価とするという評価基準を決定する。
また、決定部208は、決定した評価基準に、その評価基準がどのような観点からの評価基準であるかを決定してもよい。例えば、ユーザは、クラスタに対応する提示画面中の単語を確認し、確認した各単語がどのような概念を示すかを把握し、把握した概念を示す情報(例えば、文字列等)を、入出力I/F105を介して接続された入力装置を用いて、情報処理装置100に入力する。決定部208は、入出力I/F105を介して接続された入力装置を介して入力された情報に基づいて、「指定されたクラスタに基づく評価基準がどのような観点からの評価基準であるか」を人が理解しやすいように、決定した評価基準に自然言語のラベルを付与する。
また、評価態様には、各特徴量の出現回数の閾値判定以外にも、例えば、各特徴量の出現回数の偏差値が所定の範囲か否かに基づいて、評価値を決定する態様がある。
また、決定部208は、ユーザから評価態様の指定を受付けずに、S308で受付けたと判定された指定が示すクラスタに対応する特徴量と、予め定められた評価態様と、に基づいて、評価基準を決定してもよい。
S308で指定が受付けられたクラスタの数は、1つでもよいし、複数でもよい。複数のクラスタの指定が行われた場合、S309で、決定部208は、クラスタ毎に、評価基準の決定を行う。
(評価処理)
評価部209は、図3の処理で決定された評価基準を用いて、新たに入力されたチケットデータを評価する。
S309で決定された評価基準で決定された評価基準が、特徴量(例えば、「状態変化有り‐関係の変化‐関係の変化(対象)」、「状態変化有り‐位置変化‐位置関係の変化(物理)」、「状態変化有り‐位置変化‐位置変化(物理)」)の出現回数が、1回未満ならば評価値を低評価とし、1回以上であり2回未満ならば評価値を中評価とし、2回以上であるならば評価値を高評価とするという評価基準であるとする。
この場合、評価部209は、入力されたチケットデータから特徴量を抽出し、抽出した各特徴量に、評価基準に関する特徴量がどれだけ含まれるかを特定する。評価部209は、特定した数に基づいて、評価基準に則り、チケットデータの評価値を決定することで、チケットデータを評価する。
また、評価部209は、図3の処理で、複数の評価基準が決定された場合、評価基準毎に、チケットデータの評価を行う。
このように、評価部209は、図3の処理で決定された評価基準を用いて、チケットデータを評価することで、評価を行う役割のユーザの個性が反映された評価を行うことができる。これにより、情報処理装置100は、評価を行う役割のユーザがチケットデータを評価する手間を軽減できる。
出力部206は、例えば、評価部209による評価結果を表示部に表示することで、出力する。また、出力部206は、評価部209による評価の結果が予め定められた評価値(例えば、高評価等)でなかった場合、例文を出力することとしてもよい。この例文の情報は、予め、補助記憶装置103に記憶されている。また、出力部206は、評価部209による評価の結果が予め定められた評価値でなかった場合、アドバイス情報を出力することとしてもよい。アドバイス情報は、予め補助記憶装置103に記憶されている。このような処理により、出力部206は、チケットデータの作成者に対して、チケットデータ作成の補助を行うことができる。この例文の情報や、アドバイス情報は、チケットデータの作成者への支援情報の一例である。
出力部206は、例えば、以下のような形式で評価結果を出力する。以下の評価結果の例における○、△、×は、それぞれ高評価、中評価、低評価を示す。○、△、×は、それぞれ、別個の評価基準における評価値を示す。△、×の後の記載は、チケットデータの作成者へのアドバイス情報の一例である。
===========評価結果例=============
△−「場所又は時間」に関する記述が足りないかもしれません。具体的な場所や明確な日時に関する情報を増やすと良いかもしれません。
×−「判断や予測」に関する記述が少ないようです。あなたが事象をどう認識し、判断したかについて記述を増やしてください。認識、判断を事実のように断定してしまっているパターンもあるかもしれません。
△−「目的」に関する記述が検知できませんでした。起票したチケットが継続的改善系の場合は、何を実現したいのかといった目的を書いてみてはいかがでしょう。
○−「対象」について明確に書かれています。
============================
(効果)
以上、本実施形態では、情報処理装置100は、教師データから抽出した複数の特徴量に対応する文節に含まれる単語の分散表現を取得し、取得した分散表現に基づいて、抽出した複数の特徴量をクラスタリングすることで、集約した。分散表現が示すベクトルは、意味が近い程に近いベクトルとなるという性質を有するため、これにより、情報処理装置100は、文書データから抽出された類似する特徴量を集約できる。
また、情報処理装置100は、正例と負例とを含む教師データに基づいて、チケットデータの質の良し悪しを識別する分類モデルを学習した。そして、情報処理装置100は、学習した分類モデルにおける教師データの特徴量の寄与度に基づいて、チケットデータの評価におけるユーザの個性が反映された複数の特徴量を抽出した。情報処理装置100は、抽出した特徴量を、クラスタリングし、集約し、複数のクラスタを決定した。これにより、情報処理装置100は、チケットデータの評価におけるユーザの個性が反映された特徴量について、類似する特徴量を集約できる。
そして、情報処理装置100は、集約した各クラスタのうち、チケットデータの評価基準の決定に利用される特徴量を含むクラスタの指定を受付け、受け付けた指定が示すクラスタに含まれる特徴量に基づいて、チケットデータの評価基準を決定した。これにより、情報処理装置100は、ユーザの個性が反映されたチケットデータの評価基準を決定できる。個性という情報は暗黙的であり、表現することが困難であるが、本実施形態の処理により、情報処理装置100は、ユーザの個性が反映されたチケットデータの評価基準を決定することが可能となる。更に、情報処理装置100は、決定した評価基準に基づいて、チケットデータを評価することとした。これにより、情報処理装置100は、チケットデータについて、ユーザの個性が反映された評価を行うことができ、ユーザが直接チケットデータを評価する手間を軽減できる。
(変形例)
本実施形態では、情報処理装置100は、それぞれがチケットデータである教師データから抽出された特徴量を集約することとした。しかし、情報処理装置100は、他のデータから抽出された特徴量を集約することとしてもよい。
例えば、情報処理装置100は、あるユーザがコメントの投稿サービス等に過去に投稿した複数のコメントから、S301と同様の処理で、各文節について特徴量を抽出する事としてもよい。そして、情報処理装置100は、抽出した特徴量に対応する文節の主要語を特定し、特定した主要語の分散表現を取得する。情報処理装置100は、取得した分散表現に基づいて、抽出した特徴量をクラスタリングすることで、意味が類似する特徴量を集約する。情報処理装置100は、集約した結果を示す情報を、図5のような提示画面を含む図4のようなデンドログラムとして、表示部に表示する。これにより、ユーザは、自分が投稿しているコメントに表れている個性を把握することができるようになる。例えば、ユーザは、自分が他人に対してどのような意見をよく投稿しているか等を把握できる。
本実施形態では、情報処理装置100の評価部209が、図3の処理で決定された評価基準を用いて、新たに入力されたチケットデータを評価することとした。しかし、情報処理装置100に実装されたAIが、図3の処理で決定された評価基準を用いて、新たに入力されたチケットデータを評価することとしてもよい。また、外部の情報処理装置に実装されたAIが、情報処理装置100により図3の処理で決定された評価基準を用いて、新たに入力されたチケットデータを評価することとしてもよい。
<実施形態2>
従来の会議、打合せ等の話し合いにおいては、論点の幅はその参加者の思いつく範囲に限定されるが、思いつく範囲が狭いと、発想が乏しくなり議論が行き詰まったり、リスクを見落として手戻りが発生してしまったりする可能性がある。そのため、参加者というチームの枠を超えた発想を生み出すために、過去のチームの知恵等の現在のチームの知恵以外の知恵を簡易に利用できるようにしたいという要望があった。
そこで、本実施形態では、情報処理装置100が会議を行うチームに対して、話し合いが不足している可能性のある観点を提示する処理について説明する。
本実施形態の情報処理装置100のハードウェア構成及び機能構成は、実施形態1と同様である。
本実施形態では、補助記憶装置103は、過去に行われた会議の内容を示す議事録データ(例えば、テキストデータ、音声データ等の文書データ)を予め記憶しているとする。また、議事録データは、ユーザにより予め適切な内容であると確認された正例であるデータ(正例データ)と、ユーザにより予め不適切な内容であると確認された負例であるデータ(負例データ)と、を含むとする。
本実施形態の評価基準決定処理について、図3を用いて説明する。本実施形態のS301〜S307の処理は、チケットデータの代わりに議事録データが用いられる点を除いて、実施形態1と同様である。
本実施形態では、情報処理装置100は、複数の評価基準を決定することとする。情報処理装置100は、例えば、S308〜S309の処理を、複数回、繰り返すことで、複数の評価基準を決定する。また、情報処理装置100は、例えば、S308で複数のクラスタの指定を受付けて、S309で、その複数クラスタそれぞれについて、対応する特徴量に基づいて、評価基準を決定してもよい。また、情報処理装置100は、例えば、S308で全てのクラスタの指定を受付けたとして、S309で、全てのクラスタそれぞれについて、対応する特徴量に基づいて、評価基準を決定してもよい。
そして、あるチームが会議を行い、その会議の議事録データが、新たに情報処理装置100に入力され、評価の対象として指定されたとする。
評価部209は、図3の処理で決定された複数の評価基準それぞれを用いて、新たに入力された議事録データを評価する。そして、評価部209は、図3の処理で決定された複数の評価基準それぞれに対応する複数の評価結果を決定する。
本実施形態では、図3の処理で決定された複数の評価基準それぞれに対応する複数の評価結果それぞれは、大きい程、良好であることを示し、小さい程、不良であることを示す値で表されることとする。
評価部209は、例えば、これらの複数の評価結果のうち値の小さいものから予め定められた個数だけ選択する。また、評価部209は、例えば、これらの複数の評価結果に含まれる予め定められた閾値以下の評価結果のうち値の小さいものから予め定められた個数だけ選択してもよい。そして、評価部209は、選択した評価結果それぞれに対応する評価基準を特定し、特定した評価基準の決定に用いられたクラスタを特定する。
出力部206は、例えば、評価部209により特定されたクラスタを、対応する評価結果の低い順にソートして、表示部に表示することで、出力する。
以上、本実施形態では、情報処理装置100は、過去の議事録データに基づいて、複数の評価基準を決定して、決定した複数の評価基準を用いて、評価の対象となる文書データを評価した。そして、情報処理装置100は、評価結果の低いものから一部を選択して、選択した評価結果に対応する評価基準に対応するクラスタを出力することとした。これにより、情報処理装置100は、評価の対象となる文書データに適切に含まれていない観点を示すクラスタを出力することで、会議を行っているチームに属するユーザに提示できる。ユーザは、提示されたクラスタが示す観点についての話し合いが不足していたことを確認し、以後の話し合いをより適切に行うことができるようになる。このように、情報処理装置100は、現在のチームの知恵以外の知恵を簡易に利用できるようにすることができる。
また、情報処理装置100は、人間を介さずに、現在のチームの知恵以外の知恵を簡易に利用できるようにするため、例えば、過去に会議を行った人が退職等したとしても、その人の知恵を残し続けることができる。また、会議が行われる程、利用できる議事録データが増加するため、情報処理装置100は、より多くの知恵を利用できるようにすることができる。
<実施形態3>
本実施形態では、実施形態2と異なる方法で、情報処理装置100が会議を行うチームに対して、話し合いが不足している可能性のある観点を提示する処理について説明する。
本実施形態の情報処理装置100のハードウェア構成及び機能構成は、実施形態1と同様である。
本実施形態では、補助記憶装置103は、実施形態2と同様に、過去に行われた会議の内容を示す議事録データを予め記憶しているとする。また、本実施形態では、補助記憶装置103に予め記憶された議事録データは、ユーザにより予め適切な内容であると確認された正例データと、ユーザにより予め不適切な内容であると確認された負例データと、の区別のないデータである。
本実施形態の処理について説明する。
本実施形態では、取得部204は、補助記憶装置103に予め記憶された過去の議事録データを教師データとして、教師データから単語を抽出し、抽出した単語の分散表現を取得する。集約部205は、取得部204により取得された分散表現に基づいて、取得部204により抽出された単語をクラスタリングする。このクラスタリングの結果、得られた各クラスタを、単語の特徴量となる単語クラスタとする。単語クラスタとは、複数の単語をクラスタリングして得られる複数のクラスタそれぞれを示す特徴量である。ある単語の特徴量である単語クラスタは、その単語が属しているクラスタを示している。また、集約部205は、各単語クラスタについて、クラスタの中心に最も近い予め定められた個数の単語を並べたものを各単語クラスタの名前として決定する。
そして、出力部206は、集約部205によるクラスタリングの結果を出力する。出力部206は、例えば、集約部205によるクラスタリングの結果を、図4に示すようなデンドログラムの形式で出力することとしてもよい。
その後、あるチームが会議を行い、その会議の議事録データが、新たに情報処理装置100に入力され、評価の対象として指定されたとする。
解析部201は、指定された議事録データに含まれる全ての単語を抽出し、抽出した各単語について、特徴量(単語クラスタ)を抽出する。解析部201は、例えば、抽出した各単語の分散表現を求めて、求めた分散表現が、どのクラスタに属するかに基づいて、各単語の単語クラスタを抽出する。
そして、解析部201は、特徴量(単語クラスタ)毎に、特徴量に対応する単語が評価対象の議事録データ内にどのくらい出現するかを示す指標を求める。本実施形態では、この指標として、以下のように定義する議論率を用いる。議論率は、(評価対象の議事録データに含まれるある特徴量に対応する単語の総数)/(教師データ(補助記憶装置103に予め記憶された議事録データ)に含まれるその特徴量に対応する単語の総数)として定義される指標である。
解析部201は、特徴量(単語クラスタ)毎に、議論率を求める。議論率が高い程、その特徴量に対応する観点について、よく議論されていると解釈できる。また、議論率が低い程、その特徴量に対応する観点について、議論が足りていないと解釈できる。
解析部201は、求めた議論率のうち、値の小さいものから予め定められた個数だけ選択する。また、解析部201は、例えば、求めた議論率に含まれる予め定められた閾値以下である議論率のうち値の小さいものから予め定められた個数だけ選択してもよい。解析部201は、選択した議論率に対応する特徴量(単語クラスタ)を特定する。
そして、出力部206は、解析部201により特定された特徴量を、対応する議論率の低い順にソートして、表示部に表示することで、出力する。これにより、出力部206は、ユーザに対して、議論が足りていないと解釈される観点を提示できる。また、出力部206は、解析部201により特定された特徴量に対応する単語(単語クラスタに含まれる単語)を提示する画面を、表示部に表示することで、出力してもよい。これにより、出力部206は、ユーザに対して、議論が足りていないと解釈される観点をより詳細に提示できる。
本実施形態では、特徴量(単語クラスタ)毎に、特徴量に対応する単語が評価対象の議事録データ内にどのくらい出現するかを示す指標である議論率は、(評価対象の議事録データに含まれるある特徴量に対応する単語の総数)/(教師データ(補助記憶装置103に予め記憶された議事録データ)に含まれるその特徴量に対応する単語の総数)として定義されることとした。しかし、議論率は、以下で説明するように定義される指標であるとしてもよい。
まず、単語群(複数の単語の集合)について、単語群の体積を以下のように定義する。即ち、分散表現のベクトル空間(意味空間)における凸包であって、ある単語群に含まれる各単語に対応するベクトルを示す複数の点から選択された点を各頂点として、その複数の点のうち頂点とした点以外の点を全て内包する凸包の体積(超体積)を、その単語群の体積として定義する。
そして、議論率は、例えば、この単語群の体積を用いて以下のように定義される指標であるとしてもよい。即ち、議論率は、(評価対象の議事録データに含まれるある特徴量に対応する全ての単語の集合である単語群の体積)/(教師データ(補助記憶装置103に予め記憶された議事録データ)に含まれるその特徴量に対応する全ての単語の集合である単語群の体積)として定義される指標であるとしてもよい。
その場合、解析部201は、議論率を以下のようにして求める。即ち、解析部201は、まず、評価対象の議事録データに含まれるある特徴量に対応する全ての単語の集合である単語群を特定し、特定した単語群に含まれる全ての単語の意味空間上における点を特定する。そして、解析部201は、特定した点に含まれる点を頂点として、特定した点のうち頂点とした点以外の全てを内包する意味空間上の凸包を特定し、特定した凸包の体積(超体積)を、その単語群の体積として求める。
次に、解析部201は、補助記憶装置103に予め記憶された議事録データに含まれるその特徴量に対応する全ての単語の集合である単語群を特定し、特定した単語群に含まれる全ての単語の意味空間上における点を特定する。そして、解析部201は、特定した点に含まれる点を頂点として、特定した点のうち頂点とした点以外の全てを内包する意味空間上の凸包を特定し、特定した凸包の体積(超体積)を、その単語の体積として求める。
そして、解析部201は、例えば、評価対象の議事録データから求めた単語の体積を、教師データである補助記憶装置103に予め記憶された議事録データから求めた単語の体積で除することで、議論率を求めることとなる。
本実施形態では、補助記憶装置103に予め記憶された議事録データは、ユーザにより予め適切な内容であると確認された正例データと、ユーザにより予め不適切な内容であると確認された負例データと、の区別がないデータであるとした。しかし、補助記憶装置103に予め記憶された議事録データは、ユーザにより予め適切な内容であると確認された正例データと、ユーザにより予め不適切な内容であると確認された負例データと、の区別があるデータであるとしてもよい。
その場合、情報処理装置100は、例えば、以下のような処理を行う。
情報処理装置100は、S301で抽出され以降の処理で用いられる特徴量として単語クラスタを用いる点を除いて、S307の処理までは実施形態2と同様の処理を行う。
その後、あるチームが会議を行い、その会議の議事録データが、新たに情報処理装置100に入力され、評価の対象として指定されたとする。
解析部201は、指定された議事録データに含まれる全ての単語を抽出し、抽出した各単語について、特徴量(単語クラスタ)を抽出する。そして、解析部201は、特徴量(単語クラスタ)毎に、特徴量に対応する単語が評価対象の議事録データ内にどのくらい出現するかを示す議論率を求める。この場合の議論率は、例えば、(評価対象の議事録データに含まれるある特徴量に対応する単語の総数(体積))/(教師データ(S301で特徴量抽出の対象となった過去の議事録データ)に含まれるその特徴量に対応する単語の総数(体積))として求められる。
そして、解析部201は、例えば、特徴量(単語クラスタ)毎に、議論率を求め、求めた議論率のうち、値の小さいものから予め定められた個数だけ選択する。また、解析部201は、例えば、求めた議論率に含まれる予め定められた閾値以下である議論率のうち値の小さいものから予め定められた個数だけ選択してもよい。解析部201は、選択した議論率に対応する特徴量(単語クラスタ)を特定する。そして、出力部206は、解析部201により特定された特徴量を、対応する議論率の低い順にソートして、表示部に表示することで、出力する。また、出力部206は、各特徴量に対応する単語群についても出力することとしてもよい。
補助記憶装置103に予め記憶された議事録データに正例データと負例データとの区別がある場合、情報処理装置100は、以上のような処理を行うこととしてもよい。
また、補助記憶装置103に予め記憶された議事録データに正例データと負例データとの区別がある場合、情報処理装置100は、以下のような処理を行うこととしてもよい。
取得部204は、正例データに含まれる単語の集合から、負例データに含まれる単語を除いた単語の集合を特定する。取得部204は、特定した単語の集合から単語を抽出し、抽出した単語の分散表現を取得する。集約部205は、取得部204により取得された分散表現に基づいて、特定した単語の集合に含まれる単語をクラスタリングする。このクラスタリングの結果、得られた各クラスタを、特徴量である単語クラスタとする。集約部205は、クラスタリングの処理の結果として、図4のようなデンドログラムを生成する。
そして、出力部206は、集約部205によるクラスタリングの結果を出力する。
その後、あるチームが会議を行い、その会議の議事録データが、新たに情報処理装置100に入力され、評価の対象として指定されたとする。
解析部201は、指定された議事録データに含まれる全ての単語を抽出し、抽出した各単語について、特徴量(単語クラスタ)を抽出する。そして、解析部201は、特徴量(単語クラスタ)毎に、特徴量に対応する単語が評価対象の議事録データ内にどのくらい出現するかを示す議論率を求める。この場合の議論率は、例えば、(評価対象の議事録データに含まれるある特徴量に対応する単語の総数(体積))/(教師データ(補助記憶装置103に予め記憶された過去の議事録データに含まれる正例データ)に含まれるその特徴量に対応する単語の総数(体積))として求められる。
そして、解析部201は、例えば、特徴量(単語クラスタ)毎に、議論率を求め、求めた議論率のうち、値の小さいものから予め定められた個数だけ選択する。また、解析部201は、例えば、求めた議論率に含まれる予め定められた閾値以下である議論率のうち値の小さいものから予め定められた個数だけ選択してもよい。解析部201は、選択した議論率に対応する特徴量(単語クラスタ)を特定する。そして、出力部206は、解析部201により特定された特徴量を、対応する議論率の低い順にソートして、表示部に表示することで、出力する。また、出力部206は、各特徴量に対応する単語群についても出力することとしてもよい。
補助記憶装置103に予め記憶された議事録データに正例データと負例データとが含まれる場合、情報処理装置100は、以上のような処理を行うこととしてもよい。
また、補助記憶装置103に予め記憶された議事録データに正例データと負例データとの区別がある場合、情報処理装置100は、以下のような処理を行うこととしてもよい。
取得部204は、負例データに含まれる単語の集合から、正例データに含まれる単語を除いた単語の集合を特定する。取得部204は、特定した単語の集合から単語を抽出し、抽出した単語の分散表現を取得する。集約部205は、取得部204により取得された分散表現に基づいて、特定した単語の集合に含まれる単語をクラスタリングする。このクラスタリングの結果、得られた各クラスタを、特徴量である単語クラスタとする。この場合、特徴量である単語クラスタは、負例データのみに現れ、正例データに現れない単語のクラスタとなっている。そのため、これらの特徴量を持つ単語の出現の頻度が高い程、不適切な観点の話し合いがより多く行われていると解釈できる。
集約部205は、クラスタリングの処理の結果として、図4のようなデンドログラムを生成する。そして、出力部206は、集約部205によるクラスタリングの結果を出力する。
その後、あるチームが会議を行い、その会議の議事録データが、新たに情報処理装置100に入力され、評価の対象として指定されたとする。
解析部201は、指定された議事録データに含まれる全ての単語を抽出し、抽出した各単語について、特徴量(単語クラスタ)を抽出する。そして、解析部201は、特徴量(単語クラスタ)毎に、特徴量に対応する単語が評価対象の議事録データ内にどのくらい出現するかを示す議論率を求める。この場合の議論率は、例えば、(評価対象の議事録データに含まれるある特徴量に対応する単語の総数(体積))/(教師データ(補助記憶装置103に予め記憶された過去の議事録データに含まれる負例データ)に含まれるその特徴量に対応する単語の総数(体積))として求められる。
そして、解析部201は、例えば、特徴量(単語クラスタ)毎に、議論率を求め、求めた議論率のうち、値の高いものから予め定められた個数だけ選択する。また、解析部201は、例えば、求めた議論率に含まれる予め定められた閾値以上である議論率のうち値の高いものから予め定められた個数だけ選択してもよい。解析部201は、選択した議論率に対応する特徴量(単語クラスタ)を特定する。そして、出力部206は、解析部201により特定された特徴量を、対応する議論率の高い順にソートして、表示部に表示することで、出力する。また、出力部206は、各特徴量に対応する単語群についても出力することとしてもよい。
これにより、情報処理装置100は、ユーザに対して、話し合われている不適切な観点を提示することができ、このような観点について話し合いが継続されることに対して、ユーザに注意を喚起できる。
補助記憶装置103に予め記憶された議事録データに正例データと負例データとが含まれる場合、情報処理装置100は、以上のような処理を行うこととしてもよい。
以上、本実施形態では、情報処理装置100は、抽出される各特徴量について議論率を求めて、求めた議論率に基づいて、評価対象の議事録データに対応する話し合いにおいて留意すべき観点(議論が足りていないと解釈できる観点、不適切な議論がなされている観点等)を示す特徴量を特定した。そして、情報処理装置100は、特定した特徴量を出力することで、会議を行うチームに属するユーザに提示した。これにより、ユーザは、留意すべき観点を把握できる。ユーザは、提示された特徴量が示す観点について把握したうえで、以後の話し合いをより適切に行うことができるようになる。このように、情報処理装置100は、現在のチームの知恵以外の知恵を簡易に利用できるようにすることができる。
<その他の実施形態>
実施形態1〜3では、情報処理装置100は、単体の情報処理装置であるとした。しかし、情報処理装置100は、ネットワーク(LANやインターネット)を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置100に含まれる複数の情報処理装置それぞれのCPUが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、図2の機能及び図3のフローチャートの処理等が実現される。
また、実施形態1、2では、情報処理装置100は、各特徴量に対応する単語の分散表現に基づいて、複数の特徴量をクラスタリングし、クラスタリング結果に基づいて、評価基準を決定し、決定した評価基準に基づいた評価結果として、話し合いが不足している観点を示す特徴量やその特徴量に対応する単語を出力することで、ユーザに提示することとした。
しかし、情報処理装置100は、単語の代わりに、文節や文、パラグラフ(文の列)、文書(パラグラフの列(文の列))(以下では、文節等とする)を用いて、単語の分散表現の代わりに、文節等から、例えば、ニューラル言語モデル(深層学習の既存の手法)等を用いて求まるベクトルを用いることとしてもよい。ニューラル言語モデル等を用いて、文節等について、互いの意味が近い程、互いに近いベクトルになるという単語の分散表現と同様の性質を持った文節等に対応するベクトルを求めることができる。以下では、このようなベクトルを、文節等ベクトルとする。
その場合、情報処理装置100は、各特徴量に対応する文節等の文節等ベクトルに基づいて、複数の特徴量をクラスタリングし、クラスタリング結果に基づいて、評価基準を決定し、決定した評価基準に基づいた評価結果として、話し合いが不足している観点を示す特徴量やその特徴量に対応する文節等を出力することで、ユーザに提示することとしてもよい
また、実施形態2、3では、情報処理装置100が、過去の議事録データに含まれる単語をクラスタリングすることで、特徴量としての単語クラスタを決定し、特徴量(単語クラスタ)毎の議論率を求めて、求めた議論率のうち、大きい(小さい)ものから選択された議論率に対応する特徴量や特徴量に対応する単語を出力する処理を説明した。しかし、情報処理装置100は、単語の代わりに、文節等を用いて、単語の分散表現の代わりに、文節等ベクトルを用いることとしてもよい。
その場合、情報処理装置100が、過去の議事録データに含まれる文節等をクラスタリングすることで、特徴量としての文節等クラスタを決定し、特徴量(文節等クラスタ)毎の議論率を求めて、求めた議論率のうち、大きい(小さい)ものから選択された議論率に対応する特徴量や特徴量に対応する文節等を出力することとしてもよい。この場合、議論率は、例えば、(評価対象の議事録データに含まれるある特徴量に対応する文節等の総数(体積))/(教師データ(補助記憶装置103に予め記憶された過去の議事録データ)に含まれるその特徴量に対応する文節等の総数(体積))として求められる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置100の機能構成の一部又は全てをハードウェアとして情報処理装置100に実装してもよい。

Claims (17)

  1. 文書データである入力データから複数の特徴量を抽出する抽出手段と、
    前記抽出手段により抽出された前記複数の特徴量それぞれに対応する単語の分散表現を取得する取得手段と、
    前記取得手段により取得された分散表現に基づいて、前記抽出手段により抽出された前記複数の特徴量を、複数の区分に集約する集約手段と、
    を有する情報処理装置。
  2. 前記集約手段により集約された前記複数の区分を示す情報を出力する第1の出力手段を更に有する請求項1記載の情報処理装置。
  3. 前記集約手段により集約された前記複数の区分のうち、文書データの評価基準の決定に利用される特徴量を含む区分の指定を受付ける受付手段と、
    前記受付手段により受付けられた指定が示す区分に含まれる特徴量に基づいて、前記評価基準を決定する決定手段と、
    を更に有する請求項1又は2記載の情報処理装置。
  4. 前記決定手段により決定された前記評価基準に基づいて、文書データの評価を行う評価手段を更に有する請求項3記載の情報処理装置。
  5. 前記評価手段による評価の結果を出力する第2の出力手段を更に有する請求項4記載の情報処理装置。
  6. 前記第2の出力手段は、前記評価手段による評価の結果が、予め定められた評価値である場合、文書データの作成者への支援情報を、更に出力する請求項5記載の情報処理装置。
  7. 前記評価手段は、前記決定手段により決定された複数の前記評価基準それぞれに基づいて、文書データの評価を行い、
    前記決定手段により決定された複数の前記評価基準それぞれに対応する前記評価手段による複数の評価結果に基づいて選択された前記複数の区分に含まれる区分を出力する第3の出力手段を更に有する請求項4乃至6何れか1項記載の情報処理装置。
  8. 前記受付手段は、更に、前記評価基準における評価態様の指定を受付け、
    前記決定手段は、前記受付手段により受付けられた指定が示す区分と評価態様と、に基づいて、前記評価基準を決定する請求項3乃至7何れか1項記載の情報処理装置。
  9. 前記受付手段は、前記評価基準の決定に利用される特徴量を含む区分の指定に利用される指定画面を介して、前記集約手段により集約された前記複数の区分のうち、前記評価基準の決定に利用される特徴量を含む区分の指定を受付ける請求項3乃至8何れか1項記載の情報処理装置。
  10. 前記指定画面は、前記集約手段により集約された前記複数の区分それぞれについて、区分に含まれる特徴量に対応する単語を示す情報を含む請求項9記載の情報処理装置。
  11. 前記入力データは、ユーザにより正例であると確認された正例データと前記ユーザにより負例であると確認された負例データとを含み、
    前記抽出手段は、前記入力データに基づき学習され、文書データが正例であるか負例であるかの識別に利用される分類モデルにおける前記入力データの特徴量それぞれの寄与度に基づいて、前記複数の特徴量を抽出する請求項1乃至10何れか1項記載の情報処理装置。
  12. 前記抽出手段は、前記分類モデルにおける前記入力データの特徴量それぞれの寄与度に基づいて、寄与度が最も大きいものから順に予め定められた数の特徴量を、前記複数の特徴量として抽出する請求項11記載の情報処理装置。
  13. 前記抽出手段は、前記分類モデルにおける前記入力データの特徴量それぞれの寄与度に基づいて、寄与度が予め定められた閾値以上の特徴量を、前記複数の特徴量として抽出する請求項11記載の情報処理装置。
  14. 前記抽出手段により抽出された前記複数の特徴量それぞれに対応する単語が指定された文書データにそれぞれどれくらい出現するかを示す指標に基づいて選択された特徴量を出力する第4の出力手段を更に有する請求項1乃至13何れか1項記載の情報処理装置。
  15. 前記抽出手段により抽出された前記複数の特徴量それぞれに対応する単語が指定された文書データにそれぞれどれくらい出現するかを示す指標に基づいて選択された特徴量に対応する単語を出力する第5の出力手段を更に有する請求項1乃至14何れか1項記載の情報処理装置。
  16. 情報処理装置が実行する情報処理方法であって、
    文書データである入力データから複数の特徴量を抽出する抽出ステップと、
    前記抽出ステップで抽出された前記複数の特徴量それぞれに対応する単語の分散表現を取得する取得ステップと、
    前記取得ステップで取得された分散表現に基づいて、前記抽出ステップで抽出された前記複数の特徴量を、複数の区分に集約する集約ステップと、
    を含む情報処理方法。
  17. コンピュータを、請求項1乃至15何れか1項記載の情報処理装置の各手段として、機能させるためのプログラム。
JP2018567326A 2017-06-16 2018-06-12 情報処理装置、情報処理方法及びプログラム Active JP6622430B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017118417 2017-06-16
JP2017118417 2017-06-16
PCT/JP2018/022374 WO2018230551A1 (ja) 2017-06-16 2018-06-12 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2018230551A1 true JPWO2018230551A1 (ja) 2019-06-27
JP6622430B2 JP6622430B2 (ja) 2019-12-18

Family

ID=64659253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018567326A Active JP6622430B2 (ja) 2017-06-16 2018-06-12 情報処理装置、情報処理方法及びプログラム

Country Status (4)

Country Link
US (1) US11386354B2 (ja)
JP (1) JP6622430B2 (ja)
CN (1) CN110612524B (ja)
WO (1) WO2018230551A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110612524B (zh) * 2017-06-16 2023-11-10 日铁系统集成株式会社 信息处理装置、信息处理方法以及记录介质
US11094318B1 (en) * 2018-10-15 2021-08-17 United Services Automobile Association (Usaa) Providing an automated summary
US11790262B2 (en) * 2019-01-22 2023-10-17 Accenture Global Solutions Limited Data transformations for robotic process automation
US11500942B2 (en) * 2019-06-07 2022-11-15 Adobe Inc. Focused aggregation of classification model outputs to classify variable length digital documents
CN110597977B (zh) * 2019-09-16 2022-01-11 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备和存储介质
JPWO2021090681A1 (ja) * 2019-11-07 2021-05-14
JP7453116B2 (ja) * 2020-09-30 2024-03-19 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法、及びプログラム
JP2022095024A (ja) * 2020-12-16 2022-06-28 キヤノン株式会社 学習データ生成装置、学習データ生成方法及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01188934A (ja) * 1988-01-22 1989-07-28 Nec Corp 文書自動分類装置
JP2015169951A (ja) * 2014-03-04 2015-09-28 株式会社デンソーアイティーラボラトリ 情報処理装置、情報処理方法、およびプログラム
JP2018025874A (ja) * 2016-08-08 2018-02-15 富士ゼロックス株式会社 テキスト解析装置及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4671164B2 (ja) * 2004-11-11 2011-04-13 日本電気株式会社 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
CN101231634B (zh) * 2007-12-29 2011-05-04 中国科学院计算技术研究所 一种多文档自动文摘方法
CN101436201A (zh) * 2008-11-26 2009-05-20 哈尔滨工业大学 一种变粒度文本聚类的特征量化方法
JP5224532B2 (ja) * 2009-02-25 2013-07-03 日本電信電話株式会社 評判情報分類装置及びプログラム
JP5359399B2 (ja) * 2009-03-11 2013-12-04 ソニー株式会社 テキスト分析装置および方法、並びにプログラム
EP2450850B1 (en) * 2009-07-01 2020-12-23 Nec Corporation System and method for extracting representative feature
CN101661513B (zh) * 2009-10-21 2011-04-06 上海交通大学 网络热点和舆情的检测方法
JP5265597B2 (ja) 2010-02-17 2013-08-14 株式会社野村総合研究所 文書品質評価システムおよび文書品質評価プログラム
WO2013001893A1 (ja) * 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
CN102567308A (zh) * 2011-12-20 2012-07-11 上海电机学院 一种信息处理特征提取方法
US20150220632A1 (en) * 2012-09-27 2015-08-06 Nec Corporation Dictionary creation device for monitoring text information, dictionary creation method for monitoring text information, and dictionary creation program for monitoring text information
JP2015203961A (ja) * 2014-04-14 2015-11-16 株式会社toor 文書抽出システム
EP3203383A4 (en) * 2014-10-01 2018-06-20 Hitachi, Ltd. Text generation system
CN104462363B (zh) * 2014-12-08 2018-10-23 百度在线网络技术(北京)有限公司 评论点的展现方法和装置
US20180285447A1 (en) * 2017-03-31 2018-10-04 Nec Personal Computers, Ltd. Content recommendation apparatus, content recommendation system, content recommendation method, and program
US11379861B2 (en) * 2017-05-16 2022-07-05 Meta Platforms, Inc. Classifying post types on online social networks
CN110612524B (zh) * 2017-06-16 2023-11-10 日铁系统集成株式会社 信息处理装置、信息处理方法以及记录介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01188934A (ja) * 1988-01-22 1989-07-28 Nec Corp 文書自動分類装置
JP2015169951A (ja) * 2014-03-04 2015-09-28 株式会社デンソーアイティーラボラトリ 情報処理装置、情報処理方法、およびプログラム
JP2018025874A (ja) * 2016-08-08 2018-02-15 富士ゼロックス株式会社 テキスト解析装置及びプログラム

Also Published As

Publication number Publication date
CN110612524B (zh) 2023-11-10
US20200293553A1 (en) 2020-09-17
WO2018230551A1 (ja) 2018-12-20
CN110612524A (zh) 2019-12-24
US11386354B2 (en) 2022-07-12
JP6622430B2 (ja) 2019-12-18

Similar Documents

Publication Publication Date Title
WO2018230551A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN111680159B (zh) 数据处理方法、装置及电子设备
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
CN111368075A (zh) 文章质量预测方法、装置、电子设备及存储介质
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN112836509A (zh) 一种专家系统知识库构建方法及系统
Priya Emoji based sentiment analysis using KNN
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法
US20240037941A1 (en) Search results within segmented communication session content
CN111767404A (zh) 一种事件挖掘方法和装置
Shang Spoken Language Understanding for Abstractive Meeting Summarization
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
US11817089B2 (en) Generating aspects from attributes identified in digital video audio tracks
CN115269846A (zh) 文本处理方法、装置、电子设备及存储介质
CN115130453A (zh) 互动信息生成方法和装置
CN111488401A (zh) 一种基于多元化关系画像技术的在线社会关系搜索方法
Arilya et al. Sentiment analysis on work from home policy using naïve bayes method and particle swarm optimization
Shipman et al. Crawling and classification strategies for generating a multi-language corpus of sign language video
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A527

Effective date: 20181221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181221

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181221

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191121

R150 Certificate of patent or registration of utility model

Ref document number: 6622430

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250