JPWO2023037399A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2023037399A5
JPWO2023037399A5 JP2023546585A JP2023546585A JPWO2023037399A5 JP WO2023037399 A5 JPWO2023037399 A5 JP WO2023037399A5 JP 2023546585 A JP2023546585 A JP 2023546585A JP 2023546585 A JP2023546585 A JP 2023546585A JP WO2023037399 A5 JPWO2023037399 A5 JP WO2023037399A5
Authority
JP
Japan
Prior art keywords
evaluation
data
insight
context
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023546585A
Other languages
English (en)
Other versions
JPWO2023037399A1 (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/JP2021/032767 external-priority patent/WO2023037399A1/ja
Publication of JPWO2023037399A1 publication Critical patent/JPWO2023037399A1/ja
Publication of JPWO2023037399A5 publication Critical patent/JPWO2023037399A5/ja
Pending legal-status Critical Current

Links

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
データ分析作業においては、「仮説設定、分析・可視化、仮説検証」のサイクルを回すことが一般的であるが、その作業は非常に時間と労力を要するものである。インサイト自動発見技術は、人が有益と考える可視化候補をデータの特徴に基づいて自動的に発見する技術である。これによって、データ分析作業における作業負荷を大幅に低減することが可能である。例えば、下記の特許文献1には、データの分析結果を可視化する方法を表現したキーワードを有するテンプレートデータに基づいて、可視化対象データを可視化したインスタンスデータを生成し、インスタンスデータをインスタンスメタデータの評価値に基づいて再生成する方法が記載されている。
国際公開第2018/173251号
しかしながら、ユーザの求めるデータの可視化結果は、データの内容及びユーザのニーズ等により様々であり、画一的に定まるものではない。特許文献1に記載の技術では、テンプレートデータがユーザコンテキストを捉えていない場合には、提示された可視化候補が必ずしもユーザの求める可視化結果とは限らない、という問題があった。
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、ユーザの求めるインサイトを与える情報を表示する技術を提供することである。
本発明の一側面に係る情報処理装置は、評価用データセット及びコンテキストデータを取得する取得手段と、前記コンテキストデータと前記評価用データセットの構成要素との関連度を算出する関連度算出手段と、前記評価用データセットと前記関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う評価手段と、前記インサイトサブジェクトに関連する情報を表示する表示手段とを備える。
本発明の一側面に係る情報処理方法は、少なくとも1つのプロセッサが、評価用データセット及びコンテキストデータを取得すること、前記コンテキストデータと前記評価用データセットの構成要素との関連度を算出すること、前記評価用データセットと前記関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行うこと、及び前記インサイトサブジェクトに関連する情報を表示することを含む。
本発明の一側面に係るプログラムは、コンピュータに、評価用データセット及びコンテキストデータを取得する処理と、前記コンテキストデータと前記評価用データセットの構成要素との関連度を算出する処理と、前記評価用データセットと前記関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う処理と、前記インサイトサブジェクトに関連する情報を表示する処理とを実行させる。
本発明の一態様によれば、ユーザの求めるインサイトを与える情報を表示することができる。
本発明の例示的実施形態1に係る情報処理装置の構成を示すブロック図である。 本発明の例示的実施形態1に係る情報処理方法の流れを示すフロー図である。 本発明の例示的実施形態2に係る情報処理装置の構成を示すブロック図である。 本発明の例示的実施形態2に係る情報処理方法の流れを示すフロー図である。 本発明の例示的実施形態2に係る入力データの例を示す図である。 本発明の例示的実施形態2に係るコンテキストの生成例を示す図である。 本発明の例示的実施形態2に係るコンテキストと入力データとの関連度の計算方法の例を示す図である。 本発明の例示的実施形態2に係るコンテキストと入力データとの関連度の計算方法の例を示す図である。 本発明の例示的実施形態2に係る評価処理の例を示す図である。 本発明の例示的実施形態2に係る可視化結果の表示例を示す図である。 本発明の例示的実施形態2に係るインサイトサブジェクトを評価結果と共に表示する例を示す図である。 本発明の例示的実施形態2に係る可視化情報を評価結果と共に表示する例を示す図である。 本発明の例示的実施形態2に係るインサイトサブジェクトを評価結果と共に表示する例を示す図である。 本発明の例示的実施形態2に係る特徴ベクトルの生成例を示す図である。 本発明の例示的実施形態2に係る集計データ及び統計量の例を示す図である。 本発明の例示的実施形態2に係る評価モデルの例を示す図である。 本発明の例示的実施形態3に係る情報処理装置の構成を示すブロック図である。 上記情報処理装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
<情報処理装置の構成>
本例示的実施形態に係る情報処理装置1の構成について、図1を参照して説明する。図1は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、データを可視化して表示する装置である。図示のように、情報処理装置1は、取得部11、関連度算出部12、評価部13及び表示部14を備える。取得部11は、評価用データセット及びコンテキストデータを取得する。関連度算出部12は、コンテキストデータと評価用データセットの構成要素との関連度を算出する。評価部13は、評価用データセットと関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う。表示部14は、インサイトサブジェクトに関連する情報を表示する。
(評価用データセット)
評価用データセットは、データの可視化候補を情報処理装置1が評価するために用いるデータである。評価用データセットは、可視化の対象のデータである評価用データ、及び、当該評価用データに関連する関連データ、の少なくともいずれか一方を含む。ただし、評価用データセットに含まれるデータは上述した例に限られず、評価用データセットは他の情報を含んでいてもよい。
(評価用データ)
評価用データは、可視化の対象のデータであり、一例として、複数のレコードを含む多次元データである。評価用データは一例として、ある店舗の月間の売上記録を示すデータ、店舗の規模及びエリアを示すデータ、店舗で販売されている商品の商品コード、商品名及び単価を示すデータ、及び/又は、顧客の性別、年齢、居住地、職業等を示すデータを含む。ただし、評価用データはこれに限られず、他のデータであってもよい。評価用データは、一例として、評価用データの内容を表すチャート(円グラフ、棒グラフ、線グラフ、等)として可視化される。
(関連データ)
関連データは、評価用データに関連するデータである。関連データは、一例として、評価用データの集計結果を示す集計データ、集計データの統計量、及び/又は、評価用データの可視化に利用される各種情報の集合である関連情報を含む。関連情報は、一例として、評価用データの可視化に利用されるデータの名前、データ型、集計方法の種別、及びチャートデザインの種別、の一部又は全部を含む。なお、関連データに含まれるデータは上述した例に限られず、関連データは他のデータを含んでいてもよい。
(コンテキストデータ)
コンテキストデータは、ユーザがどのようなインサイトを求めるかを表すデータである。コンテキストデータは、一例として、ユーザが求めるインサイトに関するデータであるコンテキスト、及び、コンテキストをベクトル空間で表した特徴ベクトル、の少なくともいずれか一方を含む。なお、コンテキストデータに含まれるデータは上述した例に限られず、コンテキストデータは他のデータを含んでいてもよい。
(コンテキスト)
コンテキストは、ユーザが求めるインサイトに関するデータであり、一例として、ユーザクエリ又はメタデータから抽出される言語情報である。具体的には例えば、コンテキストは、「商品Aの顧客について」というユーザクエリから抽出される「商品A」及び「顧客」という単語である。また、他の例として、コンテキストは例えば、「売上推移について」というユーザクエリから抽出される「売上」及び「推移」という単語である。また、コンテキストは例えば、「検索履歴」が「商品Aの顧客」であるメタデータから抽出される「商品A」及び「顧客」という単語である。また、コンテキストは例えば、「検索履歴」が「売上推移」であるメタデータから抽出される「売上」及び「推移」という単語である。ただし、コンテキストは言語情報に限られず、他の情報であってもよい。コンテキストは例えば、ユーザの位置を示す位置情報、単語間の関連度を表す情報、又はサイトの閲覧履歴を示す情報であってもよい。
(関連度)
コンテキストデータと評価用データセットの構成要素との関連度は、コンテキストデータと評価用データセットの構成要素との関連の度合いを示す情報である。関連度は一例として、コンテキストである文字列と評価用データセットに含まれる構成要素である文字列との類似度であってもよい。文字列の類似度としては例えば、ハミング距離、レーベンシュタイン距離、ジャロ・ウィンクラー距離が用いられてもよい。また、関連度は一例として、文字列の意味的な類似度を表す情報であっても良い。文字列の意味的な類似度としては例えば、文字列の意味表現をベクトル空間で表した際のユークリッド距離、内積、コサイン類似度などを用いてもよい。また、関連度は一例として、文字列の共起度を表す情報であってもよい。文字列の共起度としては例えば、文字列の共起関係をベクトル空間で表した際のユークリッド距離、内積、コサイン類似度などを用いてもよい。また、関連度は一例として、コンテキストに対応するデータパターンと、評価用データセットの構成要素のデータパターンとの類似度を表す情報であってもよい。
(インサイトサブジェクト)
インサイトサブジェクトは、評価用データセットと関連度とを参照して生成されたデータである。インサイトサブジェクトは、一例として、評価用データの可視化結果を表すデータ、及び、評価用データを可視化するために用いられるデータ、の少なくともいずれか一方を含む。評価用データを可視化した可視化結果は、例えば評価用データの内容を表すチャート(円グラフ、棒グラフ、線グラフ、等)である。また、インサイトサブジェクトは、一例として、上述した関連データの一部、例えば関連データに含まれる関連情報であってもよい。換言すると、インサイトサブジェクトは、評価用データセットの一部であってもよい。ただし、インサイトサブジェクトは上述した例に限られず、他のデータであってもよい。
(インサイト)
また、本明細書において、インサイトとは、人が有益と認識する可視化結果、及び、そのような可視化結果を表すデータ、のことをいう。換言すれば、インサイトとは、人が有益と認識するインサイトサブジェクトのことをいう。
取得部11が評価用データセット及びコンテキストデータを取得する方法は特に限定されない。例えば、取得部11は、外部の記憶装置又は内部の記憶装置から評価用データセット及びコンテキストデータを読み出すことにより取得してもよく、また、通信IF又は入出力IFを介して評価用データセット及びコンテキストデータを取得してもよい。
関連度算出部12が関連度を算出する手法は特に限定されない。関連度算出部12は一例として、コンテキストである文字列と評価用データセットに含まれる構成要素である文字列との類似の度合いを表す関連度を算出する。関連度算出部12は一例として、コンテキストである文字列と評価用データセットに含まれる構成要素である文字列との意味的な類似度合いを表す関連度を算出してもよい。関連度算出部12は一例として、コンテキストである文字列と評価用データセットに含まれる構成要素である文字列との共起度合いを表す関連度を算出してもよい。また、関連度算出部12は一例として、コンテキストデータに対応するデータパターンと、評価用データセットの構成要素のデータパターンとの類似の度合いを表す関連度を算出してもよい。
また、評価部13が複数のインサイトサブジェクトを評価する手法は特に限定されない。評価部13は、一例として、複数のインサイトサブジェクトのそれぞれについて、ユーザが求めるインサイトを与えるかの評価結果である評価値を算出する。以下では、この評価値をインサイトスコアともいう。インサイトスコアは、そのまま出力してもユーザが求めるインサイトを与えるインサイトサブジェクトを発見する大きな助けとなる。また、インサイトスコアを用いることにより、インサイトスコアが高い、すなわちユーザが求めるインサイトを与える可能性が高いインサイトサブジェクトを自動で検出することも可能になる。
評価部13は一例として、関連データとコンテキストデータとが入力され、評価値を出力する評価モデルを用いて、複数のインサイトサブジェクトに対して評価を行う。評価モデルは、予め規定されたスコア関数であってもよく、また、機械学習により構築された学習済モデルであってもよい。スコア関数を用いる場合、評価部13は一例として、関連データとコンテキストデータとの関連性が高いほど、高い評価値を出力するスコア関数を用いて、複数のインサイトサブジェクトに対して評価を行う。ただし、評価部13が行う評価の手法はこれらに限られず、他の手法が用いられてもよい。
評価用データを可視化した可視化結果は、可視化に利用される関連情報等の内容によってそれぞれ異なる。評価用データを複数の異なるパターンで可視化した複数の可視化結果のそれぞれを、以下では「可視化候補」ともいう。評価用データの複数の可視化候補がユーザに与える視覚的な特徴は、複数の可視化候補のそれぞれで異なる。
インサイトサブジェクトは、評価用データの可視化候補と1対1で対応する。そのため、評価部13が複数のインサイトサブジェクトに対してコンテキストデータに応じた評価を行うことにより、複数の可視化候補に対してコンテキストデータに応じた評価が行われる。
表示部14が表示するインサイトサブジェクトに関する情報の表示態様は特に限定されない。表示部14は一例として、評価部13による評価が相対的に高いインサイトサブジェクトを、評価が相対的に低いインサイトサブジェクトよりも優先的に表示してもよい。また、表示部14は一例として、関連データに含まれる関連情報と、評価部13による評価結果とを対応付けて表示してもよい。
以上のように、本例示的実施形態に係る情報処理装置1においては、評価用データセット及びコンテキストデータを取得する取得部11と、コンテキストデータと評価用データセットの構成要素との関連度を算出する関連度算出部12と、評価用データセットと関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う評価部13と、インサイトサブジェクトに関連する情報を表示する表示部14と、を備える構成が採用されている。このため、本例示的実施形態に係る情報処理装置1によれば、ユーザの求めるインサイトを与える情報を表示することが可能になる、という効果が得られる。
上述の情報処理装置1の機能は、プログラムによって実現することもできる。本例示的実施形態に係るプログラムは、コンピュータに、評価用データセット及びコンテキストデータを取得する処理と、コンテキストデータと評価用データセットの構成要素との関連度を算出する処理と、評価用データセットと関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う処理と、インサイトサブジェクトに関連する情報を表示する処理とを実行させる。したがって、本例示的実施形態に係るプログラムによれば、ユーザの求めるインサイトを与える情報を表示することが可能になる、という効果が得られる。
<情報処理方法の流れ>
本例示的実施形態に係る情報処理方法S1の流れについて、図2を参照して説明する。図2は、情報処理方法S1の流れを示すフロー図である。
ステップS11では、少なくとも1つのプロセッサが、評価用データセット及びコンテキストデータを取得する。そして、ステップS12では、少なくとも1つのプロセッサが、コンテキストデータと評価用データセットの構成要素との関連度を算出する。ステップS13では、少なくとも1つのプロセッサが、評価用データセットと関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う。ステップS14では、少なくとも1つのプロセッサが、インサイトサブジェクトに関連する情報を表示する。これにより、図2の情報処理方法S1は終了する。
なお、1つのプロセッサにS11~S14の処理を実行させてもよいし、S11~S14の処理を複数のプロセッサに分担させて実行させてもよい。後者の場合、各プロセッサは、1つの情報処理装置が備えているものであってもよいし、それぞれ異なる情報処理装置が備えているものであってもよい。また、S11~S14の処理を実行する少なくとも1つのプロセッサは、情報処理装置1が備えているものであってもよい。
以上のように、本例示的実施形態に係る情報処理方法S1においては、少なくとも1つのプロセッサが、評価用データセット及びコンテキストデータを取得すること、コンテキストデータと評価用データセットの構成要素との関連度を算出すること、評価用データセットと関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行うこと、及びインサイトサブジェクトに関連する情報を表示することを含む、という構成が採用されている。このため、本例示的実施形態に係る情報処理方法S1によれば、ユーザの求めるインサイトを与える情報を表示することが可能になる、という効果が得られる。
〔例示的実施形態2〕
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
<情報処理装置の構成>
図3は、情報処理装置1Aの構成を示すブロック図である。情報処理装置1Aは、情報処理装置1Aの各部を統括して制御する制御部10Aと、情報処理装置1Aが使用する各種データを記憶する記憶部17とを備える。また、情報処理装置1Aは、情報処理装置1Aが他の装置と通信するための通信部18、情報処理装置1Aがデータを表示出力するための表示部19、及び情報処理装置1Aに対する入力を受け付ける入力部20を備える。以下では、表示部19がデータを表示出力する例を説明するが、情報処理装置1Aは、例えば印字出力や音声出力等の態様でデータを出力してもよい。また、表示部19と入力部20とは、情報処理装置1Aに外付けされた、情報処理装置1Aの外部の機器であってもよい。
制御部10Aは、取得部11、関連度算出部12、評価部13、表示部14、第1の生成部15-1、及び第2の生成部15-2を含む。また、記憶部17には、評価用データセットDS、コンテキストデータCD、評価モデルパラメータEMP、評価結果ER、及び表示用データDDが記憶される。
(評価用データセットDS)
評価用データセットDSには、評価用データと、当該評価用データに関連する関連データVDとが含まれている。評価用データは、可視化の対象であるデータであり、一例として、ある店舗の月間の売上記録を示すデータ、店舗の規模及びエリアを示すデータ、店舗で販売されている商品の商品コード、商品名及び単価を示すデータ、及び/又は、顧客の性別、年齢、居住地、職業等を示すデータである。
(関連データVD)
関連データVDは、評価用データに関連するデータである。関連データVDには、
・評価用データに関連する関連情報V
・関連情報Vをベクトル空間で表した特徴ベクトルd
・評価用データに含まれるデータであって関連情報Vに対応するデータを集計して得られる集計データs、及び、
・集計データsの統計量t
の少なくともいずれかが含まれる。
(関連情報V)
関連情報Vは、一例として、評価用データの可視化に利用される各種情報の集合であり、例えば以下の情報を含む。
・評価用データに含まれる各データの属性情報
・集計方法(フィルタ、集計関数、集計のキーとなる列名、等)に関する情報(評価用データに対して適用するフィルタに関する情報、等)
・チャートデザイン(x軸、y軸、チャートタイプ、プロットタイプ、等)に関する情報(チャートの各軸と項目との関係に関する情報、等)
(特徴ベクトルd
関連情報の特徴ベクトルdは、関連情報Vをベクトル空間で表現したものである。ベクトル化の方法は任意であるが、例えば単語の分散表現などを用いてもよい。
(集計データs
集計データsは、評価用データから関連情報Vに対応する数値を集計したデータである。集計データsは、関連情報Vの可視化結果としてチャートにプロットされる。
(統計量t
集計データsの統計量tは、集計データsについての各種統計量を並べたものである。利用する統計量は任意であるが、例えば以下のものが統計量tとして利用可能である。
・最大値、最小値、中央値
・平均値、標準偏差、分散
・カーディナリティ
・ゼロ値の割合、欠損値の割合
・尖度、歪度
・エントロピー
・ジニ係数
(コンテキストデータCD)
コンテキストデータCDには、
・コンテキストC、及び、
・コンテキストをベクトル空間で表した特徴ベクトルd
の少なくとも何れかが含まれる。
(コンテキストC)
コンテキストCは、ユーザが求めるインサイトに関するデータである。コンテキストCは、一例として、ユーザが求めるインサイトを自然言語で表すデータであり、ユーザが求めるインサイトの質及び量に関するデータを含む。コンテキストCは、後述のユーザクエリQ及び/又はメタデータMから抽出されてもよい。コンテキストCは一例として、「商品A」及び「顧客」という単語を含む。
(特徴ベクトルd
コンテキストCの特徴ベクトルdは、コンテキストCをベクトル空間で表したものである。ベクトル化の方法は任意であるが、一例として、単語の分散表現などを用いてもよい。
(ユーザクエリQ)
ユーザクエリQは、ユーザが求めるインサイトに関するクエリであり、ユーザによって自然言語で与えられる。ユーザクエリQは、例えば以下の情報を含む。
・分析対象とするデータについての情報(例:「商品A」、「売上」)
・インサイトに対する仮説(例:「~が増加している」、「~が突出している」)
・想定するチャートの特徴(例:地域別集計、円グラフ)
(メタデータM)
メタデータMは、ユーザの求めるインサイトが推定できる情報である。メタデータMは、一例として、所定のシステムにより自動的に収集される。メタデータMは、例えば以下の情報を含む。
・ユーザの検索履歴(例:「商品A、顧客」で検索している)
・ユーザの分析履歴(例:商品Aの顧客分析を過去に実施)
・ユーザの評価履歴(例:商品Aの顧客についてのチャート等を高く評価していた)
・ユーザの行動履歴(例:商品Aのサイト又は販売店舗をxx分滞在していた)
(評価モデルパラメータEMP)
評価モデルパラメータEMPは、評価モデルfを規定するパラメータである。評価モデルfは、関連データVD及びコンテキストデータCDを入力とし、入力された関連データVDに対応するインサイトサブジェクトを定量的に評価するモデルである。評価モデルfとしては、インサイトサブジェクトの評価結果の推定に利用できるものであれば任意のモデルが利用可能である。例えば、後述するようなルールベースのモデル、又は、機械学習により構築されたモデル等が評価モデルfとして利用可能である。評価モデルfの出力は、一例として、評価結果を表すスコア、又は、ラベル確率である。評価モデルfについては後述する。
(評価結果ER)
評価結果ERは、評価部13によるインサイトサブジェクトの評価結果を示すデータである。評価結果ERは、一例として、複数のインサイトサブジェクトのそれぞれについての評価結果を表すインサイトスコアy^である。
(インサイトスコアy^)
インサイトスコアy^は、評価モデルfの出力値に基づいて計算される可視化のよさの定量的指標である。インサイトスコアy^は例えば、評価モデルfの出力値であってもよく、また、評価モデルfの出力値に正規化及び/又は重み付け等の処理を加えた値であってもよい。インサイトスコアy^の算出方法の具体例については後述する。
(表示用データDD)
表示用データDDは、表示部14が表示する、インサイトサブジェクトに関する情報である。表示用データDDは一例として、コンテキストCと関連するインサイトオブジェクトを表す情報である。また、表示用データDDは一例として、インサイトオブジェクトの評価結果ERを含んでもよい。
(取得部11)
取得部11は、評価用データセットDS及びコンテキストデータCDを取得する。取得部11は、一例として、評価用データセットDS及びコンテキストデータCDを記憶部17から読み出すことにより取得する。ただし、評価用データセットDS及びコンテキストデータCDの取得方法は特に限定されない。例えば、取得部11は、情報処理装置1Aのユーザが入力部20を介して入力した評価用データセットDS及びコンテキストデータCDを取得してもよい。また、例えば、取得部11は、通信部18を介した通信により、外部の装置から評価用データセットDS及びコンテキストデータCDを取得してもよい。
(関連度算出部12・評価部13)
関連度算出部12は、コンテキストデータと評価用データセットの構成要素との関連度を算出する。評価部13は、評価用データと関連度とを参照して生成された複数のインサイトサブジェクトに対して評価を行う。評価部13は、一例として、複数のインサイトサブジェクトのそれぞれについてインサイトスコアy^を算出し、その算出結果を示す評価結果ERを生成して記憶部17に記憶させる。
(表示部14)
表示部14は、第1の生成部15-1が生成する表示用データDDを用いて、インサイトサブジェクトに関する情報を表示部19に表示する。
(第1の生成部15-1)
第1の生成部15-1は、評価用データセットと関連度とを参照して、複数のインサイトサブジェクトを生成する。インサイトサブジェクトの生成処理については後述する。また、第1の生成部15-1は、表示用データDDを生成する。第1の生成部15-1は一例として、関連度算出部12が算出した関連度に基づき、コンテキストCと関連するインサイトサブジェクトを列挙した表示用データDDを生成する。
(第2の生成部15-2)
第2の生成部15-2は、参照情報を参照して、コンテキストデータを生成する。参照情報は例えば、ユーザクエリ又はメタデータである。また、第2の生成部15-2は、評価用データセットDSを生成する。
<情報処理方法の流れ>
本例示的実施形態に係る情報処理方法の流れについて、図面を参照して説明する。図4は、情報処理方法の流れを示すフロー図である。以下では、関連情報Vが評価用データの可視化に利用される可視化情報である場合について説明する。以下では、関連情報Vの一例である可視化情報を「可視化情報V」ともいう。
(ステップS101)
ステップS101では、取得部11が、入力データD及びコンテキスト生成用データを取得する。入力データDは、本明細書に係る評価用データの一例である。入力データDは、チャートにプロットされるデータを含んでいればよく、入力データDのフォーマットとしては任意のフォーマットが利用可能である。取得部11は一例として、入力部20又は通信部18を介して入力データDを取得する。
図5は、入力データDの例を示す図である。図5の例では、入力データDは、売上データ、店舗データ、商品データ、及び顧客データを含む。売上データ、店舗データ、商品データ及び顧客データは、何れも複数のレコードを含む多次元データのデータセットである。売上データは、「日付」、「商品コード」、「顧客コード」、「店舗コード」、及び「売上」のデータ項目を含む多次元データである。店舗データは、「店舗コード」、「店舗名」、「エリア」、及び「規模」のデータ項目を含む多次元データである。商品データは、「商品コード」、「商品名」、「分類」、及び「単価」のデータ項目を含む多次元データである。顧客データは、「顧客コード」、「年齢」、「性別」、「居住地」、「職業」、及び「収入」のデータ項目を含む多次元データである。
(コンテキスト生成用データ)
コンテキスト生成用データは、コンテキストCを生成するためのデータであり、本明細書に係る参照情報の一例である。コンテキスト生成用データは、一例として、ユーザクエリQ及びメタデータMの一方又は両方を含む。コンテキスト生成用データは、複数のユーザクエリを含んでいてもよく、また、複数のメタデータを含んでいてもよい。ただし、コンテキスト生成用データはユーザクエリ及びメタデータに限られず、他のデータであってもよい。また、コンテキスト生成用データは、そのままでコンテキストCとして利用可能なデータであってもよい。取得部11は、一例として、入力部20又は通信部18を介してコンテキスト生成用データを取得してもよく、また、記憶部17からコンテキスト生成用データを読み出すことにより取得してもよい。
(ステップS102)
ステップS102では、第2の生成部15-2が評価用データセットDS及びコンテキストデータCDを生成する。評価用データセットDSの生成及びコンテキストデータCDの生成の具体例について以下に説明する。
(評価用データセットDSの生成)
第2の生成部15-2は、まず、可視化情報Vを取得する。第2の生成部15-2は、記憶部17の所定の記憶領域から可視化情報Vを読み出すことにより取得してもよく、また、入力部20又は通信部18を介して可視化情報Vを取得してもよい。このとき、第2の生成部15-2は、複数の可視化情報Vを取得する。可視化情報Vは、一例として、入力データDに含まれる各データの属性情報、チャートの各軸と項目との関係に関する情報、入力データDに対して適用するフィルタ、チャートタイプ、集計方法、等の情報を含む。
また、第2の生成部15-2は、任意の言語モデルを用いて、取得した可視化情報Vをベクトル空間で表現する特徴ベクトルdを生成する。特徴ベクトルdは、複数の可視化情報Vのそれぞれについて生成される。また、第2の生成部15-2は、入力データDから可視化情報Vに対応する数値を集計した集計データs、及び、集計データsについての各種統計量の集合である統計量tを生成する。
第2の生成部15-2は、取得した可視化情報V、及び、生成した特徴ベクトルd、集計データs、統計量tを含む関連データVDと、ステップS101で取得部11が取得した入力データDとを含む評価用データセットDSを生成する。関連データVDには、複数の可視化情報V及び複数の特徴ベクトルdが含まれてもよく、また、1対の可視化情報V及び特徴ベクトルdが含まれてもよい。
(コンテキストデータCDの生成)
また、第2の生成部15-2は、ステップS101で取得部11が取得したコンテキスト生成用データに対し任意の自然言語処理を実行してコンテキストCを生成する。なお、第2の生成部15-2は、コンテキスト生成用データをそのままコンテキストCとして用いてもよい。
図6は、コンテキストの生成例を示す図である。図6の例で、第2の生成部15-2は、「商品Aの顧客について」というユーザクエリQ1に対し自然言語処理を実行し、「商品A」、「顧客」というコンテキストC11を生成する。また、第2の生成部15-2は、「売上推移について」というユーザクエリQ2に対し自然言語処理を行い、「売上」、「推移」というコンテキストC12を生成する。また、第2の生成部15-2は、「検索履歴」が「商品Aの顧客」であるメタデータM1に対し自然言語処理を行って「商品A」、「顧客」というコンテキストC11を生成する。また、第2の生成部15-2は、「検索履歴」が「売上推移」であるメタデータM2に対し自然言語処理を行った「売上」、「推移」というコンテキストC12を生成する。
第2の生成部15-2は、任意の言語モデルを用いて、生成したコンテキストCをベクトル空間で表現する特徴ベクトルdを生成し、生成した特徴ベクトルdとコンテキストCとを含むコンテキストデータCDを生成する。
(ステップS103)
図4のステップS103では、関連度算出部12は、コンテキストデータCDと評価用データセットDSの構成要素との関連度を算出する。図7及び図8は、コンテキストデータCDと評価用データセットDSとの関連度の算出方法の例を示す図である。図7は、コンテキストデータCDが「商品A」及び「顧客」というコンテキストC11を含み、評価用データセットDSに含まれる入力データDが、図5に示したような、売上データ、商品データ、店舗データ及び顧客データを含む例を示す。この場合、関連度算出部12は、コンテキストC11の「商品A」及び「顧客」のそれぞれと、入力データDの複数の構成要素のそれぞれとの関連度を算出する。図7の例で、入力データDの構成要素は例えば、売上データ、店舗データ、商品データ、顧客データの各々のデータ、及び、各データのデータ項目を含む。
図7の例では、売上データの「商品コード」の列、及び、商品データの「商品名」の項目が「商品A」の行は、コンテキストC11の「商品A」との文字列の類似度が高いため、関連度算出部12が算出する関連度は他の構成要素よりも大きくなる。また、売上データの「顧客コード」の列、及び顧客データは、コンテキストC11の「顧客」との文字列の類似度が高いため、関連度算出部12が算出する関連度は他の構成要素よりも大きくなる。
図8は、コンテキストデータCDが「売上」及び「推移」というコンテキストC12を含み、評価用データセットDSに含まれる入力データDが、図5に示したような、売上データ、商品データ、店舗データ及び顧客データを含む例を示す。この場合、関連度算出部12は、コンテキストC12の「売上」及び「推移」のそれぞれと、入力データDの複数の構成要素のそれぞれとの関連度を算出する。
図8の例では、売上データの「売上」の列は、コンテキストC12の「売上」との文字列の類似度が高いため、関連度算出部12が算出する関連度は他の構成要素よりも大きくなる。また、売上データの「日付」の列は、コンテキストC12の「推移」に対応するデータパターンを有しているため、関連度算出部12が算出する関連度が他の構成要素よりも大きくなる。
(ステップS104)
図4のステップS104では、第1の生成部15-1は、評価用データセットDSと、ステップS103で算出した関連度とを参照して複数のインサイトサブジェクトを生成する。第1の生成部15-1は一例として、評価用データセットDSの構成要素のうち、関連度がゼロではない構成要素を含むインサイトサブジェクトを生成する。なお、第1の生成部15-1が行うインサイトサブジェクトの生成方法は上述したものに限られない。第1の生成部15-1は例えば、関連度が所定の条件を満たす(関連度が閾値以上である)構成要素を含むインサイトサブジェクトを生成してもよい。
また、ステップS104において、第1の生成部15-1は、コンテキストが与えられていない、又は、関連のあるデータの構成要素が存在しなかった場合には、データテーブルにおいて考えられる全ての可視化情報Vについてインサイトサブジェクトを生成してもよい。
より具体的には、第1の生成部15-1は例えば、関連データVDに含まれる集計データ を、可視化情報Vが表す表示態様のチャートにプロットした可視化結果を表すインサイトサブジェクトを生成する。このとき、第1の生成部15-1が、複数の可視化情報Vのそれぞれについてインサイトサブジェクトを生成することにより、複数のインサイトサブジェクトが生成される。また、1つの可視化情報Vについて1つのインサイトサブジェクトが生成されるため、可視化情報Vとインサイトサブジェクトとは1対1で対応する。なお、インサイトサブジェクトは可視化候補を表すデータに限られず、例えば、可視化情報Vがそのままインサイトサブジェクトとして扱われてもよい。
(ステップS105)
ステップS105では、評価部13は、インサイトサブジェクトに対して評価を実行する。評価部13は一例として、複数のインサイトサブジェクトに対して、コンテキストデータCDに応じた評価を行う。
より具体的には、評価部13は一例として、複数のインサイトサブジェクトの各々に対して、関連データVDとコンテキストデータCDとを参照した評価を行う。このとき、複数のインサイトサブジェクトは関連情報Vと1対1で対応しているため、評価部13は、可視化情報Vのそれぞれについて評価を行う。換言すると、評価部13は、複数のインサイトサブジェクトの各々に対して、関連データVDに含まれる関連情報V毎に評価を行う。
評価部13は例えば、関連データ及びコンテキストデータの少なくとも一部が入力され、評価値を出力する評価モデルを用いて、複数のインサイトサブジェクトに対して評価を行う。図9は、評価部13が行う評価処理の例を示す図である。図9の例で、評価部13は、可視化情報VとコンテキストデータCD、入力データDが入力され、インサイトスコアy^を出力する評価モデルfを用いて、複数のインサイトサブジェクトに対して評価を行う。評価モデルfは、予め規定されたスコア関数であってもよく、また、機械学習により構築された学習済モデルであってもよい。評価モデルfを用いた評価方法については後述する。評価モデルfによる可視化情報V毎のインサイトスコアy^は記憶部17に評価結果ERとして記憶される。
(ステップS106)
ステップS106では、表示部14は、インサイトサブジェクトに関連する情報を表示する。表示部14は、一例として、関連度算出部12が算出した関連度に基づき、コンテキストと関連する可視化情報Vを列挙した情報を表示する。ここで、表示部14は、コンテキストが存在しない場合又は関連するインサイトサブジェクトがない場合、第1の生成部15-1が生成した全てのインサイトサブジェクトを列挙した情報を表示してもよい。
より具体的には、例えば、表示部14は、評価部13による評価結果と共に、又は評価部13による評価結果に応じた表示態様にて、複数のインサイトサブジェクトの少なくとも何れかを表示する。評価結果に応じた表示態様とは、例えば、表示順、又は、表示の大きさを含む。このとき、表示部19は、評価部13による評価が相対的に高いインサイトサブジェクトを、評価部13による評価が相対的に低いインサイトサブジェクトよりも優先的に表示してもよい。
評価結果の表示例について、図10~図13を参照しつつ説明する。図10は、可視化結果の表示例1を示す図である。図10の例では、「1.商品Aの顧客数の推移」、「2.商品Aの顧客数(年齢)」及び「3.商品Aの売上高(年齢)」の3つの可視化結果であるチャートC101~C103が、インサイトスコアy^の高い順に表示される。また、チャートC101~C103のそれぞれに対応するインサイトスコアy^及び可視化情報Vを含む情報V101~V103が、チャートC101~C103に対応付けて表示される。
また、表示例1では、チャートC101~C103のそれぞれについて、可視化結果をユーザが評価するための評価ボタンC111~C113が表示される。また入力データDの再評価を行うための検索窓C114及び再評価ボタンC115が表示される。入力データDの再評価については後述する。
チャートC101が表示されることにより、ユーザは例えば「商品Aの顧客数は年々減少してしまっている」といった情報を把握することができる。また、チャートC102が表示されることにより、ユーザは例えば、「商品Aの主要顧客の年代は20代である」といった情報を把握することができる。
図11は、インサイトサブジェクトを評価結果と共に表示する例を示す図である。図11の例で、インサイトサブジェクトV7、V3、V8、…は、入力データDの可視化結果を表すチャートであり、インサイトサブジェクトV7、V3、V8、…の視覚的特徴はそれぞれ異なっている。インサイトサブジェクトV7、V3、V8、…のそれぞれに隣接して各インサイトサブジェクトのインサイトスコアy^が表示される。また、複数のインサイトサブジェクトV7、V3、V8、…は、インサイトスコアy^の降順で表示される。
図11の例によれば、複数のインサイトサブジェクトがインサイトスコアy^の降順で表示されることにより、どのインサイトサブジェクトの評価が高いかをユーザが把握し易い。
図12は、可視化情報Vを評価結果と共に表示する例を示す図である。図12の例では、表示部14は、関連データに含まれる各関連情報Vと、評価部13による評価とを対応付けて表示する。具体的には、表示部19は、可視化情報V11~V18と、可視化情報V11~V18のそれぞれに対応するインサイトスコアy^とを対応付けて表示する。
図13は、インサイトサブジェクトを評価結果と共に表示する例を示す図である。図13の例では、表示部14は、入力データDの可視化結果であるチャート(棒グラフ)を表示するとともに、表示したチャートに対応するインサイトスコアy^をチャートと共に表示する。
ユーザは、表示部14の表示により、ユーザの求めるインサイトを与える可能性の高い可視化結果を優先的に視認することができる。このように、本例示的実施形態によれば、ユーザの求めるインサイトをユーザに与えやすい表示出力を行うことができる。
(ステップS105の評価の具体例)
次いで、評価部13がステップS105で行う評価の具体例について、図14~16を参照しつつ説明する。評価部13は、一例として、特徴ベクトルd、特徴ベクトルd、集計データs及び統計量tを用いてインサイトサブジェクトに対する評価を行う。
図14は、特徴ベクトルd及び特徴ベクトルdの生成例を示す図である。図14に示すように、可視化情報Vから特徴ベクトルdが生成されるとともに、コンテキストCから特徴ベクトルdが生成される。
図15は、第2の生成部15-2が生成する集計データs及び統計量tの例を示す図である。図15の例で、集計データsは、入力データDに含まれるデータであって可視化情報Vに対応するデータを集計して得られるデータである。統計量tは、集計データsの統計量を表すデータである。
以下では、評価部13が実行する評価の具体例として、ルールベースでの評価と学習ベースでの評価とについて説明する。
(ルールベースでの評価)
ルールベースの場合、評価部13は関連データVDを用いてスコアy^を計算し、スコアy^を用いてインサイトスコアy^を計算する。このとき、評価部13は、スコアy^をそのままインサイトスコアy^として用いてもよいし、スコアy^に正規化又は重み付けなどの処理を加えてインサイトスコアy^を算出してもよい。
スコアy^の計算方法は限定されないが、評価部13は例えば、インサイトの種別ごとにルールベースで定義されたスコア関数を用いてもよく、また、インサイトを与えるチャートの特徴量を学習するモデルを用いてスコアy^を算出してもよい。
スコア関数を用いる場合、スコア関数は、一例として、関連データVDとコンテキストデータCDとの関連性が高い程、高い評価値を出力する関数である。換言すると、評価部13は、予め規定されたスコア関数であって、関連データVDとコンテキストデータCDとの関連性が高い程、高い評価値を出力するスコア関数を用いて、複数のインサイトサブジェクトに対して評価を行う。
(ルールベースでの評価の例1)
評価部13は例えば、コンテキストデータCDとの関連性が低い関連データVDについてのインサイトスコアy^をゼロ、又はマイナス値にするなどして、評価結果が低くなるようにする。コンテキストデータCDと関連データVDとの関連性の程度(類似度)の計算方法は限定されないが、評価部13は例えば、集合の類似度(Jaccard、Dice、Simpson、等)、文字列の類似度(ハミング距離、レーベンシュタイン距離、ジャロ・ウィンクラー距離、等)、分散表現(word2vec、fastText、BERT、等)の類似度を用いる。
(ルールベースでの評価の例2)
また、評価部13は、コンテキストデータCDと関連データVDの類似度によって重み付けされたスコアを用いて、インサイトスコアy^を算出してもよい。より具体的には、例えば、関連データVDを用いて計算されたスコアy^と、類似度sim(CD,D)の積をインサイトスコアy^としてもよい。
(学習ベースでの評価)
学習ベースの場合、評価部13は、予め学習された評価モデルであって、関連データVDとコンテキストデータCDとが入力され、評価値を出力する評価モデルfを用いて、複数のインサイトサブジェクトに対して評価を行う。評価モデルfの機械学習の手法は限定されず、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの1以上の手法が用いられてもよい。決定木ベースとしては、例えば、LightGBM(Light Gradient Boosting Machine)、及びXGBoostが挙げられる。線形回帰としては、例えば、サポートベクター回帰、Ridge回帰、Lasso回帰、及びElasticNetが挙げられる。ニューラルネットワークとしては、例えばディープラーニングが挙げられる。
評価モデルfの学習においては、インサイトがあるとみなせる任意の教師データが利用可能である。例えば、過去にデータ分析者によって作成されたチャートがインサイトを与える特徴を含んでいるとみなして、それらの可視化情報Vをポジティブサンプルとして学習に用いてもよい。また、インサイトがないと考えられるチャートの可視化情報Vをネガティブサンプルとして学習に用いてもよい。
図16は、評価モデルfの一例を示す図である。図16の例で、評価モデルfの入力は、特徴ベクトルd、特徴ベクトルd 、集計データ 、及び統計量tを含む。評価モデルfの出力は、評価結果であり、一例として、ユーザの求めるインサイトを与えるかを示すラベル確率である。
(学習ベースにおける評価モデルの例1)
可視化情報Vのインサイトに関する教師ラベルyが与えられる場合には、分類モデルとして評価モデルを学習させることができる。例えば、y∈{0,1}が1の場合はインサイトあり、0の場合はインサイトなし、を示すラベルとして与えられているとき、2クラス分類タスクとして、例えば以下の式(1)により与えられる損失関数E(θ)を最小化する機械学習モデルを学習させればよい。式(1)において、Nは学習データの数である。
Figure 2023037399000001
上記損失関数を最小化する機械学習モデルの出力は、p(y=1|VD,CD)、すなわちインサイトありと判定される確率と解釈することができ、これをインサイトスコアy^として用いることができる。
(学習ベースにおける評価モデルの例2)
可視化情報Vごとの可視化のよさを表すスコアやランキングが教師データとして与えられる場合、回帰モデルとして評価モデルを学習させることができる。例えば、yを教師データによって与えられたスコアであるとした場合、例えば以下の式(2)により与えられる損失関数E(θ)を最小化する機械学習モデルを学習させればよい。式(2)において、Nは学習データの数である。
Figure 2023037399000002
上記の損失関数を最小化する機械学習モデルの出力は、教師データのスコアと同様に可視化のよさを表すスコアであり、これをインサイトスコアy^として用いてもよい。
〔例示的実施形態3〕
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
図17は、本例示的実施形態に係る情報処理装置1Bの構成を示すブロック図である。図17に示すように、情報処理装置1Bは、例示的実施形態2に係る情報処理装置1Aの制御部10Aに代えて制御部10Bを備える。制御部10Bは、取得部11、関連度算出部12、評価部13、表示部14、第1の生成部15-1及び第2の生成部15-2に加えて、学習部16を備える。
本例示的実施形態において、入力部20は、評価部13の評価結果に対するユーザからのフィードバックを受け付ける。また、評価部13は、ユーザからのフィードバックを参照して、複数のインサイトサブジェクトに対して、再度の評価を行う。
例えば、入力部20が受け付けたユーザからのフィードバックが、ユーザからの評価が高いことを示している場合に、取得部11は、フィードバックが反映されたコンテキストデータを取得する。関連度算出部12は、フィードバックが反映されたコンテキストデータと評価用データセットの構成要素との関連度を算出する。評価部13は、評価用データセットと関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う。
コンテキスト及びユーザクエリは任意のタイミングで更新することが可能である。コンテキスト及びユーザクエリは例えば、図10の検索窓C114にユーザが文字列を入力して再評価ボタンC115を選択することにより更新される。コンテキスト及びユーザクエリの更新後にはコンテキストデータの取得処理、及びインサイトサブジェクトに関連する情報の表示処理を情報処理装置1Bが再度実行し、これにより、表示部19に表示される情報が切り替わる。
具体的には例えば、図10の表示例において、ユーザが評価ボタンC111~C113のいずれかを選択する操作、又は、検索窓C114への入力操作及び再評価ボタンC115の選択操作を行うと、取得部11は、ユーザの操作内容に基づくコンテキストデータを生成し、生成したコンテキストデータを用いて、図4に示す情報処理方法S1Aを実行する。これにより、ユーザのフィードバックが反映された情報の表示が行われる。
また、学習部16は、ユーザからのフィードバックを参照して、評価モデルfを再学習してもよい。この場合、学習部16は例えば、表示部19が表示したインサイトサブジェクトに関連する情報(インサイトスコアy^、可視化情報V、チャート、等)に関するユーザの操作履歴を、ユーザからのフィードバックとして記憶部17等に記録する。ユーザの操作履歴は、一例として、インサイトサブジェクトに関連する情報の表示時間、インサイトサブジェクトに関連する情報に対する評価ボタンの押下、等を含む。
学習部16は、ユーザからのフィードバックを反映した評価モデルfの再学習を行う。学習部16は例えば、評価の高い可視化情報Vをポジティブサンプルとし、評価の低い可視化情報をネガティブサンプルとして、評価モデルfの再学習を行う。
本例示的実施形態に係る情報処理装置1Bにおいては、入力部20が評価結果に対するユーザからのフィードバックを受け付け、評価部13が、ユーザからのフィードバックを参照して、複数のインサイトサブジェクトに対して、再度の評価を行う。このため、本例示的実施形態に係る情報処理装置1Bによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、インサイトサブジェクトに対する評価の精度をより高くすることができるという効果が得られる。
〔変形例〕
上述の例示的実施形態1において、1つの情報処理装置1が行っていた処理は、複数の情報処理装置に分担させてもよい。言い換えれば、情報処理装置1が行う処理の一部を、少なくとも1つの他の情報処理装置に実行させてもよい。さらに言い換えれば、上述の各処理を少なくとも1つのプロセッサに行わせる場合、その少なくとも1つのプロセッサは、1つの情報処理装置1が備えているものであってもよいし、それぞれ異なる情報処理装置が備えているものであってもよい。これは、上述の例示的実施形態2における情報処理装置1A、および例示的実施形態3における情報処理装置1Bについても同様である。
〔ソフトウェアによる実現例〕
情報処理装置1、1A、1Bの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
後者の場合、情報処理装置1、1A、1Bは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図18に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1、1A、1Bとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1、1A、1Bの各機能が実現される。
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
(付記1)
評価用データセット及びコンテキストデータを取得する取得手段と、
前記コンテキストデータと前記評価用データセットの構成要素との関連度を算出する関連度算出手段と、
前記評価用データセットと前記関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う評価手段と、
前記インサイトサブジェクトに関連する情報を表示する表示手段と、
を備える情報処理装置。
上記の構成によれば、ユーザの求めるインサイトを与える情報を表示することができる。
(付記2)
前記評価用データセットと前記関連度とを参照して、前記複数のインサイトサブジェクトを生成する第1の生成手段を更に備える、付記1に記載の情報処理装置。
上記の構成によれば、ユーザの求めるインサイトを与える情報を表示することができる。
(付記3)
前記第1の生成手段は、
前記評価用データセットの構成要素のうち、前記関連度がゼロではない構成要素を含むインサイトサブジェクトを生成する、付記2に記載の情報処理装置。
上記の構成によれば、コンテキストデータとの関連度がゼロでない構成要素を含むインサイトサブジェクトに関する情報を表示することができる。
(付記4)
前記評価用データセットには、評価用データと、当該評価用データに関連する関連データとが含まれており、
前記評価手段は、前記複数のインサイトサブジェクトの各々に対して、前記関連データに含まれる関連情報毎に評価を行う、付記1から3の何れか1つに記載の情報処理装置。
上記の構成によれば、関連情報毎にインサイトサブジェクトを評価することができる。
(付記5)
前記表示手段は、前記評価手段による評価が相対的に高いインサイトサブジェクトを、前記評価手段による評価が相対的に低いインサイトサブジェクトよりも優先的に表示する、付記4に記載の情報処理装置。
上記の構成によれば、インサイトサブジェクトに対する評価の程度をユーザに提示することができる。
(付記6)
前記表示手段は、前記関連データに含まれる各関連情報と、前記評価手段による評価結果とを対応付けて表示する、付記4又は5に記載の情報処理装置。
上記の構成によれば、表示手段が表示する情報によりユーザが複数のインサイトサブジェクトのそれぞれに対する評価を把握することができる。
(付記7)
前記表示手段は、
前記評価手段による評価結果と共に、又は前記評価手段による評価結果に応じた表示態様にて、前記複数のインサイトサブジェクトの少なくとも何れかを表示する、付記1から6の何れか1つに記載の情報処理装置。
上記の構成によれば、表示手段が表示するインサイトサブジェクトによりユーザがインサイトサブジェクトに対する評価をより把握し易くすることができる。
(付記8)
前記評価手段は、複数のインサイトサブジェクトに対して、前記コンテキストデータに応じた評価を行う、付記1から7の何れか1つに記載の情報処理装置。
上記の構成によれば、データの可視化候補がユーザの求めるインサイトを与えるかについて評価することができる。
(付記9)
参照情報を参照して、前記コンテキストデータを生成する第2の生成手段を更に備えている、付記1から8の何れか1つに記載の情報処理装置。
上記の構成によれば、参照情報に対応するインサイトを与える情報を表示することができる。
(付記10)
前記評価手段の評価結果に対するユーザからのフィードバックを受け付ける受付手段を更に備え、
前記評価手段は、前記ユーザからのフィードバックを参照して、前記複数のインサイトサブジェクトに対して、再度の評価を行う、付記1から9の何れか1つに記載の情報処理装置。
上記の構成によれば、インサイトサブジェクトに対する評価の精度をより高くすることができる。
(付記11)
前記受付手段が受け付けた前記ユーザからのフィードバックが、ユーザからの評価が高いことを示している場合に、
前記取得手段は、前記フィードバックが反映されたコンテキストデータを取得し、
前記関連度算出手段は、前記フィードバックが反映されたコンテキストデータと前記評価用データセットの構成要素との関連度を算出し、
前記評価手段は、前記評価用データセットと前記関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う、付記10に記載の情報処理装置。
上記の構成によれば、インサイトサブジェクトに対する評価の精度をより高くすることができる。
(付記12)
少なくとも1つのプロセッサが、
評価用データセット及びコンテキストデータを取得すること、
前記コンテキストデータと前記評価用データセットの構成要素との関連度を算出すること、
前記評価用データセットと前記関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行うこと、及び、
前記インサイトサブジェクトに関連する情報を表示すること、
を含む情報処理方法。
(付記13)
コンピュータに、
評価用データセット及びコンテキストデータを取得する処理と、
前記コンテキストデータと前記評価用データセットの構成要素との関連度を算出する処理と、
前記評価用データセットと前記関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う処理と、
前記インサイトサブジェクトに関連する情報を表示する処理と、
を実行させるプログラム。
〔付記事項3〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
少なくとも1つのプロセッサを備え、前記プロセッサは、評価用データセット及びコンテキストデータを取得する取得処理と、前記コンテキストデータと前記評価用データセットの構成要素との関連度を算出する関連度算出処理と、前記評価用データセットと前記関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う評価処理と、前記インサイトサブジェクトに関連する情報を表示する表示処理とを実行する情報処理装置。
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記関連度算出処理と、前記評価処理と、前記表示処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
1、1A、1B 情報処理装置
10A、10B 制御部
11 取得部(取得手段)
12 関連度算出部(関連度算出手段)
13 評価部(評価手段)
14 表示部(表示手段)
15-1 第1の生成部
15-2 第2の生成部
16 学習部
17 記憶部
18 通信部
19 表示部
20 入力部(受付手段)

Claims (10)

  1. 評価用データセット及びコンテキストデータを取得する取得手段と、
    前記コンテキストデータと前記評価用データセットの構成要素との関連度を算出する関連度算出手段と、
    前記評価用データセットと前記関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う評価手段と、
    前記インサイトサブジェクトに関連する情報を表示する表示手段と
    を備える情報処理装置。
  2. 前記評価用データセットと前記関連度とを参照して、前記複数のインサイトサブジェクトを生成する第1の生成手段を更に備える、請求項1に記載の情報処理装置。
  3. 前記第1の生成手段は、
    前記評価用データセットの構成要素のうち、前記関連度がゼロではない構成要素を含むインサイトサブジェクトを生成する、請求項2に記載の情報処理装置。
  4. 前記評価用データセットには、評価用データと、当該評価用データに関連する関連データとが含まれており、
    前記評価手段は、前記複数のインサイトサブジェクトの各々に対して、前記関連データに含まれる関連情報毎に評価を行う、請求項1から3の何れか1項に記載の情報処理装置。
  5. 前記表示手段は、
    前記評価手段による評価結果と共に、又は前記評価手段による評価結果に応じた表示態様にて、前記複数のインサイトサブジェクトの少なくとも何れかを表示する、請求項1から4の何れか1項に記載の情報処理装置。
  6. 前記評価手段は、複数のインサイトサブジェクトに対して、前記コンテキストデータに応じた評価を行う、請求項1から5の何れか1項に記載の情報処理装置。
  7. 参照情報を参照して、前記コンテキストデータを生成する第2の生成手段を更に備えている、請求項1から6の何れか1項に記載の情報処理装置。
  8. 前記評価手段の評価結果に対するユーザからのフィードバックを受け付ける受付手段を更に備え、
    前記評価手段は、前記ユーザからのフィードバックを参照して、前記複数のインサイトサブジェクトに対して、再度の評価を行う、請求項1から7の何れか1項に記載の情報処理装置。
  9. 少なくとも1つのプロセッサが、
    評価用データセット及びコンテキストデータを取得すること、
    前記コンテキストデータと前記評価用データセットの構成要素との関連度を算出すること、
    前記評価用データセットと前記関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行うこと、及び
    前記インサイトサブジェクトに関連する情報を表示すること
    を含む情報処理方法。
  10. コンピュータに、
    評価用データセット及びコンテキストデータを取得する処理と、
    前記コンテキストデータと前記評価用データセットの構成要素との関連度を算出する処理と、
    前記評価用データセットと前記関連度とを参照して生成された複数のインサイトサブジェクトに対して、評価を行う処理と、
    前記インサイトサブジェクトに関連する情報を表示する処理と
    を実行させるプログラム。
JP2023546585A 2021-09-07 2021-09-07 Pending JPWO2023037399A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/032767 WO2023037399A1 (ja) 2021-09-07 2021-09-07 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2023037399A1 JPWO2023037399A1 (ja) 2023-03-16
JPWO2023037399A5 true JPWO2023037399A5 (ja) 2024-05-13

Family

ID=85507246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023546585A Pending JPWO2023037399A1 (ja) 2021-09-07 2021-09-07

Country Status (2)

Country Link
JP (1) JPWO2023037399A1 (ja)
WO (1) WO2023037399A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7251557B2 (ja) * 2019-01-21 2023-04-04 日本電気株式会社 無線通信品質可視化システム、無線通信品質可視化装置、および測定装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9824469B2 (en) * 2012-09-11 2017-11-21 International Business Machines Corporation Determining alternative visualizations for data based on an initial data visualization
WO2016027318A1 (ja) * 2014-08-20 2016-02-25 株式会社日立製作所 データ転送装置およびデータ転送方法
JPWO2018173251A1 (ja) * 2017-03-24 2019-12-12 株式会社NeU データ可視化システム、データ可視化装置、データ可視化方法及びデータ可視化プログラム
JP6856557B2 (ja) * 2018-01-22 2021-04-07 株式会社日立製作所 最適化装置及びハイパーパラメータの最適化方法

Similar Documents

Publication Publication Date Title
CN109804362B (zh) 通过机器学习确定主键-外键关系
Herremans et al. Dance hit song prediction
US20190318407A1 (en) Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
US20120296895A1 (en) System and method for conducting processor-assisted indexing and searching
US10255283B1 (en) Document content analysis based on topic modeling
JP6567484B2 (ja) 推計モデル構築システム、推計モデル構築方法及びプログラム
JP2008084151A (ja) 情報表示装置および情報表示方法
US11037073B1 (en) Data analysis system using artificial intelligence
CN111581969B (zh) 医疗术语向量表示方法、装置、存储介质及电子设备
CN112655047A (zh) 对医学记录分类的方法
US11423319B2 (en) Explaining semantic search
US11176460B2 (en) Visual analysis framework for understanding missing links in bipartite networks
JPWO2023037399A5 (ja)
WO2023037399A1 (ja) 情報処理装置、情報処理方法及びプログラム
WO2023037398A1 (ja) 情報処理装置、情報処理方法及びプログラム
JPWO2023037398A5 (ja)
Özkan et al. Effect of data preprocessing on ensemble learning for classification in disease diagnosis
US11900060B2 (en) Information processing device, information processing method, and computer program product
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
JP7292235B2 (ja) 分析支援装置及び分析支援方法
JP6039057B2 (ja) 文書分析装置及び文書分析プログラム
JP5020274B2 (ja) 意味ドリフトの発生評価方法及び装置
CN116453702B (zh) 孤独症行为特征集的数据处理方法、设备、系统及介质
US20230196181A1 (en) Intelligent machine-learning model catalog