JPWO2015163322A1 - データ分析装置、データ分析方法およびプログラム - Google Patents

データ分析装置、データ分析方法およびプログラム Download PDF

Info

Publication number
JPWO2015163322A1
JPWO2015163322A1 JP2016514948A JP2016514948A JPWO2015163322A1 JP WO2015163322 A1 JPWO2015163322 A1 JP WO2015163322A1 JP 2016514948 A JP2016514948 A JP 2016514948A JP 2016514948 A JP2016514948 A JP 2016514948A JP WO2015163322 A1 JPWO2015163322 A1 JP WO2015163322A1
Authority
JP
Japan
Prior art keywords
prediction
rule
actual measurement
measurement value
prediction rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016514948A
Other languages
English (en)
Inventor
勇気 小阪
勇気 小阪
虎 王
虎 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2015163322A1 publication Critical patent/JPWO2015163322A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

複数の目的変数と複数の説明変数との関係性を同時に分析するマルチタスク型分析に関して、予測精度の低下を防ぎつつ予測ルールの数を削減する。マルチタスク型のデータ分析装置は、複数の目的変数の実測値である第1の実測値と、複数の目的変数に対応する複数の説明変数の実測値である第2の実測値と、予測対象の目的変数に対応する説明変数の実測値である第3の実測値を保持する記憶部と、第1の実測値と第2の実測値を用いて、複数の目的変数に共通して関係する説明変数によって表される予測ルールである共通予測ルールと、各目的変数に関係する説明変数によって表される目的変数別の予測ルールから成る個別予測ルールと、個別予測ルールに含まれる予測ルールをグループ化したときの各グループに対する予測ルールから成るグループ別予測ルールを算出する予測ルール学習部と、を備える。

Description

[関連出願についての記載]
本発明は、中華人民共和国特許出願:出願番号201410167977.2(2014年4月24日出願)に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
本発明は、データ分析装置、データ分析方法およびプログラムに関し、特に、複数の目的変数と複数の説明変数との関係性を同時に分析するデータ分析装置、データ分析方法およびプログラムに関する。
蓄積された膨大なデータを分析して導き出された将来予測の結果が、企業の意思決定に活用され始めている。例えば、スーパー、コンビニエンスストアなどの店舗では、各商品の需要予測結果に基づいて各商品の仕入れ数を調整している。例えば、各商品の需要予測を行う場合、各商品の属性や各商品を販売した顧客の属性などの商品・顧客情報と、各商品の販売実績との関係を分析する。このとき、目的変数として、各商品の販売実績値が用いられ、一方、説明変数として、各商品の属性(価格、製造メーカー)、各商品を販売した顧客の属性(年齢、性別)などが用いられる。
上記のデータ分析において、複数の目的変数を別々に扱って各目的変数と複数の説明変数との関係性を表す予測ルールを独立に学習する代わりに、複数の目的変数間の関係性も考慮しつつ、各目的変数と複数の説明変数との関係性を表す予測ルールを学習することによって予測精度を向上する技術が開発されている。このようなアプローチは、「マルチタスク型分析」と呼ばれている。すなわち、マルチタスク型分析では、各目的変数と複数の説明変数との関係性を表す予測ルールを学習した後、学習した予測ルールに複数の説明変数の値を入力することにより、各目的変数の予測値を算出する。
マルチタスク型分析技術の一例が、非特許文献1に記載されている。非特許文献1に記載された技術では、複数の目的変数の実測値と複数の説明変数の実測値に基づいて、すべての目的変数に共通して関係する説明変数によって表される予測ルール(以下、「共通予測ルール」という。)と、各目的変数に対してそれぞれ関係する説明変数によって表される目的変数別の予測ルール(以下、「個別予測ルール」という。)を学習する。次に、学習した共通予測ルールと個別予測ルールに、各説明変数の実測値を入力して、目的変数毎に予測値を算出する。
また、関連技術として、非特許文献2には、目的関数を最小化するための凸最適化方法が記載されている。
A.Jalali, et al.,"A Dirty Model for Multi-task Learning," NIPS 2010. M.Heiler and C.Schnoerr,"Learning Sparse Representations by Non-Negative Matrix Factorization and Sequential Cone Programming," Journal of Machine Learning Research 7 (2006) 1385-1407.
上記非特許文献1、2の全開示内容は、本書に引用をもって繰り込み記載されているものとする。以下の分析は、本発明者によってなされたものである。
マルチタスク型のデータ分析において、機械が予測した結果のみならず、実用上は、機械がどのようにして予測結果を導いたのかを表すことが求められる。なぜなら、意思決定をする際には、予測結果だけを確認するだけではなく、予測結果を導いた予測ルールの妥当性が重要となるからである。
機械がどのようにして予測結果を導いたのかをユーザに知らせるには、ユーザに対して予測ルールを表示して提供する必要がある。しかしながら、目的変数の数が数千〜数万種類に及ぶと、予測ルールの数も数千〜数万種類となるため、ユーザは各予測ルールが妥当か否かを確認することが困難となる。
したがって、目的変数の数が膨大な場合でも、予測精度を大きく低下させることなく学習される予測ルールの個数を削減することが重要となるが、現状では、そのような技術は確立されていない。
そこで、マルチタスク型のデータ分析において、予測精度の低下を防ぎつつ予測ルールの数を削減することが要望される。本発明の目的は、かかる要望に寄与するデータ分析装置、データ分析方法およびプログラムを提供することにある。
本発明の第1の視点によると、マルチタスク型のデータ分析装置が提供される。前記データ分析装置は、複数の目的変数の実測値である第1の実測値と、前記複数の目的変数に対応する複数の説明変数の実測値である第2の実測値と、予測対象の目的変数に対応する説明変数の実測値である第3の実測値を保持する記憶部を備えている。また、前記データ分析装置は、前記第1の実測値と前記第2の実測値を用いて、前記複数の目的変数に共通して関係する説明変数によって表される予測ルールである共通予測ルールと、各目的変数に関係する説明変数によって表される目的変数別の予測ルールから成る個別予測ルールと、前記個別予測ルールに含まれる予測ルールをグループ化したときの各グループに対する予測ルールから成るグループ別予測ルールを学習する予測ルール学習部を備えている。
本発明の第2の視点によると、コンピュータがマルチタスク型のデータ分析を行うデータ分析方法が提供される。前記データ分析方法は、前記コンピュータが、複数の目的変数の実測値である第1の実測値と、前記複数の目的変数に対応する複数の説明変数の実測値である第2の実測値と、予測対象の目的変数に対応する説明変数の実測値である第3の実測値を記憶部に保持する工程を含む。また、前記データ分析方法は、前記コンピュータが、前記記憶部から読み出された前記第1の実測値と前記第2の実測値を用いて、前記複数の目的変数に共通して関係する説明変数によって表される予測ルールである共通予測ルールと、各目的変数に関係する説明変数によって表される目的変数別の予測ルールから成る個別予測ルールと、前記個別予測ルールに含まれる予測ルールをグループ化したときの各グループに対する予測ルールから成るグループ別予測ルールを学習して前記記憶部に記録する工程を含む。
本発明の第3の視点によると、マルチタスク型のデータ分析をコンピュータに実行させるプログラムが提供される。前記プログラムは、複数の目的変数の実測値である第1の実測値と、前記複数の目的変数に対応する複数の説明変数の実測値である第2の実測値と、予測対象の目的変数に対応する説明変数の実測値である第3の実測値を記憶部に保持する処理を前記コンピュータに実行させる。また、前記プログラムは、前記記憶部から読み出された前記第1の実測値と前記第2の実測値を用いて、前記複数の目的変数に共通して関係する説明変数によって表される予測ルールである共通予測ルールと、各目的変数に関係する説明変数によって表される目的変数別の予測ルールから成る個別予測ルールと、前記個別予測ルールに含まれる予測ルールをグループ化したときの各グループに対する予測ルールから成るグループ別予測ルールを学習して前記記憶部に記録する処理を前記コンピュータに実行させる。なお、プログラムは、非一時的なコンピュータ可読記録媒体(non-transitory computer-readable storage medium)に記録されたプログラム製品として提供することができる。
本発明に係るデータ分析装置、データ分析方法およびプログラムによると、マルチタスク型のデータ分析において、予測精度の低下を防ぎつつ予測ルールの数を削減することが可能となる。
一実施形態に係るデータ分析装置の構成を一例として示すブロック図である。 第1の実施形態に係るデータ分析装置の構成を一例として示すブロック図である。 第1の実施形態に係るデータ分析装置の動作を一例として示すフロー図である。
はじめに、一実施形態の概要について説明する。なお、この概要に付記する図面参照符号は、専ら理解を助けるための例示であり、本発明を図示の態様に限定することを意図するものではない。
図1は、一実施形態に係るデータ分析装置10の構成を例示するブロック図である。図1を参照すると、データ分析装置10は、マルチタスク型のデータ分析装置であって、記憶部14、予測ルール学習部15B、および、予測値算出部15Cを備えている。
記憶部14は、複数の目的変数の実測値である第1の実測値14Aと、当該複数の目的変数に対応する複数の説明変数の実測値である第2の実測値14Bと、予測対象の目的変数に対応する説明変数の実測値である第3の実測値14Cを保持する。
予測ルール学習部15Bは、第1の実測値14Aと第2の実測値14Bを用いて、複数の目的変数に共通して関係する説明変数によって表される予測ルールである共通予測ルール14Dと、各目的変数に関係する説明変数によって表される目的変数別の予測ルールから成る個別予測ルール14Eと、個別予測ルール14Eに含まれる予測ルールをグループ化したときの各グループに対する予測ルールから成るグループ別予測ルール14Fを算出する。ここで、予測ルール学習部15Bは、個別予測ルール14Eに含まれる複数の予測ルールのうちの互いに類似する予測ルールが同一のグループに属するように当該複数の予測ルールをグループ化することが好ましい。
予測値算出部15Cは、予測ルール学習部15Bにより算出された共通予測ルール14Dおよびグループ別予測ルール14Fと、第3の実測値14Cを用いて、予測対象の目的変数の予測値14Gを算出する。
かかるデータ分析装置10によると、マルチタスク型のデータ分析において、予測精度の低下を防ぎつつ予測ルールの数を減らすことが可能となる。なぜなら、データ分析装置10によると、目的変数別の予測ルールから成る個別予測ルール14Eの代わりに、個別予測ルール14Eに含まれる予測ルールをグループ化したときの各グループに対するグループ別予測ルール14Fと共通予測ルール14Dを用いて、予測対象の目的変数の予測値14Gを算出することができ、このとき、グループ別予測ルール14Fに含まれる予測ルールの数は個別予測ルール14Eに含まれる予測ルールの数よりも大幅に少なくすることができるからである。
したがって、データ分析装置10によると、ユーザは、予測結果の導出に用いられた予測ルールの妥当性を、比較的少数の予測ルール(共通予測ルール14D、グループ別予測ルール14F)に基づいて判断することが可能となる。
<実施形態1>
次に、第1の実施形態に係るデータ分析装置について、図面を参照して詳細に説明する。図2は、本実施形態のデータ分析装置20の構成を一例として示すブロック図である。
図2に記載したデータ分析装置20は、マルチタスク型分析を行う。すなわち、データ分析装置20は、複数の目的変数の実測値24Aと複数の説明変数の実測値24Bとを入力して、目的変数と説明変数の関係性を表す予測ルール(24D〜24F)を学習し、予測対象の目的変数に対応する説明変数の実測値24Cを入力すると、予測対象の目的変数ごとの予測値24Gを算出して出力する。
特に、本実施形態のデータ分析装置20は、すべての目的変数に共通して関係する説明変数によって表される予測ルール(「共通予測ルール24D」という。)、各目的変数に対してそれぞれ関係する説明変数によって表される目的変数別の予測ルール(「個別予測ルール24E」という。)、類似する個別予測ルールをグループ化して、グループ別に予測ルールを算出し直したグループ別予測ルール24Fを学習して、共通予測ルール24Dとグループ別予測ルール24Fに基づいて、説明変数の実測値を入力すると、予測したい目的変数毎の予測値24Gを算出して出力する。
図2を参照すると、データ分析装置20は、ハードウェアとして、通信インターフェース(I/F:Interface)部21、操作入力部22、画面表示部23、記憶部24、および、プロセッサ25を備えている。
通信I/F部21は、専用のデータ通信回路を有し、通信回線(非図示)を介して接続された図示しない各種装置との間でデータ通信を行う。操作入力部22は、キーボード、マウスなどの操作入力装置を有し、オペレータの操作を検出してプロセッサ25に出力する。画面表示部23は、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)などの画面表示装置を有し、プロセッサ25からの指示に応じて、操作メニュー、選定結果などの各種情報を画面表示する。
記憶部24は、ハードディスク、半導体メモリなどの記憶装置を有し、プロセッサ25での各種処理に必要とされる処理情報およびプログラムを記憶する。プログラムは、プロセッサ25に読み込まれて実行されることにより各種処理部(25A〜25C)を実現するプログラムである。プログラムは、通信I/F部21などのデータ入出力機能を介して外部装置(非図示)やコンピュータ読取可能な記憶媒体(非図示)から予め読み込まれて記憶部24に保存されるようにしてもよい。
記憶部24に記録される主な処理情報には、複数の目的変数の実測値24Aと、複数の説明変数の実測値24Bと、予測対象となる目的変数に対応する説明変数の実測値24Cと、共通予測ルール24Dと、個別予測ルール24Eと、グループ別予測ルール24Fと、予測値24Gとが含まれる。
複数の目的変数の実測値24Aと複数の説明変数の実測値24Bは、目的変数の種類別に分けられている。目的変数の種類別に分けられたデータは、目的変数の実測値と、対応する説明変数の実測値とが対になったリストであってもよい。
予測対象となる目的変数に対応する説明変数の実測値24Cは、予測対象となる目的変数に対応する説明変数の実測値である。
共通予測ルール24Dは、すべての目的変数に共通して関係する説明変数によって表される予測ルールである。共通予測ルール24Dは、すべての目的変数に共通して関係する説明変数名とその説明変数が目的変数に与える影響力を表す値が対になって構成されたリストであってもよい。
個別予測ルール24Eは、各目的変数に対してそれぞれ関係する説明変数によって表される目的変数別の予測ルールである。個別予測ルール24Eは、目的変数名とその目的変数に対して関係する説明変数名と、その説明変数がその目的変数に与える影響力を表す値が3つ組になって構成されたリストであってもよい。
グループ別予測ルール24Fは、類似する個別予測ルールをグループ化したときの、グループ別の予測ルールである。グループ別予測ルール24Fは、グループIDとグループ別の予測ルールが対になった情報と、各グループIDに属する個別予測ルール24Eを表す情報とによって構成してもよい。
予測値24Gは、予測対象となる目的変数と予測した結果が対になったリストとしてもよい。
プロセッサ25は、CPU(Central Processing Unit)などのマイクロプロセッサとその周辺回路とを有する。プロセッサ25は、記憶部24からプログラムを読み込んで実行することにより、上記ハードウェアとプログラムとを協働させて各種処理部を実現する。プロセッサ25で実現される主な処理部には、入力部25A、予測ルール学習部25Bおよび予測値算出部25Cが含まれる。
入力部25Aは、通信I/F部21または操作入力部22から、複数の目的変数の実測値24A、予測対象となる目的変数に対応する説明変数の実測値24Cを入力して、記憶部24に格納する。
予測ルール学習部25Bは、複数の目的変数の実測値24Aと複数の説明変数の実測値24Bを用いて、すべての目的変数に共通して関係する説明変数によって表される共通予測ルール24Dと、各目的変数に対してそれぞれ関係する説明変数によって表される個別予測ルール24Eを学習し、さらに、類似する個別予測ルールをグループ化して計算したグループ別予測ルール24Fを学習し、記憶部24に保存する。
予測値算出部25Cは、共通予測ルール24Dとグループ別予測ルール24Fと、予測対象となる目的変数に対応する説明変数の実測値24Cとを記憶部24から読み込み、共通予測ルール24Dとグループ別予測ルール24Fに、予測対象となる目的変数に対応する説明変数の実測値24Cを入力して、予測したい目的変数毎の予測値24Gを算出し、記憶部24に保存する。
また、予測値算出部25Cは、記憶部24から予測値24Gを読み込み、画面表示部23に出力し、あるいは、通信I/F部21を通じて外部に出力する。また、予測値算出部25Cは、記憶部24から共通予測ルール24D、個別予測ルール24E、グループ別予測ルール24Fを読み込み、画面表示部23に出力し、あるいは、通信I/F部21を通じて外部に出力する。
次に、本実施形態に係るデータ分析装置20の動作について、図面参照して説明する。図3は、データ分析装置20の動作を一例として示すフロー図である。
図3を参照すると、本実施形態に係るデータ分析装置20の動作には、学習フェーズおよび予測フェーズの2つのフェーズが含まれる。
まず、学習フェーズでは、データ分析装置20は、以下の動作を行う。入力部25Aは、複数の目的変数の実測値24Aと、当該実測値24Aに対応する複数の説明変数の実測値24Bを、通信I/F部21または操作入力部22から入力し、記憶部24に格納する(ステップS11)。
次に、予測ルール学習部25Bは、記憶部24から複数の目的変数の実測値24Aと複数の説明変数の実測値24Bを読み出し、共通予測ルール24D、個別予測ルール24Eおよびグループ別予測ルール24Fのすべてを同時に学習する(ステップS12)。
一方、予測フェーズでは、データ分析装置20は、以下の動作を行う。まず、入力部25Aは、予測対象となる目的変数に対応する説明変数の実測値24Cを通信I/F部21または操作入力部22から入力し、記憶部24に格納する(ステップS21)。
次に、予測値算出部25Cは、共通予測ルール24Dとグループ別予測ルール24Fを記憶部24から読み込み、予測対象となる目的変数に対応する説明変数の実測値24Cを入力して、予測したい目的変数毎の予測値を算出する(ステップS22)。
次に、予測値算出部25Cは、予測値24G、共通予測ルール24D、個別予測ルール24E、グループ別予測ルール24Fのうちのユーザに選択されたものを、画面表示部23に出力し、あるいは、通信I/F部21を通じて外部に出力する(ステップS23)。
本実施形態のデータ分析装置20によると、目的変数が多いときでも、目的変数毎に学習される予測ルールをグルーピングすることによって算出されるグループ別予測ルール24Fを求めることによって、予測精度を大きく低下させることなく、予測ルールの数を減らすことができる。
次に、データ分析装置20の学習フェーズおよび予測フェーズにおける動作について、具体例に基づいてより詳細に説明する。以下では、下付きの添え字をアンダーラインを付して表現する。例えば、AをA_Bと表記する。また、上付きの添え字をハットを付して表現する。例えば、AをA^Bと表記する。
(1)学習フェーズの詳細
[ステップS11]
入力部25Aは、複数の目的変数の実測値24Aと複数の説明変数の実測値24Bを入力とする。入力された複数の目的変数の実測値24Aと複数の説明変数の実測値24Bを、それぞれ、X_ntとY_nt(n=1,2,…,N_t;t=1,…,T)とする。
ここで、ベクトルX_ntは、目的変数の種類tのn番目の観測ベクトルを表すM次元の列ベクトルである。一方、Y_ntは、目的変数の種類tのn番目の実測値である。また、N_tは、目的変数の種類tの実測値の個数を表す。さらに、Tは、目的変数の種類の個数を表す。X_ntm(m=1,…,M)は、目的変数の種類tのn番目の観測ベクトルの説明変数mの実測値を表す。Mは、説明変数の個数を表す。行列X_tは、行ベクトルX_nt^{T}(n=1,2,…,N_t)を行ごとに整列させたN_t×Mサイズの行列を表す。ここで、^{T}は転置を表す。ベクトルY_tは、Y_nt(n=1,2,…,N_t)を行ごとに整列させたN_t×1サイズの列ベクトルを表す。
[ステップS12]
共通予測ルール24D、個別予測ルール24E、グループ別予測ルール24Fを、それぞれ、列ベクトルp_t、行列Q、行列Fによって表す。ここで、M次元の列ベクトルp_tはタスクtに対する共通予測ルールを表す。各予測ルール24D〜24Fを算出するため方法は、次のとおりである。
行列Pは、共通予測ルールを示す行列であり、P=[p_1^{T};p_2^{T};…;p_T^{T}]で与えられるT×M行列である。共通予測ルールは、全てのタスクの目的変数に共通して関係する説明変数を示し、各説明変数が目的変数に及ぼす影響度合いは、タスクごとに異なるため、共通予測ルールはタスクごとに定義する。
行列Qは、個別予測ルール24Eを示す行列である。行列Qは、[q1q2…q_t…q_T]のM×Tサイズの行列を表す。ここで、ベクトルq_tは、M次元列ベクトルであり、タスクtの個別予測ルールを表す。
行列Fは、グループ別予測ルール24Fを示す行列である。行列Fは、M×Kサイズの行列[f1f2…f_k…f_K]を表す。ここで、ベクトルf_kは、M次元列ベクトルであり、k番目のグループ別予測ルールを表す。Kは、個別予測ルール24Eをグループに分けたときのグループの数を表す。
行列Gは、T×Kサイズの行列[g_1^{T};g_2^{T};…;g_t^{T};…;g_T^{T}]を表す。ベクトルg_tは、K次元列ベクトルである。ベクトルg_tは、目的変数の種類tの個別予測ルールが、いくつ目のグループに属するのかを表す。
予測ルール学習部25Bは、ベクトルp_tおよび行列Q、F、Gを同時に学習する。具体的には、所定の目的関数を最小化することにより、ベクトルp_tおよび行列Q、F、Gの学習を行うようにしてもよい。
予測ルール学習部25Bは、一例として、以下の式(1)で表される目的関数を用いることができる。
Σ_t||X_t(p_t+Fg_t)−Y_t||^2
+ρ_1||P||_(1,∞)
+ρ_2||F||_1
+ρ_3tr(PQ)
+ρ_4tr(Q^{T}Q−2Q^{T}FG^{T}+GF^{T}FG^{T})
…(1)
式(1)において、ρ_1、ρ_2、ρ_3、ρ_4は各項の影響度を調整するパラメータである。また、Σ_tは、tについての和を表す。
式(1)の各項を導入した目的は次のとおりである。第1項は、予測ルールを用いた予測結果と実測値との誤差を小さくすることを目的とする。第2項は、共通予測ルールに関して、タスクに共通して予測に効く説明変数の種類数を減らすことを目的とする。第3項は、グループ別予測ルールに関して、予測に効く説明変数の種類数を減らすことを目的とする。第4項は、グループ別予測ルールと共通予測ルールとの間で予測に効く説明変数の種類が異なるようにすることを目的とする。第5項は、複数の個別予測ルールのうちの、互いに類似する予測ルールが同一のグループ別予測ルールに属するようにグループ化することを目的とする。ここで、第4項は、直接的には、個別予測ルールと共通予測ルールとの間で、予測に効く説明変数の種類が異なるようにする効果があるが、グループ別予測ルールは個別予測ルールから導き出されるため、個別予測ルールと共通予測ルールとの間で予測に効く説明変数の種類が異なれば、グループ別予測ルールと共予測ルールとの間でも、予測に効く説明変数の種類が異なるようになると考えられる。
また、式(1)におけるノルムの定義は、次のとおりである。Wを、d次元の列ベクトルとすると、||W||_1=|w_1|+|w_2|+…+|w_d|である。ここで、w_dはベクトルWのd次元の値、|・|は絶対値を表す。また、||W||_∞=max(|w_1|,|w_2|,…,|w_d|)である。さらに、行列Aをd次元×T次元の行列とし、a^{i}をi番目の行ベクトルとすると、||A||_(1,∞)は||A||_(1,∞)=(Σ_{i=1}^{d}||a^{i}||_{∞})を示す。ここで、||a^{i}||_{∞}=max(|a^{i}_1|,|a^{i}_2|,…,|a^{i}_T|とする。
予測ルール学習部25Bは、式(1)で与えられる目的関数を最小化する行列P、Q、F、Gを算出する。予測ルール学習部25Bは、一例として、非特許文献2に記載された凸最適化方法を用いることによって、式(1)を最小化する行列P、Q、F、Gを算出することができる。
(2)予測フェーズの詳細
[ステップS21]
入力部25Aは、予測対象となる目的変数tに対応する説明変数のn番目の実測値X’_ntを入力する。ベクトルX’_ntは、M次元ベクトルである。
[ステップS22]
予測値算出部25Cは、以下の式(2)を用いて、X’_ntの目的変数の予測値Y’_ntを算出する。
Y’_nt=(p_t+Fg_t)^{T}X’_nt (2)
[ステップS23]
次に、予測値算出部25Cは、式(2)に基づいて算出した予測値Y_ntを出力する。
なお、本発明において、下記の形態が可能である。
[形態1]
上記第1の視点に係るデータ分析装置のとおりである。
[形態2]
前記予測ルール学習部により学習された共通予測ルールおよびグループ別予測ルールと、前記第3の実測値を用いて、前記予測対象の目的変数の予測値を算出する予測値算出部を備える、形態1に記載のデータ分析装置。
[形態3]
前記予測ルール学習部は、前記個別予測ルールに含まれる複数の予測ルールのうちの互いに類似する予測ルールが同一のグループに属するように該複数の予測ルールをグループ化するグループ化ルールをさらに学習する、形態2に記載のデータ分析装置。
[形態4]
前記予測ルール学習部は、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールを含む所定の目的関数に基づいて、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールを学習する、形態3に記載のデータ分析装置。
[形態5]
前記予測ルール学習部は、前記所定の目的関数を凸最適化方法に基づいて最小化することにより、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールを学習する、形態4に記載のデータ分析装置。
[形態6]
前記所定の目的関数は、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールに基づく予測値と前記第1の実測値との誤差を小さくするための第1の項、前記共通予測ルールを学習するための第2の項、前記グループ別予測ルールを学習するための第3の項、前記グループ別予測ルールと前記共通予測ルールとの間で予測に効く説明変数の種類が異なるものとなるようにするための第4の項、前記個別予測ルールに含まれる複数の予測ルールのうちの互いに類似する予測ルールが同一のグループに属するようにするための第5の項のうちの少なくともいずれかの項を含む、形態4または5に記載のデータ分析装置。
[形態7]
前記所定の目的関数は、前記第1の項ないし第5の項のうちの複数の項の重み付きの和である、形態6に記載のデータ分析装置。
[形態8]
前記予測値算出部は、前記第3の実測値、ならびに、前記予測ルール学習部により学習された前記共通予測ルール、前記グループ別予測ルール、および、前記グループ化ルールに基づいて、前記予測対象の目的変数の予測値を算出する、形態3ないし7のいずれか一に記載のデータ分析装置。
[形態9]
上記第2の視点に係るデータ分析方法のとおりである。
[形態10]
前記予測ルール学習部により学習された共通予測ルールおよびグループ別予測ルールと、前記第3の実測値を用いて、前記予測対象の目的変数の予測値を算出する予測値算出部を備える、形態9に記載のデータ分析方法。
[形態11]
前記予測ルール学習部は、前記個別予測ルールに含まれる複数の予測ルールのうちの互いに類似する予測ルールが同一のグループに属するように該複数の予測ルールをグループ化するグループ化ルールをさらに学習する、形態10に記載のデータ分析方法。
[形態12]
前記予測ルール学習部は、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールを含む所定の目的関数に基づいて、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールを学習する、形態11に記載のデータ分析方法。
[形態13]
前記予測ルール学習部は、前記所定の目的関数を凸最適化方法に基づいて最小化することにより、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールを学習する、形態12に記載のデータ分析方法。
[形態14]
前記所定の目的関数は、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールに基づく予測値と前記第1の実測値との誤差を小さくするための第1の項、前記共通予測ルールを学習するための第2の項、前記グループ別予測ルールを学習するための第3の項、前記グループ別予測ルールと前記共通予測ルールとの間で予測に効く説明変数の種類が異なるものとなるようにするための第4の項、前記個別予測ルールに含まれる複数の予測ルールのうちの互いに類似する予測ルールが同一のグループに属するようにするための第5の項のうちの少なくともいずれかの項を含む、形態12または13に記載のデータ分析方法。
[形態15]
前記所定の目的関数は、前記第1の項ないし第5の項のうちの複数の項の重み付きの和である、形態14に記載のデータ分析方法。
[形態16]
前記予測値算出部は、前記第3の実測値、ならびに、前記予測ルール学習部により学習された前記共通予測ルール、前記グループ別予測ルール、および、前記グループ化ルールに基づいて、前記予測対象の目的変数の予測値を算出する、形態11ないし15のいずれか一に記載のデータ分析方法。
[形態17]
上記第3の視点に係るプログラムのとおりである。
[形態18]
前記予測ルール学習部により学習された共通予測ルールおよびグループ別予測ルールと、前記第3の実測値を用いて、前記予測対象の目的変数の予測値を算出する予測値算出部を備える、形態17に記載のプログラム。
[形態19]
前記予測ルール学習部は、前記個別予測ルールに含まれる複数の予測ルールのうちの互いに類似する予測ルールが同一のグループに属するように該複数の予測ルールをグループ化するグループ化ルールをさらに学習する、形態18に記載のプログラム。
[形態20]
前記予測ルール学習部は、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールを含む所定の目的関数に基づいて、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールを学習する、形態19に記載のプログラム。
[形態21]
前記予測ルール学習部は、前記所定の目的関数を凸最適化方法に基づいて最小化することにより、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールを学習する、形態20に記載のプログラム。
[形態22]
前記所定の目的関数は、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールに基づく予測値と前記第1の実測値との誤差を小さくするための第1の項、前記共通予測ルールを学習するための第2の項、前記グループ別予測ルールを学習するための第3の項、前記グループ別予測ルールと前記共通予測ルールとの間で予測に効く説明変数の種類が異なるものとなるようにするための第4の項、前記個別予測ルールに含まれる複数の予測ルールのうちの互いに類似する予測ルールが同一のグループに属するようにするための第5の項のうちの少なくともいずれかの項を含む、形態20または21に記載のプログラム。
[形態23]
前記所定の目的関数は、前記第1の項ないし第5の項のうちの複数の項の重み付きの和である、形態22に記載のプログラム。
[形態24]
前記予測値算出部は、前記第3の実測値、ならびに、前記予測ルール学習部により学習された前記共通予測ルール、前記グループ別予測ルール、および、前記グループ化ルールに基づいて、前記予測対象の目的変数の予測値を算出する、形態19ないし23のいずれか一に記載のプログラム。
なお、上記非特許文献1、2の全開示内容は、本書に引用をもって繰り込み記載されているものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素(各請求項の各要素、各実施形態の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし、選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。
10、20 データ分析装置
14、24 記憶部
14A 第1の実測値
14B 第2の実測値
14C 第3の実測値
14D、24D 共通予測ルール
14E、24E 個別予測ルール
14F、24F グループ別予測ルール
14G 予測値
15B、25B 予測ルール学習部
15C、25C 予測値算出部
21 通信I/F部
22 操作入力部
23 画面表示部
24A 目的変数の実測値
24B 説明変数の実測値
24C 予測対象の目的変数に対応する説明変数の実測値
24G 予測値
25 プロセッサ
25A 入力部

Claims (10)

  1. マルチタスク型のデータ分析装置であって、
    複数の目的変数の実測値である第1の実測値と、前記複数の目的変数に対応する複数の説明変数の実測値である第2の実測値と、予測対象の目的変数に対応する説明変数の実測値である第3の実測値を保持する記憶部と、
    前記第1の実測値と前記第2の実測値を用いて、前記複数の目的変数に共通して関係する説明変数によって表される予測ルールである共通予測ルールと、各目的変数に関係する説明変数によって表される目的変数別の予測ルールから成る個別予測ルールと、前記個別予測ルールに含まれる予測ルールをグループ化したときの各グループに対する予測ルールから成るグループ別予測ルールを学習する予測ルール学習部と、を備える、データ分析装置。
  2. 前記予測ルール学習部により学習された共通予測ルールおよびグループ別予測ルールと、前記第3の実測値を用いて、前記予測対象の目的変数の予測値を算出する予測値算出部を備える、請求項1に記載のデータ分析装置。
  3. 前記予測ルール学習部は、前記個別予測ルールに含まれる複数の予測ルールのうちの互いに類似する予測ルールが同一のグループに属するように該複数の予測ルールをグループ化するグループ化ルールをさらに学習する、請求項2に記載のデータ分析装置。
  4. 前記予測ルール学習部は、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールを含む所定の目的関数に基づいて、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールを学習する、請求項3に記載のデータ分析装置。
  5. 前記予測ルール学習部は、前記所定の目的関数を凸最適化方法に基づいて最小化することにより、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールを学習する、請求項4に記載のデータ分析装置。
  6. 前記所定の目的関数は、前記共通予測ルール、前記個別予測ルール、前記グループ別予測ルール、および、前記グループ化ルールに基づく予測値と前記第1の実測値との誤差を小さくするための第1の項、前記共通予測ルールを学習するための第2の項、前記グループ別予測ルールを学習するための第3の項、前記グループ別予測ルールと前記共通予測ルールとの間で予測に効く説明変数の種類が異なるものとなるようにするための第4の項、前記個別予測ルールに含まれる複数の予測ルールのうちの互いに類似する予測ルールが同一のグループに属するようにするための第5の項のうちの少なくともいずれかの項を含む、請求項4または5に記載のデータ分析装置。
  7. 前記所定の目的関数は、前記第1の項ないし第5の項のうちの複数の項の重み付きの和である、請求項6に記載のデータ分析装置。
  8. 前記予測値算出部は、前記第3の実測値、ならびに、前記予測ルール学習部により学習された前記共通予測ルール、前記グループ別予測ルール、および、前記グループ化ルールに基づいて、前記予測対象の目的変数の予測値を算出する、請求項3ないし7のいずれか1項に記載のデータ分析装置。
  9. コンピュータがマルチタスク型のデータ分析を行うデータ分析方法であって、
    前記コンピュータが、複数の目的変数の実測値である第1の実測値と、前記複数の目的変数に対応する複数の説明変数の実測値である第2の実測値と、予測対象の目的変数に対応する説明変数の実測値である第3の実測値を記憶部に保持する工程と、
    前記記憶部から読み出された前記第1の実測値と前記第2の実測値を用いて、前記複数の目的変数に共通して関係する説明変数によって表される予測ルールである共通予測ルールと、各目的変数に関係する説明変数によって表される目的変数別の予測ルールから成る個別予測ルールと、前記個別予測ルールに含まれる予測ルールをグループ化したときの各グループに対する予測ルールから成るグループ別予測ルールを学習して前記記憶部に記録する工程と、を含む、データ分析方法。
  10. マルチタスク型のデータ分析をコンピュータに実行させるプログラムであって、
    複数の目的変数の実測値である第1の実測値と、前記複数の目的変数に対応する複数の説明変数の実測値である第2の実測値と、予測対象の目的変数に対応する説明変数の実測値である第3の実測値を記憶部に保持する処理と、
    前記記憶部から読み出された前記第1の実測値と前記第2の実測値を用いて、前記複数の目的変数に共通して関係する説明変数によって表される予測ルールである共通予測ルールと、各目的変数に関係する説明変数によって表される目的変数別の予測ルールから成る個別予測ルールと、前記個別予測ルールに含まれる予測ルールをグループ化したときの各グループに対する予測ルールから成るグループ別予測ルールを学習して前記記憶部に記録する処理と、を前記コンピュータに実行させる、プログラム。
JP2016514948A 2014-04-24 2015-04-21 データ分析装置、データ分析方法およびプログラム Pending JPWO2015163322A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410167977.2 2014-04-24
CN201410167977.2A CN105095616A (zh) 2014-04-24 2014-04-24 数据分析装置、数据分析方法
PCT/JP2015/062123 WO2015163322A1 (ja) 2014-04-24 2015-04-21 データ分析装置、データ分析方法およびプログラム

Publications (1)

Publication Number Publication Date
JPWO2015163322A1 true JPWO2015163322A1 (ja) 2017-04-20

Family

ID=54332486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016514948A Pending JPWO2015163322A1 (ja) 2014-04-24 2015-04-21 データ分析装置、データ分析方法およびプログラム

Country Status (3)

Country Link
JP (1) JPWO2015163322A1 (ja)
CN (1) CN105095616A (ja)
WO (1) WO2015163322A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111902837A (zh) * 2018-03-27 2020-11-06 文化便利俱乐部株式会社 分析顾客的属性信息的装置、方法、及程序
KR20220013875A (ko) * 2020-07-27 2022-02-04 옴니어스 주식회사 트렌드에 기반하여 상품에 관한 정보를 제공하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
CN115203180A (zh) * 2022-05-16 2022-10-18 北京航空航天大学 一种数据血缘生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5749279B2 (ja) * 2010-02-01 2015-07-15 グーグル インコーポレイテッド アイテム関連付けのための結合埋込

Also Published As

Publication number Publication date
WO2015163322A1 (ja) 2015-10-29
CN105095616A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
US10775955B2 (en) Approach for generating and exploring a design space
JP6182242B1 (ja) データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム
JP7405775B2 (ja) コンピュータで実行される見積もり方法、見積もり装置、電子機器及び記憶媒体
JP6181134B2 (ja) 要因解析装置、要因解析方法、及びプログラム
US11804283B2 (en) Predicting molecular properties of molecular variants using residue-specific molecular structural features
KR102022944B1 (ko) 빅데이터 분석 보고서를 자동으로 생성하는 방법 및 이를 수행하는 장치
JP6696568B2 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
WO2015163322A1 (ja) データ分析装置、データ分析方法およびプログラム
US20150161549A1 (en) Predicting outcomes of a modeled system using dynamic features adjustment
US10402736B2 (en) Evaluation system, evaluation method, and computer-readable storage medium
US9792706B2 (en) Graph processing system, graph processing method, and non-transitory computer readable medium
US20120253998A1 (en) Cost calculation device, cost calculation method, and cost calculation program
JP2016103126A (ja) 重要業績評価指標のカテゴリ分割の条件を求める方法、並びに、その為のコンピュータ及びコンピュータ・プログラム
JP6290716B2 (ja) 環境影響評価システムおよび方法
US8805809B2 (en) Autotransform system
US20210201184A1 (en) Explainable process prediction
JP7479534B2 (ja) 情報処理装置、推定装置、分析装置、情報処理方法及びコンピュータープログラム
WO2021201189A1 (ja) 装置、方法、およびプログラム
US20180253515A1 (en) Characterizing model performance using hierarchical feature groups
JP7095744B2 (ja) 予測状況可視化装置、予測状況可視化方法および予測状況可視化プログラム
US20210004737A1 (en) Journey Mapping
JP2018180711A (ja) テストケースを選択する計算機及びテストケースの選択方法
JP6938052B2 (ja) 特許請求の範囲の分析方法及びその装置
CN113557532A (zh) 用神经网络处理多样数据集以生成用于预测目标度量的合成数据集的系统和方法
JPWO2020065876A1 (ja) 品揃え支援装置、品揃え支援方法、及びプログラム