JPWO2019189249A1 - 学習装置、学習方法、及びプログラム - Google Patents

学習装置、学習方法、及びプログラム Download PDF

Info

Publication number
JPWO2019189249A1
JPWO2019189249A1 JP2020510958A JP2020510958A JPWO2019189249A1 JP WO2019189249 A1 JPWO2019189249 A1 JP WO2019189249A1 JP 2020510958 A JP2020510958 A JP 2020510958A JP 2020510958 A JP2020510958 A JP 2020510958A JP WO2019189249 A1 JPWO2019189249 A1 JP WO2019189249A1
Authority
JP
Japan
Prior art keywords
division
learning
division condition
condition
conditions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020510958A
Other languages
English (en)
Other versions
JP6888737B2 (ja
Inventor
学 中野谷
学 中野谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2019189249A1 publication Critical patent/JPWO2019189249A1/ja
Application granted granted Critical
Publication of JP6888737B2 publication Critical patent/JP6888737B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

学習データに基づいて特徴量を生成する、特徴量生成部11と、特徴量と特徴量の数を示す複雑さ要件とに応じて分割条件を生成する、分割条件生成部12と、学習データを分割条件に基づいてグループに分割する、学習データ分割部13と、分割前のグループと分割後のグループとを用いて、分割条件ごとに有意性を評価する、学習データ評価部14と、分割後のグループにおいて、分割条件に有意性がある場合、分割条件に関連する分割条件決定木のノードを生成する、ノード生成部15と、を有する学習装置10である。

Description

本発明は、決定木による学習をする学習装置、学習方法に関し、更には、これらを実現するためのプログラムを記録したしているコンピュータ読み取り可能な記録媒体に関する。
IT(Information Technology)システムにおいて、システムの構成管理及び構成変更は、大きく三つのフェーズに分けられる。そして、システムの構成管理及び構成変更は、三つのフェーズそれぞれにおいて行われ、次に示す(1)(2)(3)の作業を反復することにより実現される。
(1)システム構成を把握する作業。(2)変更要件の定義をする作業。(3)現在運用中のシステム構成を、(1)(2)から導かれるシステムへ変更する操作手順の生成、及び、生成した操作手順を実行する作業。
ところが、これら三つの作業のうち、(3)に示した作業には、多大な作業工数を費やしている。そこで、作業工数を削減するための技術が提案されている。
関連する技術として、特許文献1には、システムを構成する要素の動作状態と、その動作状態間の制約とを定義することで、システムの変更に用いる操作手順を生成する技術が開示されている。
特許文献2には、部品の状態と制約関係とを状態遷移図により表現する技術が開示されている。
特許文献3には、決定木の学習を実行する前に、パラメータ間の交互作用を検証することで、依存関係がありそうなパラメータと、そうでないパラメータとを識別し、分割条件候補となるパラメータのセットを絞り込む手法が開示されている。
非特許文献1及び特許文献2には、操作手順を自動化するソフトウェアツールが開示されている。そのソフトウェアツールによれば、システム変更後の状態、又は操作手順を定義情報として入力し、自動的にシステムの変更、及び設定を行う。
非特許文献3及び4には、サーバ装置のリソース(CPU(Central Processing Unit)やメモリ割当て量など)、アプリケーションの組み合わせを実際に様々なパターンで試行し評価、学習することで最適な変更手順、又は変更パラメータを導出する強化学習を用いた技術が開示されている。
特開2015−215885号公報 特開2015−215887号公報 特開2005−063353号公報
"Puppet"、[online]、[平成29年1月19日検索]、インターネット<URL:https://puppet.com/> "Ansible"、[online]、[平成29年1月19日検索]、インターネッ ト<URL:https://www.ansible.com/> J. Rao, X. Bu, C. Z. Xu and K. Wang、"A Distributed Self-Learning Approach for Elastic Provisioning of Virtualized Cloud Resources,"、[online]、[平成 29年1月19日検索]平成23年8月30日、IEEE Xplore、[平成29年1月19日検索]、インターネット<URL:http://ieeexplore.ieee.org/abstract/document/6005367/> I. J. Jureta, S. Faulkner, Y. Achbany and M. Saerens、"Dynamic Web Service Composition within a Service-Oriented Architecture,"、[online]、[平成29年1月19日検索]平成19年7月30日、IEEE Xplore、[平成29年1月19日検索]、インターネット<URL:http://ieeexplore.ieee.org/document/4279613/>
しかしながら、非特許文献1及び非特許文献2に開示されている、操作手順を自動化するソフトウェアツールが自動化できるのは、操作手順の実行のみで、操作手順の作成は対象外である。
そこで、非特許文献1又は非特許文献2に、操作手順の生成を自動化する、特許文献1又は特許文献2に開示の技術を適用することが考えられる。すなわち、特許文献1又は特許文献2に開示の技術を用いて、操作手順の実行を自動化するソフトウェアツールの入力の形式に合わせた、システムの構成を変更する操作手順を示す情報を生成する。そして、生成した操作手順を、非特許文献1又は非特許文献2に開示の技術に適用することで、操作手順の作成から実行までを自動化する。
ところが、特許文献1及び特許文献2に開示された技術では、事前に(1)システム構成を把握する作業、(2)変更要件の定義をする作業を、手作業で行う必要があるため、多大な作業工数を費やすことになるという問題がある。
そこで、上述した問題に対して、非特許文献3又は非特許文献4に開示された技術を用いることが考えられる。つまり、サーバ装置のリソース(例えば、CPU、メモリ割当て量など)、又はアプリケーションの組み合わせを、実際に様々なパターンで試行し評価、学習することで、操作手順、及びパラメータを導出することが考えられる。
しかし、上述した非特許文献3、4に開示された強化学習を用いた自動化は、特許文献1、2に開示されているような、システム内の構成要素間の依存関係を直接扱うアプローチと異なり、評価、学習の対象は、あるシステムの状態における特定の制御内容の好ましさである。制御内容は、例えば、システムの応答速度などの観測可能な値によって規定される。
そのため、強化学習では、システムの状態を観測する手段と、実行可能な制御集合とを入力するだけで学習が実行可能となるため、適用が比較的容易である。ところが、強化学習では、学習結果から、依存性をはじめとした構成要素間の挙動に関する関係性を、一般には読み取ることができない。そのため、学習結果を別の制御タスクへ再利用することが困難である。
そこで、こうした問題への対処方法として、強化学習にいわゆる関数近似を適用することが考えられる。強化学習における関数近似とは、学習の結果得られた具体的な制御に関する好ましさを示す情報を、より抽象的な条件から予測できる近似関数を求めることである。すなわち、抽象的な条件から予測できる近似関数を学習することである。
上述した対処方法は、元々はロボット制御などの分野において、連続量(無限に選択肢が存在する)の制御を取り扱う際、すべての制御パターンをコンピュータの記憶領域で管理することが不可能なため、無限集合を有限集合へマッピングし、その有限集合における制御パターンを取り扱うために発展してきた手法である。また、上述した対処方法は、記憶領域の問題だけでなく、広大かつ雑多な選択肢を適切に抽象化することで学習結果の汎用性を高めることもできる。
関数近似で用いる近似関数は、近似対象の性質や近似の目的に合わせて選択する必要がある。代表的な関数としては、線形多項式、又はニューラルネットワーク、又は決定木などが挙げられる。
しかし、システムの設計、又は制御内容からその設計、制御の良し悪しを予測する問題においては、決定木による関数近似が有力な近似手法の一つと考えられる。その理由として、まず、パラメータ間に依存関係があることが挙げられる。すなわち、あるパラメータの最適値は、他のパラメータの値に依存して異なる値となるからである。また、非線形な挙動への対応ができることが挙げられる。設定値の些細な違いが好ましさに大きく影響するためである。更に、生成された関数の解釈性の高さが優れているからである。すなわち、その関数が制御特性をより良く表現できているかを、人間が評価できるためである。
決定木の代表的な学習としてC4.5、CART(Classification And Regression Trees)、CHAID(Chi-squared Automatic Interaction Detection)などがある。これらは、木の分割条件を選択する際、使用する指標が異なることが特徴である。例えば、C4.5では、分割条件で分割したデータが、分割前のデータと比較してよりエントロピーを減少させる分割条件を採用する。
決定木の学習により生成される分割条件は、設計や制御に関する単一のパラメータにより規定される論理式で表される。具体的に説明する。通信帯域、及びCPUコア数といった二つのパラメータを調整することで、アプリケーションサーバのスループットを最適化するというタスクの場合、学習された決定木の節(ノード)に関連する分割条件は、例えば、「通信帯域<10Mbps」、及び「CPU数>1」などが考えられる。
また、パラメータが他のパラメータに依存する場合、分割条件の分割先で依存するパラメータに関する分割条件を採用することになる。例えば、「通信帯域≧10Mbps」の場合、CPUコア数がボトルネックとなる。また、CPUコア数がスループットに影響しないシステムの場合、決定木の頂点ノードで「通信帯域<10Mbps」の分割条件を設定し、分割先のノードでCPUコア数に関する分割条件を定義する。
しかし、決定木の学習では、単一のパラメータごとにどれだけ学習データをうまく分類できるかを評価して分割条件を決定するため、複数のパラメータ間に依存関係がある場合、分割条件を適切に設定できないことがある。例えば、上述した通信帯域、及びCPUコア数といったパラメータに加え、更にメモリサイズなどの単一のパラメータが制御の対象である場合、分割条件を適切に設定できない。具体的には、メモリサイズが、見かけ上最もスループットへ影響を与えるパラメータだったとすると、分割条件としてメモリサイズに関するものが採用されてしまう。
そうすると、分割後の学習データは、メモリサイズによる分割条件で分断されてしまい、分断後の学習データそれぞれにおいて、上述したような通信帯域及びCPUコア数の依存関係に従った分割条件が導かれる保証はない。このような問題は、パラメータ間の依存関係の実体が排他的論理和であるときに顕著である。
図1は、学習データの一例を示す図である。図1に示す「A」「B」「C」「D」は、パラメータ(真:1、偽:0のバイナリ値)を示している。また、「Y」は、近似したい値(予測値)を示している。具体的には、予測値Yは、パラメータA、Bの排他的論理和(真:1、偽:0)を10倍した実数値に[0, 1]区間の一様乱数を加えた値である。なお、パラメータC、Dは、実際には予測には全く影響しないパラメータである。なお、「id」「1」から「8」は、パラメータAからDと予測値Yとを有する行それぞれに付された識別番号である。
従って、図1に示す学習データを用いて生成される決定木は、パラメータC、Dを分割条件に含まない、図2のような決定木になるのが理想的である。図2は、理想的な決定木の一例を示す図である。ところが、既存の決定木の学習を用いて生成した決定木は、図3のような決定木になる。図3は、既存の決定木の学習により生成された決定木の一例を示す図である。
既存の決定木の学習では、単一のパラメータで評価するため、図2に示した決定木と比較すると、図3に示した決定木には不要な分割条件を含むため、予測精度の低い決定木が生成されてしまう。言い換えれば、本質的な分割条件が全体に適用されていない、複雑な決定木が生成されてしまう。
具体的には、パラメータCは予測値Yに影響を与えないパラメータであるにもかかわらず、最も予測値と相関があるパラメータであるため、最上位の分割条件となる。そのため、図3に示す左側(False:C≠1)の部分木では、パラメータA、Bによる排他的論理和を表す決定木が生成されたものの、図3に示す右側(True:C=1)の部分木では、パラメータA、Bによる排他的論理和を表す部分木が生成されない。
そこで、特許文献3を用いることが考えられる。特許文献3では、決定木の学習を実行する前に、パラメータ間の交互作用を検証することで、依存関係がありそうなパラメータと、そうでないパラメータとを識別し、分割条件候補となるパラメータセットを絞り込んでいる。しかし、特許文献3は、決定木の学習前において、パラメータの品質を安定化させることを目的としており、上述した問題を解決するものではない。
本発明の目的の一例は、決定木の予測精度を向上させる学習装置、学習方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
上記目的を達成するため、本発明の一側面における学習装置は、
学習データに基づいて特徴量を生成する、特徴量生成部と、
前記特徴量と前記特徴量の数を示す複雑さ要件とに応じて分割条件を生成する、分割条件生成部と、
前記学習データを前記分割条件に基づいてグループに分割する、学習データ分割部と、
分割前後のグループを用いて、前記分割条件ごとに有意性を評価する、学習データ評価部と、
分割前後のグループにおいて、前記分割条件に有意性がある場合、前記分割条件に関連する決定木のノードを生成する、ノード生成部と、
を有することを特徴とする。
また、上記目的を達成するため、本発明の一側面における学習方法は、
(a)学習データに基づいて特徴量を生成する、ステップと、
(b)前記特徴量と前記特徴量の数を示す複雑さ要件とに応じて分割条件を生成する、ステップと、
(c)前記学習データを前記分割条件に基づいてグループに分割する、ステップと、
(d)分割前後のグループを用いて、前記分割条件ごとに有意性を評価する、ステップと、
(e)分割後のグループにおいて、前記分割条件に有意性がある場合、前記分割条件に関連する決定木のノードを生成する、ステップと、
を有することを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるプログラムをコンピュータ読み取り可能な記録媒体は、
コンピュータに、
(a)学習データに基づいて特徴量を生成する、ステップと、
(b)前記特徴量と前記特徴量の数を示す複雑さ要件とに応じて分割条件を生成する、ステップと、
(c)前記学習データを前記分割条件に基づいてグループに分割する、ステップと、
(d)分割前後のグループを用いて、前記分割条件ごとに有意性を評価する、ステップと、
(e)分割後のグループにおいて、前記分割条件に有意性がある場合、前記分割条件に関連する決定木のノードを生成する、ステップと、
を実行させる命令を含むプログラムを記録していることを特徴とする。
以上のように本発明によれば、決定木の予測精度を向上させることができる。
図1は、学習データの一例を示す図である。 図2は、理想的な決定木の一例を示す図である。 図3は、既存の決定木の学習により生成された決定木の一例を示す図である。 図4は、学習装置の一例を示す図である。 図5は、学習装置を有するシステムの一例を示す図である。 図6は、複雑さ要件に対する分割条件の一例を示す図である。 図7は、分割結果の一例を示す図である。 図8は、評価結果の一例を示す図である。 図9は、評価結果の一例を示す図である。 図10は、学習データの動作の一例を示す図である。 図11は、学習装置を実現するコンピュータの一例を示す図である。
(実施の形態)
以下、本発明の実施の形態について、図1から図11を参照しながら説明する。
[装置構成]
最初に、図4を用いて、本実施の形態における学習装置10の構成について説明する。図4は、学習装置の一例を示す図である。
図4に示すように、学習装置10は、決定木の予測精度を向上させるための装置である。学習装置10は、特徴量生成部11と、分割条件生成部12と、学習データ分割部13と、学習データ評価部14と、ノード生成部15とを有する。
このうち、特徴量生成部11は、学習データに基づいて特徴量を生成する。分割条件生成部12は、特徴量と特徴量の数を示す複雑さ要件とに応じて分割条件を生成する。学習データ分割部13は、学習データを分割条件に基づいてグループに分割する。学習データ評価部14は、分割前のグループと分割後のグループとを用いて、分割条件ごとに有意性を評価する。ノード生成部15は、分割前後のグループにおいて、分割条件に有意性がある場合、分割条件に関連する分割条件決定木のノードを生成する。
このように、本実施の形態では、特徴量と複雑さ要件とに応じて生成した分割条件を用いて、学習データをグループに分割して、分割前のグループと分割後のグループとを用いて、分割条件ごとに有意性を評価する。そして、分割前後のグループにおいて、分割条件に有意性がある場合、分割条件に関連する分割条件決定木のノードを生成する。そうすることで、決定木には不要な分割条件を含まない、予測精度の高い決定木を生成することができる。言い換えれば、本質的な分割条件を適用した決定木が生成できる。
続いて、図5を用いて、本実施の形態における学習装置10の構成をより具体的に説明する。図5は、学習装置を有する学習システムの一例を示す図である。
図5に示すように、本実施の形態における学習装置10は、特徴量生成部11と、分割条件生成部12と、学習データ分割部13と、学習データ評価部14と、ノード生成部15と、分割条件追加部16とを有する。
また、図5においては、システムは、学習装置10に加え、学習装置10へ学習データ20を入力するための入力装置30と、学習装置10が生成した決定木データ50を出力するための出力装置40とを有する。学習データ20は、決定木を生成するシステムに入力する、設計ルールを表現したデータである。
特徴量生成部11は、入力装置30を介して学習データ20を取得した後、学習データ20に基づいて、分割条件の要素となる特徴量(抽象的な特徴量)を生成する。その後、特徴量生成部11は、生成した特徴量に基づいて、学習データ20を変換する。
具体的には、図1に示した学習データを変換後の学習データとした場合、パラメータA、B、C、Dが特徴量(抽象的な特徴量)となり、A列からD列までの各行の値は、その特徴量に関する元の学習データの評価値を表している。そして、図1において、一行目の学習データに該当する、変換前の学習データが「サーバ装置MのCPU数:1」「サーバ装置NのCPU数:3」「サーバ装置Mの通信帯域:2」「サーバ装置Nの通信帯域:1」で、抽象的な特徴量Aが「サーバ装置MのCPU数>サーバ装置NのCPU数」であるとする。その場合において、当該学習データは特徴量Aの評価値として、特徴量Aで示される論理式を満たさない(1<3)ためFalse(0)という評価値を得る。なお、上述したサーバ装置Mの通信帯域「2」、及びサーバ装置Nの通信帯域「1」は、例えば、通信帯域に割り付けられた番号を示す。
このように、サーバ装置間のCPU数の大小比較という特徴量Aは、具体的な設計値ではなく、パラメータの相対的な関係性を示した例である。そのため、この考え方に基づいて、CPU数に限定されずにIPアドレス、通信帯域、メモリ割り当て数など様々な設計、パラメータを相対的な関係性で評価できる。なお、予測値Yは、元の学習データと同じとし、変換は行わない。
分割条件生成部12は、学習データに基づいて生成された特徴量と、指定された複雑さ要件とに応じて、分割条件(具体的な分割条件)を生成する。複雑さ要件は、一つの分割条件に使用する特徴量の数を示し、初期値は1である。また、段階的に複雑さを増やす場合、複雑な条件に上限値も設定する。例えば、上限値は2とすることが考えられる。
また、具体的な分割条件は、複雑さ要件が1の場合、図1の学習データの分割条件は、「A=True(1)/B=True(1)/C=True(1)/D=True(1)」の四つとなる。また、複雑さ要件が2の場合、分割条件は特徴量を二つ含む論理式となる。
図6は、複雑さ要件に対する分割条件を示す図である。図6には、複雑さ要件が2の場合(図6の分割条件60)に、図1の学習データに対して生成される、分割条件61が示されている。すなわち、図1に示した特徴量A、B、C、Dから二つを選び、分割条件60に示した五つの条件(F1 and F2、not F1 and F2、F1 or
F2、F1 and not F2、F1 xor F2)を適用して、図6に示す30通り(4C2×5通り)の分割条件61を生成する。
また、複雑さ要件が3以上の場合、複雑さ要件の数だけ、特徴量を含んだ論理式を生成する。なお、初期動作では複雑さ要件の初期値に従い、上述した四つの分割条件「A=True(1)/B=True(1)/C=True(1)/D=True(1)」が生成される。
学習データ分割部13は、学習データと分割条件とを取得した後、学習データを分割条件に従い分割する。学習データの分割は、例えば、図1に示す学習データを、複雑さ要件が1の分割条件「A=True(1)/B=True(1)/C=True(1)/D=True(1)」に従い分割した場合、図7に示すような分割結果70となる。図7は、分割結果の一例を示す図である。
学習データ評価部14は、分割結果を取得した後、分割結果がどの程度学習データをよりよく分割できるかを評価する。評価は、分割前後のグループ間の予測値の分散に統計的な有意差があるか否かを評価する。すなわち、分割前後のグループに対して等分散検定を行い、予め設定された基準となる有意水準を用いて算出される有意水準において、分割前後のグループの分散が等しいという帰無仮説が棄却できる場合、その分割条件を有効な分割条件と見做して決定木の枝の分割条件とする。
なお、上述したような単一論式による二分木の場合、分割後のグループは二つ生成されるため、実施される等分散検定は、分割前対分割後の二つのグループがあり、どちらかの検定が有意であれば、その分割条件は有効と見做す。
また、有効な分割条件が複数検出された場合、等分散検定におけるp値が、最小の分割条件を実際の決定木の分割条件として採用する。等分散検定は、予測値の確率分布に関する仮定の違いなどによりいくつかの手法が存在する。例えば、予測値に特定の確率分布を仮定しない場合にはCrown-Forsythe検定を用いる。なお、学習対象のデータの性質に応じて検定手法を選択してもよい。
図8に、図7における分割結果に基づく評価結果を示す。図8は、評価結果の一例を示す図である。有意水準は、予め設定された基準となる有意水準を、検定実施回数で割った値とする。すなわち、これは等分散検定の繰り返しによる偽陽性の発生確率の増大に対応するための措置である。図8においては、基準となる有意水準を0.01とし、検定実施回数を4×2としているので、有意水準は0.01/(4×2)=0.00125となる。なお、この有意水準の設定は一例であり限定されない。
分割条件追加部16は、評価結果を取得した後、すべての分割条件について有意性がない場合(p値が有意水準以上である場合)、より複雑な分割条件で再評価を行うため、複雑さ要件を増加する。
具体的には、図8に示した評価結果80の場合、分割条件追加部16は、すべての分割条件について有意性がないので、現状の複雑さ要件を増加させる。例えば、現状の複雑さ要件は1であるので、複雑さ要件を2とする。
その後、分割条件生成部12は、更新された複雑さ要件に従い分割条件を再生成する。続いて、分割条件生成部12は、複雑さ要件が2であるので、図6に示した分割条件を生成する。以降、学習データ分割部13、学習データ評価部14は、新たな分割条件に対して、分割と評価とを実施する。
図9は、評価結果の一例を示す図である。図9では、有意性が認められる分割条件が複数検出されているが、p値が最小の分割条件であるAとBとの排他的論理和「AxorB」が最適な分割条件として採用される。
また、学習データ評価部14は、最適な分割条件が検出された場合、その最適な分割条件はノード生成部15へ送られる。
ノード生成部15は、その最適な分割条件に関連付けられた決定木のノードを一つ生成する。また、ノード生成部15は、そのノードにおける分割条件により分割されたグループを分割条件生成部12へ送る。なお、二分木の場合、二つのグループとなる。続いて、分割条件生成部12は、分割されたグループを受けた場合、複雑さ要件を初期値である1に設定する。そして、分割条件生成部12は、受け取ったグループを新たに分割前のグループと見做して上述した処理を継続する。
更に、ノード生成部15は、有効な分割条件が検出されず、複雑さ要件を増加させていきその上限に達しても有効な分割条件が見つからない場合、その分割できなかったグループを終端ノードとしてノード生成の対象にする。図9に示した評価結果90の場合、分割後のグループ1(真)(5,6,7,8)、グループ0(偽)(1,2,3,4)それぞれは複雑さ要件の上限値である2まで、分割条件を評価しても有意な分割条件が検出されない。その場合、分割条件の生成を停止して、ノード生成部15は、当該グループを決定木の最下層ノード(葉)とする。
そして、すべてのグループに関して最下層ノードの生成が完了した場合、ノード生成部15は、生成した決定木データ50を、出力装置40を介して出力する。その結果、図2に示した決定木が出力される。
[装置動作]
次に、本発明の実施の形態における学習装置の動作について図10を用いて説明する。図10は、学習装置の動作の一例を示す図である。以下の説明においては、適宜図1から図9を参酌する。また、本実施の形態では、学習装置を動作させることによって、学習方法が実施される。よって、本実施の形態における学習方法の説明は、以下の学習装置の動作説明に代える。
ステップA1において、特徴量生成部11は、取得した学習データ20に基づいて、分割条件の要素となる特徴量(抽象的な特徴量)を生成する。その後、特徴量生成部11は、生成した特徴量に基づいて、学習データ20を変換する。
ステップA2において、分割条件生成部12は、変換した学習データに含まれる特徴量と、指定された分割条件の複雑さ要件とに応じて、分割条件(具体的な分割条件)を生成する。ステップA3において、学習データ分割部13は、学習データと分割条件とを取得した後、学習データを分割条件に従い分割する。
ステップA4において、学習データ評価部14は、分割結果を取得した後、分割結果がどの程度学習データをよりよく分割できているか否かを評価する。例えば、分割前後のグループ間の予測値の分散に統計的な有意差があるか否かを評価する。
ステップA5において、学習データ評価部14は、すべての分割条件について有意性があるか否かを判定する。有意性がない場合(ステップA5:No)、ステップA7において、分割条件追加部16は、複雑さ要件が上限値であるか否かを判定する。
有意性がある場合(ステップA5:Yes)、又は、有意性がなく複雑さ要件が上限値である場合(ステップA7:No)、ステップA6において、ノード生成部15は、有意性がある分割条件に関連付けられた決定木のノードを生成する。
ステップA8において、複雑さ要件が上限値でない場合(ステップA7:No)、分割条件追加部16は、より複雑な分割条件で再評価を行うため、複雑さ要件を増加する。そして、増加した複雑さ要件において、再度ステップA2からA5の処理を行う。なお、現状の複雑さ要件が1であれば、複雑さ要件を2とする。
ステップA9において、ノード生成部15は、すべてのグループに対して最下層ノードを生成したか否かを判定する。すべてのグループの最下層ノードを生成した場合(ステップA9:Yes)、この処理を終了する。すべてのグループの最下層ノードを生成していない場合(ステップA9:No)、ステップA10において、分割条件生成部12は、複雑さ要件を初期値である1に設定する。そして、分割条件生成部12は、分割されたグループに対して新たに処理を実行する。
[本実施の形態の効果]
以上のように本実施の形態によれば、特徴量と複雑さ要件とに応じて生成した分割条件を用いて、学習データをグループに分割する。そして、分割前のグループと分割後のグループとを用いて、分割条件ごとに有意性を評価する。その結果、分割前後のグループにおいて、分割条件に有意性がある場合、分割条件に関連する分割条件決定木のノードを生成する。そうすることで、決定木には不要な分割条件を含まない、予測精度の高い決定木を生成することができる。言い換えれば、本質的な分割条件を適用した決定木が生成できる。
[プログラム]
本発明の実施の形態におけるプログラムは、コンピュータに、図10に示すステップA1からA10を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における学習装置と学習方法とを実現することができる。この場合、コンピュータのプロセッサは、特徴量生成部11、分割条件生成部12、学習データ分割部13、学習データ評価部14、ノード生成部15、分割条件追加部16として機能し、処理を行なう。
また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、特徴量生成部11、分割条件生成部12、学習データ分割部13、学習データ評価部14、ノード生成部15、分割条件追加部16のいずれかとして機能してもよい。
[物理構成]
ここで、実施の形態におけるプログラムを実行することによって、学習装置を実現するコンピュータについて図11を用いて説明する。図11は、学習装置を実現するコンピュータの一例を示す図である。
図11に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。なお、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていてもよい。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであってもよい。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置があげられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記録媒体があげられる。
なお、本実施の形態における学習装置1は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、学習装置1は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
[付記]
以上の実施の形態に関し、更に以下の付記を開示する。上述した実施の形態の一部又は全部は、以下に記載する(付記1)から(付記12)により表現することができるが、以下の記載に限定されるものではない。
(付記1)
学習データに基づいて特徴量を生成する、特徴量生成部と、
前記特徴量と前記特徴量の数を示す複雑さ要件とに応じて分割条件を生成する、分割条件生成部と、
前記学習データを前記分割条件に基づいてグループに分割する、学習データ分割部と、
分割前後のグループを用いて、前記分割条件ごとに有意性を評価する、学習データ評価部と、
分割前後のグループにおいて、前記分割条件に有意性がある場合、前記分割条件に関連する決定木のノードを生成する、ノード生成部と、
を有することを特徴とする学習装置。
(付記2)
付記1に記載の学習装置であって、
前記分割前後のグループにおいて、すべての前記分割条件に有意性がない場合、前記複雑さ要件が示す前記特徴量の数を増加させ、前記分割条件生成部に前記分割条件を追加させる、分割条件追加部と、
を有することを特徴とする学習装置。
(付記3)
付記1又は2に記載の学習装置であって、
前記分割条件生成部は、前記特徴量間の関係性を表す論理演算子を用いて、前記分割条件を生成する
ことを特徴とする学習装置。
(付記4)
付記3に記載の学習装置であって、
前記分割条件生成部は、前記複雑さ要件が示す、前記分割条件で使用する前記特徴量の数(F1、F2)が二つである場合、前記分割条件を、以下の条件を用いて生成する
F1 and F2
not F1 and F2
F1 or F2
F1 and not F2
F1 xor F2
ことを特徴とする学習装置。
(付記5)
(a)学習データに基づいて特徴量を生成する、ステップと、
(b)前記特徴量と前記特徴量の数を示す複雑さ要件とに応じて分割条件を生成する、ステップと、
(c)前記学習データを前記分割条件に基づいてグループに分割する、ステップと、
(d)分割前後のグループを用いて、前記分割条件ごとに有意性を評価する、ステップと、
(e)分割後のグループにおいて、前記分割条件に有意性がある場合、前記分割条件に関連する決定木のノードを生成する、ステップと、
を有することを特徴とする学習方法。
(付記6)
付記5に記載の学習方法であって、
(f)前記分割前後のグループにおいて、すべての前記分割条件に有意性がない場合、前記複雑さ要件が示す前記特徴量の数を増加させ、前記分割条件を追加させる、ステップと、
を有することを特徴とする学習方法。
(付記7)
付記5又は6に記載の学習方法であって、
前記(b)のステップにおいて、前記特徴量間の関係性を表す論理演算子を用いて、前記分割条件を生成する
ことを特徴とする学習方法。
(付記8)
付記7に記載の学習方法であって、
前記(b)のステップにおいて、前記複雑さ要件が示す、前記分割条件で使用する前記特徴量(F1、F2)の数が二つである場合、前記分割条件を、以下の条件を用いて生成する
F1 and F2
not F1 and F2
F1 or F2
F1 and not F2
F1 xor F2
ことを特徴とする学習方法。
(付記9)
コンピュータに、
(a)学習データに基づいて特徴量を生成する、ステップと、
(b)前記特徴量と前記特徴量の数を示す複雑さ要件とに応じて分割条件を生成する、ステップと、
(c)前記学習データを前記分割条件に基づいてグループに分割する、ステップと、
(d)分割前後のグループを用いて、前記分割条件ごとに有意性を評価する、ステップと、
(e)分割前後のグループにおいて、前記分割条件に有意性がある場合、前記分割条件に関連する決定木のノードを生成する、ステップと、
を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
(付記10)
付記9に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータは、
(f)前記分割前後のグループにおいて、すべての前記分割条件に有意性がない場合、前記複雑さ要件が示す前記特徴量の数を増加させ、前記分割条件を追加させる、ステップを実行させる命令を更に含む、
プログラムを記録しているコンピュータ読み取り可能な記録媒体。
(付記11)
付記9又は10に記載のコンピュータ読み取り可能な記録媒体であって、
前記(b)のステップにおいて、前記特徴量間の関係性を表す論理演算子を用いて、前記分割条件を生成する
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記12)
付記11に記載のコンピュータ読み取り可能な記録媒体であって、
前記(b)のステップにおいて、前記複雑さ要件が示す、前記分割条件で使用する前記特徴量(F1、F2)の数が二つである場合、前記分割条件を、以下の条件を用いて生成する
F1 and F2
not F1 and F2
F1 or F2
F1 and not F2
F1 xor F2
ことを特徴とするコンピュータ読み取り可能な記録媒体。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2018年3月29日に出願された日本出願特願2018−066057を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上のように本発明によれば、決定木の予測精度を向上させることができる。本発明は、決定木の予測精度を向上させることが必要な分野において有用である。
10 学習装置
11 特徴量生成部
12 分割条件生成部
13 学習データ分割部
14 学習データ評価部
15 ノード生成部
16 分割条件追加部
20 学習データ
30 入力装置
40 出力装置
50 決定木データ
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
本発明は、決定木による学習をする学習装置、学習方法に関し、更には、これらを実現するためのプログラムに関する。
非特許文献1及び特許文献2には、操作手順を自動化するソフトウェアツールが開示されている。そのソフトウェアツールによれば、システム変更後の状態、又は操作手順を定義情報として入力し、自動的にシステムの変更、及び設定を行う。
本発明の目的の一例は、決定木の予測精度を向上させる学習装置、学習方法、及びプログラムを提供することにある。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは
コンピュータに、
(a)学習データに基づいて特徴量を生成する、ステップと、
(b)前記特徴量と前記特徴量の数を示す複雑さ要件とに応じて分割条件を生成する、ステップと、
(c)前記学習データを前記分割条件に基づいてグループに分割する、ステップと、
(d)分割前後のグループを用いて、前記分割条件ごとに有意性を評価する、ステップと、
(e)分割後のグループにおいて、前記分割条件に有意性がある場合、前記分割条件に関連する決定木のノードを生成する、ステップと、
を実行させることを特徴とする。
図1は、学習データの一例を示す図である。 図2は、理想的な決定木の一例を示す図である。 図3は、既存の決定木の学習により生成された決定木の一例を示す図である。 図4は、学習装置の一例を示す図である。 図5は、学習装置を有するシステムの一例を示す図である。 図6は、複雑さ要件に対する分割条件の一例を示す図である。 図7は、分割結果の一例を示す図である。 図8は、評価結果の一例を示す図である。 図9は、評価結果の一例を示す図である。 図10は、学習装置の動作の一例を示す図である。 図11は、学習装置を実現するコンピュータの一例を示す図である。
分割条件生成部12は、学習データに基づいて生成された特徴量と、指定された複雑さ要件とに応じて、分割条件(具体的な分割条件)を生成する。複雑さ要件は、一つの分割条件に使用する特徴量の数を示し、初期値は1である。また、段階的に複雑さを増やす場合、複雑さ要件に上限値も設定する。例えば、上限値は2とすることが考えられる。
また、有効な分割条件が複数検出された場合、等分散検定におけるp値が、最小の分割条件を実際の決定木の分割条件として採用する。等分散検定は、予測値の確率分布に関する仮定の違いなどによりいくつかの手法が存在する。例えば、予測値に特定の確率分布を仮定しない場合にはBrown-Forsythe検定を用いる。なお、学習対象のデータの性質に応じて検定手法を選択してもよい。
有意性がある場合(ステップA5:Yes)、又は、有意性がなく複雑さ要件が上限値である場合(ステップA7:Yes)、ステップA6において、ノード生成部15は、有意性がある分割条件に関連付けられた決定木のノードを生成する。
なお、本実施の形態における学習装置10は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、学習装置10は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
(付記9)
コンピュータに、
(a)学習データに基づいて特徴量を生成する、ステップと、
(b)前記特徴量と前記特徴量の数を示す複雑さ要件とに応じて分割条件を生成する、ステップと、
(c)前記学習データを前記分割条件に基づいてグループに分割する、ステップと、
(d)分割前後のグループを用いて、前記分割条件ごとに有意性を評価する、ステップと、
(e)分割前後のグループにおいて、前記分割条件に有意性がある場合、前記分割条件に関連する決定木のノードを生成する、ステップと、
を実行させるプログラム。
(付記10)
付記9に記載のプログラムであって、
前記プログラムが、前記コンピュータは、
(f)前記分割前後のグループにおいて、すべての前記分割条件に有意性がない場合、前記複雑さ要件が示す前記特徴量の数を増加させ、前記分割条件を追加させる、ステップを実行させるプログラム。
(付記11)
付記9又は10に記載のプログラムであって、
前記(b)のステップにおいて、前記特徴量間の関係性を表す論理演算子を用いて、前記分割条件を生成する
ことを特徴とするプログラム
(付記12)
付記11に記載のプログラムであって、
前記(b)のステップにおいて、前記複雑さ要件が示す、前記分割条件で使用する前記特徴量(F1、F2)の数が二つである場合、前記分割条件を、以下の条件を用いて生成する
F1 and F2
not F1 and F2
F1 or F2
F1 and not F2
F1 xor F2
ことを特徴とするプログラム

Claims (12)

  1. 学習データに基づいて特徴量を生成する、特徴量生成部と、
    前記特徴量と前記特徴量の数を示す複雑さ要件とに応じて分割条件を生成する、分割条件生成部と、
    前記学習データを前記分割条件に基づいてグループに分割する、学習データ分割部と、
    分割前後のグループを用いて、前記分割条件ごとに有意性を評価する、学習データ評価部と、
    分割後のグループにおいて、前記分割条件に有意性がある場合、前記分割条件に関連する決定木のノードを生成する、ノード生成部と、
    を有することを特徴とする学習装置。
  2. 請求項1に記載の学習装置であって、
    前記分割前後のグループにおいて、すべての前記分割条件に有意性がない場合、前記複雑さ要件が示す前記特徴量の数を増加させ、前記分割条件生成部に前記分割条件を追加させる、分割条件追加部と、
    を有することを特徴とする学習装置。
  3. 請求項1又は2に記載の学習装置であって、
    前記分割条件生成部は、前記特徴量間の関係性を表す論理演算子を用いて、前記分割条件を生成する
    ことを特徴とする学習装置。
  4. 請求項3に記載の学習装置であって、
    前記分割条件生成部は、前記複雑さ要件が示す、前記分割条件で使用する前記特徴量の数(F1、F2)が二つである場合、前記分割条件を、以下の条件を用いて生成する
    F1 and F2
    not F1 and F2
    F1 or F2
    F1 and not F2
    F1 xor F2
    ことを特徴とする学習装置。
  5. (a)学習データに基づいて特徴量を生成する、ステップと、
    (b)前記特徴量と前記特徴量の数を示す複雑さ要件とに応じて分割条件を生成する、ステップと、
    (c)前記学習データを前記分割条件に基づいてグループに分割する、ステップと、
    (d)分割前後のグループを用いて、前記分割条件ごとに有意性を評価する、ステップと、
    (e)分割後のグループにおいて、前記分割条件に有意性がある場合、前記分割条件に関連する決定木のノードを生成する、ステップと、
    を有することを特徴とする学習方法。
  6. 請求項5に記載の学習方法であって、
    (f)前記分割前後のグループにおいて、すべての前記分割条件に有意性がない場合、前記複雑さ要件が示す前記特徴量の数を増加させ、前記分割条件を追加させる、ステップと、
    を有することを特徴とする学習方法。
  7. 請求項5又は6に記載の学習方法であって、
    前記(b)のステップにおいて、前記特徴量間の関係性を表す論理演算子を用いて、前記分割条件を生成する
    ことを特徴とする学習方法。
  8. 請求項7に記載の学習方法であって、
    前記(b)のステップにおいて、前記複雑さ要件が示す、前記分割条件で使用する前記特徴量(F1、F2)の数が二つである場合、前記分割条件を、以下の条件を用いて生成する
    F1 and F2
    not F1 and F2
    F1 or F2
    F1 and not F2
    F1 xor F2
    ことを特徴とする学習方法。
  9. コンピュータに、
    (a)学習データに基づいて特徴量を生成する、ステップと、
    (b)前記特徴量と前記特徴量の数を示す複雑さ要件とに応じて分割条件を生成する、ステップと、
    (c)前記学習データを前記分割条件に基づいてグループに分割する、ステップと、
    (d)分割前後のグループを用いて、前記分割条件ごとに有意性を評価する、ステップと、
    (e)分割後のグループにおいて、前記分割条件に有意性がある場合、前記分割条件に関連する決定木のノードを生成する、ステップと、
    を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
  10. 請求項9に記載のコンピュータ読み取り可能な記録媒体であって、
    前記プログラムが、前記コンピュータに、
    (f)前記分割後のグループにおいて、すべての前記分割条件に有意性がない場合、前記複雑さ要件が示す前記特徴量の数を増加させ、前記分割条件を追加させる、ステップを実行させる命令を更に含む、
    プログラムを記録しているコンピュータ読み取り可能な記録媒体。
  11. 請求項9又は10に記載のコンピュータ読み取り可能な記録媒体であって、
    前記(b)のステップにおいて、前記特徴量間の関係性を表す論理演算子を用いて、前記分割条件を生成する
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
  12. 請求項11に記載のコンピュータ読み取り可能な記録媒体であって、
    前記(b)のステップにおいて、前記複雑さ要件が示す、前記分割条件で使用する前記特徴量(F1、F2)の数が二つである場合、前記分割条件を、以下の条件を用いて生成する
    F1 and F2
    not F1 and F2
    F1 or F2
    F1 and not F2
    F1 xor F2
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2020510958A 2018-03-29 2019-03-26 学習装置、学習方法、及びプログラム Active JP6888737B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018066057 2018-03-29
JP2018066057 2018-03-29
PCT/JP2019/012984 WO2019189249A1 (ja) 2018-03-29 2019-03-26 学習装置、学習方法、及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPWO2019189249A1 true JPWO2019189249A1 (ja) 2021-02-12
JP6888737B2 JP6888737B2 (ja) 2021-06-16

Family

ID=68060021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020510958A Active JP6888737B2 (ja) 2018-03-29 2019-03-26 学習装置、学習方法、及びプログラム

Country Status (3)

Country Link
US (1) US20210012214A1 (ja)
JP (1) JP6888737B2 (ja)
WO (1) WO2019189249A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7059220B2 (ja) * 2019-02-15 2022-04-25 株式会社日立製作所 機械学習プログラム検証装置および機械学習プログラム検証方法
US20200394527A1 (en) * 2019-06-12 2020-12-17 International Business Machines Corporation Prediction model
JP2023113393A (ja) * 2022-02-03 2023-08-16 株式会社日立製作所 推定器学習装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157814A (ja) * 2002-11-07 2004-06-03 Fuji Electric Holdings Co Ltd 決定木生成方法およびモデル構造生成装置
JP2011028519A (ja) * 2009-07-24 2011-02-10 Nippon Hoso Kyokai <Nhk> データ分類装置及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7233931B2 (en) * 2003-12-26 2007-06-19 Lee Shih-Jong J Feature regulation for hierarchical decision learning
US20120036094A1 (en) * 2009-03-06 2012-02-09 Kabushiki Kaisha Toshiba Learning apparatus, identifying apparatus and method therefor
US9177247B2 (en) * 2011-09-23 2015-11-03 Fujitsu Limited Partitioning medical binary decision diagrams for analysis optimization
CN104603291B (zh) * 2012-06-22 2018-04-06 Htg分子诊断有限公司 黑素细胞病变中的分子恶性肿瘤
US10963810B2 (en) * 2014-06-30 2021-03-30 Amazon Technologies, Inc. Efficient duplicate detection for machine learning data sets
CN105718493B (zh) * 2014-12-05 2019-07-23 阿里巴巴集团控股有限公司 基于决策树的搜索结果排序方法及其装置
JP2018116545A (ja) * 2017-01-19 2018-07-26 オムロン株式会社 予測モデル作成装置、生産設備監視システム、及び生産設備監視方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157814A (ja) * 2002-11-07 2004-06-03 Fuji Electric Holdings Co Ltd 決定木生成方法およびモデル構造生成装置
JP2011028519A (ja) * 2009-07-24 2011-02-10 Nippon Hoso Kyokai <Nhk> データ分類装置及びプログラム

Also Published As

Publication number Publication date
WO2019189249A1 (ja) 2019-10-03
JP6888737B2 (ja) 2021-06-16
US20210012214A1 (en) 2021-01-14

Similar Documents

Publication Publication Date Title
US10824959B1 (en) Explainers for machine learning classifiers
JP6888737B2 (ja) 学習装置、学習方法、及びプログラム
US11436056B2 (en) Allocation of shared computing resources using source code feature extraction and clustering-based training of machine learning models
AU2018260855A1 (en) Hybrid cloud migration delay risk prediction engine
US20100275186A1 (en) Segmentation for static analysis
US10862765B2 (en) Allocation of shared computing resources using a classifier chain
GB2530516A (en) Intelligent Software Test Augmenting
US11455554B2 (en) Trustworthiness of artificial intelligence models in presence of anomalous data
US11556785B2 (en) Generation of expanded training data contributing to machine learning for relationship data
US9582189B2 (en) Dynamic tuning of memory in MapReduce systems
Faria Non-determinism and failure modes in machine learning
US11302096B2 (en) Determining model-related bias associated with training data
Kumara et al. FOCloud: feature model guided performance prediction and explanation for deployment configurable cloud applications
US11636386B2 (en) Determining data representative of bias within a model
CN109800775B (zh) 文件聚类方法、装置、设备及可读介质
JPWO2016084327A1 (ja) 資源予測装置、資源予測方法、資源予測プログラムおよび分散処理システム
Li et al. The extreme counts: modeling the performance uncertainty of cloud resources with extreme value theory
US20160004982A1 (en) Method and system for estimating the progress and completion of a project based on a bayesian network
Panahi et al. Control performance analysis of automotive cyber-physical systems: A study on efficient formal verification
JP5555238B2 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
JP7424373B2 (ja) 分析装置、分析方法及び分析プログラム
Guindani et al. aMLLibrary: An automl approach for performance prediction
US11855849B1 (en) Artificial intelligence based self-organizing event-action management system for large-scale networks
JP6908126B2 (ja) 構成管理装置、構成管理方法および構成管理プログラム
Wongkampoo et al. Atom-task precondition technique to optimize large scale GUI testing time based on parallel scheduling algorithm

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200827

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210503

R150 Certificate of patent or registration of utility model

Ref document number: 6888737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150