JPWO2005048184A1 - 能動学習方法およびシステム - Google Patents

能動学習方法およびシステム Download PDF

Info

Publication number
JPWO2005048184A1
JPWO2005048184A1 JP2005515402A JP2005515402A JPWO2005048184A1 JP WO2005048184 A1 JPWO2005048184 A1 JP WO2005048184A1 JP 2005515402 A JP2005515402 A JP 2005515402A JP 2005515402 A JP2005515402 A JP 2005515402A JP WO2005048184 A1 JPWO2005048184 A1 JP WO2005048184A1
Authority
JP
Japan
Prior art keywords
data
learning
unknown
label value
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005515402A
Other languages
English (en)
Inventor
勉 襲田
勉 襲田
慶子 山下
慶子 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2005048184A1 publication Critical patent/JPWO2005048184A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

既知データをサンプリングし、既知データに対しては複数の学習機械で独立に学習を行い、未知データに対しては次に学習すべきデータを選択する能動学習システムは、既知データをサンプリングする時に重み付けを行うためのサンプリング重み付け装置と、複数の学習機械の学習結果を統合する際に重み付けを行うための予測重み付け装置と、次に学習すべきデータを選択するときに重み付けを行うためデータ重み付け装置と、を備える。各重み付け装置は、データ数に極端に偏りが発生しているときに、その比重を重くするように重み付けを行う。

Description

本発明は、能動学習方法及び能動学習システムに関する。
能動学習とは、安倍らによれば、学習者が学習データを能動的に選択することにできる学習形態である([1]安部 直樹、馬見塚 拓,“能動学習と発見科学”、森下真一・宮野 悟編、“発見科学とデータマイニング”、共立出版、2001年6月、ISBN4-320-12018-3、pp. 64-71)。一般に学習を能動的に行うことにより、データ数や計算量の意味で学習の効率性を向上することができることが知られている。能動学習を行うシステムを能動学習システムと呼ぶ。例えば、集められたデータに対して統計的に分析を行い、ラベル値が未知のデータに対しては、過去のデータの傾向から結果の予測を行うような学習システムを考える。そのような学習システムには、能動学習システムを適用することができる。以下、この種の能動学習システムの概略を説明する。
ラベル値が未知のデータとラベル値が既知のデータが存在するものとする。ラベル値が既知のデータで学習を行い、その学習した結果をラベル値が未知のデータに適用する。そのときに、ラベル値が未知のデータから効率的に学習を行えるようなデータを学習システムが選択し、そのデータを出力する。出力されたデータに対して実験するなり調査するなりして、ラベル値が未知のデータに対する結果を得て、それを入力したのちラベル値が既知のデータに混ぜて、同じように学習を行う。その一方で、ラベル値が未知のデータの集合からは、結果が得られたデータを削除する、というものである。能動学習システムでは、そのような動作を繰り返して行っていく。
また、データは以下のように記述されている。1つのデータは、複数の属性とラベルというもので記述される。たとえば有名な評価データの中には、“golf”というものがある。それはゴルフをプレーするかしないかを判定するものであって、天気、温度、湿度、風の強さという4つのものから記述されている。天気は、「晴れ」、「曇り」または「雨」、風は、「有」または「無」という値をとる。気温と湿度は実数値である。たとえば1つのデータは、天気:晴れ、温度:15度、湿度:40%、風:無、プレー:する、というように書かれている。そのデータの場合、天気、温度、湿度、風の4つを属性と呼ぶ。また、プレーする、しないという結果のことをラベルと呼ぶ。本明細書では、ラベルがとりうる値が離散値の場合には、特にクラスと呼ぶ。
ここで、さまざまな用語を定義しておく。
仮にラベルは2値であるとしておく。その2値のうち注目しているラベルの方を正例、それ以外のものを負例とする。またラベルが多値の場合には、注目している1つのラベル値を正例、それ以外のすべてのラベル値を負例とする。またラベルがとりうる値が連続値の場合には注目する値付近にラベル値が存在するとき正例と呼び、それ以外のところにあるときに負例と呼ぶことにする。
学習の精度を測る指標としては、ROC(受信者動作特性:receiver operating characteristic)曲線、ヒット率、正解率の推移などがある。以下の説明では、これら3つの指標を用いて評価を行う。
ROC曲線は、以下のように定義される。
横軸:負例のうち正例と判断されたデータの個数/全負例数,
縦軸:正例のうち正例と判断されたデータの個数/全正例数.
ランダムな予測を行ったとき、ROC曲線は、原点と(1,1)を結ぶ対角線となる。
ヒット率は以下のように定義される。
横軸:ラベル値が既知のデータ数/(ラベル値が未知+既知のデータ数),
縦軸:ラベル値が既知のデータの中の正例数/全正例数.
ランダムな予測を行ったとき。ヒット率は、原点と(1,1)を結ぶ対角線となる。また、限界は原点と(正例数/(ラベル値が未知+既知のデータ数),1)を結んだ線となる。
正解率の推移は以下のように定義される。
横軸:ラベル値が既知のデータ数,
縦軸:正しく判断されたデータの個数/ラベル値が既知のデータ数.
後述する「発明を実施するための最良の形態」においては、これらの指標を用いて、本発明による能動学習システムを評価している(図3A〜3C、5、7、9、11、13A、13B、15A、15B、18を参照)。
またエントロピーとは、以下のように定義される。各P_iはiである確率を示しているとする。
エントロピー=−(p_1*log(P_1)+p_2*log(P_2)+…+P_n*log(P_n))
なお、従来の能動学習システムを開示するものとしては、日本国特許公開:特開平11−316754号公報[2]に開示されたものがある。この公報に開示の能動学習システムは、学習の精度を向上するために、下位アルゴリズムに学習を行わせる学習段階と、学習精度をブースティングにより向上させるブースティング段階と、複数の入力候補点に対する関数値予測段階と、重みの総和が最大の出力値の重み和と、重みの総和が次に大きい出力値の重み和との差が最も小さいような入力点を選択する入力点指定段階と、を行うことを特徴とするものである。
安倍らはさらに、複数の学習機械を備えるシステムを使用し、各学習機械はデータからランダムにサンプリングしてそのデータを学習し、ラベル値が未知のデータに対してはそれぞれの学習機械が予測を行ってもっとも分散が大きくなるような点を次に学習すべき点として出力するような手法を開示している[1]。
しかしながら上述した従来の手法は、次に学習すべきデータとして出力するものをユーザーの意思で制御できない、という課題を有する。その理由は、これらの従来の手法は、なるべく早く学習精度を向上することを目標とするために、次の候補点として最も分散の大きな点や、下位の学習機械からの出力が割れる点のみを選んでいるからである。
従来の手法は、学習データにおいて、対象となる値やクラスのデータ数が他のクラスや値のものに比べてきわめて低い状況下において、対象となっている値やクラスの正解率を得るのが困難である、という課題も有する。その理由は、今までに開発されてきた下位学習アルゴリズムが極端な個数の不平等な状況までを考察して設計されたものでないことにあるばかりでなく、従来の能動学習アルゴリズムも同じようにそのような状況を想定していないことにある。
従来の手法が用いる能動学習アルゴリズムには、入力すべきデータの選択の段階において、似たようなデータを入力点として数多く出力してしまう、という課題がある。その理由もやはり、従来の能動学習アルゴリズムが、下位の学習アルゴリズムが学習したものを十分に活かしきるようなメカニズムを有していないことにある。
さらにこれらの従来の手法は、システムにおいて最終判断の方法が予め定められているために、学習の精度を変えられない、という課題も有する。
そこで本発明の目的は、能動学習法の精度を向上させつつ、利用者の意思で精度を制御することができ、また、興味のあるデータを先に抜き出すという機能なども備える能動学習方法を提供することにある。
そこで本発明の別の目的は、能動学習法の精度を向上させつつ、利用者の意思で精度を制御することができ、また、興味のあるデータを先に抜き出すという機能なども備える能動学習システムを提供することにある。
本発明の目的は、ラベル値が既知のデータを既知データとしラベル値が未知のデータを未知データとして既知データの集合と未知データの集合とを格納する記憶装置と、複数の学習機械とを使用する能動学習方法であって、複数の学習機械が、既知データに関し、記憶装置からそれぞれ独立にサンプリングを行った後に学習を行う段階と、学習の結果として、複数の学習機械の出力結果を統合して出力する段階と、複数の学習機械が、記憶装置から未知データを取り出して予測を行う段階と、予測の結果に基づいて次に学習すべきデータを計算して出力する段階と、次に学習すべきデータに対応するラベル値を入力する段階と、ラベル値が入力されたデータを未知データの集合から削除して既知データの集合に追加する段階と、を有し、既知データをサンプリングするとき、複数の学習機械による学習の結果を統合するとき、及び、複数の学習機械による予測から次に学習すべきデータを計算するとき、のうちの少なくとも1つにおいて、均等でない重み付けを実行する能動学習方法によって達成される。
本発明の能動学習方法における重み付けでは、例えば、データ数に極端に偏りが発生しているときに、その比重を重くするようにする。さらにこの方法では、次に予測のために学習装置に入力すべきデータの選択において、選ばれてきた候補のデータの中から空間的なデータの分布を考慮に入れながらさらに選び出すというデータの分布に広がりを持たせる機構を付け加えることによって、お互いに似たようなデータを出力することを避けることができる。
本発明の他の目的は、ラベル値が既知のデータを既知データとしラベル値が未知のデータを未知データとして既知データの集合と未知データの集合とを格納する記憶装置と、既知データの学習及び未知データの予測を行う複数の学習機械と、学習機械ごとに設けられ、記憶装置から既知データをサンプリングして対応する学習機械に入力する複数のサンプリング装置と、各学習機械が既知データに基づいて行った学習の結果を統合する第1の統合手段と、各学習機械が未知データに基づいて行った予測の結果から次に学習すべきデータを計算して出力する第2の統合手段と、次に学習すべきデータに対応するラベル値を入力する結果入力手段と、ラベル値が入力されたデータを未知データの集合から削除して既知データの集合に追加する制御手段と、を有するとともに、(1)サンプリング装置ごとにサンプリング時の重みを設定するサンプリング重み付け手段、(2)第1の統合手段で学習の結果を統合する際に用いられる重みを設定する予測重み付け手段、(3)第2の統合手段で次に学習すべきデータを選択する際に用いられる重みを設定するデータ重み付け手段、及び(4)既知データ及び未知データにおいてグループ分けを行うグループ生成手段のうちの少なくとも1つを有する能動学習システムによって達成される。
本発明の能動学習システムにおける重み付けでは、例えば、データ数に極端に偏りが発生しているときに、その比重を重くするようにする。
本発明では、(1)学習データをサンプリングする際にデータに重み付けを行う、(2)入力候補点から入力点を選び出す際にデータに重み付けを行う、及び(3)入力されたデータに対して予測を行う際にデータに重み付けを行う、の計3通りの重み付けのうちの少なくとも1つを採用するしている。これによって、本発明によれば、対象となっているデータの重みを重くすることで重点的に学習を行うことができるので、対象となっているデータの、全体に対する割合が極めて低い状況下において、マイニングの精度を向上させながら、カバー率を向上させることができる。また、対象となっているデータの重みを軽くすることで、対象となっているものが未発見の領域の学習を行っていくことが可能になるため、対象となっているデータがさまざまな特徴に基づいているとき、それを、早期に発見できる。
従来の能動学習法は、データの予測を行うときに均等に学習結果を扱っているのに対し、本発明によれば、重み付けすることが可能なため、重みを変えることで精度を制御することが可能になり、任意の精度で学習することが可能になる。従来の方法では、次に学習すべきデータが、空間的にある領域に固まる傾向にあるが、本発明では、それらのデータが空間的に散らばるような機構を設けることにより、従来の能動学習法の欠点を修正でき、正解率を従来のものよりも高めることができる。
図1は、本発明の第1の実施形態の能動学習システムの構成を示すブロック図である。 図2は、図1に示すシステムを用いた能動学習法の処理を示すフローチャートである。 図3Aは、図1に示すシステムによる能動学習法と従来の能動学習法とにおける学習精度を比較する、ヒット率を示すグラフである。 図3Bは、図1に示すシステムによる能動学習法と従来の能動学習法とにおける学習精度を比較する、ROC曲線を示すグラフである。 図3Cは、図1に示すシステムによる能動学習法と従来の能動学習法とにおける学習精度を比較する、正解率の推移を示すグラフである。 図4は、本発明の第2の実施形態の能動学習システムの構成を示すブロック図である。 図5は、図4に示すシステムによる能動学習法と従来の能動学習法とにおける学習精度を比較する、ROC曲線のグラフである。 図6は、本発明の第3の実施形態の能動学習システムの構成を示すブロック図である。 図7は、図6に示すシステムによる能動学習法と従来の能動学習法とにおける学習精度を比較する、ROC曲線のグラフである。 図8は、本発明の第4の実施形態の能動学習システムの構成を示すブロック図である。 図9は、図8に示すシステムによる能動学習法と従来の能動学習法とにおける学習精度を比較する、正解率推移を示すグラフである。 図10は、本発明の第5の実施形態の能動学習システムの構成を示すブロック図である。 図11は、図10に示すシステムによる能動学習法と従来の能動学習法とにおける学習精度を比較する、ROC曲線のグラフである。 図12は、本発明の第6の実施形態の能動学習システムの構成を示すブロック図である。 図13Aは、図12に示すシステムによる能動学習法と従来の能動学習法とにおける学習精度を比較する、ヒット率を示すグラフである。 図13Bは、図12に示すシステムによる能動学習法と従来の能動学習法とにおける学習精度を比較する、ROC曲線を示すグラフである。 図14は、本発明の第7の実施形態の能動学習システムの構成を示すブロック図である。 図15Aは、図14に示すシステムによる能動学習法と従来の能動学習法とにおける学習精度を比較する、ヒット率を示すグラフである。 図15Bは、図14に示すシステムによる能動学習法と従来の能動学習法とにおける学習精度を比較する、ROC曲線を示すグラフである。 図16は、本発明の第8の実施形態の能動学習システムの構成を示すブロック図である。 図17は、図16に示すシステムを用いた能動学習法の処理を示すフローチャートである。 図18は、図16に示すシステムによる能動学習法と従来の能動学習法とにおける学習精度を比較する、正解率推移を示すグラフである。 図19は、本発明の第9の実施形態の能動学習システムの構成を示すブロック図である。
本発明の能動学習システムは、(1)学習データをサンプリングする際にデータに重み付けを行う、(2)入力候補点から入力点を選び出す際にデータに重み付けを行う、及び(3)入力されたデータに対して予測を行う際にデータに重み付けを行う、の計3通りの重み付けのうちの少なくとも1つを採用することにより、上述した本発明の目的を達しようとするものである。これらの重み付けにおいては、データ数に極端に偏りが発生しているときに、その比重を重くするように重み付けを行っている。本発明は、どの段階で重み付けを行うかによって種々の実施形態が考えられる。
また、本発明では、次に学習すべきデータを選択する際に、選ばれてきた候補のデータから空間的なデータの分布を考慮に入れながらさらに選び出すという、データの分布に広がりを持たせるメカニズムを付け加えることによって、お互いに似たようなデータを出力することを避けることができる。このようなメカニズムの有無によっても、本発明は種々の実施形態が考えられる。
以下、このような各種の実施形態について説明する。
《第1の実施形態》
図1に示す本発明の第1の実施形態の能動学習システムは、ラベル値が既にわかっているデータ(すなわち既知データ)を蓄えておく記憶装置101と、記憶装置101内の既知データをサンプリングする時に重み付けを行うためのデータを生成するサンプリング重み付け装置102と、予測を行う時に重み付けを行うためのデータを生成する予測重み付け装置103と、次に学習すべきデータを選択するときに重み付けを行うためのデータを生成するデータ重み付け装置104と、複数の学習機械106と、記憶装置101からデータをサンプリングして対応する学習機械106に対してデータを供給する複数のサンプリング装置105と、複数の学習機械106からの学習結果をまとめる規則統合装置107と、規則統合装置107に接続した出力装置111と、複数の学習機械106での結果に基づき次に学習すべきデータを計算するデータ統合装置108と、データ統合装置108に接続した出力装置112と、次に学習すべきデータの出力結果に対て結果を入力する結果入力装置113と、ラベル値がわかっていないデータ(すなわち未知データ)を格納する記憶装置109と、この能動学習システム全体の制御を行う制御装置110と、を備えている。
制御装置110は、結果入力装置113によって入力された結果を例えば表形式のものとしてまとめ、記憶装置109内における該当するデータを削除し、その代わりに、結果が加えられたデータを記憶装置101内に格納するという制御を行う。サンプリング装置105と学習機械106とは、ここでは、1対1の関係で設けられている。また、各学習機械106には、対応するサンプリング装置105からデータが供給されるとともに、記憶装置109からは未知データが供給される。規則統合装置107に接続した出力装置111からは、学習した規則が出力され、データ統合装置108に接続した出力装置112からは、次に学習すべきデータが出力される。
サンプリング重み付け装置102は、各サンプリング装置105に対して、記憶装置101に格納された既知データに基づき、サンプリング時にデータに対して重み付けを行うための重み付けデータを生成して供給する。予測重み付け装置103は、記憶装置101に格納された既知データに基づき、規則統合装置107において各学習機械106ごとの学習結果をまとめる際に重み付けを行うための重み付けデータを生成し、生成した重み付けデータを規則統合装置107に供給する。同様にデータ重み付け装置104は、記憶装置101に格納された既知データに基づき、データ統合装置108において次に学習すべきデータを選択して出力する際に重み付けを行うための重み付けデータを生成し、生成した重み付けデータをデータ統合装置108に供給する。
ここで、サンプリング重み付け装置102、予測重み付け装置103及びデータ重み付け装置104のそれぞれによる重み付けを説明する。これらの重み付け装置102〜104による重み付けとしては、均等でない重み付けであれば種々のものを使用できる。
サンプリング重み付け装置102での重み付けとしては、例えば、(1)既知データにおけるクラスあるいは値に応じた重みを設定する、(2)ラベル値が離散値を取る場合に、各サンプリング装置105が、独立して、あるクラスのデータの全てとそれ以外のクラスのデータからランダムにサンプリングするように重みを設定する、(3)ラベル値が連続値を取る場合に、各サンプリング装置105が、特定のラベルの値の付近のデータの全てとそれ以外のラベル値のデータからランダムにサンプリングするように重みを設定する、などが挙げられる。
予測重み付け装置103での重み付けとしては、例えば、各学習機械106が出力した結果についてクラス(ラベル値が離散値を取る場合)ごとあるいは数値における区間(ラベル値が連続値を取る場合)ごとに重みを決定する方法がある。
データ重み付け装置104での重み付けとしては、例えば、(1)ラベル値が離散値をとる場合にクラスごとの頻度から計算されるばらつき具合に応じて重みを割当てる、(2)各学習機械106での結果として得られる値の分散に応じて重みを割当てる、(3)ラベル値が離散値をとる場合にクラスごとの頻度から計算されるエントロピーに応じて重みを割当てる、などが挙げられる。ばらつき具合に応じて重みを割当てる場合には、ばらつき具合が最大のところのみが最大の重みになることは除くようにしてもよい。同様に、分散あるいはエントロピーに応じて重みを割当てる場合には、それら分散あるいはエントロピーが最大のところのみが最大の重みになることは除くようにしてもよい。さらに、これらの重みとは別個に各学習機械106で得られる結果そのものに対して重みを割当てるようにしてもよい。
次に、本実施形態の能動学習システムの動作について、図2に示すフローチャートを利用して説明する。ここでは、データは表形式で与えられるものとする。
まず、ステップ201において、ラベル値が既知のデータは記憶装置101に、ラベル値が未知のデータは記憶装置109に記憶される。その結果、既知データの集合が記憶装置101に格納され、未知データの集合が記憶装置109に格納されることになる。
次に、ステップ202において、サンプリング重み付け装置102は、記憶装置101から送られてきたデータに基づいて重み(すなわち重み付けデータ)を生成し、あるいはそのような重みを読み込み、各サンプリング装置105に送る。各サンプリング装置105は、サンプリング重み付け装置102から送られてきた重みにしたがって重み付けを行いながら、記憶装置101内の既知データをサンプリングし、サンプリングしたデータを対応する学習機械106に送る。各学習機械106は、ステップ203において、サンプリング装置から送られてきたデータに基づいて学習を実行する。
記憶装置101からは予測重み付け装置103にもデータが送られており、ステップ204において、予測重み付け装置103は、記憶装置101から送られてきたデータに基づいて重み(すなわち重み付けデータ)を生成し、あるいはそのような重みを読み込み、それらを規則統合装置107へ送る。規則統合装置107は、重み付けデータに基づいて、各学習機械106からの学習結果に重み付けを行いながらこれらの学習結果をまとめる。このとき、各学習機械106が出力した結果についてクラス(ラベル値が離散値を取る場合)ごとあるいは数値における区間(ラベル値が連続値を取る場合)ごとに頻度を計算し、頻度と上述した重みとを乗算し、その値がもっとも大きな値となっているものを予想値として出力する。規則統合装置107は、学習結果をまとめた結果を規則として出力装置111に送る。
次に各学習機械106は、ステップ205において、記憶装置109に格納されたラベル値が未知のデータに対して予測を行い、その結果は、データ統合装置108に送られる。このとき、記憶装置101からはデータ重み付け装置104にもデータが送られており、ステップ206において、データ重み付け装置104は、記憶装置101から送られてきたデータに基づいて重み(すなわち重み付けデータ)を生成し、あるいはそのような重みを読み込み、それらをデータ統合装置108へ送る。データ統合装置108は、重み付けデータに基づいて、各学習機械106からの予測結果に重み付けを行いながらこれらの結果をまとめ、次に学習すべきデータを選択する。次に学習すべきデータの選択方法としては、以下のようなものが挙げられる。例えば、(1)ばらつき具合あるいはエントロピーに応じて重みが割当てられている場合には、各学習機械106が出力した結果からそのクラスごとに頻度を計算し、頻度を元にばらつき具合あるいはエントロピーを示す数値を計算し、ばらつき具合あるいはエントロピーに応じて割り当てられた重みが重い順番にデータを選択する、(2)分散に応じて重みが割当てられている場合には、各学習機械106が出力した結果からその分散を計算し、分散に応じて割り当てられた重みが重い順番にデータを選択する、(3)ばらつき具合あるいはエントロピーと結果とのそれぞれに応じて重みが割当てられている場合には、各学習機械106が出力した結果からそのクラスごとに頻度を計算し、頻度を元にばらつき具合あるいはエントロピーを示す数値を計算し、ばらつき具合あるいはエントロピーに応じて割り当てられた重みと結果に割り当てられた重みとをあわせて重みの重い順番にデータを選択する、(4)分散と結果のそれぞれに応じて重みが割当てられている場合には、各学習機械106が出力した結果からその分散を計算し、分散に応じて割り当てられた重みと結果に割り当てられた重みとをあわせて重みの重い順番にデータを選択する。データ統合装置108は、その結果を次に学習すべきデータとして出力装置112に送る。
次に、ステップ207において、次に学習すべきデータに対する結果(ラベル値)が、結果入力装置113を介し、人手によって、あるいはコンピュータにより入力される。入力された結果は制御装置110に送られ、制御装置110は、その結果が入力されたデータを記憶装置109から削除し、その代わりに記憶装置101に記憶させる。
以後、上述の処理が繰り返され、能動学習が進行する。この場合、これらの処理は、最長の場合で記憶装置109内に未知データがなくなるまで行われるが、その前に打ち切るようにしてもよい。後述するように本実施形態によれば、迅速に“よい結果”を得ることができるので、例えば適当な反復回数を設定してそこで処理を打ち切るようにすることができる。サンプリング重み付け装置102、予測重み付け装置103及びデータ重み付け装置104は、いずれも均等でない重み付けを行う。
図3A〜3Cは、第1の実施形態の能動学習システムの効果を説明している。
図3Aにおいて、破線301は、従来の能動学習法を用いた場合のヒット率を示し、実線302は、本実施形態の能動学習システムを用いた場合のヒット率を示している。本実施形態によれば、従来の能動学習法よりも早期の段階において、対象となっているクラス(値)のデータを見つけていることがわかる。
図3Bにおいて、破線303は、従来の能動学習法を用いた場合のROC曲線を示し、実線304は、本実施形態の能動学習システムを用いた場合のROC曲線を示している。本実施形態によれば、従来の能動学習法に比べて高い精度で学習を行えていることがわかる。さらに、従来の能動学習法では、精度は、曲線上のある1点に存在するので、どのような精度にするのかを外部から制御することができなかった。これに対して本実施形態の手法では、予測重み付け装置103における重みを変えることで、任意の精度を設定できる。図3Bには、図示A〜Dで示される4つの直線が存在するが、本実施形態では、任意の位置に直線を設定できるので、任意の精度を設定することができる。
図3Cにおいて、破線305は、従来の能動学習法を用いた場合の正解率の推移を示し、破線306は、本実施形態の能動学習システムを用いた場合における正解率の推移を示している。本実施形態によれば、対象となっているクラス(値)のデータの重みを重くすることによって、そのクラスに関する正解率を上げることができることがわかる。
《第2の実施形態》
次に、本発明の第2の実施形態について、図4を参照して説明する。図4に示す能動学習システムは、第1の実施形態の能動学習システムと同様のものであるが、予測重み付け装置とデータ重み付け装置とが設けられていない点で、第1の実施形態のものと相違する。予測重み付け装置とデータ重み付け装置とが設けられていないことにより、規則統合装置107では、学習機械106から出てきた結果がすべて均等に取り扱われ、多数決などの手段によって最終的な規則が出力されることになる。具体的には、規則統合装置107は、各学習機械106が出力した結果について、ラベル値が離散値を取る場合にはクラスごとに、あるいはラベル値が連続値を取る場合には数値における区間ごとに、頻度を計算し、その値がもっとも大きな値となっているものを予想値として出力する。
またデータ統合装置108においも同様に出力結果が均等に扱われ、もっとも判断に迷うデータが出力されることになる。具体的には、例えば、(1)ラベル値が離散値を取る場合に、各学習機械106が出力した結果からそのクラスごとに頻度を計算し、頻度を元にばらつき具合を示す数値を計算し、あるクラスと判断されたデータとばらつき具合を示す指標が最大もしくは最大付近のデータから、次に学習すべきデータを選択する。(2)ラベル値が連続値を取る場合に、各学習機械106が出力した結果からその分散を計算し、ある数値の付近にあるデータと分散が最大もしくは最大付近のデータから、次に学習すべきデータを選択する。(3)各学習機械106が出力した結果からその分散を計算し、特定のクラス以外のデータ(あるいはある数値付近にないデータ)であってかつ“分散が最小もしくは最小に近い”データから、次に学習すべきデータを選択する。
図5は、第2の実施形態の能動学習システムの効果を示している。図において、破線307は、従来の能動学習法を用いた場合の学習精度を表すROC曲線であり、実線308は、本実施形態の能動学習システムにより、対象となっているクラス(値)のデータが多く選ばれるようなサンプリングをしたとき学習精度を示すROC曲線である。本実施形態によれば、従来の能動学習法よりも高い精度が得られることがわかる。
《第3の実施形態》
次に、本発明の第3の実施形態について、図6を参照して説明する。図6に示す能動学習システムは、第1の実施形態の能動学習システムと同様のものであるが、サンプリング重み付け装置とデータ重み付け装置とが設けられていない点で、第1の実施形態のものと相違する。サンプリング重み付け装置とデータ重み付け装置とが設けられていないことにより、各サンプリング装置105では既知のデータがすべて均等に取り扱われ、ランダムなサンプリングが行われる。またデータ統合装置108では、第2の実施形態の場合と同様に、出力結果が均等に扱われ、もっとも判断に迷うデータが出力されることになる。
図7は、第3の実施形態の能動学習システムの効果を示している。図において、線309は、この能動学習システムの学習精度を表すROC曲線を示している。従来の能動学習法では学習結果を統合するときに均等に結果を扱っていたため、ある特定の精度でしか能動学習システムを構築することができなかった。本実施形態によれば、任意の重みで学習結果を統合することができるため、例えば、図示A、B、C、Dのような精度でシステムを構成することができる。
《第4の実施形態》
次に、本発明の第4の実施形態について、図8を参照して説明する。図8に示す能動学習システムは、第1の実施形態の能動学習システムと同様のものであるが、サンプリング重み付け装置と予測重み付け装置とが設けられていない点で、第1の実施形態のものと相違する。サンプリング重み付け装置と予測重み付け装置とが設けられていないことにより、各サンプリング装置105では既知のデータがすべて均等に取り扱われ、ランダムなサンプリングが行われる。また、規則統合装置107では、第2の実施形態の場合と同様に、学習機械106から出てきた結果がすべて均等に取り扱われ、多数決などの手段によって最終的な規則が出力されることになる。
図9は、第4の実施形態の能動学習システムの効果を示している。図において、破線310は従来の能動学習法を用いた場合の正解率の推移を示し、破線311は、本実施形態の能動学習システムを用いた場合における正解率の推移を示している。本実施形態では、サンプリングのときの重みとして、次に実験すべきデータがなるべく散らばるような重み付けを行っている。このような重み付けを用いることにより、従来の能動学習法よりも早く学習していることわかる。
《第5の実施形態》
次に、本発明の第5の実施形態について、図10を参照して説明する。図10に示す能動学習システムは、第1の実施形態の能動学習システムと同様のものであるが、データ重み付け装置が設けられていない点で、第1の実施形態のものと相違する。データ重み付け装置が設けられていないことにより、データ統合装置108では、第2の実施形態の場合と同様に、出力結果が均等に扱われ、もっとも判断に迷うデータが出力されることになる。
図11は、第5の実施形態の能動学習システムの効果を示している。図において、破線312は、従来の能動学習法を用いた場合のROC曲線を示し、破線313は、本実施形態の能動学習システムを用いた場合におけるROC曲線を示している。本実施形態では、サンプリング時には、あるクラス(値)の重みが重くなるような重み付けを行い、次に学習すべきデータを選択する時には、同様に、そのクラスの重みが重くなるような重み付けを行っている。図11から分かるように、本実施形態によれば、学習の精度が向上し、また、予測重み付け装置の重みを変えることで、図示A、B、C、Dにあるように、任意の精度で学習を行うことができるようになる。
《第6の実施形態》
次に、本発明の第6の実施形態について、図12を参照して説明する。図12に示す能動学習システムは、第1の実施形態の能動学習システムと同様のものであるが、予測重み付け装置が設けられていない点で、第1の実施形態のものと相違する。予測重み付け装置が設けられていないことにより、規則統合装置107では、第2の実施形態の場合と同様に、学習機械106から出てきた結果がすべて均等に取り扱われ、多数決などの手段によって最終的な規則が出力されることになる。
図13A、13Bは、第6の実施形態の能動学習システムの効果を示している。図13Aにおいて、破線314は、従来の能動学習法を用いた場合のヒット率を示し、実線315は、本実施形態の能動学習システムを用いた場合におけるヒット率を示している。図13Bにおいて、破線316は、従来の能動学習法を用いた場合のROC曲線を示し、実線317は、本実施形態の能動学習システムを用いた場合のROC曲線を示している。本実施形態においては、サンプリング時には、あるクラス(値)の重みが重くなるように重み付けを行っており、次に学習すべきデータを選択するときも、同様に、そのクラスの重みが重くなるように重み付けを行っている。本実施形態によれば、対象となるクラス(値)の9割を従来のものよりも早く発見でき、また、学習精度も向上していることがわかる。
《第7の実施形態》
次に、本発明の第7の実施形態について、図14を参照して説明する。図14に示す能動学習システムは、第1の実施形態の能動学習システムと同様のものであるが、サンプリング重み付け装置が設けられていない点で、第1の実施形態のものと相違する。サンプリング重み付け装置が設けられていないことにより、各サンプリング装置105では既知のデータがすべて均等に取り扱われ、ランダムなサンプリングが行われる。
図15A、図15Bは、第7の実施形態の能動学習システムの効果を示している。図15Aにおいて、破線318は、従来の能動学習法を用いた場合のヒット率を示す、実線319は、本実施形態の能動学習システムを用いた場合のヒット率を示している。図15Bにおいて、破線320は、本実施形態の能動学習システムを用いた場合におけるROC曲線を示している。本実施形態では、次に学習すべきデータを選択するときの重み付けも、学習結果を統合するときの重み付けも、あるクラス(値)のデータの重みが重くなるようにした。本実施形態によれば、重みを重くしたクラスのデータが早く出力されており、また図示A、B、C、Dに示されるように、任意の精度で学習を行えるようになっている。
《第8の実施形態》
次に、本発明の第8の実施形態について、図16を参照して説明する。図16に示す能動学習システムは、第1の実施形態の能動学習システムと同様のものであるが、グループ生成装置115が付加されているとともに、データ統合装置とそのデータ統合装置に接続する出力装置とがデータ統合選択装置114で置き換えられている点で相違する。データ統合選択装置114は、第1の実施形態のシステム(図1参照)におけるデータ統合装置108と出力装置112の機能を合わせ持つものであるが、次に学習すべきデータを選択する際に、グループ生成装置115でのグループ分けにしたがって、相互のデータがなるべくグループに散らばるように選択する。グループ選択装置114は、記憶装置101に格納されたラベル値が既知のデータ、または記憶装置109に格納されたラベル値が未知のデータ、もしくはその両者のデータをグループ分けするものである。
次に、本実施形態の能動学習システムの動作について、図17に示すフローチャートを利用して説明する。ここでは、データは表形式で与えられるものとする。
まず、ステップ211において、ラベル値が既知のデータは記憶装置101に、ラベル値が未知のデータは記憶装置109に記憶される。グループ生成装置115は、ステップ212において、記憶装置101内の既知データと記憶装置109内の未知データに関してグループ分けを行う。グループ分けの結果は、グループ生成装置115からグループ情報として出力される。
次に、ステップ213において、サンプリング重み付け装置102は、記憶装置101から送られてきたデータに基づいて重み(すなわち重み付けデータ)を生成し、あるいはそのような重みを読み込み、各サンプリング装置105に送る。各サンプリング装置105は、サンプリング重み付け装置102から送られてきた重みにしたがって重み付けを行いながら、記憶装置101内の既知データをサンプリングし、サンプリングしたデータを対応する学習機械106に送る。各学習機械106は、ステップ214において、サンプリング装置から送られてきたデータに基づいて学習を実行する。
記憶装置101からは予測重み付け装置103にもデータが送られており、ステップ215において、予測重み付け装置103は、記憶装置101から送られてきたデータに基づいて重み(すなわち重み付けデータ)を生成し、あるいはそのような重みを読み込み、それらを規則統合装置107へ送る。規則統合装置107は、重み付けデータに基づいて、各学習機械106からの学習結果に重み付けを行いながらこれらの学習結果をまとめる。規則統合装置107は、学習結果をまとめた結果を規則として出力装置111に送る。
次に各学習機械106は、ステップ216において、記憶装置109に格納されたラベル値が未知のデータに対して予測を行い、その結果は、データ統合選択装置114に送られる。
このとき、記憶装置101からはデータ重み付け装置104にもデータが送られており、ステップ217において、データ重み付け装置104は、記憶装置101から送られてきたデータに基づいて重み(すなわち重み付けデータ)を生成し、あるいはそのような重みを読み込み、それらをデータ統合選択装置114へ送る。データ統合選択装置114は、重み付けデータとグループ生成装置115からのグループ情報とに基づき、各学習機械106からの予測結果に重み付けを行いながらこれらの結果をまとめ、次に学習すべきデータを選択する。その際、データ統合選択装置114は、グループ生成装置814でのグループ分けにしたがって、お互いのデータがなるべくグループに散らばるように、次に学習すべきデータをする。
次に、ステップ218において、次に学習すべきデータに対する結果(ラベル値)が、結果入力装置113を介し、人手によって、あるいはコンピュータにより入力される。入力された結果は制御装置110に送られ、制御装置110は、その結果が入力されたデータを記憶装置109から削除し、その代わりに記憶装置101に記憶させる。以後、第1の実施形態の場合と同様に、上述の処理が繰り返され、能動学習が進行する。
図18は、第8の実施形態の能動学習システムの効果を説明している。図において、破線321は、従来の能動学習法を用いた場合の正解率の推移を示し、破線322は、第1の実施形態の能動学習システムを用いた場合における正解率の推移を示し、実線323は、グループ生成装置115によって作成されたグループ情報をもとにして次に学習すべきデータを選択する本実施形態の能動学習システムを用いた場合における正解率の推移を示している。グループ生成装置によって生成されたグループの情報をもとにして、次に学習すべきデータを選択する際にお互いのデータがなるべく異なったグループに属するようにデータを選択することで、正解率を早い段階で高くすることができることがわかる。
なお、本実施形態は、サンプリング重み付け装置102、予測重み付け装置103及びデータ重み付け装置104のうちの一部または全部を設けない構成とすることもできる。
《第9の実施形態》
次に、本発明の第9の実施形態について、図19を参照して説明する。図19に示す能動学習システムは、第8の実施形態の能動学習システムと同様のものであるが、データ選択装置116が新たに設けられ、また、データ統合選択装置の代わりに第1の実施形態の場合と同様のデータ統合装置108及び出力装置112が設けられている点で、第8の実施形態のものと相違する。データ選択装置118は、グループ生成装置115からのグループ情報にしたがって、各学習機械106での予測の対象となる未知データを記憶装置109から選択し、選択された未知データを各学習機械106に送るものである。
この能動学習システムでは、グループ生成装置115で生成されたグループは、データ選択装置116に送られる。記憶装置109からは未知データがデータ選択装置116に送られる。データ選択装置116は、なるべく異なったグループに散らばるように未知データが選択して、選択されたデータが、予測のために学習機械106に送られる。データ統合装置108は、データ重み付け装置904で決定された重み付けを適用して、次に学習すべきデータを選択する。この能動学習システムは、第8の実施形態の能動学習システムと同様の効果を奏する。
なお、本実施形態は、サンプリング重み付け装置102、予測重み付け装置103及びデータ重み付け装置104のうちの一部または全部を設けない構成とすることもできる。
以上説明した能動学習システムは、それを実現するためのコンピュータプログラムを、パーソナルコンピュータやワークステーションなどのコンピュータに読み込ませ、そのプログラムを実行させることによっても実現できる。能動学習を行うためのプログラム(能動学習システム用プログラム)は、磁気テープやCD−ROMなどの記録媒体によって、あるいはネットワークを介して、コンピュータに読み込まれる。そのようなコンピュータは、一般に、CPUと、プログラムやデータを格納するためのハードディスク装置と、主メモリと、キーボードやマウスなどの入力装置と、CRTや液晶ディスプレイなどの表示装置と、磁気テープやCD−ROM等の記録媒体を読み取る読み取り装置と、ネットワークとのインタフェースとなる通信インタフェースとから構成されている。ハードディスク装置、主メモリ、入力装置、表示装置、読み取り装置及び通信インタフェースは、いずれもCPUに接続している。このコンピュータでは、能動学習を実行するためのプログラムを格納した記録媒体を読み取り装置に装着し、記録媒体からプログラムを読み出してハードディスク装置に格納し、あるいはそのようなプログラムをネットワークからダウンロードしてハードディスク装置に格納し、その後、ハードディスク装置に格納されたプログラムをCPUが実行することにより、上述した能動学習が実行されることになる。
したがって本発明の範疇には、上述したプログラム、このようなプログラムを格納した記録媒体、このようなプログラムからなるプログラムプロダクトも含まれる。

Claims (18)

  1. ラベル値が既知のデータを既知データとしラベル値が未知のデータを未知データとして前記既知データの集合と前記未知データの集合とを格納する記憶装置と、複数の学習機械とを使用する能動学習方法であって、
    前記複数の学習機械が、前記既知データに関し、前記記憶装置からそれぞれ独立にサンプリングを行った後に学習を行う段階と、
    前記学習の結果として、前記複数の学習機械の出力結果を統合して出力する段階と、
    前記複数の学習機械が、前記記憶装置から未知データを取り出して予測を行う段階と、
    前記予測の結果に基づいて次に学習すべきデータを計算して出力する段階と、
    前記次に学習すべきデータに対応するラベル値を入力する段階と、
    前記ラベル値が入力されたデータを前記未知データの集合から削除して前記既知データの集合に追加する段階と、
    を有し、
    前記既知データをサンプリングするとき、前記複数の学習機械による学習の結果を統合するとき、及び、前記複数の学習機械による予測から次に学習すべきデータを計算するとき、のうちの少なくとも1つにおいて、均等でない重み付けを実行する、能動学習方法。
  2. 前記既知データ及び前記未知データにおいてグループ分けを行う段階をさらに有し、前記次に学習すべきデータを計算する際に、グループで散らばるようにデータを選択する、請求項1に記載の能動学習方法。
  3. 前記既知データ及び前記未知データにおいてグループ分けを行う段階をさらに有し、前記予測を行う段階において、グループで散らばるように前記各学習機械に前記未知データを供給する、請求項1に記載の能動学習方法。
  4. ラベル値が既知のデータを既知データとしラベル値が未知のデータを未知データとして前記既知データの集合と前記未知データの集合とを格納する記憶装置と、
    既知データの学習及び未知データの予測を行う複数の学習機械と、
    前記学習機械ごとに設けられ、前記記憶装置から前記既知データをサンプリングして対応する学習機械に入力する複数のサンプリング装置と、
    前記各学習機械が前記既知データに基づいて行った学習の結果を統合する第1の統合手段と、
    前記各学習機械が前記未知データに基づいて行った予測の結果から次に学習すべきデータを計算して出力する第2の統合手段と、
    前記次に学習すべきデータに対応するラベル値を入力する結果入力手段と、
    前記ラベル値が入力されたデータを前記未知データの集合から削除して前記既知データの集合に追加する制御手段と、
    前記サンプリング装置ごとにサンプリング時の重みを設定するサンプリング重み付け手段と、
    を有する能動学習システム。
  5. ラベル値が既知のデータを既知データとしラベル値が未知のデータを未知データとして前記既知データの集合と前記未知データの集合とを格納する記憶装置と、
    既知データの学習及び未知データの予測を行う複数の学習機械と、
    前記学習機械ごとに設けられ、前記記憶装置から前記既知データをサンプリングして対応する学習機械に入力する複数のサンプリング装置と、
    前記各学習機械が前記既知データに基づいて行った学習の結果を統合する第1の統合手段と、
    前記各学習機械が前記未知データに基づいて行った予測の結果から次に学習すべきデータを計算して出力する第2の統合手段と、
    前記次に学習すべきデータに対応するラベル値を入力する結果入力手段と、
    前記ラベル値が入力されたデータを前記未知データの集合から削除して前記既知データの集合に追加する制御手段と、
    前記第1の統合手段で前記学習の結果を統合する際に用いられる重みを設定する予測重み付け手段と、
    を有する、能動学習システム。
  6. 前記第1の統合手段で前記学習の結果を統合する際に用いられる重みを設定する予測重み付け手段を有する、請求項4に記載の能動学習システム。
  7. 前記第2の統合手段で次に学習すべきデータを選択する際に用いられる重みを設定するデータ重み付け手段を有する、請求項4乃至6のいずれか1項に記載の能動学習システム。
  8. 前記既知データ及び前記未知データにおいてグループ分けを行うグループ生成手段をさらに有し、
    前記第2の統合手段は前記次に学習すべきデータを計算する際に、グループで散らばるようにデータを選択する、請求項4乃至7のいずれか1項に記載の能動学習システム。
  9. 前記既知1データ及び前記未知データにおいてグループ分けを行うグループ生成手段と、
    グループで散らばるように前記各学習機械に前記未知データを供給するデータ選択手段とをさらに有する、請求項4乃至7のいずれか1項に記載の能動学習システム。
  10. ラベル値が既知のデータを既知データとしラベル値が未知のデータを未知データとして前記既知データの集合と前記未知データの集合とを格納する記憶装置と、
    既知データの学習及び未知データの予測を行う複数の学習機械と、
    前記学習機械ごとに設けられ、前記記憶装置から前記既知データをサンプリングして対応する学習機械に入力する複数のサンプリング装置と、
    前記各学習機械が前記既知データに基づいて行った学習の結果を統合する第1の統合手段と、
    前記各学習機械が前記未知データに基づいて行った予測の結果から次に学習すべきデータを計算して出力する第2の統合手段と、
    前記次に学習すべきデータに対応するラベル値を入力する結果入力手段と、
    前記ラベル値が入力されたデータを前記未知データの集合から削除して前記既知データの集合に追加する制御手段と、
    前記第2の統合手段で次に学習すべきデータを選択する際に用いられる重みを設定するデータ重み付け手段と、
    を有する、能動学習システム。
  11. 前記既知データ及び前記未知データにおいてグループ分けを行うグループ生成手段をさらに有し、
    前記第2の統合手段は前記次に学習すべきデータを計算する際に、グループで散らばるようにデータを選択する、請求項10に記載の能動学習システム。
  12. 前記既知1データ及び前記未知データにおいてグループ分けを行うグループ生成手段と、
    グループで散らばるように前記各学習機械に前記未知データを供給するデータ選択手段とをさらに有する、請求項10に記載の能動学習システム。
  13. ラベル値が既知のデータを既知データとしラベル値が未知のデータを未知データとして前記既知データの集合と前記未知データの集合とを格納する記憶装置と、
    既知データの学習及び未知データの予測を行う複数の学習機械と、
    前記学習機械ごとに設けられ、前記記憶装置から前記既知データをサンプリングして対応する学習機械に入力する複数のサンプリング装置と、
    前記各学習機械が前記既知データに基づいて行った学習の結果を統合する第1の統合手段と、
    前記各学習機械が前記未知データに基づいて行った予測の結果から次に学習すべきデータを計算して出力する第2の統合手段と、
    前記次に学習すべきデータに対応するラベル値を入力する結果入力手段と、
    前記ラベル値が入力されたデータを前記未知データの集合から削除して前記既知データの集合に制御手段と、
    前記既知データ及び前記未知データにおいてグループ分けを行うグループ生成手段と、
    を有し、前記第2の統合手段は前記次に学習すべきデータを計算する際に、グループで散らばるようにデータを選択する、能動学習システム。
  14. ラベル値が既知のデータを既知データとしラベル値が未知のデータを未知データとして前記既知データの集合と前記未知データの集合とを格納する記憶装置と、
    既知データの学習及び未知データの予測を行う複数の学習機械と、
    前記学習機械ごとに設けられ、前記記憶装置から前記既知データをサンプリングして対応する学習機械に入力する複数のサンプリング装置と、
    前記各学習機械が前記既知データに基づいて行った学習の結果を統合する第1の統合手段と、
    前記各学習機械が前記未知データに基づいて行った予測の結果から次に学習すべきデータを計算して出力する第2の統合手段と、
    前記次に学習すべきデータに対応するラベル値を入力する結果入力手段と、
    前記ラベル値が入力されたデータを前記未知データの集合から削除して前記既知データの集合に制御手段と、
    前記既知データ及び前記未知データにおいてグループ分けを行うグループ生成手段と、
    グループで散らばるように前記各学習機械に前記未知データを供給するデータ選択手段と、
    を有する、能動学習システム。
  15. コンピュータを、
    ラベル値が既知のデータを既知データとしラベル値が未知のデータを未知データとして前記既知データの集合と前記未知データの集合とを格納する記憶手段、
    前記記憶手段から既知データをサンプリングするとともに既知データの学習及び未知データの予測を行う複数の学習手段、
    前記各学習機械が前記既知データに基づいて行った学習の結果を統合する第1の統合手段、
    前記各学習手段が前記未知データに基づいて行った予測の結果から次に学習すべきデータを計算して出力する第2の統合手段、
    前記次に学習すべきデータに対応するラベル値を入力する結果入力手段、
    前記ラベル値が入力されたデータを前記未知データの集合から削除して前記既知データの集合に追加する制御手段、
    前記サンプリング装置でのサンプリング時の重み、前記第1の統合手段で用いられる重み、及び前記第2の統合手段で用いられる重みのうちの少なくとも1つの重みを設定する重み付け手段、
    として機能させるプログラム。
  16. 前記コンピュータをさらに、前記既知データ及び前記未知データにおいてグループ分けを行うグループ生成手段として機能させ、前記第2の統合手段において前記次に学習すべきデータを計算する際に、グループで散らばるようにデータが選択されるようにする、請求項15に記載のプログラム。
  17. 前記コンピュータをさらに、
    前記既知データ及び前記未知データにおいてグループ分けを行うグループ生成手段、
    グループで散らばるように前記各学習機械に前記未知データを供給するデータ選択手段、
    として機能させる請求項15に記載のプログラム。
  18. コンピュータが読み取り可能な記録媒体であって、請求項15乃至17のいずれか1項に記載のプログラムを格納した記録媒体。
JP2005515402A 2003-11-17 2004-10-08 能動学習方法およびシステム Pending JPWO2005048184A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2003386702 2003-11-17
JP2003386702 2003-11-17
PCT/JP2004/014917 WO2005048184A1 (ja) 2003-11-17 2004-10-08 能動学習方法およびシステム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2008333791A Division JP2009104632A (ja) 2003-11-17 2008-12-26 ラベル予測方法およびシステム

Publications (1)

Publication Number Publication Date
JPWO2005048184A1 true JPWO2005048184A1 (ja) 2007-05-31

Family

ID=34587401

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2005515402A Pending JPWO2005048184A1 (ja) 2003-11-17 2004-10-08 能動学習方法およびシステム
JP2008333791A Pending JP2009104632A (ja) 2003-11-17 2008-12-26 ラベル予測方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2008333791A Pending JP2009104632A (ja) 2003-11-17 2008-12-26 ラベル予測方法およびシステム

Country Status (4)

Country Link
US (1) US7483864B2 (ja)
JP (2) JPWO2005048184A1 (ja)
GB (1) GB2423395A (ja)
WO (1) WO2005048184A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4645288B2 (ja) * 2005-04-28 2011-03-09 日本電気株式会社 能動学習方法および能動学習システム
US20100023465A1 (en) * 2006-10-19 2010-01-28 Yukiko Kuroiwa Active learning system, method and program
JP2008117343A (ja) * 2006-11-08 2008-05-22 Nec Corp 学習処理装置
JP5287251B2 (ja) * 2006-11-24 2013-09-11 日本電気株式会社 分子間相互作用予測装置の性能評価システム、方法、及びプログラム
JP5187635B2 (ja) * 2006-12-11 2013-04-24 日本電気株式会社 能動学習システム、能動学習方法、及び能動学習用プログラム
US20080275775A1 (en) * 2007-05-04 2008-11-06 Yahoo! Inc. System and method for using sampling for scheduling advertisements in an online auction
US8086549B2 (en) * 2007-11-09 2011-12-27 Microsoft Corporation Multi-label active learning
US8140450B2 (en) * 2009-03-27 2012-03-20 Mitsubishi Electric Research Laboratories, Inc. Active learning method for multi-class classifiers
JP2011203991A (ja) * 2010-03-25 2011-10-13 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
EP2702538A1 (en) * 2011-04-28 2014-03-05 Kroll Ontrack Inc. Electronic review of documents
JP6362893B2 (ja) * 2014-03-20 2018-07-25 株式会社東芝 モデル更新装置及びモデル更新方法
CN105468887B (zh) * 2014-09-10 2019-03-15 华邦电子股份有限公司 数据分析系统以及方法
US10387430B2 (en) 2015-02-26 2019-08-20 International Business Machines Corporation Geometry-directed active question selection for question answering systems
US10630560B2 (en) * 2015-04-02 2020-04-21 Behavox Ltd. Method and user interfaces for monitoring, interpreting and visualizing communications between users
US11915113B2 (en) * 2019-03-07 2024-02-27 Verint Americas Inc. Distributed system for scalable active learning
JP7333496B2 (ja) * 2019-07-05 2023-08-25 公立大学法人会津大学 ラベリングプログラム、ラベリング装置及びラベリング方法
GB202001468D0 (en) 2020-02-04 2020-03-18 Tom Tom Navigation B V Navigation system
US11501165B2 (en) 2020-03-04 2022-11-15 International Business Machines Corporation Contrastive neural network training in an active learning environment
JP7280921B2 (ja) * 2021-06-15 2023-05-24 株式会社日立製作所 計算機システム、推論方法、及びプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463930B2 (en) * 1995-12-08 2002-10-15 James W. Biondi System for automatically weaning a patient from a ventilator, and method thereof
US6158432A (en) * 1995-12-08 2000-12-12 Cardiopulmonary Corporation Ventilator control system and method
JPH1116754A (ja) 1997-06-20 1999-01-22 Tokin Corp 積層コイル素子
US7318051B2 (en) * 2001-05-18 2008-01-08 Health Discovery Corporation Methods for feature selection in a learning machine
WO2000036426A2 (de) * 1998-12-16 2000-06-22 Siemens Aktiengesellschaft Verfahren und anordnung zur vorhersage von messdaten anhand vorgegebener messdaten
US6895081B1 (en) * 1999-04-20 2005-05-17 Teradyne, Inc. Predicting performance of telephone lines for data services
US6487276B1 (en) * 1999-09-30 2002-11-26 Teradyne, Inc. Detecting faults in subscriber telephone lines
JP2001229026A (ja) 1999-12-09 2001-08-24 Nec Corp 知識発見方式
JP3855582B2 (ja) 2000-03-06 2006-12-13 Kddi株式会社 出力状態判定機能を有する並列ニューラルネットワーク処理システム
DE10134229A1 (de) * 2000-08-17 2002-02-28 Ibm Verfahren und System zum Ermitteln von Abweichungen in Datentabellen
MY131000A (en) * 2001-03-16 2007-07-31 Dow Global Technologies Inc High melt strength polymers and method of making same
US7152029B2 (en) * 2001-07-18 2006-12-19 At&T Corp. Spoken language understanding that incorporates prior knowledge into boosting
US7143046B2 (en) * 2001-12-28 2006-11-28 Lucent Technologies Inc. System and method for compressing a data table using models
US7167871B2 (en) * 2002-05-17 2007-01-23 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
US7188117B2 (en) * 2002-05-17 2007-03-06 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
US7328146B1 (en) * 2002-05-31 2008-02-05 At&T Corp. Spoken language understanding that incorporates prior knowledge into boosting
US7136518B2 (en) * 2003-04-18 2006-11-14 Medispectra, Inc. Methods and apparatus for displaying diagnostic data
US7309867B2 (en) * 2003-04-18 2007-12-18 Medispectra, Inc. Methods and apparatus for characterization of tissue samples
US7282723B2 (en) * 2002-07-09 2007-10-16 Medispectra, Inc. Methods and apparatus for processing spectral data for use in tissue characterization
US7033577B2 (en) * 2003-02-13 2006-04-25 Playtex Products, Inc. In vitro prediction of sunscreen PFA values

Also Published As

Publication number Publication date
US20070094158A1 (en) 2007-04-26
GB2423395A (en) 2006-08-23
GB0611998D0 (en) 2006-07-26
US7483864B2 (en) 2009-01-27
JP2009104632A (ja) 2009-05-14
WO2005048184A1 (ja) 2005-05-26

Similar Documents

Publication Publication Date Title
JP2009104632A (ja) ラベル予測方法およびシステム
JP6954003B2 (ja) データベースのための畳み込みニューラルネットワークモデルの決定装置及び決定方法
Cumming et al. Quantitative comparison and selection of home range metrics for telemetry data
US11562294B2 (en) Apparatus and method for analyzing time-series data based on machine learning
KR20160084453A (ko) 머신 러닝에서의 가중치의 생성
Pappa et al. Attribute selection with a multi-objective genetic algorithm
JP7232122B2 (ja) 物性予測装置及び物性予測方法
EP3745317A1 (en) Apparatus and method for analyzing time series data based on machine learning
Neto et al. EOCD: An ensemble optimization approach for concept drift applications
CN112801231B (zh) 用于业务对象分类的决策模型训练方法和装置
CN112836794B (zh) 一种图像神经架构的确定方法、装置、设备及存储介质
CN110602207A (zh) 基于离网预测推送信息的方法、装置、服务器和存储介质
JP2020126468A (ja) 学習方法、学習プログラムおよび学習装置
US7379843B2 (en) Systems and methods for mining model accuracy display for multiple state prediction
JP5167596B2 (ja) データセット選択装置および実験計画システム
Aho et al. Rule ensembles for multi-target regression
Ghorbel et al. Smart adaptive run parameterization (SArP): enhancement of user manual selection of running parameters in fluid dynamic simulations using bio-inspired and machine-learning techniques
Xie Time series prediction based on recurrent LS-SVM with mixed kernel
CN111383052A (zh) 一种智能柜选址模型建模方法、装置、服务器及存储介质
Mandli et al. Selection of most relevant features from high dimensional data using ig-ga hybrid approach
JP2021124949A (ja) 機械学習モデル圧縮システム、プルーニング方法及びプログラム
Mahbub et al. Multi-objective optimisation with multiple preferred regions
Antonsson et al. Fuzzy fitness functions applied to engineering design problems
KR102522597B1 (ko) WRF 모델의 물리과정 모수화 스킴 조합 최적화를 위한 μ-GA-WRF 결합 시스템
CN114757723B (zh) 用于资源要素交易平台的数据分析模型构建系统及方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080723

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080922

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081029

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20081128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20081201