JPWO2020157939A1 - 情報処理装置、学習履歴管理システム及び学習履歴管理プログラム - Google Patents

情報処理装置、学習履歴管理システム及び学習履歴管理プログラム Download PDF

Info

Publication number
JPWO2020157939A1
JPWO2020157939A1 JP2020569299A JP2020569299A JPWO2020157939A1 JP WO2020157939 A1 JPWO2020157939 A1 JP WO2020157939A1 JP 2020569299 A JP2020569299 A JP 2020569299A JP 2020569299 A JP2020569299 A JP 2020569299A JP WO2020157939 A1 JPWO2020157939 A1 JP WO2020157939A1
Authority
JP
Japan
Prior art keywords
version
learning history
information
learning
history information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020569299A
Other languages
English (en)
Inventor
鈴木 康介
昂士 市村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2020157939A1 publication Critical patent/JPWO2020157939A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Stored Programmes (AREA)

Abstract

バージョン管理部(17)が、データセット、学習済みMLモデル、学習済みMLモデルの評価結果を1つの版の学習履歴情報として複数の版の学習履歴情報を記憶して管理する。そして、フロントエンド部(11)が、複数の版のうちの1つの版の選択指示をユーザから受け付けると、アセット管理部(16)が、指定された版の学習履歴情報をバージョン管理部(17)から取得して、版情報記憶部(15)の情報を取得した版の学習履歴情報で入れ替える。そして、フローエディタ(12)が、入れ替えられた版の学習履歴情報に基づいてフロー図を表示装置に表示する。

Description

本発明は、情報処理装置、学習履歴管理システム及び学習履歴管理プログラムに関する。
AI開発では、データセットと学習モデルを用いた学習、学習済みモデルの検証及び評価等が行われる。図21は、AI(Artificial Intelligence)開発のフローの例を示す図である。図21に示すように、AI開発では、まず、データセットに対して前処理が行われ、データセットが学習用と検証及び評価用とに分割される。前処理では、データセットに対してラベリング、アノテーション、形式変換等が行われる。ここで、ラベリングとは、データに正解を付与することである。アノテーションとは、データに意味づけを与えることであり、例えば、人の顔の画像に目、鼻、口の位置を付与することである。形式変換とは、データの形式を変換することである。
また、AI開発では、学習に用いられるML(Machine Learning)モデルの定義が行われる。MLモデルとしては、例えば、DNN(Deep Neural Network)、CNN(Convolutional Neural Network)、RNN(Recursive Neural Network)、U−net、Auto Encoder、GAN、統計的モデル等がある。そして、定義されたMLモデルと学習用のデータセットを用いて学習が行われ、学習済みMLモデルが作成される。
そして、学習済みMLモデルと検証及び評価用のデータセットとハイパーパラメータを用いて学習済みMLモデルの検証及び評価が行われ、学習済みMLモデルの評価結果が出力される。学習済みMLモデルの検証及び評価では、ハイパーパラメータを変化させた最適化が行われる。ここで、ハイパーパラメータとは、機械学習において人間によるチューニングが必要なパラメータであり、バッチサイズ、エポック数、プーリング層のサイズ、畳み込み層のパラメータ、活性化層関数等がある。
バッチサイズは、NN(Neural Network)において1回の学習に用いられるデータのサイズである。データセットは複数のサブセットに分割され、サブセットを用いて1回の学習が行われる。エポック数は、NNにおいて、N個のサブセットを用いてN回学習を行うことを繰り返す数である。
プーリング層は、CNNにおいてレイヤを縮小するレイヤである。畳み込み層は、CNNにおいて畳み込みを行う層である。畳み込み層のパラメータには、サイズ、ストライド、パディング数、層数がある。サイズは、畳み込み層のサイズである。ストライドは、フィルタを移動する数である。パディング数は、周辺をゼロで埋める数である。層数は、CNNの層の数である。活性化層関数は、活性化層の関数であり、例えばランプ関数である。
前処理、モデル定義、学習、検証及び評価は、スクリプトが実行されることにより行われる。ここで、スクリプトは、簡易なプログラムである。スクリプトの作成には、例えばpython(登録商標、以下同様)が用いられる。
なお、従来技術として、オブジェクトライブラリ管理システム、グラフィカルユーザインタフェース、分散分析モジュールを用いて機械学習モデルのトレーニング及びテストを管理するシステムがある。
また、複数モデルのニューラルネットワークによる学習結果を比較し、学習結果に係る比較情報をグラフで提示することで、ニューラルネットワークの開発効率を向上させる従来技術がある。
また、従来技術として、データソース、統計、特徴処理レシピ、モデル、及びエイリアス等のいくつかのエンティティタイプ上の様々な動作のためのプログラム的インタフェースを実装する機械学習サービスがある。
特表2018−514840号公報 国際公開第2017/141517号 特表2017−524183号公報
AI開発では、スクリプト、MLモデル、ハイパーパラメータ等を変えながら学習と、検証及び評価とが繰り返される。このため、スクリプト、MLモデル、ハイパーパラメータ、入力データセット、学習済みMLモデル、精度及び評価結果、実行環境等の1つの組み合わせを1つの版として版数管理する必要がある。しかしながら、これらのアセットは個別に管理されるため、アセットの組み合わせを版として版数管理することができない。
例えば、スクリプト、MLモデルの版はGit等により管理される。ハイパーパラメータ、学習済みモデルの版はMLflow(Machine Learning Data Flow)、comet等により管理される。実行環境はconda(登録商標、以下同様)、pyenv等により管理される。
アセットを個別に管理すると、以前に行ったアセットの組み合わせを再度実現する場合に、多くの時間を要するという問題がある。また、1つの版を流用する際にも多くの時間を要する。
本発明は、1つの側面では、以前に行った学習の再現を簡単に行うことを目的とする。
1つの態様では、情報処理装置は、版管理部と記憶部と受付部と出力部とを有する。前記版管理部は、学習済み学習モデルの作成及び評価に用いられたデータセットと、該学習済み学習モデル及び該学習済み学習モデルの評価結果とを含めた学習履歴情報を版数管理する。前記記憶部は、版数毎の前記学習履歴情報を記憶する。前記受付部は、前記版管理部が管理する複数の版のうちの1つの版の指定を受け付ける。前記出力部は、前記受付部により受け付けられた1つの版に含まれる学習履歴情報を前記記憶部から取得して該学習履歴情報を表示装置に出力する。
1つの側面では、本発明は、以前に行った学習の再現を簡単に行うことができる。
図1は、実施例1に係るAI開発管理装置によるアセット管理を説明するための図である。 図2は、他の可視化例を示す図である。 図3は、特定の版の選択例を示す図である。 図4は、実施例1に係るAI開発管理装置の機能構成を示す図である。 図5は、フローの編集画面の一例を示す図である。 図6は、図5に示したフローの一部を拡大した図である。 図7は、スクリプト編集画面の一例を示す図である。 図8は、実行履歴の表示画面の一例を示す図である。 図9は、版の選択を示す図である。 図10は、選択された版のフローを表示する画面の例を示す図である。 図11は、版情報記憶部が記憶する項目の一例を示す図である。 図12は、版の枝分かれを説明するための図である。 図13は、AI開発管理装置によるフロー実行処理の手順を示すフローチャートである。 図14は、AI開発管理装置による版変更処理の手順を示すフローチャートである。 図15は、フロー図を用いないAI開発管理装置のスクリプト編集画面の一例を示す図である。 図16は、実施例2に係るAI開発管理装置の機能構成を示す図である。 図17は、実施例1及び2に係るAI開発管理プログラムを実行するコンピュータのハードウェア構成を示す図である。 図18は、データ利活用システムの構成を示す図である。 図19は、同じデータの利用を説明するための図である。 図20は、データ版管理装置を説明するための図である。 図21は、AI開発のフローの例を示す図である。
以下に、本願の開示する情報処理装置、学習履歴管理システム及び学習履歴管理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
まず、実施例1に係るAI開発管理装置によるアセット管理について説明する。図1は、実施例1に係るAI開発管理装置によるアセット管理を説明するための図である。図1に示すように、実施例1に係るAI開発管理装置は、アセットの1つの組み合せを1つのフローに紐づけて1つの版として管理する。
版に関する情報には、idと、日付又は日時と、データセットと、スクリプトと、評価結果と、学習済みMLモデルと、ハイパーパラメータ等が含まれる。ここで、idは、版を識別する番号である。日付又は日時は、フローが実行された年月日又は年月日時である。なお、「フローを実行する」とは、フローに含まれるスクリプトを実行することである。
図1では、例えば、「0010」で識別される版については、データセット#1とデータセット#2を用いて、ハイパーパラメータのalphaを0.5として、フローの実行が2018年9月21日に行われた。その際の実行環境としては、python版数が3.6.5であり、ライブラリ(lib)版数がscikit−learn0.19.1である。評価結果として、予測値と正解値のmse(Mean Square Error)は0.9であり、rmse(Root Mean Squared Error)は0.8である。
また、実施例1に係るAI開発管理装置は、複数の版について評価結果をグラフ等で可視化する。図1では、各版の精度が実行日時に対応付けて表示される。ここで、精度とは、評価結果のうちの1つであり、例えばmseである。
図2は、他の可視化例を示す図である。図2(a)では、2つの精度が実行日時に対応付けて表示される。図2(b)では、ロス(loss)がエポック数に対応付けて表示される。ここで、ロスは、予測値と正解値の誤差である。また、フロー#1及びフロー#2で表される2つのフロー(版)が表示される。各フローについて、学習時のロス(train loss)と検証及び評価時のロス(val loss)とが表示される。この例では、学習時にも評価が行われる。
ユーザは、グラフ表示から特定の版を選択することで、過去に検証及び評価を行った学習済みMLを再利用することができる。図3は、特定の版の選択例を示す図である。図3では、9/18に1回目のフロー実行が行われ、9/19に2回目のフロー実行が行われている。9/20に実行されたフローのうち最初に実行されたフロー(1番精度が良かったときのフロー)が選択され、選択されたフローが表示される。ユーザは、表示されたフローに基づいて新たなフローを作成して実行することができる。
次に、実施例1に係るAI開発管理装置の機能構成について説明する。図4は、実施例1に係るAI開発管理装置の機能構成を示す図である。図4に示すように、実施例1に係るAI開発管理装置1は、フロントエンド部11と、フローエディタ12と、エディタ13と、フロー実行エンジン14と、版情報記憶部15と、アセット管理部16と、バージョン管理部17とを有する。
フロントエンド部11は、ユーザとの対話に関する処理を行う。例えば、フロントエンド部11は、ユーザからフローの作成指示及び編集指示を受け付けてフローの作成指示及び編集指示をフローエディタ12に渡す。また、フロントエンド部11は、フローエディタ12の指示に基づいてフローの作成画面及び編集画面を表示装置に表示する。
図5は、フローの編集画面の一例を示す図である。図5に示すように、ユーザは、スクリプトと各スクリプトの入出力ファイルを画面に配置し、各スクリプトと入出力ファイルを線で結ぶことによってフローを作成する。入出力ファイルは、データセット、MLモデル、学習済みMLモデル、学習済みMLモデルの評価結果、ハイパーパラメータ等である。
ユーザは、フロー編集画面においてRunボタン20を押下することでフローを実行することができる。ユーザが、Runボタン20を押下すると、フロントエンド部11は、フローエディタ12にRunボタン20の押下を通知する。フローエディタ12は、Runボタン20の押下を通知されると、フロー実行エンジン14にフローの実行を指示する。
また、ユーザは、フロー編集画面からスクリプトの編集や確認と実行履歴の確認を行うことができる。図6は、図5に示したフローの一部を拡大した図である。図6に示すように、スクリプトを示すスクリプトシンボル21には、スクリプト編集ボタン22と実行履歴確認ボタン23が付加される。ユーザは、スクリプト編集ボタン22を押下することによって、スクリプトの編集や確認を行う。
図7は、スクリプト編集画面の一例を示す図である。ユーザがスクリプト編集ボタン22を押下すると図7に示すスクリプト編集画面が表示される。ユーザは、スクリプト編集画面においてスクリプトの編集を行う。フロントエンド部11は、ユーザがスクリプト編集ボタン22を押下するとエディタ13にスクリプトの編集処理を依頼し、スクリプト編集画面でのユーザの操作情報をエディタ13に渡す。また、フロントエンド部11は、エディタ13の出力をスクリプト編集画面に表示する。
スクリプトでは、ユーザはログを取りたい変数を指定する。図7では、一例として、ハイパーパラメータのバッチサイズ(batch_sizu)がログとして取られる。
図8は、実行履歴の表示画面の一例を示す図である。ユーザが実行履歴確認ボタン23を押下すると図8に示す実行履歴の表示画面に遷移する。図8に示すように、実行履歴の表示画面には、実行履歴を示す表31と評価結果を示すグラフ32が表示される。
実行履歴を示す表31には、RUN−INFOと、DATASETと、SOURCEと、PARAMETERと、METRICSとが含まれる。RUN−INFOは、実行を識別する情報である。RUN−INFOには、RUN−IDとSTART−TIMEが含まれる。RUN−IDは、実行を識別する識別子である。START−TIMEは、実行開始時刻である。
DATASETは、入力されたデータセットのファイル名である。SOURCEは、スクリプトのファイル名である。PARAMETERは、ハイパーパラメータとデータセットの編集パラメータである。データセットの編集パラメータには、例えば、外れ値を除外するか否か、空白を0埋めするか否か、画像編集関連のパラメータ、音声のフーリエ変換関連のパラメータがある。METRICSは、評価結果である。
例えば、「1f830d」で識別されるフロー実行は、「2:24:52」に開始され、「aaa.bbb」がデータセットのファイルとして用いられ、「ddd.eee」がスクリプトのファイルとして用いられた。また、ハイパーパラメータとしては「alpha=0.5」、「l1_ratio=0.5」が用いられ、評価結果として「mae(Mean Absolute Error)=0.321」、「rmse=0.558」が得られた。
ユーザは、実行履歴の表示画面から版を選択することで以前の版に戻すことができる。図9は、版の選択を示す図である。図9に示すように、ユーザは、実行履歴を示す表31の特定の行を例えばマウスクリックにより選択することで、特定の版に戻すことができる。あるいは、ユーザは、評価結果を示すグラフ32の特定の値を例えばマウスクリックにより選択することで、特定の版に戻すことができる。
ユーザにより特定の版が選択されると、フロントエンド部11は、ユーザの操作情報をアセット管理部16に渡す。また、フロントエンド部11は、アセット管理部16の処理に基づいて、選択された版のフローを表示する。図10は、選択された版のフローを表示する画面の例を示す図である。ユーザは、表示された画面から改めてフローやスクリプトの編集を行うことができる。
図4に戻って、フローエディタ12は、フロー編集画面でのユーザの操作に基づいてフローを編集する処理を行い、編集したフローの情報を版情報記憶部15に格納する。また、フローエディタ12は、アセット管理部16により版情報記憶部15の情報が入れ替えられた場合に、入れ替えられた情報に基づいてフロー図をフロントエンド部11に表示させる。
エディタ13は、スクリプト編集画面でのユーザの操作に基づいてスクリプトを編集する処理を行い、編集したスクリプトの情報を版情報記憶部15に格納する。
フロー実行エンジン14は、フローを実行し、前処理と、モデル定義と、学習と、検証及び評価とを行う。フロー実行エンジン14は、スクリプトにおいてログ取得対象として指定された変数の値を版情報記憶部15に格納する。ログ取得対象には、ハイパーパラメータを含むパラメータ、評価結果等がある。
版情報記憶部15は、実行対象の版に関する情報を記憶する。図11は、版情報記憶部15が記憶する項目の一例を示す図である。図11に示すように、版情報記憶部15は、flowと、dataと、notesと、logとを記憶する。
flowは、フロー図に関する情報である。dataは、データセットの情報である。notesは、スクリプトの情報である。logは、ノート(スクリプト)にログとして記述された情報である。logはノート毎の情報である。例えば、1つのノート「noteA」の情報としては、para、metrics、artifacts、graph−resultがある。
paraは、ハイパーパラメータを含むパラメータの情報である。metricsは、MLモデルの評価結果の情報である。artifactsは、MLモデルの情報である。graph−resultは、評価結果のグラフの情報である。graph−resultには、最初の版から編集中の版までのMLモデルの評価結果が含まれる。
アセット管理部16は、版情報記憶部15が記憶する情報をバージョン管理部17にコミットすることで新たな版の情報としてバージョン管理部17に記憶させる。また、アセット管理部16は、図8に例示した実行履歴の表示画面をフロントエンド部11に表示させる。また、アセット管理部16は、ユーザの版選択に対応して、選択された版の情報をバージョン管理部17から取得し、取得した版の情報で版情報記憶部15が記憶する版の情報を入れ替える。
バージョン管理部17は、版情報記憶部15が記憶する情報を1つの版の学習履歴情報として複数の版の学習履歴情報を記憶し、複数の版の学習履歴情報を管理する。
なお、AI開発管理装置1は、データセット、スクリプト、ログ等をそれぞれ別に版管理し、data、notes、logを版数の情報としてもよい。
また、バージョン管理部17は、版の枝分かれを管理する。図12は、版の枝分かれを説明するための図である。図12において、○内の数字は版数を表す。図12に示すように、版「1」、版「2」、版「3」、版「4」、版「5」の順で開発が行われた後、版「3」に戻され、版「4」とは異なる版が作成されて、バージョン管理部17にコミットされると、版「3」から枝分かれした版「6」が作成される。このように、バージョン管理部17は、版の枝分かれを管理することによって、以前の開発順路に沿った版の情報を記憶する。したがって、ユーザは、過去のいずれの状態にも簡単に状態を戻すことができる。
次に、AI開発管理装置1によるフロー実行処理の手順について説明する。図13は、AI開発管理装置1によるフロー実行処理の手順を示すフローチャートである。図13に示すように、AI開発管理装置1は、ユーザの編集操作に基づいて、フロー、ノートの編集処理を行う(ステップS1)。
そして、AI開発管理装置1は、ユーザによるRunボタン20の押下を受け付け(ステップS2)、フローを実行する(ステップS3)。そして、AI開発管理装置1は、ハイパーパラメータを含むパラメータの情報、MLモデルの評価結果の情報、MLモデルの情報を版情報記憶部15に格納する(ステップS4)。
そして、AI開発管理装置1は、評価結果を版情報記憶部15のgraph_resultに追記し(ステップS5)、バージョン管理部17にコミットする(ステップS6)。
このように、AI開発管理装置1は、版の情報を版情報記憶部15に記憶し、版情報記憶部15の情報をバージョン管理部17にコミットするので、複数の版の情報を管理することができる。
次に、AI開発管理装置1による版変更処理の手順について説明する。図14は、AI開発管理装置1による版変更処理の手順を示すフローチャートである。図14に示すように、AI開発管理装置1は、ユーザが実行履歴確認ボタン23を押下すると、実行履歴を表示する(ステップS11)。
そして、AI開発管理装置1は、ユーザによる版の選択を受け付け(ステップS12)、版を変更する(ステップS13)。版を変更する処理として、AI開発管理装置1は、版情報記憶部15が記憶する情報を選択された版の情報に変更し、選択された版のフロー図を表示する。
このように、AI開発管理装置1が版を変更する処理を行うので、ユーザはAI開発の以前の状態に戻って開発をやり直すことができる。
上述してきたように、実施例1では、バージョン管理部17が、フロー図、データセット、スクリプト、パラメータ、MLモデル、学習済みMLモデル、学習済みMLモデルの評価結果を1つの版の学習履歴情報として複数の版の学習履歴情報を記憶して管理する。そして、フロントエンド部11が、複数の版のうちの1つの版の指定をユーザから受け付けると、アセット管理部16が、指定された版の情報をバージョン管理部から取得して、版情報記憶部の情報を取得した版の情報で入れ替える。そして、フローエディタ12が、入れ替えられた版の情報に基づいてフロー図を表示装置に表示する。したがって、AI開発管理装置1は、以前に行ったアセットの組み合わせの再現を簡単に行うことができる。
また、実施例1では、フロントエンド部11は、アセット管理部16の指示に基づいて、評価結果を示すグラフ32を含む実行履歴の表示画面を表示し、評価結果を示すグラフ32からユーザによる版の指定を受け付ける。したがって、ユーザは、以前の版を簡単に指定することができる。
ところで、上記実施例1では、フロー図を用いてAI開発を行う場合について説明したが、フロー図を用いることなくAI開発を行うこともできる。そこで、実施例2では、フロー図を用いない場合について説明する。
図15は、フロー図を用いないAI開発管理装置のスクリプト編集画面の一例を示す図である。図15に示すように、スクリプト編集画面は、Runボタン26と実行履歴確認ボタン27を有する。ユーザは、Runボタン26を押下することでスクリプトを実行することができる。また、ユーザは、実行履歴確認ボタン27を押下することで実行履歴の確認と以前の開発状態への移動を行うことができる。
図16は、実施例2に係るAI開発管理装置の機能構成を示す図である。図16に示すように、実施例2に係るAI開発管理装置4は、フロントエンド部41と、エディタ43と、実行エンジン44と、版情報記憶部45と、アセット管理部46と、バージョン管理部47とを有する。
フロントエンド部41は、ユーザとの対話に関する処理を行う。具体的には、フロントエンド部41は、ユーザからスクリプト編集依頼を受け付けて、エディタ43にスクリプトの編集処理を依頼し、スクリプト編集画面でのユーザの操作情報をエディタ43に渡す。また、フロントエンド部41は、エディタ43の出力をスクリプト編集画面に表示する。
ユーザが、Runボタン26を押下すると、フロントエンド部41は、実行エンジン44にフローの実行を指示する。ユーザが実行履歴確認ボタン27を押下すると、フロントエンド部41は、図8に示した実行履歴の表示画面を表示するための処理を行うようにアセット管理部46に指示する。
エディタ43は、スクリプト編集画面でのユーザの操作に基づいてスクリプトを編集する処理を行い、編集したスクリプトの情報を版情報記憶部45に格納する。
実行エンジン44は、スクリプトを実行し、前処理と、モデル定義と、学習と、検証及び評価とを行う。実行エンジン44は、スクリプトにおいてログ取得対象として指定された変数の値を版情報記憶部45に格納する。ログ取得対象には、ハイパーパラメータを含むパラメータ、評価結果等がある。
版情報記憶部45は、実行対象の版に関する情報を記憶する。ただし、版情報記憶部45は、実施例1に係る版情報記憶部15と異なり、フロー図の情報は記憶しない。
アセット管理部46は、版情報記憶部45が記憶する情報をバージョン管理部47にコミットすることで新たな版の情報としてバージョン管理部47に記憶させる。また、アセット管理部46は、図8に例示した実行履歴の表示画面をフロントエンド部41に表示させる。また、アセット管理部46は、ユーザの版選択に対応して、選択された版の情報をバージョン管理部47から取得し、取得した版の情報で版情報記憶部45が記憶する版の情報を入れ替える。
バージョン管理部47は、版情報記憶部45が記憶する情報を1つの版の学習履歴情報として複数の版の学習履歴情報を記憶し、複数の版の学習履歴情報を管理する。
上述してきたように、実施例2では、AI開発管理装置4はスクリプト編集画面にRunボタン26と実行履歴確認ボタン27を表示するので、ユーザはフロー図を作成することなくAI開発を行うことができる。
なお、実施例1及び2では、AI開発管理装置について説明したが、AI開発管理装置が有する構成をソフトウェアによって実現することで、同様の機能を有するAI開発管理プログラムを得ることができる。そこで、AI開発管理プログラムを実行するコンピュータについて説明する。
図17は、実施例1及び2に係るAI開発管理プログラムを実行するコンピュータのハードウェア構成を示す図である。図17に示すように、コンピュータ50は、メインメモリ51と、プロセッサの一例であるCPU(Central Processing Unit)52と、LAN(Local Area Network)インタフェース53と、HDD(Hard Disk Drive)54とを有する。また、コンピュータ50は、スーパーIO(Input Output)55と、DVI(Digital Visual Interface)56と、ODD(Optical Disk Drive)57とを有する。
メインメモリ51は、プログラムやプログラムの実行途中結果等を記憶するメモリである。CPU52は、メインメモリ51からプログラムを読み出して実行する中央処理装置である。CPU52は、メモリコントローラを有するチップセットを含む。
LANインタフェース53は、コンピュータ50をLAN経由で他のコンピュータに接続するためのインタフェースである。HDD54は、プログラムやデータを格納するディスク装置であり、スーパーIO55は、マウスやキーボード等の入力装置を接続するためのインタフェースである。DVI56は、液晶表示装置を接続するインタフェースであり、ODD57は、DVD、CD−Rの読み書きを行う装置である。
LANインタフェース53は、PCIエクスプレス(PCIe)によりCPU52に接続され、HDD54及びODD57は、SATA(Serial Advanced Technology Attachment)によりCPU52に接続される。スーパーIO55は、LPC(Low Pin Count)によりCPU52に接続される。
そして、コンピュータ50において実行されるAI開発管理プログラムは、コンピュータ50により読み出し可能な記録媒体の一例であるCD−Rに記憶され、ODD57によってCD−Rから読み出されてコンピュータ50にインストールされる。あるいは、AI開発管理プログラムは、LANインタフェース53を介して接続された他のコンピュータシステムのデータベース等に記憶され、これらのデータベースから読み出されてコンピュータ50にインストールされる。そして、インストールされたAI開発管理プログラムは、HDD54に記憶され、メインメモリ51に読み出されてCPU52によって実行される。
また、実施例1及び2では、AI開発管理装置について説明したが、AI開発管理装置は、社内に蓄えられたデータやツールの共有を促すデータ利活用システムの一部として機能する。そこで、データ利活用システムについて説明する。
図18は、データ利活用システムの構成を示す図である。図18に示すように、データ利活用システム6は、AI開発管理装置1と、データレイク61と、分析装置62と、準備装置63と、取り込み装置64とを有する。なお、データ利活用システム6は、AI開発管理装置1の代わりにAI開発管理装置4を有してもよい。
データレイク61は、社内に蓄えられたデータやツールのレポジトリーである。データレイク61に蓄えられたデータやツールは社内で共有され、活用される。AI開発管理装置1は、取得部18を有する。取得部18は、データセットをデータレイク61から取得する。
分析装置62は、データレイク61に蓄積されたデータを分析して分析結果を出力する。準備装置63は、データの利用に必要なフォーマットの変換やデータの合成等のデータの利用に必要な準備処理を行う。取り込み装置64は、サイロ化されたデータやオープンデータをデータレイク61に取り込む。
また、AI開発管理装置1は、複数のAI開発プロジェクトについて、アセット管理を行う。このため、版情報記憶部15は複数のプロジェクトの情報を記憶し、バージョン管理部17は、複数のプロジェクトの情報を記憶して管理する。各プロジェクトは、データセットをデータレイク61からコピーして利用する。このとき、複数のプロジェクトで同じデータを利用する場合がある。
図19は、同じデータの利用を説明するための図である。図19では、プロジェクトAとプロジェクトBが同じデータを利用する。この場合、版情報記憶部15とバージョン管理部17は同じデータを複数記憶するため、無駄が生じる。このような無駄をなくすため、データ利活用システム6は、データセットを管理するデータ版管理装置を有してもよい。
図20は、データ版管理装置を説明するための図である。図20に示すように、データ版管理装置65は、AI開発管理装置1が利用するデータをデータレイク61からスナップショットとして取り出して管理する。AI開発管理装置1がデータレイク61に対してデータの読み出しを指示すると、読み出し指示はデータ版管理装置65に送信される。
データ版管理装置65は、読み出し指示されたデータが自装置にキャッシュされていれば、AI開発管理装置1にデータに対応する版の情報をデータとともに送信する。一方、読み出し指示されたデータが自装置にキャッシュされていなければ、データ版管理装置65は、データレイク61からデータを読み出して、データをキャッシュする。そして、データ版管理装置65は、キャッシュしたデータに版を対応付けて版の情報をデータとともにAI開発管理装置1に送信する。また、データ版管理装置65は、AI開発管理装置1からコミット指示を受け取ると、コミットされたデータを新たな版として管理する。AI開発管理装置1は、データを記憶する代わりに版の情報を記憶する。
このように、データ版管理装置65を利用することで、AI開発管理装置1は、同じデータを複数記憶する無駄をなくすことができる。また、AI開発管理装置1は、データレイク61に透過的にアクセスすることができる。
1,4 AI開発管理装置
6 データ利活用システム
11,41 フロントエンド部
12 フローエディタ
13,43 エディタ
14 フロー実行エンジン
15,45 版情報記憶部
16,46 アセット管理部
17,47 バージョン管理部
18 取得部
20,26 Runボタン
21 スクリプトシンボル
22 スクリプト編集ボタン
23,27 実行履歴確認ボタン
31 実行履歴を示す表
32 評価結果を示すグラフ
44 実行エンジン
50 コンピュータ
51 メインメモリ
52 CPU
53 LANインタフェース
54 HDD
55 スーパーIO
56 DVI
57 ODD
61 データレイク
62 分析装置
63 準備装置
64 取り込み装置
65 データ版管理装置

Claims (14)

  1. 学習済み学習モデルの作成及び評価に用いられたデータセットと、該学習済み学習モデル及び該学習済み学習モデルの評価結果とを含めた学習履歴情報を版数管理する版管理部と、
    版数毎の前記学習履歴情報を記憶する記憶部と、
    前記版管理部が管理する複数の版のうちの1つの版の指定を受け付ける受付部と、
    前記受付部により受け付けられた1つの版に含まれる学習履歴情報を前記記憶部から取得して該学習履歴情報を表示装置に出力する出力部と
    を有することを特徴とする情報処理装置。
  2. 前記受付部は、前記複数の版の学習履歴情報を表示装置にグラフ表示させ、該グラフ表示における複数の版のうち1の版のユーザによる選択指示を受け付け、受け付けられた該版の学習履歴情報を表示装置に表示させることを特徴とする請求項1に記載の情報処理装置。
  3. 前記受付部は、前記評価結果に含まれる精度の情報を日付に対応付けて前記複数の版について前記表示装置にグラフ表示させることを特徴とする請求項2に記載の情報処理装置。
  4. 前記受付部は、前記評価結果に含まれる精度の情報をエポック数に対応付けて前記複数の版について前記表示装置にグラフ表示させることを特徴とする請求項2に記載の情報処理装置。
  5. 前記版管理部は、前記学習履歴情報を含むフロー図の情報をさらに管理し、
    前記出力部は、前記フロー図を表示装置に出力することを特徴とする請求項2、3又は4に記載の情報処理装置。
  6. 前記受付部は、前記フロー図において実行履歴の表示が選択されると前記複数の版の学習履歴情報を表示装置にグラフ表示させることを特徴とする請求項5に記載の情報処理装置。
  7. 前記学習モデルの実行の際にデータ蓄積部から前記データセットを取得する取得部をさらに有することを特徴とする請求項1〜4のいずれか1つに記載の情報処理装置。
  8. 前記取得部は、前記データ蓄積部が記憶するデータセットの一部をキャッシュし、キャッシュしたデータセットと該データセットの版の情報とを対応付けて管理を行うデータ版管理装置を介して、前記データセット及び対応付けられた版の情報を取得し、
    前記版管理部は、前記データセットを対応付けられた版の情報を用いて管理することを特徴とする請求項7に記載の情報処理装置。
  9. 学習モデルを使用して学習を実行した学習履歴を管理する学習履歴管理システムであって、
    前記学習モデルの作成及び評価に用いられるデータセットを記憶するデータ蓄積部と、
    学習履歴情報を管理する管理装置と、を備え、
    前記管理装置は、
    前記学習モデルの実行の際に前記データ蓄積部から前記データセットを取得する取得部と、
    学習済み学習モデルの作成及び評価に用いられたデータセットと、該学習済み学習モデル及び該学習済み学習モデルの評価結果とを含めた学習履歴情報を版数管理する版管理部と、
    版数毎の前記学習履歴情報を記憶する記憶部と、
    前記版管理部が管理する複数の版のうちの1つの版の指定を受け付ける受付部と、
    前記受付部により受け付けられた1つの版に含まれる学習履歴情報を前記記憶部から取得して該学習履歴情報を表示装置に出力する出力部と、
    を有することを特徴とする学習履歴管理システム。
  10. 前記受付部は、前記複数の版の学習履歴情報を表示装置にグラフ表示させ、該グラフ表示における複数の版のうち1の版のユーザによる選択指示を受け付け、受け付けられた該版の学習履歴情報を表示装置に表示させることを特徴とする請求項9に記載の学習履歴管理システム。
  11. 前記版管理部は、前記学習履歴情報を含むフロー図の情報をさらに管理し、
    前記出力部は、前記フロー図を表示装置に出力することを特徴とする請求項9又は10に記載の学習履歴管理システム。
  12. コンピュータに、
    学習済み学習モデルの作成及び評価に用いられるデータセットと、該学習済み学習モデル及び該学習済み学習モデルの評価結果とを含めた学習履歴情報を版数毎に記憶部に記憶して管理し、
    前記記憶部が記憶する複数の版のうちの1つの版の指定を受け付け、
    受け付けた1つの版に含まれる学習履歴情報を前記記憶部から取得して該学習履歴情報を表示装置に出力する
    処理を実行させることを特徴とする学習履歴管理プログラム。
  13. 前記1つの版の指定を受け付ける処理は、前記複数の版の学習履歴情報を表示装置にグラフ表示させ、該グラフ表示における複数の版のうち1の版のユーザによる選択指示を受け付け、受け付けられた該版の学習履歴情報を表示装置に表示させることを特徴とする請求項12に記載の学習履歴管理プログラム。
  14. 前記管理する処理は、前記学習履歴情報を含むフロー図の情報をさらに管理し、
    前記出力する処理は、前記フロー図を表示装置に出力することを特徴とする請求項12又は13に記載の学習履歴管理プログラム。
JP2020569299A 2019-01-31 2019-01-31 情報処理装置、学習履歴管理システム及び学習履歴管理プログラム Pending JPWO2020157939A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/003493 WO2020157939A1 (ja) 2019-01-31 2019-01-31 情報処理装置、学習履歴管理システム及び学習履歴管理プログラム

Publications (1)

Publication Number Publication Date
JPWO2020157939A1 true JPWO2020157939A1 (ja) 2021-10-14

Family

ID=71840181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020569299A Pending JPWO2020157939A1 (ja) 2019-01-31 2019-01-31 情報処理装置、学習履歴管理システム及び学習履歴管理プログラム

Country Status (2)

Country Link
JP (1) JPWO2020157939A1 (ja)
WO (1) WO2020157939A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017141517A1 (ja) * 2016-02-17 2017-08-24 ソニー株式会社 情報処理方法および情報処理装置
WO2017175434A1 (ja) * 2016-04-06 2017-10-12 ソニー株式会社 情報処理装置、情報処理方法および情報提供方法
JP2018045679A (ja) * 2016-09-08 2018-03-22 公立大学法人会津大学 携帯端末を用いた察知エージェントシステム、察知エージェントシステムにおける機械学習方法、及びこれを実施するためのプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017141517A1 (ja) * 2016-02-17 2017-08-24 ソニー株式会社 情報処理方法および情報処理装置
WO2017175434A1 (ja) * 2016-04-06 2017-10-12 ソニー株式会社 情報処理装置、情報処理方法および情報提供方法
JP2018045679A (ja) * 2016-09-08 2018-03-22 公立大学法人会津大学 携帯端末を用いた察知エージェントシステム、察知エージェントシステムにおける機械学習方法、及びこれを実施するためのプログラム

Also Published As

Publication number Publication date
WO2020157939A1 (ja) 2020-08-06

Similar Documents

Publication Publication Date Title
US11983098B1 (en) Systems and methods for modeling and generating test requirements for software applications
Herschel et al. A survey on provenance: What for? What form? What from?
US8843883B2 (en) System and method for model-driven dashboard for business performance management
EP2625629B1 (en) Methods and apparatus for integrated management of structured data from various sources and having various formats
US7418453B2 (en) Updating a data warehouse schema based on changes in an observation model
Shankar et al. Operationalizing machine learning: An interview study
JP2019520649A (ja) プロセス視覚化プラットフォーム
US10083263B2 (en) Automatic modeling farmer
Palpanas et al. Integrated model-driven dashboard development
US10969929B2 (en) Dependency graph-controlled object and compute pipeline migration
US8683435B2 (en) System and method for configuring electronic data capture and data management systems for clinical trials
EP4055483A1 (en) Page simulation system
Alla et al. Beginning MLOps with MLFlow
US20170351509A1 (en) Prototype management system
US20210264312A1 (en) Facilitating machine learning using remote data
Zhang et al. Simulation-based optimization of user interfaces for quality-assuring machine learning model predictions
JPWO2020157939A1 (ja) 情報処理装置、学習履歴管理システム及び学習履歴管理プログラム
US11983652B2 (en) Identification of features for prediction of missing attribute values
Yu Getting started with Salesforce Einstein analytics: A Beginner’s guide to building interactive dashboards
Gudmundsdottir et al. A demonstration of interactive analysis of performance measurements with viska
CN109669868A (zh) 软件测试的方法及系统
Purich et al. An Adaptive Benchmark for Modeling User Exploration of Large Datasets
US20240104424A1 (en) Artificial intelligence work center
US20230141506A1 (en) Pre-constructed query recommendations for data analytics
Jadeja et al. Big Data—A New Technology Trend and Factors Affecting the Implementation of Big Data in Australian Industries

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210428

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220322

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220927