JPWO2019059135A1 - 情報処理装置、情報処理システム、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法およびプログラム Download PDF

Info

Publication number
JPWO2019059135A1
JPWO2019059135A1 JP2019543621A JP2019543621A JPWO2019059135A1 JP WO2019059135 A1 JPWO2019059135 A1 JP WO2019059135A1 JP 2019543621 A JP2019543621 A JP 2019543621A JP 2019543621 A JP2019543621 A JP 2019543621A JP WO2019059135 A1 JPWO2019059135 A1 JP WO2019059135A1
Authority
JP
Japan
Prior art keywords
analysis
processing time
information processing
task
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019543621A
Other languages
English (en)
Other versions
JP6777242B2 (ja
Inventor
善行 後藤
善行 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2019059135A1 publication Critical patent/JPWO2019059135A1/ja
Application granted granted Critical
Publication of JP6777242B2 publication Critical patent/JP6777242B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Medical Informatics (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一実施形態に係る情報処理装置は、複数の属性情報を含む分析データにおいて属性情報間の特徴量を算出する算出部と、所定のリソースを用いて分析データに対する分析タスクを実行する際の処理時間を、特徴量から予測する予測部とを備える。

Description

本発明は、情報処理装置、情報処理システム、情報処理方法および記録媒体に関する。
昨今の分析技術として、小売業における商品需要予測などのビッグデータ分析が知られている。ビッグデータ分析では、例えばバスケット問題のように多くの属性間の相関関係を分析する必要があり、処理負荷が非常に高くなる。限られた時間内で分析処理を実行するために、クラウド上のリソースを利用した負荷分散処理が広く行われている。
特許文献1には、複数のサービス(アプリケーション)間で余剰のリソースを配分することができるリソース配分方法が開示されている。このリソース配分方法では、個々のサービスに関し過去の稼動履歴を用いて負荷予測を行い、予測結果に応じて余剰のリソースを個々のサービスに割り当てる。
特開2005−141605号公報
クラウド環境において分析処理を行う際には、処理にかかる時間、必要リソース量などの処理負荷が毎回一定にはならず大きく変動する可能性がある。このため、特許文献1のように過去の稼動履歴を用いて予測を行った場合、処理負荷を精度良く予測することは困難である。
本発明は、上述の問題に鑑みてなされたものであって、処理負荷を精度良く予測することが可能な情報処理装置、情報処理方法および記録媒体を提供することを目的とする。
本発明の一観点によれば、複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出する算出部と、所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測する予測部とを備えることを特徴とする情報処理装置が提供される。
本発明の他の観点によれば、複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを備えることを特徴とする情報処理方法が提供される。
本発明の他の観点によれば、コンピュータに、複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを実行させることを特徴とするプログラムが記録された記録媒体が提供される。
本発明によれば、処理負荷を精度良く予測することが可能な情報処理装置、情報処理方法および記録媒体が提供される。
第1実施形態に係る分析システムの全体構成を示すブロック図である。 第1実施形態に係るリソース最適化装置のハードウェア構成を示すブロック図である。 第1実施形態に係る売上データの一例である。 第1実施形態に係る分析タスクテーブルの一例である。 第1実施形態に係る分析システムの動作を表すフローチャートである。 第1実施形態に係る過去の処理結果の一例である。 第1実施形態に係るリソース最適化装置の動作を表すフローチャートである。 第1実施形態に係る処理時間係数の一例である。 第1実施形態に係る現在の処理結果の一例である。 第2実施形態に係るリソース最適化装置の概略構成図である。
[第1実施形態]
図1は、第1実施形態に係る分析システムの全体構成を示すブロック図である。本実施形態に係る分析システムは、いわゆるビッグデータ分析を行うための情報処理システムである。以下、クラウド上のリソースを利用して、大量の分析処理をバッチ処理により毎日実行する例を説明する。分析システムは、分析クライアント100、キュー110、ワーカインスタンス120、分析結果DB(Database)130、リソース最適化装置140を備える。リソース最適化装置140は、本発明による情報処理装置の一実施形態である。
分析クライアント100は、例えばパーソナルコンピュータなどの端末装置であって、不図示のネットワークを介して店舗DB150と接続される。店舗DB150は、店舗毎に設けられたデータベースであって、その数は限定されない。店舗DB150は、例えば店舗の営業終了後に毎日更新される。分析クライアント100は、毎日所定の時刻になるとデータ分析用のバッチ処理を実行する。
バッチ処理において、まず分析クライアント100は、1または複数の店舗DB150から売上データを収集する。売上データには、店舗で販売されている各商品についての売上情報が含まれる。分析クライアント100は、収集された売上データを分析するための複数の分析タスクを生成し、これらの分析タスクをキュー110に登録する。
キュー110は、分析クライアント100と接続された記憶装置であって、分析クライアント100からの分析タスクを一時的に記憶する。キュー110は、例えばVPN(Virtual Private Network)を介してクラウド環境に接続され、FIFO(First In First Out)方式で分析タスクをワーカインスタンス120のいずれかに順次出力する。これにより、分析タスクは、ワーカインスタンス120により順次実行される。キュー110は、分析クライアント100と一体に設けられていてもよく、またクラウド上に設けられていてもよい。
ワーカインスタンス120は、クラウド上に配置される仮想マシン(仮想インスタンス)であって、CPU(Central Processing Unit)、メモリ、ストレージなどを仮想的に備える。ワーカインスタンス120は、売上データに対して分析タスクを実行し、これにより得られた分析結果を分析結果DB130に格納する。分析タスクは、例えば機械学習に関するタスクであって、売上データから抽出された学習データに基づいて、予測モデルを構築するための処理である。分析結果には、構築された予測モデルの他、分析タスクの処理に要した処理時間などが含まれる。
分析結果DB130は、例えばハードディスクなどの大容量の記憶装置であって、キュー110と同様にVPNを介してクラウド環境に接続される。分析結果DB130には、ワーカインスタンス120からの分析結果、リソース最適化装置140で算出されたデータなどが蓄積される。分析結果DB130に蓄積されたデータは、分析クライアント100により取得され得る。分析結果DB130は、分析クライアント100と一体に設けられていてもよい。
リソース最適化装置140は、特徴量算出部141、性能算出部142、処理負荷予測部143、インスタンス制御部144を備える。特徴量算出部141は、キュー110に登録されている分析タスクに基づいて売上データに関する特徴量を算出する。特徴量は、例えば売上データに含まれる属性情報間の共分散、相関係数などであり得る。算出された特徴量は、分析結果DB130に格納される。
性能算出部142は、分析結果DB130から取得された特徴量と過去の処理時間に基づき、処理負荷を予測する際に用いられるパラメータとして、分析タスク毎に処理時間係数および性能係数を算出する。処理時間係数は、過去のバッチ処理において実際に得られた処理時間と特徴量との関係性を表す。特徴量として共分散を用いた場合、処理時間係数は、以下の式(1)により算出される。
Figure 2019059135
ここで、添字のiは分析実行日を表す。平均処理時間および平均共分散は、所定の期間(例えば直近の1ヶ月間など)における処理時間および共分散の平均をそれぞれ表す。
また、性能係数は、過去と比較した現在のワーカインスタンス120の処理性能を表し、過去の(すなわち前日までの)バッチ処理で得られた処理時間と、現在の(すなわち本日の)バッチ処理でこれまでに得られた処理時間との比較により推定される。具体的には、性能係数は、以下の式(2)により算出される。
Figure 2019059135
ここで、nは、バッチ処理で生成される分析タスクの数を表し、実行済タスクは、n個の分析タスクのうち、現在のバッチ処理において既に実行された分析タスクを表す。
処理負荷予測部143は、キュー110に残っている未実行の分析タスク(残タスク)のリストをキュー110から取得するとともに、性能算出部142から分析タスクごとの処理時間係数および性能係数を取得する。また、処理負荷予測部143は、性能算出部142を介してまたは直接に、分析結果DB130から分析タスクごとの過去の平均共分散および現在の共分散を取得する。処理負荷予測部143は、以下の式(3)、(4)を用いて、各残タスクの予測処理時間と、リストに含まれるすべての残タスクの合計の予測処理時間(予測合計処理時間)を算出する。
Figure 2019059135
Figure 2019059135
ここで、nは、残タスクの数を表す。
さらに、処理負荷予測部143は、以下の式(5)を用いて、バッチ処理の終了刻限までにすべての残タスクを実行するために必要となるワーカインスタンス120の数(必要インスタンス数)を算出する。
Figure 2019059135
式(5)において、必要インスタンス数は整数値に切り上げられる。
インスタンス制御部144は、処理負荷予測部143から入力された必要インスタンス数に応じて、ワーカインスタンス120の数を調整する。例えば、インスタンス制御部144は、ワーカインスタンス120を管理するクラウド上のホストサーバに対してインスタンス作成要求および削除要求を送信することにより、ワーカインスタンス120の数を増減させることができる。
図2は、本実施形態に係るリソース最適化装置のハードウェア構成を示すブロック図である。リソース最適化装置140は、CPU201、RAM(Random Access Memory)202、ROM(Read Only Memory)203、記憶装置204、通信I/F(Interface)205を備える。
CPU201は、ROM203、記憶装置204に記憶されたプログラムに従って所定の動作を行うとともに、リソース最適化装置140の各部を制御する機能を有する。また、CPU201は、特徴量算出部141、性能算出部142、処理負荷予測部143、インスタンス制御部144の機能を実現するプログラムを実行する。
RAM202は、揮発性メモリから構成され、CPU201の動作に必要なメモリ領域を提供する。ROM203は、不揮発性メモリから構成され、リソース最適化装置140を動作させるために必要なプログラム、データなどを記憶する。記憶装置204は、例えばフラッシュメモリ、SSD(Solid State Drive)、HDD(Hard Disk Drive)などである。
通信I/F(Interface)205は、イーサネット(登録商標)、Wi−Fi(登録商標)などの規格に基づくネットワークインターフェースであり、キュー110、ワーカインスタンス120、分析結果DB130などの外部装置との通信を行うためのモジュールである。
なお、図2に示されているハードウェア構成は例示であり、これら以外の装置が追加されていてもよく、一部の装置が設けられていなくてもよい。例えば、一部の機能がネットワークを介して他の装置により提供されてもよく、本実施形態を構成する機能が複数の装置に分散されて実現されるものであってもよい。
図3は、本実施形態に係る売上データの一例である。売上データ300は、分析対象となる分析データであって、複数の属性310について属性情報320を含む。属性310としては、例えば店舗ID、商品ID、日付、最高気温、最低気温、販売数などが挙げられる。属性310として、曜日、降水量、日照時間、積雪量、湿度、雲量、気圧、地域などが用いられてもよい。
店舗IDは、商品が販売される店舗の名称または識別番号である。商品IDは、販売される商品の名称または識別番号である。日付は商品の販売日であり、最高気温および最低気温は、販売日における観測値である。販売数は、販売日に販売された商品の数である。なお、図3の例では、異なる日付の売上データが1つのテーブル内にまとめられているが、本実施形態のようにバッチ処理が毎日実行される場合には、日付ごとの売上データ300が作成され得る。
図4は、本実施形態に係る分析タスクテーブルの一例である。分析タスクテーブル400には、複数の分析タスク410がレコードとして定義されている。分析タスク410の数は、例えば10000程度であり得る。各分析タスク410は、タスクID、データ抽出式、サンプル数、属性数のフィールドを有する。
タスクIDは、分析タスク410の名称または識別番号である。データ抽出式は、売上データ300の中から分析対象となるデータ(レコード)を抽出するためのクエリであって、SQL(Structured Query Language)などにより記述される。各分析タスク410のデータ抽出式は同様であって、店舗IDと商品IDごとに同一の属性データを抽出する。サンプル数は、データ抽出式により抽出されるレコードの数であり、属性数は、データ抽出式により抽出されるレコードに含まれる属性310の数である。属性数は、例えば10以上であってもよく、また、分析タスク410ごとに異なっていてもよい。
図5は、本実施形態に係る分析システムの動作を表すフローチャートである。分析システムは、毎日開始時刻になるとバッチ処理を開始する。開始時刻は、例えば店舗の営業終了後の午後10時である。まず、分析クライアント100は、各店舗DB150から売上データ(図3参照)を取得する(ステップS501)。例えば、本日を6月8日とすると、6月8日の売上データが取得される。
続いて、分析クライアント100は、取得された売上データに基づいて複数の分析タスクを生成する(ステップS502)。分析タスクは、分析タスクテーブル(図4参照)に定義されており、通常、毎日同一のものが生成される。生成された分析タスクは、分析クライアント100からキュー110に送信される。
特徴量算出部141は、分析タスクに関する情報をキュー110から取得し、分析タスク毎に、分析対象となるデータの属性間の特徴量を算出する(ステップS503)。例えば、図3に示すような売上データ300において、最高気温と最低気温の共分散を特徴量として算出する。算出された共分散は、分析結果に含められて分析結果DB130に格納される。
キュー110は、分析クライアント100からの分析タスクを一時的に記憶するとともに、分析タスクの実行が完了したワーカインスタンス120、または新たに追加されたワーカインスタンス120に対して、分析タスクを1つずつ割り当てる(ステップS504)。ワーカインスタンス120の数は、終了刻限(例えば翌日の午前6時)までにすべての分析タスクが完了するように、リソース最適化装置140により適切に調整される。
ワーカインスタンス120は、割り当てられた分析タスクを実行し、売上データの分析結果を分析結果DB130に格納する(ステップS505)。分析結果には、図6に示すように、タスクID、分析日、共分散、処理時間、予測式が含まれ得る。なお、図6の例では、6月5日から6月7日までの予測式が同一であるが、これはあくまで例示であって、予測式は日付によって変化し得る。
タスクIDは、ワーカインスタンス120が実行した分析タスクの名称または識別番号である。分析日は、分析タスクが実行された日付である。共分散は、売上データにおける最高気温と最低気温から算出される特徴量である。処理時間は、分析タスクの実行に要した時間であって、例えば秒単位で表される。予測式は、売上データの属性間の関係を表す予測モデルであって、分析タスクを実行することにより得られる。予測式は、図6に示す単回帰式の他、複数の属性310を変数とする重回帰式などであり得る。
なお、本実施形態では、ワーカインスタンス120による分析タスクの実行過程において共分散が算出されるため、特徴量算出部141による特徴量算出処理(ステップS503)を省略することができる。
次に、キュー110は、残タスクがあるか否かを判断する(ステップS506)。すなわち、キュー110は、分析クライアント100から受信された複数の分析タスクのうち、ワーカインスタンス120に割り当てられていない未実行の分析タスクがキュー110に残っているか否かを判断する。
残タスクがある場合(ステップS506でYES)、キュー110は、ステップS504に戻り、残タスクをワーカインスタンス120に割り当てる。残タスクがない場合(ステップS506でNO)、分析システムは、バッチ処理を終了する。
図7は、本実施形態に係るリソース最適化装置の動作を表すフローチャートである。バッチ処理が開始されると、特徴量算出部141は、分析結果DB130から図6に示すような過去の分析結果を取得する。例えば、本日が6月8日である場合、直近の3日間(すなわち6月5日から6月7日まで)の分析結果が取得される。ここで取得される分析結果の期間は限定されず、例えば1週間、1ヶ月、3ヶ月、半年、1年などであり得る。
特徴量算出部141は、過去の分析結果に基づき、上述の式(1)を用いて処理時間係数を算出する(ステップS701)。算出された処理時間係数の一例を図8に示す。例えば、図6の分析結果において6月5日から6月7日までの平均を取ると、タスクA_Aの平均処理時間は、(75+100+125)/3=100[秒]、タスクA_Aの平均共分散は、(5.25+6.25+7.25)/3=6.25と算出される。よって、タスクA_Aの処理時間係数は、前日(6月7日)の共分散と処理時間を用いて、(125−100)/(7.25−6.25)=25となる。他の分析タスクの処理時間係数についても同様に算出される。
性能算出部142は、一定時間ごとに分析結果DB130にアクセスし、現在のバッチ処理に関する分析結果が格納されている場合、当該分析結果を分析結果DB130から取得する。換言すれば、本日のバッチ処理において、現時点で既に実行済の分析タスクの分析結果が取得される。性能算出部142は、取得された処理時間と、特徴量算出部141で算出された平均処理時間に基づき、上述の式(2)を用いて性能係数を算出する(ステップS702)。すなわち、実行済の分析タスクごとに今回の処理時間と過去の平均処理時間との比率が算出され、実行済のすべての分析タスクについての該比率の平均値を性能係数とする。
例えば、本日(6月8日)のバッチ処理において図9に示すような分析結果がこれまでに得られているものとする。つまり、バッチ処理で実行される複数の分析タスクのうち、タスクA_AとタスクA_Bが実行済であるものとする。この場合、性能係数は、以下のように算出される。
Figure 2019059135
処理負荷予測部143は、性能算出部142から得られた各分析タスクの平均処理時間および性能係数と、特徴量算出部141から得られた残タスクに関する共分散に基づいて、残タスクの実行にかかる合計の処理時間を予測する(ステップS703)。合計の処理時間は、上述の式(3)、(4)を用いて予測される。
例えば、説明を簡単にするために、残タスクには、タスクA_CとタスクA_Dのみが含まれるものとし、これらの分析タスクに関して特徴量算出部141で算出された共分散をいずれも10とする。この場合、タスクA_Cの予想処理時間は、{300+(10−15)×10}×1.2=300[秒]、タスクA_Dの予想処理時間は、{400+(10−10)×15}×1.2=480[秒]と算出される。よって、予想合計処理時間は、300+480=780[秒]となる。
続いて、処理負荷予測部143は、算出された予想合計処理時間と現在の時刻とに基づき、上述の式(5)を用いて、必要インスタンス数を算出する(ステップS704)。例えば、現在の時刻から終了刻限までの時間が100秒であり、予想合計処理時間が上述のように780秒であるものとすると、必要インスタンス数は、780/100=7.8の結果を整数値に切り上げて、8[個]となる。
インスタンス制御部144は、現在配置されているワーカインスタンス120の数(現在数)を、処理負荷予測部143から得られた必要インスタンス数(必要数)と比較する(ステップS705、S707)。現在数が必要数よりも多い場合(ステップS705でYES)、すなわちワーカインスタンス120の数が余剰である場合には、インスタンス制御部144は、ワーカインスタンス120を必要数に応じて削減する(ステップS706)。
現在数が必要数よりも少ない場合(ステップS705でNOかつステップS707でYES)、すなわちワーカインスタンス120の数が不足している場合には、インスタンス制御部144は、ワーカインスタンス120を必要数に応じて追加する(ステップS708)。現在数と必要数が同一である場合(ステップS705でNOかつステップS707でNO)、インスタンス制御部144は、ワーカインスタンス120の数を調整しない。
処理負荷予測部143は、キュー110から取得された残タスクリストに基づいて、キュー110内に残タスクがあるか否かを判断する(ステップS709)。残タスクがある場合(ステップS709でYES)、性能係数算出処理(ステップS702)以降の処理が繰り返される。残タスクがない場合(ステップS709でNO)、リソース最適化装置140は、処理を終了する。
このように本実施形態では、分析データに含まれる属性についての特徴量を算出し、特徴量と実際の処理時間との関係性に基づいて、特徴量から処理時間を予測する。一般に、機械学習においては分析データの属性間の相関はNP(Non-deterministic Polynomial time)問題であり、データ量から分析にかかる処理負荷を予測することは困難である。これに対し、本実施形態によれば、特徴量を用いることで処理負荷を精度良く予測することが可能となる。
また、本実施形態では、属性の数が分析データのデータ数に対して非常に少ないことから、特徴量の算出にかかる計算量が抑制され、処理負荷の予測を効率良く行うことが可能となる。さらに、処理負荷の予測結果に基づいて動的にリソースを最適化するように分析システムを構成することにより、限られた時間内に最小限のリソース量で分析処理を完了することが可能となる。
[第2実施形態]
図10は、第2実施形態に係る情報処理装置の概略構成図である。情報処理装置1000は、算出部1001、予測部1002を備える。算出部1001は、複数の属性情報を含む分析データにおいて属性情報間の特徴量を算出する。予測部1002は、所定のリソースを用いて分析データに対する分析タスクを実行する際の処理時間を特徴量から予測する。
[変形実施形態]
本発明は、上述の実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲において適宜変更可能である。例えば、特徴量と処理時間との関係性を表す式は、上述の式(1)に限られない。該関係性を、処理時間が属性間の相関係数の絶対値に反比例する式として表すことも可能である。また、特徴量として異なる属性間についての複数種類の共分散を組み合せて用いることも可能である。
また、上述の実施形態では、バッチ処理が日次実行されるものとしたが、バッチ処理は周期的に実行されるものであればよい。すなわち、ヒストリカルに取得される同様の形式の分析データに対して、同様の分析タスクを繰り返し実行するものであればよい。
また、上述の実施形態では、ワーカインスタンス120の性能を同一とし、予測された処理時間に応じてワーカインスタンス120の数が制御されていた。これに代えて、ワーカインスタンス120の数を一定とし、ワーカインスタンス120のCPUの性能、メモリサイズ、ストレージサイズなどが調整されてもよい。
上述の実施形態の機能を実現するように該実施形態の構成を動作させるプログラム(より具体的には、図5、7に示す処理をコンピュータに実行させるプログラム)を記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
該記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。
上述の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出する算出部と、
所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測する予測部とを備えることを特徴とする情報処理装置。
(付記2)
所定の周期毎に、前記分析データが更新されるとともに前記分析タスクが実行され、
前記予測部は、過去の周期における前記特徴量と前記処理時間との関係性に基づいて、現在の周期における前記処理時間を予測することを特徴とする付記1に記載の情報処理装置。
(付記3)
前記周期毎に、異なる複数の前記分析タスクが順次実行され、
前記予測部は、現在の周期において、実行済の前記分析タスクの処理時間に基づいて未実行の前記分析タスクの処理時間を予測することを特徴とする付記2に記載の情報処理装置。
(付記4)
前記特徴量は共分散であり、前記処理時間は共分散に比例することを特徴とする付記3に記載の情報処理装置。
(付記5)
前記分析タスクは、前記属性情報を用いた予測モデルを構築するための機械学習であることを特徴とする付記1乃至4のいずれかに記載の情報処理装置。
(付記6)
予測された前記処理時間に基づいて、前記分析タスクを実行するためのリソースの量を制御する制御部を備えることを特徴とする付記1乃至5のいずれかに記載の情報処理装置。
(付記7)
前記リソースは、ネットワーク上に配置された仮想インスタンスであることを特徴とする付記6に記載の情報処理装置。
(付記8)
付記6または7に記載の情報処理装置と、
前記分析データを取得するとともに、前記リソースを用いて前記分析タスクを実行させる端末装置とを備えることを特徴とする情報処理システム。
(付記9)
複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、
所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを備えることを特徴とする情報処理方法。
(付記10)
コンピュータに、
複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、
所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを実行させることを特徴とするプログラムが記録された記録媒体。
この出願は、2017年9月20日に出願された日本出願特願2017−179960を基礎とする優先権を主張し、その開示のすべてをここに取り込む。
本発明は、情報処理装置、情報処理システム、情報処理方法およびプログラムに関する。

Claims (10)

  1. 複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出する算出部と、
    所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測する予測部とを備えることを特徴とする情報処理装置。
  2. 所定の周期毎に、前記分析データが更新されるとともに前記分析タスクが実行され、
    前記予測部は、過去の周期における前記特徴量と前記処理時間との関係性に基づいて、現在の周期における前記処理時間を予測することを特徴とする請求項1に記載の情報処理装置。
  3. 前記周期毎に、異なる複数の前記分析タスクが順次実行され、
    前記予測部は、現在の周期において、実行済の前記分析タスクの前記処理時間に基づいて未実行の前記分析タスクの前記処理時間を予測することを特徴とする請求項2に記載の情報処理装置。
  4. 前記特徴量は共分散であり、前記処理時間は共分散に比例することを特徴とする請求項3に記載の情報処理装置。
  5. 前記分析タスクは、前記属性情報を用いた予測モデルを構築するための機械学習であることを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 予測された前記処理時間に基づいて、前記分析タスクを実行するためのリソースの量を制御する制御部を備えることを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記リソースは、ネットワーク上に配置された仮想インスタンスであることを特徴とする請求項6に記載の情報処理装置。
  8. 請求項6または7に記載の情報処理装置と、
    前記分析データを取得するとともに、前記リソースを用いて前記分析タスクを実行させる端末装置とを備えることを特徴とする情報処理システム。
  9. 複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、
    所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを備えることを特徴とする情報処理方法。
  10. コンピュータに、
    複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、
    所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを実行させることを特徴とするプログラムが記録された記録媒体。
JP2019543621A 2017-09-20 2018-09-14 情報処理装置、情報処理システム、情報処理方法およびプログラム Active JP6777242B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017179960 2017-09-20
JP2017179960 2017-09-20
PCT/JP2018/034287 WO2019059135A1 (ja) 2017-09-20 2018-09-14 情報処理装置、情報処理システム、情報処理方法および記録媒体

Publications (2)

Publication Number Publication Date
JPWO2019059135A1 true JPWO2019059135A1 (ja) 2020-04-16
JP6777242B2 JP6777242B2 (ja) 2020-10-28

Family

ID=65809833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019543621A Active JP6777242B2 (ja) 2017-09-20 2018-09-14 情報処理装置、情報処理システム、情報処理方法およびプログラム

Country Status (3)

Country Link
US (1) US20200234149A1 (ja)
JP (1) JP6777242B2 (ja)
WO (1) WO2019059135A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052082B (zh) * 2020-09-01 2024-04-19 深圳市卡数科技有限公司 任务属性优化方法、装置、服务器及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049504A (ja) * 1996-08-02 1998-02-20 Mitsubishi Electric Corp 負荷分散バッチシステム
JP2015005191A (ja) * 2013-06-21 2015-01-08 株式会社日立製作所 バッチ性能予測及び対策支援方法及びシステム
JP2015014847A (ja) * 2013-07-03 2015-01-22 株式会社日立システムズ 設計支援システム、設計支援方法、およびプログラム
JP2015184879A (ja) * 2014-03-24 2015-10-22 株式会社野村総合研究所 基盤運用管理システムおよび基盤運用管理方法
JP2017162059A (ja) * 2016-03-08 2017-09-14 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049504A (ja) * 1996-08-02 1998-02-20 Mitsubishi Electric Corp 負荷分散バッチシステム
JP2015005191A (ja) * 2013-06-21 2015-01-08 株式会社日立製作所 バッチ性能予測及び対策支援方法及びシステム
JP2015014847A (ja) * 2013-07-03 2015-01-22 株式会社日立システムズ 設計支援システム、設計支援方法、およびプログラム
JP2015184879A (ja) * 2014-03-24 2015-10-22 株式会社野村総合研究所 基盤運用管理システムおよび基盤運用管理方法
JP2017162059A (ja) * 2016-03-08 2017-09-14 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム

Also Published As

Publication number Publication date
JP6777242B2 (ja) 2020-10-28
WO2019059135A1 (ja) 2019-03-28
US20200234149A1 (en) 2020-07-23

Similar Documents

Publication Publication Date Title
US8909644B2 (en) Real-time adaptive binning
JP5471400B2 (ja) ジョブ分析プログラム及び方法、並びにジョブ分析装置
JP2001527235A (ja) 並列処理システムの機能を解析する方法
US10248618B1 (en) Scheduling snapshots
CN113537850A (zh) 仓储优化方法、装置、计算机设备和存储介质
US10313261B1 (en) Tenant assignment system
JP6777242B2 (ja) 情報処理装置、情報処理システム、情報処理方法およびプログラム
JP6983115B2 (ja) 物流予測システム及び予測方法
Park et al. Queue congestion prediction for large-scale high performance computing systems using a hidden Markov model
US10817401B1 (en) System and method for job-to-queue performance ranking and resource matching
JP5793259B1 (ja) 情報処理装置、流量制御パラメータ算出方法、およびプログラム
JP6697082B2 (ja) 需要予測方法、需要予測システム及びそのプログラム
EP4113313A1 (en) Control method, information processing device, and control program
JP5515117B2 (ja) データ処理装置
JP2015108877A (ja) 予測時間分布生成装置、制御方法、及びプログラム
JP6753521B2 (ja) 計算資源管理装置、計算資源管理方法、及びプログラム
Rumi et al. Optimization techniques within the hadoop eco-system: A survey
JP2015106164A (ja) 情報処理装置、情報処理方法、及び、プログラム
Salih et al. Model-based resource utilization and performance risk prediction using machine learning Techniques
JP7119484B2 (ja) 情報集約装置、情報集約方法、及び、プログラム
JP6679445B2 (ja) 情報処理装置、情報処理システム、情報処理プログラムおよび情報処理方法
US20180239640A1 (en) Distributed data processing system, and distributed data processing method
JP7302439B2 (ja) システム分析方法、およびシステム分析プログラム
Nabeshima et al. Coverage-based clause reduction heuristics for cdcl solvers
US20220366462A1 (en) Recommendation system, and product recommendation method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191211

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200921

R150 Certificate of patent or registration of utility model

Ref document number: 6777242

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150