WO2021187268A1

WO2021187268A1 - 機械学習装置、数値制御システム、設定装置、数値制御装置、及び機械学習方法

Info

Publication number: WO2021187268A1
Application number: PCT/JP2021/009488
Authority: WO
Inventors: 佳之鈴木
Original assignee: ファナック株式会社
Priority date: 2020-03-17
Filing date: 2021-03-10
Publication date: 2021-09-23
Also published as: JPWO2021187268A1; DE112021001677T5; CN115280252A; JP7436632B2; US20230083761A1

Abstract

オペレータの手間を増やすことなく、加工プログラムを最適化すること。　機械学習装置は、加工プログラムで工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置であって、少なくとも１回分の切り込み量及び切削速度が設定された加工プログラムを実行することで、工作機械に切削加工を行わせることで、１回分の切り込み量及び切削速度を含む状態情報を取得する状態情報取得部と、状態情報に含まれる１回分の切り込み量及び切削速度の調整情報を含む行動情報を出力する行動情報出力部と、少なくとも切削加工における工具にかかる圧力の強さと、工具にかかる圧力の波形の形状と、加工に要した時間との情報である判定情報を取得し、取得した判定情報に基づいて、所定の条件に応じた強化学習における報酬値を出力する報酬計算部と、報酬値と、状態情報と、行動情報とに基づいて価値関数を更新する価値関数更新部と、を備える。

Description

機械学習装置、数値制御システム、設定装置、数値制御装置、及び機械学習方法

　本発明は、機械学習装置、数値制御システム、設定装置、数値制御装置、及び機械学習方法に関する。

　もみつけ、タッピング、ボーリング、旋削サイクル等の固定サイクルにおける１回分の切り込み量及び切削速度は、ワークや工具の材質、形状を主要因とし、試験加工等を繰り返し行うことにより、オペレータが経験的に決定する。
　この点、加工条件データ、切削条件データ、加工結果データ、工具データを含む状態変数に基づくクラスタ分析により作成されたクラストを学習済みモデルとして用い、新たに入力された加工条件、切削条件、及び加工結果に基づいて適切な工具を判定し、判定した工具のクラスタにおける指定された好結果を保てる範囲で切削速度の最大値を判定する技術が知られている。例えば、特許文献１参照。

特開２０１９－１８８５５８号公報

　例えば、変種変量生産の現場では、（１）或る加工プログラムを別の機械に使いまわす、（２）或る加工プログラムの形状を少しだけ修正した別の加工プログラムを作成して加工する、（３）或る加工プログラムをワークの材質を変更して加工する等のような状況が頻繁に発生する。
　このような状況下において、オペレータは１つ１つの加工プログラムを経験に基づいて最適化する時間的余裕がない。よって、加工プログラムや切削条件を十分に最適化せず、加工を行わざるを得ない場合がある。この場合、例えば、どのような変更を行っても安全に加工を行うため、切削速度を過度に落としていることがある。それによりサイクルタイムが落ち、生産効率が下がっているケースが考えられる。

　そこで、オペレータの手間を増やすことなく、加工プログラムを最適化することが望まれている。

　（１）本開示の機械学習装置の一態様は、加工プログラムに基づいて工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置であって、少なくとも１回分の切り込み量及び切削速度が設定された前記加工プログラムを前記数値制御装置が実行することで、前記工作機械に切削加工を行わせることにより、前記１回分の切り込み量及び前記切削速度を含む状態情報を、取得する状態情報取得部と、前記状態情報に含まれる前記１回分の切り込み量及び前記切削速度の調整情報を含む行動情報を出力する行動情報出力部と、少なくとも前記切削加工における工具にかかる圧力の強さと、前記工具にかかる前記圧力の波形の形状と、加工に要した時間とについての情報である判定情報を取得し、取得した前記判定情報に基づいて、所定の条件に応じた強化学習における報酬値を出力する報酬計算部２２１と、前記報酬値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新部と、を備える。

　（２）本開示の設定装置の一態様は、（１）の機械学習装置から取得した行動のうち予め設定された閾値に基づいていずれかの行動を選択して、選択した前記行動を前記加工プログラムに設定する。

　（３）本開示の数値制御システムの一態様は、（１）の機械学習装置と、（２）の設定装置と、前記設定装置によって設定された前記加工プログラムを実行する数値制御装置と、を備える。

　（３）本開示の数値制御装置の一態様は、（１）の機械学習装置と、（２）の設定装置と、を含み、前記設定装置によって設定された前記加工プログラムを実行する。

　（４）本開示の数値制御方法の一態様は、加工プログラムに基づいて工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、少なくとも１回分の切り込み量及び切削速度が設定された前記加工プログラムを前記数値制御装置が実行することで、前記工作機械に切削加工を行わせることにより、前記１回分の切り込み量及び前記切削速度を含む状態情報を、取得し、前記状態情報に含まれる前記１回分の切り込み量及び前記切削速度の調整情報を含む行動情報を出力し、少なくとも前記切削加工における工具に係る圧力の強さと、前記工具に係る前記圧力の波形の形状と、加工に要した時間とについての情報である判定情報を取得し、取得した前記判定情報に基づいて、所定の条件に応じた強化学習における報酬値を出力し、前記報酬値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する。

　一態様によれば、オペレータの手間を増やすことなく、加工プログラムを最適化することができる。

第１実施形態に係る数値制御システムの機能的構成例を示す機能ブロック図である。機械学習装置の機能的構成例を示す機能ブロック図である。第１実施形態におけるＱ学習時の機械学習装置の動作を示すフローチャートである。図３においてステップＳ１６で示した報酬計算処理の詳細な処理内容を説明するフローチャートである。最適化行動情報出力部による最適化行動情報の生成時の動作を示すフローチャートである。第２実施形態に係る数値制御システムの機能的構成例を示す機能ブロック図である。機械学習装置の機能的構成例を示す機能ブロック図である。第２実施形態におけるＱ学習時の機械学習装置の動作を示すフローチャートである。数値制御システムの構成の一例を示す図である。数値制御システムの構成の一例を示す図である。

　以下、本開示の第１実施形態について、図面を用いて説明する。ここでは、加工プログラムとして、もみつけやタッピング等の１つの固定サイクルを含み、加工プログラム毎、すなわち１ワーク加工毎に学習する場合を例示する。
　こうすることで、当該固定サイクルで設定された、１回分の切り込み量及び切削速度を当該加工プログラムに対する行動として特定することができる。
＜第１実施形態＞
　図１は、第１実施形態に係る数値制御システムの機能的構成例を示す機能ブロック図である。
　図１に示すように、数値制御システム１は、工作機械１０、及び機械学習装置２０を有する。

　工作機械１０、及び機械学習装置２０は、図示しない接続インタフェースを介して互いに直接接続されてもよい。また、工作機械１０、及び機械学習装置２０は、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）やインターネット等の図示しないネットワークを介して相互に接続されていてもよい。この場合、工作機械１０、及び機械学習装置２０は、かかる接続によって相互に通信を行うための図示しない通信部を備えている。なお、後述するように、数値制御装置１０１は、工作機械１０に含まれるが、工作機械１０と異なる装置でもよい。また、数値制御装置１０１は、機械学習装置２０を含んでもよい。

　工作機械１０は、当業者にとって公知の工作機械であり、数値制御装置１０１を含む。工作機械１０は、数値制御装置１０１からの動作指令に基づいて動作する。

　数値制御装置１０１は、当業者にとって公知の数値制御装置であり、設定装置１１１を含む。数値制御装置１０１は、ＣＡＤ／ＣＡＭ装置等の外部装置（図示しない）から取得した加工プログラムに基づいて動作指令を生成し、生成した動作指令を工作機械１０に送信する。これにより、数値制御装置１０１は、工作機械１０の動作を制御する。そして、数値制御装置１０１は、工作機械１０の動作を制御している間、工作機械１０に含まれる図示しない主軸のスピンドルモータ、及び図示しない送り軸のサーボモータ等のモータにおける回転数、モータ電流値、及びトルクを、予め設定されたサンプリング時間等の所定の時間間隔で工作機械１０から取得してもよい。
　また、数値制御装置１０１は、工作機械１０に含まれる図示しない温度センサ等のセンサにより測定されたモータ温度、機械温度、及び周囲温度等の温度を工作機械１０から取得してもよい。また、数値制御装置１０１は、工作機械１０に含まれる図示しない圧力センサ等のセンサにより測定された図示しない主軸に取付けられた工具にかかる軸方向及び回転方向の圧力を工作機械１０から取得してもよい。また、数値制御装置１０１は、工作機械１０に含まれる図示しないサイクルカウンタ等により測定された工作機械１０が所定の切削加工を行った際の当該加工に要した時間を取得してもよい。
　なお、本実施形態では、上述したように、加工プログラムが１つの固定サイクルしか含まないため、加工に要した時間はサイクルタイムと同等である。

　また、数値制御装置１０１は、例えば、工作機械１０の主軸（図示しない）に取付けられた工具の材質、工具の形状、工具径、工具長、残り工具寿命、加工対象のワークの材質、工具カタログの切削条件等を、後述する機械学習装置２０に出力してもよい。また、数値制御装置１０１は、工作機械１０から取得した主軸回転数、モータ電流値、機械温度、周囲温度、工具にかかる圧力の強さ（軸方向、及び回転方向）、工具にかかる圧力の波形の形状（軸方向、及び回転方向）、送り軸にかかるトルクの強さ、送り軸にかかるトルクの波形の形状、主軸にかかるトルクの強さ、主軸にかかるトルクの波形の形状、及び加工に要した時間を、後述する機械学習装置２０に出力してもよい。

　なお、数値制御装置１０１は、例えば、数値制御装置１０１に含まれるＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等の図示しない記憶部に、工作機械１０の主軸（図示しない）に取付けられるすべての工具を管理する工具管理テーブル（図示しない）を記憶してもよい。そして、数値制御装置１０１は、加工プログラムに設定された工具番号等に基づいて、工具の材質、工具の形状、工具径、工具長、残り工具寿命を工具管理テーブル（図示しない）から取得するようにしてもよい。ここで、残り工具寿命は、例えば、カタログに記載の対応表から求めた耐用時間から得て工具の寿命と見なし、１ワーク毎の加工の使用時間から求められてもよい。そして、工具管理テーブル（図示しない）の残り工具寿命は、求められた値で更新されてもよい。
　また、数値制御装置１０１は、例えば、数値制御装置１０１に含まれるキーボードやタッチパネル等の入力装置（図示しない）を介してオペレータの入力操作により、加工対象のワークの材質、工具カタログの切削条件等を取得するようにしてもよい。
　また、工具にかかる圧力の波形の形状は、工具にかかる圧力の時系列データである。また、送り軸にかかるトルクの波形の形状は、送り軸にかかるトルクの時系列データである。また、主軸にかかるトルクの波形の形状は、主軸に係るトルクの時系列データである。

　設定装置１１１は、後述する機械学習装置２０から取得する行動のうち予め設定された閾値に基づいていずれかの行動を選択して、選択した行動を加工プログラムに設定する。
　具体的には、設定装置１１１は、例えば、工作機械１０で使用中の工具の残り工具寿命と予め設定された閾値（例えば、１０％）とを比較することにより、残り工具寿命が閾値より大きい場合に加工時間を優先する行動を選択し、残り工具寿命が閾値以下の場合に工具寿命を優先する行動を選択する。設定装置１１１は、選択した行動を加工プログラムに設定する。
　なお、設定装置１１１は、ＣＰＵ等の演算処理装置を備える数値制御装置１０１等のコンピュータで構成することができる。
　また、設定装置１１１は、数値制御装置１０１と異なる装置でもよい。

＜機械学習装置２０＞
　機械学習装置２０は、数値制御装置１０１が加工プログラムを実行することで、工作機械１０を動作させたときの、ワーク毎の１回分の切り込み量及び切削速度を強化学習する装置である。

　機械学習装置２０に含まれる各機能ブロックの説明に先立って、まず強化学習として例示するＱ学習の基本的な仕組みについて説明する。ただし、強化学習はＱ学習に限定されない。エージェント（本実施形態における機械学習装置２０に相当）は、環境（本実施形態における工作機械１０及び数値制御装置１０１に相当）の状態を観測し、或る行動を選択し、選択した行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、与えられた報酬に基づいて、エージェントはより良い行動を選択できるよう、学習する。
　教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての得られる報酬の合計を最大にするように学習する。

　このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、変種変量生産の現場において、オペレータの手間を増やすことなく、加工プログラムの固定サイクルを最適化するという、未来に影響をおよぼすような行動を獲得できることを表している。

　ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態ｓの下で、行動ａを選択する価値関数Ｑ（ｓ，ａ）を学習する方法であるＱ学習（Ｑ－ｌｅａｒｎｉｎｇ）を用いる場合を例にとって説明をする。
　Ｑ学習では、或る状態ｓのとき、取り得る行動ａのなかから、価値関数Ｑ（ｓ，ａ）の値が最も高い行動ａを最適な行動として選択することを目的とする。

　しかしながら、Ｑ学習を最初に開始する時点では、状態ｓと行動ａとの組合せについて、価値関数Ｑ（ｓ，ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値関数Ｑ（ｓ，ａ）を学習していく。

　また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（ｓ，ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値関数Ｑ（ｓ，ａ）の更新式は、例えば、次の数１式により表すことができる。

　上記の数１式において、ｓ_ｔは、時刻ｔにおける環境の状態を表し、ａ_ｔは、時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

　上述した数１式は、試行ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を更新する方法を表している。
　この更新式は、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）よりも、行動ａ_ｔによる次の状態ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａ　Ｑ（ｓ_ｔ＋１，ａ）の方が大きければ、Ｑ（ｓ_ｔ，ａ_ｔ）を大きくし、逆に小さければ、Ｑ（ｓ_ｔ，ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る１つ前の状態における行動の価値に伝播していく仕組みになっている。

　ここで、Ｑ学習では、すべての状態行動ペア（ｓ，ａ）についてのＱ（ｓ，ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（ｓ，ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

　そこで、公知のＤＱＮ（Ｄｅｅｐ　Ｑ－Ｎｅｔｗｏｒｋ）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値関数Ｑ（ｓ，ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

　以上説明をしたＱ学習を機械学習装置２０が行う。具体的には、機械学習装置２０は、工作機械１０において設定された工具及びワークに関する情報と、固定サイクルで設定された１回分の切り込み量及び切削速度と、当該加工プログラムを実行することで工作機械１０から取得された測定値と、を状態ｓとして、当該状態ｓに係る当該固定サイクルで設定された１回分の切り込み量及び切削速度の設定、変更を状態ｓに対する行動ａとして選択する価値Ｑを学習する。ここでは、工具及びワークに関する情報として、工具の材質、工具の形状、工具径、工具長、残り工具寿命、加工対象のワークの材質、工具カタログの切削条件等を例示する。また、工作機械１０から取得された測定値として、主軸回転数、モータ電流値、機械温度、周囲温度等を例示する。

　機械学習装置２０は、工作機械１０において設定された工具及びワークに関する情報と、固定サイクルで設定された１回分の切り込み量及び切削速度と、当該加工プログラムを実行することで工作機械１０から取得された測定値と、を含む状態情報（状態データ）ｓを観測して、行動ａを決定する。機械学習装置２０は、行動ａをするたびに報酬が返ってくる。機械学習装置２０は、将来にわたっての報酬の合計が最大になるように最適な行動ａを試行錯誤的に探索する。そうすることで、機械学習装置２０は、工作機械１０において設定された工具及びワークに関する情報と、固定サイクルで設定された１回分の切り込み量及び切削速度と、当該加工プログラムを実行することで工作機械１０から取得された測定値と、を含む状態ｓに対して、最適な行動ａ（すなわち「１回分の切り込み量」及び「切削速度」）を選択することが可能となる。

　図２は、機械学習装置２０の機能的構成例を示す機能ブロック図である。
　上述した強化学習を行うために、図２に示すように、機械学習装置２０は、状態情報取得部２０１、学習部２０２、行動情報出力部２０３、価値関数記憶部２０４、最適化行動情報出力部２０５、及び制御部２０６を備える。学習部２０２は、報酬計算部２２１、価値関数更新部２２２、及び行動情報生成部２２３を備える。制御部２０６は、状態情報取得部２０１、学習部２０２、行動情報出力部２０３、及び最適化行動情報出力部２０５の動作を制御する。

　状態情報取得部２０１は、工作機械１０の状態として、工作機械１０において設定された工具及びワークに関する情報と、固定サイクルで設定された１回分の切り込み量及び切削速度と、当該加工プログラムを実行することで工作機械１０から取得された測定値と、を含む状態データｓを、数値制御装置１０１から取得する。この状態データｓは、Ｑ学習における、環境状態ｓに相当する。
　状態情報取得部２０１は、取得した状態データｓを学習部２０２に出力する。
　なお、状態情報取得部２０１は、取得した状態データｓを機械学習装置２０に含まれる図示しない記憶部に記憶してもよい。この場合、後述する学習部２０２は、状態データｓを機械学習装置２０の記憶部（図示しない）から読み込んでもよい。
　また、状態情報取得部２０１は、Ｑ学習を行うための報酬を算出するための判定情報も取得する。具体的には、状態情報ｓに係る加工プログラムを実行することにより工作機械１０から取得された、工具にかかる圧力の強さ（軸方向、及び回転方向）、工具にかかる圧力の波形の形状（軸方向、及び回転方向）、送り軸にかかるトルクの強さ、送り軸にかかるトルクの波形の形状、主軸にかかるトルクの強さ、主軸にかかるトルクの波形の形状、及び当該加工プログラムを実行したときの加工に要した時間を、Ｑ学習を行うための報酬を算出するための判定情報とする。

　学習部２０２は、或る状態データ（環境状態）ｓの下で、或る行動ａを選択する場合の価値関数Ｑ（ｓ，ａ）を学習する部分である。具体的には、学習部２０２は、報酬計算部２２１、価値関数更新部２２２、及び行動情報生成部２２３を有する。
　なお、学習部２０２は、学習を継続するかどうかを判断する。学習を継続するかどうかは、例えば、機械学習を始めてからの試行回数が最大試行回数に達したかどうか、又は、機械学習を始めてからの経過時間が所定時間を超えた(又は以上)かどうかに基づいて判断することができる。

　報酬計算部２２１は、或る状態ｓの下で、行動ａを選択した場合の報酬を判定情報に基づいて算出する。報酬は、判定情報に含まれる複数の評価項目に基づいて算出してもよい。本実施形態では、例えば、（１）工具、送り軸、主軸にかかる圧力（トルク）の強さと、（２）工具、送り軸、主軸にかかる圧力（トルク）の波形の形状と、（３）加工に要した時間との項目に基づいて報酬を算出する。
　そこで、（１）工具、送り軸、主軸にかかる圧力（トルク）の強さの項目、（２）工具、送り軸、主軸にかかる圧力（トルク）の波形の形状の項目、及び（３）加工に要した時間の項目における報酬の算出について説明する。

（１）工具、送り軸、主軸にかかる圧力（トルク）の強さの項目の報酬について
　行動ａにより状態ｓから状態ｓ´に遷移した場合の状態ｓ及び状態ｓ´における工具、送り軸、主軸にかかる圧力（トルク）の強さの値をそれぞれ値Ｐ_ｔ（ｓ）、Ｐ_ｆ（ｓ）、Ｐ_ｍ（ｓ）、及び値Ｐ_ｔ（ｓ´）、Ｐ_ｆ（ｓ´）、Ｐ_ｍ（ｓ´）とする。
　報酬計算部２２１は、以下のように工具、送り軸、主軸にかかる圧力（トルク）の強さに基づく報酬を算出する。
　値Ｐ_ｔ（ｓ´）＜値Ｐ_ｔ（ｓ）、且つ値Ｐ_ｆ（ｓ´）＜値Ｐ_ｆ（ｓ）、且つ値Ｐ_ｍ（ｓ´）＜値Ｐ_ｍ（ｓ）の場合は、報酬ｒ_ｐを正の値とする。
　状態ｓ´の値Ｐ_ｔ（ｓ´）、Ｐ_ｆ（ｓ´）、Ｐ_ｍ（ｓ´）の少なくとも１つが、状態ｓの値Ｐ_ｔ（ｓ）、Ｐ_ｆ（ｓ）、Ｐ_ｍ（ｓ）より大きい場合、報酬ｒ_ｐを負の値とする。
　なお、負の値及び正の値については、例えば、予め設定した一定の値（例えば、第１の負の値及び第１の正の値）でもよい。

（２）工具、送り軸、主軸にかかる圧力（トルク）の波形の形状の項目の報酬について
　行動ａにより状態ｓから状態ｓ´に遷移した場合の状態ｓ´における工具、送り軸、主軸にかかる圧力（トルク）の波形の形状をＷＦ_ｔ（ｓ´）、ＷＦ_ｆ（ｓ´）、ＷＦ_ｍ（ｓ´）とする。
　報酬計算部２２１は、以下のように工具、送り軸、主軸にかかる圧力（トルク）の波形の形状に基づく報酬を算出する。
　工具、送り軸、主軸にかかる圧力（トルク）の波形の形状ＷＦ_ｔ（ｓ´）、ＷＦ_ｆ（ｓ´）、ＷＦ_ｍ（ｓ´）の少なくとも１つが、工具が破壊される予兆を示す波形、又は工具の寿命がより急激に減少する波形と相似する場合は、報酬ｒ_ｗを負の値とする。
　工具、送り軸、主軸にかかる圧力（トルク）の波形の形状ＷＦ_ｔ（ｓ´）、ＷＦ_ｆ（ｓ´）、ＷＦ_ｍ（ｓ´）のすべてが、工具が破壊される予兆を示す波形、及び工具の寿命がより急激に減少する波形と相似しない場合は、報酬ｒ_ｗを正の値とする。
　なお、工具が破壊される予兆を示す波形、及び工具の寿命がより急激に減少する波形のデータは、工具毎に予め取得され、機械学習装置２０の記憶部（図示しない）に記憶されてもよい。
　また、負の値及び正の値については、例えば、予め設定した一定の値（例えば、第２の負の値及び第２の正の値）でもよい。

（３）加工に要した時間の報酬について
　行動ａにより状態ｓから状態ｓ´に遷移した場合の状態ｓ及び状態ｓ´における加工に要した時間の値をそれぞれ値Ｔ（ｓ）、及び値Ｔ（ｓ´）とする。
　報酬計算部２２１は、以下のように加工に要した時間に基づく報酬を算出する。
　値Ｔ（ｓ´）＞値Ｔ（ｓ）の場合は、報酬ｒ_ｃを負の値とする。
　値Ｔ（ｓ´）＝値Ｔ（ｓ）の場合は、報酬ｒ_ｃをゼロとする。
　値Ｔ（ｓ´）＜値Ｔ（ｓ）の場合は、報酬ｒ_ｃを正の値とする。
　なお、負の値及び正の値については、例えば、予め設定した一定の値（例えば、第３の負の値及び第３の正の値でもよい。

　報酬計算部２２１は、加工に要する時間を優先する機械学習と、工具の寿命を優先する機械学習と、における報酬として、数２式を用いて、上述の項目毎に算出された報酬ｒ_ｐ、ｒ_ｗ、ｒ_ｃを加工に要する時間を優先する機械学習及び工具の寿命を優先する機械学習毎に別々に重み付け加算した報酬ｒをそれぞれ算出してもよい。

　なお、係数ａ_ｗ、ｂ_ｗ、ｃ_ｗは、重み係数を示す。
　また、報酬計算部２２１は、加工に要する時間を優先する機械学習時の報酬ｒ（以下、「報酬ｒ_{ｃｙｃｌｅ}」ともいう）の計算において、例えば、工具の寿命を優先する機械学習と比べて、数２式の係数ｃ_ｗの値を大きな値してもよく、第３の負の値及び第３の正の値の絶対値を大きな値にしてもよい。
　また、報酬計算部２２１は、工具の寿命を優先する機械学習時の報酬ｒ（以下、「報酬ｒ_ｔｏｏｌ」ともいう）の計算において、例えば、加工に要する時間を優先する機械学習と比べて、数２式の係数ｂ_ｗの値を大きな値してもよく、第２の負の値及び第２の正の値の絶対値を大きな値にしてもよい。
　以下、加工に要する時間を優先する機械学習は、特に断らない限り、「加工時間優先モードにおける機械学習」ともいう。また、工具の寿命を優先する機械学習は、特に断らない限り、「工具寿命優先モードにおける機械学習」ともいう。

　価値関数更新部２２２は、加工時間優先モードにおける機械学習の場合、状態ｓと、行動ａと、行動ａを状態ｓに適用した場合の状態ｓ´と、上述のように算出された報酬ｒ_{ｃｙｃｌｅ}の値と、に基づいて加工時間優先モードにおけるＱ学習を行うことにより、価値関数記憶部２０４が記憶する価値関数Ｑ_{ｃｙｃｌｅ}を更新する。また、価値関数更新部２２２は、工具寿命優先モードにおける機械学習の場合、状態ｓと、行動ａと、行動ａを状態ｓに適用した場合の状態ｓ´と、上述のように算出された報酬ｒ_ｔｏｏｌの値と、に基づいて工具寿命優先モードにおけるＱ学習を行うことにより、価値関数記憶部２０４が記憶する価値関数Ｑ_ｔｏｏｌを更新する。
　加工時間優先モードの価値関数Ｑ_{ｃｙｃｌｅ}、及び工具寿命優先モードの価値関数Ｑ_ｔｏｏｌの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
　オンライン学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移する都度、即座に価値関数Ｑの更新を行うという学習方法である。また、バッチ学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行うという学習方法である。

　行動情報生成部２２３は、現在の状態ｓに対して、Ｑ学習の過程における行動ａを選択する。行動情報生成部２２３は、加工時間優先モード又は工具寿命優先モードに応じたＱ学習の過程において、固定サイクルで設定された１回分の切り込み量及び切削速度を修正する動作（Ｑ学習における行動ａに相当）を行わせるために、行動情報ａを生成し、生成した行動情報ａを行動情報出力部２０３に対して出力する。

　より具体的には、行動情報生成部２２３は、加工時間優先モード及び工具寿命優先モード毎に、状態ｓに含まれる、固定サイクルで設定された１回分の切り込み量及び切削速度に対して、行動ａに含まれる１回分の切り込み量及び切削速度をインクレメンタルに増加又は減少させるようにしてもよい。
　本実施形態では、例えば、加工時間優先モードにおける機械学習と、工具寿命優先モードにおける機械学習とを交互に行う場合を示す。なお、この場合、どちらか一方のモードに偏らないように、後述するグリーディ法やεグリーディ法等の公知の方法をランダムに用いて機械学習を行うようにしてもよい。また、後述するように、加工時間優先モードにおける機械学習と、工具寿命優先モードにおける機械学習とを別々に行うようにしてもよい。

　行動情報生成部２２３は、加工時間優先モード又は工具寿命優先モードにおける機械学習により、行動ａにより加工プログラムの１回分の切り込み量及び切削速度を調整して、状態ｓ´に遷移した場合に、工具、送り軸、主軸の力（トルク）の状態（減少するか否か）、工具、送り軸、主軸の力（トルク）の波形の形状の状態（相似するか否か）、及び加工時間の状態（増減又は維持）によって状態ｓ´に対する行動ａ´の加工プログラムの１回分の切り込み量及び切削速度を選択してもよい。
　例えば、加工時間優先モードにおける機械学習の場合、１回分の切り込み量及び／又は切削速度の増加により報酬ｒ_{ｃｙｃｌｅ}が増加し、且つすべての工具、送り軸、主軸の力（トルク）が減少し、全ての工具、送り軸、主軸の力（トルク）の波形の形状が相似せず、及び加工の要する時間が減少する場合、状態ｓ´に対する行動ａ´としては、例えば、１回分の切り込み量及び／又は切削速度をインクレメンタルに増加させる等、加工に要する時間の短縮となるような行動ａ´を選択する方策を取るようにしてもよい。
　あるいは、加工時間優先モードにおける機械学習の場合に、１回分の切り込み量及び／又は切削速度の増加により報酬ｒ_{ｃｙｃｌｅ}が減少する場合、状態ｓ´に対する行動ａ´としては、例えば、１回分の切り込み量及び／又は切削速度を１つ前に戻す等、加工に要する時間の短縮となるような行動ａ´を選択する方策を取るようにしてもよい。

　また、工具寿命優先モードにおける機械学習の場合、１回分の切り込み量及び／又は切削速度の減少により報酬ｒ_ｔｏｏｌが増加し、且つすべての工具、送り軸、主軸の力（トルク）が減少し、すべての工具、送り軸、主軸の力（トルク）の波形の形状が相似せず、及び加工に要する時間が増減又は維持する場合、状態ｓ´に対する行動ａ´としては、例えば、１回分の切り込み量及び／又は切削速度をインクレメンタルに減少させる等、工具寿命の減少を遅らせるような行動ａ´を選択する方策を取るようにしてもよい。
　あるいは、工具寿命優先モードにおける機械学習の場合に、切り込み量及び／又は切削速度の減少により報酬ｒ_ｔｏｏｌが減少する場合、状態ｓ´に対する行動ａ´としては、例えば、切り込み量及び／又は切削速度を１つ前に戻す等、工具寿命の減少を遅らせるような行動ａ´を選択する方策を取るようにしてもよい。

　また、行動情報生成部２２３は、現在の推定される行動ａの価値の中で、最も価値関数Ｑ（ｓ，ａ）の高い行動ａを選択するグリーディ法や、ある小さな確率εでランダムに行動ａ´選択し、それ以外では最も価値関数Ｑ（ｓ，ａ）の高い行動ａを選択するεグリーディ法といった公知の方法により、行動ａを選択する方策を取るようにしてもよい。

　行動情報出力部２０３は、学習部２０２から出力される行動情報ａを数値制御装置１０１に対して出力する。行動情報出力部２０３は、例えば行動情報としての、更新された一回分の切り込み量及び切削速度の値を、数値制御装置１０１に出力するようにしてもよい。これにより、数値制御装置１０１は、受信した更新された１回分の切り込み量及び切削速度の値に基づいて、固定サイクルで設定された１回分の切り込み量及び切削速度を更新する。そして、数値制御装置１０１は、更新された固定サイクルで設定された１回分の切り込み量及び切削速度に基づいて動作指令を生成し、生成した動作指令に基づいて工作機械１０に切削加工を行わせる。
　なお、行動情報出力部２０３は、行動情報としての、更新された１回分の切り込み量及び切削速度の値に基づいて更新した加工プログラムを、数値制御装置１０１に出力してもよい。

　価値関数記憶部２０４は、加工時間優先モードの価値関数Ｑ_{ｃｙｃｌｅ}、及び工具寿命優先モードの価値関数Ｑ_ｔｏｏｌを記憶する記憶装置である。価値関数Ｑ_{ｃｙｃｌｅ}、Ｑ_ｔｏｏｌそれぞれは、例えば状態ｓ、行動ａ毎にテーブル（以下、「行動価値テーブル」ともいう）として格納してもよい。価値関数記憶部２０４に記憶された価値関数Ｑ_{ｃｙｃｌｅ}、Ｑ_ｔｏｏｌは、価値関数更新部２２２により更新される。

　最適化行動情報出力部２０５は、価値関数更新部２２２がＱ学習を行うことにより更新した価値関数Ｑ_{ｃｙｃｌｅ}又は価値関数Ｑ_ｔｏｏｌに基づいて、価値関数の値が最大となる動作を数値制御装置１０１に行わせるための行動情報ａ（以下、「最適化行動情報」ともいう）を生成する。
　より具体的には、最適化行動情報出力部２０５は、価値関数記憶部２０４が記憶している加工時間優先モードの価値関数Ｑ_{ｃｙｃｌｅ}及び工具寿命優先モードの価値関数Ｑ_ｔｏｏｌを取得する。この価値関数Ｑ_{ｃｙｃｌｅ}、Ｑ_ｔｏｏｌは、上述したように価値関数更新部２２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部２０５は、取得した加工時間優先モードの価値関数Ｑ_{ｃｙｃｌｅ}に基づく行動情報と、取得した加工時間優先モードの価値関数Ｑ_ｔｏｏｌに基づく行動情報と、を生成し、生成した各行動情報を数値制御装置１０１に対して出力する。この最適化行動情報には、行動情報出力部２０３がＱ学習の過程において出力する行動情報と同様に、更新された１回分の切り込み量及び切削速度の値を示す情報が含まれる。

　以上、機械学習装置２０に含まれる機能ブロックについて説明した。
　これらの機能ブロックを実現するために、機械学習装置２０は、ＣＰＵ等の演算処理装置を備える。また、機械学習装置２０は、アプリケーションソフトウェアやＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）等の各種の制御用プログラムを格納したＨＤＤ等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭといった主記憶装置も備える。

　そして、機械学習装置２０において、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、機械学習装置２０が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

　機械学習装置２０については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔｓ）を搭載し、ＧＰＧＰＵ（Ｇｅｎｅｒａｌ－Ｐｕｒｐｏｓｅ　ｃｏｍｐｕｔｉｎｇ　ｏｎ　Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔｓ）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。さらには、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

　次に、図３のフローチャートを参照して本実施形態におけるＱ学習時の機械学習装置２０の動作について説明をする。
　図３は、第１実施形態におけるＱ学習時の機械学習装置２０の動作を示すフローチャートである。

　ステップＳ１１において、制御部２０６は、試行回数を初期設定、すなわち「１」として状態情報取得部２０１に状態情報の取得を指示する。

　ステップＳ１２において、状態情報取得部２０１は、数値制御装置１０１から最初の状態データを取得する。取得した状態データは、行動情報生成部２２３に対して出力される。上述したように、この状態データ（状態情報）は、Ｑ学習における状態ｓに相当する情報であり、ステップＳ１２時点での、１回分の切り込み量、切削速度、工具の材質、工具の形状、工具径、工具長、残り工具寿命、加工対象のワークの材質、工具カタログの切削条件、主軸回転数、モータ電流値、機械温度、及び周囲温度、が含まれる。なお、最初にＱ学習を開始する時点での状態データは、予めオペレータが生成するようにする。

　ステップＳ１３において、行動情報生成部２２３は、加工時間優先モード又は工具寿命優先モードにおける機械学習により、加工時間優先モード及び工具寿命優先モードの新たな行動情報ａを生成し、生成した加工時間優先モード及び工具寿命優先モードの新たな行動情報ａを、行動情報出力部２０３を介して数値制御装置１０１に対して出力する。数値制御装置１０１は、受信した加工時間優先モード及び工具寿命優先モードの行動情報ａのうち、設定装置１１１により選択された行動情報ａに基づいて、固定サイクルで設定された１回分の切り込み量及び切削速度が更新された加工プログラムを実行する。数値制御装置１０１は、更新された加工プログラムに基づいて動作指令を生成し、生成した動作指令に基づいて工作機械１０に切削加工を行わせる。

　ステップＳ１４において、状態情報取得部２０１は、数値制御装置１０１から新たな状態ｓ´に相当する状態データを取得する。ここで、新たな状態データは、１回分の切り込み量、切削速度、工具の材質、工具の形状、工具径、工具長、残り工具寿命、加工対象のワークの材質、工具カタログの切削条件、主軸回転数、モータ電流値、機械温度、及び周囲温度、を含む。状態情報取得部２０１は、学習部２０２に対して取得した状態データを出力する。

　ステップＳ１５において、状態情報取得部２０１は、新たな状態ｓ´についての判定情報を取得する。ここで、判定情報には、ステップＳ１３において、更新された加工プログラムが実行されることにより工作機械１０から取得された、工具にかかる圧力の強さ（軸方向、及び回転方向）、工具にかかる圧力の波形の形状（軸方向、及び回転方向）、送り軸にかかるトルクの強さ、送り軸にかかるトルクの波形の形状、主軸にかかるトルクの強さ、主軸にかかるトルクの波形の形状、及び更新された加工プログラムを実行したときの加工に要した時間を、を含む。取得した判定情報は、学習部２０２に出力される。

　ステップＳ１６において、報酬計算部２２１は、取得された判定情報に基づいて報酬算算処理を行い、加工時間優先モードの報酬ｒ_{ｃｙｃｌｅ}及び工具寿命優先モードの報酬ｒ_ｔｏｏｌをそれぞれ算出する。なお、報酬計算処理の詳細なフローについては、後述する。

　ステップＳ１７において、価値関数更新部２２２は、計算された報酬ｒ_{ｃｙｃｌｅ}及び報酬ｒ_ｔｏｏｌに基づいて、価値関数記憶部２０４が記憶している価値関数Ｑ_{ｃｙｃｌｅ}及び価値関数Ｑ_ｔｏｏｌをそれぞれ更新する。

　ステップＳ１８において、制御部２０６は、機械学習を始めてからの試行回数が最大試行回数に到達したかどうかを判断する。最大試行回数は予め設定しておく。最大試行回数に到達していなければ、ステップＳ１９で試行回数をカウントアップして、ステップＳ１３に戻る。ステップＳ１３からステップＳ１９までの処理は最大試行回数に到達するまで繰り返し行われる。

　なお、図３のフローは、試行回数が最大試行回数に到達したときに処理を終了させているが、ステップＳ１３からステップＳ１９の処理に係る時間を、機械学習を始めてから累積した時間が、予め設定された最大経過時間を超えた（又は以上になった）ことを条件として処理を終了するようにしてもよい。
　また、ステップＳ１７はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

　図４は、図３においてステップＳ１６で示した報酬計算処理の詳細な処理内容を説明するフローチャートである。

　ステップＳ６１において、報酬計算部２２１は、状態ｓ´の判定情報に含まれる工具、送り軸、主軸にかかる圧力（トルク）の強さの値Ｐ_ｔ（ｓ´）、Ｐ_ｆ（ｓ´）、Ｐ_ｍ（ｓ´）のすべてが、状態ｓの判定情報に含まれる工具、送り軸、主軸にかかる圧力（トルク）の強さの値Ｐ_ｔ（ｓ）、Ｐ_ｆ（ｓ）、Ｐ_ｍ（ｓ）より小さい、すなわち弱いか否かを判定する。状態ｓ´の工具、送り軸、主軸にかかる圧力（トルク）の強さの値Ｐ_ｔ（ｓ´）、Ｐ_ｆ（ｓ´）、Ｐ_ｍ（ｓ´）のすべてが状態ｓより弱い場合、処理はステップＳ６２に進む。また、状態ｓ´の工具、送り軸、主軸にかかる圧力（トルク）の強さの値Ｐ_ｔ（ｓ´）、Ｐ_ｆ（ｓ´）、Ｐ_ｍ（ｓ´）の少なくとも１つが状態ｓより強い場合、処理はステップＳ６３に進む。

　ステップＳ６２において、報酬計算部２２１は、報酬ｒ_ｐを負の値にする。

　ステップＳ６３において、報酬計算部２２１は、報酬ｒ_ｐを正の値にする。

　ステップＳ６４において、報酬計算部２２１は、状態ｓ´の判定情報に含まれる工具、送り軸、主軸にかかる圧力（トルク）の波形の形状ＷＦ_ｔ（ｓ´）、ＷＦ_ｆ（ｓ´）、ＷＦ_ｍ（ｓ´）のすべてが、工具が破壊される予兆を示す波形、又は工具の寿命がより減少する波形と相似するか否かを判定する。状態ｓ´の工具、送り軸、主軸にかかる圧力（トルク）の波形の形状ＷＦ_ｔ（ｓ´）、ＷＦ_ｆ（ｓ´）、ＷＦ_ｍ（ｓ´）のすべてが相似しない場合、処理はステップＳ６６に進む。また、状態ｓ´の工具、送り軸、主軸にかかる圧力（トルク）の波形の形状ＷＦ_ｔ（ｓ´）、ＷＦ_ｆ（ｓ´）、ＷＦ_ｍ（ｓ´）の少なくとも１つが相似する場合、処理はステップＳ６５に進む。

　ステップＳ６５において、報酬計算部２２１は、報酬ｒ_ｗを負の値にする。

　ステップＳ６６において、報酬計算部２２１は、報酬ｒ_ｗを正の値にする。

　ステップＳ６７において、報酬計算部２２１は、状態ｓ´の判定情報に含まれる加工に要した時間の値Ｔ（ｓ´）が、状態ｓの判定情報に含まれる加工に要した時間の値Ｔ（ｓ）より増加、減少、又は維持したかを判定する。状態ｓ´の加工に要した時間の値Ｔ（ｓ´）が状態ｓより増加した場合、処理はステップＳ６８に進む。また、状態ｓ´の加工に要した時間の値Ｔ（ｓ´）が状態ｓより減少した場合、処理はステップＳ７０に進む。また、状態ｓ´の加工に要した時間の値Ｔ（ｓ´）が維持された場合、処理はステップＳ６９に進む。

　ステップＳ６８において、報酬計算部２２１は、報酬ｒ_ｃを負の値にする。

　ステップＳ６９において、報酬計算部２２１は、報酬ｒ_ｃをゼロにする。

　ステップＳ７０において、報酬計算部２２１は、報酬ｒ_ｃを正の値にする。

　ステップＳ７１において、報酬計算部２２１は、算出した報酬ｒ_ｐ、ｒ_ｗ、ｒ_ｃと、数２式と、を用いて、加工時間優先モードの報酬ｒ_{ｃｙｃｌｅ}及び工具寿命優先モードの報酬ｒ_ｔｏｏｌをそれぞれ算出する。以上により、報酬計算処理のフローは終了し、処理はステップＳ１７に進む。

　以上、図３及び図４を参照して説明した動作により、本実施形態では、変種変量生産等の現場において、オペレータの手間を増やすことなく、加工プログラムの固定サイクルを最適化するための価値関数Ｑ_{ｃｙｃｌｅ}、Ｑ_ｔｏｏｌを生成することができる。

　次に、図５のフローチャートを参照して、最適化行動情報出力部２０５による最適化行動情報の生成時の動作について説明をする。

　ステップＳ２１において、最適化行動情報出力部２０５は、価値関数記憶部２０４が記憶している加工時間優先モードの価値関数Ｑ_{ｃｙｃｌｅ}、及び工具寿命優先モードの価値関数Ｑ_ｔｏｏｌを取得する。

　ステップＳ２２において、最適化行動情報出力部２０５は、取得した価値関数Ｑ_{ｃｙｃｌｅ}及び価値関数Ｑ_ｔｏｏｌに基づいて、加工時間優先モード及び工具寿命優先モードの最適化行動情報をそれぞれ生成し、生成した加工時間優先モード及び工具寿命優先モードの最適化行動情報を数値制御装置１０１に対して出力する。

　以上のように、数値制御装置１０１は、設定装置１１１で選択された加工時間優先モード又は工具寿命優先モードにおける行動に応じて固定サイクルで設定された１回分の切り込み量及び切削速度が更新された加工プログラムを実行することにより、変種変量生産等の現場において、オペレータの手間を増やすことなく、加工プログラムを最適化することができる。これにより、数値制御装置１０１は、加工に要する時間（すなわち、サイクルタイム）を優先して加工したり、工具寿命を優先して加工したりすることができる。
　また、数値制御装置１０１は、オペレータにより１回分の切り込み量及び切削速度の引数の設定が不要になり、加工プログラムの作成の手間を削減することができる。
　以上、第１実施形態について説明した。

＜第２実施形態＞
　次に、第２実施形態について説明する。第２実施形態では、機械学習装置２０Ａは、第１実施形態の機能に加えて、２以上の複数（例えば、ｎ個）の固定サイクルを含む加工プログラムに対して、各固定サイクル（例えば、ｉ番目の固定サイクル）を実行する毎に、加工プログラムをストップして、ｉ番目の固定サイクルの状態ｓ（ｉ）、行動ａ（ｉ）、判定情報（ｉ）、報酬ｒ（ｉ）、及び状態ｓ´（ｉ）に対する行動ａ´（ｉ）を算出し、ｉ番目の固定サイクルにおける１回分の切り込み量及び切削速度を更新する機能をさらに備える。なお、ｎは２以上の整数であり、ｉは１からｎの整数である。
　こうすることで、ｉ番目の固定サイクルで設定された、１回分の切り込み量及び切削速度をｉ番目の固定サイクルに対する行動として特定することができる。以下、ｉ番目の固定サイクルを「固定サイクル（ｉ）」（１≦ｉ≦ｎ）ともいう。
　以下に、第２実施形態について説明する。

＜第２実施形態＞
　図６は、第２実施形態に係る数値制御システムの機能的構成例を示す機能ブロック図である。なお、図１の数値制御システム１の要素と同様の機能を有する要素については、同じ符号を付し、詳細な説明は省略する。
　図６に示すように、第２実施形態に係る数値制御システム１は、工作機械１０、及び機械学習装置２０Ａを有する。

　工作機械１０は、第１実施形態の場合と同様に、当業者にとって公知の工作機械であり、数値制御装置１０１ａを含む。工作機械１０は、数値制御装置１０１ａからの動作指令に基づいて動作する。

　数値制御装置１０１ａは、第１実施形態の場合と同様に、当業者にとって公知の数値制御装置であり、ＣＡＤ／ＣＡＭ装置等の外部装置（図示しない）から取得した加工プログラムに基づいて動作指令を生成し、生成した動作指令を工作機械１０に送信する。これにより、数値制御装置１０１ａは、工作機械１０の動作を制御する。
　なお、第２実施形態に係る数値制御装置１０１ａは、例えば、加工プログラムを実行する場合、加工プログラムに含まれるもみつけ、タッピング等のｎ個の固定サイクル（ｉ）それぞれが完了する毎に、加工プログラムをストップして、当該固定サイクルにおいて工作機械１０に設定された工具及びワークに関する情報と、当該固定サイクル（ｉ）に設定された１回分の切り込み量及び切削速度と、加工プログラムを実行することで工作機械１０から取得された測定値を、機械学習装置２０Ａに出力してもよい。
　なお、設定装置１１１は、第１実施形態における設定装置１１１と同等の機能を有する。

＜機械学習装置２０Ａ＞
　機械学習装置２０Ａは、数値制御装置１０１ａが加工プログラムを実行することで、工作機械１０を動作させたときの、加工プログラムに含まれるｎ個の固定サイクル毎の１回分の切り込み量及び切削速度を強化学習する装置である。
　図７は、機械学習装置２０Ａの機能的構成例を示す機能ブロック図である。
　図７に示すように、機械学習装置２０Ａは、状態情報取得部２０１ａ、学習部２０２ａ、行動情報出力部２０３ａ、価値関数記憶部２０４ａ、最適化行動情報出力部２０５ａ、及び制御部２０６を備える。学習部２０２ａは、報酬計算部２２１ａ、価値関数更新部２２２ａ、及び行動情報生成部２２３ａを備える。
　なお、制御部２０６は、第１実施形態における制御部２０６と同等の機能を有する。

　状態情報取得部２０１ａは、工作機械１０の状態として、加工プログラムに含まれるｎ個の固定サイクルそれぞれが実行される毎に、工作機械１０において設定された工具及びワークに関する情報と、各固定サイクル（ｉ）（１≦ｉ≦ｎ）に設定された１回分の切り込み量及び切削速度と、当該加工プログラムを実行することで工作機械１０から取得された測定値と、を含む状態データｓを、数値制御装置１０１から取得する。
　状態情報取得部２０１ａは、固定サイクル（ｉ）毎に取得した状態データｓ（ｉ）を学習部２０２ａに出力する。
　なお、状態情報取得部２０１ａは、固定サイクル（ｉ）毎に取得した状態データｓ（ｉ）を機械学習装置２０Ａに含まれる図示しない記憶部に記憶してもよい。この場合、後述する学習部２０２ａは、固定サイクル（ｉ）毎の状態データｓ（ｉ）を機械学習装置２０Ａの記憶部（図示しない）から読み込んでもよい。
　また、状態情報取得部２０１ａは、Ｑ学習を行うための報酬を算出するための判定情報も固定サイクル（ｉ）毎に取得する。具体的には、状態情報ｓ（ｉ）に係る加工プログラムに含まれる固定サイクル（ｉ）をそれぞれ実行することにより工作機械１０から取得された、工具にかかる圧力の強さ（軸方向、及び回転方向）、工具にかかる圧力の波形の形状（軸方向、及び回転方向）、送り軸にかかるトルクの強さ、送り軸にかかるトルクの波形の形状、主軸にかかるトルクの強さ、主軸にかかるトルクの波形の形状、及び当該固定サイクル（ｉ）を実行したときの加工に要した時間を、Ｑ学習を行うための報酬を算出するための判定情報とする。

　学習部２０２ａは、各固定サイクル（ｉ）において、或る状態データ（環境状態）ｓ（ｉ）の下で、或る行動ａ（ｉ）を選択する場合の価値関数Ｑ（ｓ（ｉ），ａ（ｉ））を学習する部分である。具体的には、学習部２０２ａは、報酬計算部２２１ａ、価値関数更新部２２２ａ、及び行動情報生成部２２３ａを有する。
　なお、学習部２０２ａは、第１実施形態の学習部２０２と同様に、学習を継続するかどうかを判断する。学習を継続するかどうかは、例えば、機械学習を始めてからの加工プログラムの試行回数が最大試行回数に達したかどうか、又は、機械学習を始めてからの経過時間が所定時間を超えた(又は以上)かどうかに基づいて判断することができる。

　報酬計算部２２１ａは、各固定サイクル（ｉ）において、或る状態ｓ（ｉ）の下で、行動ａ（ｉ）を選択した場合の報酬を各固定サイクル（ｉ）の判定情報に基づいて算出する。なお、各固定サイクル（ｉ）において算出される報酬は、第１実施形態の場合と同様に、（１）工具、送り軸、主軸にかかる圧力（トルク）の強さと、（２）工具、送り軸、主軸にかかる圧力（トルク）の波形の形状と、（３）加工に要した時間との項目に基づいて算出される。すなわち、例えば、固定サイクル（ｉ）における各項目の報酬ｒ_ｐ（ｉ）、ｒ_ｗ（ｉ）、ｒ_ｃ（ｉ）は、第１実施形態の報酬ｒ_ｐ、ｒ_ｗ、ｒ_ｃと同様に算出される。
　そして、報酬計算部２２１ａは、第１実施形態の報酬計算部２２１と同様に、固定サイクル（ｉ）における加工時間優先モードの報酬ｒ_{ｃｙｃｌｅ}（ｉ）、及び工具寿命優先モードの報酬ｒ_ｔｏｏｌ（ｉ）を、各項目の報酬ｒ_ｐ（ｉ）、ｒ_ｗ（ｉ）、ｒ_ｃ（ｉ）と、数２式と、を用いて算出してもよい。

　価値関数更新部２２２ａは、第１実施形態の価値関数更新部２２２と同様に、加工時間優先モードにおける機械学習の場合、固定サイクル（ｉ）における状態ｓ（ｉ）と、行動ａ（ｉ）と、行動ａ（ｉ）を状態ｓ（ｉ）に適用した場合の状態ｓ´（ｉ）と、上述のように算出された報酬ｒ_{ｃｙｃｌｅ}（ｉ）の値と、に基づいてＱ学習を行うことにより、価値関数記憶部２０４ａが記憶する固定サイクル（ｉ）の価値関数Ｑ_{ｃｙｃｌｅ＿ｉ}を更新する。また、価値関数更新部２２２ａは、工具寿命優先モードにおける機械学習の場合、固定サイクル（ｉ）における状態ｓ（ｉ）と、行動ａ（ｉ）と、行動ａ（ｉ）を状態ｓ（ｉ）に適用した場合の状態ｓ´（ｉ）と、上述のように算出された報酬ｒ_ｔｏｏｌ（ｉ）の値と、に基づいてＱ学習を行うことにより、価値関数記憶部２０４ａが記憶する価値関数Ｑ_{ｔｏｏｌ＿ｉ}を更新する。

　行動情報生成部２２３ａは、第１実施形態の行動情報生成部２２３と同様に、固定サイクル（ｉ）における現在の状態ｓ（ｉ）に対して、Ｑ学習の過程における行動ａ（ｉ）を選択する。行動情報生成部２２３ａは、加工時間優先モード又は工具寿命優先モードに応じたＱ学習の過程において、ｉ番目の固定サイクルの１回分の切り込み量及び切削速度を修正する動作（Ｑ学習における行動ａに相当）を行わせるために、ｉ番目の固定サイクルの行動情報ａを生成し、生成したｉ番目の固定サイクルの行動情報ａを行動情報出力部２０３ａに対して出力する。

　行動情報出力部２０３ａは、第１実施形態の行動情報出力部２０３と同様に、学習部２０２ａから出力される固定サイクル（ｉ）毎の行動情報ａ（ｉ）を数値制御装置１０１ａに対して出力する。行動情報出力部２０３ａは、例えば固定サイクル（ｉ）毎の行動情報としての、更新された１回分の切り込み量及び切削速度の値を、数値制御装置１０１ａに出力するようにしてもよい。これにより、数値制御装置１０１ａは、受信した更新された１回分の切り込み量及び切削速度の値に基づいて、加工プログラムに含まれるｎ個の固定サイクル（ｉ）それぞれを更新する。そして、数値制御装置１０１ａは、更新された固定サイクル（ｉ）を含む加工プログラムに基づいて動作指令を生成し、生成した動作指令に基づいて工作機械１０に切削加工を行わせる。
　なお、行動情報出力部２０３ａは、固定サイクル（ｉ）毎の行動情報としての、更新された１回分の切り込み量及び切削速度の値に基づいて各固定サイクル（ｉ）を更新した加工プログラムを、数値制御装置１０１ａに出力してもよい。

　価値関数記憶部２０４ａは、固定サイクル（ｉ）毎の加工時間優先モードの価値関数Ｑ_{ｃｙｃｌｅ＿ｉ}、及び工具寿命優先モードの価値関数Ｑ_{ｔｏｏｌ＿ｉ}を記憶する記憶装置である。なお、価値関数Ｑ_{ｃｙｃｌｅ＿ｉ}（１≦ｉ≦ｎ）の集合と価値関数Ｑ_{ｃｙｃｌｅ}との関係、及び価値関数Ｑ_{ｔｏｏｌ＿ｉ}（１≦ｉ≦ｎ）の集合と価値関数Ｑ_ｔｏｏｌとの関係は数３式のように表される。

　価値関数記憶部２０４ａに記憶された固定サイクル（ｉ）毎の価値関数Ｑ_{ｃｙｃｌｅ＿ｉ}、Ｑ_{ｔｏｏｌ＿ｉ}は、価値関数更新部２２２により更新される。

　最適化行動情報出力部２０５ａは、第１実施形態の最適化行動情報出力部２０５と同様に、価値関数更新部２２２ａがＱ学習を行うことにより更新した加工時間優先モードの価値関数Ｑ_{ｃｙｃｌｅ}又は工具寿命優先モードの価値関数Ｑ_ｔｏｏｌに基づいて、価値関数の値が最大となる動作を数値制御装置１０１ａに行わせるための固定サイクル（ｉ）における行動情報（最適化行動情報）ａを生成する。
　より具体的には、最適化行動情報出力部２０５ａは、価値関数記憶部２０４が記憶している加工時間優先モードの価値関数Ｑ_{ｃｙｃｌｅ}及び工具寿命優先モードの価値関数Ｑ_ｔｏｏｌを取得する。そして、最適化行動情報出力部２０５ａは、取得した加工時間優先モードの価値関数Ｑ_{ｃｙｃｌｅ}に基づく固定サイクル（ｉ）における行動情報と、取得した加工時間優先モードの価値関数Ｑ_ｔｏｏｌに基づく固定サイクル（ｉ）における行動情報とを生成し、生成した固定サイクル（ｉ）における各行動情報を数値制御装置１０１ａに対して出力する。この最適化行動情報には、行動情報出力部２０３ａがＱ学習の過程において出力する行動情報と同様に、更新された１回分の切り込み量及び切削速度の値を示す情報が含まれる。
　以上、機械学習装置２０Ａに含まれる機能ブロックについて説明した。

　次に、図８のフローチャートを参照して本実施形態におけるＱ学習時の機械学習装置２０Ａの動作について説明をする。
　図８は、第２実施形態におけるＱ学習時の機械学習装置２０Ａの動作を示すフローチャートである。なお、図８のフローチャートのうち、図３に示したステップと同様の処理については、同じステップ番号を付し、詳細な説明は省略する。

　ステップＳ１１ａにおいて、制御部２０６は、加工プログラムの試行回数ｊを初期設定、すなわち「１」として状態情報取得部２０１ａに状態情報の取得を指示する。

　ステップＳ１１ｂにおいて、制御部２０６は、ｉを「１」に初期化する。

　ステップＳ１２ａにおいて、状態情報取得部２０１ａは、数値制御装置１０１ａから固定サイクル（ｉ）の状態データｓ（ｉ）を取得する。取得した状態データｓ（ｉ）は、行動情報生成部２２３ａに対して出力される。上述したように、この状態データ（状態情報）ｓ（ｉ）は、Ｑ学習における固定サイクル（ｉ）における状態ｓ（ｉ）に相当する情報であり、ステップＳ１２ａ時点での、１回分の切り込み量、切削速度、工具の材質、工具の形状、工具径、工具長、残り工具寿命、加工対象のワークの材質、工具カタログの切削条件、主軸回転数、モータ電流値、機械温度、及び周囲温度、が含まれる。なお、最初にＱ学習を開始する時点での状態データは、予めオペレータが生成するようにする。

　ステップＳ１３ａにおいて、行動情報生成部２２３ａは、加工時間優先モード又は工具寿命優先モードにおける機械学習により、加工時間優先モード及び工具寿命優先モードの固定サイクル（ｉ）における新たな行動情報ａ（ｉ）を生成し、生成した加工時間優先モード及び工具寿命優先モードの新たな行動情報ａ（ｉ）を、行動情報出力部２０３ａを介して数値制御装置１０１ａに対して出力する。数値制御装置１０１ａは、受信した加工時間優先モード及び工具寿命優先モードの行動情報ａ（ｉ）のうち、設定装置１１１により選択された行動情報ａ（ｉ）に基づいて、固定サイクル（ｉ）で設定された１回分の切り込み量及び切削速度が更新された加工プログラムを実行する。数値制御装置１０１ａは、更新された固定サイクル（ｉ）に基づいて動作指令を生成し、生成した動作指令に基づいて工作機械１０に切削加工を行わせる。そして、数値制御装置１０１ａは、固定サイクル（ｉ）が完了した場合、加工プログラムをストップする。

　ステップＳ１４において、状態情報取得部２０１ａは、第１実施形態におけるステップＳ１４と同様の処理を行い、数値制御装置１０１ａから取得した固定サイクル（ｉ）における新たな状態データｓ´（ｉ）を取得する。

　ステップＳ１５において、状態情報取得部２０１ａは、第１実施形態におけるステップＳ１５と同様の処理を行い、固定サイクル（ｉ）における新たな状態ｓ´（ｉ）についての判定情報を取得する。取得した判定情報は、学習部２０２ａに出力される。

　ステップＳ１６において、報酬計算部２２１ａは、第１実施形態におけるステップＳ１６と同様の処理を行い、取得された判定情報に基づいて図４の報酬算算処理を行い、加工時間優先モードの固定サイクル（ｉ）の報酬ｒ_{ｃｙｃｌｅ}（ｉ）、及び工具寿命優先モードの固定サイクル（ｉ）の報酬ｒ_ｔｏｏｌ（ｉ）をそれぞれ算出する。

　ステップＳ１７において、価値関数更新部２２２ａは、第１実施形態におけるステップＳ１７と同様の処理を行い、計算された固定サイクル（ｉ）の報酬ｒ_{ｃｙｃｌｅ}（ｉ）及び報酬ｒ_ｔｏｏｌ（ｉ）に基づいて、価値関数記憶部２０４ａが記憶している固定サイクル（ｉ）の加工時間優先モードの価値関数Ｑ_{ｃｙｃｌｅ＿ｉ}、及び工具寿命優先モードの価値関数Ｑ_{ｔｏｏｌ＿ｉ}をそれぞれ更新する。

　ステップＳ１７ａにおいて、制御部２０６は、ｉがｎより小さいか否かを判定する。ｉがｎより小さい場合、処理はステップＳ１７ｂに進む。一方、ｉがｎ以上の場合、処理はステップＳ１８に進む。

　ステップＳ１７ｂにおいて、制御部２０６は、ｉを「１」増加させる。処理はステップＳ１２ａに戻る。

　ステップＳ１８において、制御部２０６は、第１実施形態におけるステップＳ１８と同様の処理を行い、機械学習を始めてからの加工プログラムの試行回数ｊが最大試行回数に到達したかどうかを判断する。最大試行回数に到達していなければ、ステップＳ１９で試行回数ｊを「１」カウントアップして、ステップＳ１１ｂに戻る。ステップＳ１１ｂからステップＳ１９までの処理は最大試行回数に到達するまで繰り返し行われる。

　なお、図８のフローは、加工プログラムの試行回数ｊが最大試行回数に到達したときに処理を終了させているが、ステップＳ１１ｂからステップＳ１９の処理に係る時間を、機械学習を始めてから累積した時間が、予め設定された最大経過時間を超えた（又は以上になった）ことを条件として処理を終了するようにしてもよい。
　また、ステップＳ１７はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

　以上、図８を参照して説明した動作により、本実施形態では、変種変量生産等の現場において、オペレータの手間を増やすことなく、加工プログラムの固定サイクルを最適化するための価値関数Ｑ_{ｃｙｃｌｅ}、Ｑ_ｔｏｏｌを生成することができる。

　なお、最適化行動情報出力部２０５ａによる最適化行動情報の生成時の動作については、固定サイクル（ｉ）毎に最適化行動情報を生成する点を除き、図５のフローチャートと同様であり説明を省略する。

　以上のように、数値制御装置１０１ａは、設定装置１１１で選択された固定サイクル（ｉ）毎の加工時間優先モード又は工具寿命優先モードにおける行動に応じて固定サイクル（ｉ）で設定された１回分の切り込み量及び切削速度が更新された加工プログラムを実行することにより、変種変量生産等の現場において、オペレータの手間を増やすことなく、加工プログラムを最適化することができる。これにより、数値制御装置１０１は、加工に要する時間（すなわち、サイクルタイム）を優先して加工したり、工具寿命を優先して加工したりすることができる。
　また、数値制御装置１０１ａは、オペレータにより１回分の切り込み量及び切削速度の引数の設定が不要になり、加工プログラムの作成の手間を削減することができる。
　以上、第２実施形態について説明した。

　以上、第１実施形態及び第２実施形態について説明したが、数値制御装置１０１、１０１ａ、及び機械学習装置２０、２０Ａは、上述の実施形態に限定されるものではなく、目的を達成できる範囲での変形、改良等を含む。

＜変形例１＞
　上述の第１実施形態及び第２実施形態では、機械学習装置２０、２０Ａは、加工時間優先モードと工具寿命優先モードとにおける機械学習を交互に行っているが、これに限定されない。例えば、機械学習装置２０、２０Ａは、加工時間優先モードにおける機械学習と、工具寿命優先モードにおける機械学習とを別々に行うようにしてもよい。

＜変形例２＞
　また例えば、上述の第１実施形態及び第２実施形態では、設定装置１１１は、工作機械１０で使用中の工具の残り工具寿命と予め設定された閾値との比較に基づいて、加工時間優先モードにおける行動、又は工具寿命優先モードにおける行動を選択したが、これに限定されない。
　例えば、工具の残り工具寿命が５％、残り加工部品数が３個、及び加工一回当たりの工具寿命減少量が０．１％の場合、残り加工部品数が３個のワークを加工した後の残り工具寿命は４．７％で、０％にならない。そこで、設定装置１１１は、残り工具寿命が閾値以下でも残り加工部品数のワークを加工しても０％にならない場合、加工時間優先モードにおける行動を選択してもよい。
　これにより、残り工具寿命が少ない場合でも、残り加工部品数に対して残り工具寿命が残っていれば、加工に要する時間（サイクルタイム）を落とさずに加工することができる。

＜変形例３＞
　また例えば、上述の第１実施形態及び第２実施形態では、機械学習装置２０、２０Ａは、数値制御装置１０１、１０１ａと異なる装置として例示したが、機械学習装置２０、２０Ａの一部又は全部の機能を、数値制御装置１０１、１０１ａが備えるようにしてもよい。
　あるいは、機械学習装置２０の状態情報取得部２０１、学習部２０２、行動情報出力部２０３、価値関数記憶部２０４、最適化行動情報出力部２０５、及び制御部２０６、又は機械学習装置２０Ａの状態情報取得部２０１ａ、学習部２０２ａ、行動情報出力部２０３ａ、価値関数記憶部２０４ａ、最適化行動情報出力部２０５ａ、及び制御部２０６の一部又は全部を、例えば、サーバが備えるようにしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置２０、２０Ａの各機能を実現してもよい。
　さらに、機械学習装置２０、２０Ａは、機械学習装置２０、２０Ａの各機能を適宜複数のサーバに分散される、分散処理システムとしてもよい。

＜変形例４＞
　また例えば、上述の第１実施形態及び第２実施形態では、制御システム１において、１つの工作機械１０と、１つの機械学習装置２０、２０Ａと、が通信可能に接続されたが、これに限定されない。例えば、図９に示すように、制御システム１は、ｍ個の工作機械１０Ａ（１）－１０Ａ（ｍ）と、ｍ個の機械学習装置２０Ｂ（１）－２０Ｂ（ｍ）とを有してもよい（ｍは２以上の整数）。この場合、機械学習装置２０Ｂ（ｊ）は、ネットワーク５０を介して工作機械１０Ａ（ｊ）と１対１に通信可能に接続され、工作機械１０Ａ（ｊ）に対して機械学習を実施するようにしてもよい（ｊは１からｍの整数）。
　なお、機械学習装置２０Ｂ（ｊ）の価値関数記憶部２０４（２０４ａ）に記憶された価値関数Ｑ_{ｃｙｃｌｅ}、Ｑ_ｔｏｏｌ（Ｑ_{ｃｙｃｌｅ＿ｉ}、Ｑ_{ｔｏｏｌ＿ｉ}）は、他の機械学習装置２０Ｂ（ｋ）との間で共有されるようにしてもよい（ｋは１からｍの整数であり、ｋ≠ｊ）。価値関数Ｑ_{ｃｙｃｌｅ}、Ｑ_ｔｏｏｌ（Ｑ_{ｃｙｃｌｅ＿ｉ}、Ｑ_{ｔｏｏｌ＿ｉ}）を機械学習装置２０Ｂ（１）－２０Ｂ（ｍ）で共有するようにすれば、各機械学習装置２０Ｂにて分散して強化学習を行うことが可能となり、強化学習の効率を向上させることが可能となる。
　なお、工作機械１０Ａ（１）－１０Ａ（ｍ）の各々は、図１又は図６の工作機械１０に対応する。また、機械学習装置２０Ｂ（１）－２０Ｂ（ｍ）の各々は、図１の機械学習装置２０又は図６の機械学習装置２０Ａに対応する。

　また、図１０に示すように、サーバ６０は、機械学習装置２０（２０Ａ）として動作し、ネットワーク５０を介してｍ個の工作機械１０Ａ（１）－１０Ａ（ｍ）と通信可能に接続され、工作機械１０Ａ（１）－１０Ａ（ｍ）の各々に対して機械学習を実施するようにしてもよい。

　なお、第１実施形態及び第２実施形態における、数値制御装置１０１、１０１ａ、及び機械学習装置２０、２０Ａに含まれる各機能は、ハードウェア、ソフトウェア又はこれらの組み合わせによりそれぞれ実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

　数値制御装置１０１、１０１ａ、及び機械学習装置２０、２０Ａに含まれる各構成部は、電子回路等を含むハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、コンピュータにインストールされる。また、これらのプログラムは、リムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。また、ハードウェアで構成する場合、上記の装置に含まれる各構成部の機能の一部又は全部を、例えば、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ゲートアレイ、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、ＣＰＬＤ（Ｃｏｍｐｌｅｘ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）等の集積回路（ＩＣ）で構成することができる。

　プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（Ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ　ｃｏｍｐｕｔｅｒ　ｒｅａｄａｂｌｅ　ｍｅｄｉｕｍ）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（Ｔａｎｇｉｂｌｅ　ｓｔｏｒａｇｅ　ｍｅｄｉｕｍ）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ－ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　ＰＲＯＭ）、フラッシュＲＯＭ、ＲＡＭ）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（Ｔｒａｎｓｉｔｏｒｙ　ｃｏｍｐｕｔｅｒ　ｒｅａｄａｂｌｅ　ｍｅｄｉｕｍ）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は、無線通信路を介して、プログラムをコンピュータに供給できる。

　なお、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

　以上を換言すると、本開示の機械学習装置、設定装置、数値制御システム、数値制御装置、及び機械学習方法は、次のような構成を有する各種各様の実施形態を取ることができる。

　（１）本開示の機械学習装置２０は、加工プログラムに基づいて工作機械１０を動作させる数値制御装置１０１に対して機械学習を行う機械学習装置であって、少なくとも１回分の切り込み量及び切削速度が設定された加工プログラムを数値制御装置１０１が実行することで、工作機械１０に切削加工を行わせることにより、１回分の切り込み量及び切削速度を含む状態情報を、取得する状態情報取得部２０１と、状態情報に含まれる１回分の切り込み量及び切削速度の調整情報を含む行動情報を出力する行動情報出力部２０３と、少なくとも切削加工における工具にかかる圧力の強さと、工具にかかる圧力の波形の形状と、加工に要した時間とについての情報である判定情報を取得し、取得した判定情報に基づいて、所定の条件に応じた強化学習における報酬値を出力する報酬計算部２２１と、報酬値と、状態情報と、行動情報とに基づいて価値関数Ｑを更新する価値関数更新部２２２と、を備える。
　この機械学習装置２０によれば、オペレータの手間を増やすことなく、加工プログラムを最適化することができる。

　（２）　（１）に記載の機械学習装置２０において、所定の条件は、加工時間を優先する条件、及び工具の寿命を優先する条件のいずれかであり、報酬計算部２２１は、加工時間を優先する条件では報酬ｒ_{ｃｙｃｌｅ}を出力し、工具の寿命を優先する条件では報酬ｒ_ｔｏｏｌを出力し、価値関数更新部２２２は、加工時間を優先する条件では報酬ｒ_{ｃｙｃｌｅ}と、状態情報と、行動情報とに基づいて価値関数Ｑ_{ｃｙｃｌｅ}を更新し、工具の寿命を優先する条件では報酬ｒ_ｔｏｏｌと、状態情報と、行動情報とに基づいて価値関数Ｑ_ｔｏｏｌを更新してもよい。
　そうすることで、オペレータの手間を増やすことなく、加工プログラムの固定サイクルを最適化するための価値関数Ｑ_{ｃｙｃｌｅ}、Ｑ_ｔｏｏｌを生成することができる。

　（３）　（２）に記載の機械学習装置２０、２０Ａにおいて、機械学習は、加工プログラムが実行される毎、又は加工プログラムに含まれる複数の固定サイクルそれぞれが実行される毎に行われてもよい。
　そうすることで、ワーク加工毎、固定サイクル毎に加工プログラムを最適化することができる。

　（４）　（２）又は（３）に記載の機械学習装置２０、２０Ａにおいて、報酬ｒ_{ｃｙｃｌｅ}に基づいて更新された価値関数Ｑ_{ｃｙｃｌｅ}の値が最大となる行動情報、及び報酬ｒ_ｔｏｏｌに基づいて更新された価値関数Ｑ_ｔｏｏｌの値が最大となる行動情報を出力する最適化行動情報出力部２０５、２０５ａをさらに備えてもよい。
　そうすることで、機械学習装置２０、２０Ａは、工具の状態に応じて加工プログラムを最適化することができる。

　（５）　（１）に記載の機械学習装置２０において、報酬計算部２２１は、判定情報に含まれる加工に要した時間が前回の加工に要した時間より減少した場合に報酬ｒ_{ｃｙｃｌｅ}、ｒ_ｔｏｏｌを正の値とし、加工に要した時間が前回の加工に要した時間より増加した場合に報酬ｒ_{ｃｙｃｌｅ}、ｒ_ｔｏｏｌを負の値としてもよい。
　そうすることで、機械学習装置２０は、加工に要した時間に応じて加工プログラムを最適化することができる。

　（６）　（１）に記載の機械学習装置２０において、報酬計算部２２１は、判定情報に含まれる工具にかかる圧力の波形の形状が少なくとも工具が破壊される予兆を示す波形の形状及び工具の寿命の急激な減少を示す波形の形状と相似しない場合に報酬ｒ_{ｃｙｃｌｅ}、ｒ_ｔｏｏｌを正の値とし、工具にかかる圧力の波形の形状が少なくとも工具が破壊される予兆を示す波形の形状又は工具の寿命の急激な減少を示す波形の形状と相似する場合に報酬ｒ_{ｃｙｃｌｅ}、ｒ_ｔｏｏｌを負の値としてもよい。
　そうすることで、機械学習装置２０は、加工の安全を考慮しつつ加工プログラムを最適化することができる。

　（７）　（１）から（６）のいずれかに記載の機械学習装置２０、２０Ａにおいて、機械学習の最大試行回数を設けて、機械学習を行ってもよい。
　そうすることで、機械学習装置２０、２０Ａは、機械学習が長時間に亘って行われることを回避することができる。

　（８）本開示の設定装置１１１は、（１）から（７）のいずれかに記載の機械学習装置から取得した行動のうち予め設定された閾値に基づいていずれかの行動を選択して、選択した行動を加工プログラムに設定する。
　この設定装置１１１によれば、（１）から（７）と同様の効果を奏することができる。

　（９）本開示の数値制御システム１は、（１）から（７）のいずれかに記載の機械学習装置２０、２０Ａと、（８）に記載の設定装置１１１と、設定装置１１１によって設定された加工プログラムを実行する数値制御装置１０１、１０１ａと、を備える。
　この数値制御システム１によれば、（１）から（７）と同様の効果を奏することができる。

　（１０）本開示の数値制御装置１０１、１０１ａは、（１）から（７）のいずれかに記載の機械学習装置２０、２０Ａと、（８）に記載の設定装置１１１と、を含み、設定装置１１１によって設定された加工プログラムを実行する。
　この数値制御装置１０１、１０１ａによれば、（１）から（７）と同様の効果を奏することができる。

　（１１）本開示の数値制御方法は、加工プログラムに基づいて工作機械１０を動作させる数値制御装置１０１、１０１ａに対して機械学習を行う機械学習装置２０、２０Ａの機械学習方法であって、少なくとも１回分の切り込み量及び切削速度が設定された加工プログラムを数値制御装置１０１、１０１ａが実行することで、工作機械１０に切削加工を行わせることにより、１回分の切り込み量及び切削速度を含む状態情報を、取得し、状態情報に含まれる１回分の切り込み量及び切削速度の調整情報を含む行動情報を出力し、少なくとも切削加工における工具にかかる圧力の強さと、工具にかかる圧力の波形の形状と、加工に要した時間とについての情報である判定情報を取得し、取得した判定情報に基づいて、所定の条件に応じた強化学習における報酬値を出力し、報酬値と、状態情報と、行動情報とに基づいて価値関数Ｑを更新する。
　この数値制御方法によれば、（１）と同様の効果を奏することができる。

　１　数値制御システム
　１０　工作機械
　１０１、１０１ａ　数値制御装置
　１１１　設定装置
　２０、２０Ａ　機械学習装置
　２０１、２０１ａ　状態情報取得部
　２０２、２０２ａ　学習部
　２２１、２２１ａ　報酬計算部
　２２２、２２２ａ　価値関数更新部
　２２３、２２３ａ　行動情報生成部
　２０３、２０３ａ　行動情報出力部
　２０４、２０４ａ　価値関数記憶部
　２０５、２０５ａ　最適化行動情報出力部
　２０６　制御部

Claims

　加工プログラムに基づいて工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置であって、
　少なくとも１回分の切り込み量及び切削速度が設定された前記加工プログラムを前記数値制御装置が実行することで、前記工作機械に切削加工を行わせることにより、前記１回分の切り込み量及び前記切削速度を含む状態情報を、取得する状態情報取得部と、
　前記状態情報に含まれる前記１回分の切り込み量及び前記切削速度の調整情報を含む行動情報を出力する行動情報出力部と、
　少なくとも前記切削加工における工具にかかる圧力の強さと、前記工具にかかる前記圧力の波形の形状と、加工に要した時間とについての情報である判定情報を取得し、取得した前記判定情報に基づいて、所定の条件に応じた強化学習における報酬値を出力する報酬計算部と、
　前記報酬値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新部と、
　を備える機械学習装置。
　前記所定の条件は、加工時間を優先する条件、及び前記工具の寿命を優先する条件のいずれかであり、
　前記報酬計算部は、前記加工時間を優先する条件では第１報酬値を出力し、前記工具の寿命を優先する条件では第２報酬値を出力し、
　前記価値関数更新部は、前記加工時間を優先する条件では前記第１報酬値と、前記状態情報と、前記行動情報とに基づいて第１価値関数を更新し、前記工具の寿命を優先する条件では前記第２報酬値と、前記状態情報と、前記行動情報とに基づいて第２価値関数を更新する、請求項１に記載の機械学習装置。
　前記機械学習は、前記加工プログラムが実行される毎、又は前記加工プログラムに含まれる複数の固定サイクルそれぞれが実行される毎に行われる、請求項２に記載の機械学習装置。
　前記第１報酬値に基づいて更新された前記第１価値関数の値が最大となる第１行動情報、及び前記第２報酬値に基づいて更新された前記第２価値関数の値が最大となる第２行動情報を出力する最適化行動情報出力部をさらに備える、請求項２又は請求項３に記載の機械学習装置。
　前記報酬計算部は、前記判定情報に含まれる前記加工に要した時間が前回の加工に要した時間より減少した場合に前記報酬値を正の値とし、前記加工に要した時間が前回の加工に要した時間より増加した場合に前記報酬値を負の値とする、請求項１に記載の機械学習装置。
　前記報酬計算部は、前記判定情報に含まれる前記工具にかかる圧力の波形の形状が少なくとも前記工具が破壊される予兆を示す波形の形状及び前記工具の寿命の急激な減少を示す波形の形状と相似しない場合に前記報酬値を正の値とし、前記工具にかかる圧力の波形の形状が少なくとも前記工具が破壊される予兆を示す波形の形状又は前記工具の寿命の急激な減少を示す波形の形状と相似する場合に前記報酬値を負の値とする、請求項１に記載の機械学習装置。
　前記機械学習の最大試行回数を設けて、前記機械学習を行う、請求項１から請求項６のいずれか１項に記載の機械学習装置。
　請求項１から請求項７のいずれか１項に記載の機械学習装置から取得した行動のうち予め設定された閾値に基づいていずれかの行動を選択して、選択した前記行動を前記加工プログラムに設定する設定装置。
　請求項１から請求項７のいずれか１項に記載の機械学習装置と、
　請求項８に記載の設定装置と、
　前記設定装置によって設定された前記加工プログラムを実行する数値制御装置と、
　を備える数値制御システム。
　請求項１から請求項７のいずれか１項に記載の機械学習装置と、請求項８に記載の設定装置と、を含み、前記設定装置によって設定された前記加工プログラムを実行する数値制御装置。
　加工プログラムに基づいて工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
　少なくとも１回分の切り込み量及び切削速度が設定された前記加工プログラムを前記数値制御装置が実行することで、前記工作機械に切削加工を行わせることにより、前記１回分の切り込み量及び前記切削速度を含む状態情報を、取得し、
　前記状態情報に含まれる前記１回分の切り込み量及び前記切削速度の調整情報を含む行動情報を出力し、
　少なくとも前記切削加工における工具に係る圧力の強さと、前記工具に係る前記圧力の波形の形状と、加工に要した時間とについての情報である判定情報を取得し、取得した前記判定情報に基づいて、所定の条件に応じた強化学習における報酬値を出力し、
　前記報酬値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、
　機械学習方法。