TWI751511B

TWI751511B - 推論裝置、機器控制系統以及學習裝置

Info

Publication number: TWI751511B
Application number: TW109108950A
Authority: TW
Inventors: 老木智章
Original assignee: 日商三菱電機股份有限公司
Priority date: 2019-09-05
Filing date: 2020-03-18
Publication date: 2022-01-01
Also published as: KR20220031137A; JPWO2021044576A1; US20220118612A1; WO2021044576A1; DE112019007598B4; TW202111612A; JP6956931B1; DE112019007598T5; CN114270370A

Abstract

推論裝置(100)係包括：特徵量抽出器(3)，係受理與包含控制裝置(1)及由控制裝置(1)所控制之機器(2)的環境(E)有關之狀態值(s_t )的輸入，輸出是對應於狀態值(s_t )之特徵向量(v_t )並比狀態值(s_t )高維的特徵向量(v_t )；及控制器4，係受理特徵向量v_t 的輸入，並輸出對應於特徵向量v_t 的控制量A_t 。

Description

推論裝置、機器控制系統以及學習裝置

本發明係有關於一種推論裝置、機器控制系統以及學習裝置。

以往，開發一種將所謂的「強化學習」應用於影像處理等的技術(例如，參照專利文獻1)。一般，在與影像處理等有關之強化學習，係從影像等所得之狀態值的個數大。即，從影像等所得之特徵向量的維數大。因此，對從影像等所得之特徵向量的維數，從減少agent所輸入的特徵向量之維數的觀點，使用特徵量抽出器。這是為了避免因agent所輸入之特徵向量的維數過大而學習之效率及推論之效率降低。換言之，這係為了提高學習之效率及推論之效率。 [先行專利文獻] [專利文獻]

[專利文獻1] 國際公開第2017/019555號

[發明所欲解決之課題]

近年來，開發一種將強化學習應用於機器(例如機器人或無人駕駛車)之動作控制的技術。一般，從包含機器之環境所得之狀態值的個數係比從影像所得之狀態值的個數小。即，從包含機器之環境所得之特徵向量的維數係比從影像等所得之特徵向量的維數小。因此，在與機器之動作控制有關的強化學習，係由於使用與以往之特徵量抽出器相同的特徵量抽出器，而具有無法提高學習之效率及推論之效率的問題。

以下，在藉強化學習控制機器的動作時，有時將學習的效率、推論之效率或機器之動作的效率只總稱為「效率」。

本發明係為了解決這種課題所開發者，其目的在於在藉強化學習控制機器的動作時，圖謀提高效率。 [解決課題之手段]

本發明之推論裝置係包括：特徵量抽出器，係受理與包含控制裝置及由該控制裝置所控制之機器的環境有關之狀態值的輸入，輸出是對應於狀態值之特徵向量並比狀態值高維的特徵向量；及控制器，係受理特徵向量的輸入，並輸出對應於特徵向量的控制量。

本發明之學習裝置係具有第1特徵量抽出器之推論裝置用的學習裝置，該第1特徵量抽出器係受理與包含控制裝置及由該控制裝置所控制之機器的環境有關之第1狀態值的輸入，輸出是對應於第1狀態值之第1特徵向量並比第1狀態值高維的第1特徵向量，該學習裝置係包括：第2特徵量抽出器，係受理第1特徵向量及與環境有關之行動值的輸入，輸出是與第1特徵向量及行動值對應之第2特徵向量並比第1特徵向量及行動值高維的第2特徵向量；及學習器，係受理第2特徵向量及與環境有關之第2狀態值的輸入，並使用第2特徵向量及第2狀態值，更新第1特徵量抽出器之參數。 [發明之效果]

若依據本發明，因為如上述所示構成，所以在藉強化學習控制機器的動作時，可圖謀效率的提高。

以下，為了更詳細地說明本發明，根據附加之圖面，說明本發明之實施形態。實施形態1

圖1係表示實施形態1之機器控制系統之主要部的方塊圖。圖2係表示藉實施形態1之機器控制系統所控制的機器人之例子的說明圖。圖3係表示在實施形態1之機器控制系統的特徵量抽出器及控制器之主要部的說明圖。圖4A係表示在實施形態1之機器控制系統的特徵量抽出器內之各個層所具有之構造的說明圖。圖4B係表示在實施形態1之機器控制系統的特徵量抽出器內之各個層所具有之其他的構造的說明圖。參照圖1~圖4，說明實施形態1之機器控制系統。

如圖1所示，環境E係包含控制裝置1及機器人2。控制裝置1係控制機器人2的動作。如圖2所示，機器人2係例如由機器手臂所構成。

如圖1所示，形成由控制裝置1、特徵量抽出器3以及控制器4所構成之迴路。控制裝置1係輸出表示機器人2之狀態的狀態值s_t 。特徵量抽出器3係受理該輸出之狀態值s_t 的輸入。特徵量抽出器3係輸出對應於該輸入之狀態值s_t 的特徵向量v_t 。控制器4係受理該輸出之特徵向量v_t 的輸入。控制器4係輸出對應於該輸入之特徵向量v_t 的控制量A_t 。控制裝置1係受理該輸出之控制量A_t 的輸入。控制裝置1係使用該輸入之控制量A_t ，控制機器人2的動作。藉此，更新機器人2的狀態。控制裝置1係輸出表示該更新之狀態的狀態值s_t 。

狀態值s_t 係例如是包含表示該機器手臂的手之位置的值、及表示該機器手臂的手之速度的值。控制量A_t 係例如是包含在該機器手臂的動作控制所使用之扭矩的值。

如圖3所示，特徵量抽出器3係由神經網路NN1所構成。神經網路NN1係具有複數個層L1。各個層L1係例如由所謂的「全連接層」(以下記載為「FC層」)構成。此處，各個層L1係具有如以下所示之構造S。

第一，構造S係受理由前一個層L1所輸出之向量(以下稱為「第1向量」)x1的輸入。但，在複數個層L1中之最初的層L1之構造S所輸入的第1向量x1係不是由前一個層L1所輸出之向量，而是表示由控制裝置1所輸出之狀態值s_t 的向量。

第二，構造S係產生將該輸入之第1向量x1變換而成的向量(以下稱為「第2向量」)x2。藉此，例如，產生具有比第1向量x1之維數更小之維數的第2向量x2。換言之，例如，產生比第1向量x1低維的第2向量x2。

第三，構造S係產生根據該輸入之第1向量x1的向量(以下稱為「第3向量」)x3。藉此，例如，產生具有與第1向量x1之維數相同之維數的第3向量x3。

第四，構造S係產生將該產生之第2向量x2及該產生之第3向量x3結合而成的向量(以下稱為「第4向量」)x4。藉此，產生具有比第1向量x1之維數更大之維數的第4向量x4。換言之，例如，產生比第1向量x1高維的第4向量x4。

第五，構造S係向下一個層L1輸出該產生之第4向量x4。但，在複數個層L1中之最後的層L1之構造S係向控制器4輸出該產生之第4向量x4。由在最後的層L1之構造S所輸出的第4向量x4係成為控制器4所輸入之特徵向量v_t 。

圖4A及圖4B之各圖係表示構造S的例子。在圖4A所示的例子，第3向量x3係將第1向量x1複製而成。換言之，第3向量x3係與第1向量x1相同的向量。在此情況，構造S係執行複製第1向量x1的處理(以下稱為「複製處理」)。又，構造S係包含執行將第1向量x1變換成第2向量x2的處理(以下稱為「第1變換處理」)之學習型的變換器(以下稱為「第1變換器」)11。第1變換器11係例如由FC層所構成。

另一方面，在圖4B所示的例子，第3向量x3係將第1向量x1變換而成。在此情況，構造S係不僅包含第1變換器11，而且包含執行將第1向量x1變換成第3向量x3的處理(以下稱為「第2變換處理」)之非學習型的變換器(以下稱為「第2變換器」)12。第2變換器12係根據既定變換規則將第1向量x1變換成第3向量x3。

藉由各個層L1具有構造S，可使控制器4所輸入之特徵向量v_t 的維數比特徵量抽出器3所輸入之狀態值s_t 的個數大。藉此，即使是從環境E所得之狀態值s_t 的個數小的情況，亦在推論裝置100的推論可使用高維的特徵向量v_t 。換言之，可使在推論裝置100之推論所使用的資訊量變大。結果，可高效率地控制機器人2的動作。

即，在機器之動作控制的強化學習，在若使與以往之特徵量抽出器相同之特徵量抽出器的情況，agent所輸入之特徵向量的維數成為更小。Agent所輸入之特徵向量的維數小，這意指在推論所使用之資訊量小。因此，在此情況，由於在推論所使用之資訊量小，而具有難實現對應於高的報酬值之推論的問題。結果，具有難高效率地控制機器之動作的問題。

相對地，藉由使用特徵量抽出器3，如上述所示，可使在推論裝置100之推論所使用的資訊量變大。結果，可高效率地控制機器人2的動作。即，可圖謀效率的提高。

又，複製處理係比學習型的第1變換處理簡單。又，非學習型的第2變換處理係比學習型的第1變換處理簡單。因此，在使特徵向量v_t 的維數變大時，藉由使用複製處理或第2變換處理，可減少在推論裝置100的運算量。結果，可提高在推論裝置100之推論的效率。

如圖3所示，控制器4係由神經網路NN2所構成。神經網路NN2係具有複數個層L2。各個層L2係例如由FC層所構成。控制器4係例如，與在所謂的「Actor－Critic」演算法之「Actor」要素對應。即，在推論裝置100之推論係利用強化學習。

如圖1所示，由特徵量抽出器3及控制器4構成推論裝置100之主要部。又，由推論裝置100及控制裝置1構成機器控制系統200之主要部。又，由機器控制系統200及機器人2構成機器人系統300之主要部。

其次，參照圖5，說明推論裝置100之主要部的硬體構成。

如圖5A所示，推論裝置100係具有處理器21及記憶體22。在記憶體22，係記憶用以實現特徵量抽出器3及控制器4之功能的程式。藉由處理器21讀出該程式並執行，實現特徵量抽出器3及控制器4之功能。

或，如圖5B所示，推論裝置100係具有處理電路23。在此情況，特徵量抽出器3及控制器4之功能係藉專用之處理電路23所實現。

或，推論裝置100係具有處理器21、記憶體22以及處理電路23(未圖示)。在此情況，由處理器21及記憶體22實現特徵量抽出器3及控制器4的功能中之一部分的功能，且由專用之處理電路23實現其他的功能。

處理器21係由一個或複數個處理器所構成。各個處理器係例如使用CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、微處理器、微控制器、或DSP(Digital Signal Processor)。

記憶體22係由一個或複數個不揮發性記憶體所構成。或，記憶體22係由一個或複數個不揮發性記憶體及一個或複數個揮發性記憶體所構成。即，記憶體22係由一個或複數個記憶體所構成。各個記憶體係例如使用半導體記憶體、磁碟、光碟、光磁碟、或磁帶。更具體而言，各個揮發性記憶體係例如使用RAM(Random Access Memory)。又，各個不揮發性記憶體係例如使用ROM(Read Only Memory)、快閃記憶體、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、固態驅動器、硬碟驅動器、軟碟、小型光碟、DVD(Digital Versatile Disc)、藍光光碟或迷你光碟。

處理電路23係由一個或複數個數位電路所構成。或，處理電路23係由一個或複數個數位電路及一個或複數個類比電路所構成。即，處理電路23係由一個或複數個處理電路所構成。各個處理電路係例如使用ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)、SoC(System on a Chip)、或系統LSI(Large Scale Integration)。

其次，參照圖6，說明控制裝置1之主要部的硬體構成。

如圖6A所示，控制裝置1係具有處理器31及記憶體32。在記憶體32，係記憶用以實現控制裝置1之功能的程式。藉由處理器31讀出該程式並執行，實現控制裝置1之功能。

或，如圖6B所示，控制裝置1係具有處理電路33。在此情況，控制裝置1之功能係藉專用之處理電路33所實現。

或，控制裝置1係具有處理器31、記憶體32以及處理電路33(未圖示)。在此情況，由處理器31及記憶體32實現控制裝置1的功能中之一部分的功能，且由專用之處理電路33實現其他的功能。

處理器31係由一個或複數個處理器所構成。各個處理器係例如使用CPU、GPU、微處理器、微控制器、或DSP。

記憶體32係由一個或複數個不揮發性記憶體所構成。或，記憶體32係由一個或複數個不揮發性記憶體及一個或複數個揮發性記憶體所構成。即，記憶體32係由一個或複數個記憶體所構成。各個記憶體係例如使用半導體記憶體、磁碟、光碟、光磁碟、或磁帶。更具體而言，各個揮發性記憶體係例如使用RAM。又，各個不揮發性記憶體係例如使用ROM、快閃記憶體、EPROM、EEPROM、固態驅動器、硬碟驅動器、軟碟、小型光碟、DVD、藍光光碟或迷你光碟。

處理電路33係由一個或複數個數位電路所構成。或，處理電路33係由一個或複數個數位電路及一個或複數個類比電路所構成。即，處理電路33係由一個或複數個處理電路所構成。各個處理電路係例如使用ASIC、PLD、FPGA、SoC、或系統LSI。

其次，參照圖7之流程圖，說明機器控制系統200的動作。在控制裝置1輸出狀態值s_t 時，執行步驟ST1的處理。

首先，特徵量抽出器3係受理狀態值s_t 之輸入，並輸出對應於該輸入之狀態值s_t 的特徵向量v_t (步驟ST1)。接著，控制器4係受理特徵向量v_t 之輸入，並輸出對應於該輸入之特徵向量v_t 的控制量A_t (步驟ST2)。然後，控制裝置1係受理控制量A_t 之輸入，並使用該輸入之控制量A_t ，控制機器人2的動作(步驟ST3)。

藉由控制裝置1控制機器人2的動作，更新機器人2的狀態。控制裝置1係輸出表示該更新之狀態的狀態值s_t 。藉此，機器控制系統200之處理係回到步驟ST1。以下，重複地執行步驟ST1~ST3之處理。

其次，參照圖8之流程圖，說明在特徵量抽出器3之各個層L1的動作。即，說明構造S的動作。

首先，構造S係受理第1向量x1之輸入(步驟ST11)。接著，構造S係藉由執行對第1向量x1之第1變換處理，產生第2向量x2(步驟ST12)。然後，構造S係藉由執行對第1向量x1之複製處理或第2變換處理，產生第3向量x3(步驟ST13)。接著，構造S係藉由將第2向量x2及第3向量x3結合，產生第4向量x4(步驟ST14)。然後，構造S係輸出第4向量x4(步驟ST15)。

其次，說明機器控制系統200之變形例。

在神經網路NN1之層L1的個數、及具有構造S之層L1的個數係不是被限定為上述的具體例。這些的個數係只要被設定成控制器4所輸入之特徵向量v_t 的維數比特徵量抽出器3所輸入之狀態值s_t 的個數大即可。

例如，如上述所示，亦可神經網路NN1具有複數個層L1，且該複數個層L1之各個具有構造S。或，例如亦可神經網路NN1係替代具有複數個層L1，而具有一個層L1，且該一個層L1具有構造S。

或，例如，亦可神經網路NN1具有複數個層L1，且該複數個層L1之中之被選擇的2個以上之層L1的各個具有構造S。在此情況，亦可該複數個層L1之中之剩下的一個以上之層L1的各個係不具有構造S。

或，例如，亦可神經網路NN1具有複數個層L1，且該複數個層L1之中之被選擇的一個層L1具有構造S。在此情況，亦可該複數個層L1之中之剩下的一個以上之層L1的各個係不具有構造S。

但，從使在推論裝置100的推論所使用之資訊量成為更大的觀點，使具有構造S之層L1的個數變大是適合。因此，在神經網路NN1設置複數個層L1，且在該複數個層L1之各個設置構造S是適合。

又，在神經網路NN2之層L2的個數係不是被限定為上述的具體例。亦可神經網路NN2係替代具有複數個層L2，而具有一個層L2。即，亦可在推論裝置100之推論係根據所謂的「深層型」的強化學習。或，亦可在推論裝置100之推論係根據非深層型的強化學習。

又，亦可控制裝置1之硬體係與推論裝置100之硬體一體地構成。即，亦可圖6A所示之處理器31係與圖5A所示之處理器21一體地構成。亦可圖6A所示之記憶體32係與圖5A所示之記憶體22一體地構成。亦可圖6B所示之處理電路33係與圖5B所示之處理電路23一體地構成。

又，控制裝置1之控制對象係不是被限定為機器人2。亦可控制裝置1係控制任何之機器的動作。例如，亦可控制裝置1係控制無人駕駛車的動作。

如以上所示，推論裝置100係包括：特徵量抽出器3，係受理與包含控制裝置1及由控制裝置1所控制之機器(例如機器人2)的環境E有關之狀態值s_t 的輸入，輸出是對應於狀態值s_t 之特徵向量v_t 並比狀態值s_t 高維的特徵向量v_t ；及控制器4，係受理特徵向量v_t 的輸入，並輸出對應於特徵向量v_t 的控制量A_t 。藉由使用特徵量抽出器3，可使控制器4所輸入之特徵向量v_t 的維數成為比從環境E所得之狀態值s_t 的個數大。藉此，可使在推論裝置100之推論所使用的資訊量變大。結果，可高效率地控制機器(例如機器人2)的動作。

又，特徵量抽出器3係具有一個層L1或複數個層L1，一個層L1或複數個層L1中之至少一個層L1係具有構造S，該構造S係受理第1向量x1之輸入，藉由將第1向量x1變換，而產生第2向量x2，並產生根據第1向量x1之第3向量x3，再將第2向量x2及第3向量x3結合，藉此，產生比第1向量x1高維的第4向量x4，並輸出第4向量x4。藉由使用構造S，可實現特徵量抽出器3。

又，構造S係包含學習型的第1變換器11，該第1變換器11係藉由將第1向量x1複製，而產生第3向量x3，且將第1向量x1變換成第2向量x2。在使特徵向量v_t 的維數變大時，藉由使用複製處理，可減少在推論裝置100的運算量。結果，可提高在推論裝置100之推論的效率。

又，構造S係包含：學習型的第1變換器11，係藉由將第1向量x1變換，而產生第3向量x3，且將第1向量x1變換成第2向量x2；及非學習型的第2變換器12，係將第1向量x1變換成第3向量x3。在使特徵向量v_t 的維數變大時，藉由使用非學習型的第2變換處理，可減少在推論裝置100的運算量。結果，可提高在推論裝置100之推論的效率。

又，特徵量抽出器3具有複數個層L1，且複數個層L1之各個具有構造S。藉由使具有構造S之層L1的個數變大，可使在推論裝置100之推論所使用的資訊量成為更大。

又，機器控制系統200係具有推論裝置100，機器是機器人2，特徵量抽出器3係受理與包含機器人2的環境E有關之狀態值s_t 的輸入，控制器4係輸出在機器人2之控制所使用的控制量A_t 。藉由使用推論裝置100，如上述所示，可高效率地控制機器人2(例如機器手臂)的動作。實施形態2

圖9係表示實施形態2之強化學習系統之主要部的方塊圖。圖10係表示在實施形態2之強化學習系統的第1特徵量抽出器、第2特徵量抽出器、第1控制器以及學習器之主要部的說明圖。參照圖9及圖10，說明實施形態2之強化學習系統。

如圖9所示，形成由環境E、第1特徵量抽出器41以及第1控制器51所構成之迴路。環境E係輸出表示在環境E之狀態的狀態值(以下稱為「第1狀態值」)s_t 。第1特徵量抽出器41係受理該輸出之第1狀態值s_t 的輸入。第1特徵量抽出器41係輸出對應於該輸入之第1狀態值s_t 的特徵向量(以下稱為「第1特徵向量」)v_t 。第1控制器51係受理該輸出之第1特徵向量v_t 的輸入。第1控制器51係輸出對應於該輸入之第1特徵向量v_t 的行動值a_t 。環境E係受理該輸出之行動值a_t 的輸入。在環境E，執行因應於該輸入之行動值a_t 的行動。藉此，更新在環境E之狀態。環境E係輸出表示該更新之狀態的狀態值(以下稱為「第2狀態值」)s_t 。以下，有時在第2狀態值使用「s_t _＋ ₁ 」之符號。

即，圖9所示之環境E係相當於圖1所示之環境E。因此，圖9所示之環境E係包含控制裝置1及機器人2(未圖示)。又，圖9所示之第1特徵量抽出器41係相當於圖1所示之特徵量抽出器3。圖9所示之第1控制器51係相當於圖1所示之控制器4。又，圖9所示之行動值a_t 係相當於圖1所示之控制量A_t 。

如圖10所示，第1特徵量抽出器41係由神經網路NN1_1所構成。神經網路NN1_1係具有複數個層L1_1。各個層L1_1係例如由FC層所構成。此處，各個層L1_1係具有與構造S相同的構造S_1。關於構造S_1，係因為與在實施形態1參照圖4所說明者相同，所以省略圖示及說明。藉由各個層L1_1具有構造S_1，第1控制器51所輸入之第1特徵向量v_t 的維數成為比第1特徵量抽出器41所輸入之第1狀態值s_t 的個數大。

如圖10所示，第1控制器51係由神經網路NN2所構成。神經網路NN2係具有複數個層L2。各個層L2係例如由FC層所構成。第1控制器51係與在所謂的「Actor－Critic」演算法之「Actor」要素對應。

如圖9所示，不僅設置第1特徵量抽出器41，而且設置第2特徵量抽出器42。由第1特徵量抽出器41及第2特徵量抽出器42構成特徵量抽出器40的主要部。

第2特徵量抽出器42係受理由第1特徵量抽出器41所輸出之第1特徵向量v_t 的輸入。又，第2特徵量抽出器42係受理行動值a_t 之輸入。第2特徵量抽出器42所輸入之行動值a_t 係例如是由環境E內之控制裝置1所輸出。第2特徵量抽出器42係輸出與該輸入之第1特徵向量v_t 及該輸入之行動值a_t 對應的特徵向量(以下稱為「第2特徵向量」)v_t ’。此處，如上述所示，第1特徵向量v_t 係對應於第1狀態值s_t 之特徵向量。第2特徵向量v_t ’係與由第1狀態值s_t 及行動值a_t 所構成之組對應的特徵向量。

如圖10所示，第2特徵量抽出器42係由神經網路NN1_2所構成。神經網路NN1_2係具有複數個層L1_2。各個層L1_2係例如由FC層所構成。此處，各個層L1_2係具有與構造S相同的構造S_2。關於構造S_2，係因為與在實施形態1參照圖4所說明者相同，所以省略圖示及說明。藉由各個層L1_2具有構造S_2，學習器52所輸入之第2特徵向量v_t ’的維數成為比第2特徵量抽出器42所輸入之第1特徵向量v_t 的維數及行動值a_t 之個數的總和大。

如圖9所示，不僅設置第1控制器51，而且設置學習器52。由第1控制器51及學習器52構成agent50的主要部。學習器52係與在所謂的「Actor－Critic」演算法之「Critic」要素對應。

即，如圖10所示，學習器52係具有神經網路NN3。神經網路NN3係具有一個層L3。一個層L3係例如由FC層所構成。神經網路NN3係受理由第2特徵量抽出器42所輸出之第2特徵向量v_t ’的輸入。相對地，神經網路NN3係輸出第2狀態值s_t _＋ ₁ 的預測值s_t _＋ ₁ ’。換言之，神經網路NN3係使用該輸入之第2特徵向量v_t ’，算出預測值s_t _＋ ₁ ’。

又，如圖10所示，學習器52係具有參數設定器61。參數設定器61係受理由神經網路NN3所輸出之預測值s_t _＋ ₁ ’ 的輸入。此外，參數設定器61係受理由環境E內之控制裝置1所輸出的第2狀態值s_t _＋ ₁ 的輸入。參數設定器61係使用該輸入之預測值s_t _＋ ₁ ’及該輸入之第2狀態值s_t _＋ ₁ ，藉強化學習，更新第1特徵量抽出器41的參數P1且更新第1控制器51的參數P2。

更具體而言，參數設定器61係算出根據對第2狀態值s_t _＋ ₁ 之預測值s_t _＋ ₁ ’的差之損失值L。參數設定器61係將參數P1、P2更新成損失值L變小。

由參數設定器61所更新之參數P1係例如包含在神經網路NN1_1之層L1_1的個數(以下稱為「層數」)及在神經網路NN1_1之各個的活化函數。又，由參數設定器61所更新之參數P1係例如包含在神經網路NN1_1之各個之第1變換器(未圖示)的構造。即，由參數設定器61所更新之參數P1係包含複數個參數。一樣地，由參數設定器61所更新之參數P2係包含複數個參數。

如圖9所示，由第1特徵量抽出器41及第1控制器51構成推論裝置100之主要部。又，由第2特徵量抽出器42及學習器52構成學習裝置400之主要部。又，由推論裝置100及學習裝置400構成強化學習系統500之主要部。

關於推論裝置100之主要部的硬體構成，係因為與在實施形態1參照圖5所說明者相同，所以省略圖示及說明。即，第1特徵量抽出器41及第1控制器51的功能係亦可藉處理器21及記憶體22實現，亦可藉處理電路23實現。

其次，參照圖11，說明學習裝置400之主要部的硬體構成。

如圖11A所示，學習裝置400係具有處理器71及記憶體72。在記憶體72，係記憶用以實現第2特徵量抽出器42及學習器52之功能的程式。藉由處理器71讀出該程式並執行，實現第2特徵量抽出器42及學習器52之功能。

或，如圖11B所示，學習裝置400係具有處理電路73。在此情況，第2特徵量抽出器42及學習器52之功能係藉專用之處理電路73實現。

或，學習裝置400係具有處理器71、記憶體72以及處理電路73(未圖示)。在此情況，藉處理器71及記憶體72實現第2特徵量抽出器42及學習器52的功能中之一部分的功能，且藉專用之處理電路73實現其他的功能。

處理器71係由一個或複數個處理器所構成。各個處理器係例如使用CPU、GPU、微處理器、微控制器、或DSP。

記憶體72係由一個或複數個不揮發性記憶體所構成。或，記憶體72係由一個或複數個不揮發性記憶體及一個或複數個揮發性記憶體所構成。即，記憶體72係由一個或複數個記憶體所構成。各個記憶體係例如使用半導體記憶體、磁碟、光碟、光磁碟、或磁帶。更具體而言，各個揮發性記憶體係例如使用RAM。又，各個不揮發性記憶體係例如使用ROM、快閃記憶體、EPROM、EEPROM、固態驅動器、硬碟驅動器、軟碟、小型光碟、DVD、藍光光碟或迷你光碟。

處理電路73係由一個或複數個數位電路所構成。或，處理電路73係由一個或複數個數位電路及一個或複數個類比電路所構成。即，處理電路73係由一個或複數個處理電路所構成。各個處理電路係例如使用ASIC、PLD、FPGA、SoC、或系統LSI。

其次，參照圖12之流程圖，關於強化學習系統500的動作，主要說明第1特徵量抽出器41、第2特徵量抽出器42以及學習器52的動作。即，主要說明與學習裝置400之學習有關的動作。

圖12所示之處理係例如與圖7所示之處理平行地重複地執行。即，學習裝置400之學習係例如與推論裝置100之推論及控制裝置1之控制平行地重複地執行。圖12所示之步驟ST21的處理係相當於圖7所示之步驟ST1的處理。

首先，第1特徵量抽出器41係受理第1狀態值s_t 的輸入，並輸出與該輸入之第1狀態值s_t 對應的第1特徵向量v_t (步驟ST21)。

接著，第2特徵量抽出器42係受理第1特徵向量v_t 及行動值a_t 的輸入，並輸出與該輸入之第1特徵向量v_t 及行動值a_t 對應的第2特徵向量v_t ’(步驟ST22)。

然後，學習器52內的神經網路NN3係受理第2特徵向量v_t ’之輸入，並輸出預測值s_t _＋ ₁ ’ (步驟ST23)。

接著，學習器52內之參數設定器61係受理預測值s_t _＋ ₁ ’及第2狀態值s_t _＋ ₁ 的輸入，並將參數P1、P2更新成損失值L變小(步驟ST24)。

其次，參照圖13，說明使用特徵量抽出器40之效果。更具體而言，主要說明學習之效率提高的效果。

在以下之參考文獻1，係揭示所謂的「Soft Actor－Critic」演算法。 [參考文獻1]

Tuomas Haarnoja Aurick Zhou，Pieter Abbeel ，and Sergey Levine，“Soft Actor－Critic：Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor，”version2，8 August 2018，URL：https：//arxiv.org/pdf/1801.01290v2. pdf

以下，將是使用根據在參考文獻1所記載的「Soft Actor－Critic」演算法之agent的強化學習系統S1，並具有相當於特徵量抽出器40之特徵量抽出器的強化學習系統S1稱為「第1強化學習系統」。又，將是使用根據在參考文獻1所記載的「Soft Actor－Critic」演算法之agent的強化學習系統S2，並不具有相當於特徵量抽出器40之特徵量抽出器的強化學習系統S2稱為「第2強化學習系統」。

即，第1強化學習系統S1係對應於實施形態2之強化學習系統500。另一方面，第2強化學習系統S2係對應於以往之強化學習系統。

在第1強化學習系統S1，相當於第1特徵量抽出器41之特徵量抽出器係具有8個層。該8個層之各個係具有與構造S相同之構造。藉此，該特徵量抽出器所輸出之特徵向量的維數(即，「Actor」要素所輸入之特徵向量的維數)比該特徵量抽出器所輸入之特徵向量的維數(即，與狀態值s_t 對應之特徵向量的維數)增加240。

又，在第1強化學習系統S1，相當於第2特徵量抽出器42之特徵量抽出器係具有16個層。該16個層之各個係具有與構造S相同之構造。藉此，該特徵量抽出器所輸出之特徵向量的維數(即，「Critic」要素所輸入之特徵向量的維數)比該特徵量抽出器所輸入之特徵向量的維數(即，與由狀態值s_t 及行動值a_t 所構成之組對應之特徵向量的維數)增加480。

圖13所示之特性線I係表示使用第1強化學習系統S1之實驗結果的例子。又，在圖13之特性線II係表示使用第2強化學習系統S2之實驗結果的例子。這些實驗結果係根據所謂的「Ant－v2」基準。

在圖13之橫軸係對應於資料數。資料數係對應於強化學習系統S1、S2之各個重複地執行學習及推論時之推論的執行次數。即，資料數係對應於從環境E所得之值(包含狀態值s_t )之個數的累積值。又，在圖13之縱軸係對應於分數。分數係對應於藉行動所得的報酬值r_t ，而該行動係根據強化學習系統S1、S2之各個重複地執行學習及推論時之各次之推論的結果。

即，特性線I係表示在第1強化學習系統S1之學習特性。又，特性線II係表示在第2強化學習系統S2之學習特性。

如圖13所示，藉由使用第1強化學習系統S1，可比使用第2強化學習系統S2的情況更提高對資料數的分數。這表示在實現與既定報酬值r_t 對應之推論時，藉由使用特徵量抽出器40，可減少agent50與環境E之間的對話次數。

又，如圖13所示，藉由使用第1強化學習系統S1，可比使用第2強化學習系統S2的情況更提高分數的最大值。這表示藉由使用特徵量抽出器40，可實現與更高之報酬值r_t 對應的推論。

依此方式，藉由使用特徵量抽出器40，可提高學習的效率。又，可提高推論的效率。

其次，說明強化學習系統500之變形例。

在神經網路NN1_1之層L1_1的個數及具有構造S_1之層L1_1的個數係不是被限定為上述的具體例。這些的個數係只要被設定成第1控制器51所輸入之特徵向量v_t 的維數比第1特徵量抽出器41所輸入之狀態值s_t 的個數大即可。

例如，如上述所示，亦可神經網路NN1_1具有複數個層L1_1，且該複數個層L1_1之各個具有構造S_1。或，例如，亦可神經網路NN1_1替代具有複數個層L1_1，而具有一個層L1_1，且該一個層L1_1之各個具有構造S_1。

或，例如，亦可神經網路NN1_1具有複數個層L1_1，且該複數個層L1_1之中之被選擇的2個以上之層L1_1的各個具有構造S_1。在此情況，亦可該複數個層L1_1之中之剩下的一個以上之層L1_1的各個係不具有構造S_1。

或，例如，亦可神經網路NN1_1具有複數個層L1_1，且該複數個層L1_1之中之被選擇的一個層L1_1具有構造S_1。在此情況，亦可該複數個層L1_1之中之剩下的一個以上之層L1_1的各個係不具有構造S_1。

又，在神經網路NN1_2之層L1_2的個數及具有構造S_2之層L1_2的個數係不是被限定為上述的具體例。這些的個數係只要被設定成學習器52所輸入之第2特徵向量v_t ’的維數比第2特徵量抽出器42所輸入之第1特徵向量v_t 之維數及行動值a_t 之個數的總和大即可。

例如，如上述所示，亦可神經網路NN1_2具有複數個層L1_2，且該複數個層L1_2之各個具有構造S_2。或，例如，亦可神經網路NN1_2替代具有複數個層L1_2，而具有一個層L1_2，且該一個層L1_2之各個具有構造S_2。

或，例如，亦可神經網路NN1_2具有複數個層L1_2，且該複數個層L1_2之中之被選擇的2個以上之層L1_2的各個具有構造S_2。在此情況，亦可該複數個層L1_2之中之剩下的一個以上之層L1_2的各個係不具有構造S_2。

或，例如，亦可神經網路NN1_2具有複數個層L1_2，且該複數個層L1_2之中之被選擇的一個層L1_2具有構造S_2。在此情況，亦可該複數個層L1_2之中之剩下的一個以上之層L1_2的各個係不具有構造S_2。

又，亦可學習裝置400之硬體係與推論裝置100之硬體一體地構成。即，亦可圖11A所示之處理器71係與圖5A所示之處理器21一體地構成。亦可圖11A所示之記憶體72係與圖5A所示之記憶體22一體地構成。亦可圖11B所示之處理電路73係與圖5B所示之處理電路23一體地構成。

如以上所示，學習裝置400係具有第1特徵量抽出器41之推論裝置100用的學習裝置400，該第1特徵量抽出器41係受理與包含控制裝置1及由控制裝置1所控制之機器(例如機器人2)的環境E有關之第1狀態值s_t 的輸入，輸出是對應於第1狀態值s_t 之第1特徵向量v_t 並比第1狀態值s_t 高維的第1特徵向量v_t ，該學習裝置400係包括：第2特徵量抽出器42，係受理第1特徵向量v_t 及與環境E有關之行動值a_t 的輸入，輸出是與第1特徵向量v_t 及行動值a_t 對應之第2特徵向量v_t ’並比第1特徵向量v_t 及行動值a_t 高維的第2特徵向量v_t ’；及學習器52，係受理第2特徵向量v_t ’及與環境E有關之第2狀態值s_t _＋ ₁ 的輸入，並使用第2特徵向量v_t ’及第2狀態值s_t _＋ ₁ ，更新第1特徵量抽出器41之參數P1。藉由使用特徵量抽出器40，如圖13所示，可提高學習的效率。又，可提高推論的效率。

又，第1特徵量抽出器41及第2特徵量抽出器42之各個係具有一個層L1或複數個層L1，一個層L1或複數個層L1中之至少一個層L1係具有構造S，該構造S係受理第1向量x1之輸入，藉由將第1向量x1變換，而產生第2向量x2，並產生根據第1向量x1之第3向量x3，再將第2向量x2及第3向量x3結合，藉此，產生比第1向量x1高維的第4向量x4，並輸出第4向量x4。藉由使用構造S，可實現特徵量抽出器40。

又，學習器52係使用第2特徵向量v_t ’，算出第2狀態值s_t _＋ ₁ 的預測值s_t _＋ ₁ ’，並將參數P1更新成根據對第2狀態值s_t _＋ ₁ 之預測值s_t _＋ ₁ ’的差之損失值L變小。藉此，可實現與第1特徵量抽出器41之學習對應的學習器52。

又，參數P1係包含在第1特徵量抽出器41之層數及在第1特徵量抽出器41之各個的活化函數。藉此，可實現與第1特徵量抽出器41之學習對應的學習器52。實施形態3

圖14係表示實施形態3之強化學習系統之主要部的方塊圖。參照圖14，說明實施形態3之強化學習系統。此外，在圖14，對與圖9所示之方塊相同的方塊係附加相同的符號，並省略說明。

如圖14所示，實施形態3之強化學習系統500係不僅包含推論裝置100及學習裝置400，而且包含記憶裝置81。在記憶裝置81，係記憶由第1狀態值s_t 、對應之行動值a_t 以及對應之第2狀態值s_t _＋ ₁ 所構成的組。更具體而言，記憶複數個組的值(s_t ,a_t , s_t _＋ ₁ )。這些值(s_t ,a_t , s_t _＋ ₁ )係使用與第1控制器51相異之其他的控制器(以下稱為「第2控制器」)所收集。第2控制器係例如是對環境E隨機地動作的控制器。

記憶裝置81係輸出該記憶之值(s_t ,a_t , s_t _＋ ₁ )。亦可在執行學習裝置400之學習時，替代由環境E內之控制裝置1所輸出的值(s_t ,a_t , s_t _＋ ₁ )，而使用由記憶裝置81所輸出的值(s_t ,a_t , s_t _＋ ₁ )。

即，在圖12所示之步驟ST21，亦可第1特徵量抽出器41係替代受理由環境E內之控制裝置1所輸出之第1狀態值s_t 的輸入，而受理由記憶裝置81所輸出之第1狀態值s_t 的輸入。又，在圖12所示之步驟ST22，亦可第2特徵量抽出器42係替代受理由環境E內之控制裝置1所輸出之行動值a_t 的輸入，而受理由記憶裝置81所輸出之行動值a_t 的輸入。又，在圖12所示之步驟ST24，亦可學習器52內之參數設定器61係替代受理由環境E內之控制裝置1所輸出之第2狀態值s_t _＋ ₁ 的輸入，而受理由記憶裝置81所輸出之第2狀態值s_t _＋ ₁ 的輸入。

在此情況，亦可在執行圖7所示的處理之前，預先執行圖12所示的處理。即，亦可在執行推論裝置100之推論及控制裝置1的控制之前，預先執行學習裝置400之學習。

其次，參照圖15，說明記憶裝置81之主要部的硬體構成。

如圖15所示，記憶裝置81係具有記憶體91。記憶裝置81的功能係藉記憶體91所實現。記憶體91係由一個或複數個不揮發性記憶體所構成。各個不揮發性記憶體係例如使用半導體記憶體、磁碟、光碟、光磁碟、或磁帶。更具體而言，各個不揮發性記憶體係例如使用ROM、快閃記憶體、EPROM、EEPROM、固態驅動器、硬碟驅動器、軟碟、小型光碟、DVD、藍光光碟或迷你光碟。

此外，亦可記憶裝置81之硬體係與學習裝置400之硬體一體地構成。即，亦可圖15所示之記憶體91係與圖11A所示之記憶體72一體地構成。

又，亦可記憶裝置81之硬體係與推論裝置100之硬體一體地構成。即，亦可圖15所示之記憶體91係與圖5A所示之記憶體22一體地構成。

此外，實施形態3之強化學習系統500係可採用與在實施形態2所說明者相同之各種的變形例。

如以上所示，推論裝置100係具有第1控制器51，該第1控制器51係受理第1特徵向量v_t 之輸入，並輸出對應於第1特徵向量v_t 之行動值a_t ，第1特徵量抽出器41所輸入之第1狀態值s_t 、第2特徵量抽出器42所輸入之行動值a_t 以及學習器52所輸入之第2狀態值s_t _＋ ₁ 係使用與第1控制器51相異之第2控制器所收集。藉由使用第2控制器，可在執行推論裝置100之推論及控制裝置1的控制之前，預先執行學習裝置400之學習。

又，第2控制器係對環境E隨機地動作。藉此，可收集彼此相異之多個組的值(s_t ,a_t , s_t _＋ ₁ )。

此外，本發明係在本發明的範圍內，可進行各實施形態之自由的組合、或各實施形態之任意之構成元件的變形，或在各實施形態可省略任意之構成元件。 [產業上之可利用性]

本發明之推論裝置、機器控制系統以及學習裝置係例如用於機器的動作控制。

1:控制裝置 2:機器人 3:特徵量抽出器 4:控制器 11:第1變換器 12:第2變換器 21:處理器 22:記憶體 23:處理電路 31:處理器 32:記憶體 33:處理電路 40:特徵量抽出器 41:第1特徵量抽出器 42:第2特徵量抽出器 50:agent 51:第1控制器 52:學習器 61:參數設定器 71:處理器 72:記憶體 73:處理電路 81:記憶裝置 91:記憶體 100:推論裝置 200:機器控制系統 300:機器人系統 400:學習裝置 500:強化學習系統

[圖1]係表示實施形態1之機器控制系統之主要部的方塊圖。 [圖2]係表示藉實施形態1之機器控制系統所控制的機器人之例子的說明圖。 [圖3]係表示在實施形態1之機器控制系統的特徵量抽出器及控制器之主要部的說明圖。 [圖4A]係表示在實施形態1之機器控制系統的特徵量抽出器內之各個層所具有之構造的說明圖。 [圖4B]係表示在實施形態1之機器控制系統的特徵量抽出器內之各個層所具有之其他的構造的說明圖。 [圖5A]係表示在實施形態1之機器控制系統的推論裝置之硬體構成的說明圖。 [圖5B]係表示在實施形態1之機器控制系統的推論裝置之其他的硬體構成的說明圖。 [圖6A]係表示在實施形態1之機器控制系統的控制裝置之硬體構成的說明圖。 [圖6B]係表示在實施形態1之機器控制系統的控制裝置之其他的硬體構成的說明圖。 [圖7]係表示實施形態1之機器控制系統之動作的流程圖。 [圖8]係表示在實施形態1之機器控制系統的特徵量抽出器內之各個層之動作的流程圖。 [圖9]係表示實施形態2之強化學習系統之主要部的方塊圖。 [圖10]係表示在實施形態2之強化學習系統的第1特徵量抽出器、第2特徵量抽出器、第1控制器以及學習器之主要部的說明圖。 [圖11A]係表示在實施形態2之強化學習系統的學習裝置之硬體構成的說明圖。 [圖11B]係表示在實施形態2之強化學習系統的學習裝置之其他的硬體構成的說明圖。 [圖12]係表示實施形態2之強化學習系統之動作的流程圖。 [圖13]係表示在具有特徵量抽出器之強化學習系統的學習特性之例子、及在不具有特徵量抽出器之強化學習系統的學習特性之例子的特性圖。 [圖14]係表示實施形態3之強化學習系統之主要部的方塊圖。 [圖15]係表示在實施形態3之強化學習系統的記憶裝置之硬體構成的說明圖。

1:控制裝置

2:機器人

3:特徵量抽出器

4:控制器

100:推論裝置

200:機器控制系統

300:機器人系統

s_t :狀態值

v_t :特徵向量

A_t :控制量

E:環境

Claims

一種推論裝置，其特徵包括：特徵量抽出器，係受理與包含控制裝置及由該控制裝置所控制之機器的環境有關之狀態值的輸入，輸出是對應於該狀態值之特徵向量並比該狀態值高維的該特徵向量；及控制器，係受理該特徵向量的輸入，並輸出對應於該特徵向量的控制量；該特徵量抽出器係具有一個層或複數個層；其中，該一個層或該複數個層中之至少一個層係具有構造，該構造係受理第1向量之輸入，藉由將該第1向量變換，而產生第2向量，並產生根據該第1向量之第3向量，再將該第2向量及該第3向量結合，藉此，產生比該第1向量高維的第4向量，並輸出該第4向量。
如申請專利範圍第1項之推論裝置，其中該構造係包含學習型的第1變換器，該第1變換器係藉由將該第1向量複製，而產生該第3向量，且將該第1向量變換成該第2向量。
如申請專利範圍第1項之推論裝置，其中該構造係包含：學習型的第1變換器，係藉由將該第1向量變換，而產生該第3向量，且將該第1向量變換成該第2向量；及非學習型的第2變換器，係將該第1向量變換成該第3向量。
如申請專利範圍第1~3項中任一項之推論裝置，其中該特徵量抽出器具有該複數個層，且該複數個層之各個具有該構造。
一種機器控制系統，其特徵為：具有如申請專利範圍第1~4項中任一項之推論裝置；該機器係機器人；該特徵量抽出器係受理與包含該機器人之該環境有關之該狀態值的輸入；該控制器係輸出在該機器人之控制所使用的該控制量。
一種學習裝置，係具有第1特徵量抽出器之推論裝置用的學習裝置，該第1特徵量抽出器係受理與包含控制裝置及由該控制裝置所控制之機器的環境有關之第1狀態值的輸入，輸出是對應於該第1狀態值之第1特徵向量並比該第1狀態值高維的該第1特徵向量，該學習裝置係特徵為包括：第2特徵量抽出器，係受理該第1特徵向量及與該環境有關之行動值的輸入，輸出是與該第1特徵向量及該行動值對應之第2特徵向量並比該第1特徵向量及該行動值高維的第2特徵向量；及學習器，係受理該第2特徵向量及與該環境有關之第2狀態值的輸入，並使用該第2特徵向量及該第2狀態值，更新該第1特徵量抽出器之參數。
如申請專利範圍第6項之學習裝置，其中該第1特徵量抽出器及該第2特徵量抽出器之各個係具有一個層或複數個層；該一個層或該複數個層中之至少一個層係具有構造，該構造係受理第1向量之輸入，藉由將該第1向量變換，而產生第2向量，並產生根據該第1向量之第3向量，再將該第2向量及該第3向量結合，藉此，產生比該第1向量高維的第4向量，並輸出該第4向量。
如申請專利範圍第6或7項之學習裝置，其中該學習器係使用該第2特徵向量，算出該第2狀態值的預測值，並將該參數更新成根據對該第2狀態值之該預測值的差之損失值變小。
如申請專利範圍第6或7項之學習裝置，其中該推論裝置係具有第1控制器，該第1控制器係受理該第1特徵向量之輸入，並輸出對應於該第1特徵向量之該行動值；該第1特徵量抽出器所輸入之該第1狀態值、該第2特徵量抽出器所輸入之該行動值、以及該學習器所輸入之該第2狀態值係使用與該第1控制器相異之第2控制器所收集。
如申請專利範圍第9項之學習裝置，其中該第2控制器係對該環境隨機地動作。
如申請專利範圍第6或7項之學習裝置，其中該參數係包含在該第1特徵量抽出器之層數及在該第1特徵量抽出器之各個的活化函數。