TWI779301B

TWI779301B - 基於強化學習的棒球策略規劃方法及裝置

Info

Publication number: TWI779301B
Application number: TW109120133A
Authority: TW
Inventors: 邱偉育; 陳頌仁
Original assignee: 國立清華大學
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2022-10-01
Also published as: US20210387070A1; TW202201337A

Abstract

一種基於強化學習的棒球策略規劃方法及裝置。此方法包括下列步驟：蒐集球隊過往比賽的多個賽局的歷史資料；依據比賽過程中發生的多個攻守過程，定義多個比賽狀態、多個攻守動作及對應於多個攻守結果的多個獎勵，並用以建構一強化學習表；依據歷史資料中記錄的比賽狀態、攻守動作及攻守結果的多個組合更新強化學習表；以及依據當前的比賽狀態，對更新後強化學習表中所記錄於此比賽狀態下可執行的所有攻守動作的學習值進行排序，並根據排序結果推薦適於此比賽狀態下執行的攻守動作。

Description

基於強化學習的棒球策略規劃方法及裝置

本發明是有關於一種強化學習方法及裝置，且特別是有關於一種基於強化學習的棒球策略規劃方法及裝置。

棒球比賽中防守與攻擊有若干戰術可使用，傳統上是由教練團根據當前比賽局面與選手特性，權衡利弊後決定攻守策略。然而，對於所選擇的策略，很難即時評價其是否對結局有益，必須等到球賽結束後才能進行分析。

目前國內外研究人員提出許多利用學習方式評價棒球賽局策略的技術，但大部分的研究都是以單一個體(即球員)而非整支球隊作為學習對象。例如：針對棒球比賽中某個球員的表現，透過學習訓練後，根據過往的經驗，得到能夠提高打擊率的策略，從而幫助球隊贏得更多分數。這些方法所提供的策略雖然能夠提高個人比賽表現，但是對球隊而言未必是最佳策略，因為整個比賽會受種種因素的牽制。

本發明提供一種基於強化學習的棒球策略規劃方法及裝置，利用強化學習方法規劃整體球隊進攻與防守策略，可即時評價並推薦當前比賽狀態下的最佳策略。

本發明提供一種基於強化學習的棒球策略規劃方法，適用於具有處理器的電子裝置。此方法包括下列步驟：蒐集球隊過往比賽的多個賽局的歷史資料；依據比賽過程中發生的多個攻守過程，定義多個比賽狀態、多個攻守動作及對應於多個攻守結果的多個獎勵，並用以建構一強化學習表；依據歷史資料中記錄的比賽狀態、攻守動作及攻守結果的多個組合更新強化學習表；以及依據當前的比賽狀態，對更新後強化學習表中所記錄於此比賽狀態下可執行的所有攻守動作的學習值進行排序，並根據排序結果推薦適於此比賽狀態下執行的攻守動作。

在本發明的一實施例中，上述依據歷史資料中記錄的比賽狀態、攻守動作及攻守結果的多個組合更新強化學習表的步驟包括針對各個比賽狀態，搜尋歷史資料中記錄於該比賽狀態下執行多個攻守動作後所得的攻守結果及新比賽狀態，用以計算於該比賽狀態下執行各個攻守動作所得的獎勵，以及利用所計算的獎勵及新比賽狀態下執行多個攻守動作的學習值，更新強化學習表中於該比賽狀態下執行各個攻守動作的學習值。

在本發明的一實施例中，在上述根據排序結果推薦適於比賽狀態下執行的攻守動作的步驟之後，所述方法更包括接收對於所推薦的攻守動作的選擇，並根據執行所選擇的攻守動作後所得的攻守結果及新比賽狀態，計算於該比賽狀態下執行所選擇攻守動作所得的獎勵，以及利用所計算的獎勵及新比賽狀態下執行多個攻守動作的學習值，更新強化學習表中於該比賽狀態下執行所選擇的攻守動作的學習值。

本發明提供一種基於強化學習的棒球策略規劃裝置，其包括資料擷取裝置、儲存裝置及處理器。其中，資料擷取裝置用以連接外部裝置。儲存裝置用以儲存電腦程式。處理器耦接資料擷取裝置及儲存裝置，經配置以載入並執行電腦程式以執行下列步驟：利用資料擷取裝置從外部裝置蒐集球隊過往比賽的多個賽局的歷史資料；依據比賽過程中發生的多個攻守過程，定義多個比賽狀態、多個攻守動作及對應於多個攻守結果的多個獎勵，並用以建構一強化學習表；依據歷史資料中記錄的比賽狀態、攻守動作及攻守結果的多個組合更新強化學習表；以及依據當前的比賽狀態，對更新後強化學習表中所記錄於此比賽狀態下可執行的所有攻守動作的學習值進行排序，並根據排序結果推薦適於此比賽狀態下執行的攻守動作。

在本發明的一實施例中，上述的比賽狀態包括壘包佔領情形、出局數或好壞球數。

在本發明的一實施例中，上述的攻守動作包括投手的多個球種及打者的多個打擊動作，所述打擊動作包括短打、安打、高飛犧牲打或不出棒。

在本發明的一實施例中，上述對應於攻守結果的獎勵包括代表防守方的失分、被進壘、被擊中的負獎勵、代表防守方未失分的零獎勵，以及代表防守方未被擊中、三振或接殺打者的正獎勵。

在本發明的一實施例中，上述對應於攻守結果的獎勵包括代表進攻方的得分、進壘、擊中的正獎勵、代表進攻方未得分的零獎勵，以及代表進攻方打者未擊中、被三振或被接殺的負獎勵。

在本發明的一實施例中，上述於比賽狀態下可執行的所有攻守動作的強化學習表包括可執行此攻守動作的多個球員執行此攻守動作的學習值。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

10:棒球策略規劃裝置

12:資料擷取裝置

14:儲存裝置

16:處理器

S210~S240、S231~S236、S410~S450:步驟

圖1是根據本發明一實施例所繪示的基於強化學習的棒球策略規劃裝置的方塊圖。

圖2是依照本發明一實施例所繪示的基於強化學習的棒球策略規劃方法的流程圖。

圖3是依照本發明一實施例所繪示的更新強化學習表的方法流程圖。

圖4是依照本發明一實施例所繪示的線上學習方法的流程圖。

本發明實施例提出一種基於強化學習的棒球策略規劃方法及裝置，其是運用強化學習(reinforcement learning，RL)演算法，於棒球賽局進行中即時產生進攻與防守策略。所述方法分為兩個階段：第一階段為離線規劃(planning)，蒐集球隊過往的比賽資料，透過強化學習方式更新賽局中狀態與動作配對的價值函數；第二階段為線上學習(learning)，利用第一階段建構好的價值函數，推薦當前狀態下的最佳進攻或防守策略，再依據實際選擇的動作進一步更新賽局中狀態與動作配對的價值函數。

詳細而言，圖1是根據本發明一實施例所繪示的基於強化學習的棒球策略規劃裝置的方塊圖。請參考圖1，本發明實施例的棒球策略規劃裝置10例如是具有運算能力的檔案伺服器、資料庫伺服器、應用程式伺服器、工作站或個人電腦等計算機裝置，其中包括資料擷取裝置12、儲存裝置14及處理器16等元件，這些元件的功能分述如下：資料擷取裝置12例如是可與外部裝置(未繪示)連接的任意的有線或無線的介面裝置，用以蒐集球隊過往比賽的多個賽局的歷史資料。對於有線方式而言，資料擷取裝置12可以是通用序列匯流排(universal serial bus，USB)、RS232、通用非同步接收器/傳送器(universal asynchronous receiver/transmitter，UART)、內部整合電路(I2C)、序列周邊介面(serial peripheral interface，SPI)、顯示埠(display port)或雷電埠(thunderbolt)等介面，但不限於此。對於無線方式而言，資料擷取裝置12可以是支援無線保真(wireless fidelity，Wi-Fi)、RFID、藍芽、紅外線、近場通訊(near-field communication，NFC)或裝置對裝置(device-to-device，D2D)等通訊協定的裝置，亦不限於此。在一些實施例中，資料擷取裝置12亦可包括支援乙太網路(Ethernet)或是支援802.11g、802.11n、802.11ac等無線網路標準的網路卡，使得棒球策略規劃裝置10可經由網路連接外部裝置，以蒐集或接收棒球比賽的歷史資訊。

儲存裝置14例如是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory，RAM)、唯讀記憶體(Read-Only Memory，ROM)、快閃記憶體(Flash memory)、硬碟或類似元件或上述元件的組合，而用以儲存可由處理器16執行的電腦程式。在一些實施例中，儲存裝置14例如還儲存由資料擷取裝置12從外部裝置蒐集而來的棒球比賽歷史資訊。

處理器16例如是中央處理單元(Central Processing Unit，CPU)，或是其他可程式化之一般用途或特殊用途的微處理器 (Microprocessor)、微控制器(Microcontroller)、數位訊號處理器(Digital Signal Processor，DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits，ASIC)、可程式化邏輯裝置(Programmable Logic Device，PLD)或其他類似裝置或這些裝置的組合，本發明不在此限制。在本實施例中，處理器16可從儲存裝置14載入電腦程式，以執行本發明實施例的基於強化學習的棒球策略規劃方法。

圖2是依照本發明一實施例所繪示的基於強化學習的棒球策略規劃方法的流程圖。請同時參照圖1及圖2，本實施例的方法適用於上述的棒球策略規劃裝置10，以下即搭配棒球策略規劃裝置10的各項元件說明本實施例的棒球策略規劃方法的詳細步驟。

在步驟S210中，由棒球策略規劃裝置10的處理器16利用資料擷取裝置12從外部裝置蒐集球隊過往比賽的多個賽局的歷史資料。所述的外部裝置例如是記錄有各球隊比賽資料的伺服器或電腦，在此不設限。

在步驟S220中，處理器16依據比賽過程中發生的多個攻守過程，定義多個比賽狀態、多個攻守動作及對應於多個攻守結果的多個獎勵，並用以建構一強化學習表(Q table)。詳言之，本發明實施例例如是將比賽過程視為馬可夫決策過程(Markov Decision Process，MDPs)，將時間間隔定義為投手投球間隔，並使用回合式設定(episodic setting)，針對防守與進攻過程，分別定義狀態(state)、動作(action)及獎勵(reward)的多個組合，並記錄於強化學習表中，以進行學習。

以下表一的強化學習表為例，當球隊在狀態S₀下採取動作A₀時，可依結果獲得獎勵R₁，並進入下一狀態S₁。同理，當球隊在狀態S₁下採取動作A₁時，可依結果獲得獎勵R₂，並進入下一狀態S₂；在狀態S₂下採取動作A₂時，可依結果獲得獎勵R₃，並進入下一狀態S₃，以此類推，即可建構出記錄有各種狀態下採用各種動作所獲得獎勵的強化學習表。

在一些實施例中，上述的比賽狀態包括壘包佔領情形、出局數、好壞球數或其他有助於分析局勢的資訊，在此不設限。其中，壘包佔領情形例如包括無人在壘以及佔領一壘、二壘、三壘的7種排列組合(共8種可能)，而分別定義為0~8的數值；出局數例如包括無人、一人、二人出局的3種可能，而分別定義為0~2的數值；好壞球數例如包括好球數(0~2)及壞球數(0~3)的12種可能，而分別定義為0~11的數值。在一實施例中，比賽狀態例如是以向量形式記錄上述組合，例如在一壘有人、兩人出局且球數為兩好三壞時，比賽狀態可記錄為{1,2,11}，以此類推。在一實施例中，比賽狀態例如是以上述組合的數值所計算出的單一數值來代表，在此不設限。

在一些實施例中，上述的攻守動作可區分為防守方及進攻方。對於防守方而言，所述的攻守動作包括投手的多個球種，例如直球、曲球、滑球、指叉球等各類球種；對於進攻方而言，所述的攻守動作則包括打者的多個打擊動作，例如短打、安打、高飛犧牲打或不出棒等。上述的攻守動作可使用不同的數值來代表。本實施例不限制攻守動作的種類及其代表方式。

在一些實施例中，上述的攻守結果亦可區分為防守方及進攻方，而依據對防守方或進攻方有利的情況，本實施例可分別給予負到正的獎勵(包括零的獎勵)。正的獎勵代表對防守方或進攻方較有利，負的獎勵代表對防守方或進攻方較不利，零的獎勵代表對防守方或進攻方沒有利弊。

對於防守方而言，對應於攻守結果的獎勵包括代表失分、被進壘、被打者擊中的負獎勵、代表未失分的零獎勵，以及代表未被打者擊中、三振或接殺打者的正獎勵。舉例來說，每失去一分，給予獎勵β ₁；對手每一個進壘(包含壘上球員盜壘)，給予獎勵β ₂；投手的球被打者擊中，給予獎勵β ₃；未失分，給予獎勵0；投手的球未被打者擊中，給予獎勵β ₄；三振或接殺打者，給予獎勵β ₅。其中，β ₁

β ₂

β ₃

0

β ₄

β ₅。

另一方面，對於進攻方而言，對應於攻守結果的獎勵包括代表得分、進壘、擊中的正獎勵、代表未得分的零獎勵，以及代表打者未擊中、被三振或被接殺的負獎勵。舉例來說，打者被三振或被接殺，給予獎勵δ ₁；打者揮棒但未擊中球，給予獎勵δ ₂；我方未得分，給予獎勵0；打者揮棒且擊中球，給予獎勵δ ₃；我方每一個進壘(包含壘上球員盜壘)，給予獎勵δ ₄；我方每一個得分，給予獎勵δ ₅。其中，δ ₁

δ ₂

0

δ ₃

δ ₄

δ ₅。

回到圖2的流程，在步驟S230中，依照上述定義的比賽狀態、攻守動作及對應於攻守結果的獎勵，處理器16即可依據所述歷史資料中記錄的比賽狀態、攻守動作及攻守結果的多個組合更新強化學習表。詳言之，處理器16例如會針對各個比賽狀態，搜尋歷史資料中記錄的於該比賽狀態下執行多個攻守動作後所得的攻守結果及新比賽狀態，用以計算於該比賽狀態下執行各個攻守動作所得的獎勵，然後再利用所計算的獎勵及新比賽狀態下執行多個攻守動作的學習值，更新強化學習表中於比賽狀態下執行各個攻守動作的學習值。

圖3是依照本發明一實施例所繪示的更新強化學習表的方法流程圖。請同時參照圖2及圖3，本實施例說明上述圖2步驟S230的詳細步驟。

在步驟S231中，由處理器16存取儲存裝置12，以擷取先前蒐集並儲存在儲存裝置12中的比賽歷史資料。

在步驟S232中，由處理器16觀察比賽狀態。其中，處理器16例如是從先前所建構的強化學習表中記錄的多個比賽狀態中選定一個要進行學習的比賽狀態。

在步驟S233中，由處理器16搜尋歷史資料中記錄的於該比賽狀態下執行不同的攻守動作後所得的攻守結果及新比賽狀態。例如，在無人出局滿壘的狀態下進攻方執行短打後，得到得一分的結果以及一人出局二、三壘有人的新比賽狀態。

在步驟S234中，由處理器16計算各個攻守結果對應的獎勵。例如，對於防守方而言，若攻守結果為失一分，則獲得的獎勵為β ₁；若攻守結果為未失分，則獲得的獎勵為0；若攻守結果為三振打者，則獲得的獎勵為β ₅。相對地，對於進攻方而言，若攻守結果為被三振，則獲得的獎勵為δ ₁；若攻守結果為未得分，則獲得的獎勵為0；若攻守結果為得一分，則獲得的獎勵為δ ₅。

在步驟S235中，由處理器16利用所計算的獎勵及於新比賽狀態下執行多個攻守動作的學習值，更新強化學習表中於該比賽狀態下執行各個攻守動作的學習值。

在步驟S236中，由處理器16更新比賽狀態。即，將先前觀察或學習的比賽狀態更新為新比賽狀態。之後則返回步驟S232，由處理器16重新觀察比賽狀態並使用歷史資料進行學習。

詳細而言，針對防守方而言，假設在第t回合的比賽狀態S _t,defense下執行動作A _t,defense，其執行結果對應的獎勵為R _t+1,defense，對應的新比賽狀態(即，第t+1回合的比賽狀態)為S _t+1,defense，則強化學習表中對應於狀態S _t,defense及動作A _t,defense的學習值(即， Q值)Q _defense(S _t,defense ,A _t,defense)可以下列公式(1)進行更新：

其中，α為學習率(learning rate)、γ為折扣率(discount factor)，Q _defense(S _t+1,defense ,a)為在新比賽狀態S _t+1,defense下執行動作a的學習值。藉由取比賽狀態S _t,defense下多種動作a中，擁有最大學習值的動作為最佳動作a ^*，將執行動作a ^*至新比賽狀態S _t+1,defense獲得的獎勵回饋至原比賽狀態S _t,defense對應動作a ^*的學習值。此外，上述的學習率α例如為數值介於0.1至0.5之間的任意數，其可決定新比賽狀態S _t+1,defense對於原比賽狀態S _t,defense的學習值的影響比例。上述的折扣率γ例如為數值介於0.9至0.99之間的任意數，其可決定新比賽狀態S _t+1,defense的學習值對於所回饋獎勵的比率。

另一方面，針對進攻方而言，假設在第t回合的比賽狀態S _t,offense下執行動作A _t,offense，其執行結果對應的獎勵為R _t+1,offense，對應的新比賽狀態(即，第t+1回合的比賽狀態)為S _t+1,offense，則強化學習表中對應於狀態S _t,offense及動作A _t,offense的學習值(即，Q值)Q _offense(S _t,offense ,A _t,offense)可以下列公式(2)進行更新：

其中，α為學習率(learning rate)、γ為折扣率(discount factor)，Q _offense(S _t+1,offense ,a)為在新比賽狀態S _t+1,offense下執行動作a的學習值。藉由取比賽狀態S _t,offense下多種動作a中，擁有最大學習值的動作為最佳動作a ^*，將執行動作a ^*至新比賽狀態S _t+1,offense獲得的獎勵回饋至原比賽狀態S _t,offense對應動作a ^*的學習值。此外，上述的學習率α例如為數值介於0.1至0.5之間的任意數，其可決定新比賽狀態S _t+1,offense對於原比賽狀態S _t,offense的學習值的影響比例。上述的折扣率γ例如為數值介於0.9至0.99之間的任意數，其可決定新比賽狀態S _t+1,offense的學習值對於所回饋獎勵的比率。

基於上述步驟的離線訓練，強化學習表已能夠學習到各種狀態下執行各種動作的價值函數(即，學習值)。因此，在實際比賽中，藉由應用此強化學習表，即可針對當前比賽狀態即時地評價並推薦最佳策略。

詳言之，回到圖2的流程，在步驟S240中，由處理器16依據當前的比賽狀態，對更新後強化學習表中所記錄於此比賽狀態下可執行的所有攻守動作的學習值進行排序，並根據排序結果推薦適於此比賽狀態下執行的攻守動作。在一些實施例中，處理器16例如會依各個攻守動作所對應的學習值，對這些攻守動作進行排序，從而顯示或提示學習值較高的一或多個攻守動作，以推薦給球隊選擇。

以防守方為例，針對當前的比賽狀態S _t,defense，從強化學習表中可查詢出在此比賽狀態下可執行的所有動作a，從而對所有動作a的學習值Q _defense(S _t,defense ,a)進行排序，以進行策略評估。其中，最佳防守策略動作

可定義為：

在一些實施例中，由於每位投手所能夠投出的球種不同，上式動作a的集合可因應當下投手能力的不同而改變，亦即可將投手能力納入學習與決策。類似地，對於進攻方而言，在當前比賽狀態下可執行的所有動作a的集合亦可因應當下打者能力的不同而改變，亦即可將打者能力納入學習與決策。

基於上述，本實施例的方法是以球隊觀點出發，利用強化學習方法規劃出整體球隊的進攻和防守策略，有別於個別球員的數據化方法，本實施例的方法對於賽局的掌握較為全面且有利。

需說明的是，在實際比賽中，除了可應用預先學習的強化學習表對當前比賽狀態即時地評價並推薦最佳策略外，本發明實施例還可進一步根據球隊所選擇的策略，對所訓練的強化學習表進行線上學習及更新，以持續學習比賽經驗。

圖4是依照本發明一實施例所繪示的線上學習方法的流程圖。請同時參照圖2及圖4，本實施例說明上述圖2步驟S240之後的學習過程。

在步驟S410中，由處理器16觀察當前比賽狀態。所述的當前比賽狀態例如是由教練手動輸入，或是由處理器16自動判讀當前比賽的賽局計分、球數、攻守數據等資訊來獲得，在此不設限。

在步驟S420中，由處理器16依據當前的比賽狀態，對更新後強化學習表中所記錄於此比賽狀態下可執行的所有攻守動作的學習值進行排序，並根據排序結果推薦適於此比賽狀態下執行的攻守動作。上述的步驟S420與圖2中的步驟S240相同或相似，故其詳細內容在此不再贅述。

與前述實施例不同的是，本實施例在步驟S430中，進一步由處理器16接收對於其所推薦的攻守動作的選擇。在一些實施例中，處理器16例如是藉由鍵盤、滑鼠、觸控板等輸入裝置(未繪示)接收球隊(例如教練)對於其所推薦的攻守動作的選擇操作。

在步驟S440中，由處理器16根據執行所選擇攻守動作後所得的攻守結果及新比賽狀態，計算於該比賽狀態下執行所選擇攻守動作所得的獎勵。其中，處理器16同樣可藉由手動輸入或自動判讀當前比賽的賽局計分、球數、攻守數據等資訊來獲得攻守結果及新比賽狀態，在此不設限。

在步驟S450中，由處理器16利用所計算獎勵及新比賽狀態下執行多個攻守動作的學習值，更新強化學習表中於該比賽狀態下執行所選擇攻守動作的學習值。

不同於離線規劃階段中是採用過往比賽時所選擇的動作來進行學習的方式，在線上學習階段中，處理器16是直接依照球隊當前選擇的動作以及執行該動作後所獲得的攻守結果，來計算獎勵並用以更新強化學習表。藉由持續更新強化學習表，使得強化學習表能夠持續學習比賽經驗，而在未來的賽局中評價或推薦符合球隊近況或比賽現況的策略。

綜上所述，在本發明實施例的基於強化學習的棒球策略規劃方法及裝置中，利用球隊過往比賽資料事先建構可反映賽局中狀態及動作配對的強化學習表，從而在實際比賽中可推薦適於當下狀態的進攻或防守策略。此外，藉由持續更新此強化學習表，可持續學習比賽經驗，並推薦更符合比賽現況的策略。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S210~S240:步驟

Claims

一種基於強化學習的棒球策略規劃方法，適用於具有處理器的電子裝置，所述方法包括下列步驟：該處理器蒐集球隊過往比賽的多個賽局的歷史資料；該處理器依據比賽過程中發生的多個攻守過程，定義多個比賽狀態、多個攻守動作及對應於多個攻守結果的多個獎勵，並用以建構一強化學習表，其中對應於所述攻守結果的所述獎勵包括代表防守方的失分、被進壘、被擊中的負獎勵、代表防守方未失分的零獎勵，以及代表防守方未被擊中、三振或接殺打者的正獎勵，且包括代表進攻方的得分、進壘、擊中的正獎勵、代表進攻方未得分的零獎勵，以及代表進攻方打者未擊中、被三振或被接殺的負獎勵；該處理器依據所述歷史資料中記錄的所述比賽狀態、所述攻守動作及所述攻守結果的多個組合更新所述強化學習表；以及該處理器依據當前的比賽狀態，對更新後所述強化學習表中所記錄於所述比賽狀態下可執行的所有攻守動作的學習值進行排序，並根據排序結果推薦適於所述比賽狀態下執行的所述攻守動作。
如請求項1所述的方法，其中所述比賽狀態包括壘包佔領情形、出局數或好壞球數。
如請求項1所述的方法，其中所述攻守動作包括投手的多個球種及打者的多個打擊動作，所述打擊動作包括短打、安打、高飛犧牲打或不出棒。
如請求項1所述的方法，其中該處理器依據所述歷史資料中記錄的所述比賽狀態、所述攻守動作及所述攻守結果的多個組合更新所述強化學習表的步驟包括：該處理器針對各所述比賽狀態，搜尋所述歷史資料中記錄的於該比賽狀態下執行多個攻守動作後所得的攻守結果及新比賽狀態，用以計算於該比賽狀態下執行各所述攻守動作所得的獎勵；以及該處理器利用所計算的所述獎勵及所述新比賽狀態下執行多個攻守動作的學習值，更新所述強化學習表中於該比賽狀態下執行各所述攻守動作的學習值。
如請求項1所述的方法，其中在該處理器根據排序結果推薦適於所述比賽狀態下執行的所述攻守動作的步驟之後，更包括：該處理器接收對於所推薦的所述攻守動作的選擇；該處理器根據執行所選擇的所述攻守動作後所得的攻守結果及新比賽狀態，計算於該比賽狀態下執行所選擇的所述攻守動作所得的獎勵；以及該處理器利用所計算的所述獎勵及所述新比賽狀態下執行多個攻守動作的學習值，更新所述強化學習表中於該比賽狀態下執行所選擇的所述攻守動作的學習值。
如請求項1所述的方法，其中於所述比賽狀態下可執行的所有攻守動作的學習值包括可執行所述攻守動作的多個球員執行所述攻守動作的學習值。
一種基於強化學習的棒球策略規劃裝置，包括：資料擷取裝置，連接外部裝置；儲存裝置，儲存電腦程式；以及處理器，耦接所述資料擷取裝置及所述儲存裝置，經配置以載入並執行所述電腦程式以：利用所述資料擷取裝置從所述外部裝置蒐集球隊過往比賽的多個賽局的歷史資料；依據比賽過程中發生的多個攻守過程，定義多個比賽狀態、多個攻守動作及對應於多個攻守結果的多個獎勵，並用以建構一強化學習表，其中對應於所述攻守結果的所述獎勵包括代表防守方的失分、被進壘、被擊中的負獎勵、代表防守方未失分的零獎勵，以及代表防守方未被擊中、三振或接殺打者的正獎勵，且包括代表進攻方的得分、進壘、擊中的正獎勵、代表進攻方未得分的零獎勵，以及代表進攻方打者未擊中、被三振或被接殺的負獎勵；依據所述歷史資料中記錄的所述比賽狀態、所述攻守動作及所述攻守結果的多個組合更新所述強化學習表；以及依據當前的比賽狀態，對更新後所述強化學習表中所記錄於所述比賽狀態下可執行的所有攻守動作的學習值進行排序，並根據排序結果推薦適於所述比賽狀態下執行的所述攻守動作。
如請求項7所述的基於強化學習的棒球策略規劃裝置，其中所述比賽狀態包括壘包佔領情形、出局數或好壞球數。
如請求項7所述的基於強化學習的棒球策略規劃裝置，其中所述攻守動作包括投手的多個球種及打者的多個打擊動作，所述打擊動作包括短打、安打、高飛犧牲打或不出棒。
如請求項7所述的基於強化學習的棒球策略規劃裝置，其中所述處理器包括針對各所述比賽狀態，搜尋所述歷史資料中記錄的於該比賽狀態下執行多個攻守動作後所得的攻守結果及新比賽狀態，用以計算於該比賽狀態下執行各所述攻守動作所得的獎勵，以及利用所計算的所述獎勵及所述新比賽狀態下執行多個攻守動作的學習值，更新所述強化學習表中於該比賽狀態下執行各所述攻守動作的學習值。
如請求項7所述的基於強化學習的棒球策略規劃裝置，其中所述處理器更接收對於所推薦的所述攻守動作的選擇，並根據執行所選擇的所述攻守動作後所得的攻守結果及新比賽狀態，計算於該比賽狀態下執行所選擇的所述攻守動作所得的獎勵，以及利用所計算的所述獎勵及所述新比賽狀態下執行多個攻守動作的學習值，更新所述強化學習表中於該比賽狀態下執行所選擇的所述攻守動作的學習值。
如請求項7所述的基於強化學習的棒球策略規劃裝置，其中於所述比賽狀態下可執行的所有攻守動作的學習值包括可執行所述攻守動作的多個球員執行所述攻守動作的學習值。