TW202201337A - 基於強化學習的棒球策略規劃方法及裝置 - Google Patents

基於強化學習的棒球策略規劃方法及裝置 Download PDF

Info

Publication number
TW202201337A
TW202201337A TW109120133A TW109120133A TW202201337A TW 202201337 A TW202201337 A TW 202201337A TW 109120133 A TW109120133 A TW 109120133A TW 109120133 A TW109120133 A TW 109120133A TW 202201337 A TW202201337 A TW 202201337A
Authority
TW
Taiwan
Prior art keywords
offensive
defensive
game state
actions
reinforcement learning
Prior art date
Application number
TW109120133A
Other languages
English (en)
Other versions
TWI779301B (zh
Inventor
邱偉育
陳頌仁
Original Assignee
國立清華大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立清華大學 filed Critical 國立清華大學
Priority to TW109120133A priority Critical patent/TWI779301B/zh
Priority to US16/942,758 priority patent/US20210387070A1/en
Publication of TW202201337A publication Critical patent/TW202201337A/zh
Application granted granted Critical
Publication of TWI779301B publication Critical patent/TWI779301B/zh

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B71/00Games or sports accessories not covered in groups A63B1/00 - A63B69/00
    • A63B71/06Indicating or scoring devices for games or players, or for other sports activities
    • A63B71/0605Decision makers and devices using detection means facilitating arbitration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q99/00Subject matter not provided for in other groups of this subclass
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B71/00Games or sports accessories not covered in groups A63B1/00 - A63B69/00
    • A63B71/06Indicating or scoring devices for games or players, or for other sports activities
    • A63B71/0619Displays, user interfaces and indicating devices, specially adapted for sport equipment, e.g. display mounted on treadmills
    • A63B71/0622Visual, audio or audio-visual systems for entertaining, instructing or motivating the user
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/812Ball games, e.g. soccer or baseball
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B2102/00Application of clubs, bats, rackets or the like to the sporting activity ; particular sports involving the use of balls and clubs, bats, rackets, or the like
    • A63B2102/18Baseball, rounders or similar games
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F3/00Board games; Raffle games
    • A63F3/00003Types of board games
    • A63F3/00028Board games simulating indoor or outdoor sporting games, e.g. bowling, basketball, boxing, croquet, athletics, jeu de boules, darts, snooker, rodeo
    • A63F3/00031Baseball or cricket board games
    • A63F2003/00034Baseball
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F11/00Game accessories of general use, e.g. score counters, boxes
    • A63F11/0074Game concepts, rules or strategies
    • A63F2011/0086Rules
    • A63F2011/0093Rules characterised by the game theory or winning strategy
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/30ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Databases & Information Systems (AREA)

Abstract

一種基於強化學習的棒球策略規劃方法及裝置。此方法包括下列步驟:蒐集球隊過往比賽的多個賽局的歷史資料;依據比賽過程中發生的多個攻守過程,定義多個比賽狀態、多個攻守動作及對應於多個攻守結果的多個獎勵,並用以建構一強化學習表;依據歷史資料中記錄的比賽狀態、攻守動作及攻守結果的多個組合更新強化學習表;以及依據當前的比賽狀態,對更新後強化學習表中所記錄於此比賽狀態下可執行的所有攻守動作的學習值進行排序,並根據排序結果推薦適於此比賽狀態下執行的攻守動作。

Description

基於強化學習的棒球策略規劃方法及裝置
本發明是有關於一種強化學習方法及裝置,且特別是有關於一種基於強化學習的棒球策略規劃方法及裝置。
棒球比賽中防守與攻擊有若干戰術可使用,傳統上是由教練團根據當前比賽局面與選手特性,權衡利弊後決定攻守策略。然而,對於所選擇的策略,很難即時評價其是否對結局有益,必須等到球賽結束後才能進行分析。
目前國內外研究人員提出許多利用學習方式評價棒球賽局策略的技術,但大部分的研究都是以單一個體(即球員)而非整支球隊作為學習對象。例如:針對棒球比賽中某個球員的表現,透過學習訓練後,根據過往的經驗,得到能夠提高打擊率的策略,從而幫助球隊贏得更多分數。這些方法所提供的策略雖然能夠提高個人比賽表現,但是對球隊而言未必是最佳策略,因為整個比賽會受種種因素的牽制。
本發明提供一種基於強化學習的棒球策略規劃方法及裝置,利用強化學習方法規劃整體球隊進攻與防守策略,可即時評價並推薦當前比賽狀態下的最佳策略。
本發明提供一種基於強化學習的棒球策略規劃方法,適用於具有處理器的電子裝置。此方法包括下列步驟:蒐集球隊過往比賽的多個賽局的歷史資料;依據比賽過程中發生的多個攻守過程,定義多個比賽狀態、多個攻守動作及對應於多個攻守結果的多個獎勵,並用以建構一強化學習表;依據歷史資料中記錄的比賽狀態、攻守動作及攻守結果的多個組合更新強化學習表;以及依據當前的比賽狀態,對更新後強化學習表中所記錄於此比賽狀態下可執行的所有攻守動作的學習值進行排序,並根據排序結果推薦適於此比賽狀態下執行的攻守動作。
在本發明的一實施例中,上述依據歷史資料中記錄的比賽狀態、攻守動作及攻守結果的多個組合更新強化學習表的步驟包括針對各個比賽狀態,搜尋歷史資料中記錄於該比賽狀態下執行多個攻守動作後所得的攻守結果及新比賽狀態,用以計算於該比賽狀態下執行各個攻守動作所得的獎勵,以及利用所計算的獎勵及新比賽狀態下執行多個攻守動作的學習值,更新強化學習表中於該比賽狀態下執行各個攻守動作的學習值。
在本發明的一實施例中,在上述根據排序結果推薦適於比賽狀態下執行的攻守動作的步驟之後,所述方法更包括接收對於所推薦的攻守動作的選擇,並根據執行所選擇的攻守動作後所得的攻守結果及新比賽狀態,計算於該比賽狀態下執行所選擇攻守動作所得的獎勵,以及利用所計算的獎勵及新比賽狀態下執行多個攻守動作的學習值,更新強化學習表中於該比賽狀態下執行所選擇的攻守動作的學習值。
本發明提供一種基於強化學習的棒球策略規劃裝置,其包括資料擷取裝置、儲存裝置及處理器。其中,資料擷取裝置用以連接外部裝置。儲存裝置用以儲存電腦程式。處理器耦接資料擷取裝置及儲存裝置,經配置以載入並執行電腦程式以執行下列步驟:利用資料擷取裝置從外部裝置蒐集球隊過往比賽的多個賽局的歷史資料;依據比賽過程中發生的多個攻守過程,定義多個比賽狀態、多個攻守動作及對應於多個攻守結果的多個獎勵,並用以建構一強化學習表;依據歷史資料中記錄的比賽狀態、攻守動作及攻守結果的多個組合更新強化學習表;以及依據當前的比賽狀態,對更新後強化學習表中所記錄於此比賽狀態下可執行的所有攻守動作的學習值進行排序,並根據排序結果推薦適於此比賽狀態下執行的攻守動作。
在本發明的一實施例中,上述的比賽狀態包括壘包佔領情形、出局數或好壞球數。
在本發明的一實施例中,上述的攻守動作包括投手的多個球種及打者的多個打擊動作,所述打擊動作包括短打、安打、高飛犧牲打或不出棒。
在本發明的一實施例中,上述對應於攻守結果的獎勵包括代表防守方的失分、被進壘、被擊中的負獎勵、代表防守方未失分的零獎勵,以及代表防守方未被擊中、三振或接殺打者的正獎勵。
在本發明的一實施例中,上述對應於攻守結果的獎勵包括代表進攻方的得分、進壘、擊中的正獎勵、代表進攻方未得分的零獎勵,以及代表進攻方打者未擊中、被三振或被接殺的負獎勵。
在本發明的一實施例中,上述於比賽狀態下可執行的所有攻守動作的強化學習表包括可執行此攻守動作的多個球員執行此攻守動作的學習值。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明實施例提出一種基於強化學習的棒球策略規劃方法及裝置,其是運用強化學習(reinforcement learning,RL)演算法,於棒球賽局進行中即時產生進攻與防守策略。所述方法分為兩個階段:第一階段為離線規劃(planning),蒐集球隊過往的比賽資料,透過強化學習方式更新賽局中狀態與動作配對的價值函數;第二階段為線上學習(learning),利用第一階段建構好的價值函數,推薦當前狀態下的最佳進攻或防守策略,再依據實際選擇的動作進一步更新賽局中狀態與動作配對的價值函數。
詳細而言,圖1是根據本發明一實施例所繪示的基於強化學習的棒球策略規劃裝置的方塊圖。請參考圖1,本發明實施例的棒球策略規劃裝置10例如是具有運算能力的檔案伺服器、資料庫伺服器、應用程式伺服器、工作站或個人電腦等計算機裝置,其中包括資料擷取裝置12、儲存裝置14及處理器16等元件,這些元件的功能分述如下:
資料擷取裝置12例如是可與外部裝置(未繪示)連接的任意的有線或無線的介面裝置,用以蒐集球隊過往比賽的多個賽局的歷史資料。對於有線方式而言,資料擷取裝置12可以是通用序列匯流排(universal serial bus,USB)、RS232、通用非同步接收器/傳送器(universal asynchronous receiver/transmitter,UART)、內部整合電路(I2C)、序列周邊介面(serial peripheral interface,SPI)、顯示埠(display port)或雷電埠(thunderbolt)等介面,但不限於此。對於無線方式而言,資料擷取裝置12可以是支援無線保真(wireless fidelity,Wi-Fi)、RFID、藍芽、紅外線、近場通訊(near-field communication,NFC)或裝置對裝置(device-to-device,D2D)等通訊協定的裝置,亦不限於此。在一些實施例中,資料擷取裝置12亦可包括支援乙太網路(Ethernet)或是支援802.11g、802.11n、802.11ac等無線網路標準的網路卡,使得棒球策略規劃裝置10可經由網路連接外部裝置,以蒐集或接收棒球比賽的歷史資訊。
儲存裝置14例如是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash memory)、硬碟或類似元件或上述元件的組合,而用以儲存可由處理器16執行的電腦程式。在一些實施例中,儲存裝置14例如還儲存由資料擷取裝置12從外部裝置蒐集而來的棒球比賽歷史資訊。
處理器16例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、微控制器(Microcontroller)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)或其他類似裝置或這些裝置的組合,本發明不在此限制。在本實施例中,處理器16可從儲存裝置14載入電腦程式,以執行本發明實施例的基於強化學習的棒球策略規劃方法。
圖2是依照本發明一實施例所繪示的基於強化學習的棒球策略規劃方法的流程圖。請同時參照圖1及圖2,本實施例的方法適用於上述的棒球策略規劃裝置10,以下即搭配棒球策略規劃裝置10的各項元件說明本實施例的棒球策略規劃方法的詳細步驟。
在步驟S210中,由棒球策略規劃裝置10的處理器16利用資料擷取裝置12從外部裝置蒐集球隊過往比賽的多個賽局的歷史資料。所述的外部裝置例如是記錄有各球隊比賽資料的伺服器或電腦,在此不設限。
在步驟S220中,處理器16依據比賽過程中發生的多個攻守過程,定義多個比賽狀態、多個攻守動作及對應於多個攻守結果的多個獎勵,並用以建構一強化學習表(Q table)。詳言之,本發明實施例例如是將比賽過程視為馬可夫決策過程(Markov Decision Process,MDPs),將時間間隔定義為投手投球間隔,並使用回合式設定(episodic setting),針對防守與進攻過程,分別定義狀態(state)、動作(action)及獎勵(reward)的多個組合,並記錄於強化學習表中,以進行學習。
以下表一的強化學習表為例,當球隊在狀態S0 下採取動作A0 時,可依結果獲得獎勵R1 ,並進入下一狀態S1 。同理,當球隊在狀態S1 下採取動作A1 時,可依結果獲得獎勵R2 ,並進入下一狀態S2 ;在狀態S2 下採取動作A2 時,可依結果獲得獎勵R3 ,並進入下一狀態S3 ,以此類推,即可建構出記錄有各種狀態下採用各種動作所獲得獎勵的強化學習表。
狀態 動作 獎勵
S0 A0 R1
S1 A1 R2
S2 A2 R3
S3 A3 R4
表一
在一些實施例中,上述的比賽狀態包括壘包佔領情形、出局數、好壞球數或其他有助於分析局勢的資訊,在此不設限。其中,壘包佔領情形例如包括無人在壘以及佔領一壘、二壘、三壘的8種排列組合(共9種可能),而分別定義為0~8的數值;出局數例如包括無人、一人、二人出局的3種可能,而分別定義為0~2的數值;好壞球數例如包括好球數(0~2)及壞球數(0~3)的12種可能,而分別定義為0~11的數值。在一實施例中,比賽狀態例如是以向量形式記錄上述組合,例如在一壘有人、兩人出局且球數為兩好三壞時,比賽狀態可記錄為{1, 2, 11},以此類推。在一實施例中,比賽狀態例如是以上述組合的數值所計算出的單一數值來代表,在此不設限。
在一些實施例中,上述的攻守動作可區分為防守方及進攻方。對於防守方而言,所述的攻守動作包括投手的多個球種,例如直球、曲球、滑球、指叉球等各類球種;對於進攻方而言,所述的攻守動作則包括打者的多個打擊動作,例如短打、安打、高飛犧牲打或不出棒等。上述的攻守動作可使用不同的數值來代表。本實施例不限制攻守動作的種類及其代表方式。
在一些實施例中,上述的攻守結果亦可區分為防守方及進攻方,而依據對防守方或進攻方有利的情況,本實施例可分別給予負到正的獎勵(包括零的獎勵)。正的獎勵代表對防守方或進攻方較有利,負的獎勵代表對防守方或進攻方較不利,零的獎勵代表對防守方或進攻方沒有利弊。
對於防守方而言,對應於攻守結果的獎勵包括代表失分、被進壘、被打者擊中的負獎勵、代表未失分的零獎勵,以及代表未被打者擊中、三振或接殺打者的正獎勵。舉例來說,每失去一分,給予獎勵
Figure 02_image001
;對手每一個進壘(包含壘上球員盜壘),給予獎勵
Figure 02_image003
;投手的球被打者擊中,給予獎勵
Figure 02_image005
;未失分,給予獎勵0;投手的球未被打者擊中,給予獎勵
Figure 02_image007
;三振或接殺打者,給予獎勵
Figure 02_image009
。其中,
Figure 02_image011
另一方面,對於進攻方而言,對應於攻守結果的獎勵包括代表得分、進壘、擊中的正獎勵、代表未得分的零獎勵,以及代表打者未擊中、被三振或被接殺的負獎勵。舉例來說,打者被三振或被接殺,給予獎勵
Figure 02_image013
;打者揮棒但未擊中球,給予獎勵
Figure 02_image015
;我方未得分,給予獎勵0;打者揮棒且擊中球,給予獎勵
Figure 02_image017
;我方每一個進壘(包含壘上球員盜壘),給予獎勵
Figure 02_image019
;我方每一個得分,給予獎勵
Figure 02_image021
。其中,
Figure 02_image023
回到圖2的流程,在步驟S230中,依照上述定義的比賽狀態、攻守動作及對應於攻守結果的獎勵,處理器16即可依據所述歷史資料中記錄的比賽狀態、攻守動作及攻守結果的多個組合更新強化學習表。詳言之,處理器16例如會針對各個比賽狀態,搜尋歷史資料中記錄的於該比賽狀態下執行多個攻守動作後所得的攻守結果及新比賽狀態,用以計算於該比賽狀態下執行各個攻守動作所得的獎勵,然後再利用所計算的獎勵及新比賽狀態下執行多個攻守動作的學習值,更新強化學習表中於比賽狀態下執行各個攻守動作的學習值。
圖3是依照本發明一實施例所繪示的更新強化學習表的方法流程圖。請同時參照圖2及圖3,本實施例說明上述圖2步驟S230的詳細步驟。
在步驟S231中,由處理器16存取儲存裝置12,以擷取先前蒐集並儲存在儲存裝置12中的比賽歷史資料。
在步驟S232中,由處理器16觀察比賽狀態。其中,處理器16例如是從先前所建構的強化學習表中記錄的多個比賽狀態中選定一個要進行學習的比賽狀態。
在步驟S233中,由處理器16搜尋歷史資料中記錄的於該比賽狀態下執行不同的攻守動作後所得的攻守結果及新比賽狀態。例如,在無人出局滿壘的狀態下進攻方執行短打後,得到得一分的結果以及一人出局二、三壘有人的新比賽狀態。
在步驟S234中,由處理器16計算各個攻守結果對應的獎勵。例如,對於防守方而言,若攻守結果為失一分,則獲得的獎勵為
Figure 02_image001
;若攻守結果為未失分,則獲得的獎勵為0;若攻守結果為三振打者,則獲得的獎勵為
Figure 02_image009
。相對地,對於進攻方而言,若攻守結果為被三振,則獲得的獎勵為
Figure 02_image013
;若攻守結果為未得分,則獲得的獎勵為0;若攻守結果為得一分,則獲得的獎勵為
Figure 02_image021
在步驟S235中,由處理器16利用所計算的獎勵及於新比賽狀態下執行多個攻守動作的學習值,更新強化學習表中於該比賽狀態下執行各個攻守動作的學習值。
在步驟S236中,由處理器16更新比賽狀態。即,將先前觀察或學習的比賽狀態更新為新比賽狀態。之後則返回步驟S232,由處理器16重新觀察比賽狀態並使用歷史資料進行學習。
詳細而言,針對防守方而言,假設在第t 回合的比賽狀態
Figure 02_image025
下執行動作
Figure 02_image027
,其執行結果對應的獎勵為
Figure 02_image029
,對應的新比賽狀態(即,第t +1回合的比賽狀態)為
Figure 02_image031
,則強化學習表中對應於狀態
Figure 02_image025
及動作
Figure 02_image027
的學習值(即,Q值)
Figure 02_image033
可以下列公式(1)進行更新:
Figure 02_image035
Figure 02_image037
(1)
其中,
Figure 02_image039
為學習率(learning rate)、
Figure 02_image041
為折扣率(discount factor),
Figure 02_image043
為在新比賽狀態
Figure 02_image031
下執行動作a 的學習值。藉由取比賽狀態
Figure 02_image025
下多種動作a 中,擁有最大學習值的動作為最佳動作
Figure 02_image045
,將執行動作
Figure 02_image045
至新比賽狀態
Figure 02_image031
獲得的獎勵回饋至原比賽狀態
Figure 02_image025
對應動作
Figure 02_image045
的學習值。此外,上述的學習率
Figure 02_image039
例如為數值介於0.1至0.5之間的任意數,其可決定新比賽狀態
Figure 02_image031
對於原比賽狀態
Figure 02_image025
的學習值的影響比例。上述的折扣率
Figure 02_image041
例如為數值介於0.9至0.99之間的任意數,其可決定新比賽狀態
Figure 02_image047
對於所回饋獎勵的比率。
另一方面,針對進攻方而言,假設在第t 回合的比賽狀態
Figure 02_image049
下執行動作
Figure 02_image051
,其執行結果對應的獎勵為
Figure 02_image053
,對應的新比賽狀態(即,第t +1回合的比賽狀態)為
Figure 02_image055
,則強化學習表中對應於狀態
Figure 02_image049
及動作
Figure 02_image051
的學習值(即,Q值)
Figure 02_image057
可以下列公式(2)進行更新:
Figure 02_image059
Figure 02_image061
(2)
其中,
Figure 02_image039
為學習率(learning rate)、
Figure 02_image041
為折扣率(discount factor),
Figure 02_image063
為在新比賽狀態
Figure 02_image055
下執行動作a 的學習值。藉由取比賽狀態
Figure 02_image049
下多種動作a 中,擁有最大學習值的動作為最佳動作
Figure 02_image045
,將執行動作
Figure 02_image045
至新比賽狀態
Figure 02_image055
獲得的獎勵回饋至原比賽狀態
Figure 02_image049
對應動作
Figure 02_image045
的學習值。此外,上述的學習率
Figure 02_image039
例如為數值介於0.1至0.5之間的任意數,其可決定新比賽狀態
Figure 02_image055
對於原比賽狀態
Figure 02_image049
的學習值的影響比例。上述的折扣率
Figure 02_image041
例如為數值介於0.9至0.99之間的任意數,其可決定新比賽狀態
Figure 02_image065
對於所回饋獎勵的比率。
基於上述步驟的離線訓練,強化學習表已能夠學習到各種狀態下執行各種動作的價值函數(即,學習值)。因此,在實際比賽中,藉由應用此強化學習表,即可針對當前比賽狀態即時地評價並推薦最佳策略。
詳言之,回到圖2的流程,在步驟S240中,由處理器16依據當前的比賽狀態,對更新後強化學習表中所記錄於此比賽狀態下可執行的所有攻守動作的學習值進行排序,並根據排序結果推薦適於此比賽狀態下執行的攻守動作。在一些實施例中,處理器16例如會依各個攻守動作所對應的學習值,對這些攻守動作進行排序,從而顯示或提示學習值較高的一或多個攻守動作,以推薦給球隊選擇。
以防守方為例,針對當前的比賽狀態
Figure 02_image025
,從強化學習表中可查詢出在此比賽狀態下可執行的所有動作a ,從而對所有動作a 的學習值
Figure 02_image067
進行排序,以進行策略評估。其中,最佳防守策略動作
Figure 02_image069
可定義為:
Figure 02_image071
(3)
在一些實施例中,由於每位投手所能夠投出的球種不同,上式動作a 的集合可因應當下投手能力的不同而改變,亦即可將投手能力納入學習與決策。類似地,對於進攻方而言,在當前比賽狀態下可執行的所有動作a 的集合亦可因應當下打者能力的不同而改變,亦即可將打者能力納入學習與決策。
基於上述,本實施例的方法是以球隊觀點出發,利用強化學習方法規劃出整體球隊的進攻和防守策略,有別於個別球員的數據化方法,本實施例的方法對於賽局的掌握較為全面且有利。
需說明的是,在實際比賽中,除了可應用預先學習的強化學習表對當前比賽狀態即時地評價並推薦最佳策略外,本發明實施例還可進一步根據球隊所選擇的策略,對所訓練的強化學習表進行線上學習及更新,以持續學習比賽經驗。
圖4是依照本發明一實施例所繪示的線上學習方法的流程圖。請同時參照圖2及圖4,本實施例說明上述圖2步驟S240之後的學習過程。
在步驟S410中,由處理器16觀察當前比賽狀態。所述的當前比賽狀態例如是由教練手動輸入,或是由處理器16自動判讀當前比賽的賽局計分、球數、攻守數據等資訊來獲得,在此不設限。
在步驟S420中,由處理器16依據當前的比賽狀態,對更新後強化學習表中所記錄於此比賽狀態下可執行的所有攻守動作的學習值進行排序,並根據排序結果推薦適於此比賽狀態下執行的攻守動作。上述的步驟S420與圖2中的步驟S240相同或相似,故其詳細內容在此不再贅述。
與前述實施例不同的是,本實施例在步驟S430中,進一步由處理器16接收對於其所推薦的攻守動作的選擇。在一些實施例中,處理器16例如是藉由鍵盤、滑鼠、觸控板等輸入裝置(未繪示)接收球隊(例如教練)對於其所推薦的攻守動作的選擇操作。
在步驟S440中,由處理器16根據執行所選擇攻守動作後所得的攻守結果及新比賽狀態,計算於該比賽狀態下執行所選擇攻守動作所得的獎勵。其中,處理器16同樣可藉由手動輸入或自動判讀當前比賽的賽局計分、球數、攻守數據等資訊來獲得攻守結果及新比賽狀態,在此不設限。
在步驟S450中,由處理器16利用所計算獎勵及新比賽狀態下執行多個攻守動作的學習值,更新強化學習表中於該比賽狀態下執行所選擇攻守動作的學習值。
不同於離線規劃階段中是採用過往比賽時所選擇的動作來進行學習的方式,在線上學習階段中,處理器16是直接依照球隊當前選擇的動作以及執行該動作後所獲得的攻守結果,來計算獎勵並用以更新強化學習表。藉由持續更新強化學習表,使得強化學習表能夠持續學習比賽經驗,而在未來的賽局中評價或推薦符合球隊近況或比賽現況的策略。
綜上所述,在本發明實施例的基於強化學習的棒球策略規劃方法及裝置中,利用球隊過往比賽資料事先建構可反映賽局中狀態及動作配對的強化學習表,從而在實際比賽中可推薦適於當下狀態的進攻或防守策略。此外,藉由持續更新此強化學習表,可持續學習比賽經驗,並推薦更符合比賽現況的策略。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
10:棒球策略規劃裝置 12:資料擷取裝置 14:儲存裝置 16:處理器 S210~S240、S231~S236、S410~S450:步驟
圖1是根據本發明一實施例所繪示的基於強化學習的棒球策略規劃裝置的方塊圖。 圖2是依照本發明一實施例所繪示的基於強化學習的棒球策略規劃方法的流程圖。 圖3是依照本發明一實施例所繪示的更新強化學習表的方法流程圖。 圖4是依照本發明一實施例所繪示的線上學習方法的流程圖。
S210~S240:步驟

Claims (16)

  1. 一種基於強化學習的棒球策略規劃方法,適用於具有處理器的電子裝置,所述方法包括下列步驟: 蒐集球隊過往比賽的多個賽局的歷史資料; 依據比賽過程中發生的多個攻守過程,定義多個比賽狀態、多個攻守動作及對應於多個攻守結果的多個獎勵,並用以建構一強化學習表; 依據所述歷史資料中記錄的所述比賽狀態、所述攻守動作及所述攻守結果的多個組合更新所述強化學習表;以及 依據當前的比賽狀態,對更新後所述強化學習表中所記錄於所述比賽狀態下可執行的所有攻守動作的學習值進行排序,並根據排序結果推薦適於所述比賽狀態下執行的所述攻守動作。
  2. 如請求項1所述的方法,其中所述比賽狀態包括壘包佔領情形、出局數或好壞球數。
  3. 如請求項1所述的方法,其中所述攻守動作包括投手的多個球種及打者的多個打擊動作,所述打擊動作包括短打、安打、高飛犧牲打或不出棒。
  4. 如請求項1所述的方法,其中對應於所述攻守結果的所述獎勵包括代表防守方的失分、被進壘、被擊中的負獎勵、代表防守方未失分的零獎勵,以及代表防守方未被擊中、三振或接殺打者的正獎勵。
  5. 如請求項1所述的方法,其中對應於所述攻守結果的所述獎勵包括代表進攻方的得分、進壘、擊中的正獎勵、代表進攻方未得分的零獎勵,以及代表進攻方打者未擊中、被三振或被接殺的負獎勵。
  6. 如請求項1所述的方法,其中依據所述歷史資料中記錄的所述比賽狀態、所述攻守動作及所述攻守結果的多個組合更新所述強化學習表的步驟包括: 針對各所述比賽狀態,搜尋所述歷史資料中記錄的於該比賽狀態下執行多個攻守動作後所得的攻守結果及新比賽狀態,用以計算於該比賽狀態下執行各所述攻守動作所得的獎勵;以及 利用所計算的所述獎勵及所述新比賽狀態下執行多個攻守動作的學習值,更新所述強化學習表中於該比賽狀態下執行各所述攻守動作的學習值。
  7. 如請求項1所述的方法,其中在根據排序結果推薦適於所述比賽狀態下執行的所述攻守動作的步驟之後,更包括: 接收對於所推薦的所述攻守動作的選擇; 根據執行所選擇的所述攻守動作後所得的攻守結果及新比賽狀態,計算於該比賽狀態下執行所選擇的所述攻守動作所得的獎勵;以及 利用所計算的所述獎勵及所述新比賽狀態下執行多個攻守動作的學習值,更新所述強化學習表中於該比賽狀態下執行所選擇的所述攻守動作的學習值。
  8. 如請求項1所述的方法,其中於所述比賽狀態下可執行的所有攻守動作的學習值包括可執行所述攻守動作的多個球員執行所述攻守動作的學習值。
  9. 一種基於強化學習的棒球策略規劃裝置,包括: 資料擷取裝置,連接外部裝置; 儲存裝置,儲存電腦程式;以及 處理器,耦接所述資料擷取裝置及所述儲存裝置,經配置以載入並執行所述電腦程式以: 利用所述資料擷取裝置從所述外部裝置蒐集球隊過往比賽的多個賽局的歷史資料; 依據比賽過程中發生的多個攻守過程,定義多個比賽狀態、多個攻守動作及對應於多個攻守結果的多個獎勵,並用以建構一強化學習表; 依據所述歷史資料中記錄的所述比賽狀態、所述攻守動作及所述攻守結果的多個組合更新所述強化學習表;以及 依據當前的比賽狀態,對更新後所述強化學習表中所記錄於所述比賽狀態下可執行的所有攻守動作的學習值進行排序,並根據排序結果推薦適於所述比賽狀態下執行的所述攻守動作。
  10. 如請求項9所述的基於強化學習的棒球策略規劃裝置,其中所述比賽狀態包括壘包佔領情形、出局數或好壞球數。
  11. 如請求項9所述的基於強化學習的棒球策略規劃裝置,其中所述攻守動作包括投手的多個球種及打者的多個打擊動作,所述打擊動作包括短打、安打、高飛犧牲打或不出棒。
  12. 如請求項9所述的基於強化學習的棒球策略規劃裝置,其中對應於所述攻守結果的所述獎勵包括代表防守方的失分、被進壘、被擊中的負獎勵、代表防守方未失分的零獎勵,以及代表防守方未被擊中、三振或接殺打者的正獎勵。
  13. 如請求項9所述的基於強化學習的棒球策略規劃裝置,其中對應於所述攻守結果的所述獎勵包括代表進攻方的得分、進壘、擊中的正獎勵、代表進攻方未得分的零獎勵,以及代表進攻方打者未擊中、被三振或被接殺的負獎勵。
  14. 如請求項9所述的基於強化學習的棒球策略規劃裝置,其中所述處理器包括針對各所述比賽狀態,搜尋所述歷史資料中記錄的於該比賽狀態下執行多個攻守動作後所得的攻守結果及新比賽狀態,用以計算於該比賽狀態下執行各所述攻守動作所得的獎勵,以及利用所計算的所述獎勵及所述新比賽狀態下執行多個攻守動作的學習值,更新所述強化學習表中於該比賽狀態下執行各所述攻守動作的學習值。
  15. 如請求項9所述的基於強化學習的棒球策略規劃裝置,其中所述處理器更接收對於所推薦的所述攻守動作的選擇,並根據執行所選擇的所述攻守動作後所得的攻守結果及新比賽狀態,計算於該比賽狀態下執行所選擇的所述攻守動作所得的獎勵,以及利用所計算的所述獎勵及所述新比賽狀態下執行多個攻守動作的學習值,更新所述強化學習表中於該比賽狀態下執行所選擇的所述攻守動作的學習值。
  16. 如請求項9所述的基於強化學習的棒球策略規劃裝置,其中於所述比賽狀態下可執行的所有攻守動作的學習值包括可執行所述攻守動作的多個球員執行所述攻守動作的學習值。
TW109120133A 2020-06-16 2020-06-16 基於強化學習的棒球策略規劃方法及裝置 TWI779301B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW109120133A TWI779301B (zh) 2020-06-16 2020-06-16 基於強化學習的棒球策略規劃方法及裝置
US16/942,758 US20210387070A1 (en) 2020-06-16 2020-07-29 Method and apparatus for baseball strategy planning based on reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109120133A TWI779301B (zh) 2020-06-16 2020-06-16 基於強化學習的棒球策略規劃方法及裝置

Publications (2)

Publication Number Publication Date
TW202201337A true TW202201337A (zh) 2022-01-01
TWI779301B TWI779301B (zh) 2022-10-01

Family

ID=78824265

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109120133A TWI779301B (zh) 2020-06-16 2020-06-16 基於強化學習的棒球策略規劃方法及裝置

Country Status (2)

Country Link
US (1) US20210387070A1 (zh)
TW (1) TWI779301B (zh)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6652284B2 (en) * 2001-03-16 2003-11-25 Agere Systems Inc. Virtual assistant coach
US20120316659A1 (en) * 2011-06-09 2012-12-13 Mark Andrew Magas Coaching Strategies in Fantasy Sports
WO2013166456A2 (en) * 2012-05-04 2013-11-07 Mocap Analytics, Inc. Methods, systems and software programs for enhanced sports analytics and applications
US9501950B2 (en) * 2014-11-07 2016-11-22 Umm Al-Qura University System and method for coach decision support
WO2016172663A1 (en) * 2015-04-24 2016-10-27 Tagb.io. Inc. Outcome prediction
TWI625150B (zh) * 2016-04-12 2018-06-01 國立臺中科技大學 與球場實況互動之應用系統
US11367088B2 (en) * 2016-11-11 2022-06-21 Jpmorgan Chase Bank, N.A. System and method for providing data science as a service
CN109165253A (zh) * 2018-08-15 2019-01-08 宁夏大学 一种篮球战术辅助的方法与装置
CN109758758A (zh) * 2019-03-12 2019-05-17 福建工程学院 一种基于球员特点的战术拟定方法
CN110147524A (zh) * 2019-05-10 2019-08-20 深圳市腾讯计算机系统有限公司 一种基于机器学习的比赛结果预测方法、装置及设备
CN110882544B (zh) * 2019-11-28 2023-09-15 网易(杭州)网络有限公司 多智能体训练方法、装置和电子设备

Also Published As

Publication number Publication date
US20210387070A1 (en) 2021-12-16
TWI779301B (zh) 2022-10-01

Similar Documents

Publication Publication Date Title
Tango et al. The book: Playing the percentages in baseball
US10765951B2 (en) Game system, game control device, and information storage medium
WO2013190881A1 (ja) ゲーム管理装置、ゲームシステム、ゲーム管理方法、プログラム及び記録媒体
WO2015076682A1 (en) System and method for assessing or predicting a match outcome in a sporting event
CN107213624A (zh) 一种麻将计分系统及方法
Prakash et al. Data analytics based deep mayo predictor for IPL-9
WO2013179525A1 (ja) ゲーム管理装置、ゲーム装置、ゲームシステム、ゲーム管理方法、プログラム及び記録媒体
KR102513635B1 (ko) 축구 선수 추천 방법 및 장치
KR20190127196A (ko) 인공신경망을 이용한 야구 경기 실시간 예측 방법 및 장치
US20130310958A1 (en) Systems and methods for evaluating pitching performances
TWI779301B (zh) 基於強化學習的棒球策略規劃方法及裝置
Prakash et al. A new category based deep performance index using machine learning for ranking IPL cricketers
US9586143B2 (en) Game control device, game control method, program, recording medium, and game system
JP2019136254A (ja) ゲームシステム、ゲーム制御装置、及びプログラム
US9192864B1 (en) Performance based baseball scoring system
JP7436074B2 (ja) 野球分析シート、野球分析データ収集方法、野球分析データ収集セット、及び、野球データ分析システム装置
JP7185001B2 (ja) ゲームサーバ、ゲームプログラム、情報処理方法
Khatavkar et al. Context based cricket player evaluation using statistical analysis
Fritz et al. Objective method for determining the most valuable player in major league baseball
Sakai et al. Evaluating hitting skills of npb players with logistic regression analysis
WO2021161758A1 (ja) 野球データ分析装置、野球データ分析システム装置、野球データ分析方法、プログラム及び記録媒体
Gaffaney An analysis of the contract year phenomenon in the NBA: Do players perform better or worse
Watkins et al. Pitcher Effectiveness: A step forward for in game analytics and pitcher evaluation
JP6799764B2 (ja) プログラム、ゲーム制御方法、ゲーム制御装置、及びゲームシステム
Clark Regression Analysis of Success in Major League Baseball

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent