TWI840012B

TWI840012B - 擴增實境作業程序判斷系統、擴增實境作業程序判斷方法及擴增實境作業程序判斷裝置

Info

Publication number: TWI840012B
Application number: TW111147732A
Authority: TW
Inventors: 張家泓; 謝易耘; 王士維; 郭家豐
Original assignee: 緯創資通股份有限公司
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2024-04-21
Also published as: US20240193940A1; TW202424672A; CN118196585A

Abstract

一種擴增實境作業程序判斷系統，包含：一擴增實境裝置以及一處理器。擴增實境裝置接收複數個即時影像。處理器存取一儲存裝置所儲存之一推論模型，其中該處理器執行：透過該推論模型判斷該些即時影像對應的一標準作業程序結果，該擴增實境裝置將該標準作業程序結果顯示於該些即時影像中的至少一者。藉此可達到判斷操作人員是否依循標準作業程序操作的效果。

Description

擴增實境作業程序判斷系統、擴增實境作業程序判斷方法及擴增實境作業程序判斷裝置

本發明是關於一種應用於標準作業程序(Standard Operating Procedures，SOP)的推論模型，特別是關於一種擴增實境作業程序判斷系統、擴增實境作業程序判斷方法及擴增實境作業程序判斷裝置。

在許多領域的專業場域，如工廠生產或醫療急救，通常會根據經驗制訂許多標準作業程序 (Standard Operating Procedures，SOP)，確保人員操作的正確性以維持目標的品質。目前針對人員 SOP 的訓練，除了透過 SOP 手冊練習外，仍多仰賴經驗充足的資深人員親自指導以審核學習的成效，導致不論是新展的學習或舊有的複習都需花費資深人員的時間和心力。

若有一辨識系統能代替資深人員進行 SOP 操作的審核，例如，以虛擬數位教練概念取代真人教練，將能節省珍貴的人力資源。

然而此類行為辨識系統普遍採取額外架設攝影機的方式，透過第三人稱視角的影片進行辨識，容易因拍攝視角不同而影響判斷的準確度，且辨識的結果無法即時回饋給操作人員，使實用性大幅降低。

因此，如何提供一種精準的推論模型，用以判斷操作人員是否依循標準作業程序作業，並透過第一人稱視角的影片進行辨識，已成為本領域需解決的問題之一。

為了解決上述的問題，本揭露內容之一態樣提供了一種擴增實境作業程序判斷系統，包含一擴增實境裝置以及一處理器。擴增實境裝置接收複數個即時影像。處理器存取一儲存裝置所儲存之一推論模型，其中該處理器執行：透過該推論模型判斷該些即時影像對應的一標準作業程序(Standard Operating Procedures，SOP)結果，該擴增實境裝置將該標準作業程序結果顯示於該些即時影像中的至少一者。

於一實施例中，其中該處理器執行：接收複數個正樣本資料；將該些正樣本資料依據一特定時間長度拆分成複數個影片段；將該些影片段中的任兩個相鄰影片段互換，以產生複數個負樣本資料；以及將該些負樣本資料或該些正樣本資料輸入到該推論模型進行訓練。

於一實施例中，其中將該些負樣本資料或該些正樣本資料輸入到該推論模型進行訓練前，該處理器執行：將該些正樣本資料或該些負樣本資料以一滑動視窗(sliding window)進行遮罩處理，其中，該遮罩處理是指留白或補上黑色，依據時間產生複數個子樣本資料，該些子樣本資料中各自保存該滑動視窗內的幀畫面(frame)，每個該些子樣本資料中保存的該幀畫面所對應的時間不同，且將該些子樣本資料中未保存該滑動視窗中的其它幀畫面進行遮罩處理。

於一實施例中，該擴增實境裝置每接收到該些即時影像之一者，該處理器累積該些即時畫面，響應於該些即時畫面的數量累積到一預設幀畫面數量時，該處理器將累積的該些即時畫面輸入到該推論模型中，該推論模型輸出該標準作業程序結果。

於一實施例中，該推論模型輸出的該標準作業程序結果包含一操作正確結果、一操作錯誤結果或一尚不足判斷顯示(keep going)。

於一實施例中，該處理器將該些負樣本資料及該些正樣本資料或對應該些負樣本資料及該些正樣本資料的該些子樣本資料進行一資料增強(augmentation)的處理後，將複數個完成資料增強的負樣本資料與複數個完成資料增強的正樣本資料或完成資料增強的對應該些負樣本資料及該些正樣本資料的該些子樣本資料輸入到該推論模型。

於一實施例中，該資料增強包含一時序推移增強(temporal translation)，其中該時序推移增強是指隨機推移該些影片段之至少一影片中每個幀的時間位置。

於一實施例中，該資料增強包含一時序縮放增強(temporal zooming)，其中該時序縮放增強是指隨機加速或放慢該些影片段中之至少一影片中的影片內容。

本揭露內容之一態樣提供了一種擴增實境作業程序判斷方法，包含：藉由一擴增實境裝置接收複數個即時影像；藉由一處理器存取一儲存裝置所儲存之一推論模型；以及藉由該處理器透過該推論模型判斷該些即時影像對應的一標準作業程序(Standard Operating Procedures，SOP)結果，該擴增實境裝置將該標準作業程序結果顯示於該些即時影像中的至少一者。

於一實施例中，藉由該處理器接收複數個正樣本資料；藉由該處理器將該些正樣本資料依據一特定時間長度拆分成複數個影片段；藉由該處理器將該些影片段中的任兩個相鄰影片段互換，以產生複數個負樣本資料；藉由該處理器將該些負樣本資料或該些正樣本資料輸入到該推論模型進行訓練。

於一實施例中，藉由該處理器將該些負樣本資料或該些正樣本資料輸入到該推論模型進行訓練的步驟前更包含：藉由該處理器將該些正樣本資料或該些負樣本資料以一滑動視窗(sliding window)進行遮罩處理，其中，該遮罩處理是指留白或補上黑色，並依據時間產生複數個子樣本資料，該些子樣本資料中各自保存該滑動視窗內的幀畫面(frame)，每個該些子樣本資料中保存的該幀畫面所對應的時間不同，且將該些子樣本資料中未保存該滑動視窗中的其它幀畫面進行遮罩處理。

於一實施例中，當該些正樣本資料依據該特定時間長度拆分成N個影片段時，該處理器產生N-1個負樣本資料；其中，N為正整數。

於一實施例中，該些子樣本資料包含一第一子樣本資料與一第二子樣本資料，該第一子樣本資料對應的一第一滑動視窗的一第一時間區間與該第二子樣本資料對應的一第二滑動視窗的一第二時間區間重疊M秒，其中M為一正整數，且M秒小於該第一時間區間；其中，該第一時間區間與該第二時間區間的長度相同，且該第二時間區間的起始點晚於該第一時間區間的起始點。

本揭露內容之一態樣提供了一種擴增實境作業程序判斷裝置，包含：一擴增實境眼鏡以及一處理器。擴增實境眼鏡用以接收複數個即時影像；處理器用以存取一儲存裝置所儲存之一推論模型，其中該處理器執行：透過該推論模型判斷該些即時影像對應的一標準作業程序(Standard Operating Procedures，SOP)結果，該擴增實境裝置將該標準作業程序結果顯示於該些即時影像中的至少一者。

於一實施例中，該處理器執行：接收複數個正樣本資料；將該些正樣本資料依據一特定時間長度拆分成複數個影片段；將該些影片段中的任兩個相鄰影片段互換，以產生複數個負樣本資料；將該些負樣本資料或該些正樣本資料輸入到該推論模型進行訓練；或是將該些負樣本資料或該些正樣本資料輸入到該推論模型進行訓練前，該處理器執行：將該些正樣本資料或該些負樣本資料以一滑動視窗(sliding window)進行遮罩處理，其中，該遮罩處理是指留白或補上黑色，依據時間產生複數個子樣本資料，該些子樣本資料中各自保存該滑動視窗內的一幀畫面(frame)，每個該些子樣本資料中保存的該幀畫面所對應的時間不同，且將該些子樣本資料中未保存該滑動視窗中的其它幀畫面進行遮罩處理。

本案所述的擴增實境作業程序判斷系統及擴增實境作業程序判斷方法將增加SOP的負樣本資料數，在正樣本資料數量與負樣本資料數量都充足的情況下，使推論模型的訓練更為準確。另外，透過擴增實境裝置的應用，能收集到使用者第一人稱視角的即時影像，避免因拍攝視角不同而影響訓練推論模型的準確度，處理器透過這些即時影像訓練推論模型，能大幅提高訓練品質與準確性。

另一方面，訓練完成的推論模型也能即時判斷使用者是否有遵照SOP進行操作，且辨識的結果可以即時回饋給操作人員，使實用性大幅增加。

以下說明係為完成發明的較佳實現方式，其目的在於描述本發明的基本精神，但並不用以限定本發明。實際的發明內容必須參考之後的權利要求範圍。

必須了解的是，使用於本說明書中的”包含”、”包括”等詞，係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件，但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件，或以上的任意組合。

於權利要求中使用如”第一”、"第二"、"第三"等詞係用來修飾權利要求中的元件，並非用來表示之間具有優先權順序，先行關係，或者是一個元件先於另一個元件，或者是執行方法步驟時的時間先後順序，僅用來區別具有相同名字的元件。

請參照第1~2圖，第1圖係依照本發明一實施例繪示之擴增實境作業程序判斷系統100之方塊圖。第2A圖係依照本發明一實施例繪示之擴增實境作業程序判斷方法200之流程圖。第2B圖係依照本發明另一實施例繪示之擴增實境作業程序判斷方法200’之流程圖。於一實施例中，擴增實境作業程序判斷方法200、200’可以由擴增實境作業程序判斷系統100實現。

如第1圖的擴增實境作業程序判斷系統100中包含一伺服器10以及一擴增實境裝置20。伺服器10也可以由一桌機、一筆電或是本機作業系統(Host operation system)上架構的虛擬機器以實現之。

於一實施例中，伺服器10與擴增實境裝置20之間是以有線或無線的方式建立通訊連結LK。

於一實施例中，當擴增實境裝置20內部的運算裝置(例如：處理器)效能足夠，且擴增實境裝置20內部的儲存裝置(未示於圖式中)容量足夠，則可以在擴增實境裝置20內部訓練推論模型MD，並在擴增實境裝置20內部執行推論模型MD，則擴增實境裝置20可不與伺服器10建立通訊連結。

於一實施例中，伺服器10的功能可以由硬體電路、晶片、韌體或軟體實現之。

於一實施例中，伺服器10包含一處理器12以及一儲存裝置14。於一實施例中，伺服器10更包含一顯示器(未示於圖式中)。

於一實施例中，處理器12可由微控制單元(microcontroller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit，ASIC)或一邏輯電路以實現之。

於一實施例中，儲存裝置14可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體。

於一實施例中，擴增實境裝置20可以是指擴增實境(Augmented Reality，AR)眼鏡或混合實境(Mixed Reality，MR)眼鏡。AR眼鏡是藉由投影或是攝影機的結合，將虛擬元素投射在顯示器的畫面中，顯示器的畫面可以同時顯示周遭環境與虛擬元素。MR 眼鏡可將虛擬的場景與現實世界進行更多的結合、串聯並且產生互動可以讓使用者看見修改過後的設計圖草稿、觀看虛擬電視等，在 MR 眼鏡中，使用者可以透過現實生活中的動作改變虛擬世界。

於一實施例中，處理器12用以存取儲存裝置14所儲存之推論模型MD，以實現擴增實境作業程序判斷方法200、200’。

於一實施例中，推論模型MD可以由已知的卷積神經網路(Convolution Neural Network，CNN)、二維卷積神經網路、二維卷積神經網路加上串聯(concatenate)操作、二維卷積神經網路加上循環神經網路(Recurrent neural network：RNN)、三維卷積神經網路。然而，本領域具通常知識者應知推論模型MD的實現方式不限於此，其他可以用於影像辨識的類神經網路亦可以實現之。

於一實施例中，推論模型MD可以由硬體(電路/晶片)、軟體或韌體實現其功能。推論模型MD可以應用在有標準作業程序(Standard Operating Procedures，SOP)的分析上，判斷使用者是否依據SOP操作，例如，可以應用在插管準備、插管施救、設備組裝、維修及/或針對一般電子裝置的操作。一般而言，當使用者操作涉及SOP的動作時，取得正樣本資料相對容易，可能是新手或是偶爾才會發生失誤，因此，取得負樣本資料相對不易。據此，樣本資料的產生，在訓練推論模型MD特別重要，以下詳述擴增實境作業程序判斷方法200，如第2A圖所示。

於步驟210中，藉由一擴增實境裝置20接收複數個影像30。

於一實施例中，此些影像30可以是動態的影片，影片則是由多個幀畫面(frame)所組成。

於一實施例中，此些影像30可以是即時(real-time)且正在進行的影片，例如在插管準備、插管施救、設備組裝、維修及/或針對一般電子裝置的操作。舉例而言，在插管準備的過程中，擴增實境裝置20拍攝到護理師準備喉頭鏡、準備氣管內管及/或準備病人姿勢...等的此些影像30。

藉由擴增實境裝置20的應用，可以讓使用者透過沉浸式體驗，及時觀察資訊，也及時蒐集使用者資訊。避免了第三人稱相機的死角問題，亦不需額外的攝影機提供影像輸入，因此，讓此擴增實境作業程序判斷系統100的架設具備彈性，亦更能適應不同產業與不同場景的應用。

於步驟220中，藉由一處理器12存取一儲存裝置14所儲存之一推論模型MD。此推論模型MD可以應用在有標準作業程序(Standard Operating Procedures，SOP)的分析上，判斷使用者是否依據SOP操作。

於步驟230中，藉由處理器12透過推論模型MD判斷此些影像30對應的標準作業程序結果，擴增實境裝置20將標準作業程序結果顯示於此些影像30中的至少一者。

於一實施例中，推論模型MD依據多個影像30輸出此些影像30對應的標準作業程序結果，擴增實境裝置20依據標準作業程序結果，判斷一操作情境是否正確，以產生一判斷結果，其中當處理器每隔一預設幀數(例如每隔30個幀)，將判斷結果對應的一圖標(icon)顯示於此些影像30中的至少一者(例如第30~32幀)。於一實施例中，當判斷結果為操作正確，則圖標可以是符號“O”或文字“OK”；當判斷結果為操作錯誤，則圖標可以是符號“X”或文字“ERROR”，然而，圖標只要讓操作人員理解操是否正確即可，圖標的樣式不限於此。

另外，於一實施例中，詳述擴增實境作業程序判斷方法200’，如第2B圖所示。在此實施例中，處理器可先執行擴增實境作業程序判斷方法200’的步驟獲得訓練好的推論模型MD，接著透過訓練好的推論模型MD執行擴增實境作業程序判斷方法200的步驟。

於步驟240中，藉由一處理器12接收複數個正樣本資料，其中此些正樣本資料可為來自擴增實境裝置20的此些影像30。

一般而言，當使用者操作涉及SOP的動作時，只要遵照SOP，即可順利操作(只有很小的機率操作錯誤)，因此取得正樣本資料相對容易，此步驟中將此些影像30視為多個正樣本資料。

然而，在訓練推論模型MD時，需要多個正樣本資料及多個負樣本資料，因此，於後續步驟中，處理器12產生多個負樣本資料。例如，如第3A圖所示，第3A圖係依照本發明一實施例繪示負樣本資料產生方法300之示意圖。

於步驟250中，藉由處理器12將此些正樣本資料依據一特定時間長度拆分成複數個影片段。

如第3A圖所示，例如處理器12將一個12秒長的正樣本影片(OK video)每3秒拆成一段，此正樣本資料可被拆為4個影片段依序是A~D。

於步驟260中，藉由處理器12將此些影片段中的任兩個相鄰影片段互換，以產生複數個負樣本資料。例如，藉由處理器12選出此些影片段中的兩個相鄰影片段互換，以產生一第一負樣本資料，以及將此些影片段中的另兩個相鄰影片段互換，以產生一第二負樣本資料，但本實施例不限於此。

於一實施例中，處理器12將一段約 1 至 2 分鐘的影片平均切為 16 小段，再將相鄰的影片交換以製作負樣本資料。每段時間約 3 至 8 秒。

如第3A圖所示，如第3A圖所示，例如處理器12將一個12秒長的正樣本影片(OK video)每3秒拆成一段，此正樣本資料可被拆為4個影片段依序是A~D。影片的順序性是重要的，因為SOP的動作順序錯誤，則視同操作錯誤。因此，處理器12將正樣本資料根據時間分為好幾小段(例如4段，依序是影片段A~D)，並將相鄰的兩段互換以製造負樣本資料。例如，將影片段A與影片段B互換(視為第一負樣本資料)、將影片段B與影片段C互換(視為第二負樣本資料)以及將影片段C與影片段D互換(視為第三負樣本資料)，以得到三個負樣本影片(NG video)。

於一實施例中，一旦產生負樣本資料，處理器12即會將錯誤時點(即相鄰交換的影片段)標註起來，儲存到儲存裝置14中。

若非兩個相鄰影片段互換，則影片銜接的部分會不自然。處理器12也會記錄每一個負樣本資料兩個相鄰影片段互換的時間，因此可以得知每個負樣本資料錯誤的地方，例如處理器12會將以下資訊儲存於儲存裝置14中：第一負樣本資料是影片段A與影片段B互換(將影片段A到影片段B的時間紀錄下來)，影片段C與影片段D是沒有被更動到的，其他第二負樣本資料、第三負樣本資料依此類推，處理器12會將所有生成負樣本資料的方式紀錄到儲存裝置14中。由於SOP是一系列的操作，因此樣本資料中存在步驟錯誤，則整個樣本資料都會被視為負樣本資料。藉此，處理器12可以產生多個負樣本資料。

於一實施例中，當此些正樣本資料依據特定時間拆分成N個影片段時，處理器12產生N-1個負樣本資料；其中，N為正整數。

例如，於第3A圖中，正樣本資料依據每3秒拆分成1個影片段，則正樣本資料被拆分成4個片段，處理器12可以產生3個負樣本資料。此例中的N值為4。

於步驟270中，藉由處理器12將此些負樣本資料或此些正樣本資料輸入到推論模型MD進行訓練。

由於上述步驟已經取得多個正樣本資料，並生成了多個負樣本資料，故有足夠的樣本資料數，可以輸入到推論模型MD，使推論模型MD進行訓練。

於一實施例中，處理器12將此些負樣本資料及此些正樣本資料進行一資料增強(augmentation)的處理後，將複數個完成資料增強的負樣本資料與複數個完成資料增強的正樣本資料輸入到推論模型MD。

於一實施例中，資料增強的資料調整方式包含隨機調整亮度 (Brightness)、對比(Contrast)、增強色調(Hue)與飽和度(Saturation)，以及旋轉(Rotation)、偏移(Translation)、錯切 (Shear)、縮放(Zoom)和增強翻轉(Flip)…等等。

於一實施例中，資料增強可包含一時序推移增強(temporal translation)，其中時序推移增強是指隨機推移影片中每個幀的時間位置。

資料增強中的時序推移讓整段影片延後或提前，且是隨機性的，目的是讓推論模型MD對於辨識 SOP 動作的發生時間能有一定的適應性，避免推論模型MD對訓練資料產生過擬合(Over-Fitting)的狀況。

於一實施例中，資料增強可包含一時序縮放增強(temporal zooming)，其中時序縮放增強是指隨機加速或放慢影片內容。

資料增強中的時序縮放，是為了讓模型對動作的快慢有適應性，避免模型對訓練資料產生過擬合的狀況。一般而言，在收集模型的訓練資料時，可能會只會由特定的使用者來操作，而使用者的動作具有習慣性，包含操作的時機與速度，因此，透過隨機的時序推移與縮放增強，當不同的使用者使用這套系統時，即使有不同的操作時機與速度，推論模型MD仍然可以辨識。

例如，透過將相鄰區段的影片畫面交換，以產生負樣本資料，一旦處理後就會存檔。而資料增強中的時序推移只是讓整段影片延後或提前，且是隨機性的，目的是讓模型對於辨識 SOP 動作的發生時間能有一定的適應性，避免模型對訓練資料產生過擬合的狀況 (Over-Fitting)，不會新增負樣本資料。舉例而言，如第3B圖所示，假設總共 10 幀，其內容為數字 0 到 9(例如10幀的原始影片畫面序列以(0，1，2，3，4，5，6，7，8，9)表示之)，當第一資料增強參數 K=0.1 時，會使左方的原始影片按照時間隨機推移 -1 至 1 個幀，變為右邊的狀況(即得到三種影片畫面序列(_，0，1，2，3，4，5，6，7，8)、(0，1，2，3，4，5，6，7，8，9)以及(1，2，3，4，5，6，7，8，9，_)，底線代表空畫面)，再進入訓練。第一資料增強參數K的強度可視需求和實驗來進行控制。在插管準備與施救的實例上，可將第一資料增強參數K設定為0.1。

資料增強中的時序縮放，是為了讓模型對動作的快慢有適應性，避免模型對訓練資料產生過擬合的狀況。在蒐集模型的訓練資料時，可能會只會由特定的人來操作，而人的動作具有習慣，包含操作的時機與速度，故透過隨機的時序推移與縮放增強，當不同的人使用這套系統時，即使有不同的操作時機與速度，模型仍然可以保持有效。舉例而言：如第3C圖所示，假設總共10幀，其內容為數字0到9(例如10幀的原始影片畫面序列以(0，1，2，3，4，5，6，7，8，9)表示之)，當第二資料增強參數J=0.5時，會使左方的原始影片按照時間向下取樣(Down Sampling)或向上取樣(Up Sampling)，從而製造出影片的快慢感(例如得到三種影片畫面序列(3，3，4，4，5，5，6，6，7，7)、(1，2，3，3，4，5，6，6，7，8)以及(_，_，0，2，4，6，8，_，_，_))，讓模型學習。第二資料增強參數J的強度可視需求和實驗來進行控制。在插管準備與施救的實例上，可以將第二資料增強參數J設定為0.5。

在不同的實際應用上，可選擇上述合適的影像與影片資料增強方法，幫助推論模型MD進行學習。

於一實施例中，當推論模型MD完成一預設次數時期(Epoch)後，處理器12將推論模型MD視為完成訓練階段。

於一實施例中，當推論模型MD為完成訓練的模型，擴增實境裝置20每接收到此些影像(例如即時影像)之一者，即傳送到伺服器10中，伺服器10累積此些畫面(例如即時畫面)，直到此些畫面(例如即時畫面)的數量累積到一預設幀畫面數量時(例如3至8秒的畫面)，處理器12將累積的此些畫面(例如即時畫面)輸入到推論模型MD中，推論模型MD輸出標準作業程序(Standard Operating Procedures，SOP)結果。

於一實施例中，當推論模型MD為完成訓練的模型，推論模型MD輸出的標準作業程序結果包含一操作正確結果、一操作錯誤結果或一尚不足判斷顯示(keep going)。

例如第4A~4C圖所示，第4A~4C圖係依照本發明一實施例繪示之標準作業程序結果之示意圖。例如，推論模型MD辨識畫面(例如即時畫面)，輸出標準作業程序結果rt包含第4A圖的操作正確結果(顯示為good)、第4B圖的操作錯誤結果(顯示為error)或第4C圖的尚不足判斷顯示(顯示為keep going)。於一實施例中，處理器12將輸出的標準作業程序結果rt對應的文字疊加在畫面(例如即時畫面)中，擴增實境裝置20顯示疊加後的畫面，供使用者及時參考。

於一實施例中，假設第4A~4C圖各自是3秒的影片，每秒有30個幀，則4A~4C圖各自有90個幀。換言之，推論模型MD每3秒輸出一個標準作業程序結果rt。

藉此，使用者可以透過將擴增實境裝置20提供的此些影像30輸入到推論模型MD後，推論模型MD每3秒輸出一個標準作業程序結果rt，讓使用者立刻知道操作方式是否有依照正確的SOP進行。

於一實施例中，在將正樣本資料或負樣本資料輸入推論模型MD進行訓練之前，藉由處理器12將此些正樣本資料或此些負樣本資料以一滑動視窗(sliding window)W0進行遮罩處理，並依據時間產生複數個子樣本資料，此些子樣本資料中各自保存滑動視窗W1~W3內的幀畫面，每個此些子樣本資料中保存的幀畫面所對應的時間不同。

於一實施例中，將此些子樣本資料中未保存滑動視窗中的其它幀畫面進行遮罩處理；其中，遮罩處理是指留白或補上黑色。

例如，如第5圖所示，第5圖係依照本發明一實施例繪示之滑動視窗之示意圖。處理器12依據一段畫面，產生的3個子樣本資料中(此例中可以是利用正樣本資料產生子樣本資料)，第一個子樣本資料的滑動視窗W1位於第1~90個幀，第二個子樣本資料的滑動視窗W2位於第30~120個幀，第三個子樣本資料的滑動視窗W3位於第60~150個幀，每個滑動視窗W0~W3的大小固定為90個幀，固定每次滑動30個幀。滑動視窗W1~W3之外的部分進行遮罩處理(即，處理器12忽視被遮罩的部分)。

藉此，透過滑動視窗W1~W3的應用，將影片切成更小的單位，達到減少處理器12的運算量的效果，亦可增加推論模型MD對於此段畫面是否符合標準作業程序的辨識程度。

於一實施例中，屬於負樣本資料的多個子樣本資料，在此步驟中，挑選滑動視窗W1~W3位於標註錯誤的片段中的子樣本資料。例如，如第5圖所示，在此處的例子中，處理器12依據一段畫面，產生的3個負樣本對應的子樣本資料，滑動視窗W0~W3的大小為5個幀，其中，第一個子樣本資料的滑動視窗W1位於第1~5個幀，第二個子樣本資料的滑動視窗W2位於第4~8個幀，第三個子樣本資料的滑動視窗W3位於第7~11個幀，每個滑動視窗W0~W3的大小固定為5個幀，固定每次滑動3個幀，被標記為錯誤的幀位於第6~12個幀(也就是說，第三個子樣本資料的滑動視窗W3位於錯誤發生的片段中)。響應於第三個子樣本資料的滑動視窗W3位於被標記為錯誤的幀內，處理器12處理第三個子樣本資料，忽視沒有位於被標記為錯誤的幀內的第一個子樣本資料與第二個子樣本資料。

於一實施例中，此些子樣本資料包含一第一子樣本資料與一第二子樣本資料，第一子樣本資料對應的一第一滑動視窗W1的一第一時間區間與第二子樣本資料對應的一第二滑動視窗W2的一第二時間區間重疊M秒，其中M為一正整數，且M秒小於第一時間區間；其中，第一時間區間與第二時間區間的長度相同，且第二時間區間的起始點晚於第一時間區間的起始點。

例如，子樣本資料包含第一子樣本資料與第二子樣本資料，第一子樣本資料對應的第一滑動視窗W1的時間區間為第1~5秒，第二子樣本資料對應的第二滑動視窗W2的時間區間為第3~7秒，則兩者重疊2秒(第3~5秒為重疊處)，重疊的時間(2秒)小於時間區間(5秒)。其中，第一滑動視窗W1與第二滑動視窗W2的大小相同，所對應的時間區間也相同(在此例中都是5秒，若每秒顯示幀數(即，幀率(frame rate，fps)為30，則第一滑動視窗W1與第二滑動視窗W2都包含150個幀)，第一滑動視窗W1的起始點為第1個幀(第1秒開始)，第一滑動視窗W2的起始幀為第90個幀(第3秒開始)。

於一實施例中，處理器12將對應此些負樣本資料及此些正樣本資料的該些子樣本資料進行一資料增強(augmentation)的處理後，將完成資料增強的對應此些負樣本資料及此些正樣本資料的此些子樣本資料輸入到推論模型MD。

於一實施例中，資料增強包含一時序推移增強(temporal translation)，其中時序推移增強是指隨機推移影片中每個幀的時間位置。

於一實施例中，資料增強包含一時序縮放增強(temporal zooming)，其中時序縮放增強是指隨機加速或放慢影片內容。

請參閱第6圖，第6圖係依照本發明一實施例繪示之急診插管準備與施救之SOP操作辨識系統600之示意圖。急診插管準備與施救之SOP操作辨識系統600是應用第1圖中的擴增實境作業程序判斷系統100稍作改良，急診插管準備與施救之SOP操作辨識系統600使用多個擴增實境裝置(例如擴增實境裝置20、20’)及多個伺服器(例如伺服器10、10’)。第6圖中的伺服器10、10’與第1圖的伺服器10相同，第6圖中的擴增實境裝置20、20’與第1圖的擴增實境裝置20相同，第6圖中的即時影像30、30’與第1圖的即時影像30概念上相同，都是指擴增實境裝置20、20’各自拍攝到的即時影像30、30’，在此例中，即時影像30、30’為使用者進行插管準備或施救操作的影像。當擴增實境裝置20拍攝到即時影像30，會將即時影像30傳送到中繼站(intermediatestation)BK，中繼站BK再將即時影像30傳輸到對應的伺服器10；當擴增實境裝置20拍攝到即時影像30’，會將即時影像30’傳送到中繼站BK，中繼站BK再將即時影像30’傳輸到對應的伺服器10’。於一實施例中，在此系統中，可以有多個伺服器、擴增實境裝置。

於一實施例中，推論模型MD依據多個影像輸出標準作業程序結果，擴增實境裝置20依據標準作業程序結果，判斷一操作情境是否正確，以產生一判斷結果，其中當處理器每隔一預設幀數(例如每隔30個幀)，將判斷結果對應的一圖標(icon)顯示於此些影像中的至少一者(例如第30~32幀)。於一實施例中，當判斷結果為操作正確，則圖標可以是符號 “O”或文字 “OK”；當判斷結果為操作錯誤，則圖標可以是符號 “X”或文字 “ERROR”，然而，圖標只要讓操作人員理解操是否正確即可，圖標的樣式不限於此。

當伺服器10、10’收到即時影像30、30’後，會將即時影像30、30’輸入到各自的推論模型MD，每個推論模型MD(例如為伺服器10中的推論模型MD)各自依據收到的即時影像(例如為即時影像30)輸出標準作業程序結果(例如為第4A圖的good)。其中，標準作業程序結果包含操作正確結果、操作錯誤結果或尚不足判斷顯示。於一實施例中，在每一特定時間(如，每3秒)或是每收集到一特定數量的即時影像(如，每30張)，推論模型MD即輸出一個標準作業程序結果，藉此可以告知使用者是否正確地照著SOP進行操作。於一實施例中，多個AR裝置透過訊息佇列遙測傳輸協議(Message Queuing Telemetry Transport，MQTT)中的頻道註冊方式，向伺服器10訂閱推論服務，所以AR裝置可以獲得結果並即時呈現)。

本案所述的擴增實境作業程序判斷系統及擴增實境作業程序判斷方法將增加SOP的負樣本數，在正樣本資料數量與負樣本資料數量都充足的情況下，使推論模型的訓練更為準確。另外，透過擴增實境裝置的應用，能收集到使用者第一人稱視角的即時影像，避免因拍攝視角不同而影響訓練推論模型的準確度，處理器透過這些即時影像訓練推論模型，能大幅提高訓練品質與準確性。

本發明之方法，或特定型態或其部份，可以以程式碼的型態存在。程式碼可以包含於實體媒體，如軟碟、光碟片、硬碟、或是任何其他機器可讀取(如電腦可讀取)儲存媒體，亦或不限於外在形式之電腦程式產品，其中，當程式碼被機器，如電腦載入且執行時，此機器變成用以參與本發明之裝置。程式碼也可以透過一些傳送媒體，如電線或電纜、光纖、或是任何傳輸型態進行傳送，其中，當程式碼被機器，如電腦接收、載入且執行時，此機器變成用以參與本發明之裝置。當在一般用途處理單元實作時，程式碼結合處理單元提供一操作類似於應用特定邏輯電路之獨特裝置。

雖然本發明已以實施方式揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100:擴增實境作業程序判斷系統 10, 10’:伺服器 12:處理器 14:儲存裝置 MD:推論模型 LK:通訊連結 20, 20’:擴增實境裝置 30, 30’:影像 200, 200’:擴增實境作業程序判斷方法 210~270:步驟 300:負樣本資料產生方法 A, B, C, D:影片段 K:第一資料增強參數 J:第二資料增強參數 rt:標準作業程序結果 W0~W3:滑動視窗 BK:中繼站 600:急診插管準備與施救之SOP操作辨識系統

第1圖係依照本發明一實施例繪示之擴增實境作業程序判斷系統之方塊圖。第2A圖係依照本發明一實施例繪示之擴增實境作業程序判斷之流程圖。第2B圖係依照本發明另一實施例繪示之擴增實境作業程序判斷方法200’之流程圖。第3A圖係依照本發明一實施例繪示負樣本資料產生方法之示意圖。第3B圖係依照本發明一實施例繪示影片畫面之資料增強中的時序推移之示意圖。第3C圖係依照本發明一實施例繪示影片畫面之資料增強中的時序縮放之示意圖。第4A~4C圖係依照本發明一實施例繪示之標準作業程序結果之示意圖。第5圖係依照本發明一實施例繪示之滑動視窗之示意圖。第6圖係依照本發明一實施例繪示之急診插管準備與施救之SOP操作辨識系統之示意圖。

100:擴增實境作業程序判斷系統

10:伺服器

12:處理器

14:儲存裝置

MD:推論模型

LK:通訊連結

20:擴增實境裝置

30:影像

Claims

一種擴增實境作業程序判斷系統，包含：一擴增實境裝置，接收複數個即時影像；以及一處理器，存取一儲存裝置所儲存之一推論模型，其中該處理器執行：透過該推論模型判斷該些即時影像對應的一標準作業程序(Standard Operating Procedures，SOP)結果，該擴增實境裝置將該標準作業程序結果顯示於該些即時影像中的至少一者；接收複數個正樣本資料；將該些正樣本資料依據一特定時間長度拆分成複數個影片段；將該些影片段中的任兩個相鄰影片段互換，以產生複數個負樣本資料；以及將該些負樣本資料或該些正樣本資料輸入到該推論模型進行訓練。
如請求項1之擴增實境作業程序判斷系統，其中將該些負樣本資料或該些正樣本資料輸入到該推論模型進行訓練前，該處理器執行：將該些正樣本資料或該些負樣本資料以一滑動視窗(sliding window)進行遮罩處理，其中，該遮罩處理是指留白或補上黑色，依據時間產生複數個子樣本資料，該些子樣本資料中各自保存該滑動視窗內的幀畫面(frame)，每個該些子樣本資料中保存的該幀畫面所對應的時間不同，且將該些子樣本資料中未保存該滑動視窗中的其它幀畫面進行遮罩處理。
如請求項1之擴增實境作業程序判斷系統，其中，該擴增實境裝置每接收到該些即時影像之一者，該處理器累積該些即時畫面，響應於該些即時畫面的數量累積到一預設幀畫面數量時，該處理器將累積的該些即時畫面輸入到該推論模型中，該推論模型輸出該標準作業程序結果。
如請求項1之擴增實境作業程序判斷系統，其中，該推論模型輸出的該標準作業程序結果包含一操作正確結果、一操作錯誤結果或一尚不足判斷顯示(keep going)。
如請求項2之擴增實境作業程序判斷系統，其中，該處理器將該些負樣本資料及該些正樣本資料或對應該些負樣本資料及該些正樣本資料的該些子樣本資料進行一資料增強(augmentation)的處理後，將複數個完成資料增強的負樣本資料與複數個完成資料增強的正樣本資料或完成資料增強的對應該些負樣本資料及該些正樣本資料的該些子樣本資料輸入到該推論模型。
如請求項5之擴增實境作業程序判斷系統，其中該資料增強包含一時序推移增強(temporal translation)，其中該時序推移增強是指隨機推移該些影片段之至少一影片中每個幀的時間位置。
如請求項5之擴增實境作業程序判斷系統，其中該資料增強包含一時序縮放增強(temporal zooming)，其中該時序縮放增強是指隨機加速或放慢該些影片段中之至少一影片中的影片內容。
一種擴增實境作業程序判斷方法，包含：藉由一擴增實境裝置，接收複數個即時影像；藉由一處理器存取一儲存裝置所儲存之一推論模型；藉由該處理器透過該推論模型判斷該些即時影像對應的一標準作業程序(Standard Operating Procedures，SOP)結果，該擴增實境裝置將該標準作業程序結果顯示於該些即時影像中的至少一者；藉由該處理器接收複數個正樣本資料；藉由該處理器將該些正樣本資料依據一特定時間長度拆分成複數個影片段；藉由該處理器將該些影片段中的任兩個相鄰影片段互換以產生複數個負樣本資料；藉由該處理器將該些負樣本資料或該些正樣本資料輸入到該推論模型進行訓練。
如請求項8之擴增實境作業程序判斷方法，其中藉由該處理器將該些負樣本資料或該些正樣本資料輸入到該推論模型進行訓練的步驟前更包含：藉由該處理器將該些正樣本資料或該些負樣本資料以一滑動視窗(sliding window)進行遮罩處理，其中，該遮罩處理是指留白或補上黑色，並依據時間產生複數個子樣本資料，該些子樣本資料中各自保存該滑動視窗內的幀畫面(frame)，每個該些子樣本資料中保存的該幀畫面所對應的時間不同，且將該些子樣本資料中未保存該滑動視窗中的其它幀畫面進行遮罩處理。
如請求項8之擴增實境作業程序判斷方法，其中，當該些正樣本資料依據該特定時間長度拆分成N個影片段時，該處理器產生N-1個負樣本資料；其中，N為正整數。
如請求項8之擴增實境作業程序判斷方法，其中，該擴增實境裝置每接收到該些即時影像之一者，該處理器累積該些即時畫面，響應於該些即時畫面的數量累積到一預設幀畫面數量時，該處理器將累積的該些即時畫面輸入到該推論模型中，該推論模型輸出該標準作業程序結果。
如請求項8之擴增實境作業程序判斷方法，其中，該推論模型輸出的該標準作業程序結果包含一操作正確結果、一操作錯誤結果或一尚不足判斷顯示(keep going)。
如請求項9之擴增實境作業程序判斷方法，其中，該處理器將該些負樣本資料及該些正樣本資料或對應該些負樣本資料及該些正樣本資料的該些子樣本資料進行一資料增強(augmentation)的處理後，將複數個完成資料增強的負樣本資料與複數個完成資料增強的正樣本資料或完成資料增強的對應該些負樣本資料及該些正樣本資料的該些子樣本資料輸入到該推論模型。
如請求項13之擴增實境作業程序判斷方法，其中該資料增強包含一時序推移增強(temporal translation)，其中該時序推移增強是指隨機推移該些影片段之至少一影片中每個幀的時間位置。
如請求項13之擴增實境作業程序判斷方法，其中該資料增強包含一時序縮放增強(temporal zooming)，其中該時序縮放增強是指隨機加速或放慢該些影片段中之至少一影片中的影片內容。
如請求項9之擴增實境作業程序判斷方法，其中，該些子樣本資料包含一第一子樣本資料與一第二子樣本資料，該第一子樣本資料對應的一第一滑動視窗的一第一時間區間與該第二子樣本資料對應的一第二滑動視窗的一第二時間區間重疊M秒，其中M為一正整數，且M秒小於該第一時間區間；其中，該第一時間區間與該第二時間區間的長度相同，且該第二時間區間的起始點晚於該第一時間區間的起始點。
一種擴增實境作業程序判斷裝置，包含：一擴增實境眼鏡，接收複數個即時影像；以及一處理器，存取一儲存裝置所儲存之一推論模型，其中該處理器執行：透過該推論模型判斷該些即時影像對應的一標準作業程序(Standard Operating Procedures，SOP)結果，該擴增實境裝置將該標準作業程序結果顯示於該些即時影像中的至少一者；接收複數個正樣本資料；將該些正樣本資料依據一特定時間長度拆分成複數個影片段；將該些影片段中的任兩個相鄰影片段互換，以產生複數個負樣本資料；將該些負樣本資料或該些正樣本資料輸入到該推論模型進行訓練。
如請求項17之擴增實境作業程序判斷裝置，其中將該些負樣本資料或該些正樣本資料輸入到該推論模型進行訓練前，該處理器執行：將該些正樣本資料或該些負樣本資料以一滑動視窗(sliding window)進行遮罩處理，其中，該遮罩處理是指留白或補上黑色，依據時間產生複數個子樣本資料，該些子樣本資料中各自保存該滑動視窗內的一幀畫面(frame)，每個該些子樣本資料中保存的該幀畫面所對應的時間不同，且將該些子樣本資料中未保存該滑動視窗中的其它幀畫面進行遮罩處理。