TWI745808B

TWI745808B - 狀況認知系統與方法

Info

Publication number: TWI745808B
Application number: TW108147454A
Authority: TW
Inventors: 蘇愷宏; 林永祥
Original assignee: 亞達科技股份有限公司
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-11-11
Also published as: TW202125326A

Abstract

本發明提出一種狀況認知系統，包括伺服器、第一擴增實境裝置與第二擴增實境裝置。首先透過第一擴增實境裝置擷取第一數位影像。第一擴增實境裝置透過使用者介面接收關於一待分類物件的類別標籤，並上傳類別標籤與第一數位影像至伺服器，據此伺服器訓練一機器學習模型。接著透過第二擴增實境裝置擷取第二數位影像並根據上述的機器學習模型偵測其中的情境物件，第二擴增實境裝置根據情境物件的位置在透明顯示器中顯示對應的圖示物件。

Description

狀況認知系統與方法

本發明是有關於一種透過擴增實境裝置自動產生人工智慧應用程式的系統與方法，其中應用程式能分享給其他使用者。

多數人會做出錯誤的決定是因為缺乏對於情境的認知，而情境認知仰賴個人的經驗，生活習性與天賦，有些具有天賦的人能夠根據本能辨識出特定的情境，例如辨識出特定的物件。現今的技術足以將這些經驗和天賦透過機器學習轉換為數位化的人工智慧模型。然而，大量的標記工作和複雜的模型訓練，使得人工智慧模型產出緩慢，也不易散播。近年來因為圖形處理單元(graph processing unit，GPU)運算能力的大幅提升，人工智慧已然成為最熱門的新興產業。然而現今的人工智慧應用各自為政，沒有系統化和結構性的生態鏈，一般人難以接觸。

本發明的實施例提出一種狀況認知系統，包括伺服器、第一擴增實境裝置與第二擴增實境裝置。第一擴增實境裝置通訊連接至伺服器，第一擴增實境裝置包括第一影像感測器與第一透明顯示器，用以透過第一影像感測器擷取第一數位影像。第二擴增實境裝置，通訊連接至伺服器，第二擴增實境裝置包括第二影像感測器與第二透明顯示器。第一擴增實境裝置透過使用者介面接收關於一待分類物件的類別標籤，並上傳類別標籤與第一數位影像至伺服器。伺服器根據類別標籤與第一數位影像訓練出一機器學習模型。第二擴增實境裝置透過第二影像感測器擷取第二數位影像，第二擴增實境裝置或伺服器根據機器學習模型偵測第二數位影像中的情境物件，第二擴增實境裝置根據情境物件的位置在第二透明顯示器中顯示對應的圖示物件。

在一些實施例中，上述的使用者介面包括語音介面或手勢介面。

在一些實施例中，第一擴增實境裝置或伺服器用以偵測第一數位影像中的至少一個第一推薦物件。第一擴增實境裝置用以在第一透明顯示器上顯示關於第一推薦物件的邊界框，並透過使用者介面接收來自使用者的指令以調整邊界框的位置與大小。

在一些實施例中，第一擴增實境裝置或伺服器是根據第一卷積神經網路來偵測第一推薦物件，第一卷積神經網路用以執行僅一次推論程序以輸出多個邊界框的位置與多個類別信心值，其中邊界框的大小為固定。

在一些實施例中，伺服器用以取得多個訓練影像與關於每一個訓練影像的標記資料，其中標記資料包括訓練邊界框的大小。伺服器用以執行非監督式分群演算法以將訓練邊界框的大小分為多個群組，並且從每一個群組中取得預設邊界框大小。伺服器將預設邊界框大小用於上述的僅一次推論程序中。

在一些實施例中，上述的機器學習模型為第二卷積神經網路，上述偵測第二數位影像中的情境物件的操作包括：根據第一卷積神經網路偵測第二數位影像中的第二推薦物件與第二推薦物件的類別信心值；以及根據第二卷積神經網路輸出第二推薦物件的情境信心值，並將第二推薦物件的類別信心值乘上情境信心值以得到結果信心值，若結果信心值大於臨界值則判斷第二推薦物件為情境物件。

在一些實施例中，第一推薦物件屬於第一類別，類別標籤屬於第二類別，第二類別被涵蓋在第一類別之中。

以另一個角度來說，本發明的實施例提出一種狀況認知方法，適用於一狀況認知系統，此狀況認知系統包括伺服器、第一擴增實境裝置與第二擴增實境裝置。第一擴增實境裝置包括第一影像感測器與第一透明顯示器。第二擴增實境裝置包括第二影像感測器與第二透明顯示器。上述的狀況認知方法包括：透過第一影像感測器擷取第一數位影像；透過第一擴增實境裝置的一使用者介面接收關於待分類物件的一類別標籤；根據類別標籤與第一數位影像訓練出機器學習模型；以及透過第二影像感測器擷取第二數位影像，根據機器學習模型偵測第二數位影像中的情境物件，並根據情境物件的位置在第二透明顯示器中顯示對應的圖示物件。

在一些實施例中，上述的方法還包括：偵測第一數位影像中的至少一個第一推薦物件，此步驟是根據第一卷積神經網路來執行。此第一卷積神經網路用以執行僅一次推論程序以輸出多個邊界框的位置與多個類別信心值，其中邊界框的大小為固定。

在一些實施例中，狀況認知方法更包括：取得多個訓練影像與關於每一個訓練影像的一標記資料，其中標記資料包括訓練邊界框的大小；執行一非監督式分群演算法以將訓練邊界框的大小分為多個群組，並且從每一個群組中取得一預設邊界框大小；以及將預設邊界框大小用於僅一次推論程序中。

在上述的系統與方法中，使用者可以不用寫程式，透過擴增實境裝置來建立機器學習模型並分享給其他使用者。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

100‧‧‧狀況認知系統

102‧‧‧伺服器

110、120‧‧‧擴增實境裝置

111、121‧‧‧影像感測器

112、122‧‧‧透明顯示器

130‧‧‧網路

201‧‧‧創作者

210、220、230、232、240‧‧‧步驟

211‧‧‧參數

226‧‧‧訓練樣本

231‧‧‧應用程式

221~225‧‧‧步驟

300、400‧‧‧數位影像

301~304‧‧‧推薦物件

310‧‧‧擴增實境場景

311~314‧‧‧邊界框

401‧‧‧情境物件

410‧‧‧擴增實境場景

411‧‧‧邊界框

412‧‧‧文字

421~424‧‧‧圖標

502、504、506‧‧‧步驟

501‧‧‧訓練影像

503‧‧‧預設邊界框大小

505‧‧‧增強影像

507‧‧‧標籤

508‧‧‧機器學習模型

601~604‧‧‧步驟

[圖1]是根據一實施例繪示狀況認知系統的示意圖。

[圖2A]是根據一實施例繪示狀況認知系統的運作示意圖。

[圖2B]是根據一實施例繪示步驟220的流程圖。

[圖3A]是根據一實施例繪示擴增實境裝置所擷取的數位影像的示意圖。

[圖3B]是根據一實施例繪示使用者所看到的擴增實境場景的示意圖。

[圖4A]是根據一實施例繪示擴增實境裝置所擷取的數位影像的示意圖。

[圖4B]是根據一實施例繪示使用者所看到的擴增實境場景的示意圖。

[圖5]是根據一實施例繪示訓練機器學習模型的流程圖。

[圖6]是根據一實施例繪示狀況認知方法的流程圖。

關於本文中所使用之『第一』、『第二』、...等，並非特別指次序或順位的意思，其僅為了區別以相同技術用語描述的元件或操作。

本揭露所提出的技術可稱為狀況認知放大器(Situation Awareness Magnifier，SAM)，在人工智慧(artificial intelligence，AI)技術的基礎上，SAM以輕便型智慧眼鏡為媒介，讓有高度狀況認知的創作者可以透過他們的經驗，標記常人無法意識到的狀況，藉由雲端自動化的機器學習，將這些經驗轉換為一個個AI應用程式(application，APP)。一般使用者透過智慧眼鏡與SAM雲端系統連接，便可取得創作者提供的狀況認知。

圖1是根據一實施例繪示狀況認知系統的示意圖。狀況認知系統100包括了伺服器102、擴增實境(augmented reality，AR)裝置110與擴增實境裝置120，其中擴增實境裝置110、120可透過網路130通訊連接至伺服器102。在此實施例中擴增實境裝置110、120是實作為智慧眼鏡，但在其他實施例中也可以實作為面罩、透明平板等，本發明並不限制擴增實境裝置110、120的大小與外型。在此實施例中，穿戴擴增實境裝置110的使用者被稱為創作者，創作者可以透過伺服器102將自己的狀況認知能力實作為應用程式，藉此將狀況認知能力分享給擴增實境裝置120的使用者。

擴增實境裝置110包括了影像感測器111與透明顯示器112。擴增實境裝置120包括了影像感測器121與透明顯示器122。透明顯示器112、122亦可稱為透視型顯示器(See-through display)，是一種可讓使用者得以同時觀看外在影像以及投射影像的裝置，達到實像與虛像疊加而不遮蔽視野的效果。透明顯示器112、122可包括液晶顯示器、有機發光二極體、投影器、鏡片、光導等，本發明並不限制透明顯示器112、122所包含的元件。影像感測器111、121可包括感光耦合元件(Charge-coupled Device，CCD)感測器、互補性氧化金屬半導體(Complementary Metal-Oxide Semiconductor)感測器或其他合適的感光元件。為了簡化起見，圖1中並未繪示擴增實境裝置110、120的所有元件，例如，擴增實境裝置110、120還可包括處理器、麥克風、聲音撥放器、慣性測量單元、通訊模組、實體按鈕等，本發明並不在此限。上述的通訊模組可以是蜂巢式網路(或稱行動網路)、近場通訊、紅外線通訊、藍芽或無線保真(WiFi)等等，用以通訊連接至網路130。

圖2A是根據一實施例繪示狀況認知系統的運作示意圖，請參照圖2A，在此創作者201是指擴增實境裝置110的使用者，在步驟210中，創作者201在伺服器102提供的系統平台上建立專案，此系統平台可具有網頁、應用程式、網路服務等介面。上述的專案是用以管理創作者201根據自身的狀況認知能力所建立的機器學習模型，創作者201可輸入多個參數211，這些參數211會傳送至伺服器102。參數211包括所要認知的類別、影像解析度、機器學習模型的種類、機器學習模型的各種參數等等。舉例來說，上述的類別可包括人的情緒、人是否說謊、動植物的物種、機械是否故障、是否生病等等，伺服器102可以提供多個預設的類別，或者創作者201可以建立新的類別。在一些實施例中，伺服器102也可以提供一個由專家建立的類別樹狀圖，其中紀錄了每個類別的從屬關係，例如“人臉”的類別會涵蓋“生氣”的類別，因此“人臉”節點會是“生氣”節點的父節點，以此類推。類別樹狀圖中各個類別的從屬關係可以用來幫助創作者標記影像中的物件，舉例來說，若創作者要建立“生氣”的類別，則伺服器102可以提供人臉的物件偵測器，當要標記一張影像中的“生氣”類別時，可先根據此物件偵測器偵測出人臉以供創作者判斷是否為“生氣”類別。

在建立好專案以後，在步驟220中，創作者會透過擴增實境裝置110擷取數位影像並標記所要認知的物件以產生訓練樣本。具體來說，圖2B是根據一實施例繪示步驟220的流程圖。請參照圖2B，在步驟221，擴增實境裝置110先透過自身的影像感測器111擷取一數位影像(如圖3A所示的數位影像300)，在此例子中創作者要標記數位影像300中屬於“生氣”類別的物件。

在步驟222，由擴增實境裝置110或伺服器102偵測數位影像300中的推薦物件301~304(在此例子中為人臉)。在一些實施例中，可由伺服器102提供推薦物件301~304的物件偵測器給擴增實境裝置110，或者這個物件偵測器是內建在擴增實境裝置110當中。在一些實施例中，也可由擴增實境裝置110傳送數位影像300至伺服器102，由伺服器偵測出推薦物件301~304以後將偵測結果回傳至擴增實境裝置110。

在步驟223中，根據偵測結果顯示圖示物件。具體來說，擴增實境裝置110會根據推薦物件301~304的位置產生對應的圖示物件(例如邊界框)並將此圖示物件顯示在透明顯示器112當中，圖3B繪示的是創作者所看到的擴增實境場景310，其中邊界框311~314為虛像，其餘是真實場景，兩者會混和在一起。

在步驟224中，選擇所要標記的邊界框。創作者可以透過一使用者介面輸入一或多個指令，藉此從推薦物件301~304中選擇出所要標記的物件。此使用者介面例如為語音介面或手勢介面，也就是說擴增實境裝置110可透過麥克風接收來自創作者的聲音訊號並辨識創作者說出的話或者是透過影像感測器111辨識創作者的手勢來分析出創作者所要下達的指令。或者在一些實施例中，上述的使用者介面也可以用滑鼠、鍵盤、手寫板、實體按鍵、或其他硬體裝置來實作。在此例子中創作者選擇了邊界框313(推薦物件303)。

在步驟225，提供推薦物件的類別標籤。創作者可以透過上述的使用者介面輸入一或多個指令，進一步地把邊界框313(推薦物件303)分類為“生氣”這個類別，創作者所提供的類別標籤可以用文字、數字或二進位碼記錄下來。在一些實施例中，創作者也可以透過使用者介面下達指令以調整邊界框311~314的位置與大小，之後再提供類別標籤。在一些實施例中，如果創作者所要標記的物件並不在邊界框311~314的範圍內，創作者可以透過使用者介面建立一個新的邊界框並提供相對應的類別標籤。數位影像300、邊界框313的位置與大小(或新建立邊界框的位置與大小)與類別標籤可合併稱為一個訓練樣本，接下來可再重複步驟222~225，藉此產生更多訓練樣本。

在一些實施例中也可以不產生推薦物件，擴增實境裝置110會直接透過使用者接面接收關於一待分類物件的類別標籤。舉例來說，擴增實境裝置110可以設定數位影像中對應使用者目光的一個特定位置(例如影像中心)並取得此特定位置上的物件(亦稱為待分類物件)，擴增實境裝置110可以判斷使用者的目光是否停留在此待分類物件超過一預設時間(例如5秒)，若是的話則等待使用者說出此待分類物件的類別標籤。在本揭露中，上述的推薦物件也可以被稱為待分類物件，因此不論有沒有產生推薦物件，只要透過擴增實境裝置110的使用者介面來產生一個待分類物件的類別標籤都在本揭露的範圍中。

請參照回圖2A，接下來擴增實境裝置110會將所收集到的一或多個訓練樣本226傳送至伺服器102。在步驟220中，由於系統先提供了推薦物件，因此創作者可以快速地建立類別標籤。值得注意的是，推薦物件的類別必須要涵蓋創作者所要建立的類別，例如“人臉”這類別涵蓋了“生氣”的類別。以另一個角度來說，若推薦物件屬於第一類別，創作者提供的類別標籤屬於第二類別，則第二類別會被涵蓋在第一類別之中，但上述的類別僅是範例，本發明並不限制第一類別與第二類別為何。除此之外，創作者是透過擴增實境裝置110來建立類別標籤，因此創作者可以任意地在室內/戶外移動，當他發現合適的物件便可以產生新的訓練樣本，相較於在電腦前枯燥的不斷建立標籤，此實施例提供的系統對於創作者來說更加友善。

當擴增實境裝置110傳送訓練樣本226給伺服器102以後，伺服器102可以判斷訓練樣本的個數是否超過一個臨界值，若是的話則會開始執行步驟230，若否的話則會通知創作者繼續收集訓練樣本。在步驟230中，伺服器102根據收集到的類別標籤與數位影像訓練一個機器學習模型，此機器學習模型可為決策樹、隨機森林、多層次神經網路、卷積神經網路、支持向量機等等，本發明並不在此限。在一些實施例中，伺服器102也可以對所收集到的數位影像執行一些前處理，例如亮度調整、去雜訊等，本發明並不限制這些前處理的內容。在一些實施例中，伺服器102也可以建立一個應用程式231，讓使用者透過應用程式231來使用所訓練出的機器學習模型。在建立應用程式231以後，伺服器102會將應用程式231發佈在使用者可存取的平台上。

在一些實施例中，在發佈應用程式231之前，伺服器102可以先將應用程式231傳送給創作者進行測試(步驟232)，在測試之後創作者可以回到步驟220以收集更多訓練樣本，或者創作者可以接受訓練結果，接下來伺服器102才會將應用程式231發佈。

在步驟240，使用者透過擴增實境裝置120來下載並安裝應用程式231，之後便可以根據訓練好的機器學習模型來認知新的狀況。具體來說，擴增實境裝置120可透過自身的影像感測器121擷取一數位影像，如圖4A的數位影像400，擴增實境裝置120可以根據所訓練出的機器學習模型來偵測數位影像400中的情境物件401(在此例子中為生氣的人臉)。在一些實施例中，擴增實境裝置120可以將數位影像400傳送至伺服器102，由伺服器102偵測出情境物件401後將偵測結果回傳至擴增實境裝置120。或者，擴增實境裝置120也可以透過應用程式231從伺服器102下載訓練好的機器學習模型，透過自身的處理器來偵測數位影像400中的情境物件401。

擴增實境裝置120也會根據情境物件401的位置在透明顯示器121中顯示對應的圖示物件，如圖4B所示的擴增實境場景410，圖示物件包括邊界框411與“生氣”的文字412。然而，如4B僅為一範例，上述的圖示物件也可包含任意的圖案、符號、數字等等，本發明並不在此限。在一些實施例中，擴增實境場景410中也可以顯示多個圖標421~424，這些圖標421~424是用以切換至其他的狀況認知能力，也就是偵測其他的物件，例如為車、花、樹、小孩等等，本發明並不在此限。

在一些實施例中，步驟220中所採用的物件偵測器與步驟230所訓練的機器學習模型都是卷積神經網路。在習知的物件偵測方法中是用一個視窗掃過整張數位影像，對於每個視窗都要判斷是否為所要偵測的物件，若是的話則在設定此視窗為一個邊界框，之後調整視窗的大小再重新掃描一次，也就是說在這樣的驗算法中需要推論(inference)多次。然而，在此實施例中是先預設有多個邊界框，每個邊界框有固定的大小，而卷積神經網路僅執行一次推論程序來輸出多個邊界框的位置與多個類別信心值。更具體來說，每個邊界框都至少對應到3+N個參數，包含X座標、Y座標、是否有物件的機率P(Object)，N個類別信心值，若總共有M個邊界框，則卷積神經網路至少會輸出Mx(3+N)個數值，其中M、N為正整數。上述的N個類別信心值例如是對應到狗、貓、人臉、車等N個類別，將上述的機率P(Object)乘上對應的類別信心值則表示此邊界框內有對應類別的機率為何，可表示為以下方程式(1)。

P(C_i)=P(C_i|Object)×P(Object)...(1)

其中P(C_i|Object)為上述的類別信心值，C_i為第i個類別，i=1...N，P(C_i)為此邊界框內有對應類別C_i的機率。值得注意的是，在訓練階段若影像中的物件個數大於上述的正整數M，則部分邊界框中並沒有物件，因此這些邊界框的機率P(Object)應為0。在一些實施例中，上述Mx(3+N)個數值可以是在全連接層之後輸出，或者在一些實施例中也可以在卷積層之後輸出，然而本領域具有通常知識者當可理解卷積神經網路的架構，在此不再詳細贅述。

由於上述邊界框的大小是固定的，因此必須有一機制來決定此大小(包含寬度與高度)。圖5是根據一實施例繪示訓練機器學習模型的流程圖。請參照圖5，其中各步驟是由伺服器102來執行。首先從資料庫出取得多個訓練影像501以及關於訓練影像的標記資料，標記資料亦稱為基本事實(ground truth)，包括了已經標記過的邊界框(以下稱訓練邊界框)的大小與位置。在步驟502，執行一非監督式分群演算法以將這些訓練邊界框的大小分為多個群組，並且從每一個群組中取得預設邊界框大小503，例如取每個群組的中心位置(取平均)以做為預設邊界框大小503。此非監督式分群演算法例如為K-均值演算法(K-means)，其中K可為5、6或任意合適的正整數。這些預設邊界框大小503可以表示為向量[高度，寬度]，例如為[64,44]、[88,75]等共K個向量，本發明並不限制這些預設邊界框大小503的數值。在步驟504中，可以對訓練影像501執行上述的前處理以得到增強影像505。接下來在步驟506，根據標籤507、預設邊界框大小503與增強影像505來執行監督式機器學習演算法以取得機器學習模型508。

預設邊界框大小503除了用在訓練階段也會用在上述僅一次的推論程序中。本實施的卷積神經網路是直接預測邊界框的位置，因此不需要利用視窗掃過整張影像，據此只需要執行一次推論程序，可以減少推論的時間。

在上述例子中，步驟220所採用的是偵測人臉的卷積神經網路，而步驟230是訓練偵測生氣人臉的卷積神經網路。在一些實施例中，在步驟230中伺服器102可以不採用偵測人臉的卷積神經網路，重新訓練一個“生氣人臉”的機器學習模型，也就是說輸入影像為包含背景的整張影像，其中具有生氣人臉的標記。或者在一些實施例中可以單獨訓練一個“生氣”的機器學習模型，這個機器學習模型可以與“人臉”的機器學習模型結合。具體來說，步驟220中所使用的卷積神經網路稱為第一卷積神經網路，而在步驟230中所訓練的是卷積神經網路稱為第二卷積神經網路，第二卷積神經網路的輸入為人臉影像，輸出為表示是否為“生氣”的數值。在步驟240中偵測情境物件的操作可先根據第一卷積神經網路偵測數位影像400中的第二推薦物件(相同於情境物件401)與並取得第二推薦物件的類別信心值P(face)，根據上述的描述可以表示為以下方程式(2)。

P(face)=P(face|Object)×P(Object)...(2)

接著根據第二卷積神經網路輸出第二推薦物件的情境信心值P(angry|face)，並將第二推薦物件的類別信心值P(face)乘上情境信心值P(angry|face)以得到結果信心值P(angry)，表示為以下方程式(3)。

P(angry)=P(angry|face)×P(face)...(3)

若結果信心值P(angry)大於一臨界值則判斷第二推薦物件為情境物件。在此實施例中，由於第二卷積神經網路是根據人臉來判斷是否生氣，因此第二卷積神經網路的複雜度會比較低，可以減少訓練的時間。值得注意的是，可以減少訓練時間的一個原因是步驟220所採用的推薦物件的類別涵蓋了使用者所要標記的類別，這不只減少創作者標記所需要的時間，也減少了訓練時間。

圖6是根據一實施例繪示狀況認知方法的流程圖，在步驟601，透過第一影像感測器擷取第一數位影像。在步驟602，透過第一擴增實境裝置的一使用者介面接收關於第一數位影像中一待分類物件的一類別標籤。在步驟603，根據類別標籤與第一數位影像訓練出機器學習模型。在步驟604，透過第二影像感測器擷取第二數位影像，根據機器學習模型偵測第二數位影像中的情境物件，並根據情境物件的位置在第二透明顯示器中顯示對應的圖示物件。然而，圖6中各步驟已詳細說明如上，在此便不再贅述。值得注意的是，圖6中各步驟可以實作為多個程式碼，此外圖6的方法可以搭配以上實施例使用，也可以單獨使用。換言之，圖6的各步驟之間也可以加入其他的步驟。

本發明藉由輕便型的智慧眼鏡和自動化的AI模型訓練系統，精鍊樣本品質，縮短標記工作與模型訓練時間。搭配完善的雲端系統，使一般人能取得這些保貴的認知經驗，應用在日常生活中。本發明以創作者和使用者共享狀況意識為出發點，打造以AI App為主體的生態系統。藉由自動化的AI訓練與辨識服務，創造整個生態系，讓一般人也能參與AI。此外，透過上述的系統與方法，使用者不需撰寫程式，只需透過智慧眼鏡和使用者介面來標記狀態，雲端平台即自動進行機器學習，大幅減低入門門檻。本工具除了供一般消費性市場使用外，可應用於任何需要大量標記物件，以供未來機器學習之場合。人員僅需透過眼鏡標記物件並上傳SAM平台，後續訓練工作將由平台自動完成。其產生之訓練模型，可再依需求進一步連結重整，組成多功能的AI App。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。