TWI715148B

TWI715148B - 電子裝置與其畫面視角辨識方法

Info

Publication number: TWI715148B
Application number: TW108128825A
Authority: TW
Inventors: 黃志文; 楊朝光; 徐文正
Original assignee: 宏碁股份有限公司
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2021-01-01
Also published as: TW202107248A; US11169603B2; US20210048881A1

Abstract

一種電子裝置與其畫面視角辨識方法。畫面視角辨識方法適用於一電子裝置並包括下列步驟。擷取顯示器所顯示的第一人稱視角畫面。移除第一人稱視角畫面中的特定物件而產生經預處理影像。將經預處理影像輸入至神經網路模型而辨識第一人稱視角畫面的視角。依據第一人稱視角畫面的視角執行一功能。

Description

電子裝置與其畫面視角辨識方法

本發明是有關於一種電子裝置，且特別是有關於一種電子裝置與其畫面視角辨識方法。

隨著科技的進步，為了追求身歷其境的感受，使用者已無法滿足於只觀看平面的影像。為了提供使用者更具有現實感與立體感的視覺體驗，目前已有許多應用軟體會模擬出一個三維空間的立體虛擬場景，讓使用者可透過顯示器觀看立體虛擬場景，甚至進一步能與立體虛擬場景進行互動。於一些應用中，顯示器顯示的立體虛擬場景影像是在第一人稱視角（First Person View，FPV）下基於第一人稱控制所產生的影像。在第一人稱視角下，使用者看到的影像如同透過一模擬數位替身的眼睛看到的影像，其中模擬數位替身的視角是由使用者透過輸入裝置或透過移動身體來控制。也就是說，藉由輸入裝置的操作或身體部位的動作，使用者可觀賞到對應於不同視角的立體場景內容。舉例而言，當使用者玩第一人稱視角遊戲時，顯示器所顯示的畫面內容即為遊戲角色（即模擬數位替身）基於一視角觀看立體虛擬場景的場景內容。反應於使用者操控輸入裝置或移動身體部位，遊戲角色的視角將對應改變。

有鑑於此，本發明提出一種電子裝置與其畫面視角辨識方法，其可藉由神經網路（Neural Network，NN）模型辨識第一人稱視角畫面的視角，以供後續應用使用。

本發明實施例提供一種畫面視角辨識方法，適用於一電子裝置，所述方法包括下列步驟。擷取顯示器所顯示的第一人稱視角畫面。移除第一人稱視角畫面中的特定物件而產生經預處理影像。將經預處理影像輸入至神經網路模型而辨識第一人稱視角畫面的視角。依據第一人稱視角畫面的視角執行一功能。

本發明實施例提供一種電子裝置，其包括顯示器、儲存裝置與處理器，處理器耦接儲存裝置與顯示器。處理器經配置以執行下列步驟。擷取顯示器所顯示的第一人稱視角畫面。移除第一人稱視角畫面中的特定物件而產生經預處理影像。將經預處理影像輸入至神經網路模型而辨識第一人稱視角畫面的視角。依據第一人稱視角畫面的視角執行一功能。

基於上述，於本發明的實施例中，在預處理第一人稱視角畫面而將特定物件移除之後，經預處理影像可輸入至神經網路模型而辨識出第一人稱視角畫面的視角。於此，藉由將第一人稱視角畫面中的特定物件移除，可提昇神經網路模型的辨識精準度。此外，在辨識第一人稱視角畫面的視角後，可依據第一人稱視角畫面的視角執行特定功能，從而增加電子裝置的功能性。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

本發明的部份實施例接下來將會配合附圖來詳細描述，以下的描述所引用的元件符號，當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份，並未揭示所有本發明的可實施方式。更確切的說，這些實施例只是本發明的專利申請範圍中的方法與裝置的範例。

圖1是依照本發明一實施例所繪示的電子裝置的示意圖，但此僅是為了方便說明，並不用以限制本發明。請參照圖1，電子裝置10例如是筆記型電腦、桌上型電腦、平板電腦、頭戴顯示裝置、遊戲機、智慧型手機、智慧電視、伺服器裝置或其組合，本發明對此不限制。於本發明實施例中，電子裝置10包括顯示器110、儲存裝置120，以及處理器130。

顯示器110例如是液晶顯示器（Liquid Crystal Display，LCD）、發光二極體（Light-Emitting Diode，LED）顯示器、有機自發光二極體（Organic Light-Emitting Diode，OLED）顯示器或其他種類的顯示器，本發明對此不限制。從另一觀點來看，顯示器110可以為獨立顯示器、筆記型電腦的顯示器、頭戴顯示裝置的顯示器或整合於其他種類電子裝置上的顯示器，本發明對此不限制。

儲存裝置120用以儲存虛擬實境影像內容、程式碼、軟體元件等等資料，其可以例如是任意型式的固定式或可移動式隨機存取記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、快閃記憶體（flash memory）、硬碟或其他類似裝置、積體電路及其組合。

處理器130例如是中央處理單元（Central Processing Unit，CPU），或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、數位訊號處理器（Digital Signal Processor，DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）、可程式化邏輯裝置（Programmable Logic Device，PLD）、圖形處理器（Graphics Processing Unit，GPU或其他類似裝置或這些裝置的組合。處理器130可執行記錄於儲存裝置120中的程式碼、軟體模組、指令等等，以實現本發明實施例的畫面視角辨識方法。

然而，除了顯示器110、儲存裝置120，以及處理器130之外，電子裝置10還可以包括未繪示於圖1的其他元件，像是揚聲器、麥克風、相機、通訊模組等等，本發明對此不限制。

圖2是依照本發明一實施例所繪示的畫面視角辨識方法的流程圖。請參照圖2，本實施例的方法適用於圖1的電子裝置10，以下即搭配電子裝置10中的各項元件說明本實施例方法的詳細流程。

須先說明的是，於本發明的實施例中，當電子裝置10的處理器130執行一應用程式時，顯示器110將顯示第一人稱視角畫面。上述之應用程式例如是遊戲程式或多媒體播放程式等可提供立體場景內容的程式。舉例而言，當使用者利用電子裝置10玩第一人稱視角遊戲或觀看360度環景影像/視頻時，顯示器110將顯示第一人稱視角畫面。反應於使用者利用輸入裝置（未繪示）下達的操控指令或身體部位（例如頭部）的移動，第一人稱視角畫面的視角將對應改變。舉例而言，反應於使用者操控觸控裝置、滑鼠或鍵盤的操作方式，處理器130將自立體場景內容決定出第一人稱視角畫面並提供給顯示器110進行顯示。或者，反應於頭戴顯示裝置之使用者的頭部姿勢，處理器130將自立體場景內容決定出第一人稱視角畫面並提供給頭戴顯示裝置的顯示器110進行顯示。

首先，於步驟S201，處理器130擷取顯示器110所顯示的第一人稱視角畫面。具體而言，處理器130可透過作業系統或應用程式的應用程式介面（API）來擷取顯示器110所顯示的第一人稱視角畫面。舉例而言，處理器104可藉由像是Windows作業系統的“Desktop Duplication API”等等的螢幕擷取技術來獲取顯示器110所顯示的第一人稱視角畫面。或者，處理器104可經由遊戲程式的API獲取第一人稱視角畫面。第一人稱視角畫面的影像內容是模擬使用者之數位替身依據一視角觀看立體場景而產生。

於步驟S202，處理器130移除第一人稱視角畫面中的特定物件而產生經預處理影像。於步驟S203，處理器130將經預處理影像輸入至神經網路模型而辨識第一人稱視角畫面的視角。於一實施例中，第一人稱視角畫面的視角可為一垂直俯仰視角，而此垂直俯仰視角例如可介於0至180度。然而，於其他實施例中，第一人稱視角畫面的視角也可為水平偏轉視角。

具體而言，於本發明的實施例中，處理器130可利用神經網路模型來辨識第一人稱視角畫面的視角，以依據第一人稱視角畫面的畫面特徵來辨識第一人稱視角畫面的視角。然而，第一人稱視角畫面可能包括不利於神經網路模型之辨識準確度的特定物件。於是，於本發明的實施例中，在實際依據神經網路模型產生辨識結果之前，第一人稱視角畫面將被預處理而去除特定物件。對應的，在神經網路模型的訓練過程中，訓練資料集中的訓練畫面也會執行相同的預處理。

一般而言，這些不利於神經網路模型之辨識準確度的特定物件與視角變化是沒有關聯性的。換言之，這些特定物件並不會反應於第一人稱視角畫面的視角變換而有對應的變動，這些特定物件甚至是不會改變。舉例而言，假設第一人稱視角畫面為遊戲畫面，位於遊戲畫面中下方的虛擬手或虛擬武器即屬於不利於用以辨識視角的神經網路模型之辨識準確度的特定物件。或者，第一人稱視角畫面中的播放控制選單、遊戲控制選單、標誌（LOGO）、或其他靜態圖示也屬於不利於用以辨識視角的神經網路模型之辨識準確度的特定物件。於本發明的實施例中，在去除第一人稱視角畫面中的特定物件而產生經預處理影像後，再將經預處理影像提供給神經網路模型進行辨識，可明顯提昇神經網路模型的辨識準確度。

於一實施例中，處理器130可執行影像分析來偵測特定物件，例如透過顏色檢測法、輪廓檢測法或影像比對法等等的物件偵測演算法來偵測出第一人稱視角畫面中的特定物件。之後，處理器130可將特定物件自第一人稱視角畫面中移除，像是挖除包括特定物件的影像區塊而產生經預處理影像。

於一實施例中，處理器130可將第一人稱視角畫面裁剪為多個子畫面，並取未包括特定物件的子畫面其中之至少一產生經預處理影像。具體而言，於一些應用情境中，由於特定物件的所在位置可能不會有大幅的改變，因而處理器130可直接裁剪第一人稱視角畫面並取出未包括特定物件的影像部份，以達到移除特定物件的目的。

舉例而言，圖3A及圖3B是依照本發明一實施例所繪示的產生經預處理影像的範例。請先參照圖3A及圖3B，於本範例中，處理器130獲取尺寸為W1*H1的第一人稱視角畫面F1。於本範例中，假設第一人稱視角畫面F1下方包括播放控制物件。基此，處理器130將第一人稱視角畫面F1裁剪為上下併排的子畫面SF1與子畫面SF2，並取子畫面SF1產生尺寸成為W1*H2經預處理影像Img1，以於後續步驟利用經預處理影像Img1辨識第一人稱視角畫面F1的視角。

舉例而言，圖4A及圖4B是依照本發明一實施例所繪示的產生經預處理影像的範例。請先參照圖4A及圖4B，於本範例中，處理器130獲取尺寸為W4*H4的第一人稱視角畫面F2。於本範例中，假設第一人稱視角畫面F2中下方包括持握虛擬武器的虛擬手。基此，處理器130將第一人稱視角畫面F2裁剪為子畫面SF3、子畫面SF4與子畫面SF5。換言之，剪裁第一人稱視角畫面F2而產生的子畫面包括尺寸為W3*H3的子畫面SF3、子畫面SF4與尺寸為W5*H3的子畫面SF5。處理器130可取子畫面SF3與子畫面SF5拼接為尺寸為(W3+W5)*H3的經預處理影像Img2，以於後續步驟利用經預處理影像Img2辨識第一人稱視角畫面F2的視角。

需說明的是，於一實施例中，處理器130可利用神經網路模型將經預處理影像分類至多個視角範圍其中之一。神經網路模型可為深度神經網路模型或其他機器學習模型，本發明對此不限制。例如，神經網路模型可為卷積層類神經網路（Convolution Neural Network，CNN）模型中用以進行圖像分類的LeNet、VGGNet、NASNet、ResNet等等，本發明對此不限制。上述的多個視角範圍即為神經網路模型的輸出分類類別。

圖5是依照本發明一實施例所繪示的依據神經網路模型辨識視角的示意圖。請參照圖5，以將經預處理影像Img2輸入至CNN模型為例進行說明。在本範例中，卷積層類神經網路500是由至少一個的卷積層（Convolution Layer）510、至少一個的池化層（Pooling Layer）520、至少一個的全連接層（Fully connected layer）530以及輸出層540所構成。

在卷積層類神經網路500的前段通常由卷積層510與池化層520串連組成，通常用來作為影像的特徵擷取來取得經預處理影像Img2的特徵值。此特徵值可以是多維陣列，一般被視為輸入的經預處理影像Img2的特徵向量。在卷積層類神經網路500的後段包括全連接層530與輸出層540，全連接層230與輸出層540會根據經由卷積層510與池化層520所產生的特徵值分類經預處理影像Img2至多個類別其中之一。詳細而言，輸出層540產生的輸出資料550可包括卷積層類神經網路500判斷經預處理影像Img2為各個類別AR1～AR18的機率P1～P8，以依據機率P1～P8之中的最高者決定經預處理影像Img2的所屬類別。詳細而言，類別AR1～AR1即為不同的視角範圍。於本範例中，係以將180度的垂直視角範圍分成18個10度的視角範圍為例。換言之，類別AR1～AR18分別對應至視角範圍0度～10度、10度～20度、20度～30度、30度～40度、…、160度～170度、170度～180度。基於使用卷積層類神經網路500，處理器130可將經預處理影像Img2分類至18個視角範圍其中之一，以辨識第一人稱視角畫面F2的視角。藉由分類經預處理影像Img2至多個視角範圍其中之一，在確保神經網路模型之成功辨識率與達到一定辨識精度的情況下，本發明實施例可節省運算量而提昇處理效率。

最後，於步驟S204，處理器130依據第一人稱視角畫面的視角執行一功能。此功能可包括提供對應於視角的聲光效果或將視角記錄為遊戲操作歷程。詳細而言，處理器130可依據第一人稱視角畫面的視角控制揚聲器或燈光裝置提供對應的燈光效果或聲音效果。或者，處理器130可將使用者玩第一人稱視角遊戲過程中的視角記錄下來，作為遊戲操作歷程供人參考。藉此，可提昇電子裝置10的功能性與娛樂性。

舉例而言，圖6A至圖6C是依照本發明一實施例所繪示的畫面視角辨識方法的情境示意圖。請參照圖6A至圖6C，電子裝置10可包括燈光裝置150。請參照圖6A，假設第一人稱視角畫面F3的視角被辨識為落入120度至140度時，燈光裝置150中的燈號151亮起。請參照圖6B，假設第一人稱視角畫面F4的視角被辨識為落入80度至100度時，燈光裝置150中的燈號152亮起。請參照圖6C，假設第一人稱視角畫面F5的視角被辨識為落入40度至60度時，燈光裝置150中的燈號153亮起。

值得一題的是，當電子裝置10為頭戴顯示裝置時，處理器130還可依據第一人稱視角畫面的視角自動執行水平視角校正。詳細而言，處理器130可計算第一人稱視角畫面的視角與預設期望視角（水平校正時為90度）之間的差值而取得視角偏移量，並依據此視角偏移量校正頭戴顯示裝置的視角定位參數。之後，處理器130可提供視角校正後的畫面給使用者。

圖7是依照本發明一實施例所繪示的訓練神經網路模型的流程圖。請參照圖7，本實施例的流程適用於圖1的電子裝置10，以下即搭配電子裝置10中的各項元件說明訓練神經網路模型的詳細流程。需說明的是，訓練神經網路模型與實際辨識第一人稱視角畫面之視角的處理器130可由單一電子裝置中的處理器實現或由多台電子裝置中的處理器來實現，本發明對此不限制。

於步驟S701，於執行應用程式時，處理器130擷取應用程式的多個訓練畫面。舉例而言，處理器130可自行產生滑鼠控制事件而使遊戲程式提供多個訓練畫面，上述的訓練畫面將分別被標示適合的訓練視角。於步驟S702，處理器130移除訓練畫面中的特定物件而產生多個經預處理訓練影像。於此，處理器130移除訓練畫面中的特定物件的方式相同於步驟S202中處理器130移除第一人稱視角畫面中的特定物件的方式。換言之，處理器130也可將這些訓練畫面分別剪裁為多個子訓練畫面，並取出每一訓練畫面的子訓練畫面其中之至少一產生多張經預處理訓練影像。

於步驟S703，依據訓練畫面分別對應的多個訓練視角以及多個視角範圍，處理器130分別將各經預處理訓練影像標籤為視角範圍其中之一，以獲取每一經預處理訓練影像的分類標籤。例如，假設一張訓練畫面被標示為訓練視角為90度，則此訓練畫面的預處理訓練影像的分類標籤為80度至100度的視角範圍。於此，處理器130將對每一訓練畫面的經預處理訓練影像進行標籤動作，以產生每一經預處理訓練影像的分類標籤。此外，訓練畫面的訓練視角可由產生訓練畫面的應用程式提供或由開發人員自行標註。舉例而言，處理器130可執行滑鼠事件模擬工具。處理器130可藉由滑鼠事件模擬工具模擬出滑鼠移動的滑鼠事件，並依據固定移動單位來定義訓練視角。像是，滑鼠事件模擬工具可先模擬出極大範圍移動的滑鼠下移事件，並將此時產生的訓練畫面的訓練視角標註為0度。接著，滑鼠事件模擬工具可模擬出逐步移動固定單位的多個滑鼠上移事件，並將反應於各滑鼠上移事件而產生的訓練畫面的訓練視角逐步增加角度間隔（例如1度）。

在處理器130產生包括多個經預處理訓練影像以及對應的分類標籤的訓練資料集之後，於步驟S704，處理器130依據經預處理訓練影像與經預處理訓練影像的分類標籤訓練神經網路模型。具體而言，處理器130可將經預處理訓練影像輸入至神經網路模型。藉由比對神經網路模型的分類結果與分類標籤，處理器130將逐步訓練出一套可用以將經預處理訓練影像分類至多個視角範圍其中之一的規則（即神經網路模型的參數），最終以建立出可用以辨識視角的神經網路模型。

綜上所述，於本發明實施例中，在預處理第一人稱視角畫面而將特定物件移除之後，經預處理影像可輸入至神經網路模型而辨識出第一人稱視角畫面的視角。於此，藉由將第一人稱視角畫面中的特定物件移除，可提昇神經網路模型辨識畫面視角的辨識精準度。此外，在辨識第一人稱視角畫面的視角後，可依據第一人稱視角畫面的視角執行特定功能，從而增加電子裝置的功能性。並且，藉由分類經預處理影像至多個視角範圍其中之一，本發明實施例可確保神經網路模型之成功辨識率與達到一定辨識精度的情況下，同時節省運算量並提昇處理效率。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

10:電子裝置 110:顯示器 120:儲存裝置 130:處理器 F1～F5:第一人稱視角畫面 SF1～SF5:子畫面 Img1～Img2:經預處理影像 500:神經網路模型 510:卷積層 520:池化層 530:全連接層 540:輸出層 550:輸出資料 150:燈光裝置 151～153:燈號 S201～S204、S701～S704:步驟

圖1是依照本發明一實施例所繪示的電子裝置的示意圖。圖2是依照本發明一實施例所繪示的畫面視角辨識方法的流程圖。圖3A及圖3B是依照本發明一實施例所繪示的產生經預處理影像的範例。圖4A及圖4B是依照本發明一實施例所繪示的產生經預處理影像的範例。圖5是依照本發明一實施例所繪示的依據神經網路模型辨識視角的示意圖。圖6A至圖6C是依照本發明一實施例所繪示的畫面視角辨識方法的情境示意圖。圖7是依照本發明一實施例所繪示的訓練神經網路模型的流程圖。

S201~S204:步驟

Claims

一種畫面視角辨識方法，適用於一電子裝置，所述方法包括：擷取一顯示器所顯示的一第一人稱視角畫面；移除該第一人稱視角畫面中的特定物件而產生一經預處理影像；將該經預處理影像輸入至一神經網路模型而辨識該第一人稱視角畫面的視角；以及依據該第一人稱視角畫面的該視角執行一功能。
如申請專利範圍第1項所述的畫面視角辨識方法，其中移除該第一人稱視角畫面中的該特定物件而產生該經預處理影像的步驟包括：將該第一人稱視角畫面裁剪為多個子畫面；以及取未包括該特定物件的該些子畫面其中之至少一產生該經預處理影像。
如申請專利範圍第2項所述的畫面視角辨識方法，其中該些子畫面包括左側子畫面、中間子畫面以及右側子畫面，而取未包括該特定物件的該些子畫面其中之至少一產生該經預處理影像的步驟包括：取該左側子畫面與該右側子畫面拼接為該經預處理影像。
如申請專利範圍第1項所述的畫面視角辨識方法，其中該功能包括提供對應於該視角的一聲光效果或將該視角記錄為遊戲操作歷程。
如申請專利範圍第1項所述的畫面視角辨識方法，其中將該經預處理影像輸入至該神經網路模型而辨識該第一人稱視角畫面的該視角的步驟包括：利用該神經網路模型將該經預處理影像分類至多個視角範圍其中之一。
如申請專利範圍第1項所述的畫面視角辨識方法，其中該第一人稱視角畫面的該視角為一垂直俯仰視角。
如申請專利範圍第1項所述的畫面視角辨識方法，所述方法更包括；於執行一應用程式時，擷取該應用程式的多個訓練畫面；移除該些訓練畫面中的該特定物件而產生多個經預處理訓練影像；依據該些訓練畫面分別對應的多個訓練視角以及多個視角範圍，分別將該些經預處理訓練影像標籤為該些視角範圍其中之一；以及依據該些經預處理訓練影像與該些經預處理訓練影像的分類標籤訓練該神經網路模型。
一種電子裝置，包括：一顯示器；一儲存裝置；一處理器，耦接該顯示器與該儲存裝置，經配置以：擷取該顯示器所顯示的一第一人稱視角畫面；移除該第一人稱視角畫面中的特定物件而產生一經預處理影像；將該經預處理影像輸入至一神經網路模型而辨識該第一人稱視角畫面的視角；以及依據該第一人稱視角畫面的該視角執行一功能。
如申請專利範圍第8項所述的電子裝置，其中該處理器更經配置以：將該第一人稱視角畫面裁剪為多個子畫面；以及取未包括該特定物件的該些子畫面其中之至少一產生該經預處理影像。
如申請專利範圍第9項所述的電子裝置，其中該些子畫面包括左側子畫面、中間子畫面以及右側子畫面，而該處理器更經配置以：取該左側子畫面與該右側子畫面拼接為該經預處理影像。
如申請專利範圍第8項所述的電子裝置，其中該功能包括提供對應於該視角的一聲光效果或將該視角記錄為遊戲操作歷程。
如申請專利範圍第8項所述的電子裝置，其中該處理器更經配置以：利用該神經網路模型將該經預處理影像分類至多個視角範圍其中之一。
如申請專利範圍第8項所述的電子裝置，其中該第一人稱視角畫面的該視角為一垂直俯仰視角。
如申請專利範圍第8項所述的電子裝置，其中該處理器更經配置以：於執行一應用程式時，擷取該應用程式的多個訓練畫面；移除該些訓練畫面中的該特定物件而產生多個經預處理訓練影像；依據該些訓練畫面分別對應的多個訓練視角以及多個視角範圍，分別將該些經預處理訓練影像標籤為該些視角範圍其中之一；以及依據該些經預處理訓練影像與該些經預處理訓練影像的分類標籤訓練該神經網路模型。