TWI703348B

TWI703348B - 影像處理系統及影像處理方法

Info

Publication number: TWI703348B
Application number: TW108139445A
Authority: TW
Inventors: 楊東庭; 王鈞立; 林政憲; 楊宏毅
Original assignee: 宏達國際電子股份有限公司
Priority date: 2018-12-06
Filing date: 2019-10-31
Publication date: 2020-09-01
Also published as: US20200184671A1; CN111291746A; TW202036091A; CN111291746B; US11615549B2

Abstract

一種影像處理方法，包括：分離分割一二維影像中的一物體區塊；辨識一瞳孔注視之方向角度所對應到的觀看視野中的至少一視角熱點；接收至少一視角熱點，並接收來自一控制器的一指標訊號，指標訊號用以指定到物體區塊；以及依據至少一視角熱點產生對應該物體區塊之一遮罩區塊，及指標訊號決定遮罩物體區塊的一標示(label)。

Description

影像處理系統及影像處理方法

本發明係有關於處理系統，特別是有關於一種影像處理系統及影像處理方法。

一般而言，透過已知的模型，例如為卷積神經網路(Convolutional Neural Networks，CNN)模型，可將二維影像進行區塊性的分割(Segmentation)，以分割二維影像中的多個物體，並將各個物體以不同顏色進行上色，以輸出遮罩圖，由遮罩圖可得知二維影像中各物體的分布位置及區塊。得知物體的分布位置及區塊後，可進行透過已知的三維重建方法，例如紋理恢復形狀法(Shape From Texture，SFT)、陰影恢復形狀法(Shape From Shading)、立體視覺法（Multi-View Stereo）、結構光法(Structured Light)…等等，以建構三維物體。此些三維物體可以對如文物保護、遊戲開發、建築設計、臨床醫學等研究起到輔助的作用。

然而，在分割出二維影像中的多個物體後，系統不一定能分辨出特定物體為何，或特定物體的形狀難以被分辨，例如系統難以精準判斷特定物體為門或窗，亦難以分辨藝術造型座椅。

因此，要如何使系統正確的標示各個物體，已成為本領域待解決的問題之一。

本發明實施例係提供一種影像處理系統，包括一處理器以及一視點追蹤器。處理器用以分割一二維影像中的一物體區塊。視點追蹤器用以辨識一瞳孔注視之方向所對應到的觀看視野中的至少一視角熱點。其中，處理器接收至少一視角熱點與一指標訊號，指標訊號用以指定到物體區塊，處理器依據至少一視角熱點產生對應該物體區塊之一遮罩區塊，及指標訊號決定遮罩區塊的一標示(label)。

本發明實施例係提供一種影像處理方法，包括：分割一二維影像中的一物體區塊；辨識一瞳孔注視之方向所對應到的觀看視野中的至少一視角熱點；接收至少一視角熱點與一指標訊號，指標訊號用以指定到物體區塊；以及依據至少一視角熱點產生對應該物體區塊之一遮罩區塊，及指標訊號決定遮罩區塊的一標示(label)。

綜上所述，本發明實施例係提供一種影像處理系統及影像處理方法，在標示二維影像中的物體區塊之遮罩區塊的過程中，透過視角熱點及指標訊號的應用，例如，在分割出二維影像中的多個物體後，透過影像處理系統及影像處理方法能分辨出特定物體，應用視角熱點及指標訊號可精準標示特定物體，即使是藝術造型物體或各種特殊形狀的物體，亦可以應用視角熱點及指標訊號進行標示，因此本發明的影像處理系統及影像處理方法達到更精準的標示遮罩區塊的效果。

以下說明係為完成發明的較佳實現方式，其目的在於描述本發明的基本精神，但並不用以限定本發明。實際的發明內容必須參考之後的權利要求範圍。

必須了解的是，使用於本說明書中的”包含”、”包括”等詞，係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件，但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件，或以上的任意組合。

於權利要求中使用如”第一”、"第二"、"第三"等詞係用來修飾權利要求中的元件，並非用來表示之間具有優先權順序，先行關係，或者是一個元件先於另一個元件，或者是執行方法步驟時的時間先後順序，僅用來區別具有相同名字的元件。

請參照第1~5圖，第1圖為根據本發明之一實施例繪示的一種影像處理系統100之示意圖。第2圖為根據本發明之一實施例繪示的一種影像處理方法200之流程圖。第3A圖為根據本發明之一實施例繪示的一種初始影像IMGI之示意圖。第3B圖為根據本發明之一實施例繪示的一種遮罩圖IMGR之示意圖。第4圖為根據本發明之一實施例繪示的一種影像處理方法之示意圖。第5圖為根據本發明之一實施例繪示的一種顯示畫面之示意圖。

於一實施例中，影像處理系統100可以應用於一虛擬實境系統中的辨識物體部分。通常而言，藉由輸入一張影像至卷積神經網路(Convolutional Neural Networks，CNN)模型後，可以得到該圖片屬於何種類別的結果，這過程稱作分類(Classification)，但在真實世界的應用情境通常要從一張圖片中辨識所有出現的物體，並且標示位置(Object Localization)，此可透過CNN模型、R-CNN (Regions with CNN)模型或其他可應用於分割影像的演算法將影像進行基於圖像的影像分割(Graph Base Image Segmentation)。然而，本領域具通常知識者應能理解，本發明不限於採用CNN模型，只要是可以達到場景分割的其它神經網路模型亦可應用之。

於一實施例中，處理器10應用一場景分割模型(scene segmentation model)以分割二維影像中的物體區塊，並產生物體區塊之遮罩區塊(mesh)。其中，場景分割模型(scene segmentation model)可以由CNN模型、R-CNN (Regions with CNN)模型或其他可應用於分割影像的演算法實現之。

舉例而言，在處理器10應用CNN模型分析一張室內影像時，CNN模型辨識15種物體(如床、牆、衣櫥、窗戶、拖把…等家具)出現在此室內影像中各區塊的機率，例如針對第3B圖所示CNN模型的辨識結果為物體區塊A1是床的機率為10%、是牆的機率為20%、是衣櫃的機率為90%...等等15種物體的機率，在此些機率中，物體區塊A1是衣櫃的機率最高，因此將物體區塊A1視為衣櫃。

於一實施例中，處理器10依據此些機率將產生一遮罩圖，遮罩圖中的每個區塊代表一種物體。

舉例而言，如第3A圖所示，擴增實境眼鏡20拍攝的初始影像IMGI為室內影像，此室內影像中包含物體區塊A1~A3，接著，處理器10應用CNN模型分析此室內影像，如第3B圖所示，假設CNN模型辨識室內影像中的一物體區塊A1是衣櫥的機率最高，則將物體區塊A1標示成遮罩區塊A1’，辨識室內影像中的物體區塊A2是窗戶的機率最高，則將物體區塊A2標示成遮罩區塊A2’，辨識室內影像中的物體區塊A3是拖把的機率最高，則將此物體區塊A3標示成遮罩區塊A3’。此遮罩圖的區塊分布可視為影像分割，即每個遮罩區塊都對應到一個物體區塊。

於一實施例中，當分割出影像中各個物體後，處理器10將物體區塊進行一三維重建(three-dimension reconstruction)以產生一三維物體。例如將被標示成衣櫥區塊之遮罩區塊進行三維重建，以產生衣櫥的三維重建影像，供應用軟體後續的使用。三維重建方法可以應用已知的演算法例如紋理恢復形狀法(Shape From Texture，SFT)、陰影恢復形狀法(Shape From Shading)、立體視覺法（Multi-View Stereo）、結構光法(Structured Light)…等等實現之，此處不贅述之。

為了進一步提升辨識出影像中物體的正確性，以下提出一種影像處理系統及一種影像處理方法。

於第1圖中，在一觀看視野中(例如室內空間的一部分)包含物體OBJ1~OBJ3。使用者穿戴一擴增實境眼鏡20，朝向物體OBJ1觀看，擴增實境眼鏡20中的視點追蹤器用以辨識一瞳孔注視之方向所對應到的觀看視野中的至少一視角熱點Pn(以空心圓圈表示之)，視角熱點Pn代表使用者透過擴增實境眼鏡20於觀看視野中的注視位置。更仔細地說，擴增實境眼鏡20為具有向外拍攝環境物體之相機，以及具有向內偵測使用者注視之方向視點追蹤器(Gaze detector)之頭戴顯示裝置。

於一實施例中，擴增實境眼鏡20可以隨著使用者的移動，擷取多張二維影像，以將此些二維影像一併或分別進行後續處理。

於一實施例中，擴增實境眼鏡20與處理器10之間以有線或無線方式建立通訊連結LK1，擴增實境眼鏡20可以藉由通訊連結LK1將視角熱點Pn及/或擴增實境眼鏡20擷取到的影像傳送到處理器10。

於一實施例中，處理器10與一控制器CR之間以有線或無線方式建立通訊連結LK2。

於一實施例中，處理器10用以執行各種運算，可由積體電路如微控制單元(micro controller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit，ASIC)或一邏輯電路來實施。

於一實施例中，使用者可手持控制器CR，透過控制器CR操作遊戲或應用程式，與虛擬實境世界中的物體或擴增實境中的物體進行互動。本發明不限於使用控制器CR，只要是可以操作遊戲或應用程式的裝置或任何可以控制顯示指標訊號的方法(例如運用手勢或電子手套)，皆可以應用之。

請一併參閱第2~5圖，以下詳述影像處理方法。

於步驟210中，處理器10分割二維影像中的一物體區塊A1。例如，擴增實境眼鏡20將擷取到的二維影像IMGO(二維影像IMGO例如為初始影像IMGI的一部分或全部)傳送到處理器10，處理器10應用場景分割模型15以分割二維影像IMGO中的物體區塊A1，並將物體區塊A1之區域產生遮罩。

於此步驟中，處理器10可直接一次分割出二維影像中的所有物體區塊A1、A2及A3，以產生各對應的遮罩區塊A1’、A2’及A3’(如第3B圖所示)。

為方便說明，由於後續實施例以物體區塊A1做代表，物體區塊A2、A3可以以相同方式進行對應遮罩區塊A1’、A2’及A3’的標示(label)，故後續僅就物體區塊A1進行舉例說明。

於步驟220中，視點追蹤器辨識一瞳孔注視之方向所對應到的觀看視野中的至少一視角熱點Pn。

如第4圖所示，擴增實境眼鏡20將多個視角熱點Pn(以空心圓圈表示之)標示在擷取的二維影像上，產生一熱點圖IMGE。

於一實施例中，擴增實境眼鏡20包含一紅外線攝相機，紅外線攝相機用以擷取一眼球影像，擴增實境眼鏡20依據眼球影像辨識出瞳孔形狀，並偵測使用者所注視之方向，藉由使用者注視之方向與擴增實境眼鏡20畫面顯示之位置以辨識瞳孔注視角度所對應到的觀看視野中的該至少一視角熱點Pn。

於步驟230中，於一實施例中，處理器10接收至少一視角熱點Pn與一指標訊號PT，指標訊號PT用以指定到物體區塊A1。於一實施例中，該指標訊號PT亦可以由擴增實境眼鏡20產生，例如根據視點追蹤器偵測使用者之注視點停留時間長短產生。

於一實施例中，場景分割模型15是以CNN模型以實現之。

於一實施例中，如第4圖所示，處理器10接收到至少一視角熱點Pn後，依據視角熱點Pn產生一熱點圖IMGE，並將熱點圖IMGE及二維影像IMGO輸入CNN模型，以辨識二維影像IMGO中的物體區塊A1，並產生物體區塊A1之遮罩，以產生遮罩圖IMGR。

換言之，熱點圖IMGE是由將視角熱點Pn標示在二維影像IMGO後所產生，二維影像IMGO為擴增實境眼鏡20將擷取到的原始影像，遮罩圖IMGR是場景分割模型15的輸出影像，其包含將辨識出物體區塊A1的遮罩A1’。

藉此，由於輸入CNN模型的不僅是二維影像IMGO，更包含熱點圖IMGE，可以使CNN模型辨識出的物體區塊A1的位置及形狀更精準。

於一例子中，擴增實境眼鏡20或其他提示裝置(例如為耳機)可以提示使用者觀看特定物體(例如擴增實境眼鏡20上顯示「請觀看衣櫥」及/或耳機發出「請觀看衣櫥」的提示)，則使用者會往衣櫥的方向看，擴增實境眼鏡20藉此取得對應到衣櫥的視角熱點Pn，並依據至少一個視角熱點Pn產生熱點圖IMGE。

因此，當熱點圖IMGE及二維影像IMGO輸入CNN模型時，可以使CNN模型辨識出的物體區塊A1(即對應於衣櫥的影像區塊)的位置及形狀更精準。

於一實施例中，處理器10將物體區塊A1進行一三維重建以產生一三維物體，例如為三維衣櫥。

於步驟240中，處理器10依據至少一視角熱點Pn產生對應物體區塊A1之遮罩區塊A1’，及指標訊號PT決定遮罩區塊A1’的一標示。

在一實施例中，如第5圖所示的擴增實境眼鏡20之顯示器的顯示畫面，顯示畫面中包含至少一部分的遮罩圖IMGR及一選單LST、遮罩區塊A1’及一指標訊號PT。其中，紅色區塊A1’可以選擇性的顯示，原始影像(即二維影像IMGO)中的物體區塊A1對應於遮罩區塊A1’。

在一實施例中，處理器10可以直接針對物體區塊A1的遮罩區塊A1’進行標示，亦可選擇性地將物體區塊A1標示成遮罩區塊A1’後，控制器CR傳送指標訊號PT到擴增實境眼鏡20，擴增實境眼鏡20依據指標訊號PT顯示選單LST，選單LST列出複數個候選項目，候選項目例如為衣櫥(Closet)、牆(Wall)、門(Door)，處理器10將至少一視角熱點Pn所落在的候選項目之其中之一者視為遮罩區塊A1’的標示，例如，視角熱點Pn落在衣櫥(Closet)，則處理器10將遮罩區塊A1’標示成衣櫥。

於一實施例中，處理器10可以直接針對物體區塊A1進行標示，亦可選擇性地將物體區塊A1標示成遮罩區塊A1’後，使用者可以直接用控制器CR點選後選項目的其中之一者，例如，使用者用控制器CR點選後選項目中的衣櫥(Closet)，則處理器10將遮罩區塊A1’標示成衣櫥。

本發明雖以較佳實施例揭露如上，然其並非用以限定本發明的範圍，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可做些許的更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100:影像處理系統 10:處理器 LK1、LK2:通訊連結 20:擴增實境眼鏡 CR:控制器 Pn:視角熱點 OBJ1、OBJ2、OBJ3: 物體 200:影像處理方法 210~240:步驟 A1、A2、A3:物體區塊 IMGI:初始影像 IMGR:遮罩圖 A1’、A2’、A3’: 遮罩區塊 IMGE:熱點圖 IMGO:二維影像 15:場景分割模型 LST:選單 PT:指標訊號

第1圖為根據本發明之一實施例繪示的一種影像處理系統之示意圖。第2圖為根據本發明之一實施例繪示的一種影像處理方法之流程圖。第3A圖為根據本發明之一實施例繪示的一種初始影像之示意圖。第3B圖為根據本發明之一實施例繪示的一種遮罩圖之示意圖。第4圖為根據本發明之一實施例繪示的一種影像處理方法之示意圖。第5圖為根據本發明之一實施例繪示的一種顯示畫面之示意圖。

200:影像處理方法

210~240:步驟

Claims

一種影像處理系統，包括：一處理器，用以分割一二維影像中的一物體區塊；以及一視點追蹤器，用以辨識一瞳孔注視之方向所對應到的觀看視野中的至少一視角熱點；其中，該處理器接收該至少一視角熱點與一指標訊號，該指標訊號用以指定到該物體區塊，該處理器依據該至少一視角熱點產生對應該物體區塊之一遮罩區塊，及該指標訊號決定該遮罩區塊的一標示(label)。
如申請專利範圍第1項所述之影像處理系統，其中該處理器依據該至少一視角熱點產生一熱點圖，並將該熱點圖及該二維影像輸入一卷積神經網路(Convolutional Neural Networks，CNN)模型，以辨識該二維影像中的該物體區塊。
如申請專利範圍第1項所述之影像處理系統，其中該處理器應用一場景分割模型(scene segmentation model)以分割該二維影像中的該物體區塊，並遮罩該物體區塊。
如申請專利範圍第1項所述之影像處理系統，更包含：一控制器，用以傳送該指標訊號到一擴增實境眼鏡，該擴增實境眼鏡依據該指標訊號顯示一選單，該選單列出複數個候選項目，該處理器將該至少一視角熱點所落在的該些候選項目之其中之一者視為該遮罩區塊的該標示。
如申請專利範圍第1項所述之影像處理系統，其中該處理器更用以將該遮罩區塊進行一三維重建(three-dimension reconstruction)以產生一三維物體。
如申請專利範圍第1項所述之影像處理系統，其中該視點追蹤器包含於一擴增實境眼鏡，該擴增實境眼鏡包含一紅外線攝相機，該紅外線攝相機用以擷取一眼球影像，該擴增實境眼鏡依據該眼球影像辨識出一瞳孔形狀，並偵測出一使用者注視方向，藉由該使用者注視方向與該擴增實境眼鏡的一畫面顯示之位置以辨識一瞳孔注視角度所對應到的觀看視野中的該至少一視角熱點。
一種影像處理方法，包括：分割一二維影像中的一物體區塊；辨識一瞳孔注視之方向所對應到的觀看視野中的至少一視角熱點；接收該至少一視角熱點與一指標訊號，該指標訊號用以指定到該物體區塊；以及依據該至少一視角熱點產生對應該物體區塊之一遮罩區塊，及該指標訊號決定該遮罩區塊的一標示(label)。
如申請專利範圍第7項所述之影像處理方法，更包含：依據該至少一視角熱點產生一熱點圖，並將該熱點圖及該二維影像輸入一卷積神經網路(Convolutional Neural Networks，CNN)模型，以辨識該二維影像中的該物體區塊。
如申請專利範圍第7項所述之影像處理方法，更包含：應用一場景分割模型(scene segmentation model)以分割該二維影像中的該物體區塊，並遮罩該物體區塊。
如申請專利範圍第7項所述之影像處理方法，更包含：依據該指標訊號顯示一選單，該選單列出複數個候選項目；以及將該至少一視角熱點所落在的該些候選項目之其中之一者視為該遮罩區塊的該標示。
如申請專利範圍第7項所述之影像處理方法，更包含：將該遮罩區塊進行一三維重建(three-dimension reconstruction)以產生一三維物體。
如申請專利範圍第7項所述之影像處理方法，更包含：擷取一眼球影像；依據該眼球影像辨識出一瞳孔形狀；偵測出一使用者注視方向；以及藉由該使用者注視方向與一擴增實境眼鏡的一畫面顯示之位置以辨識一瞳孔注視角度所對應到的觀看視野中的該至少一視角熱點。