TWI703348B - 影像處理系統及影像處理方法 - Google Patents
影像處理系統及影像處理方法 Download PDFInfo
- Publication number
- TWI703348B TWI703348B TW108139445A TW108139445A TWI703348B TW I703348 B TWI703348 B TW I703348B TW 108139445 A TW108139445 A TW 108139445A TW 108139445 A TW108139445 A TW 108139445A TW I703348 B TWI703348 B TW I703348B
- Authority
- TW
- Taiwan
- Prior art keywords
- image processing
- block
- image
- hot spot
- mask
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 title claims description 23
- 210000001747 pupil Anatomy 0.000 claims abstract description 13
- 239000011521 glass Substances 0.000 claims description 30
- 230000003190 augmentative effect Effects 0.000 claims description 28
- 238000013527 convolutional neural network Methods 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 10
- 210000005252 bulbus oculi Anatomy 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/0093—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
- G02B27/0172—Head mounted characterised by optical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04815—Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/20—Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from infrared radiation only
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/30—Transforming light or analogous information into electric information
- H04N5/33—Transforming infrared radiation
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/0138—Head-up displays characterised by optical features comprising image capture systems, e.g. camera
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
- G02B2027/0178—Eyeglass type
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Optics & Photonics (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Ophthalmology & Optometry (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一種影像處理方法,包括:分離分割一二維影像中的一物體區塊;辨識一瞳孔注視之方向角度所對應到的觀看視野中的至少一視角熱點;接收至少一視角熱點,並接收來自一控制器的一指標訊號,指標訊號用以指定到物體區塊;以及依據至少一視角熱點產生對應該物體區塊之一遮罩區塊,及指標訊號決定遮罩物體區塊的一標示(label)。
Description
本發明係有關於處理系統,特別是有關於一種影像處理系統及影像處理方法。
一般而言,透過已知的模型,例如為卷積神經網路(Convolutional Neural Networks,CNN)模型,可將二維影像進行區塊性的分割(Segmentation),以分割二維影像中的多個物體,並將各個物體以不同顏色進行上色,以輸出遮罩圖,由遮罩圖可得知二維影像中各物體的分布位置及區塊。得知物體的分布位置及區塊後,可進行透過已知的三維重建方法,例如紋理恢復形狀法(Shape From Texture,SFT)、陰影恢復形狀法(Shape From Shading)、立體視覺法(Multi-View Stereo)、結構光法(Structured Light)…等等,以建構三維物體。此些三維物體可以對如文物保護、遊戲開發、建築設計、臨床醫學等研究起到輔助的作用。
然而,在分割出二維影像中的多個物體後,系統不一定能分辨出特定物體為何,或特定物體的形狀難以被分辨,例如系統難以精準判斷特定物體為門或窗,亦難以分辨藝術造型座椅。
因此,要如何使系統正確的標示各個物體,已成為本領域待解決的問題之一。
本發明實施例係提供一種影像處理系統,包括一處理器以及一視點追蹤器。處理器用以分割一二維影像中的一物體區塊。視點追蹤器用以辨識一瞳孔注視之方向所對應到的觀看視野中的至少一視角熱點。其中,處理器接收至少一視角熱點與一指標訊號,指標訊號用以指定到物體區塊,處理器依據至少一視角熱點產生對應該物體區塊之一遮罩區塊,及指標訊號決定遮罩區塊的一標示(label)。
本發明實施例係提供一種影像處理方法,包括:分割一二維影像中的一物體區塊;辨識一瞳孔注視之方向所對應到的觀看視野中的至少一視角熱點;接收至少一視角熱點與一指標訊號,指標訊號用以指定到物體區塊;以及依據至少一視角熱點產生對應該物體區塊之一遮罩區塊,及指標訊號決定遮罩區塊的一標示(label)。
綜上所述,本發明實施例係提供一種影像處理系統及影像處理方法,在標示二維影像中的物體區塊之遮罩區塊的過程中,透過視角熱點及指標訊號的應用,例如,在分割出二維影像中的多個物體後,透過影像處理系統及影像處理方法能分辨出特定物體,應用視角熱點及指標訊號可精準標示特定物體,即使是藝術造型物體或各種特殊形狀的物體,亦可以應用視角熱點及指標訊號進行標示,因此本發明的影像處理系統及影像處理方法達到更精準的標示遮罩區塊的效果。
以下說明係為完成發明的較佳實現方式,其目的在於描述本發明的基本精神,但並不用以限定本發明。實際的發明內容必須參考之後的權利要求範圍。
必須了解的是,使用於本說明書中的”包含”、”包括”等詞,係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件,但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件,或以上的任意組合。
於權利要求中使用如”第一”、"第二"、"第三"等詞係用來修飾權利要求中的元件,並非用來表示之間具有優先權順序,先行關係,或者是一個元件先於另一個元件,或者是執行方法步驟時的時間先後順序,僅用來區別具有相同名字的元件。
請參照第1~5圖,第1圖為根據本發明之一實施例繪示的一種影像處理系統100之示意圖。第2圖為根據本發明之一實施例繪示的一種影像處理方法200之流程圖。第3A圖為根據本發明之一實施例繪示的一種初始影像IMGI之示意圖。第3B圖為根據本發明之一實施例繪示的一種遮罩圖IMGR之示意圖。第4圖為根據本發明之一實施例繪示的一種影像處理方法之示意圖。第5圖為根據本發明之一實施例繪示的一種顯示畫面之示意圖。
於一實施例中,影像處理系統100可以應用於一虛擬實境系統中的辨識物體部分。通常而言,藉由輸入一張影像至卷積神經網路(Convolutional Neural Networks,CNN)模型後,可以得到該圖片屬於何種類別的結果,這過程稱作分類(Classification),但在真實世界的應用情境通常要從一張圖片中辨識所有出現的物體,並且標示位置(Object Localization),此可透過CNN模型、R-CNN (Regions with CNN)模型或其他可應用於分割影像的演算法將影像進行基於圖像的影像分割(Graph Base Image Segmentation)。然而,本領域具通常知識者應能理解,本發明不限於採用CNN模型,只要是可以達到場景分割的其它神經網路模型亦可應用之。
於一實施例中,處理器10應用一場景分割模型(scene segmentation model)以分割二維影像中的物體區塊,並產生物體區塊之遮罩區塊(mesh)。其中,場景分割模型(scene segmentation model)可以由CNN模型、R-CNN (Regions with CNN)模型或其他可應用於分割影像的演算法實現之。
舉例而言,在處理器10應用CNN模型分析一張室內影像時,CNN模型辨識15種物體(如床、牆、衣櫥、窗戶、拖把…等家具)出現在此室內影像中各區塊的機率,例如針對第3B圖所示CNN模型的辨識結果為物體區塊A1是床的機率為10%、是牆的機率為20%、是衣櫃的機率為90%...等等15種物體的機率,在此些機率中,物體區塊A1是衣櫃的機率最高,因此將物體區塊A1視為衣櫃。
於一實施例中,處理器10依據此些機率將產生一遮罩圖,遮罩圖中的每個區塊代表一種物體。
舉例而言,如第3A圖所示,擴增實境眼鏡20拍攝的初始影像IMGI為室內影像,此室內影像中包含物體區塊A1~A3,接著,處理器10應用CNN模型分析此室內影像,如第3B圖所示,假設CNN模型辨識室內影像中的一物體區塊A1是衣櫥的機率最高,則將物體區塊A1標示成遮罩區塊A1’,辨識室內影像中的物體區塊A2是窗戶的機率最高,則將物體區塊A2標示成遮罩區塊A2’,辨識室內影像中的物體區塊A3是拖把的機率最高,則將此物體區塊A3標示成遮罩區塊A3’。此遮罩圖的區塊分布可視為影像分割,即每個遮罩區塊都對應到一個物體區塊。
於一實施例中,當分割出影像中各個物體後,處理器10將物體區塊進行一三維重建(three-dimension reconstruction)以產生一三維物體。例如將被標示成衣櫥區塊之遮罩區塊進行三維重建,以產生衣櫥的三維重建影像,供應用軟體後續的使用。三維重建方法可以應用已知的演算法例如紋理恢復形狀法(Shape From Texture,SFT)、陰影恢復形狀法(Shape From Shading)、立體視覺法(Multi-View Stereo)、結構光法(Structured Light)…等等實現之,此處不贅述之。
為了進一步提升辨識出影像中物體的正確性,以下提出一種影像處理系統及一種影像處理方法。
於第1圖中,在一觀看視野中(例如室內空間的一部分)包含物體OBJ1~OBJ3。使用者穿戴一擴增實境眼鏡20,朝向物體OBJ1觀看,擴增實境眼鏡20中的視點追蹤器用以辨識一瞳孔注視之方向所對應到的觀看視野中的至少一視角熱點Pn(以空心圓圈表示之),視角熱點Pn代表使用者透過擴增實境眼鏡20於觀看視野中的注視位置。更仔細地說,擴增實境眼鏡20為具有向外拍攝環境物體之相機,以及具有向內偵測使用者注視之方向視點追蹤器(Gaze detector)之頭戴顯示裝置。
於一實施例中,擴增實境眼鏡20可以隨著使用者的移動,擷取多張二維影像,以將此些二維影像一併或分別進行後續處理。
於一實施例中,擴增實境眼鏡20與處理器10之間以有線或無線方式建立通訊連結LK1,擴增實境眼鏡20可以藉由通訊連結LK1將視角熱點Pn及/或擴增實境眼鏡20擷取到的影像傳送到處理器10。
於一實施例中,處理器10與一控制器CR之間以有線或無線方式建立通訊連結LK2。
於一實施例中,處理器10用以執行各種運算,可由積體電路如微控制單元(micro controller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit,ASIC)或一邏輯電路來實施。
於一實施例中,使用者可手持控制器CR,透過控制器CR操作遊戲或應用程式,與虛擬實境世界中的物體或擴增實境中的物體進行互動。本發明不限於使用控制器CR,只要是可以操作遊戲或應用程式的裝置或任何可以控制顯示指標訊號的方法(例如運用手勢或電子手套),皆可以應用之。
請一併參閱第2~5圖,以下詳述影像處理方法。
於步驟210中,處理器10分割二維影像中的一物體區塊A1。例如,擴增實境眼鏡20將擷取到的二維影像IMGO(二維影像IMGO例如為初始影像IMGI的一部分或全部)傳送到處理器10,處理器10應用場景分割模型15以分割二維影像IMGO中的物體區塊A1,並將物體區塊A1之區域產生遮罩。
於此步驟中,處理器10可直接一次分割出二維影像中的所有物體區塊A1、A2及A3,以產生各對應的遮罩區塊A1’、A2’及A3’(如第3B圖所示)。
為方便說明,由於後續實施例以物體區塊A1做代表,物體區塊A2、A3可以以相同方式進行對應遮罩區塊A1’、A2’及A3’的標示(label),故後續僅就物體區塊A1進行舉例說明。
於步驟220中,視點追蹤器辨識一瞳孔注視之方向所對應到的觀看視野中的至少一視角熱點Pn。
如第4圖所示,擴增實境眼鏡20將多個視角熱點Pn(以空心圓圈表示之)標示在擷取的二維影像上,產生一熱點圖IMGE。
於一實施例中,擴增實境眼鏡20包含一紅外線攝相機,紅外線攝相機用以擷取一眼球影像,擴增實境眼鏡20依據眼球影像辨識出瞳孔形狀,並偵測使用者所注視之方向,藉由使用者注視之方向與擴增實境眼鏡20畫面顯示之位置以辨識瞳孔注視角度所對應到的觀看視野中的該至少一視角熱點Pn。
於步驟230中,於一實施例中,處理器10接收至少一視角熱點Pn與一指標訊號PT,指標訊號PT用以指定到物體區塊A1。於一實施例中,該指標訊號PT亦可以由擴增實境眼鏡20產生,例如根據視點追蹤器偵測使用者之注視點停留時間長短產生。
於一實施例中,場景分割模型15是以CNN模型以實現之。
於一實施例中,如第4圖所示,處理器10接收到至少一視角熱點Pn後,依據視角熱點Pn產生一熱點圖IMGE,並將熱點圖IMGE及二維影像IMGO輸入CNN模型,以辨識二維影像IMGO中的物體區塊A1,並產生物體區塊A1之遮罩,以產生遮罩圖IMGR。
換言之,熱點圖IMGE是由將視角熱點Pn標示在二維影像IMGO後所產生,二維影像IMGO為擴增實境眼鏡20將擷取到的原始影像,遮罩圖IMGR是場景分割模型15的輸出影像,其包含將辨識出物體區塊A1的遮罩A1’。
藉此,由於輸入CNN模型的不僅是二維影像IMGO,更包含熱點圖IMGE,可以使CNN模型辨識出的物體區塊A1的位置及形狀更精準。
於一例子中,擴增實境眼鏡20或其他提示裝置(例如為耳機)可以提示使用者觀看特定物體(例如擴增實境眼鏡20上顯示「請觀看衣櫥」及/或耳機發出「請觀看衣櫥」的提示),則使用者會往衣櫥的方向看,擴增實境眼鏡20藉此取得對應到衣櫥的視角熱點Pn,並依據至少一個視角熱點Pn產生熱點圖IMGE。
因此,當熱點圖IMGE及二維影像IMGO輸入CNN模型時,可以使CNN模型辨識出的物體區塊A1(即對應於衣櫥的影像區塊)的位置及形狀更精準。
於一實施例中,處理器10將物體區塊A1進行一三維重建以產生一三維物體,例如為三維衣櫥。
於步驟240中,處理器10依據至少一視角熱點Pn產生對應物體區塊A1之遮罩區塊A1’,及指標訊號PT決定遮罩區塊A1’的一標示。
在一實施例中,如第5圖所示的擴增實境眼鏡20之顯示器的顯示畫面,顯示畫面中包含至少一部分的遮罩圖IMGR及一選單LST、遮罩區塊A1’及一指標訊號PT。其中,紅色區塊A1’可以選擇性的顯示,原始影像(即二維影像IMGO)中的物體區塊A1對應於遮罩區塊A1’。
在一實施例中,處理器10可以直接針對物體區塊A1的遮罩區塊A1’進行標示,亦可選擇性地將物體區塊A1標示成遮罩區塊A1’後,控制器CR傳送指標訊號PT到擴增實境眼鏡20,擴增實境眼鏡20依據指標訊號PT顯示選單LST,選單LST列出複數個候選項目,候選項目例如為衣櫥(Closet)、牆(Wall)、門(Door),處理器10將至少一視角熱點Pn所落在的候選項目之其中之一者視為遮罩區塊A1’的標示,例如,視角熱點Pn落在衣櫥(Closet),則處理器10將遮罩區塊A1’標示成衣櫥。
於一實施例中,處理器10可以直接針對物體區塊A1進行標示,亦可選擇性地將物體區塊A1標示成遮罩區塊A1’後,使用者可以直接用控制器CR點選後選項目的其中之一者,例如,使用者用控制器CR點選後選項目中的衣櫥(Closet),則處理器10將遮罩區塊A1’標示成衣櫥。
綜上所述,本發明實施例係提供一種影像處理系統及影像處理方法,在標示二維影像中的物體區塊之遮罩區塊的過程中,透過視角熱點及指標訊號的應用,例如,在分割出二維影像中的多個物體後,透過影像處理系統及影像處理方法能分辨出特定物體,應用視角熱點及指標訊號可精準標示特定物體,即使是藝術造型物體或各種特殊形狀的物體,亦可以應用視角熱點及指標訊號進行標示,因此本發明的影像處理系統及影像處理方法達到更精準的標示遮罩區塊的效果。
本發明雖以較佳實施例揭露如上,然其並非用以限定本發明的範圍,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可做些許的更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100:影像處理系統
10:處理器
LK1、LK2:通訊連結
20:擴增實境眼鏡
CR:控制器
Pn:視角熱點
OBJ1、OBJ2、OBJ3: 物體
200:影像處理方法
210~240:步驟
A1、A2、A3:物體區塊
IMGI:初始影像
IMGR:遮罩圖
A1’、A2’、A3’: 遮罩區塊
IMGE:熱點圖
IMGO:二維影像
15:場景分割模型
LST:選單
PT:指標訊號
第1圖為根據本發明之一實施例繪示的一種影像處理系統之示意圖。
第2圖為根據本發明之一實施例繪示的一種影像處理方法之流程圖。
第3A圖為根據本發明之一實施例繪示的一種初始影像之示意圖。
第3B圖為根據本發明之一實施例繪示的一種遮罩圖之示意圖。
第4圖為根據本發明之一實施例繪示的一種影像處理方法之示意圖。
第5圖為根據本發明之一實施例繪示的一種顯示畫面之示意圖。
200:影像處理方法
210~240:步驟
Claims (12)
- 一種影像處理系統,包括: 一處理器,用以分割一二維影像中的一物體區塊;以及 一視點追蹤器,用以辨識一瞳孔注視之方向所對應到的觀看視野中的至少一視角熱點; 其中,該處理器接收該至少一視角熱點與一指標訊號,該指標訊號用以指定到該物體區塊,該處理器依據該至少一視角熱點產生對應該物體區塊之一遮罩區塊,及該指標訊號決定該遮罩區塊的一標示(label)。
- 如申請專利範圍第1項所述之影像處理系統,其中該處理器依據該至少一視角熱點產生一熱點圖,並將該熱點圖及該二維影像輸入一卷積神經網路(Convolutional Neural Networks,CNN)模型,以辨識該二維影像中的該物體區塊。
- 如申請專利範圍第1項所述之影像處理系統,其中該處理器應用一場景分割模型(scene segmentation model)以分割該二維影像中的該物體區塊,並遮罩該物體區塊。
- 如申請專利範圍第1項所述之影像處理系統,更包含: 一控制器,用以傳送該指標訊號到一擴增實境眼鏡,該擴增實境眼鏡依據該指標訊號顯示一選單,該選單列出複數個候選項目,該處理器將該至少一視角熱點所落在的該些候選項目之其中之一者視為該遮罩區塊的該標示。
- 如申請專利範圍第1項所述之影像處理系統,其中該處理器更用以將該遮罩區塊進行一三維重建(three-dimension reconstruction)以產生一三維物體。
- 如申請專利範圍第1項所述之影像處理系統,其中該視點追蹤器包含於一擴增實境眼鏡,該擴增實境眼鏡包含一紅外線攝相機,該紅外線攝相機用以擷取一眼球影像,該擴增實境眼鏡依據該眼球影像辨識出一瞳孔形狀,並偵測出一使用者注視方向,藉由該使用者注視方向與該擴增實境眼鏡的一畫面顯示之位置以辨識一瞳孔注視角度所對應到的觀看視野中的該至少一視角熱點。
- 一種影像處理方法,包括: 分割一二維影像中的一物體區塊; 辨識一瞳孔注視之方向所對應到的觀看視野中的至少一視角熱點; 接收該至少一視角熱點與一指標訊號,該指標訊號用以指定到該物體區塊;以及 依據該至少一視角熱點產生對應該物體區塊之一遮罩區塊,及該指標訊號決定該遮罩區塊的一標示(label)。
- 如申請專利範圍第7項所述之影像處理方法,更包含: 依據該至少一視角熱點產生一熱點圖,並將該熱點圖及該二維影像輸入一卷積神經網路(Convolutional Neural Networks,CNN)模型,以辨識該二維影像中的該物體區塊。
- 如申請專利範圍第7項所述之影像處理方法,更包含: 應用一場景分割模型(scene segmentation model)以分割該二維影像中的該物體區塊,並遮罩該物體區塊。
- 如申請專利範圍第7項所述之影像處理方法,更包含: 依據該指標訊號顯示一選單,該選單列出複數個候選項目;以及 將該至少一視角熱點所落在的該些候選項目之其中之一者視為該遮罩區塊的該標示。
- 如申請專利範圍第7項所述之影像處理方法,更包含: 將該遮罩區塊進行一三維重建(three-dimension reconstruction)以產生一三維物體。
- 如申請專利範圍第7項所述之影像處理方法,更包含: 擷取一眼球影像; 依據該眼球影像辨識出一瞳孔形狀; 偵測出一使用者注視方向;以及 藉由該使用者注視方向與一擴增實境眼鏡的一畫面顯示之位置以辨識一瞳孔注視角度所對應到的觀看視野中的該至少一視角熱點。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862776411P | 2018-12-06 | 2018-12-06 | |
US62/776,411 | 2018-12-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI703348B true TWI703348B (zh) | 2020-09-01 |
TW202036091A TW202036091A (zh) | 2020-10-01 |
Family
ID=70970735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108139445A TWI703348B (zh) | 2018-12-06 | 2019-10-31 | 影像處理系統及影像處理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11615549B2 (zh) |
CN (1) | CN111291746B (zh) |
TW (1) | TWI703348B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI797761B (zh) * | 2021-10-04 | 2023-04-01 | 邦鼎科技有限公司 | 虛擬實境的顯示方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12094243B2 (en) * | 2020-05-19 | 2024-09-17 | Board Of Regents, The University Of Texas System | Method and apparatus for discreet person identification on pocket-size offline mobile platform with augmented reality feedback with real-time training capability for usage by universal users |
US11461989B2 (en) | 2020-12-04 | 2022-10-04 | Himax Technologies Limited | Monitor method and monitor system thereof wherein mask is used to cover image for detecting object |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018026838A1 (en) * | 2016-08-02 | 2018-02-08 | Atlas5D, Inc. | Systems and methods to identify persons and/or identify and quantify pain, fatigue, mood, and intent with protection of privacy |
US20180122071A1 (en) * | 2016-08-31 | 2018-05-03 | International Business Machines Corporation | Skin lesion segmentation using deep convolution networks guided by local unsupervised learning |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872237B (zh) | 2009-04-23 | 2012-04-18 | 由田新技股份有限公司 | 瞳孔追踪方法与系统及用于瞳孔追踪的校正方法与模组 |
JP5784404B2 (ja) | 2011-07-29 | 2015-09-24 | オリンパス株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
US20170084084A1 (en) * | 2015-09-22 | 2017-03-23 | Thrillbox, Inc | Mapping of user interaction within a virtual reality environment |
US20170278308A1 (en) * | 2016-03-23 | 2017-09-28 | Intel Corporation | Image modification and enhancement using 3-dimensional object model based recognition |
KR102560558B1 (ko) * | 2016-05-20 | 2023-07-27 | 매직 립, 인코포레이티드 | 사용자 인터페이스 메뉴의 콘텍추얼 인식 |
CN106056092B (zh) | 2016-06-08 | 2019-08-20 | 华南理工大学 | 基于虹膜与瞳孔的用于头戴式设备的视线估计方法 |
US10262036B2 (en) * | 2016-12-29 | 2019-04-16 | Microsoft Technology Licensing, Llc | Replacing pronouns with focus-specific objects in search queries |
US10769438B2 (en) * | 2017-05-23 | 2020-09-08 | Samsung Electronics Company, Ltd. | Augmented reality |
GB201709199D0 (en) * | 2017-06-09 | 2017-07-26 | Delamont Dean Lindsay | IR mixed reality and augmented reality gaming system |
-
2019
- 2019-10-31 TW TW108139445A patent/TWI703348B/zh active
- 2019-10-31 US US16/669,669 patent/US11615549B2/en active Active
- 2019-10-31 CN CN201911049810.5A patent/CN111291746B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018026838A1 (en) * | 2016-08-02 | 2018-02-08 | Atlas5D, Inc. | Systems and methods to identify persons and/or identify and quantify pain, fatigue, mood, and intent with protection of privacy |
US20180122071A1 (en) * | 2016-08-31 | 2018-05-03 | International Business Machines Corporation | Skin lesion segmentation using deep convolution networks guided by local unsupervised learning |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI797761B (zh) * | 2021-10-04 | 2023-04-01 | 邦鼎科技有限公司 | 虛擬實境的顯示方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200184671A1 (en) | 2020-06-11 |
CN111291746A (zh) | 2020-06-16 |
TW202036091A (zh) | 2020-10-01 |
CN111291746B (zh) | 2024-01-26 |
US11615549B2 (en) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11546505B2 (en) | Touchless photo capture in response to detected hand gestures | |
US11861070B2 (en) | Hand gestures for animating and controlling virtual and graphical elements | |
US12086324B2 (en) | Micro hand gestures for controlling virtual and graphical elements | |
US11531402B1 (en) | Bimanual gestures for controlling virtual and graphical elements | |
US20220326781A1 (en) | Bimanual interactions between mapped hand regions for controlling virtual and graphical elements | |
TWI703348B (zh) | 影像處理系統及影像處理方法 | |
US11277597B1 (en) | Marker-based guided AR experience | |
JP2019510297A (ja) | ユーザの真実の人体モデルへの仮想的な試着 | |
CN107004275A (zh) | 用于确定实物的至少一部分的处于绝对空间比例的3d重构件的空间坐标的方法和系统 | |
WO2022042566A1 (zh) | 基于标记点的三维手势的识别方法、装置及设备 | |
US11195341B1 (en) | Augmented reality eyewear with 3D costumes | |
JP7282216B2 (ja) | 単眼スチルカメラのビデオにおけるレイヤードモーションの表現と抽出 | |
JP6725121B1 (ja) | 視線検出方法、視線検出装置、及び制御プログラム | |
US20210406542A1 (en) | Augmented reality eyewear with mood sharing | |
JP6745518B1 (ja) | 視線検出方法、視線検出装置、及び制御プログラム | |
KR20130018004A (ko) | 공간 제스처 인식을 위한 신체 트래킹 방법 및 시스템 | |
WO2018042948A1 (en) | Information processing system, method of information processing, and program | |
US20240107256A1 (en) | Augmented reality spatial audio experience | |
US12079395B2 (en) | Scissor hand gesture for a collaborative object | |
US20240070243A1 (en) | Authenticating a selective collaborative object | |
TWI725665B (zh) | 影像處理系統及影像處理方法 | |
CN112967338B (zh) | 影像处理系统及影像处理方法 | |
US20240070298A1 (en) | Selective collaborative object access | |
US20240070300A1 (en) | Selective collaborative object access based on timestamp | |
TW201729141A (zh) | 性別辨識系統及其方法 |