TW201933050A - 確定瞳孔位置的方法和裝置 - Google Patents
確定瞳孔位置的方法和裝置 Download PDFInfo
- Publication number
- TW201933050A TW201933050A TW108102400A TW108102400A TW201933050A TW 201933050 A TW201933050 A TW 201933050A TW 108102400 A TW108102400 A TW 108102400A TW 108102400 A TW108102400 A TW 108102400A TW 201933050 A TW201933050 A TW 201933050A
- Authority
- TW
- Taiwan
- Prior art keywords
- network model
- loss function
- parameters
- type
- pupil
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Ophthalmology & Optometry (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本發明公開了一種確定瞳孔位置的方法和裝置。其中,該方法包括:獲取包含瞳孔的待檢測圖像;基於半監督學習的預設模型獲取與預設區域對應的二值圖像,其中,預設區域為待檢測圖像中瞳孔所在的區域;獲取二值圖像的質心;根據二值圖像的質心確定瞳孔的中心位置。本發明解決了現有技術不能對瞳孔中心進行精確定位的技術問題。
Description
本發明涉及圖像處理領域,具體而言,涉及一種確定瞳孔位置的方法和裝置。
VR(Virtual Reality,虛擬現實)技術是一種可以創建和體驗虛擬世界的計算機技術,其在視線追蹤領域得到了廣泛的應用。
在實際應用中,VR設備可根據基於眼球的3D近似圓球模型中的瞳孔中心坐標和角膜反射,對注視點的遠距離設備進行視線估計。目前對瞳孔中心進行定位時,多採用無監督學習的方法,即使用無標簽的數據對模型進行訓練,然而該方法只能大致確定瞳孔中心的位置,精度較差。
針對上述現有技術不能對瞳孔的中心位置進行精確定位的問題,目前尚未提出有效的解決方案。
有鑑於此,吾等發明人乃潛心進一步研究,並著手進行研發及改良,期以一較佳設作以解決上述問題,且在經過不斷試驗及修改後而有本發明之問世。
本發明實施例提供了一種確定瞳孔位置的方法和裝置,以至少解決現有技術不能對瞳孔中心進行精確定位的技術問題。
根據本發明實施例的一個方面,提供了一種確定瞳孔位置的方法,包括:獲取包含瞳孔的待檢測圖像;基於半監督學習的預設模型獲取預設區域對應的二值圖像,其中,預設區域為待檢測圖像中瞳孔所在的區域;獲取二值圖像的質心;根據二值圖像的質心確定瞳孔的中心位置。
根據本發明實施例的另一方面,還提供了一種確定瞳孔位置的裝置,包括:第一獲取模塊,用於獲取包含瞳孔的待檢測圖像;第二獲取模塊,用於基於半監督學習的預設模型獲取預設區域對應的二值圖像,其中,預設區域為待檢測圖像中瞳孔所在的區域;第三獲取模塊,用於獲取二值圖像的質心;確定模塊,用於根據二值圖像的質心確定瞳孔的中心位置。
根據本發明實施例的另一方面,還提供了一種存儲介質,該存儲介質包括存儲的程序,其中,程序執行確定瞳孔位置的方法。
根據本發明實施例的另一方面,還提供了一種處理器,該處理器用於運行程序,其中,程序運行時執行確定瞳孔位置的方法。
在本發明實施例中,採用半監督學習算法的方式,通過獲取包含瞳孔的待檢測圖像,然後,基於半監督學習的預設模型獲取與預設區域對應的二值圖像以及二值圖像的質心,並根據二值圖像的質心確定瞳孔的中心位置,其中,預設區域為待檢測圖像中瞳孔所在的區域,達到了對瞳孔中心進行定位的目的,從而實現了準確確定瞳孔中心的位置的技術效果,進而解決了現有技術不能對瞳孔中心進行精確定位的技術問題。
關於吾等發明人之技術手段,茲舉數種較佳實施例配合圖式於下文進行詳細說明,俾供 鈞上深入瞭解並認同本發明。
為了使本發明所屬技術領域中具有通常知識者更好地理解本發明方案,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分的實施例,而不是全部的實施例。基於本發明中的實施例,本發明所屬技術領域中具有通常知識者在沒有做出進步性勞動前提下所獲得的所有其他實施例,都應當屬於本發明保護的範圍。
需要說明的是,本發明的說明書和申請專利範圍及上述附圖中的術語“第一”、“第二”等是用於區別類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的數據在適當情況下可以互換,以便這裏描述的本發明的實施例能夠以除了在這裏圖示或描述的那些以外的順序實施。此外,術語“包括”和“具有”以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。
實施例
1
根據本發明實施例,提供了一種確定瞳孔位置的方法實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行,並且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟。
圖1是根據本發明實施例的確定瞳孔位置的方法流程圖,如圖1所示,該方法包括如下步驟:
步驟S102,獲取包含瞳孔的待檢測圖像。
需要說明的是,圖像採集設備可以採集到包含瞳孔的圖像,即得到上述待檢測圖像。其中,上述待檢測圖像可以為一張,也可以為多張。在待檢測圖像為多張的情況下,圖像採集設備採集到包含瞳孔的待檢測圖像集。另外,在圖像採集設備採集到待檢測圖像之後,與圖像採集設備連接的處理器可對待檢測圖像進行處理,以確定待檢測圖像中瞳孔的中心位置。
步驟S104,基於半監督學習的預設模型獲取與預設區域對應的二值圖像,其中,預設區域為待檢測圖像中瞳孔所在的區域。
需要說明的是,半監督學習是將有監督學習和無監督學習相結合的一種機器學習方法,使用半監督學習對預設模型進行訓練,不僅可以對模型進行簡化處理,還可以得到精度比較高的處理結果。另外,處理器在得到待檢測圖像之後,將待檢測圖像作為預設模型的輸入,對應的預設模型的輸出即為待檢測圖像中瞳孔所在區域的二值圖像。
此外,還需要說明的是,二值圖像是指每一個像素只有兩種可能取值或灰度等級的圖像。由於二值圖像具有照樣內存少、對比度高等優點,因此,在本發明中將包含多種灰度等級或多種顏色的待檢測圖像處理成取值少、灰度等級少的二值圖像同樣可以提高精度比較高的瞳孔中心,並且還提高了處理數據的速度。
另外,如果預設模型的輸入為待檢測圖像集,則預設模型的輸出為包含多張二值圖像的二值圖像集,其中,二值圖像集中的每張圖像均與待檢測圖像集中的圖像相對應。
步驟S106,獲取二值圖像的質心。
需要說明的是,在得到待檢測圖像的二值圖像之後,獲取二值圖像中瞳孔區域內的像素點的坐標,然後根據瞳孔區域的像素點的坐標進行加權求和,即得到二值圖像的質心。
在一種可選的實施例中,如圖2所示的一種可選的二值圖像的結構示意圖。其中,在圖2中,黑色圓表示二值圖像區域中的瞳孔區域。由於是二值圖像,所以僅需要找出二值圖像中灰度等級為0的像素點的坐標即可得到瞳孔區域內的像素點的坐標,並採用如下公式即可得到二值圖像中瞳孔區域的質心:
在上式中,M為瞳孔區域內像素點的總數,i表示瞳孔區域內的像素點的下標,xi
、yi
表示瞳孔區域內第i個像素點的坐標,x和y表示質心的坐標。
步驟S108,根據二值圖像的質心確定瞳孔的中心位置。
需要說明的是,在得到二值圖像的質心之後,二值圖像的質心即為瞳孔的中心位置。
基於上述步驟S102至步驟S108所限定的方案,可以獲知,通過獲取包含瞳孔的待檢測圖像,然後,基於半監督學習的預設模型獲取與預設區域對應的二值圖像以及二值圖像的質心,並根據二值圖像的質心確定瞳孔的中心位置,其中,預設區域為待檢測圖像中瞳孔所在的區域。
容易注意到的是,由於半監督學習包括無監督學習和有監督學習兩個學習過程,因此,將有監督學習和無監督學習進行結合所得到的預設模型,可以克服現有技術中僅使用無監督學習或僅使用有監督學習無法對瞳孔進行精確定位的問題。另外,使用預設模型,將包含瞳孔的待檢測圖像轉換為處理過程比較簡單的二值圖像,進而根據二值圖像的質心可準確確定瞳孔中心的位置。此外,上述過程計算過程簡單,提高了對瞳孔中心進行精確定位的速度。
由上述內容可知,本發明所提供的實施例可以達到對瞳孔中心進行定位的目的,從而實現了準確確定瞳孔中心的位置的技術效果,進而解決了現有技術不能對瞳孔中心進行精確定位的技術問題。
需要說明的是,在基於半監督學習的預設模型獲取與預設區域對應的二值圖像之前,需要構建預設模型,具體步驟如下:
步驟S10,獲取多張待訓練的圖像中的第一類訓練集和第二類訓練集;
步驟S12,獲取網絡模型,其中,網絡模型用於將多張待訓練的圖像從原始圖像轉換為二值圖像;
步驟S14,構建網絡模型的損失函數;
步驟S16,根據第一類訓練圖像集、第二類訓練圖像集以及網絡模型的損失函數構建預設模型。
需要說明的是,多張待訓練的圖像組成待訓練圖像集,該待訓練圖像集包含第一類訓練集和第二類訓練集,其中,第一類訓練集為無標簽訓練集,即原始圖像與二值圖像之間沒有對應關係,如圖3(a)所示的一種可選的無標簽訓練集的示意圖;第二類訓練集為有標簽訓練集,即原始圖像與二值圖像一一對應,如圖3(b)所示的一種可選的有標簽訓練集的示意圖。其中,在圖3(a)和圖3(b)中,x表示原始圖像,y表示二值圖像。
此外,還需要說明的是,上述網絡模型為GAN(Generative Adversarial Networks,即生成對抗網絡)網絡模型,該網絡模型可以包括兩個GAN網絡,其中,一個GAN網絡用於將圖像由原始圖像轉換為二值圖像,而另一個GAN網絡用於將二值圖像轉換為原始圖像。在得到上述網絡模型之後,可基於該網絡模型構建網絡模型的損失函數,具體步驟如下:
步驟S140,獲取網絡模型的超參數;
步驟S142,在網絡模型進行無監督學習的情況下,基於超參數確定網絡模型的損失函數為第一損失函數和第二損失函數;
步驟S144,在網絡模型進行有監督學習的情況下,基於超參數確定網絡模型的損失函數為第三損失函數和第四損失函數。
需要說明的是,網絡模型的超參數是指在機器學習的上下文中,在開始學習過程之前設置值的參數。在本發明中,網絡模型的超參數至少包括如下:學習率、無監督學習與有監督學習的次數比率、批處理圖像的數量以及對網絡模型進行訓練的訓練輪數。
具體的,當對網絡模型採用無監督學習時,第一損失函數為生成器的損失函數,第二損失函數為判別器的損失函數,其中,第一損失函數為:
第二損失函數為:
當對網絡模型採用有監督學習時,第三損失函數為生成器的損失函數,第四損失函數為判別器的損失函數,其中,第四損失函數與第二損失函數相同,即在有監督學習和無監督學習的情況下,判別器的更新方式不變。由此,第三損失函數為:
在上述公式中,、為超參數,可通過經驗確定;GA
表示生成器A,GB
表示生成器B,DB
表示判別器B,DA
表示判別器A。X、Y分別表示原始圖像域和二值圖像域,x、y分別表示X、Y域的圖像。
需要說明的是,在得到網絡模型以及第一類訓練圖像集和第二類訓練圖像集之後,即可構建預設模型,即構建預設模型的損失函數,具體方法包括如下步驟:
步驟S160,基於第一類訓練圖像集和第二類訓練圖像集對網絡模型的判別器和生成器的參數進行更新,得到更新後的網絡模型;
步驟S162,在在對網絡模型的更新次數達到第一閾值的情況下,根據更新後的網絡模型構建預設模型。
具體的,基於第一類訓練圖像集和第二類訓練圖像集對網絡模型的判別器和生成器的參數進行更新,得到更新後的網絡模型包括如下步驟:
步驟S1602,基於第一類訓練圖像集根據第二損失函數更新判別器的參數;
步驟S1604,基於第一類訓練圖像集根據第一損失函數更新生成器的參數;
步驟S1606,在對判別器和生成器的參數進行更新的次數達到第二閾值的情況下,基於第二類訓練圖像集根據第三損失函數更新生成器的參數;
步驟S1608,基於第二類訓練圖像集根據第四損失函數更新判別器的參數;
其中,在對判別器和生成器的參數進行更新的次數達到第三閾值的情況下,對網絡模型的更新次數進行加一操作,直至網絡模型的更新次數達到第一閾值為止。
需要說明的是,上述第一閾值為對網絡模型進行訓練的最大更新次數,第二閾值為基於無監督學習方式更新生成器的參數(即無監督學習方式下的生成器的參數)和判別器的參數(即無監督學習方式下的判別器的參數)的最大更新次數,第三閾值為基於有監督學習方式更新生成器的參數(即有監督學習方式下的生成器的參數)和判別器的參數(即有監督學習方式下的判別器的參數)的最大更新次數。
在一種可選的實施例中,如圖4所示的一種可選的預設模型的構建流程圖。其中,在圖4中,第一閾值為n,第二閾值為n1,第三閾值為n2。具體的,在獲取訓練數據集之後,即在獲取第一類訓練圖像集和第二類訓練圖像集之後,對網絡模型的參數進行初始化處理,具體包括對網絡模型的權重參數以及超參數進行初始化處理。在完成參數的初始化處理之後,使用無標簽訓練集(即第一類訓練圖像集)和梯度下降的方法通過無監督學習方式更新生成器的參數和判別器的參數,在生成器的參數和判別器的參數的更新次數達到第二閾值(即n1)的情況下,基於有監督學習方式更新,即使用有標簽訓練集(即第二類訓練圖像集)和梯度下降的方法通過有監督學習方式更新生成器的參數和判別器的參數。在生成器的參數和判別器的參數的更新次數達到第三閾值(即n2)的情況下,完成一次對網絡模型的更新,停止對網絡模型的訓練。在對生成器和判別器的參數進行更新的次數達到第一閾值的情況下,以此時得到的生成器、和判別器來構建預設模型。
實施例
2
根據本發明實施例,還提供了一種確定瞳孔位置的裝置實施例,其中,圖5是根據本發明實施例的確定瞳孔位置的裝置結構示意圖,如圖5所示,該裝置包括:第一獲取模塊501、第二獲取模塊503、第三獲取模塊505以及確定模塊507。
其中,第一獲取模塊501,用於獲取包含瞳孔的待檢測圖像;第二獲取模塊503,用於基於半監督學習的預設模型獲取與預設區域對應的二值圖像,其中,預設區域為待檢測圖像中瞳孔所在的區域;第三獲取模塊505,用於獲取二值圖像的質心;確定模塊507,用於根據二值圖像的質心確定瞳孔的中心位置。
需要說明的是,上述第一獲取模塊501、第二獲取模塊503、第三獲取模塊505以及確定模塊507對應於實施例1中的步驟S102至步驟S108,四個模塊與對應的步驟所實現的示例和應用場景相同,但不限於上述實施例1所公開的內容。
在一種可選的實施例中,確定瞳孔位置的裝置還包括:第五獲取模塊、第六獲取模塊、第一構建模塊以及第二構建模塊。其中,第五獲取模塊,用於獲取多張待訓練的圖像中的第一類訓練集和第二類訓練集;多張待訓練的圖像包括第一訓練圖像集和第二訓練圖像集;第六獲取模塊,用於獲取網絡模型,其中,網絡模型用於將多張待訓練的圖像從原始圖像轉換為二值圖像;第一構建模塊,用於構建網絡模型的損失函數;第二構建模塊,用於根據第一類訓練圖像集、第二類訓練圖像集以及網絡模型的損失函數構建預設模型。
需要說明的是,上述第五獲取模塊、第六獲取模塊、第一構建模塊以及第二構建模塊對應於實施例1中的步驟S10至步驟S16,四個模塊與對應的步驟所實現的示例和應用場景相同,但不限於上述實施例1所公開的內容。
在一種可選的實施例中,第一構建模塊包括:第七獲取模塊、第一確定模塊以及第二確定模塊。其中,第七獲取模塊,用於獲取網絡模型的超參數;第一確定模塊,用於在網絡模型進行無監督學習的情況下,基於超參數確定網絡模型的損失函數為第一損失函數和第二損失函數;第二確定模塊,用於在網絡模型進行有監督學習的情況下,基於超參數確定網絡模型的損失函數為第三損失函數和第四損失函數。
需要說明的是,上述第七獲取模塊、第一確定模塊以及第二確定模塊對應於實施例1中的步驟S140至步驟S144,三個模塊與對應的步驟所實現的示例和應用場景相同,但不限於上述實施例1所公開的內容。
在一種可選的實施例中,第二構建模塊包括:第一更新模塊以及第三構建模塊。其中,第一更新模塊,用於基於第一類訓練圖像集和第二類訓練圖像集對網絡模型的判別器和生成器的參數進行更新,得到更新後的網絡模型;第三構建模塊,用於在對網絡模型的更新次數達到第一閾值的情況下,根據更新後的網絡模型構建預設模型。
需要說明的是,上述第一更新模塊以及第三構建模塊對應於實施例1中的步驟S160至步驟S162,兩個模塊與對應的步驟所實現的示例和應用場景相同,但不限於上述實施例1所公開的內容。
在一種可選的實施例中,第一更新模塊包括:第二更新模塊、第三更新模塊、第四更新模塊以及第五更新模塊。其中,第二更新模塊,用於基於第一類訓練圖像集根據第二損失函數更新判別器的參數;第三更新模塊,用於基於第一類訓練圖像集根據第一損失函數更新生成器的參數;第四更新模塊,用於在對判別器和生成器的參數進行更新的次數達到第二閾值的情況下,基於第二類訓練圖像集根據第三損失函數更新生成器的參數;第五更新模塊,用於基於第二類訓練圖像集根據第四損失函數更新判別器的參數;其中,在對判別器和生成器的參數進行更新的次數達到第三閾值的情況下,對網絡模型的判更新次數進行加一操作,直至網絡模型的更新次數達到第一閾值為止。
需要說明的是,上述第二更新模塊、第三更新模塊、第四更新模塊以及第五更新模塊對應於實施例1中的步驟S1602至步驟S1608,四個模塊與對應的步驟所實現的示例和應用場景相同,但不限於上述實施例1所公開的內容。
實施例
3
根據本發明實施例的另一方面,還提供了一種存儲介質,該存儲介質包括存儲的程序,其中,程序執行實施例1中的確定瞳孔位置的方法。
實施例
4
根據本發明實施例的另一方面,還提供了一種處理器,該處理器用於運行程序,其中,程序運行時執行實施例1中的確定瞳孔位置的方法。
上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。
在本發明的上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
在本發明所提供的幾個實施例中,應該理解到,所揭露的技術內容,可通過其它的方式實現。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬件的形式實現,也可以採用軟件功能單元的形式實現。
所述集成的單元如果以軟件功能單元的形式實現並作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一台計算機設備(可為個人計算機、服務器或者網絡設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質。
以上所述僅是本發明的優選實施方式,應當指出,對於本發明所屬技術領域中具有通常知識者來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發明的保護範圍。
綜上所述,本發明所揭露之技術手段確能有效解決習知等問題,並達致預期之目的與功效,且申請前未見諸於刊物、未曾公開使用且具長遠進步性,誠屬專利法所稱之發明無誤,爰依法提出申請,懇祈 鈞上惠予詳審並賜准發明專利,至感德馨。
惟以上所述者,僅為本發明之數種較佳實施例,當不能以此限定本發明實施之範圍,即大凡依本發明申請專利範圍及發明說明書內容所作之等效變化與修飾,皆應仍屬本發明專利涵蓋之範圍內。
〔本發明〕
501‧‧‧第一獲取模塊
503‧‧‧第二獲取模塊
505‧‧‧第三獲取模塊
507‧‧‧確定模塊
S102~S108‧‧‧步驟
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在附圖中:
圖1是根據本發明實施例的一種確定瞳孔位置的方法流程圖。
圖2是根據本發明實施例的一種可選的二值圖像的結構示意圖。
圖3(a)是根據本發明實施例的一種可選的無標簽訓練集的示意圖。
圖3(b)是根據本發明實施例的一種可選的有標簽訓練集的示意圖。
圖4是根據本發明實施例的一種可選的預設模型的構建流程圖。
圖5是根據本發明實施例的一種確定瞳孔位置的裝置結構示意圖。
Claims (12)
- 一種確定瞳孔位置的方法,其特徵在於,包括: 獲取包含瞳孔的待檢測圖像; 基於半監督學習的預設模型獲取與預設區域對應的二值圖像,其中,所述預設區域為所述待檢測圖像中所述瞳孔所在的區域; 獲取所述二值圖像的質心; 根據所述二值圖像的質心確定所述瞳孔的中心位置。
- 如申請專利範圍第1項所述之方法,其中,在基於半監督學習的預設模型獲取與預設區域對應的二值圖像之前,所述方法還包括: 獲取多張待訓練的圖像中的第一類訓練集和第二類訓練集; 獲取網絡模型,其中,所述網絡模型用於將所述多張待訓練的圖像從原始圖像轉換為所述二值圖像; 構建所述網絡模型的損失函數; 根據所述第一類訓練圖像集、第二類訓練圖像集以及所述網絡模型的損失函數構建所述預設模型。
- 如申請專利範圍第2項所述之方法,其中,構建所述網絡模型的損失函數包括: 獲取所述網絡模型的超參數; 在所述網絡模型進行無監督學習的情況下,基於所述超參數確定所述網絡模型的損失函數為第一損失函數和第二損失函數; 在所述網絡模型進行有監督學習的情況下,基於所述超參數確定所述網絡模型的損失函數為第三損失函數和第四損失函數。
- 如申請專利範圍第3項所述之方法,其中,根據所述第一類訓練圖像集、第二類訓練圖像集以及所述網絡模型的損失函數構建所述預設模型包括: 基於所述第一類訓練圖像集和所述第二類訓練圖像集對所述網絡模型的判別器和生成器的參數進行更新,得到更新後的網絡模型; 在對所述網絡模型的更新次數達到第一閾值的情況下,根據更新後的網絡模型構建所述預設模型。
- 如申請專利範圍第4項所述之方法,其中,基於所述第一類訓練圖像集和所述第二類訓練圖像集對所述網絡模型的判別器和生成器的參數進行更新,得到更新後的網絡模型包括: 基於所述第一類訓練圖像集根據所述第二損失函數更新所述判別器的參數; 基於所述第一類訓練圖像集根據所述第一損失函數更新所述生成器的參數; 在對所述判別器和所述生成器的參數進行更新的次數達到第二閾值的情況下,基於所述第二類訓練圖像集根據所述第三損失函數更新所述生成器的參數; 基於所述第二類訓練圖像集根據所述第四損失函數更新所述判別器的參數; 其中,在對所述判別器和所述生成器的參數進行更新的次數達到第三閾值的情況下,對所述網絡模型的更新次數進行加一操作,直至所述網絡模型的更新次數達到所述第一閾值為止。
- 一種確定瞳孔位置的裝置,其特徵在於,包括: 第一獲取模塊,用於獲取包含瞳孔的待檢測圖像; 第二獲取模塊,用於基於半監督學習的預設模型獲取與預設區域對應的二值圖像,其中,所述預設區域為所述待檢測圖像中所述瞳孔所在的區域; 第三獲取模塊,用於獲取所述二值圖像的質心; 確定模塊,用於根據所述二值圖像的質心確定所述瞳孔的中心位置。
- 如申請專利範圍第6項所述之所述的裝置,其中,所述裝置還包括: 第五獲取模塊,用於獲取多張待訓練的圖像中的第一類訓練集和第二類訓練集; 第六獲取模塊,用於獲取網絡模型,其中,所述網絡模型用於將所述多張待訓練的圖像從原始圖像轉換為所述二值圖像; 第一構建模塊,用於構建所述網絡模型的損失函數; 第二構建模塊,用於根據所述第一類訓練圖像集、第二類訓練圖像集以及所述網絡模型的損失函數構建所述預設模型。
- 如申請專利範圍第7項所述之裝置,其中,所述第一構建模塊包括: 第七獲取模塊,用於獲取所述網絡模型的超參數; 第一確定模塊,用於在所述網絡模型進行無監督學習的情況下,基於所述超參數確定所述網絡模型的損失函數為第一損失函數和第二損失函數; 第二確定模塊,用於在所述網絡模型進行有監督學習的情況下,基於所述超參數確定所述網絡模型的損失函數為第三損失函數和第四損失函數。
- 如申請專利範圍第8項所述之裝置,其中,所述第二構建模塊包括: 第一更新模塊,用於基於所述第一類訓練圖像集和所述第二類訓練圖像集對所述網絡模型的判別器和生成器的參數進行更新,得到更新後的網絡模型; 第三構建模塊,用於在對所述網絡模型的更新次數達到第一閾值的情況下,根據更新後的網絡模型構建所述預設模型。
- 如申請專利範圍第9項所述之裝置,其中,所述第一更新模塊包括: 第二更新模塊,用於基於所述第一類訓練圖像集根據所述第二損失函數更新所述判別器的參數; 第三更新模塊,用於基於所述第一類訓練圖像集根據所述第一損失函數更新所述生成器的參數; 第四更新模塊,用於在對所述判別器和所述生成器的參數進行更新的次數達到第二閾值的情況下,基於所述第二類訓練圖像集根據所述第三損失函數更新所述生成器的參數; 第五更新模塊,用於基於所述第二類訓練圖像集根據所述第四損失函數更新所述判別器的參數; 其中,在對所述判別器和所述生成器的參數進行更新的次數達到第三閾值的情況下,對所述網絡模型的更新次數進行加一操作,直至所述網絡模型的更新次數達到所述第一閾值為止。
- 一種存儲介質,其特徵在於,所述存儲介質包括存儲的程序,其中,所述程序執行如申請專利範圍第1至5項中任一項所述之確定瞳孔位置的方法。
- 一種處理器,其特徵在於,所述處理器用於運行程序,其中,所述程序運行時執行如申請專利範圍第1至5項中任一項所述之確定瞳孔位置的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810064311.2A CN108197594B (zh) | 2018-01-23 | 2018-01-23 | 确定瞳孔位置的方法和装置 |
??201810064311.2 | 2018-01-23 | ||
CN201810064311.2 | 2018-01-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201933050A true TW201933050A (zh) | 2019-08-16 |
TWI714952B TWI714952B (zh) | 2021-01-01 |
Family
ID=62590429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108102400A TWI714952B (zh) | 2018-01-23 | 2019-01-22 | 確定瞳孔位置的方法和裝置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10949991B2 (zh) |
CN (1) | CN108197594B (zh) |
TW (1) | TWI714952B (zh) |
WO (1) | WO2019144710A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197594B (zh) * | 2018-01-23 | 2020-12-11 | 北京七鑫易维信息技术有限公司 | 确定瞳孔位置的方法和装置 |
CN111222374A (zh) * | 2018-11-26 | 2020-06-02 | 广州慧睿思通信息科技有限公司 | 测谎数据处理方法、装置、计算机设备和存储介质 |
CN112308014B (zh) * | 2020-11-18 | 2024-05-14 | 成都集思鸣智科技有限公司 | 双眼瞳孔与角膜反光点高速精确搜索定位方法 |
CN113762393B (zh) * | 2021-09-08 | 2024-04-30 | 杭州网易智企科技有限公司 | 模型训练方法、注视点检测方法、介质、装置和计算设备 |
CN116524581B (zh) * | 2023-07-05 | 2023-09-12 | 南昌虚拟现实研究院股份有限公司 | 一种人眼图像光斑分类方法、系统、设备及存储介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5091965A (en) * | 1990-07-16 | 1992-02-25 | Sony Corporation | Video image processing apparatus |
US6812688B2 (en) * | 2001-12-12 | 2004-11-02 | Tektronix, Inc. | Signal acquisition method and apparatus using integrated phase locked loop |
JP2008039596A (ja) * | 2006-08-07 | 2008-02-21 | Pioneer Electronic Corp | 情報提供装置、情報提供方法、情報提供プログラム、および記録媒体 |
JP2010142428A (ja) * | 2008-12-18 | 2010-07-01 | Canon Inc | 撮影装置及び撮影方法、プログラム、記録媒体 |
JP5436076B2 (ja) * | 2009-07-14 | 2014-03-05 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
CN102129553A (zh) * | 2011-03-16 | 2011-07-20 | 上海交通大学 | 基于单红外光源的人眼检测方法 |
JP5836634B2 (ja) * | 2011-05-10 | 2015-12-24 | キヤノン株式会社 | 画像処理装置及び方法 |
US8824779B1 (en) * | 2011-12-20 | 2014-09-02 | Christopher Charles Smyth | Apparatus and method for determining eye gaze from stereo-optic views |
US9104908B1 (en) * | 2012-05-22 | 2015-08-11 | Image Metrics Limited | Building systems for adaptive tracking of facial features across individuals and groups |
CN103425970A (zh) * | 2013-08-29 | 2013-12-04 | 大连理工大学 | 一种基于头部姿态的人机交互方法 |
US10048749B2 (en) * | 2015-01-09 | 2018-08-14 | Microsoft Technology Licensing, Llc | Gaze detection offset for gaze tracking models |
CN104732202A (zh) * | 2015-02-12 | 2015-06-24 | 杭州电子科技大学 | 一种人眼检测中消除眼镜框影响的方法 |
CN105205453B (zh) * | 2015-08-28 | 2019-01-08 | 中国科学院自动化研究所 | 基于深度自编码器的人眼检测和定位方法 |
CN105303185A (zh) * | 2015-11-27 | 2016-02-03 | 中国科学院深圳先进技术研究院 | 虹膜定位方法及装置 |
CN106845425A (zh) * | 2017-01-25 | 2017-06-13 | 迈吉客科技(北京)有限公司 | 一种视觉跟踪方法和跟踪装置 |
CN107273978B (zh) * | 2017-05-25 | 2019-11-12 | 清华大学 | 一种三模型博弈的产生式对抗网络模型的建立方法及装置 |
CN108197594B (zh) | 2018-01-23 | 2020-12-11 | 北京七鑫易维信息技术有限公司 | 确定瞳孔位置的方法和装置 |
-
2018
- 2018-01-23 CN CN201810064311.2A patent/CN108197594B/zh active Active
- 2018-12-07 WO PCT/CN2018/119882 patent/WO2019144710A1/zh active Application Filing
- 2018-12-07 US US16/349,799 patent/US10949991B2/en active Active
-
2019
- 2019-01-22 TW TW108102400A patent/TWI714952B/zh active
Also Published As
Publication number | Publication date |
---|---|
US20200273198A1 (en) | 2020-08-27 |
TWI714952B (zh) | 2021-01-01 |
WO2019144710A1 (zh) | 2019-08-01 |
CN108197594B (zh) | 2020-12-11 |
US10949991B2 (en) | 2021-03-16 |
CN108197594A (zh) | 2018-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI714952B (zh) | 確定瞳孔位置的方法和裝置 | |
CN107392255B (zh) | 少数类图片样本的生成方法、装置、计算设备及存储介质 | |
WO2019196633A1 (zh) | 一种图像语义分割模型的训练方法和服务器 | |
US20210374617A1 (en) | Methods and systems for horizontal federated learning using non-iid data | |
CN110688874B (zh) | 人脸表情识别方法及其装置、可读存储介质和电子设备 | |
CN112668044B (zh) | 面向联邦学习的隐私保护方法及装置 | |
CN110796089B (zh) | 用于训练换脸模型的方法和设备 | |
TWI691937B (zh) | 過濾光斑的方法和裝置、電腦可讀取儲存介質、處理器、視線追蹤設備 | |
CN111160229A (zh) | 基于ssd网络的视频目标检测方法及装置 | |
CN108549860A (zh) | 一种基于深度神经网络的牛脸识别方法 | |
CN115311478A (zh) | 一种基于图深度聚类的联邦影像分类方法、存储介质 | |
CN111553296B (zh) | 一种基于fpga实现的二值神经网络立体视觉匹配方法 | |
US10791321B2 (en) | Constructing a user's face model using particle filters | |
Yang et al. | Combining yolov3-tiny model with dropblock for tiny-face detection | |
KR102611121B1 (ko) | 이미지 분류 모델 생성 방법 및 장치 | |
CN116188917B (zh) | 缺陷数据生成模型训练方法、缺陷数据生成方法及装置 | |
CN116668068A (zh) | 基于联合联邦学习的工控异常流量检测方法 | |
WO2018036241A1 (zh) | 一种年龄群体分类的方法及装置 | |
WO2023132790A2 (zh) | 表情驱动方法和装置、表情驱动模型的训练方法和装置 | |
CN105282720B (zh) | 一种垃圾短信过滤方法及装置 | |
CN115170919B (zh) | 图像处理模型训练及图像处理方法、装置、设备和存储介质 | |
CN114758130B (zh) | 图像处理及模型训练方法、装置、设备和存储介质 | |
CN113869186B (zh) | 模型训练方法、装置、电子设备和计算机可读存储介质 | |
CN112529772B (zh) | 一种零样本设置下的无监督图像转换方法 | |
CN113656833A (zh) | 基于进化计算的在垂直联邦架构下的隐私窃取防御方法 |