TW202011284A

TW202011284A - 眼睛狀態檢測系統及眼睛狀態檢測系統的操作方法

Info

Publication number: TW202011284A
Application number: TW107144516A
Authority: TW
Inventors: 張普; 周維; 林崇仰
Original assignee: 大陸商虹軟科技股份有限公司
Priority date: 2018-09-14
Filing date: 2018-12-11
Publication date: 2020-03-16
Also published as: JP6932742B2; TWI669664B; KR20200031503A; KR102223478B1; CN110909561A; JP2020047253A; US20200085296A1

Abstract

眼睛狀態檢測系統包含影像處理器及深度學習處理器。在影像處理器接收待測圖像之後，影像處理器根據複數個人臉特徵點自待測圖像中辨識出人臉眼睛區域，影像處理器對人臉眼睛區域進行配准處理以產生歸一化的待測眼睛圖像，深度學習處理器根據深度學習模型自待測眼睛圖像中提取出複數個眼睛特徵資料，及深度學習處理器根據複數個眼睛特徵資料及深度學習模型中的複數個訓練樣本資料輸出人臉眼睛區域的眼睛狀態。

Description

眼睛狀態檢測系統及眼睛狀態檢測系統的操作方法

本發明是有關於一種眼睛狀態檢測系統，特別是指一種運用深度學習模型來檢測眼睛狀態的眼睛狀態檢測系統。

隨著智慧手機的功能日漸強大，人們常常會利用行動裝置來拍攝照片、記錄生活並與朋友分享。為了幫助人們能夠拍攝出滿意的照片，在先前技術中，便有行動裝置能夠在拍照時進行閉眼偵測，以避免用戶拍攝到人物閉眼的照片。此外，閉眼偵測的技術也可被應用在駕駛輔助系統中，例如可以通過偵測駕駛的眼睛是否閉合來判斷是否有疲勞駕駛的情況出現。

一般來說，閉眼檢測是先從圖像中取出眼睛特徵點，並將眼睛特徵點的資訊與標準值相比對，藉以判斷出圖像中人物的眼睛是否閉上。由於每個人的眼睛大小形狀都不同，因此閉眼時的眼睛特徵點也會有不少差異。此外，若是人物的姿勢遮蔽了部分的眼睛、環境光源的干擾、或是人物所佩戴的眼鏡，都可能會造成閉眼偵測的誤判，使得閉眼偵測的穩固性(robustness)不佳，而不符合使用者的需求。

本發明的一實施例提供一種眼睛狀態檢測系統的操作方法。眼睛狀態檢測系統包含影像處理器及深度學習處理器。

眼睛狀態檢測系統的操作方法包含影像處理器接收待測圖像，影像處理器根據複數個人臉特徵點自待測圖像中辨識出人臉眼睛區域，影像處理器對人臉眼睛區域進行配准處理以產生歸一化的待測眼睛圖像，深度學習處理器根據深度學習模型自待測眼睛圖像中提取出複數個眼睛特徵資料，及深度學習處理器根據複數個眼睛特徵資料及深度學習模型中的複數個訓練樣本資料輸出人臉眼睛區域的眼睛狀態。

本發明的另一實施例提供一種眼睛狀態檢測系統，眼睛狀態檢測系統包含影像處理器及深度學習處理器。

影像處理器接收待測圖像，根據複數個人臉特徵點自待測圖像中辨識出人臉眼睛區域，並對人臉眼睛區域進行配准處理以產生歸一化的待測眼睛圖像。

深度學習處理器耦接於影像處理器，根據深度學習模型自待測眼睛圖像中提取出複數個眼睛特徵資料，及根據複數個眼睛特徵資料及深度學習模型中的複數個訓練樣本資料輸出人臉眼睛區域的眼睛狀態。

第1圖是本發明一實施例的眼睛狀態檢測系統100的示意圖。眼睛狀態檢測系統100包含影像處理器110及深度學習處理器120，且深度學習處理器120可耦接於影像處理器110。

影像處理器110可接收待測圖像IMG1。第2圖本發明一實施例的待測圖像IMG1的示意圖。待測圖像IMG1可例如是使用者拍攝的圖像或是車輛內部的監控攝影機所拍攝的圖像，又或是根據應用領域的不同，而由其他的裝置產生。此外，在本發明的有些實施例中，影像處理器110可以是專門用來處理圖像的專門應用積體電路，也可以是執行對應程式的一般應用處理器。

影像處理器110可以根據複數個人臉特徵點自待測圖像IMG1中辨識出人臉眼睛區域A1。在本發明的有些實施例中，影像處理器110可以通過複數個人臉特徵點自待測圖像IMG1中先辨識出人臉區域A0，再通過複數個眼睛關鍵點自人臉區域A0中辨識出人臉眼睛區域A1。人臉特徵點可例如是系統中所預設與人臉特徵相關的參數值，影像處理器110可以通過影像處理的技術從待測圖像IMG1中取出可供比較的參數值，並與系統中預設的人臉特徵點相比較以辨識出待測圖像IMG1中是否存在人臉，而在確定檢測出人臉區域A0之後，才進一步在人臉區域A0中檢測出人臉眼睛區域A1。如此一來，就能夠在圖像不存在人臉的情況下，避免影像處理器110直接檢測人眼所需的複雜運算。

由於在不同或相同的待測圖像中，影像處理器110可能會辨識出大小不同的人臉眼睛區域，為了有利於深度學習處理器120能夠進行後續分析，並避免因為待測圖像中眼睛大小、角度等差異而造成誤判，影像處理器110可以通過對人臉眼睛區域A1進行配准處理以產生歸一化的待測眼睛圖像。第3圖是影像處理器110根據人臉眼睛區域A1所產生的待測眼睛圖像IMG2。在第3圖的實施例中，為了方便說明，待測眼睛圖像IMG2中僅包含了人臉眼睛區域A1中的右眼，而人臉眼睛區域A1中的左眼則可由另外的帶測眼睛圖像呈現。然而本發明並不以此為限，在本發明的其他實施例中，根據深度學習處理單元130的需求，待測眼睛圖像IMG2還可同時包含人臉眼睛區域A1中的左眼。

在待測圖像IMG1中，人臉眼睛區域A1中的兩個眼角座標可以表示成座標Po1 (u1,v1)及Po2 (u2,v2)，而在完成配准之後的待測眼睛圖像IMG2中，兩眼角座標Po1 (u1,v1)及Po2 (u2,v2)則會對應於配准後的兩變換眼角座標Pe1 (x1,y1)及Pe2(x2,y2)。在本發明的有些實施例中，變換眼角座標Pe1 (x1,y1)及Pe2(x2,y2)在待測眼睛圖像IMG2中的位置可以是固定的，而影像處理器110可以通過平移、旋轉及縮放等仿射操作來將待測圖像IMG1中的眼角座標Po1 (u1,v1)及Po2轉換成待測眼睛圖像IMG2中的變換眼角座標Pe1 (x1,y1)及Pe2(x2,y2)。也就是說，不同的待測圖像IMG1可能會需要利用不同的仿射變換操作來進行轉換，使得最終待測圖像IMG1中的眼睛區域能夠在待測眼睛圖像IMG2的標準固定位置上，以標準的大小及方向呈現，達到歸一化的效果。

由於仿射變換主要是座標之間的一次線性變換，因此仿射變換的過程可以例如以式1及式2。

式1

式2

由於眼角座標Po1 (u1,v1)及Po2(u2,v2)會通過相同的運算轉換成變換眼角座標Pe1 (x1,y1)及Pe2(x2,y2)，因此在本發明的有些實施例中，可以根據眼角座標Po1 (u1,v1)及Po2(u2,v2)來定義兩眼角座標矩陣A，而兩眼角座標矩陣A則可例如以式3表示。

式3

也就是說，兩眼角座標矩陣A可以看作是根據眼角座標Pe1 (x1,y1)及Pe2(x2,y2)所得出的變換目標矩陣B與仿射變換參數矩陣C相乘的結果，變換目標矩陣B包含變換眼角座標Pe1 (x1,y1)及Pe2(x2,y2)，例如以式4表示，而仿射變換參數矩陣C可以例如以式5表示。

式4

式5

在此情況下，影像處理器110便可通過式6來取得仿射變換參數矩陣C，以便能夠在眼角座標Po1 (u1,v1)及Po2(u2,v2)與眼角座標Pe1 (x1,y1)及Pe2(x2,y2)之間轉換。

式6

也就是說，影像處理器110可以將變換目標矩陣B的轉置矩陣B^T 與變換目標矩陣B相乘以產生第一矩陣(B^T B)，並將第一矩陣(B^T B)的逆矩陣(B^T B)^-1 與變換目標矩陣B的轉置矩陣B^T 及兩眼角座標矩陣A相乘以產生仿射變換參數矩陣C。如此一來，影像處理器110便可通過仿射變換參數矩陣C對人臉眼睛區域A1進行處理以產生待測眼睛圖像IMG2，其中變換目標矩陣B包含兩眼角座標矩陣A在待測眼睛圖像中的兩座標矩陣。

在完成配准並取得歸一化的待測眼睛圖像IMG2之後，深度學習處理器120便可根據其中的深度學習模型自待測眼睛圖像IMG2中提取出複數個眼睛特徵資料，並可根據複數個眼睛特徵資料及深度學習模型中的複數個訓練樣本資料輸出人臉眼睛區域的眼睛狀態。

舉例來說，深度學習處理器120中的深度學習模型可例如包含卷積神經網路(Convolution Neural Network，CNN )。卷積神經網路主要包含卷積層(convolution layer)、池化層(pooling layer)及全連接層(fully connected layer)。在卷積層中，深度學習處理器120會將待測眼睛圖像IMG2與複數個特徵偵測子(feature detector)，或稱卷積核，進行卷積(convolution)運算以自待測眼睛圖像IMG2當中萃取出各種特徵資料。接著在池化層中則會在通過選取局部最大值的方式來減少特徵資料中的雜訊，最後則通過全連接層將池化層中的特徵資料平坦化，並連接到由先前訓練樣本資料所訓練產生的神經網路。

由於卷積神經網路能夠基於先前訓練樣本資料的內容來比對各種不同的特徵，並且可以根據不同特徵之間的關聯來輸出最終的判斷結果，因此對於各種場景、姿勢及環境光線都能夠較準確地判斷出眼睛的睜閉狀態，同時還可以輸出眼睛狀態的置信度供使用者參考。

在本發明的有些實施例中，深度學習處理器120可以是專門用來處理深度學習的專門應用積體電路，也可以是執行對應程式的一般應用處理器或是通用計算圖形處理器(General Purpose Graphic Processing Unit，GPGPU)。

第4圖是眼睛狀態檢測系統100的操作方法200流程圖，方法200包含步驟S210至S250。

S210：影像處理器110接收待測圖像IMG1；

S220：影像處理器110根據複數個人臉特徵點自待測圖像IMG1中辨識出人臉眼睛區域A1；

S230：影像處理器110對人臉眼睛區域A1進行配准處理以產生歸一化的待測眼睛圖像IMG2；

S240：深度學習處理器120根據深度學習模型自待測眼睛圖像IMG2中提取出複數個眼睛特徵資料；

S250：深度學習處理器120根據複數個眼睛特徵資料及深度學習模型中的複數個訓練樣本資料輸出人臉眼睛區域A1的眼睛狀態。

在步驟S220中，影像處理器110可以通過複數個人臉特徵點自待測圖像IMG1中先辨識出人臉區域A0，再通過複數個眼睛關鍵點自人臉區域A0中辨識出人臉眼睛區域A1。也就是說，影像處理器110可以在確定檢測出人臉區域A0之後，才進一步在人臉區域A0中檢測出人臉眼睛區域A1。如此一來，就能夠在圖像不存在人臉的情況下，避免影像處理器110直接檢測人眼所需的複雜運算。

此外，為了避免因為不同待測圖像中眼睛大小、角度等差異而造成誤判，操作方法200可以在步驟S230中進行配准處理以產生歸一化的待測眼睛圖像IMG2。舉例來說，操作方法200可以根據式3至式6取得在待測圖像IMG1及待測眼睛圖像IMG2中，眼角座標Po1 (u1,v1)及Po2(u2,v2)與眼角座標Pe1 (x1,y1)及Pe2(x2,y2)之間轉換的仿射變換參數矩陣C。

在本發明的有些實施例中，步驟S240及S250中所使用的深度學習模型可包含含卷積神經網路。由於卷積神經網路能夠基於先前訓練樣本資料的內容來比對各種不同的特徵，並且可以根據不同特徵之間的關聯來輸出最終的判斷結果，因此對於各種場景、姿勢及環境光線都能夠較準確地判斷出眼睛的睜閉狀態，而具有高穩固性(robustness)的特徵，同時還可以輸出眼睛狀態的置信度供使用者參考。

綜上所述，本發明的實施例所提供的眼睛狀態檢測系統及眼睛狀態檢測系統的操作方法可以透過配准處理來將待測圖像中的眼睛區域進行歸一化，並通過深度學習模型來判斷眼睛的睜閉狀態，因此在各種場景、姿勢及環境光線下，能夠較為準確地判斷出眼睛的睜閉狀態。如此一來，使得閉眼偵測能夠更有效地應用在各種領域，例如輔助駕駛系統或數位相機的拍照功能中。以上該僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

100:眼睛狀態檢測系統110:影像處理器120:深度學習處理器A0:人臉區域A1:人臉眼睛區域IMG1:待測圖像IMG2:待測眼睛圖像Po1 (u1,v1)、Po2 (u2,v2):眼角座標Pe1 (x1,y1)、Pe2 (x2,y2):變換眼角座標200:方法S210至S250:步驟

第1圖是本發明一實施例之眼睛狀態檢測系統的示意圖。第2圖是待測圖像的示意圖。第3圖是第1圖的影像處理器根據人臉眼睛區域所產生的待測眼睛圖像。第4圖是第1圖的眼睛狀態檢測系統的操作方法流程圖。

200:方法

S210至S250:步驟

Claims

一種眼睛狀態檢測系統的操作方法，該眼睛狀態檢測系統包含一影像處理器及一深度學習處理器，該方法包含：該影像處理器接收一待測圖像；該影像處理器根據複數個人臉特徵點自該待測圖像中辨識出一人臉眼睛區域；該影像處理器對該人臉眼睛區域進行配准處理以產生歸一化的一待測眼睛圖像；該深度學習處理器根據深度學習模型自該待測眼睛圖像中提取出複數個眼睛特徵資料；及該深度學習處理器根據該些眼睛特徵資料及該深度學習模型中的複數個訓練樣本資料輸出該人臉眼睛區域的眼睛狀態。
如請求項1所述的方法，其中該影像處理器根據該些人臉特徵點自該待測圖像中辨識出該人臉眼睛區域的步驟包含：通過該些人臉特徵點自該待測圖像中辨識出一人臉區域；及通過複數個眼睛關鍵點自該人臉區域中辨識出該人臉眼睛區域。
如請求項1所述的方法，其中該深度學習模型包含一卷積神經網路。
如請求項1所述的方法，其中該影像處理器對該人臉眼睛區域進行配准處理以產生歸一化的該待測眼睛圖像的步驟包含：自該人臉眼睛區域中定義出兩眼角座標矩陣；定義一變換目標矩陣，該變換目標矩陣包含該兩眼角座標矩陣中兩眼角座標對應於該待測眼睛圖像中的兩變換眼角座標；將該變換目標矩陣的一轉置矩陣與該變換目標矩陣相乘以產生一第一矩陣；將該第一矩陣的逆矩陣、該變換目標矩陣的該轉置矩陣及該兩眼角座標矩陣相乘以產生一仿射變換參數矩陣；及通過該仿射變換參數矩陣對該人臉眼睛區域進行處理以產生該待測眼睛圖像。
如請求項4所述的方法，其中該變換目標矩陣乘以該仿射變換參數矩陣所產生的矩陣等於該兩眼角座標矩陣。
一種眼睛狀態檢測系統，包含：一影像處理器，用以接收一待測圖像，根據複數個人臉特徵點自該待測圖像中辨識出一人臉眼睛區域，及對該人臉眼睛區域進行配准處理以產生歸一化的一待測眼睛圖像；及一深度學習處理器，耦接於該影像處理器，用以根據一深度學習模型自該待測眼睛圖像中提取出複數個眼睛特徵資料，及根據該些眼睛特徵資料及該深度學習模型中的複數個訓練樣本資料輸出該人臉眼睛區域的眼睛狀態。
如請求項6所述的眼睛狀態檢測系統，其中該影像處理器是通過該些人臉特徵點自該待測圖像中辨識出一人臉區域，及通過複數個眼睛關鍵點自該人臉區域中辨識出該人臉眼睛區域。
如請求項6所述的眼睛狀態檢測系統，其中該深度學習模型包含一卷積神經網路。
如請求項6所述的眼睛狀態檢測系統，其中該影像處理器是自該人臉眼睛區域中定義出兩眼角座標矩陣，定義一變換目標矩陣，將該變換目標矩陣的轉置矩陣與該變換目標矩陣相乘以產生一第一矩陣，將該第一矩陣的逆矩陣、該變換目標矩陣的該轉置矩陣及該兩眼角座標矩陣相乘以產生一仿射變換參數矩陣，及通過該仿射變換參數矩陣對該人臉眼睛區域進行處理以產生該待測眼睛圖像，其中該變換目標矩陣包含該兩眼角座標矩陣中兩眼角座標對應於該待測眼睛圖像中的兩變換眼角座標。
如請求項9所述的眼睛狀態檢測系統，其中該變換目標矩陣乘以該仿射變換參數矩陣所產生的矩陣等於該兩眼角座標矩陣。