TWI741512B

TWI741512B - 駕駛員注意力監測方法和裝置及電子設備

Info

Publication number: TWI741512B
Application number: TW109106775A
Authority: TW
Inventors: 王飛; 黃詩堯; 錢晨
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-03-18
Filing date: 2020-03-02
Publication date: 2021-10-01
Also published as: JP7105316B2; JP2021518010A; CN111709264A; SG11202009677WA; TW202036465A; US20210012128A1; KR20200123183A; WO2020186801A1

Abstract

本申請公開了一種駕駛員注意力監測方法和裝置及電子設備。該方法包括：經車上設置的攝影頭針對所述車的駕駛區域採集視頻；根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，其中，每幀臉部圖像的注視區域屬於預先對所述車進行空間區域劃分得到的多類定義注視區域之一；根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述駕駛員的注意力監測結果。

Description

駕駛員注意力監測方法和裝置及電子設備

本申請關於影像處理技術領域，尤其關於一種駕駛員注意力監測方法和裝置及電子設備。

隨著道路上的車輛越來越多，如何預防道路交通事故也越來越受關注，其中，人為因素在道路交通事故成因方面占很大的比例，包括由駕駛員注意力不集中、注意力下降等原因引起的分心駕駛。

本申請提供一種駕駛員注意力監測技術方案。

第一方面，提供了一種駕駛員注意力監測方法，包括：經車上設置的攝影頭針對所述車的駕駛區域採集視頻；根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，其中，每幀臉部圖像的注視區域屬於預先對所述車進行空間區域劃分得到的多類定義注視區域之一；根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述駕駛員的注意力監測結果。

結合本申請任一實施方式，所述預先對所述車進行空間區域劃分得到的多類定義注視區域，包括以下二類或二類以上：左前擋風玻璃區域、右前擋風玻璃區域、儀錶盤區域、車內後視鏡區域、中控台區域、左後視鏡區域、右後視鏡區域、遮光板區域、換擋杆區域、方向盤下方區域、副駕駛區域、副駕駛前方的雜物箱區域。

結合本申請任一實施方式，所述根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述駕駛員的注意力監測結果，包括：根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述至少一滑動時間窗內各類所述注視區域的注視累計時長；根據所述至少一滑動時間窗內各類所述注視區域的注視累計時長與預定的時間閾值的比較結果，確定所述駕駛員的注意力監測結果，所述注意力監測結果包括是否分心駕駛和/或分心駕駛等級。

結合本申請任一實施方式，所述時間閾值包括：與各類所述定義注視區域分別對應的多個時間閾值，其中，所述多類定義注視區域中至少二個不同類的定義注視區域所對應的時間閾值不同；根據所述至少一滑動時間窗內各類所述注視區域的注視累計時長與預定的時間閾值的比較結果，確定所述駕駛員的注意力監測結果，包括：根據所述至少一滑動時間窗內各類所述注視區域的注視累計時長和相應類別的定義注視區域的時間閾值的比較結果，確定所述駕駛員的注意力監測結果。

結合本申請任一實施方式，所述根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，包括：對所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像進行視線和/或頭部姿態檢測；根據每幀臉部圖像的視線和/或頭部姿態的檢測結果，確定每幀臉部圖像中所述駕駛員的注視區域的類別。

結合本申請任一實施方式，所述根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，包括：將多幀所述臉部圖像分別輸入神經網路並經所述神經網路分別輸出每幀臉部圖像中所述駕駛員的注視區域的類別，其中：所述神經網路預先採用包括有注視區域類別標注資訊的人臉圖像集預先訓練完成，或者，所述神經網路預先採用包括有注視區域類別標注資訊的人臉圖像集以及基於所述人臉圖像集中各人臉圖像截取的眼部圖像預先訓練完成；所述注視區域類別標注資訊包括所述多類定義注視區域之一。

結合本申請任一實施方式，所述神經網路的訓練方法包括：獲取所述人臉圖像集中包括有注視區域類別標注資訊的人臉圖像；截取所述人臉圖像中的至少一眼的眼部圖像，所述至少一眼包括左眼和/或右眼；分別提取所述人臉圖像的第一特徵和至少一眼的眼部圖像的第二特徵；融合所述第一特徵和所述第二特徵，得到第三特徵；根據所述第三特徵確定所述人臉圖像的注視區域類別檢測結果；根據所述注視區域類別檢測結果和所述注視區域類別標注資訊的差異，調整所述神經網路的網路參數。

結合本申請任一實施方式，所述方法還包括：在所述駕駛員的注意力監測結果為分心駕駛的情況下，對所述駕駛員進行分心駕駛提示，所述分心駕駛提示包括以下至少之一：文字提示、語音提示、氣味提示、低電流刺激提示；或者，在所述駕駛員的注意力監測結果為分心駕駛的情況下，根據預先設定的分心駕駛等級與注意監測結果的映射關係、所述駕駛員的注意力監測結果，確定所述駕駛員的分心駕駛等級；根據預先設定的分心駕駛等級與分心駕駛提示的映射關係、所述駕駛員的分心駕駛等級，從所述分心駕駛提示中確定一種提示對所述駕駛員進行分心駕駛提示。

結合本申請任一實施方式，所述預先設定的分心駕駛等級與注意監測結果的映射關係包括：在多個連續滑動時間窗的監測結果均為分心駕駛的情況下，所述分心駕駛等級與滑動時間窗的數量成正相關。

結合本申請任一實施方式，所述經車上設置的攝影頭針對所述車的駕駛區域採集視頻，包括：經在車上多個區域分別部署的多個攝影頭從不同角度分別採集駕駛區域的視頻；根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，包括：根據圖像品質評價指標，分別確定採集到的多個視頻各自包括的多幀位於所述駕駛區域的駕駛員的臉部圖像中各幀臉部圖像的圖像品質評分；分別確定所述多個視頻時刻對齊的各幀臉部圖像中圖像品質評分最高的臉部圖像；分別確定各圖像品質評分最高的臉部圖像中所述駕駛員的注視區域的類別。

結合本申請任一實施方式，所述圖像品質評價指標包括以下至少之一：圖像中是否包括有眼部圖像、圖像中眼部區域的清晰度、圖像中眼部區域的遮擋情況、圖像中眼部區域的睜閉眼情況。

結合本申請任一實施方式，所述經車上設置的攝影頭針對所述車的駕駛區域採集視頻，包括：經在車上多個區域分別部署的多個攝影頭從不同角度分別採集駕駛區域的視頻；所述根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，包括：針對採集到的多個視頻各自包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別檢測時刻對齊的各幀臉部圖像中所述駕駛員的注視區域類別；將得到的各注視區域類別中多數結果確定為該時刻的臉部圖像的注視區域類別。

結合本申請任一實施方式，所述方法還包括：向與所述車輛通信連接的伺服器或終端發送所述駕駛員的注意力監測結果；和/或，對所述駕駛員的注意力監測結果進行統計分析。

結合本申請任一實施方式，在向與所述車輛通信連接的伺服器或終端發送所述駕駛員的注意力監測結果之後，還包括：在接收到所述伺服器或所述終端發送的控制指令的情況下，根據所述控制指令控制所述車輛。

第二方面，提供了一種駕駛員注意力監測裝置，包括：第一控制單元，用於經車上設置的攝影頭針對所述車的駕駛區域採集視頻；第一確定單元，用於根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，其中，每幀臉部圖像的注視區域屬於預先對所述車進行空間區域劃分得到的多類定義注視區域之一；第二確定單元，用於根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述駕駛員的注意力監測結果。

結合本申請任一實施方式，所述第二確定單元包括：第一確定子單元，用於根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述至少一滑動時間窗內各類所述注視區域的注視累計時長；第二確定子單元，用於根據所述至少一滑動時間窗內各類所述注視區域的注視累計時長與預定的時間閾值的比較結果，確定所述駕駛員的注意力監測結果，所述注意力監測結果包括是否分心駕駛和/或分心駕駛等級。

結合本申請任一實施方式，所述時間閾值包括：與各類所述定義注視區域分別對應的多個時間閾值，其中，所述多類定義注視區域中至少二個不同類的定義注視區域所對應的時間閾值不同；所述第二確定子單元還用於：根據所述至少一滑動時間窗內各類所述注視區域的注視累計時長和相應類別的定義注視區域的時間閾值的比較結果，確定所述駕駛員的注意力監測結果。

結合本申請任一實施方式，所述第一確定單元包括：第一檢測子單元，用於對所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像進行視線和/或頭部姿態檢測；第三確定子單元，用於根據每幀臉部圖像的視線和/或頭部姿態的檢測結果，確定每幀臉部圖像中所述駕駛員的注視區域的類別。

結合本申請任一實施方式，所述第一確定單元還包括：處理子單元，用於將多幀所述臉部圖像分別輸入神經網路並經所述神經網路分別輸出每幀臉部圖像中所述駕駛員的注視區域的類別，其中：所述神經網路預先採用包括有注視區域類別標注資訊的人臉圖像集預先訓練完成，或者，所述神經網路預先採用包括有注視區域類別標注資訊的人臉圖像集以及基於所述人臉圖像集中各人臉圖像截取的眼部圖像預先訓練完成；所述注視區域類別標注資訊包括所述多類定義注視區域之一。

結合本申請任一實施方式，所述裝置還包括所述神經網路的訓練單元，所述訓練單元包括：獲取子單元，用於獲取所述人臉圖像集中包括有注視區域類別標注資訊的人臉圖像；圖像截取子單元，用於截取所述人臉圖像中的至少一眼的眼部圖像，所述至少一眼包括左眼和/或右眼；特徵提取子單元，用於分別提取所述人臉圖像的第一特徵和至少一眼的眼部圖像的第二特徵；特徵融合子單元，用於融合所述第一特徵和所述第二特徵，得到第三特徵；第四確定子單元，用於根據所述第三特徵確定所述人臉圖像的注視區域類別檢測結果；調整子單元，用於根據所述注視區域類別檢測結果和所述注視區域類別標注資訊的差異，調整所述神經網路的網路參數。

結合本申請任一實施方式，所述裝置還包括：提示單元，用於在所述駕駛員的注意力監測結果為分心駕駛的情況下，對所述駕駛員進行分心駕駛提示，所述分心駕駛提示包括以下至少之一：文字提示、語音提示、氣味提示、低電流刺激提示；第三確定單元，用於在所述駕駛員的注意力監測結果為分心駕駛的情況下，根據預先設定的分心駕駛等級與注意監測結果的映射關係、所述駕駛員的注意力監測結果，確定所述駕駛員的分心駕駛等級；第四確定單元，用於根據預先設定的分心駕駛等級與分心駕駛提示的映射關係、所述駕駛員的分心駕駛等級，從所述分心駕駛提示中確定一種提示對所述駕駛員進行分心駕駛提示。

結合本申請任一實施方式，所述裝置還包括：所述第一控制單元，還用於經在車上多個區域分別部署的多個攝影頭從不同角度分別採集駕駛區域的視頻；所述第一確定單元，還包括：第五確定子單元，用於根據圖像品質評價指標，分別確定採集到的多個視頻各自包括的多幀位於所述駕駛區域的駕駛員的臉部圖像中各幀臉部圖像的圖像品質評分；第六確定子單元，用於分別確定所述多個視頻時刻對齊的各幀臉部圖像中圖像品質評分最高的臉部圖像；第七確定子單元，用於分別確定各圖像品質評分最高的臉部圖像中所述駕駛員的注視區域的類別。

結合本申請任一實施方式，所述第一控制單元，還用於經在車上多個區域分別部署的多個攝影頭從不同角度分別採集駕駛區域的視頻；所述第一確定單元，還包括：第二檢測子單元，用於針對採集到的多個視頻各自包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別檢測時刻對齊的各幀臉部圖像中所述駕駛員的注視區域類別；第八確定子單元，用於將得到的各注視區域類別中多數結果確定為該時刻的臉部圖像的注視區域類別。

結合本申請任一實施方式，所述裝置還包括：發送單元，用於向與所述車輛通信連接的伺服器或終端發送所述駕駛員的注意力監測結果；和/或，分析單元，用於對所述駕駛員的注意力監測結果進行統計分析。

結合本申請任一實施方式，所述裝置還包括：第二控制單元，用於在向與所述車輛通信連接的伺服器或終端發送所述駕駛員的注意力監測結果之後，且在接收到所述伺服器或所述終端發送的控制指令的情況下，根據所述控制指令控制所述車輛。

第三方面，提供了一種電子設備，包括：包括處理器、記憶體；所述處理器被配置為支援所述裝置執行上述第一方面及其任一種可能的實現方式的方法中相應的功能。記憶體用於與處理器耦合，其保存所述裝置必要的程式(指令)和資料。可選的，所述裝置還可以包括輸入/輸出介面，用於支援所述裝置與其他裝置之間的通信。

第四方面，提供了一種電腦可讀儲存介質，所述電腦可讀儲存介質中儲存有指令，當其在電腦上運行時，使得電腦執行上述第一方面及其任一種可能的實現方式的方法。

第五方面，提供了一種電腦程式產品，所述電腦程式產品包括電腦程式或指令，當所述電腦程式或指令在電腦上運行時，使得電腦執行上述第一方面及其任一種可能的實現方式的方法。

1:駕駛員注意力監測裝置

11:第一控制單元

12:第一確定單元

121:第一檢測子單元

122:第三確定子單元

123:處理子單元

124:第五確定子單元

125:第六確定子單元

126:第七確定子單元

127:第二檢測子單元

128:第八確定子單元

13:第二確定單元

131:第一確定子單元

132:第二確定子單元

14:提示單元

15:第三確定單元

16:第四確定單元

17:訓練單元

171:獲取子單元

172:圖像截取子單元

173:特徵提取子單元

174:特徵融合子單元

175:第四確定子單元

176:調整子單元

18:發送單元

19:分析單元

20:第二控制單元

3:駕駛員注意力監測裝置

31:處理器

32:輸入裝置

33:輸出裝置

34:記憶體

此處的附圖被併入說明書中並構成本說明書的一部分，這些附圖示出了符合本公開的實施例，並與說明書一起用於說明本公開的技術方案。

圖1為本申請實施例提供的一種駕駛員注意力監測方法的流程示意圖；

圖2為本申請實施例提供的一種注視區域劃分示意圖；

圖3為本申請實施例提供的另一種駕駛員注意力監測方法的流程示意圖；

圖4為本申請實施例提供的一種神經網路的訓練方法的流程示意圖；

圖5為本申請實施例提供的另一種神經網路的訓練方法的流程示意圖；

圖6為本申請實施例提供的另一種駕駛員注意力監測方法的流程示意圖；

圖7為本申請實施例提供的一種駕駛員注意力監測裝置的結構示意圖；

圖8為本申請實施例提供的一種訓練單元的結構示意圖；

圖9為本申請實施例提供的一種駕駛員注意力監測裝置的硬體結構示意圖。

為了使本技術領域的人員更好地理解本申請方案，下面將結合本申請實施例中的附圖，對本申請實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請一部分實施例，而不是全部的實施例。基於本申請中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬於本申請保護的範圍。

本申請的說明書和申請專利範圍及上述附圖中的術語“第一”、“第二”等是用於區別不同物件，而不是用於描述特定順序。此外，術語“包括”和“具有”以及它們任何變形，意圖在於覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統、產品或設備沒有限定於已列出的步驟或單元，而是可選地還包括沒有列出的步驟或單元，或可選地還包括對於這些過程、方法、產品或設備固有的其他步驟或單元。

在本文中提及“實施例”意味著，結合實施例描述的特定特徵、結構或特性可以包含在本申請的至少一個實施例中。在說明書中的各個位置出現該短語並不一定均是指相同的實施例，也不是與其它實施例互斥的獨立的或備選的實施例。本領域技術人員顯式地和隱式地理解的是，本文所描述的實施例可以與其它實施例相結合。

為了更清楚地說明本申請實施例或背景技術中的技術方案，下面將對本申請實施例或背景技術中所需要使用的附圖進行說明。

下面結合本申請實施例中的附圖對本申請實施例進行描述。

請參閱圖1，圖1是本申請實施例提供的一種駕駛員注意力監測方法的流程示意圖。

101、經車上設置的攝影頭針對所述車的駕駛區域採集視頻。

在本申請實施例中，駕駛區域包括車內駕駛室區域。攝影頭可安裝在車上任意可對駕駛區域進行拍攝的區域，舉例來說，攝影頭可安裝在車內中控台或前擋風玻璃處，也可安裝在車後視鏡處，還可安裝在車的A柱上等等，此外，攝影頭的數量可以是一個，也可以是多個，本申請實施例對於攝影頭的安裝位置以及攝影頭的具體數量不做限定。

在一些可能實現的方式中，通過安裝在車後視鏡處的攝影頭對車內駕駛室區域進行視頻拍攝，獲得駕駛區域的視頻。可選地，攝影頭可以在接收到某特定指令的情況下，對車的駕駛區域採集視頻，例如，將啟動車輛(如點火啟動、按鍵啟動等等)作為攝影頭採集視頻的指令，以減少攝影頭的能耗；再例如，通過與攝影頭連接的終端控制攝影頭對駕駛區域採集視頻，實現對攝影頭的遠端控制，可以理解的是，攝影頭與終端可通過無線或有線方式進行連接，本申請實施例對於攝影與終端的具體連接方式不做限定。

102、根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，其中，每幀臉部圖像的注視區域屬於預先對所述車進行空間區域劃分得到的多類定義注視區域之一。

在本申請實施例中，駕駛員的臉部圖像可以包括駕駛員的整個頭部，也可以是包括駕駛員的臉部輪廓以及五官；可以將視頻中的任意幀圖像作為駕駛員的臉部圖像，也可以從視頻中任意幀圖像中檢測出駕駛員的臉部區域圖像，並將該臉部區域圖像作為駕駛員的臉部圖像，上述檢測駕駛員臉部區域圖像的方式可以是任意人臉檢測演算法，本申請對此不做具體限定。

在本申請實施例中，可通過將車輛室內空間劃分得到的多個不同的區域作為上述多個不同類別的區域，或者可通過將車輛的室外空間劃分得到的多個不同的區域作為上述多個不同類別的區域，又或者可通過將車輛室內空間和車輛的室外空間劃分得到的多個不同的區域作為上述多個不同類別的注視區域。舉例來說，圖2為本申請提供的一種注視區域的類別的劃分方式，如圖2所示，預先對車輛進行空間區域劃分得到多類注視區域，包括以下二類或二類以上：左前擋風玻璃區域(1號注視區域)、右前擋風玻璃區域(2號注視區域)、儀錶盤區域(3號注視區域)、車內後視鏡區域(4號注視區域)、中控台區域(5號注視區域)、左後視鏡區域(6號注視區域)、右後視鏡區域(7號注視區域)、遮光板區域(8號注視區域)、換擋杆區域(9號注視區域)、方向盤下方區域(10號注視區域)、副駕駛區域(11號注視區域)、副駕駛前方的雜物箱區域(12號注視區域)。採用該方式進行車空間區域的劃分，有利於針對性的進行駕駛員的注意力監測；上述方式充分考慮了駕駛員處於駕駛狀態時注意力可能落到的各種區域，有利於實現對駕駛員車前向針對性或車前向全空間的注意力監測，由此提高駕駛員注意力監測的準確度和精度。

需要理解的是，由於不同車型的車的空間分佈不一樣，可根據車型對注視區域的類別進行劃分，例如：圖2中的駕駛室在車的左側，正常駕駛時，駕駛員的視線大部分時間在左前擋風玻璃區域，而對於駕駛室在車的右側的車型，正常駕駛時，駕駛員的視線大部分時間在右前擋風玻璃區域，顯然，注視區域的類別的劃分應不同於圖2中注視區域的類別的劃分；此外，還可根據使用者的個人喜好對注視區域的類別進行劃分，例如：使用者覺得中控台的螢幕面積太小，偏好通過螢幕面積更大的終端來控制空調、音響等舒適裝置，此時，可根據終端的擺放位置調整注視區域中的中控台區域。還可根據具體情況以其他方式對注視區域的類別的進行劃分，本申請對注視區域的類別的劃分方式不做限定。

眼睛是駕駛員獲取路況資訊的主要感覺器官，而駕駛員的視線所在的區域在很大程度上反映了駕駛員的注意力狀況，通過對視頻包括的多幀位於駕駛區域的駕駛員的臉部圖像進行處理，可確定每幀臉部圖像中駕駛員的注視區域的類別，進而實現對駕駛員注意力的監測。在一些可能實現的方式中，對駕駛員的臉部圖像進行處理，得到臉部圖像中駕駛員的視線方向，並根據預先設定的視線方向與注視區域的類別的映射關係，確定臉部圖像中駕駛員的注視區域的類別。在另一些可能實現的方式中，對駕駛員的臉部圖像進行特徵提取處理，根據提取出的特徵確定臉部圖像中駕駛員的注視區域的類別，一種可選示例中，得到的注視區域的類別為各注視區域對應的預定編號。

103、根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述駕駛員的注意力監測結果。

在本申請實施例中，滑動時間窗的大小以及滑動步長可以是預先設置的時長，也可以是臉部圖像的數量，在一些可能實現的方式中，滑動時間窗的大小為5秒，滑動步長為0.1秒，設當前時刻下，滑動時間窗的起始時間為10點40分10秒，結束時間為10點40分15秒，則0.1秒後，滑動時間窗的起始時間為10點40分15.1秒，結束時間為10點40分15.1秒，應理解，上述時間均為攝影頭採集視頻的時間。在另一些可能實現的方式中，對視頻中的各幀臉部圖像按視頻採集視頻的時間的先後順序從小到大進行編號，如：10點40分15秒採集的臉部圖像的序號為1，10點40分15.1秒採集的臉部圖像的序號為2，依次類推…，設滑動時間窗的大小為10幀臉部圖像，滑動步長為1幀臉部圖像，設當前時刻下，滑動時間窗內第一幀臉部圖像的序號為5，滑動時間窗內最後一幀臉部圖像的序號為14，當滑動時間窗前進一個滑動步長後，滑動時間窗內第一幀臉部圖像的序號為6，滑動時間窗內最後一幀臉部圖像的序號為15。

在本申請一些可選實施例中，注意力監測結果可以包括分心駕駛，或者注意力監測結果可包括疲勞駕駛，又或者注意力監測結果可包括分心駕駛和疲勞駕駛。可選的，注意力監測結果可以包括分心駕駛的等級，或者可包括疲勞駕駛的等級，又或者可包括分心駕駛的等級和疲勞駕駛的等級。由於在駕駛車輛的過程中，駕駛員的視線可能會在不同注視區域內切換，這樣，不同時刻採集的臉部圖像中駕駛員的注視區域的類別也會相應的改變。以圖2為例，正常駕駛時，駕駛員的視線在1號注視區域內的概率較大；因觀察路況和車況的需要，駕駛員的視線在2、3、4、6、7號注視區域內的概率較在1號注視區域內的概率要小；而駕駛員的視線出現在5、8、9、10、11、12號注視區域內的概率要比前面兩種情況的概率都小；因此，通過根據滑動時間窗內各幀臉部圖像的注視區域的類別，確定該滑動時間窗內駕駛員的注視區域的類別分佈，然後根據駕駛員的注視區域的類別確定注意力監測結果。

在一些可能實現的方式中，以圖2的注視區域的類別的劃分為例，將1號注視區域的第一占比閾值設為60%；將2、3、4、6、7號注視區域的第二占比閾值設為40%；將5、8、9、10、11、12號注視區域的第二占比閾值設為15%；其中，當任意一個滑動時間窗內駕駛員的視線在1號注視區域內的占比小於或等於60%時，確定注意力監測結果為分心駕駛；當任意一個滑動時間窗內駕駛員的視線在2、3、4、6、7號注視區域內的占比大於或等於40%時，確定注意力監測結果為分心駕駛；當任意一個滑動時間窗內駕駛員的視線在5、8、9、10、11、12號注視區域內的占比大於或等於15%時，確定注意力監測結果為分心駕駛；若未監測到駕駛員分心駕駛，確定注意力監測結果為未分心駕駛。如：一個滑動時間窗內的10幀臉部圖像中有4幀臉部圖像的注視區域的類別為1，有3幀臉部圖像的注視區域的類別為2，有2幀臉部圖像的注視區域的類別為5，有1幀臉部圖像的注視區域的類別為12，其中，駕駛員的視線落在1號注視區域內的占比為40%，駕駛員的視線落在2、3、4、6、7號注視區域內的占比為30%，駕駛員的視線落在5、8、9、10、11、12號注視區域內的占比為30%，此時確定駕駛員的注意力監測結果為分心駕駛。在另一些可能實現的方式中，若在一個滑動時間窗內，注視區域的類別的分佈同時滿足以上兩種或三種分心駕駛的情況，注意力監測結果還可包括相應的分心駕駛等級，可選地，分心駕駛等級與注視區域的類別的分佈滿足分心駕駛情況的種類的數量成正相關。

此外，還可根據連續多個滑動時間窗內所包括的各幀臉部圖像的各注視區域的類別分佈，確定駕駛員的注意力監測結果，在一些可能實現的方式中，請參見圖2，正常駕駛時的大部分時間內，駕駛員的視線在2號注視區域內，由於需要觀察路況和車況，駕駛員的視線也應該出現在2、3、4、6、7號注視區域內，若駕駛員的視線在相當長的一段時間內始終位於1號注視區域內，顯然是非正常駕駛狀態，因此，設置第一閾值，當駕駛員的視線位於1號注視區域內的持續時長達到第一閾值時，確定駕駛員的注意力監測結果為分心駕駛，由於滑動時間窗的大小小於第一閾值，此時可通過連續多個滑動時間視窗內注視區域的類別的分佈，判斷駕駛員的視線位於1號注視區域內的持續時長是否達到第一閾值。

本申請實施例根據實際需要(例如車型，例如用戶喜好，例如車型和用戶喜好等等)，將車內/外的空間區域劃分成不同區域，得到不同類別的注視區域；基於攝影頭採集的駕駛員的臉部圖像，可確定臉部圖像中駕駛員的注視區域的類別；通過滑動時間窗內的注視區域的類別分佈實現對駕駛員注意力的持續監測。該方案通過駕駛員的注視區域的類別監測駕駛員的注意力，有利於實現對駕駛員車前向針對性或車前向全空間的注意力監測，由此提高駕駛員注意力監測的精度，再結合滑動時間窗內的注視區域的類別分佈，進一步提升監測結果的準確度。

請參閱圖3，圖3是本申請實施例提供的駕駛員注意力監測方法中步驟102的一種可能的實現方式的流程示意圖。

301、對所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像進行視線和/或頭部姿態檢測。

在本申請實施例中，視線和/或頭部姿態檢測包括：視線檢測、頭部姿態檢測、視線檢測和頭部姿態檢測。

通過預先訓練好的神經網路對駕駛員的臉部圖像進行視線檢測和頭部姿態檢測，可得到視線資訊和/或頭部姿態資訊，其中，視線資訊包括視線以及視線的起點位置，在一種可能實現的方式中，通過對駕駛員的臉部圖像依次進行卷積處理、歸一化處理、線性變換，得到視線資訊和/或頭部姿態資訊。

例如，可以對駕駛員的臉部圖像依次進行駕駛員臉部確認、確定眼部區域、確定虹膜中心，實現視線檢測並確定視線資訊。在一些可能實現的方式中，人在平視或者仰視時眼的輪廓比俯視時要大，因此首先根據預先測量的眼眶的大小，將俯視與平視和仰視區分開。然後利用向上看和平視時，上眼眶到眼睛中心的距離比值的不同，區分開向上看和平視；然後再處理向左、中、右看的問題。計算出所有瞳孔點到眼眶左邊緣的距離的平方和及右邊緣的距離的平方和的比值，根據該比值確定向左、中、右看時的視線資訊。

例如，可以通過對駕駛員的臉部圖像進行處理，確定駕駛員的頭部姿態。在一些可能實現的方式中，對駕駛員的臉部圖像進行面部特徵點(如：嘴、鼻子、眼睛)提取，並基於提取出的面部特徵點確定臉部圖像中面部特徵點的位置，再根據面部特徵點與頭部之間的相對位置，確定臉部圖像中的駕駛員的頭部姿態。

例如，可同時對視線和頭部姿態進行檢測，提高檢測精度。在一些可能實現的方式中，通過車輛上部署的攝影頭採集眼部運動的序列圖像，將該序列圖像與其正視時的眼部圖像進行比較，根據比較的差別得到眼球轉過的角度，並基於眼球轉過的角度確定視線向量。這裡是假設頭部不動的情況下得到的檢測結果。當頭部發生微小轉動時，首先建立座標補償機制，將正視時的眼部圖像進行調整。但是當頭部發生較大偏轉時，首先觀察頭部相對於空間某一固定座標系的變化位置、方向，然後確定視線向量。

可理解，以上為本申請實施例提供的進行視線和/或頭部姿態檢測的示例，在具體實現中，本領域技術人員還可通過其他方法進行視線和/或頭部姿態檢測，本申請不做限定。

302、根據每幀臉部圖像的視線和/或頭部姿態的檢測結果，確定每幀臉部圖像中所述駕駛員的注視區域的類別。

在本申請實施例中，視線檢測結果包括每幀臉部圖像中駕駛員的視線向量以及視線向量的起始位置，頭部姿態檢測結果包括每幀臉部圖像中駕駛員的頭部姿態，其中，視線向量可以理解為視線的方向，根據視線向量可確定臉部圖像中駕駛員的視線相較於駕駛員正視時的視線的偏離角度；頭部姿態可以是駕駛員頭部在座標系下的歐拉角，其中，上述座標系可以為：世界座標系、相機座標系、圖像座標系等等。

通過包括有注視區域類別標注資訊的視線和/或頭部姿態檢測結果為訓練集對注視區域分類模型進行訓練，使訓練後的分類模型可根據視線和/或頭部姿態的檢測結果，確定駕駛員的注視區域的類別，其中，上述注視區域分類模型可以為：決策樹分類模型、選擇樹分類模型、softmax分類模型等等。在一些可能實現的方式中，視線檢測結果和頭部姿態檢測結果均為特徵向量，將視線檢測結果和頭部姿態檢測結果進行融合處理，注視區域分類模型再根據融合後的特徵確定駕駛員的注視區域的類別，可選地，上述融合處理可以為特徵拼接。在另一些可能實現的方式中，注視區域分類模型可基於視線檢測結果或頭部姿態檢測結果確定駕駛員的注視區域的類別。

不同車型的車內環境以及注視區域的類別的劃分方式可能也不相同，在本實施例中，通過與車型對應的訓練集對用於對注視區域進行分類的分類器進行訓練，可使訓練後的分類器適用於不同車型，其中，與車型對應的訓練集指包括有該車型注視區域類別標注資訊的視線和/或頭部姿態檢測結果以及對應的新車型的注視區域類別的標注資訊，基於訓練集對需要在新車型中使用的分類器進行監督訓練。分類器可基於神經網路、支援向量機等方式預先構建，本申請對分類器的具體結構不做限定。

例如，在一些可能實現的方式中，A車型相對駕駛員的前向空間劃分為12個注視區域，B車型根據自身的車空間特點，想對駕駛員的前向空間需要相對A車型做不同的注視區域劃分，如劃分成10個注視區域。該情形下，基於本實施例構建的駕駛員注意力監控技術方案應用於A車型，在需要將該注意力監控技術方案應用於B車型之前，可以複用A車型中的視線和/或頭部姿態檢測技術，而只需針對B車型的空間特點重新劃分注視區域，基於視線和/或頭部姿態檢測技術以及B車型對應的注視區域劃分，構建訓練集，該訓練集包括的人臉圖像包括有視線和/或頭部姿態檢測結果及其對應的B車型對應的注視區域的類別標注資訊，這樣基於構建的訓練集對用於B車型的注視區域分類的分類器進行監督訓練，而無需對用於視線和/或頭部姿態檢測的模型進行重複訓練。訓練完成後的分類器以及複用的視線和/或頭部姿態檢測技術，就構成了本申請實施例提供的駕駛員注意力監測方案。

本實施例將注視區域分類所需的特徵資訊檢測(如視線和/或頭部姿態檢測)與基於上述特徵資訊進行注視區域分類，分為兩個相對獨立的階段進行，提高了如視線和/ 或頭部姿態等特徵資訊檢測技術在不同車型的複用性，因注視區域劃分有變化的新應用場景(如新車型等)僅需對應調整適配新的注視區域劃分的分類器或分類方法，減少了因注視區域劃分有變化的新應用場景下，駕駛員注意力檢測技術方案調整的複雜性和運算量，提高了技術方案的普適性和泛化性，由此更好滿足多樣化的實際應用需求。

除了將注視區域分類所需的特徵資訊檢測與基於上述特徵資訊進行注視區域分類，分為兩個相對獨立的階段之外，本申請實施例還可基於神經網路實現注視區域類別的端到端的檢測，即：向神經網路輸入臉部圖像，而經神經網路對臉部影像處理後輸出注視區域類別的檢測結果。其中，神經網路可以基於卷積層、非線性層、全連接層等網路單元按照一定方式堆疊或組成，也可以採用現有的神經網路結構，本申請對此並不限定。確定好待訓練的神經網路結構之後，所述神經網路可以採用包括有注視區域類別標注資訊的人臉圖像集進行監督訓練，或者，所述神經網路可以採用包括有注視區域類別標注資訊的人臉圖像集以及基於所述人臉圖像集中各人臉圖像截取的眼部圖像進行監督訓練；所述注視區域類別標注資訊包括所述多類定義注視區域之一。基於帶有上述標注資訊的人臉圖像集對神經網路進行監督訓練，可使得該神經網路能同時學習到進行注視類別區域劃分所需的特徵提取能力以及注視區域的分類能力，由此實現輸入圖像輸出注視區域類別檢測結果的端到端檢測。

請參閱圖4，圖4是本申請實施例提供的用於檢測注視區域類別的神經網路的一種可能實現的訓練方法的流程示意圖。

401、獲取包括有所述注視區域類別標注資訊的人臉圖像集。

在本實施例中，人臉圖像集中的每一幀圖像都包含注視區域的類別，以圖2的注視區域的類別的劃分為例，每一幀圖像包括的標注資訊為1至12中任意一個數位。

402、對所述人臉圖像集中的圖像進行特徵提取處理，獲得第四特徵。

通過神經網路對人臉圖像進行特徵提取處理，獲得第四特徵，在一些可能實現的方式中，對人臉圖像依次進行卷積處理、歸一化處理、第一線性變換、第二線性變換實現特徵提取處理，獲得第四特徵。

首先，通過神經網路中的多層卷積層對人臉圖像進行卷積處理，獲得第五特徵，其中，每個卷積層提取出的特徵內容及語義資訊均不一樣，具體表現為，通過多層卷積層的卷積處理一步步將圖像特徵抽象出來，同時也將逐步去除相對次要的特徵，因此，越到後面提取出的特徵尺寸越小，內容及語義資訊就越濃縮。通過多層卷積層逐級對人臉圖像進行卷積操作，並提取相應的中間特徵，最終得到固定大小的特徵資料，這樣，可在獲得人臉圖像主要內容資訊(即人臉圖像的特徵資料)的同時，將圖像尺寸縮小，減小系統的計算量，提高運算速度。上述卷積處理的實現過程如下：卷積層對人臉圖像做卷積處理，即利用卷積核在人臉圖像上滑動，並將人臉圖像點上的像素值與對應的卷積核上的數值相乘，然後將所有相乘後的值相加作為卷積核中間像素對應的圖像上像素值，最終滑動處理完人臉圖像中的所有像素值，並提取出第五特徵。需要理解的是，本申請對上述卷積層的數量不做具體限定。

在對人臉圖像進行卷積處理時，資料經過每一層網路的處理後，其資料分佈都會發生變化，這樣會給下一層網路的提取帶來困難。因此，在對卷積處理得到的第五特徵進行後續處理之前，需要對第五特徵進行歸一化處理，即將第五特徵歸一化到均值為0且方差為1的正態分佈。在一些可能實現的方式中，在卷積層後連接歸一化處理(batch norm，BN)層，BN層通過加入可訓練的參數對特徵進行歸一化處理，能加快訓練速度，並去除數據的相關性，突出特徵之間的分佈差異。在一個例子中，BN層對第五特徵的處理過程可參見下文：

假設第五特徵為β=x _1→m，共m個資料，輸出是y _i=BN(x)，BN層將對第五特徵進行如下操作：

首先，求出上述第五特徵β=x _1→m的平均值，即

根據上述平均值μ _β，確定上述第五特徵的方差，即

根據上述平均值μ _β和方差

，對上述第五特徵進行歸一化處理，得到

；

最後，基於縮放變數γ和平移變數δ，得到歸一化的結果，即

，其中γ和δ均為已知。

由於卷積處理以及歸一化處理從資料中學習複雜映射的能力較小，無法學習和處理複雜類型的資料，例如圖像、視頻、音訊、語音等等。因此，需要通過對歸一化處理後的資料進行線性變換，來解決諸如影像處理、視頻處理等複雜問題。在BN層後連接線性啟動函數，通過啟動函數對歸一化處理後的資料進行線性變換，可處理複雜的映射，在一些可能實現的方式中，將歸一化處理後的資料代入線性整流函數(rectified linear unit，ReLU)函數，實現對歸一化處理後的資料的第一線性變換，得到第六特徵。

在啟動函數層後連接的是全連接(fully connected layers，FC)層，通過全連接層對第六特徵進行處理，可將第六特徵映射到樣本(即注視區域)標記空間。在一些可能實現的方式中，通過全連接層對第六特徵進行第二線性變換。全連接層包含輸入層(即啟動函數層)以及輸出層，輸出層的任何一個神經元與輸入層的每一個神經元都有連接，其中，輸出層中的每一個神經元都有相應的權重和偏置，因此，全連接層所有的參數就是每個神經元的權重以及偏置，該權重和偏置的具體大小是通過對全連接層進行訓練得到的。

將第六特徵輸入至全連接層時，獲取全連接層的權重和偏置(即第二特徵資料的權重)，再根據權重和偏置對上述第六特徵進行加權求和，獲得上述第四特徵，在一些可能實現的方式中，全連接層的權重和偏置分別為：w _i和b _i，其中i為神經元的數量，第六特徵為x，則全連接層對第三特徵資料進行第二線性變換後得到的第一特徵資料為

403、對第一特徵資料進行第一非線性變換，獲得注視區域類別檢測結果。

在全連接層後連接softmax層，通過softmax層內置的softmax函數將輸入的不同特徵資料映射成0至1之間的值，且映射後的所有值的和為1，映射後的值與輸入的特徵一一對應，這樣，就相當於對每個特徵資料完成了預測，並以數值的形式給出相應的概率。在一種可能實現的方式中，將第四特徵輸入至softmax層，並將第四特徵代入softmax函數進行第一非線性變換，獲得駕駛員的視線在不同注視區域的概率。

404、根據所述注視區域類別檢測結果和所述注視區域類別標注資訊的差異，調整所述神經網路的網路參數。

在本實施例中，神經網路包括損失函數，損失函數可以為：交叉熵損失函數、均方差損失函數、平方損失函數等等，本申請對損失函數的具體形式不做限定。

人臉圖像集中的每一張圖像都有相應的標注資訊，即每張人臉圖像都會對應一個注視區域類別，將402得到的不同注視區域的概率以及標注資訊代入損失函數，得到損失函數值。通過調整神經網路的網路參數，使損失函數值小於或等於第二閾值，即可完成神經網路的訓練，其中，上述網路參數包括401與402中各網路層的權重以及偏置。

本實施例根據包括有所述注視區域類別標注資訊的人臉圖像集對神經網路進行訓練，使訓練後的神經網路可基於提取出的人臉圖像的特徵確定注視區域的類別，基於本實施例提供的訓練方法只需輸入人臉圖像集，即可得到訓練後的神經網路，訓練方式簡單，訓練時間短。

請參閱圖5，圖5是本申請實施例提供的上述神經網路的另一種可能實現的訓練方法的流程示意圖。

501、獲取所述人臉圖像集中包括有注視區域類別標注資訊的人臉圖像。

在本實施例中，人臉圖像集中的每一張圖像都包含注視區域的類別，以圖2的注視區域的類別的劃分為例，每一幀圖像包括的標注資訊為1至12中任意一個數位。

通過對不同尺度的特徵進行融合，豐富特徵資訊，可提高注視區域的類別的檢測精度，上述豐富特徵資訊的實現過程可參見502~505。

502、截取所述人臉圖像中的至少一眼的眼部圖像，所述至少一眼包括左眼和/或右眼。

上述左眼和/或右眼包括：左眼、右眼、左眼和右眼。

在本實施例中，通過識別人臉圖像中的眼部區域圖像，並通過截圖軟體從人臉圖像中截取出眼部區域圖像，也可以通過畫圖軟體從人臉圖像中截取出眼部區域圖像等等，本申請對如何識別人臉圖像中的眼部區域圖像以及如何從人臉圖像中截取出眼部區域圖像的具體實現方式不做限定。

503、分別提取所述人臉圖像的第一特徵和至少一眼的眼部圖像的第二特徵。

在本實施例中，被訓練的神經網路包含多個特徵提取分支，通過不同的特徵提取分支對人臉圖像以及眼部圖像進行第二特徵提取處理，獲得人臉圖像的第一特徵和眼部圖像的第二特徵，豐富提取出的圖像特徵尺度，在一些可能實現的方式中，通過不同的特徵提取分支分別對人臉圖像依次進行卷積處理、歸一化處理、第三線性變換、第四線性變換，獲得人臉圖像特徵以及眼部圖像特徵，其中，視線向量資訊包括視線向量以及視線向量的起點位置。應理解，上述眼部圖像中可以只包括一隻眼睛(左眼或右眼)，也可以包括兩隻眼睛，本申請對此不做限定。

上述卷積處理、歸一化處理、第三線性變換、第四線性變換的具體實現過程可參見步驟402中的卷積處理、歸一化處理、第一線性變換、第二線性變換，此處將不再贅述。

504、融合所述第一特徵和所述第二特徵，得到第三特徵。

由於同一物體(本實施例中指駕駛員)的不同尺度的特徵包含的場景資訊均不一樣，通過將不同尺度的特徵進行融合，可得到資訊更豐富的特徵。

在一些可能實現的方式中，通過對第一特徵和第二特徵進行融合處理，實現將多個特徵中的特徵資訊融合於一個特徵中，有利於提高駕駛員注視區域的類別的檢測精度。

505、根據所述第三特徵確定所述人臉圖像的注視區域類別檢測結果。

在本實施例中，注視區域類別檢測結果為駕駛員的視線在不同注視區域的概率，取值範圍為0至1。在一些可能實現的方式中，將第三特徵輸入至softmax層，並將第三特徵代入softmax函數進行第二非線性變換，獲得駕駛員的視線在不同注視區域的概率。

506、根據所述注視區域類別檢測結果和所述注視區域類別標注資訊的差異，調整所述神經網路的網路參數。

將505得到的不同注視區域的概率以及標注資訊代入損失函數，得到損失函數值。通過調整神經網路的網路參數，使損失函數值小於或等於第三閾值，即可完成神經網路的訓練，其中，上述網路參數包括503至505中各網路層的權重以及偏置。

通過本實施例提供的訓練方式訓練得到的神經網路，可對同一幀圖像中提取出的不同尺度的特徵進行融合，豐富特徵資訊，進而基於融合後的特徵識別駕駛員的注視區域的類別以提高識別精度。

本領域技術人員需理解，本申請提供的兩種神經網路的訓練方法(401~404以及501~506)，可在本地終端(如：電腦或手機或車機端)上實現，也可通過雲端實現，本申請對此不做限定。

請參閱圖6，圖6是本申請實施例提供的駕駛員注意力監測方法中步驟103的一種可能的實現方式的流程示意圖。

601、根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述至少一滑動時間窗內各類所述注視區域的注視累計時長。

在駕駛時，駕駛員的視線在除左前擋風玻璃區域(駕駛室在車的左側，可參見圖2)之外的注視區域內的時長越長，駕駛員分心駕駛的可能性就越大，分心駕駛的等級也越高。因此，根據駕駛員的視線在注視區域的時長，可確定駕駛員的注意力監測結果。由於在駕駛車輛的過程中，駕駛員的視線可能會在不同注視區域內切換，這樣，注視區域的類別也會相應的改變。顯然，根據駕駛員的視線在注視區域的累計時長確定注意力監測結果，以及根據駕駛員的視線在注視區域的連續時長確定注意力監測結果，均是不合理的，因此，通過滑動時間窗對駕駛員的注意力進行監測，實現對駕駛員注意力的持續監測。首先，根據滑動時間窗內每一幀臉部圖像的注視區域的類別以及每一幀臉部圖像的時長，確定該滑動時間窗內每個注視區域的累計時長。在一些可能實現的方式中，以圖2的注視區域的類別的劃分為例，一個滑動時間窗內的10幀臉部圖像中有4幀臉部圖像的注視區域的類別為1，3幀臉部圖像的注視區域的類別為2，2幀臉部圖像的注視區域的類別為5，1幀臉部圖像的注視區域的類別為12，一幀臉部圖像的時長為0.4秒，則在該滑動時間窗內，1號注視區域的累計時長為1.6秒，2號注視區域的累計時長為1.2秒，5號注視區域的0.8秒，12號注視區域的累計時長為0.4秒。

602、根據所述至少一滑動時間窗內各類所述注視區域的注視累計時長與預定的時間閾值的比較結果，確定所述駕駛員的注意力監測結果，所述注意力監測結果包括是否分心駕駛和/或分心駕駛等級。

本申請實施中，分心駕駛和/或分心駕駛等級包括：分心駕駛、分心駕駛等級、分心駕駛和分心駕駛等級。

如上所述，由於駕駛的需要，在一定時間內駕駛員的注視區域的類別可能會有多個，顯然，不同的注視區域對應分心駕駛的概率均不一樣，以圖2為例，當駕駛員的注視區域為1時，駕駛員分心駕駛的概率較小，當駕駛員的注視區域為10時，駕駛員分心駕駛的概率較大。因此，通過為不同類別的注視區域設置不同的時間閾值，以體現駕駛員的視線在不同類別的注視區域時，駕駛員分心駕駛的概率不同。再根據至少一滑動時間窗內各類注視區域的注視累計時長和相應類別的定義注視區域的時間閾值的比較結果，確定駕駛員的注意力監測結果，這樣，每個滑動時間窗對應一個注意力監測結果。

可選地，在一個滑動時間窗內駕駛員的視線在任意一個注視區域內的累計時長達到該注視區域的時間閾值時，確定駕駛員的注意力檢測結果為分心駕駛。在一些可能實現的方式中，以圖2為例，設滑動時間窗的時長為5秒，駕駛員在需要觀察右前方的路況時，視線會在注視區域2內；在駕駛過程中，駕駛員需要通過觀察儀錶盤顯示的資料瞭解車輛的即時狀況時，視線會在注視區域3內；正常駕駛時，駕駛員的視線不應該出現在注視區域10內，因此，可將注視區域2、3、10的時間閾值分別設置為：2.5秒、1.5秒、0.7秒；檢測到在一個滑動時間窗內，駕駛員的注視區域的類別為2、3、10的累計時長分別為1.8秒、1秒、1秒，則駕駛員的注意力檢測結果為分心駕駛。需要理解的是，滑動時間窗的大小以及注視區域的時間閾值的大小，可根據實際使用情況進行調整，本申請對此不做具體限定。

可選地，注意力監測結果還包括分心駕駛等級，即當連續多個滑動時間窗的注意力監測結果均為分心駕駛時，對應的分心駕駛等級也會相應地提高，如：任意一個滑動時間窗的注意力監測結果為分心駕駛對應地分心駕駛等級為1級，連續2個滑動時間窗的注意力監測結果為分心駕駛對應地分心駕駛等級為2級。

可選地，可在車輛室內的不同地方部署多個攝影頭，或者可在車輛的室外的不同的地方部署多個攝影頭，又或者可在車輛室內和車輛室外的不同地方部署多個攝影頭。通過上述多個攝影頭可獲得同一時刻下的多張人臉圖像，經過處理每一幀人臉圖像都將有一個注視區域的類別，此時將綜合每一幀圖像的注視區域的類別確定駕駛員的注視區域的類別，為此，本申實施例提供一種“少數服從多數”的投票方法，以確定注視區域的類別，由此提高注視區域類別檢測的可靠性，進而提高駕駛員注意力檢測的準確性。該方法包括以下步驟：

經在車上多個區域分別部署的多個攝影頭從不同角度分別採集駕駛區域的視頻；

針對採集到的多個視頻各自包括的多幀位於駕駛區域的駕駛員的臉部圖像，分別檢測時刻對齊的各幀臉部圖像中駕駛員的注視區域類別；

將得到的各注視區域類別中多數結果確定為該時刻的臉部圖像的注視區域類別。

在本實施例中，多個視頻時刻對齊的各幀臉部圖像指：多個攝影頭採集的視頻中，同一時刻的各幀臉部圖像。在一些可能實現的方式中，車上部署有3個攝影頭，分別為1號攝影頭、2號攝影頭、3號攝影頭，且可通過這3個攝影頭分別從不同角度對駕駛區域進行視頻採集，可將這3個攝影頭分別安裝在車的不同位置，以從不同角度對駕駛區域進行視頻採集，等等。例如，在同一時刻下，1號攝影頭採集到的人臉圖像對應的注視區域的類別為右前擋風玻璃區域、2號攝影頭採集到的人臉圖像對應的注視區域的類別為車內後視鏡區域、3號攝影頭採集到的人臉圖像對應的注視區域的類別為右前擋風玻璃區域，由於3個結果中有2個結果為右前擋風玻璃區域，只有一個結果為車內後視鏡區域，所以最終輸出的駕駛員的注視區域為右前擋風玻璃區域，注視區域的類別為2。

可選地，現實環境的光線複雜，汽車內的光線複雜程度更甚，而光照強度會直接影響攝影頭的拍攝品質，低品質的圖像或視頻會丟失部分有用的資訊。此外，不同的拍攝角度對拍攝的圖像的品質也有影響，導致視頻或圖像中特徵物不明顯或被遮擋等問題，如：因駕駛員的眼鏡鏡片反光導致攝影頭無法將駕駛員的眼睛拍清楚，或者，因駕駛員的頭部姿態導致未能拍攝到眼睛部分的圖像，進而影響後續基於圖像實現的檢測處理。為此，本實施例還提供一種基於多角度拍攝的圖像中挑選品質好的圖像作為用於進行駕駛員注視區域類別檢測的圖像，由於作為檢測基礎的圖像的品質有所保證，因此提高注視區域類別檢測的準確性，為不同光線環境、人臉大角度或遮擋等場景提高了解決方案，提高了駕駛員注意力監測的準確性。該方法包括以下步驟：

根據圖像品質評價指標，分別確定採集到的多個視頻各自包括的多幀位於駕駛區域的駕駛員的臉部圖像中各幀臉部圖像的圖像品質評分；

分別確定多個視頻時刻對齊的各幀臉部圖像中圖像品質評分最高的臉部圖像；

分別確定各圖像品質評分最高的臉部圖像中駕駛員的注視區域的類別。

在本實施例中，圖像品質評價指標包括以下至少之一：圖像中是否包括有眼部圖像、圖像中眼部區域的清晰度、圖像中眼部區域的遮擋情況、圖像中眼部區域的睜閉眼情況；多個視頻時刻對齊的各幀臉部圖像指：多個攝影頭採集的視頻中，同一時刻的各幀臉部圖像。通過上述圖像品質評價指標確定出的圖像可更準確地進行圖像中駕駛員注視區域的檢測。

在一些可能實現的方式中，在同一時刻，部署在車輛不同地方的攝影頭分別從不同角度獲取包含駕駛員臉部的圖像，根據上述圖像品質評價指標對所有圖像的品質進行評分，如：若圖像中包含有眼部圖像獲得5分，再根據圖像中眼部區域的清晰度從1~5分中獲得相應的分數，最後將兩項得到相加，得到圖像品質評分，將同一時刻下不同角度的攝影頭採集的多幀圖像中圖像品質評分最高的圖像作為該時刻用於確定注視區域類別的待處理圖像，並確定待處理圖像中駕駛員的注視區域的類別。需要理解的是，圖像中眼部區域的清晰度的判斷可由任意圖像清晰度演算法實現，如：灰度方差函數、灰度方差乘積函數、能量梯度函數，對此本申請不做具體限定。

本實施例根據滑動時間窗內各類注視區域的注視累計時長與預定的時間閾值的比較結果，確定所述駕駛員是否分心駕駛；根據滑動時間窗的數量確定分心駕駛的等級；通過部署在車上不同區域的攝影頭從多個角度對駕駛區域進行視頻採集，提高採集到的人臉圖像的圖像品質，並通過圖像品質評價指標確定圖像品質最高的人臉圖像，基於圖像品質最高的人臉圖像確定注意力監測結果可提高監測精度；對於車上部署有多個攝影頭的情況，還根據“少數服從多數”原則，從同一時刻下多個攝影頭對應的多個注意力監測結果中確定注意力監測結果，同樣可提高檢測精度。

在確定駕駛員分心駕駛的情況下，可及時對駕駛員進行提示，使駕駛員專心駕駛，以下實施例本申請提供的分心駕駛提示的一種可能實現的方式。

在駕駛員的注意力監測結果為分心駕駛的情況下，可對駕駛員進行相應地分心駕駛提示，使駕駛員專心駕駛。分心駕駛提示包括以下至少之一：文字提示、語音提示、氣味提示、低電流刺激提示。

在一些可能實現的方式中，當檢測到駕駛員的注意力監測結果為分心駕駛時，通過抬頭數字顯示儀(head up display，HUD)顯示器彈出對話方塊，對駕駛員發出提示和警告；還可通過車載終端內置的語音資料進行提示和警告，如：“請駕駛員專心駕駛”；還可通過釋放具有的醒腦提神功效的氣體，如：通過車載噴頭噴出花露水噴霧，花露水的氣味清香怡人，在對駕駛員進行提示和警告的同時，還能起到醒腦提神的效果；還可通座椅釋放出低電流刺激駕駛員，以達到提示和警告的效果。

本實施例提供了幾種分心駕駛提示方式，以實現在駕駛員分心駕駛的情況下，對駕駛員進行有效的提示和警告。

以下實施例本申請提供的分心駕駛提示的另一種可能實現的方式。

如上所述，當連續多個滑動時間窗的注意力監測結果均為分心駕駛時，對應的分心駕駛等級也會相應地提高，在所述駕駛員的注意力監測結果為分心駕駛的情況下，根據預先設定的分心駕駛等級與注意監測結果的映射關係、所述駕駛員的注意力監測結果，確定所述駕駛員的分心駕駛等級；根據預先設定的分心駕駛等級與分心駕駛提示的映射關係、所述駕駛員的分心駕駛等級，從所述分心駕駛提示中確定一種提示對所述駕駛員進行分心駕駛提示，其中，預先設定的分心駕駛等級與注意監測結果的映射關係包括：在多個連續滑動時間窗的監測結果均為分心駕駛的情況下，分心駕駛等級與滑動時間窗的數量成正相關。

在一些可能實現的方式中，滑動時間窗的數量、分心駕駛等級以及提示方式的映射關係可參見表1。

當任意一個滑動時間窗的注意力監測結果為分心駕駛時，確定駕駛員的分心駕駛等級為1，此時，通過氣味提示的方式對駕駛員進行提示和警告，如：釋放具有的醒腦提神功效的氣體，如：通過車載噴頭噴出花露水噴霧；當連續2個或3個滑動時間窗的注意力監測結果為分心駕駛時，確定駕駛員的分心駕駛等級為2，此時，通過文字提示的方式對駕駛員進行提示和警告，如：通過HUD顯示器彈出對話方塊，對駕駛員發出提示和警告；當連續4個或5個滑動時間窗的注意力監測結果為分心駕駛時，確定駕駛員的分心駕駛等級為3，此時，通過語音提示的方式對駕駛員進行提示和警告，如：車載終端發出“請駕駛員專心駕駛”的提示語句；當連續6個至8個滑動時間窗的注意力監測結果為分心駕駛時，確定駕駛員的分心駕駛等級為4，此時，通過低電流刺激提示的方式對駕駛員進行提示和警告，如：從駕駛員座椅釋放出低電流刺激駕駛員；當連續9個或以上滑動時間窗的注意力監測結果為分心駕駛時，確定駕駛員的分心駕駛等級為5，此時，對駕駛員同時進行語音提示和低電流刺激提示，提示駕駛員專心駕駛。

本實施例根據滑動時間窗的數量、分心駕駛等級以及提示方式的映射關係確定駕駛員分心駕駛的等級，並給予不同程度的提示，實現以合理的方式及時對駕駛員進行提示，使駕駛員專心駕駛，預防因駕駛員分心駕駛導致的交通事故。

在確定駕駛員的注意力監測結果後，可對駕駛員的注意力監測結果進行分析，如：根據駕駛員的注意力監測結果，確定駕駛員的駕駛習慣，並給出產生分心駕駛的原因。還可將注意力監測結果發送給伺服器或終端，相關人員可通過伺服器或終端實現對車輛的遠端控制，或基於注意力監測結果獲知駕駛員的駕駛狀態，並基於駕駛員的駕駛狀態進行相應的處理。以下實施例為本申請提供的基於注意力監測結果的一些可能實現的方式。

車輛可與伺服器或終端建立通信連接，其中，上述通信連接可以為蜂窩網路連接、近距離無線通訊(near field communication，NFC)連接、藍牙連接等等，本申請對通信連接的方式不做限定。在確定駕駛員注意力監測結果的情況下，向與車輛通信連接的伺服器或終端發送駕駛員的注意力監測結果，使伺服器側的相關人員以及終端側的使用者即時掌控駕駛員的注意力監控結果。

在一些可能實現的方式中，物流公司的相關工作人員可通過伺服器即時獲知每個駕駛員的注意力監測結果，也可對伺服器儲存的駕駛員的注意力監測結果進行統計，並根據統計結果對駕駛員進行管理。在一些可能實現的方式中，物流公司C規定將駕駛員在物流運輸過程中的的注意力監測結果作為駕駛員的考核依據之一，例如：在任意一次物流運輸過程中，分心駕駛的累計時間占物流運輸總時間的比例大於或等於5%，考核評分減1分；分心駕駛的累計時間占物流運輸總時間的比例大於或等於7%，考核評分減2分；分心駕駛的累計時間占物流運輸總時間的比例大於或等於10%，考核評分減3分；分心駕駛的累計時間占物流運輸總時間的比例小於或等於3%，考核評分加1分；分心駕駛的累計時間占物流運輸總時間的比例小於或等於2%，考核評分加2分；分心駕駛的累計時間占物流運輸總時間的比例小於或等於1%，考核評分加3分。又例如：每出現一次1級分心駕駛，考核評分減0.1分；每出現一次2級分心駕駛，考核評分減0.2分；每出現一次3級分心駕駛，考核評分減0.3分；每出現一次4級分心駕駛，考核評分減0.4分；每出現一次5級分心駕駛，考核評分減0.5分。

進一步地，基於對駕駛員的管理可以對車隊進行管理，在另一些可能實現的方式中，物流公司C可根據駕駛員的考核評分對駕駛員進行評級，考核評分越高，相應地，級別也越高。顯然，駕駛員的級別越高，駕駛員的駕駛習慣相對也越好，其中，駕駛習慣可以為：不分心駕駛，不疲勞駕駛等等，而對於優先順序較高的運輸任務，物流公司C可優先指定級別高的駕駛員運輸，這樣，既能確保運輸任務的順利完成，也可讓駕駛員信服公司的安排。

車輛通過NFC或藍牙與車內其他人員(除駕駛員之外的任意一個人)的移動終端(如：手機、平板電腦、筆記型電腦、可穿戴設備等)連接，並即時將駕駛員的注意力監測結果發送至該移動終端，這樣，車內其他人員可在駕駛員分心駕駛時對駕駛員進行提醒。在一些可能實現的方式中，丈夫是駕駛員，妻子坐在副駕駛座椅上用平板電腦看電影，妻子通過平板電腦上彈出的消息獲知丈夫正分心駕駛，且分心駕駛等級已達到3級，此時，妻子可放下手中的平板電腦對丈夫進行口頭提醒，如：“眼睛看哪裡呢，專心開車！”，這樣可對丈夫起到提醒和警告的作用，使丈夫專心駕駛。通過終端顯示駕駛員的注意力監測結果的方式不局限於上述“彈出”，還可以是語音提示，動態效果顯示等等，本申請對此不做限定。需要理解的是，在這種實現方式中，車內其他人員可結合注意力監測結果、路況、車況等因素人為判斷是否需要對駕駛員進行提醒，或者需要對駕駛員進行什麼程度的提醒，顯然，在絕大多數情況下，人的判斷能力要優於機器的判斷能力，因此，通過車內其他人員給予駕駛員的提示的效果較表1中的提示方式要更好。

通過蜂窩網路將駕駛員的注意力監測結果發送給與車輛通信連接的終端，其中，終端可以為可移動終端，也可以為不可移動終端，終端使用者可以為駕駛員的家人，也可以是駕駛員信任的人，本申請過對此不做限定。終端使用者可根據駕駛員的注意力監測結果，採取相應的措施，預防交通事故的發生。在一些可能實現的方式中，在家裡的父親通過手機獲知身為駕駛員的兒子正分心駕駛，分心駕駛等級已達到5級，且注意力監測結果為分心駕駛的滑動時間窗的數量還在一直增加，顯然，駕駛員的駕駛狀態非常不正常，極易發生交通事故，此時，父親可打電話給正坐在副駕駛座椅上看電影的兒媳，讓她對兒子進行提醒，或採取其他措施，以降低安全隱患。

可選地，也可通過終端向車輛發送控制指令，如：切換駕駛模式，或調整報警模式，或既切換駕駛模式又調整報警模式等等，在接收到伺服器或終端發送的控制指令的情況下，根據控制指令控制車輛，在一些可能實現的方式中，通過車輛的遠端控制終端向車輛發送控制指令，將車輛的駕駛模式由非自動駕駛模式切換為自動駕駛模式，以使車輛在自動駕駛模式下自動駕駛，減少因駕駛員的不安全駕駛帶來的安全隱患。在另一些可能實現的方式中，通過車輛的遠端控制終端向車輛發送控制指令，以調整車輛的報警模式(如調大車輛上的報警器的音量等等)，以增強報警效果，由此降低安全隱患。在又一些可能實現的方式中，通過車輛的遠端控制終端向車輛發送控制指令，既將車輛的駕駛模式由非自動駕駛模式切換為自動駕駛模式又調整車輛的報警模式。

車載終端還可對駕駛員的注意力檢測結果進行統計分析，獲得分析結果，如：發生分心駕駛的時間、分心駕駛的次數、分心駕駛的累計時間、每一次分心駕駛的等級、駕駛員的駕駛習慣資訊，其中，駕駛習慣資訊包括分心駕駛時的注視區域的類別分佈、產生分心駕駛的原因，在一些可能實現的方式中，車載終端對駕駛員的注意力監測結果進行統計，得到分心駕駛時的注視區域的類別分佈，如：以圖2為例，在剛剛過去的一周內，分心駕駛時，50%的注視區域的類別是12號區域，30%的注視區域的類別是7號區域，10%的注視區域的類別是2號區域，10%的注視區域的類別是其他區域。進一步地，可根據注視區域的類別分佈給出駕駛員分心駕駛的原因，如：駕駛時與副駕駛座椅上的乘客交談。將注視區域的類別分佈以及產生分心駕駛的原因以統計報告的形式呈現給駕駛員，使駕駛員及時獲知自身駕駛習慣，並做出相應地調整。可選地，還可將發生分心駕駛的時間、分心駕駛的次數、分心駕駛的累計時間、每一次分心駕駛的等級的統計結果以報表的形式呈現給駕駛員。應用本實施例，可將駕駛員的注意力監測結果發送至伺服器並進行儲存，相關人員可通過伺服器儲存的注意力監測結果實現對駕駛員的管理；通過將駕駛員的注意力監測結果發送至車內其他終端，使車內其他人員及時獲知駕駛員的駕駛狀態，並對駕駛員進行相應的提醒，預防交通事故的發生；通過將駕駛員的注意力監測結果發送至遠端終端機，可使其他人員根據注意力監測結果對車輛進行相應地控制，降低安全隱患；通過對駕駛員的注意力監測結果進行分析，駕駛員可根據分析結果更清楚的瞭解自身駕駛狀態，並及時矯正自身的不良駕駛習慣，預防交通事故的發生。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

請參閱圖7，圖7為本申請實施例提供的一種識別分心駕駛的裝置的結構示意圖，該裝置1包括：第一控制單元11、第一確定單元12、第二確定單元13、提示單元14、第三確定單元15、第四確定單元16、訓練單元17、發送單元18、分析單元19以及第二控制單元20，其中：

第一控制單元11，用於經車上設置的攝影頭針對所述車的駕駛區域採集視頻；以及在車上多個區域分別部署從不同角度的攝影頭，並經多個攝影頭分別採集駕駛區域的視頻流；以及用於經在車上多個區域分別部署的多個攝影頭從不同角度分別採集駕駛區域的視頻；

第一確定單元12，用於根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，其中，每幀臉部圖像的注視區域屬於預先對所述車進行空間區域劃分得到的多類定義注視區域之一；以及在車上多個區域分別部署從不同角度的攝影頭，並經多個攝影頭分別採集駕駛區域的視頻流，對採集到的多個視頻流分別檢測同一時刻的臉部圖像中的注視區域類別；

第二確定單元13，用於根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述駕駛員的注意力監測結果；

提示單元14，用於在所述駕駛員的注意力監測結果為分心駕駛的情況下，對所述駕駛員進行分心駕駛提示，所述分心駕駛提示包括以下至少之一：文字提示、語音提示、氣味提示、低電流刺激提示；

第三確定單元15，用於在所述駕駛員的注意力監測結果為分心駕駛的情況下，根據預先設定的分心駕駛等級與注意監測結果的映射關係、所述駕駛員的注意力監測結果，確定所述駕駛員的分心駕駛等級；

第四確定單元16，用於根據預先設定的分心駕駛等級與分心駕駛提示的映射關係、所述駕駛員的分心駕駛等級，從所述分心駕駛提示中確定一種提示對所述駕駛員進行分心駕駛提示；

訓練單元17，用於訓練所述神經網路；

發送單元18，用於向與所述車輛通信連接的伺服器或終端發送所述駕駛員的注意力監測結果；

分析單元19，用於對所述駕駛員的注意力監測結果進行統計分析；

第二控制單元20，用於在向與所述車輛通信連接的伺服器或終端發送所述駕駛員的注意力監測結果之後，且在接收到所述伺服器或所述終端發送的控制指令的情況下，根據所述控制指令控制所述車輛。

在一種可能實現的方式中，所述預先對所述車進行空間區域劃分得到的多類定義注視區域，包括以下二類或二類以上：左前擋風玻璃區域、右前擋風玻璃區域、儀錶盤區域、車內後視鏡區域、中控台區域、左後視鏡區域、右後視鏡區域、遮光板區域、換擋杆區域、方向盤下方區域、副駕駛區域、副駕駛前方的雜物箱區域。

進一步地，所述第二確定單元13包括：第一確定子單元131，用於根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述至少一滑動時間窗內各類所述注視區域的注視累計時長；第二確定子單元132，用於根據所述至少一滑動時間窗內各類所述注視區域的注視累計時長與預定的時間閾值的比較結果，確定所述駕駛員的注意力監測結果，所述注意力監測結果包括是否分心駕駛和/或分心駕駛等級。

進一步地，所述時間閾值包括：與各類所述定義注視區域分別對應的多個時間閾值，其中，所述多類定義注視區域中至少二個不同類的定義注視區域所對應的時間閾值不同；所述第二確定子單元132還用於：根據所述至少一滑動時間窗內各類所述注視區域的注視累計時長和相應類別的定義注視區域的時間閾值的比較結果，確定所述駕駛員的注意力監測結果。

進一步地，所述第一確定單元12包括：第一檢測子單元121，用於對所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像進行視線和/或頭部姿態檢測；第三確定子單元122，用於根據每幀臉部圖像的視線和/或頭部姿態的檢測結果，確定每幀臉部圖像中所述駕駛員的注視區域的類別。

進一步地，所述第一確定單元12還包括：處理子單元123，用於將多幀所述臉部圖像分別輸入神經網路並經所述神經網路分別輸出每幀臉部圖像中所述駕駛員的注視區域的類別，其中：所述神經網路預先採用包括有注視區域類別標注資訊的人臉圖像集預先訓練完成，或者，所述神經網路預先採用包括有注視區域類別標注資訊的人臉圖像集以及基於所述人臉圖像集中各人臉圖像截取的眼部圖像預先訓練完成；所述注視區域類別標注資訊包括所述多類定義注視區域之一。

進一步地，所述預先設定的分心駕駛等級與注意監測結果的映射關係包括：在多個連續滑動時間窗的監測結果均為分心駕駛的情況下，所述分心駕駛等級與滑動時間窗的數量成正相關。

進一步地，所述第一確定單元12，還包括：第五確定子單元124，用於根據圖像品質評價指標，分別確定採集到的多個視頻各自包括的多幀位於所述駕駛區域的駕駛員的臉部圖像中各幀臉部圖像的圖像品質評分；第六確定子單元125，用於分別確定所述多個視頻時刻對齊的各幀臉部圖像中圖像品質評分最高的臉部圖像；第七確定子單元126，用於分別確定各圖像品質評分最高的臉部圖像中所述駕駛員的注視區域的類別。

進一步地，所述圖像品質評價指標包括以下至少之一：圖像中是否包括有眼部圖像、圖像中眼部區域的清晰度、圖像中眼部區域的遮擋情況、圖像中眼部區域的睜閉眼情況。

進一步地，所述第一確定單元12，還包括：第二檢測子單元127，用於針對採集到的多個視頻各自包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別檢測時刻對齊的各幀臉部圖像中所述駕駛員的注視區域類別；第八確定子單元128，用於將得到的各注視區域類別中多數結果確定為該時刻的臉部圖像的注視區域類別。

請參閱圖8，圖8為本申請實施例提供的一種訓練單元17的結構示意圖，該單元17包括：獲取子單元171，用於獲取所述人臉圖像集中包括有注視區域類別標注資訊的人臉圖像；圖像截取子單元172，用於截取所述人臉圖像中的至少一眼的眼部圖像，所述至少一眼包括左眼和/或右眼；特徵提取子單元173，用於分別提取所述人臉圖像的第一特徵和至少一眼的眼部圖像的第二特徵；特徵融合子單元174，用於融合所述第一特徵和所述第二特徵，得到第三特徵；第四確定子單元175，用於根據所述第三特徵確定所述人臉圖像的注視區域類別檢測結果；調整子單元176，用於根據所述注視區域類別檢測結果和所述注視區域類別標注資訊的差異，調整所述神經網路的網路參數。

在一些實施例中，本公開實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

圖9為本申請實施例提供的一種駕駛員注意力監測裝置的硬體結構示意圖。該監測裝置3包括處理器31，還可以包括輸入裝置32、輸出裝置33和記憶體34。該輸入裝置32、輸出裝置33、記憶體34和處理器31之間通過匯流排相互連接。

記憶體包括但不限於是隨機存取記憶體(random access memory，RAM)、唯讀記憶體(read-only memory，ROM)、可擦除可程式設計唯讀記憶體(erasable programmable read only memory，EPROM)、或可擕式唯讀記憶體(compact disc read-only memory，CD-ROM)，該記憶體用於相關指令及資料。

輸入裝置用於輸入資料和/或信號，以及輸出裝置用於輸出資料和/或信號。輸出裝置和輸入裝置可以是獨立的器件，也可以是一個整體的器件。

處理器可以包括是一個或多個處理器，例如包括一個或多個中央處理器(central processing unit，CPU)，在處理器是一個CPU的情況下，該CPU可以是單核CPU，也可以是多核CPU。

記憶體用於儲存網路設備的程式碼和資料。

處理器用於調用該記憶體中的程式碼和資料，執行上述方法實施例中的步驟。具體可參見方法實施例中的描述，在此不再贅述。

可以理解的是，圖9僅僅示出了一種駕駛員注意力監測裝置的簡化設計。在實際應用中，駕駛員注意力監測裝置還可以分別包含必要的其他元件，包含但不限於任意數量的輸入/輸出裝置、處理器、控制器、記憶體等，而所有可以實現本申請實施例的駕駛員注意力監測裝置都在本申請的保護範圍之內。

本領域普通技術人員可以意識到，結合本文中所公開的實施例描述的各示例的單元及演算法步驟，能夠以電子硬體、或者電腦軟體和電子硬體的結合來實現。這些功能究竟以硬體還是軟體方式來執行，取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本申請的範圍。

所屬領域的技術人員可以清楚地瞭解到，為描述的方便和簡潔，上述描述的系統、裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。所屬領域的技術人員還可以清楚地瞭解到，本申請各個實施例描述各有側重，為描述的方便和簡潔，相同或類似的部分在不同實施例中可能沒有贅述，因此，在某一實施例未描述或未詳細描述的部分可以參見其他實施例的記載。

在本申請所提供的幾個實施例中，應該理解到，所揭露的系統、裝置和方法，可以通過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或元件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面，裝置或單元的間接耦合或通信連接，可以是電性，機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外，在本申請各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。

在上述實施例中，可以全部或部分地通過軟體、硬體、固件或者其任意組合來實現。當使用軟體實現時，可以全部或部分地以電腦程式產品的形式實現。所述電腦程式產品包括一個或多個電腦指令。在電腦上載入和執行所述電腦程式指令時，全部或部分地產生按照本申請實施例所述的流程或功能。所述電腦可以是通用電腦、專用電腦、電腦網路、或者其他可程式設計裝置。所述電腦指令可以儲存在電腦可讀儲存介質中，或者通過所述電腦可讀儲存介質進行傳輸。所述電腦指令可以從一個網站網站、電腦、伺服器或資料中心通過有線(例如同軸電纜、光纖、數位用戶線路(digital subscriber line，DSL))或無線(例如紅外、無線、微波等)方式向另一個網站網站、電腦、伺服器或資料中心進行傳輸。所述電腦可讀儲存介質可以是電腦能夠存取的任何可用介質或者是包含一個或多個可用介質集成的伺服器、資料中心等資料存放裝置。所述可用介質可以是磁性介質，(例如，軟碟、硬碟、磁帶)、光介質(例如，數位通用光碟(digital versatile disc，DVD))、或者半導體介質(例如固態硬碟(solid state disk，SSD))等。

本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程，該流程可以由電腦程式來指令相關的硬體完成，該程式可儲存於電腦可讀取儲存介質中，該程式在執行時，可包括如上述各方法實施例的流程。而前述的儲存介質包括：唯讀記憶體(read-only memory，ROM)或隨機儲存記憶體(random access memory，RAM)、磁碟或者光碟等各種可儲存程式碼的介質。

圖1代表圖為流程圖，無元件符號簡單說明。

Claims

一種駕駛員注意力監測方法，包括：經車上設置的攝影頭針對所述車的駕駛區域採集視頻；根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，其中，每幀臉部圖像的注視區域屬於預先對所述車進行空間區域劃分得到的多類定義注視區域之一；根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述駕駛員的注意力監測結果；所述根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，包括：將多幀所述臉部圖像分別輸入神經網路並經所述神經網路分別輸出每幀臉部圖像中所述駕駛員的注視區域的類別，其中：所述神經網路預先採用包括有注視區域類別標注資訊的人臉圖像集預先訓練完成，或者，所述神經網路預先採用包括有注視區域類別標注資訊的人臉圖像集以及基於所述人臉圖像集中各人臉圖像截取的眼部圖像預先訓練完成；所述注視區域類別標注資訊包括所述多類定義注視區域之一。
根據請求項1所述的方法，其中，所述預先對所述車進行空間區域劃分得到的多類定義注視區域，包括以下二類或二類以上：左前擋風玻璃區域、右前擋風玻璃區域、儀錶盤區域、車內後視鏡區域、中控台區域、左後視鏡區域、右後視鏡區域、遮光板區域、換擋杆區域、方向盤下方區域、副駕駛區域、副駕駛前方的雜物箱區域。
根據請求項1或2所述的方法，其中，所述根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述駕駛員的注意力監測結果，包括：根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述至少一滑動時間窗內各類所述注視區域的注視累計時長；根據所述至少一滑動時間窗內各類所述注視區域的注視累計時長與預定的時間閾值的比較結果，確定所述駕駛員的注意力監測結果，所述注意力監測結果包括是否分心駕駛和/或分心駕駛等級。
根據請求項3所述的方法，其中，所述時間閾值包括：與各類所述定義注視區域分別對應的多個時間閾值，其中，所述多類定義注視區域中至少二個不同類的定義注視區域所對應的時間閾值不同；根據所述至少一滑動時間窗內各類所述注視區域的注視累計時長與預定的時間閾值的比較結果，確定所述駕駛員的注意力監測結果，包括：根據所述至少一滑動時間窗內各類所述注視區域的注視累計時長和相應類別的定義注視區域的時間閾值的比較結果，確定所述駕駛員的注意力監測結果。
根據請求項1至2任意一項所述的方法，其中，所述根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，包括：對所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像進行視線和/或頭部姿態檢測；根據每幀臉部圖像的視線和/或頭部姿態的檢測結果，確定每幀臉部圖像中所述駕駛員的注視區域的類別。
根據請求項1所述的方法，其中，所述神經網路的訓練方法包括：獲取所述人臉圖像集中包括有注視區域類別標注資訊的人臉圖像；截取所述人臉圖像中的至少一眼的眼部圖像，所述至少一眼包括左眼和/或右眼；分別提取所述人臉圖像的第一特徵和至少一眼的眼部圖像的第二特徵；融合所述第一特徵和所述第二特徵，得到第三特徵；根據所述第三特徵確定所述人臉圖像的注視區域類別檢測結果；根據所述注視區域類別檢測結果和所述注視區域類別標注資訊的差異，調整所述神經網路的網路參數。
根據請求項1至2任意一項所述的方法，其中，所述方法還包括：在所述駕駛員的注意力監測結果為分心駕駛的情況下，對所述駕駛員進行分心駕駛提示，所述分心駕駛提示包括以下至少之一：文字提示、語音提示、氣味提示、低電流刺激提示；或者，在所述駕駛員的注意力監測結果為分心駕駛的情況下，根據預先設定的分心駕駛等級與注意監測結果的映射關係、所述駕駛員的注意力監測結果，確定所述駕駛員的分心駕駛等級；根據預先設定的分心駕駛等級與分心駕駛提示的映射關係、所述駕駛員的分心駕駛等級，從所述分心駕駛提示中確定一種提示對所述駕駛員進行分心駕駛提示。
根據請求項7所述的方法，其中，所述預先設定的分心駕駛等級與注意監測結果的映射關係包括：在多個連續滑動時間窗的監測結果均為分心駕駛的情況下，所述分心駕駛等級與滑動時間窗的數量成正相關。
根據請求項1至2任意一項所述的方法，其中，所述經車上設置的攝影頭針對所述車的駕駛區域採集視頻，包括：經在車上多個區域分別部署的多個攝影頭從不同角度分別採集駕駛區域的視頻；根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，包括：根據圖像品質評價指標，分別確定採集到的多個視頻各自包括的多幀位於所述駕駛區域的駕駛員的臉部圖像中各幀臉部圖像的圖像品質評分；分別確定所述多個視頻時刻對齊的各幀臉部圖像中圖像品質評分最高的臉部圖像；分別確定各圖像品質評分最高的臉部圖像中所述駕駛員的注視區域的類別。
根據請求項9所述的方法，其中，所述圖像品質評價指標包括以下至少之一：圖像中是否包括有眼部圖像、圖像中眼部區域的清晰度、圖像中眼部區域的遮擋情況、圖像中眼部區域的睜閉眼情況。
根據請求項1至2任意一項所述的方法，其中，所述經車上設置的攝影頭針對所述車的駕駛區域採集視頻，包括：經在車上多個區域分別部署的多個攝影頭從不同角度分別採集駕駛區域的視頻；所述根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，包括：針對採集到的多個視頻各自包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別檢測時刻對齊的各幀臉部圖像中所述駕駛員的注視區域類別；將得到的各注視區域類別中多數結果確定為該時刻的臉部圖像的注視區域類別。
根據請求項1至2任意一項所述的方法，其中，所述方法還包括：向與所述車輛通信連接的伺服器或終端發送所述駕駛員的注意力監測結果；和/或，對所述駕駛員的注意力監測結果進行統計分析。
根據請求項12所述的方法，其中，在向與所述車輛通信連接的伺服器或終端發送所述駕駛員的注意力監測結果之後，還包括：在接收到所述伺服器或所述終端發送的控制指令的情況下，根據所述控制指令控制所述車輛。
一種駕駛員注意力監測裝置，包括：第一控制單元，用於經車上設置的攝影頭針對所述車的駕駛區域採集視頻；第一確定單元，用於根據所述視頻包括的多幀位於所述駕駛區域的駕駛員的臉部圖像，分別確定每幀臉部圖像中所述駕駛員的注視區域的類別，其中，每幀臉部圖像的注視區域屬於預先對所述車進行空間區域劃分得到的多類定義注視區域之一；第二確定單元，用於根據所述視頻中至少一滑動時間窗內所包括的各幀臉部圖像的各所述注視區域的類別分佈，確定所述駕駛員的注意力監測結果；所述第一確定單元包括：處理子單元，用於將多幀所述臉部圖像分別輸入神經網路並經所述神經網路分別輸出每幀臉部圖像中所述駕駛員的注視區域的類別，其中：所述神經網路預先採用包括有注視區域類別標注資訊的人臉圖像集預先訓練完成，或者，所述神經網路預先採用包括有注視區域類別標注資訊的人臉圖像集以及基於所述人臉圖像集中各人臉圖像截取的眼部圖像預先訓練完成；所述注視區域類別標注資訊包括所述多類定義注視區域之一。
一種電子設備，包括記憶體和處理器，所述記憶體上儲存有電腦可執行指令，所述處理器運行所述記憶體上的電腦可執行指令時實現請求項1至13任一項所述的方法。
一種電腦可讀儲存介質，所述電腦可讀儲存介質中儲存有電腦程式，該電腦程式被處理器執行時，實現請求項1至13任一項所述的方法。