TWI786893B

TWI786893B - 艙內監控與情境理解感知方法及其系統

Info

Publication number: TWI786893B
Application number: TW110138755A
Authority: TW
Inventors: 林義傑
Original assignee: 財團法人車輛研究測試中心
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-12-11
Also published as: TW202317415A

Abstract

本發明提供一種艙內監控與情境理解感知方法。艙內影像擷取步驟從車輛艙內擷取艙內影像。生成對抗網路模型建立步驟根據艙內影像建立生成對抗網路模型。影像調整步驟根據生成對抗網路模型調整艙內影像以生成近似影像。艙內監控步驟根據臉部辨識模型與人體姿態檢測模型處理近似影像以產生臉部辨識結果與人體姿態檢測結果。艙外影像及語音擷取步驟擷取艙外影像，且從車輛艙內擷取語音資訊。情境理解感知步驟根據情境理解模型處理近似影像、艙外影像及語音資訊之至少一者以感知出情境理解結果。藉此，實現艙內外場景解析與安全提升。

Description

艙內監控與情境理解感知方法及其系統

本發明是關於一種艙內監控與情境理解感知方法及其系統，特別是關於一種可監控車輛艙內外與艙內人行為，且具有車輛對艙內人主動式人機互動的艙內監控與情境理解感知方法及其系統。

隨著經濟與科技的蓬勃發展，於各城市以及道路間通行的車輛亦隨之成長。然而，受到生活壓力和精神緊張狀態的影響，容易造成疲勞駕駛、駕駛注意力不集中及乘客行為異常，甚至遭遇車輛艙外的突發事件。因此，監控車輛艙內外與車輛環境感知可大大提升車輛行駛時的安全。

近年來，應用於車輛的駕駛監控系統(Driver Monitoring System；DMS)與視覺問答(Visual Question Answering；VQA)日新月異。但是，DMS的監控範圍相當有限，且目前車輛市場的趨勢主要關注在寬視野(Field Of View；FOV)下的監控能力實現。另一方面，習知的VQA仍然缺少車輛對人主動式人機互動。

此外，基於視覺信息的DMS通常利用機器視覺技術或是感測器檢測駕駛的臉部特徵與視線方向來判斷駕駛的精神狀況，但習知的駕駛監控方法在檢測過程中容易受艙內環境與攝像鏡頭拍攝角度的影響，例如：在昏暗光線下評估容易造成誤判，其降低檢測結果的有效性和準確率。

有鑒於此，針對習知的DMS與VQA所存在之問題點，如何建立一種可有效地監控車輛艙內的駕駛與乘客且同時進行車輛對人主動式人機互動的艙內監控與情境理解感知方法及其系統，實為民眾所殷切企盼，亦係相關業者須努力研發突破之目標及方向。

因此，本發明之目的在於提供一種艙內監控與情境理解感知方法及其系統，其先透過生成對抗網路模型調整艙內影像至正常曝光值之後，才針對駕駛或是乘客進行臉部辨識與人體姿態檢測，藉以確保檢測結果的準確率。此外，本發明同時整合艙內外的影像資訊與語音資訊來達到車輛對人主動式人機互動，進而實現艙內外場景解析與安全提升。

依據本發明的一實施方式提供一種艙內監控與情境理解感知方法，其用以監控一車輛艙內並感知一情境理解結果。艙內監控與情境理解感知方法包含一艙內影像擷取步驟、一生成對抗網路模型建立步驟、一影像調整步驟、一艙內監控步驟、一艙外影像及語音擷取步驟以及一情境理解感知步驟。艙內影像擷取步驟係驅動一第一攝影單元從車輛艙內擷取一艙內影像並儲存艙內影像至一儲存單元。艙內影像包含一過曝光影像、一正常曝光影像及一少曝光影像。生成對抗網路模型建立步驟係驅動一運算處理單元根據來自儲存單元之艙內影像的過曝光影像、正常曝光影像及少曝光影像建立一生成對抗網路模型。影像調整步驟係驅動運算處理單元根據生成對抗網路模型調整艙內影像以生成近似正常曝光影像之一近似影像。艙內監控步驟係驅動運算處理單元根據一臉部辨識模型與一人體姿態檢測模型處理近似影像以產生一臉部辨識結果與一人體姿態檢測結果。艙外影像及語音擷取步驟係驅動一第二攝影單元擷取一艙外影像並儲存艙外影像至儲存單元，且驅動一音訊單元從車輛艙內擷取一語音資訊並儲存語音資訊至儲存單元。情境理解感知步驟係驅動運算處理單元根據一情境理解模型處理近似影像、艙外影像及語音資訊之至少一者以感知出情境理解結果。

藉此，本發明之艙內監控與情境理解感知方法根據過曝光影像、正常曝光影像及少曝光影像建立生成對抗網路模型，藉以調整艙內影像至正常曝光值，進而確保後續感知出的情境理解結果擁有較高的準確率。

前述實施方式之其他實施例如下：前述生成對抗網路模型建立步驟包含一過曝光鑑別器建立步驟與一少曝光鑑別器建立步驟。過曝光鑑別器建立步驟係驅動運算處理單元根據過曝光影像建立一過曝光鑑別器。少曝光鑑別器建立步驟係驅動運算處理單元根據少曝光影像建立一少曝光鑑別器。其中，生成對抗網路模型係由一生成器、過曝光鑑別器及少曝光鑑別器所組成。

前述實施方式之其他實施例如下：前述影像調整步驟包含一融合影像產生步驟、一光度比對步驟、一對抗結果產生步驟及一光度逼近步驟。融合影像產生步驟係驅動運算處理單元輸入過曝光影像與少曝光影像至生成器以產生一融合影像。光度比對步驟係驅動運算處理單元比對融合影像與少曝光影像以產生一第一光度差值並輸入第一光度差值至過曝光鑑別器，且比對融合影像與過曝光影像以產生一第二光度差值並輸入第二光度差值至少曝光鑑別器。對抗結果產生步驟係驅動過曝光鑑別器根據第一光度差值與過曝光影像輸出一第一對抗結果至生成器，且驅動少曝光鑑別器根據第二光度差值與少曝光影像輸出一第二對抗結果至生成器。光度逼近步驟係驅動生成器根據第一對抗結果與第二對抗結果調整艙內影像以生成近似正常曝光影像之近似影像。

前述實施方式之其他實施例如下：前述儲存單元存取一容許值。影像調整步驟更包含一光度確認步驟。光度確認步驟係驅動運算處理單元對近似影像與正常曝光影像執行一評估運算程序。評估運算程序確認近似影像與正常曝光影像之間的一光度差值是否介於容許值內。其中，當光度差值介於容許值內時，接續執行艙內監控步驟。其中，當光度差值超出容許值時，運算處理單元根據第一對抗結果與第二對抗結果更新生成器。

前述實施方式之其他實施例如下：前述艙內監控步驟包含一臉部辨識步驟與一人體姿態估計步驟。臉部辨識步驟係驅動運算處理單元根據臉部辨識模型從近似影像擷取出複數臉部關鍵點及複數頭部角度點，並運算此些臉部關鍵點及此些頭部角度點以產生臉部辨識結果。人體姿態估計步驟係驅動運算處理單元根據人體姿態檢測模型從近似影像估計一人體骨架，並運算人體骨架以產生人體姿態檢測結果。

依據本發明的另一實施方式提供一種艙內監控與情境理解感知方法，其用以監控一車輛艙內並感知一情境理解結果。艙內監控與情境理解感知方法包含一艙內影像擷取步驟、一影像調整步驟、一艙內監控步驟、一艙外影像及語音擷取步驟、一情境理解模型建立步驟及一情境理解感知步驟。艙內影像擷取步驟係驅動一第一攝影單元從車輛艙內擷取一艙內影像並儲存艙內影像至一儲存單元。影像調整步驟係驅動一運算處理單元根據一生成對抗網路模型調整儲存單元內之艙內影像以生成一近似影像。艙內監控步驟係驅動運算處理單元根據一臉部辨識模型與一人體姿態檢測模型處理近似影像以產生一臉部辨識結果與一人體姿態檢測結果。艙外影像及語音擷取步驟係驅動一第二攝影單元擷取一艙外影像並儲存艙外影像至儲存單元，且驅動一音訊單元從車輛艙內擷取一語音資訊並儲存語音資訊至儲存單元。情境理解模型建立步驟係驅動運算處理單元訓練近似影像、艙外影像及語音資訊以建立一情境理解模型。情境理解感知步驟係驅動運算處理單元根據情境理解模型處理近似影像、艙外影像及語音資訊之至少一者以感知出情境理解結果。

藉此，本發明之艙內監控與情境理解感知方法進行近似影像、艙外影像及語音資訊之特徵學習以訓練出情境理解模型，並導入艙內外影像及駕駛與乘客的語音資訊，進而實現艙外場景的語音問答和艙內場景的問答監控。

前述實施方式之其他實施例如下：前述情境理解模型建立步驟包含一更新步驟與一整合步驟。更新步驟係驅動運算處理單元從儲存單元持續更新近似影像、艙外影像及語音資訊。整合步驟係驅動運算處理單元根據一卷積神經網路與一循環神經網路整合更新後的近似影像、艙外影像及語音資訊以產生情境理解模型。

前述實施方式之其他實施例如下：前述艙內監控步驟包含一手勢分析步驟。手勢分析步驟係驅動運算處理單元分析近似影像中一駕駛人之一手勢而產生一手勢分析結果。其中，整合步驟係根據卷積神經網路與循環神經網路整合更新後的手勢分析結果與語音資訊之至少一者、近似影像及艙外影像，以產生情境理解模型。

前述實施方式之其他實施例如下：前述情境理解結果包含一艙內判斷結果與一艙外判斷結果之至少一者，且情境理解感知步驟包含一艙內人機互動判斷步驟與一艙外人機互動判斷步驟。艙內人機互動判斷步驟係驅動運算處理單元根據情境理解模型處理手勢分析結果或語音資訊，然後判斷近似影像以產生人機互動之艙內判斷結果。艙外人機互動判斷步驟係驅動運算處理單元根據情境理解模型處理手勢分析結果或語音資訊，然後判斷艙外影像以產生人機互動之艙外判斷結果。

依據本發明的又一實施方式提供一種艙內監控與情境理解感知系統，其用以監控一車輛艙內並感知一情境理解結果。艙內監控與情境理解感知系統包含一儲存單元、一第一攝影單元、一第二攝影單元、一音訊單元及一運算處理單元。儲存單元用以存取一生成對抗網路模型、一臉部辨識模型、一人體姿態檢測模型及一情境理解模型。第一攝影單元連接儲存單元，且第一攝影單元從車輛艙內擷取一艙內影像並儲存艙內影像至儲存單元。第二攝影單元連接儲存單元，且第二攝影單元擷取一艙外影像並儲存艙外影像至儲存單元。音訊單元連接儲存單元，且音訊單元從車輛艙內擷取一語音資訊並儲存語音資訊至儲存單元。運算處理單元連接儲存單元，並經配置以實施一影像調整步驟、一艙內監控步驟及一情境理解感知步驟。影像調整步驟係根據生成對抗網路模型調整艙內影像以生成一近似影像。艙內監控步驟係根據臉部辨識模型與人體姿態檢測模型處理近似影像以產生一臉部辨識結果與一人體姿態檢測結果。情境理解感知步驟係根據情境理解模型處理近似影像、艙外影像及語音資訊之至少一者以感知出情境理解結果。

藉此，本發明之艙內監控與情境理解感知系統利用第一攝影單元與第二攝影單元分別擷取艙內影像與艙外影像，並搭配語音資訊一併導入情境理解模型進行運算處理以感知出情境理解結果，進而實現寬視野下的監控能力，且持續地主動更新前述資訊達成更加精準且客製化的人機互動功能。

前述實施方式之其他實施例如下：前述艙內影像包含一過曝光影像、一正常曝光影像及一少曝光影像。運算處理單元更實施一生成對抗網路模型建立步驟。生成對抗網路模型建立步驟係驅動運算處理單元根據來自儲存單元之艙內影像的過曝光影像、正常曝光影像及少曝光影像建立生成對抗網路模型。

前述實施方式之其他實施例如下：前述運算處理單元更實施一情境理解模型建立步驟。情境理解模型建立步驟係驅動運算處理單元訓練近似影像、艙外影像及語音資訊以建立情境理解模型。

前述實施方式之其他實施例如下：前述儲存單元存取一卷積神經網路與一循環神經網路。情境理解模型建立步驟包含一更新步驟與一整合步驟。更新步驟係驅動運算處理單元從儲存單元持續更新近似影像、艙外影像及語音資訊。整合步驟係驅動運算處理單元根據卷積神經網路與循環神經網路整合更新後的近似影像、艙外影像及語音資訊以產生情境理解模型。

前述實施方式之其他實施例如下：前述情境理解結果包含一艙內判斷結果與一艙外判斷結果之至少一者。情境理解感知步驟包含一艙內人機互動判斷步驟與一艙外人機互動判斷步驟。艙內人機互動判斷步驟係驅動運算處理單元根據情境理解模型處理手勢分析結果或語音資訊，然後判斷近似影像以產生人機互動之艙內判斷結果。艙外人機互動判斷步驟係驅動運算處理單元根據情境理解模型處理手勢分析結果或語音資訊，然後判斷艙外影像以產生人機互動之艙外判斷結果。

以下將參閱圖式說明本發明之複數個實施例。為明確說明起見，許多實務上的細節將在以下敘述中一併說明。然而，應瞭解到，這些實務上的細節不應用以限制本發明。也就是說，在本發明部分實施例中，這些實務上的細節是非必要的。此外，為簡化圖式起見，一些習知慣用的結構與元件在圖式中將以簡單示意的方式繪示之；並且重複之元件將可能使用相同的編號表示之。

此外，本文中當某一元件(或單元或模組等)「連接/連結」於另一元件，可指所述元件是直接連接/連結於另一元件，亦可指某一元件是間接連接/連結於另一元件，意即，有其他元件介於所述元件及另一元件之間。而當有明示某一元件是「直接連接/連結」於另一元件時，才表示沒有其他元件介於所述元件及另一元件之間。而第一、第二、第三等用語只是用來描述不同元件，而對元件本身並無限制，因此，第一元件亦可改稱為第二元件。且本文中之元件/單元/電路之組合非此領域中之一般周知、常規或習知之組合，不能以元件/單元/電路本身是否為習知，來判定其組合關係是否容易被技術領域中之通常知識者輕易完成。

請參閱第1圖，其係繪示依照本發明一第一實施例的艙內監控與情境理解感知方法100的流程示意圖。如第1圖所示，艙內監控與情境理解感知方法100用以監控一車輛艙內並感知一情境理解結果160，並包含一艙內影像擷取步驟S01、一生成對抗網路模型建立步驟S02、一影像調整步驟S03、一艙內監控步驟S04、一艙外影像及語音擷取步驟S05以及一情境理解感知步驟S06。

艙內影像擷取步驟S01係驅動一第一攝影單元從車輛艙內擷取一艙內影像110並儲存艙內影像110至一儲存單元。具體而言，第一攝影單元係可為一乘客監控系統(Occupancy Monitoring System；OMS)所應用的一攝像機，但本發明不以此為限。習知的駕駛監控系統(Driver Monitoring System；DMS)所應用的攝像機通常設置在車輛內的方向盤上，用以拍攝或擷取駕駛人的當下影像；不同的是，本發明係將第一攝影單元配置於車輛內的後視鏡上，藉由改變攝影機的配置位置，達到全方位監視車輛艙內。

另外，艙內影像110包含一過曝光影像、一正常曝光影像及一少曝光影像。詳細地說，當艙內影像110的曝光值(Exposure Value)大於等於-1.5且小於-1時，艙內影像110係為過曝光影像；當艙內影像110的曝光值大於等於-1且小於1時，艙內影像110係為正常曝光影像；以及當艙內影像110的曝光值大於等於1且小於1.5時，艙內影像110係為少曝光影像。

生成對抗網路模型建立步驟S02係驅動一運算處理單元根據來自儲存單元之艙內影像110的過曝光影像、正常曝光影像及少曝光影像建立一生成對抗網路(Generative Adversarial Network；GAN)模型120。

影像調整步驟S03係驅動運算處理單元根據生成對抗網路模型120調整艙內影像110以生成近似正常曝光影像之一近似影像130。簡而言之，艙內影像110被調整成近似影像130，且近似影像130的曝光值大於等於-1且小於1。

艙內監控步驟S04係驅動運算處理單元根據一臉部辨識模型與一人體姿態檢測模型處理近似影像130以產生一臉部辨識結果141與一人體姿態檢測結果142。

艙外影像及語音擷取步驟S05係驅動一第二攝影單元擷取一艙外影像151並儲存艙外影像151至儲存單元，且驅動一音訊單元從車輛艙內擷取一語音資訊152並儲存語音資訊152至儲存單元。具體而言，第二攝影單元係可為一自動駕駛汽車的先進駕駛輔助系統(Advanced Driver Assistance System；ADAS)所應用的一攝像機，但本發明不以此為限。藉此，本發明之艙內監控與情境理解感知方法100透過第二攝影單元擷取艙外影像151來進行車輛艙外的情境理解。

情境理解感知步驟S06係驅動運算處理單元根據一情境理解模型處理近似影像130、艙外影像151及語音資訊152之至少一者以感知出情境理解結果160。須說明的是，情境理解模型係由運算處理單元事先針對近似影像130、艙外影像151及語音資訊152進行其特徵學習而建立。因此，可將近似影像130、艙外影像151及駕駛人或乘客的語音資訊152導入情境理解模型中，進而可由情境理解結果160來實現車輛對駕駛人或乘客主動式人機互動。

藉此，本發明之艙內監控與情境理解感知方法100根據過曝光影像、正常曝光影像及少曝光影像建立生成對抗網路模型120，藉以調整艙內影像110至正常曝光值，進而確保後續感知出的情境理解結果160擁有較高的準確率。以下段落將配合後續之圖式及實施例詳細說明本發明之生成對抗網路模型建立步驟S02、影像調整步驟S03及艙內監控步驟S04的運作機制。

請一併參閱第1圖、第2圖及第3圖，其中第2圖係繪示第1圖的艙內監控與情境理解感知方法100之影像調整步驟S03的流程示意圖；以及第3圖係繪示第1圖的艙內監控與情境理解感知方法100之生成對抗網路模型120的示意圖。如第1圖與第3圖所示，生成對抗網路模型建立步驟S02可包含一過曝光鑑別器建立步驟S021與一少曝光鑑別器建立步驟S022。過曝光鑑別器建立步驟S021係驅動運算處理單元根據艙內影像110的過曝光影像111建立一過曝光鑑別器121。少曝光鑑別器建立步驟S022係驅動運算處理單元根據艙內影像110的少曝光影像112建立一少曝光鑑別器122。須說明的是，生成對抗網路模型120係由一生成器123、過曝光鑑別器121及少曝光鑑別器122所組成，其中生成器123用以執行影像轉換，並與過曝光鑑別器121和少曝光鑑別器122共同執行GAN學習以更新參數。

如第1圖至第3圖所示，影像調整步驟S03可包含一融合影像產生步驟S031、一光度比對步驟S032、一對抗結果產生步驟S033及一光度逼近步驟S034。

融合影像產生步驟S031係驅動運算處理單元輸入過曝光影像111與少曝光影像112至生成器123，然後生成器123通過其內部模型處理過曝光影像111與少曝光影像112以產生一融合影像124。

光度比對步驟S032係驅動運算處理單元比對融合影像124與少曝光影像112以產生一第一光度差值D1並輸入第一光度差值D1至過曝光鑑別器121，且比對融合影像124與過曝光影像111以產生一第二光度差值D2並輸入第二光度差值D2至少曝光鑑別器122。

對抗結果產生步驟S033係驅動過曝光鑑別器121根據第一光度差值D1與過曝光影像111輸出一第一對抗結果R1至生成器123，且驅動少曝光鑑別器122根據第二光度差值D2與少曝光影像112輸出一第二對抗結果R2至生成器123。詳細的說，於過曝光鑑別器121的部分，本發明將少曝光影像112與融合影像124的光度差異(即第一光度差值D1)連同過曝光影像111一併輸入至過曝光鑑別器121，並以過曝光影像111作為標準進行建模。此模型將建模的生成對抗性結果(即第一對抗結果R1)返回至生成器123。同理，於少曝光鑑別器122的部分，本發明將過曝光影像111與融合影像124的光度差異(即第二光度差值D2)連同少曝光影像112一併輸入至少曝光鑑別器122，並以少曝光影像112作為標準進行建模。此模型將建模的生成對抗性結果(即第二對抗結果R2)返回至生成器123。

光度逼近步驟S034係驅動生成器123根據第一對抗結果R1與第二對抗結果R2調整艙內影像110以生成近似正常曝光影像113之近似影像130。具體而言，生成器123根據第一對抗結果R1調整艙內影像110中的少曝光影像112來產生近似過曝光影像111的影像；或是，生成器123根據第二對抗結果R2調整艙內影像110中的過曝光影像111來產生近似少曝光影像112的影像。因此，本發明將融合影像124與過曝光影像111和少曝光影像112進行差距逼近，以產生第一對抗結果R1與第二對抗結果R2，然後再利用第一對抗結果R1與第二對抗結果R2把艙內影像110調整成近似影像130。

值得說明的是，本發明之儲存單元已存取對應光度的一容許值，且影像調整步驟S03可更包含一光度確認步驟S035。光度確認步驟S035係驅動運算處理單元對近似影像130與正常曝光影像113執行一評估運算程序。評估運算程序確認近似影像130與正常曝光影像113之間的一光度差值是否介於儲存單元所存取的容許值內。因此，當前述的光度差值介於容許值內時，運算處理單元接續執行艙內監控步驟S04。另一方面，當前述的光度差值超出容許值時，運算處理單元根據第一對抗結果R1與第二對抗結果R2更新生成器123。藉此，更新後的生成器123所產生融合影像124再進行一次差距逼近時，將會使得近似影像130越來越接近正常曝光影像113。

如第1圖所示，艙內監控步驟S04可包含一臉部辨識步驟S041與一人體姿態估計步驟S042。臉部辨識步驟S041係驅動運算處理單元根據臉部辨識模型從近似影像130擷取出複數臉部關鍵點及複數頭部角度點，並運算此些臉部關鍵點及此些頭部角度點以產生臉部辨識結果141。人體姿態估計步驟S042係驅動運算處理單元根據人體姿態檢測模型從近似影像130估計一人體骨架，並運算人體骨架以產生人體姿態檢測結果142。

詳細地說，臉部辨識模型係可由整合一臉網(FaceNet)演算法與一頭部姿態估計(Head Pose Estimation)演算法訓練而得，但本發明不以此為限。FaceNet演算法是一種人臉識別網路，其擷取近似影像130中的臉部關鍵點，並對人臉區域進行臉部辨識。另一方面，Head Pose Estimation演算法擷取近似影像130中的頭部角度點，並對人體頭部進行頭部姿態估計。倘若近似影像130中的臉部關鍵點與頭部角度點擷取不完全，則運算處理單元將會重新執行艙內監控步驟S04，直到可供臉部辨識結果141產生的臉部關鍵點與頭部角度點之數量足夠為止。藉此，本發明之艙內監控與情境理解感知方法100利用臉部辨識模型對近似影像130中的駕駛人或乘客進行臉部辨識與頭部姿態估計而產生臉部辨識結果141，進而實現駕駛人的疲勞檢測、行為分析或是情緒控管。

此外，人體姿態檢測模型係可由整合一物件偵測演算法(You OnlyLook Once；YOLO)與一人體姿態估計演算法(OpenPose)而得，但本發明不以此為限。YOLO係屬於一階段的物件偵測(One-stage Object Detection)，也就是只需要對影像作一次卷積神經網路(Convolutional Neural Networks；CNN)便能夠判斷影像內的物件位置與類別。OpenPose係屬於一種用於估計多人2D姿態的演算法，其透過CNN的架構去找每個關節點位置的置信圖(Confidence Map)以及OpenPose新定義出來的關節仿射場(Part Affinity Fields；PAF)。OpenPose在整合上述兩種特徵之後，即可進一步針對每個肢段進行預測，因此OpenPose在多人與背景雜亂的環境下仍可維持一定的人體關節與肢段預測的準確度以及處理速度。藉此，本發明之艙內監控與情境理解感知方法100利用人體姿態檢測模型對近似影像130中的物件、駕駛人或乘客進行物件偵測或是人體姿態估計而產生人體姿態檢測結果142，進而實現艙內監控。

請參閱第4圖，其係繪示依照本發明一第二實施例的艙內監控與情境理解感知方法200的流程示意圖。如第4圖所示，艙內監控與情境理解感知方法200用以監控一車輛艙內並感知一情境理解結果160，並包含一艙內影像擷取步驟S11、一影像調整步驟S12、一艙內監控步驟S13、一艙外影像及語音擷取步驟S14、一情境理解模型建立步驟S15及一情境理解感知步驟S16，其中艙內影像擷取步驟S11、影像調整步驟S12、艙外影像及語音擷取步驟S14及情境理解感知步驟S16均與第一實施例的艙內監控與情境理解感知方法100所對應之步驟相同，故不另贅述。

與第一實施例不同的是，第二實施例的艙內監控步驟S13除了包含臉部辨識步驟S131與人體姿態估計步驟S132各自產生的臉部辨識結果141與人體姿態檢測結果142以外，艙內監控步驟S13可更包含一手勢分析步驟S133。手勢分析步驟S133係驅動運算處理單元分析近似影像130中一駕駛人之一手勢而產生一手勢分析結果143。詳細地說，當車輛艙內的駕駛人或乘客對前述第一攝影單元展示特定的手勢時，第一攝影單元擷取含有此手勢的艙內影像110，然後運算處理單元接續執行影像調整步驟S12將艙內影像110調整成近似影像130。須說明的是，本發明之儲存單元已存取包含各種手勢所代表之意義的一手勢資料庫(未另繪示)。因此，運算處理單元藉由比對手勢資料庫與近似影像130中的手勢以產生手勢分析結果143。

請一併參閱第4圖與第5圖，其中第5圖係繪示第4圖的艙內監控與情境理解感知方法200之情境理解模型建立步驟S15的流程示意圖。如第4圖與第5圖所示，情境理解模型建立步驟S15係驅動運算處理單元訓練近似影像130、艙外影像151及語音資訊152以建立一情境理解模型153。此外，情境理解模型建立步驟S15可包含一更新步驟S151與一整合步驟S152。更新步驟S151係驅動運算處理單元從儲存單元持續更新近似影像130、艙外影像151及語音資訊152。整合步驟S152係驅動運算處理單元根據一卷積神經網路(CNN)與一循環神經網路(Recurrent Neural Network；RNN)整合更新後的近似影像130、艙外影像151及語音資訊152以產生情境理解模型153。詳細地說，整合步驟S152係根據卷積神經網路與循環神經網路整合對應更新後的近似影像130之手勢分析結果143與語音資訊152之至少一者、更新後的近似影像130及更新後的艙外影像151，以產生情境理解模型153。於第二實施例中，循環神經網路可為一長短期記憶模型(Long Short-Term Memory；LSTM)。運算處理單元透過多重感測而不斷地更新近似影像130、艙外影像151及語音資訊152來整合CNN與LSTM，並使用軟體庫(TensorFlow)與網路庫(Keras)進行影像資訊、自然語言、手勢指揮的特徵配對學習，最終建立可實現車輛對駕駛人或乘客主動式人機互動的情境理解模型153，其中TensorFlow係為一開源軟體庫，其用於各種感知與語言理解任務的機器學習。另外，Keras是一個用Python編寫的開源神經網路庫，能夠在TensorFlow內執行，而TensorFlow與Keras為習知技術且非本發明之重點，細節不另贅述。於其他實施例中，情境理解模型亦可為一視覺問答模型，例如一堆疊注意力網路(Stacked Attention Networks；SAN)，且本發明不以此為限。

請一併參閱第4圖、第5圖及第6圖，其中第6圖係繪示第4圖的艙內監控與情境理解感知方法200之情境理解感知步驟S16的流程示意圖。如第4圖、第5圖及第6圖所示，情境理解感知步驟S16可包含一艙內人機互動判斷步驟S161與一艙外人機互動判斷步驟S162，且情境理解結果160包含一艙內判斷結果161與一艙外判斷結果162。具體而言，艙內人機互動判斷步驟S161係驅動運算處理單元根據情境理解模型153處理手勢分析結果143或語音資訊152，然後判斷近似影像130以產生人機互動之艙內判斷結果161。艙外人機互動判斷步驟S162係驅動運算處理單元根據情境理解模型153處理手勢分析結果143或語音資訊152，然後判斷艙外影像151以產生人機互動之艙外判斷結果162。

請參閱第7圖，其係繪示第6圖的艙外人機互動判斷步驟S162的示意圖。如第7圖所示，駕駛人或乘客詢問：「前方自行車上的籃子裡有什麼？」，然後車輛艙內的音訊單元擷取前述詢問的語音並產生語音資訊152；或者是，駕駛人或乘客對第一攝影單元展示手勢，然後運算處理單元執行手勢分析步驟S133並產生手勢分析結果143，且第二攝影單元同時地擷取車輛艙外的艙外影像151。接續地，運算處理單元將手勢分析結果143或語音資訊152和艙外影像151導入至情境理解模型153。情境理解模型153經由內部的卷積神經網路1531提取艙外影像151的特徵向量V1，且經由長短期記憶模型1532之第一注意力機制層L1與第二注意力機制層L2提取手勢分析結果143或語音資訊152的特徵向量V2。運算處理單元將特徵向量V1、V2進行交互特徵學習，且利用輸出層1533計算長短期記憶模型1532的輸出，並判斷艙外影像151後輸出「答案：狗」(即艙外判斷結果162)。此外，輸出層1533所使用的激活函數可為一Softmax函數、Sigmoid函數或ReLU函數，但本發明不以此為限。

藉此，本發明之艙內監控與情境理解感知方法200進行近似影像130、艙外影像151及語音資訊152之特徵學習以訓練出情境理解模型153，並導入艙內影像110、艙外影像151及駕駛與乘客的語音資訊152，進而實現艙外場景的語音問答和艙內場景的問答監控之主動式人機互動。

請一併參閱第1圖至第8圖，其中第8圖係繪示依照本發明一第三實施例的艙內監控與情境理解感知系統300的方塊示意圖。如第8圖所示，艙內監控與情境理解感知系統300用以監控一車輛艙內並感知一情境理解結果160。艙內監控與情境理解感知系統300包含一車輛310、一感測模組320及一處理模組330。感測模組320與處理模組330設置於車輛310。感測模組320包含一第一攝影單元321、一第二攝影單元322及一音訊單元323。處理模組330電性連接感測模組320，並包含一運算處理單元331與一儲存單元332。

儲存單元332用以存取一生成對抗網路模型3321、一臉部辨識模型3322、一人體姿態檢測模型3323、一情境理解模型3324、一卷積神經網路3325、一循環神經網路3326、一評估運算程序3327及一容許值3328。第一攝影單元321電性連接儲存單元332，且第一攝影單元321從車輛艙內擷取一艙內影像110並將其儲存至儲存單元332。第二攝影單元322電性連接儲存單元332，且第二攝影單元322從車輛艙外擷取一艙外影像151並將其儲存至儲存單元332。音訊單元323電性連接儲存單元332，且音訊單元323從車輛艙內擷取一語音資訊152並將其儲存至儲存單元332。運算處理單元331電性連接儲存單元332，並經配置以實施艙內監控與情境理解感知方法100、200，其中運算處理單元331可為一數位訊號處理器(Digital Signal Processor；DSP)、一微處理器(Micro Processing Unit；MPU)、一中央處理器(Central Processing Unit；CPU)或其他電子處理器，但本發明不以此為限。藉此，本發明之艙內監控與情境理解感知系統300利用第一攝影單元321與第二攝影單元322分別擷取艙內影像110與艙外影像151，並連同語音資訊152一併導入情境理解模型3324進行運算處理以感知出情境理解結果160，進而實現寬視野下的監控能力，且持續地主動更新前述資訊達成更加精準且客製化的人機互動功能。

綜上所述，本發明具有下列優點：其一，實現車輛的艙內外場景解析與安全提升。其二，利用生成對抗網路模型調整艙內影像至正常曝光值，進而確保後續感知出的情境理解結果擁有較高的準確率。其三，將艙內外影像及駕駛與乘客的語音資訊導入情境理解模型，進而實現艙外場景的語音問答和艙內場景的問答監控之主動式人機互動。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100,200:艙內監控與情境理解感知方法 110:艙內影像 111:過曝光影像 112:少曝光影像 113:正常曝光影像 120,3321:生成對抗網路模型 121:過曝光鑑別器 122:少曝光鑑別器 123:生成器 124:融合影像 130:近似影像 141:臉部辨識結果 142:人體姿態檢測結果 143:手勢分析結果 151:艙外影像 152:語音資訊 153,3324:情境理解模型 1531,3325:卷積神經網路 1532:長短期記憶模型 1533:輸出層 160:情境理解結果 161:艙內判斷結果 162:艙外判斷結果 300:艙內監控與情境理解感知系統 310:車輛 320:感測模組 321:第一攝影單元 322:第二攝影單元 323:音訊單元 330:處理模組 331:運算處理單元 332:儲存單元 3322:臉部辨識模型 3323:人體姿態檢測模型 3326:循環神經網路 3327:評估運算程序 3328:容許值 S01,S11:艙內影像擷取步驟 S02:生成對抗網路模型建立步驟 S021:過曝光鑑別器建立步驟 S022:少曝光鑑別器建立步驟 S03,S12:影像調整步驟 S031:融合影像產生步驟 S032:光度比對步驟 S033:對抗結果產生步驟 S034:光度逼近步驟 S035:光度確認步驟 S04,S13:艙內監控步驟 S041,S131:臉部辨識步驟 S042,S132:人體姿態估計步驟 S133:手勢分析步驟 S05,S14:艙外影像及語音擷取步驟 S15:情境理解模型建立步驟 S151:更新步驟 S152:整合步驟 S06,S16:情境理解感知步驟 S161:艙內人機互動判斷步驟 S162:艙外人機互動判斷步驟 D1:第一光度差值 D2:第二光度差值 R1:第一對抗結果 R2:第二對抗結果 V1,V2:特徵向量 L1:第一注意力機制層 L2:第二注意力機制層

為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1圖係繪示依照本發明一第一實施例的艙內監控與情境理解感知方法的流程示意圖；第2圖係繪示第1圖的艙內監控與情境理解感知方法之影像調整步驟的流程示意圖；第3圖係繪示第1圖的艙內監控與情境理解感知方法之生成對抗網路模型的示意圖；第4圖係繪示依照本發明一第二實施例的艙內監控與情境理解感知方法的流程示意圖；第5圖係繪示第4圖的艙內監控與情境理解感知方法之情境理解模型建立步驟的流程示意圖；第6圖係繪示第4圖的艙內監控與情境理解感知方法之情境理解感知步驟的流程示意圖；第7圖係繪示第6圖的艙外人機互動判斷步驟的示意圖；以及第8圖係繪示依照本發明一第三實施例的艙內監控與情境理解感知系統的方塊示意圖。

100:艙內監控與情境理解感知方法

110:艙內影像

120:生成對抗網路模型

130:近似影像

141:臉部辨識結果

142:人體姿態檢測結果

151:艙外影像

152:語音資訊

160:情境理解結果

S01:艙內影像擷取步驟

S02:生成對抗網路模型建立步驟

S021:過曝光鑑別器建立步驟

S022:少曝光鑑別器建立步驟

S03:影像調整步驟

S04:艙內監控步驟

S041:臉部辨識步驟

S042:人體姿態估計步驟

S05:艙外影像及語音擷取步驟

S06:情境理解感知步驟

Claims

一種艙內監控與情境理解感知方法，用以監控一車輛艙內並感知一情境理解結果，且該艙內監控與情境理解感知方法包含以下步驟：一艙內影像擷取步驟，係驅動一第一攝影單元從該車輛艙內擷取一艙內影像並儲存該艙內影像至一儲存單元，該艙內影像包含一過曝光影像、一正常曝光影像及一少曝光影像；一生成對抗網路模型建立步驟，係驅動一運算處理單元根據來自該儲存單元之該艙內影像的該過曝光影像、該正常曝光影像及該少曝光影像建立一生成對抗網路模型；一影像調整步驟，係驅動該運算處理單元根據該生成對抗網路模型調整該艙內影像以生成近似該正常曝光影像之一近似影像；一艙內監控步驟，係驅動該運算處理單元根據一臉部辨識模型與一人體姿態檢測模型處理該近似影像以產生一臉部辨識結果與一人體姿態檢測結果；一艙外影像及語音擷取步驟，係驅動一第二攝影單元擷取一艙外影像並儲存該艙外影像至該儲存單元，且驅動一音訊單元從該車輛艙內擷取一語音資訊並儲存該語音資訊至該儲存單元；以及一情境理解感知步驟，係驅動該運算處理單元根據一情境理解模型處理該近似影像、該艙外影像及該語音資訊之至少一者以感知出該情境理解結果。
如請求項1所述之艙內監控與情境理解感知方法，其中該生成對抗網路模型建立步驟包含：一過曝光鑑別器建立步驟，係驅動該運算處理單元根據該過曝光影像建立一過曝光鑑別器；及一少曝光鑑別器建立步驟，係驅動該運算處理單元根據該少曝光影像建立一少曝光鑑別器；其中，該生成對抗網路模型係由一生成器、該過曝光鑑別器及該少曝光鑑別器所組成。
如請求項2所述之艙內監控與情境理解感知方法，其中該影像調整步驟包含：一融合影像產生步驟，係驅動該運算處理單元輸入該過曝光影像與該少曝光影像至該生成器以產生一融合影像；一光度比對步驟，係驅動該運算處理單元比對該融合影像與該少曝光影像以產生一第一光度差值並輸入該第一光度差值至該過曝光鑑別器，且比對該融合影像與該過曝光影像以產生一第二光度差值並輸入該第二光度差值至該少曝光鑑別器；一對抗結果產生步驟，係驅動該過曝光鑑別器根據該第一光度差值與該過曝光影像輸出一第一對抗結果至該生成器，且驅動該少曝光鑑別器根據該第二光度差值與該少曝光影像輸出一第二對抗結果至該生成器；及一光度逼近步驟，係驅動該生成器根據該第一對抗結果與該第二對抗結果調整該艙內影像以生成近似該正常曝光影像之該近似影像。
如請求項3所述之艙內監控與情境理解感知方法，其中該儲存單元存取一容許值，該影像調整步驟更包含：一光度確認步驟，係驅動該運算處理單元對該近似影像與該正常曝光影像執行一評估運算程序，該評估運算程序確認該近似影像與該正常曝光影像之間的一光度差值是否介於該容許值內；其中，當該光度差值介於該容許值內時，接續執行該艙內監控步驟；其中，當該光度差值超出該容許值時，該運算處理單元根據該第一對抗結果與該第二對抗結果更新該生成器。
如請求項1所述之艙內監控與情境理解感知方法，其中該艙內監控步驟包含：一臉部辨識步驟，係驅動該運算處理單元根據該臉部辨識模型從該近似影像擷取出複數臉部關鍵點及複數頭部角度點，並運算該些臉部關鍵點及該些頭部角度點以產生該臉部辨識結果；及一人體姿態估計步驟，係驅動該運算處理單元根據該人體姿態檢測模型從該近似影像估計一人體骨架，並運算該人體骨架以產生該人體姿態檢測結果。
一種艙內監控與情境理解感知方法，用以監控一車輛艙內並感知一情境理解結果，且該艙內監控與情境理解感知方法包含以下步驟：一艙內影像擷取步驟，係驅動一第一攝影單元從該車輛艙內擷取一艙內影像並儲存該艙內影像至一儲存單元；一影像調整步驟，係驅動一運算處理單元根據一生成對抗網路模型調整該儲存單元內之該艙內影像以生成一近似影像；一艙內監控步驟，係驅動該運算處理單元根據一臉部辨識模型與一人體姿態檢測模型處理該近似影像以產生一臉部辨識結果與一人體姿態檢測結果；一艙外影像及語音擷取步驟，係驅動一第二攝影單元擷取一艙外影像並儲存該艙外影像至該儲存單元，且驅動一音訊單元從該車輛艙內擷取一語音資訊並儲存該語音資訊至該儲存單元；一情境理解模型建立步驟，係驅動該運算處理單元訓練該近似影像、該艙外影像及該語音資訊以建立一情境理解模型；以及一情境理解感知步驟，係驅動該運算處理單元根據該情境理解模型處理該近似影像、該艙外影像及該語音資訊之至少一者以感知出該情境理解結果。
如請求項6所述之艙內監控與情境理解感知方法，其中該情境理解模型建立步驟包含：一更新步驟，係驅動該運算處理單元從該儲存單元持續更新該近似影像、該艙外影像及該語音資訊；及一整合步驟，係驅動該運算處理單元根據一卷積神經網路與一循環神經網路整合更新後的該近似影像、該艙外影像及該語音資訊以產生該情境理解模型。
如請求項7所述之艙內監控與情境理解感知方法，其中該艙內監控步驟包含：一手勢分析步驟，係驅動該運算處理單元分析該近似影像中一駕駛人之一手勢而產生一手勢分析結果；其中，該整合步驟係根據該卷積神經網路與該循環神經網路整合更新後的該手勢分析結果與該語音資訊之至少一者、該近似影像及該艙外影像，以產生該情境理解模型。
如請求項8所述之艙內監控與情境理解感知方法，其中該情境理解結果包含一艙內判斷結果與一艙外判斷結果之至少一者，且該情境理解感知步驟包含：一艙內人機互動判斷步驟，係驅動該運算處理單元根據該情境理解模型處理該手勢分析結果或該語音資訊，然後判斷該近似影像以產生人機互動之該艙內判斷結果；及一艙外人機互動判斷步驟，係驅動該運算處理單元根據該情境理解模型處理該手勢分析結果或該語音資訊，然後判斷該艙外影像以產生人機互動之該艙外判斷結果。
一種艙內監控與情境理解感知系統，用以監控一車輛艙內並感知一情境理解結果，且該艙內監控與情境理解感知系統包含：一儲存單元，用以存取一生成對抗網路模型、一臉部辨識模型、一人體姿態檢測模型及一情境理解模型；一第一攝影單元，連接該儲存單元，該第一攝影單元從該車輛艙內擷取一艙內影像並儲存該艙內影像至該儲存單元；一第二攝影單元，連接該儲存單元，該第二攝影單元擷取一艙外影像並儲存該艙外影像至該儲存單元；一音訊單元，連接該儲存單元，該音訊單元從該車輛艙內擷取一語音資訊並儲存該語音資訊至該儲存單元；以及一運算處理單元，連接該儲存單元，該運算處理單元經配置以實施包含以下步驟之操作：一影像調整步驟，係根據該生成對抗網路模型調整該艙內影像以生成一近似影像；一艙內監控步驟，係根據該臉部辨識模型與該人體姿態檢測模型處理該近似影像以產生一臉部辨識結果與一人體姿態檢測結果；及一情境理解感知步驟，係根據該情境理解模型處理該近似影像、該艙外影像及該語音資訊之至少一者以感知出該情境理解結果。
如請求項10所述之艙內監控與情境理解感知系統，其中該艙內影像包含一過曝光影像、一正常曝光影像及一少曝光影像，且該運算處理單元更實施包含以下步驟之操作：一生成對抗網路模型建立步驟，係驅動該運算處理單元根據來自該儲存單元之該艙內影像的該過曝光影像、該正常曝光影像及該少曝光影像建立該生成對抗網路模型。
如請求項11所述之艙內監控與情境理解感知系統，其中該生成對抗網路模型建立步驟包含：一過曝光鑑別器建立步驟，係驅動該運算處理單元根據該過曝光影像建立一過曝光鑑別器；及一少曝光鑑別器建立步驟，係驅動該運算處理單元根據該少曝光影像建立一少曝光鑑別器；其中，該生成對抗網路模型係由一生成器、該過曝光鑑別器及該少曝光鑑別器所組成。
如請求項12所述之艙內監控與情境理解感知系統，其中該影像調整步驟包含：一融合影像產生步驟，係驅動該運算處理單元輸入該過曝光影像與該少曝光影像至該生成器以產生一融合影像；一光度比對步驟，係驅動該運算處理單元比對該融合影像與該少曝光影像以產生一第一光度差值並輸入該第一光度差值至該過曝光鑑別器，且比對該融合影像與該過曝光影像以產生一第二光度差值並輸入該第二光度差值至該少曝光鑑別器；一對抗結果產生步驟，係驅動該過曝光鑑別器根據該第一光度差值與該過曝光影像輸出一第一對抗結果至該生成器，且驅動該少曝光鑑別器根據該第二光度差值與該少曝光影像輸出一第二對抗結果至該生成器；及一光度逼近步驟，係驅動該生成器根據該第一對抗結果與該第二對抗結果調整該艙內影像以生成近似該正常曝光影像之該近似影像。
如請求項13所述之艙內監控與情境理解感知系統，其中該儲存單元存取一容許值，該影像調整步驟更包含：一光度確認步驟，係驅動該運算處理單元對該近似影像與該正常曝光影像執行一評估運算程序，該評估運算程序確認該近似影像與該正常曝光影像之間的一光度差值是否介於該容許值內；其中，當該光度差值介於該容許值內時，接續執行該艙內監控步驟；其中，當該光度差值超出該容許值時，該運算處理單元根據該第一對抗結果與該第二對抗結果更新該生成器。
如請求項10所述之艙內監控與情境理解感知系統，其中該艙內監控步驟包含：一臉部辨識步驟，係驅動該運算處理單元根據該臉部辨識模型從該近似影像擷取出複數臉部關鍵點及複數頭部角度點，並運算該些臉部關鍵點及該些頭部角度點以產生該臉部辨識結果；及一人體姿態估計步驟，係驅動該運算處理單元根據該人體姿態檢測模型從該近似影像估計一人體骨架，並運算該人體骨架以產生該人體姿態檢測結果。
如請求項10所述之艙內監控與情境理解感知系統，其中該運算處理單元更實施包含以下步驟之操作：一情境理解模型建立步驟，係驅動該運算處理單元訓練該近似影像、該艙外影像及該語音資訊以建立該情境理解模型。
如請求項16所述之艙內監控與情境理解感知系統，其中該儲存單元存取一卷積神經網路與一循環神經網路，該情境理解模型建立步驟包含：一更新步驟，係驅動該運算處理單元從該儲存單元持續更新該近似影像、該艙外影像及該語音資訊；及一整合步驟，係驅動該運算處理單元根據該卷積神經網路與該循環神經網路整合更新後的該近似影像、該艙外影像及該語音資訊以產生該情境理解模型。
如請求項17所述之艙內監控與情境理解感知系統，其中該艙內監控步驟包含：一手勢分析步驟，係驅動該運算處理單元分析該近似影像中一駕駛人之一手勢而產生一手勢分析結果；其中，該整合步驟係根據該卷積神經網路與該循環神經網路整合更新後的該手勢分析結果與該語音資訊之至少一者、該近似影像及該艙外影像，以產生該情境理解模型。
如請求項18所述之艙內監控與情境理解感知系統，其中該情境理解結果包含一艙內判斷結果與一艙外判斷結果之至少一者，且該情境理解感知步驟包含：一艙內人機互動判斷步驟，係驅動該運算處理單元根據該情境理解模型處理該手勢分析結果或該語音資訊，然後判斷該近似影像以產生人機互動之該艙內判斷結果；及一艙外人機互動判斷步驟，係驅動該運算處理單元根據該情境理解模型處理該手勢分析結果或該語音資訊，然後判斷該艙外影像以產生人機互動之該艙外判斷結果。