TWI767775B - 影像式情緒辨識系統和方法 - Google Patents
影像式情緒辨識系統和方法 Download PDFInfo
- Publication number
- TWI767775B TWI767775B TW110124027A TW110124027A TWI767775B TW I767775 B TWI767775 B TW I767775B TW 110124027 A TW110124027 A TW 110124027A TW 110124027 A TW110124027 A TW 110124027A TW I767775 B TWI767775 B TW I767775B
- Authority
- TW
- Taiwan
- Prior art keywords
- emotion
- facial
- image
- feature vector
- emotional
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Collating Specific Patterns (AREA)
Abstract
本發明主要揭示一種影像式情緒辨識系統,其包括:一攝影裝置與一核心處理器。依據本發明之設計,該核心處理器具有一人臉偵測單元、一特徵處理模組、一特徵整合單元、一轉換模組、一臉部動作判斷單元、以及一情緒判斷單元。依據本發明之設計,在使用一情緒狀態辨識模型的情況下,該情緒判斷單元依據至少一用戶臉部動作、至少一情緒向度值、以及複數個所述情緒分數判斷用戶的情緒狀態。
Description
本發明係關於情緒辨識系統之技術領域,尤指一種影像式情緒辨識系統和方法。
當前,高度便利的交通運輸和科技電子產品加速了人們的生活步調。可惜的是,研究報告指出,快速、忙碌的生活步調在無形之中造成了人們的生活壓力。長期下來,沒有獲得適當釋放的生活壓力使人們患有情緒病,從而容易出現煩躁、憂慮、低落等負面情緒表現。因此,在某些情境或場所中,有需要對個人情緒進行偵測,從而能夠預防任何可能的突發狀況。
美國專利號 US9,972,341揭示一種情緒辨識裝置(Apparatus for emotion recognition),其利用收集一受試者的語音(speech voice)和萃取、分析語音特徵的方式,實現對於該受試者的情緒辨識。另一方面,中國專號公開號CN104391569A揭示一種利用腦機介面(Brain-computer interface, BCI)實現情緒辨識的系統。換句話說,大部分的習知的情緒辨識系統需要多個接收器以接收音訊/腦波等輸入信號,接著對輸入資訊進行特徵提取和分析,使得整個情緒辨識作業的變得複雜且耗時。
進一步地,隨著機器視覺(Machine vision, MV)和機器學習(Machine learning, ML)的技術成熟及廣泛應用,直接對受試者的臉部影像進行特徵提取和分析從而實現情緒辨識變得可行。舉例而言,美國專利號US9,576,190揭示一種情緒辨識裝置,其係自一影像信號中擷取一受試者的一臉部影像,接著對該臉部影像進行特徵提取及分析,從而實現對於該受試者的情緒辨識。熟悉利用機器學習進行人臉識別之技術的電腦科學工程師應知道,臉部特徵資料庫會顯著影響所訓練出來的臉部情緒識別模型之辨識準確性。常用的臉部特徵資料庫包括:Fer2013 dataset 、Real-world Affective Faces (RAF) Database、AffectNet Dataset、CK+及JAFFE等。
然而,應知道的是,「類別論」和「向度論」為兩種主要的情緒定義方式。舉例而言,類別論學者Tomkin定義了八種基本情緒:驚訝(suprise)、有趣(interest)、愉悅(pleasure)、生氣(angry)、害怕(fear)、厭惡(disgust)、羞愧(shame)、與痛苦(pain), 而向度論學者及Russell 亦以愉悅 (pleasure) / 不愉悅(displeasure)、喚起程度高低(Valence--Arousal)以及支配(dominance)/服從(submissiveness)此三個向度來說明情緒。
簡單地說,習知的利用臉部特徵分析之情緒辨識裝置主要依據常用的臉部特徵資料庫來進行臉部情緒識別模型的訓練與建立,接著利用該臉部情緒識別模型進行受測者的臉部情緒之種類辨識,如:驚訝、有趣、愉悅、生氣、害怕、厭惡、羞愧、和痛苦。換句話說,在進行臉部情緒識別模型的訓練之時,習知的利用臉部特徵分析之情緒辨識裝置並沒有同時參考所謂的臉部情緒向度資料庫,因此,習知的利用臉部特徵分析之情緒辨識裝置的辨識準確性仍有待加強。
由上述說明可知,習知的各種情緒辨識裝置皆具有需要加以改善的空間。有鑑於此,本案之發明人係極力加以研究發明,而終於研發完成一種影像式情緒辨識系統和方法。
本發明之主要目的在於提供一種影像式情緒辨識系統,其包括:一攝影裝置與一核心處理器。依據本發明之設計,該核心處理器具有一人臉偵測單元、一特徵處理模組、一特徵整合單元、一轉換模組、一臉部動作判斷單元、以及一情緒判斷單元。依據本發明之設計,在使用一情緒狀態辨識模型的情況下,該情緒判斷單元依據至少一用戶臉部動作、至少一情緒向度值、以及複數個所述情緒分數判斷用戶的情緒狀態。
簡單地說,本發明係自用戶的臉部影像提取出複數個臉部特徵、複數個臉部情緒特徵以及臉部動作特徵的方式實現對於用戶的情緒辨識,使得情緒辨識的基礎依據不限於情緒類別(基於臉部表情),而是同時涵蓋與心理學有關的情緒類別和情緒向度以及外在的與情緒反應有關的臉部動作,從而大幅提升情緒辨識的準確度。
進一步地,本發明之影像式情緒辨識系統僅需利用攝影裝置擷取用戶影像,便可接續地進行特徵提取以進行情緒辨識。因此,在整個情緒辨識的作業流程非常簡單,同時,也不需要使用任何接收器以接收音訊/腦波等輸入信號,使得本發明之影像式情緒辨識系統具有低成本之優勢。
為達成上述目的,本發明提出所述影像式情緒辨識系統的一實施例,其包括:
一攝影裝置,用以自一用戶擷取一用戶影像;
一核心處理器,耦接該攝影裝置以接收所述用戶影像,且包括:
一人臉偵測單元,用以自該用戶影像偵測出該用戶的一臉部影像;
一特徵處理模組,用以自所述臉部影像提取出複數個臉部特徵且將該複數個臉部特徵轉換成一第一特徵向量,且同時自所述臉部影像提取出複數個臉部情緒特徵,且將該複數個臉部情緒特徵轉換成一第二特徵向量;
一特徵整合單元,用以對該第一特徵向量和該第二特徵向量執行一特徵向量合併處理以獲得一特徵向量,接著利用一遞迴神經網路模型對所述特徵向量進行一降維處理,從而產生一輸入特徵向量;
一轉換模組,接收所述輸入特徵向量且將該輸入特徵向量轉換成與複數種基本情緒相對應的複數個情緒分數,且同時將該輸入特徵向量轉換成一情緒向度值,該情緒向度值用以描述情緒的正/負面程度以及情緒的興奮強度;
一臉部動作判斷單元,接收所述輸入特徵向量,且將該輸入特徵向量轉換成與複數種臉部動作相對應的複數個臉部動作值,從而依據該複數個臉部動作值判斷該臉部影像的一用戶臉部動作;以及
一情緒判斷單元,具有一情緒狀態判斷模型,從而依據所述用戶臉部動作、所述情緒向度值、複數個所述情緒分數以及該情緒狀態辨識模型判斷該用戶的一情緒狀態。
並且,本發明同時提出一種影像式情緒辨識方法,包括以下步驟:
(1)一攝影裝置自一用戶擷取一用戶影像;
(2)在接收所述用戶影像之後,一核心處理器以其一人臉偵測單元自該用戶影像偵測出該用戶的一臉部影像;
(3)該核心處理器以其一特徵處理模組自所述臉部影像提取出複數個臉部特徵且將該複數個臉部特徵轉換成一第一特徵向量,且同時以其所述特徵處理模組自所述臉部影像提取出複數個臉部情緒特徵,且將該複數個臉部情緒特徵轉換成一第二特徵向量;
(4)該核心處理器以其一特徵整合單元對該第一特徵向量和該第二特徵向量執行一特徵向量合併處理以獲得一特徵向量,接著利用一遞迴神經網路模型對所述特徵向量進行一降維處理,從而產生一輸入特徵向量;
(5)該核心處理器以其一轉換模組將該輸入特徵向量轉換成與複數種基本情緒相對應的複數個情緒分數,且同時將該輸入特徵向量轉換成一情緒向度值,該情緒向度值用以描述情緒的正/負面程度以及情緒的興奮強度;
(6)該核心處理器以其一臉部動作判斷單元將該輸入特徵向量轉換成與複數種臉部動作相對應的複數個臉部動作值,從而依據該複數個臉部動作值判斷該臉部影像的一用戶臉部動作;以及
(7)一情緒判斷單元以其一情緒狀態判斷模型依據所述用戶臉部動作、所述情緒向度值、複數個所述情緒分數以及該情緒狀態辨識模型判斷該用戶的一情緒狀態。
在一實施例中,該特徵處理模組包括:
一第一特徵處理單元,用以自所述臉部影像提取出複數個所述臉部特徵,且將該複數個臉部特徵轉換成所述第一特徵向量;以及
一第二特徵處理單元,用以自所述臉部影像提取出複數個所述臉部情緒特徵,且將該複數個臉部情緒特徵轉換成所述第二特徵向量。
在一實施例中,所述遞迴神經網路模型為選自於由長短期記憶(Long short-term memory, LSTM)模型和遞迴門單元(Gate recurrent unit, GRU)模型所組成群組之中的一種數學模型。
在一實施例中,該轉換模組包括:
一情緒分數計算單元,接收所述輸入特徵向量,且將該輸入特徵向量轉換成複數個所述情緒分數;以及
一情緒向度值計算單元,接收所述輸入特徵向量,且將該輸入特徵向量轉換成所述情緒向度值。
在可行的實施例中,該特徵整合單元採用特徵相加(point-wise addition)或向量拼接(concatenate)的方式實現所述特徵向量合併處理。
在可行的實施例中,該第二特徵處理單元係運用基於卷積神經網路之架構而建立的一臉部特徵提取模型VGG16或VGG19完成自所述臉部影像提取出複數個所述臉部情緒特徵從而將該複數個臉部情緒特徵轉換成所述第二特徵向量。
在一實施例中, 該複數種基本情緒包括:中性、驚訝、快樂、憤怒、厭惡、害怕、與難過。
在可行的實施例中,該核心處理器可進一步包括:
一影像品質損失權重調整單元,用以對所述臉部影像進行一亮度品質估測以及一頭轉角度估測以產生一亮度品質估測值和一頭轉角度估測值,接著依據該亮度品質估測值和該頭轉角度估測值而生成一影像品質損失權重,從而依據該影像品質損失權重對所述臉部影像進行一影像品質調整。
在可行的實施例中,該核心處理器還可進一步包括:
一模型訓練單元,用以依據一訓練樣本資料庫、所述用戶臉部動作、所述情緒向度值、複數個所述情緒分數對該情緒狀態判斷模型進行一情緒域相互關係訓練,提升該情緒狀態判斷模型對於所述情緒向度值和所述情緒分數之間的一情緒域相互關係的判斷準確性;其中,在執行所述情緒域相互關係訓練的過程中,該模型訓練單元還用以依據複數個所述情緒分數而計算出各所述基本情緒的一平均情緒特徵向量和一最短歐式距離,接著依據複數個所述平均情緒特徵向量和複數個所述最短歐式距離而產生一基本情緒特徵損失函數,從而依據該基本情緒特徵損失函數對至少一所述情緒分數進行調整。
在可行的實施例中,該核心處理器可進一步包括:
一損失計算單元,具有一交叉熵損失函數(cross entropy loss)、一均方誤差損失函數(mean square error loss)、一一致性相關係數損失函數(concordance correlation coefficient loss)、與一二元交叉熵損失函數(binary cross entropy loss);
其中,該損失計算單元利用所述交叉熵損失函數計算複數個所述情緒分數之損失,利用所述均方誤差損失函數和所述一致性相關係數損失函數計算所述情緒向度值之損失,利用所述二元交叉熵損失函數計算所述臉部動作值之損失。
在一實施例中,該攝影裝置和該核心處理器皆整合在一電子裝置之中,且該電子裝置為選自於由智慧型電視、智慧型手機、平板電腦、筆記型電腦、一體式電腦、門口機、電子式門鎖、提款機、監控裝置、生理資訊量測裝置、和自動服務機(KIOSK)所組成群組之中的一種電子裝置。
在另一實施例中,僅有該核心處理器整合在一電子裝置之中,而該攝影裝置透過有線連接或無線連接的方式而該核心處理器進行通訊。
為了能夠更清楚地描述本發明所提出之一種影像式情緒辨識系統和方法,以下將配合圖式,詳盡說明本發明之較佳實施例。
第一實施例
請參閱圖1,其顯示包含本發明之一種影像式情緒辨識系統的電子裝置的立體圖。如圖1所示,本發明之影像式情緒辨識系統1主要包括:一攝影裝置11以及一核心處理器12,其中,該核心處理器12整合在該電子裝置3之中,該攝影裝置11透過有線連接或無線連接的方式而該核心處理器12進行通訊。雖然圖1繪示該電子裝置3為一桌上型電腦,應可理解,這僅是用於說明本發明之影像式情緒辨識系統1的一示範性實施例。
在可行的實施例中,所述電子裝置3可以是桌上型電腦、智慧型電視、智慧型手機、平板電腦、筆記型電腦、一體式電腦、門口機、電子式門鎖、提款機、監控裝置、生理資訊量測裝置、或自動服務機(KIOSK)。當然,對於一些已經具有攝影模組的電子裝置3而言,即可以其本身的攝影模組作為該攝影裝置11。因此,在此應用情況下,可以視該攝影裝置11和該核心處理器12同時整合在電子裝置3之中。
繼續地參閱圖1,並請同時參閱圖2,其顯示本發明之影像式情緒辨識系統的核心處理器12的第一方塊圖。如圖1與圖2所示,該核心處理器12包括:一人臉偵測單元121、包含一第一特徵處理單元122與一第二特徵處理單元123的一特徵處理模組、一特徵整合單元124、包含一情緒分數計算單元125與一情緒向度值計算單元126的一轉換模組、一臉部動作判斷單元127、以及一情緒判斷單元128。
繼續地參閱圖1與圖2,且請同時參閱圖3A與圖3B,其顯示本發明之一種影像式情緒辨識方法的流程圖。使用本發明之影像式情緒辨識系統1對一用戶2進行情緒辨識時,首先執行步驟S1:控制該攝影裝置11自該用戶2擷取一用戶影像。於步驟S2中,在接收所述用戶影像之後,該核心處理器12以其人臉偵測單元121自該用戶影像偵測出該用戶2的一臉部影像。在一示範性實施例中,該人臉偵測單元121自該用戶影像偵測出人臉區域以及五官特徵位置(即,眼睛、鼻子、嘴巴、下巴及臉形),接著移動該人臉區域以使鼻子特徵的鼻尖移至該用戶影像的中心點。而後,以鼻尖為中心點旋轉人臉區域以使將眼睛特徵的位置位於水平直線上,最後將調整過後的人臉區域自該用戶影像裁下,輸出為一臉部影像供後面的特徵處理模組進行特徵提取之用。
方法流程接著執行步驟S3:核心處理器12以其特徵處理模組自所述臉部影像提取出複數個臉部特徵且將該複數個臉部特徵轉換成一第一特徵向量,且同時以其所述特徵處理模組自所述臉部影像提取出複數個臉部情緒特徵,且將該複數個臉部情緒特徵轉換成一第二特徵向量。在一實施例中,如圖2所示,該特徵處理模組包括一第一特徵處理單元122和一第二特徵處理單元123。其中,該第一特徵處理單元122亦可稱為非人臉情緒特徵處理單元,其用以自所述臉部影像提取出複數個所述臉部特徵,且將該複數個臉部特徵轉換成所述第一特徵向量。下表(1)示範性地列出的臉部表情與基本情緒的映射關係。換句話說,下表(1)所載之特徵屬於人臉情緒特徵,而該第一特徵處理單元122(即,非人臉情緒特徵處理單元)即規劃用以自所述臉部影像提取出非屬人臉情緒特徵的其它臉部特徵。
表(1)
情緒 | 臉部特徵 |
驚訝 | 嘴巴張開 |
快樂 | 嘴角上揚 |
憤怒 | 嘴角向下 眼孔變大 |
厭惡 | 眉毛皺起 |
害怕 | 眼孔變小 |
難過 | 嘴角向下 眉頭上揚 |
舉例而言,該第一特徵處理單元122自所述臉部影像之中提取出70個特徵(非屬人臉情緒特徵),接著將此70個特徵轉換成512維特徵向量(即,所述第一特徵向量)。另一方面,該第二特徵處理單元123則用以自所述臉部影像提取出複數個所述臉部情緒特徵,且將該複數個臉部情緒特徵轉換成所述第二特徵向量。應知道,複數個所述臉部情緒特徵係用戶2在具有任一種基本情緒之時表現在其臉上,所述基本情緒為:中性(neutral)、驚訝(suprise)、快樂(happiness)、憤怒(angry)、厭惡(disgust)、害怕(fear)、或難過(sadness)。在一示範性實施例中,該第二特徵處理單元123係運用基於卷積神經網路(Convolutional neural network, CNN)之架構而建立的一臉部特徵提取模型VGG16或VGG19完成自所述臉部影像提取出複數個所述臉部情緒特徵從而將該複數個臉部情緒特徵轉換成該第二特徵向量。
如圖2與圖3A所示,方法流程接著執行步驟S4:該核心處理器12以其特徵整合單元124對該第一特徵向量和該第二特徵向量執行一特徵向量合併處理以獲得一特徵向量,接著利用一遞迴神經網路(Recurrent neural network, RNN)模型對所述特徵向量進行一降維(Dimension reduction)處理,從而產生一輸入特徵向量。在可行的實施例中,特徵整合單元124採用特徵相加(point-wise addition)或向量拼接(concatenate)的方式實現所述特徵向量合併處理。並且,
所述遞迴神經網路模型例如是遞迴門單元(Gate recurrent unit, GRU)模型或長短期記憶(Long short-term memory, LSTM)模型。
如圖2與圖3B所示,方法流程接著執行步驟S5:該核心處理器12以其一轉換模組將該輸入特徵向量轉換成與複數種基本情緒相對應的複數個情緒分數,且同時將該輸入特徵向量轉換成一情緒向度值,該情緒向度值用以描述情緒的正/負面程度以及情緒的興奮強度。在一實施例中,如圖2所示,所述轉換模組包括:一情緒分數計算單元125以及一情緒向度值計算單元126。其中,該情緒分數計算單元125接收所述輸入特徵向量,且將該輸入特徵向量轉換成複數個所述情緒分數。並且,該情緒向度值計算單元126接收所述輸入特徵向量,且將該輸入特徵向量轉換成所述情緒向度值。
如圖2與圖3B所示,方法流程接著執行步驟S6:該核心處理器12以其一臉部動作判斷單元127將該輸入特徵向量轉換成與複數種臉部動作相對應的複數個臉部動作值,從而依據該複數個臉部動作值判斷該臉部影像的一用戶臉部動作。舉例而言,所述臉部動作判斷單元127將輸入特徵向量轉換成為臉部動作值AU1、AU2、AU4、AU6、AU12、AU15、AU20及AU25,接著依據這些臉部動作值判斷出用戶臉部動作。最終,方法流程接著執行步驟S7:情緒判斷單元128以其一情緒狀態判斷模型依據所述用戶臉部動作、所述情緒向度值、複數個所述情緒分數以及該情緒狀態辨識模型判斷該用戶2的一情緒狀態。
第二實施例
請重複參閱圖1,且請同時參閱圖4,其顯示顯示本發明之影像式情緒辨識系統的核心處理器12的第二方塊圖。於第二實施例中,本發明之影像式情緒辨識系統1的核心處理器12係更包括:一影像品質損失權重調整單元120。值得說明的是,在不同的攝影環境下,由該攝影裝置11擷取自用戶2的用戶影像的品質會有所差異。特別是,在環境光不足的情況下,所述用戶影像所包含之用戶的臉部影像可能會不夠清楚,從而使得後面的特徵處理模組(122, 123)無法自裁自該用戶影像的臉部影像之中提取出足夠、正確的複數個臉部特徵以及複數個臉部情緒特徵。故而,依據本發明之設計,該影像品質損失權重調整單元120用以對所述臉部影像進行一亮度品質估測以及一頭轉角度估測以產生一亮度品質估測值和一頭轉角度估測值,接著依據該亮度品質估測值和該頭轉角度估測值而生成一影像品質損失權重,從而依據該影像品質損失權重對所述臉部影像進行一影像品質調整。
第三實施例
請重複參閱圖1,且請同時參閱圖5,其顯示顯示本發明之影像式情緒辨識系統1的核心處理器12的第三方塊圖。於第三實施例中,本發明之影像式情緒辨識系統1的核心處理器12係更包括:一模型訓練單元129。補充說明的是,該情緒判斷單元128具有一情緒狀態判斷模型,因此,該情緒判斷單元128可運用該情緒狀態辨識模型從而依據接收自該臉部動作判斷單元127的一用戶臉部動作、接收自該情緒分數計算單元125的複數個所述情緒分數、接收自該情緒向度值計算單元126的一情緒向度值判斷該用戶2的當下情緒狀態。
然而,在臉部特徵資料庫及/或臉部情緒向度資料庫更新的情況下,仍有必要對該情緒判斷單元128所具有之情緒狀態判斷模型進行模型訓練更新。另一方面,已知現階段所述臉部情緒向度資料庫的資源稀少,利用所述臉部情緒向度資料庫進行所述情緒狀態判斷模型的訓練容易影響深度學習的訓練品質。故而,依據本發明之設計,電腦科學工程師可以自行收集、建立一訓練樣本資料庫,從而運用該模型訓練單元129依據所述訓練樣本資料庫、所述用戶臉部動作、所述情緒向度值、複數個所述情緒分數對該情緒狀態判斷模型進行一情緒域相互關係訓練,提升該情緒狀態判斷模型對於所述情緒向度值和所述情緒分數之間的一情緒域相互關係的判斷準確性。並且,在執行所述情緒域相互關係訓練的過程中,該模型訓練單元129還用以依據複數個所述情緒分數而計算出各所述基本情緒的一平均情緒特徵向量和一最短歐式距離,接著依據複數個所述平均情緒特徵向量和複數個所述最短歐式距離而產生一基本情緒特徵損失函數,從而依據該基本情緒特徵損失函數對至少一所述情緒分數進行調整。
於第三實施例中,本發明之影像式情緒辨識系統1的核心處理器12係更包括:一損失計算單元12A,其具有一交叉熵損失函數(cross entropy loss)、一均方誤差損失函數(mean square error loss)、一一致性相關係數損失函數(concordance correlation coefficient loss)、與一二元交叉熵損失函數(binary cross entropy loss)。其中,該損失計算單元12A利用所述交叉熵損失函數計算複數個所述情緒分數之損失,利用所述均方誤差損失函數和所述一致性相關係數損失函數計算所述情緒向度值之損失,利用所述二元交叉熵損失函數計算所述臉部動作值之損失。
如此,上述已完整且清楚地說明本發明之一種影像式情緒辨識系統與方法。然而,必須加以強調的是,前述本案所揭示者乃為較佳實施例,舉凡局部之變更或修飾而源於本案之技術思想而為熟習該項技藝之人所易於推知者,俱不脫本案之專利權範疇。
1:影像式情緒辨識系統
11:攝影裝置
12:核心處理器
120:影像品質損失權重調整單元
121:人臉偵測單元
122:第一特徵處理單元
123:第二特徵處理單元
124:特徵整合單元
125:情緒分數計算單元
126:情緒向度值計算單元
127:臉部動作判斷單元
128:情緒判斷單元
129:模型訓練單元
12A:損失計算單元
2:用戶
3:電子裝置
S1-S7:步驟
圖1為包含本發明之一種影像式情緒辨識系統的電子裝置的立體圖;
圖2為本發明之影像式情緒辨識系統的一核心處理器的第一方塊圖;
圖3A與圖3B為本發明之一種影像式情緒辨識方法的流程圖;
圖4為本發明之影像式情緒辨識系統的核心處理器的第二方塊圖;以及
圖5為本發明之影像式情緒辨識系統的核心處理器的第三方塊圖。
1:影像式情緒辨識系統
11:攝影裝置
12:核心處理器
2:用戶
3:電子裝置
Claims (20)
- 一種影像式情緒辨識系統,包括:一攝影裝置,用以自一用戶擷取一用戶影像;一核心處理器,耦接該攝影裝置以接收所述用戶影像,且包括:一人臉偵測單元,用以自該用戶影像偵測出該用戶的一臉部影像;一特徵處理模組,用以自所述臉部影像提取出複數個臉部特徵且將該複數個臉部特徵轉換成一第一特徵向量,且同時自所述臉部影像提取出複數個臉部情緒特徵,且將該複數個臉部情緒特徵轉換成一第二特徵向量;一特徵整合單元,用以對該第一特徵向量和該第二特徵向量執行一特徵向量合併處理以獲得一特徵向量,接著利用一遞迴神經網路(Recurrent neural network,RNN)模型對所述特徵向量進行一降維(Dimension reduction)處理,從而產生一輸入特徵向量;一轉換模組,接收所述輸入特徵向量且將該輸入特徵向量轉換成與複數種基本情緒相對應的複數個情緒分數,且同時將該輸入特徵向量轉換成一情緒向度值,該情緒向度值用以描述情緒的正/負面程度以及情緒的興奮強度;一臉部動作判斷單元,接收所述輸入特徵向量,且將該輸入特徵向量轉換成與複數種臉部動作相對應的複數個臉部動作值,從而依據該複數個臉部動作值判斷該臉部影像的一用戶臉部動作;以及 一情緒判斷單元,具有一情緒狀態判斷模型,從而依據所述用戶臉部動作、所述情緒向度值、複數個所述情緒分數以及該情緒狀態辨識模型判斷該用戶的一情緒狀態。
- 如請求項1所述之影像式情緒辨識系統,其中,該特徵處理模組包括:一第一特徵處理單元,用以自所述臉部影像提取出複數個所述臉部特徵,且將該複數個臉部特徵轉換成所述第一特徵向量;以及一第二特徵處理單元,用以自所述臉部影像提取出複數個所述臉部情緒特徵,且將該複數個臉部情緒特徵轉換成所述第二特徵向量。
- 如請求項1所述之影像式情緒辨識系統,所述遞迴神經網路模型為選自於由長短期記憶(Long short-term memory,LSTM)模型和遞迴門單元(Gate recurrent unit,GRU)模型所組成群組之中的一種數學模型。
- 如請求項1所述之影像式情緒辨識系統,其中,該轉換模組包括:一情緒分數計算單元,接收所述輸入特徵向量,且將該輸入特徵向量轉換成複數個所述情緒分數;以及一情緒向度值計算單元,接收所述輸入特徵向量,且將該輸入特徵向量轉換成所述情緒向度值。
- 如請求項1所述之影像式情緒辨識系統,其中,該特徵整合單元係採用特徵點相加(point-wise addition)或向量拼接(concatenate)的方式實現所述特徵向量合併處理。
- 如請求項2所述之影像式情緒辨識系統,其中,該第二特徵處理單元係運用基於卷積神經網路(Convolutional neural network,CNN)之架構而建立的一臉部特徵提取模型VGG16或VGG19完成自所述臉部影像提取出複數個所述臉部情緒特徵從而將該複數個臉部情緒特徵轉換成所述第二特徵向量。
- 如請求項4所述之影像式情緒辨識系統,其中,該複數種基本情緒包括:中性、驚訝、快樂、憤怒、厭惡、害怕、與難過。
- 如請求項1所述之影像式情緒辨識系統,其中,該核心處理器更包括:一影像品質損失權重調整單元,用以對所述臉部影像進行一亮度品質估測以及一頭轉角度估測以產生一亮度品質估測值和一頭轉角度估測值,接著依據該亮度品質估測值和該頭轉角度估測值而生成一影像品質損失權重,從而依據該影像品質損失權重對所述臉部影像進行一影像品質調整。
- 如請求項1所述之影像式情緒辨識系統,其中,該核心處理器更包括: 一模型訓練單元,用以依據一訓練樣本資料庫、所述用戶臉部動作、所述情緒向度值、複數個所述情緒分數對該情緒狀態判斷模型進行一情緒域相互關係訓練,提升該情緒狀態判斷模型對於所述情緒向度值和所述情緒分數之間的一情緒域相互關係的判斷準確性;其中,在執行所述情緒域相互關係訓練的過程中,該模型訓練單元還用以依據複數個所述情緒分數而計算出各所述基本情緒的一平均情緒特徵向量和一最短歐式距離,接著依據複數個所述平均情緒特徵向量和複數個所述最短歐式距離而產生一基本情緒特徵損失函數,從而依據該基本情緒特徵損失函數對至少一所述情緒分數進行調整。
- 如請求項1所述之影像式情緒辨識系統,其中,該核心處理器更包括:一損失計算單元,具有一交叉熵損失函數(cross entropy loss)、一均方誤差損失函數(mean square error loss)、一一致性相關係數損失函數(concordance correlation coefficient loss)、與一二元交叉熵損失函數(binary cross entropy loss);其中,該損失計算單元利用所述交叉熵損失函數計算複數個所述情緒分數之損失,利用所述均方誤差損失函數和所述一致性相關係數損失函數計算所述情緒向度值之損失,利用所述二元交叉熵損失函數計算所述臉部動作值之損失。
- 如請求項1所述之影像式情緒辨識系統,其中,該攝影裝置和該核心處理器皆整合在一電子裝置之中,且該電子裝置 為選自於由智慧型電視、智慧型手機、平板電腦、筆記型電腦、一體式電腦、門口機、電子式門鎖、提款機、監控裝置、生理資訊量測裝置、和自動服務機所組成群組之中的一種電子裝置。
- 如請求項1所述之影像式情緒辨識系統,其中,該核心處理器整合在一電子裝置之中,該攝影裝置透過有線連接或無線連接的方式而該核心處理器進行通訊,且該電子裝置為選自於由桌上型電腦、智慧型電視、智慧型手機、平板電腦、筆記型電腦、一體式電腦、門口機、電子式門鎖、提款機、監控裝置、生理資訊量測裝置、自動服務機所組成群組之中的一種電子裝置。
- 一種影像式情緒辨識方法,包括以下步驟:(1)一攝影裝置自一用戶擷取一用戶影像;(2)在接收所述用戶影像之後,一核心處理器以其一人臉偵測單元自該用戶影像偵測出該用戶的一臉部影像;(3)該核心處理器以其一特徵處理模組自所述臉部影像提取出複數個臉部特徵且將該複數個臉部特徵轉換成一第一特徵向量,且同時以其所述特徵處理模組自所述臉部影像提取出複數個臉部情緒特徵,且將該複數個臉部情緒特徵轉換成一第二特徵向量;(4)該核心處理器以其一特徵整合單元對該第一特徵向量和該第二特徵向量執行一特徵向量合併處理以獲得一特徵向量,接著利用一遞迴神經網路(Recurrent neural network,RNN)模型對所述特徵向量進行一降維(Dimension reduction)處理,從而產生一輸入特徵向量; (5)該核心處理器以其一轉換模組將該輸入特徵向量轉換成與複數種基本情緒相對應的複數個情緒分數,且同時將該輸入特徵向量轉換成一情緒向度值,該情緒向度值用以描述情緒的正/負面程度以及情緒的興奮強度;(6)該核心處理器以其一臉部動作判斷單元將該輸入特徵向量轉換成與複數種臉部動作相對應的複數個臉部動作值,從而依據該複數個臉部動作值判斷該臉部影像的一用戶臉部動作;以及(7)一情緒判斷單元以其一情緒狀態判斷模型依據所述用戶臉部動作、所述情緒向度值、複數個所述情緒分數以及該情緒狀態辨識模型判斷該用戶的一情緒狀態。
- 如請求項13所述之影像式情緒辨識方法,其中,所述遞迴神經網路模型為選自於由長短期記憶(Long short-term memory,LSTM)模型和遞迴門單元(Gate recurrent unit,GRU)模型所組成群組之中的一種數學模型。
- 如請求項13所述之影像式情緒辨識方法,其中,該轉換模組包括:一情緒分數計算單元,接收所述輸入特徵向量,且將該輸入特徵向量轉換成複數個所述情緒分數;以及一情緒向度值計算單元,接收所述輸入特徵向量,且將該輸入特徵向量轉換成所述情緒向度值。
- 如請求項13所述之影像式情緒辨識方法,其中,該特徵整合單元係採用特徵相加(point-wise addition)或向量拼接(concatenate)的方式實現所述特徵向量合併處理。
- 如請求項13所述之影像式情緒辨識方法,其中,該特徵處理模組係運用基於卷積神經網路(Convolutional neural network,CNN)之架構而建立的一臉部特徵提取模型VGG16或VGG19完成自所述臉部影像提取出複數個所述臉部情緒特徵從而將該複數個臉部情緒特徵轉換成所述第二特徵向量。
- 如請求項13所述之影像式情緒辨識方法,其中,該複數種基本情緒包括:中性、驚訝、快樂、憤怒、厭惡、害怕、與難過。
- 如請求項13所述之影像式情緒辨識方法,該步驟(1)和該步驟(2)之間更包括以下步驟:(1a)該核心處理器以其一影像品質損失權重調整單元對所述臉部影像進行一亮度品質估測以及一頭轉角度估測以產生一亮度品質估測值和一頭轉角度估測值,接著依據該亮度品質估測值和該頭轉角度估測值而生成一影像品質損失權重,從而依據該影像品質損失權重對所述臉部影像進行一影像品質調整。
- 如請求項13所述之影像式情緒辨識方法,其中,該核心處理器更包括: 一模型訓練單元,用以依據一訓練樣本資料庫、所述用戶臉部動作、所述情緒向度值、複數個所述情緒分數對該情緒狀態判斷模型進行一情緒域相互關係訓練,提升該情緒狀態判斷模型對於所述情緒向度值和所述情緒分數之間的一情緒域相互關係的判斷準確性;其中,在執行所述情緒域相互關係訓練的過程中,該模型訓練單元還用以依據複數個所述情緒分數而計算出各所述基本情緒的一平均情緒特徵向量和一最短歐式距離,接著依據複數個所述平均情緒特徵向量和複數個所述最短歐式距離而產生一基本情緒特徵損失函數,從而依據該基本情緒特徵損失函數對至少一所述情緒分數進行調整;以及一損失計算單元,具有一交叉熵損失函數(cross entropy loss)、一均方誤差損失函數(mean square error loss)、一一致性相關係數損失函數(concordance correlation coefficient loss)、與一二元交叉熵損失函數(binary cross entropy loss);其中,該損失計算單元利用所述交叉熵損失函數計算複數個所述情緒分數之損失,利用所述均方誤差損失函數和所述一致性相關係數損失函數計算所述情緒向度值之損失,利用所述二元交叉熵損失函數計算所述臉部動作值之損失。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110124027A TWI767775B (zh) | 2021-06-30 | 2021-06-30 | 影像式情緒辨識系統和方法 |
US17/467,398 US11830292B2 (en) | 2021-06-30 | 2021-09-06 | System and method of image processing based emotion recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110124027A TWI767775B (zh) | 2021-06-30 | 2021-06-30 | 影像式情緒辨識系統和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI767775B true TWI767775B (zh) | 2022-06-11 |
TW202303444A TW202303444A (zh) | 2023-01-16 |
Family
ID=83103846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110124027A TWI767775B (zh) | 2021-06-30 | 2021-06-30 | 影像式情緒辨識系統和方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11830292B2 (zh) |
TW (1) | TWI767775B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230316812A1 (en) * | 2022-03-31 | 2023-10-05 | Matrixcare, Inc. | Sign language sentiment analysis |
CN116563915B (zh) * | 2023-04-28 | 2024-07-26 | 深圳大器时代科技有限公司 | 一种基于深度学习算法的人脸状态识别方法及装置 |
CN116884068B (zh) * | 2023-07-14 | 2024-01-26 | 广州云天数据技术有限公司 | 基于人工智能的运维和物联网管理方法、平台及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI430185B (zh) * | 2010-06-17 | 2014-03-11 | Inst Information Industry | 臉部表情辨識系統及其辨識方法及其電腦程式產品 |
KR101697476B1 (ko) * | 2016-09-23 | 2017-01-19 | 경북대학교 산학협력단 | 로봇의 표정 기반 연속적 정서 인식 방법, 이를 수행하기 위한 기록 매체 및 장치 |
TW201909036A (zh) * | 2017-07-21 | 2019-03-01 | 大陸商竹間智能科技(上海)有限公司 | 基於神經網路的人臉影像多維度情感判別系統及方法 |
CN112418059A (zh) * | 2020-11-19 | 2021-02-26 | 平安普惠企业管理有限公司 | 一种情绪识别的方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210065712A1 (en) * | 2019-08-31 | 2021-03-04 | Soundhound, Inc. | Automotive visual speech recognition |
-
2021
- 2021-06-30 TW TW110124027A patent/TWI767775B/zh active
- 2021-09-06 US US17/467,398 patent/US11830292B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI430185B (zh) * | 2010-06-17 | 2014-03-11 | Inst Information Industry | 臉部表情辨識系統及其辨識方法及其電腦程式產品 |
KR101697476B1 (ko) * | 2016-09-23 | 2017-01-19 | 경북대학교 산학협력단 | 로봇의 표정 기반 연속적 정서 인식 방법, 이를 수행하기 위한 기록 매체 및 장치 |
TW201909036A (zh) * | 2017-07-21 | 2019-03-01 | 大陸商竹間智能科技(上海)有限公司 | 基於神經網路的人臉影像多維度情感判別系統及方法 |
CN112418059A (zh) * | 2020-11-19 | 2021-02-26 | 平安普惠企业管理有限公司 | 一种情绪识别的方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20230004738A1 (en) | 2023-01-05 |
US11830292B2 (en) | 2023-11-28 |
TW202303444A (zh) | 2023-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI767775B (zh) | 影像式情緒辨識系統和方法 | |
Zahara et al. | The facial emotion recognition (FER-2013) dataset for prediction system of micro-expressions face using the convolutional neural network (CNN) algorithm based Raspberry Pi | |
WO2019174439A1 (zh) | 图像识别方法、装置、终端和存储介质 | |
KR20100001928A (ko) | 감정인식에 기반한 서비스 장치 및 방법 | |
CN104361316B (zh) | 一种基于多尺度时序建模的维度情感识别方法 | |
CN109299690B (zh) | 一种可提高视频实时人脸识别精度的方法 | |
WO2020215590A1 (zh) | 智能拍摄设备及其基于生物特征识别的场景生成方法 | |
Khatri et al. | Facial expression recognition: A survey | |
CN112016367A (zh) | 一种情绪识别系统、方法及电子设备 | |
CN112766173A (zh) | 一种基于ai深度学习的多模态情感分析方法及其系统 | |
CN110458235B (zh) | 一种视频中运动姿势相似度比对方法 | |
CN110796101A (zh) | 一种嵌入式平台的人脸识别方法及系统 | |
David et al. | A comprehensive survey of emotion recognition system in facial expression | |
CN111079465A (zh) | 一种基于三维成像分析的情绪状态综合判定方法 | |
CN113627256A (zh) | 基于眨眼同步及双目移动检测的伪造视频检验方法及系统 | |
CN112380924A (zh) | 一种基于面部微表情动态识别的抑郁倾向检测方法 | |
Chang et al. | Personalized facial expression recognition in indoor environments | |
Gilanie et al. | An Automated and Real-time Approach of Depression Detection from Facial Micro-expressions. | |
Vayadande et al. | Lipreadnet: A deep learning approach to lip reading | |
KR102285482B1 (ko) | 생체 정보의 기계 학습 분석에 기반하여 컨텐츠를 제공하기 위한 방법 및 장치 | |
CN112257491B (zh) | 自适应调度人脸识别和属性分析方法及装置 | |
Tong et al. | Research on face recognition method based on deep neural network | |
CN109214286B (zh) | 基于深度神经网络多层特征融合的人脸识别方法 | |
Neyra-Gutiérrez et al. | Feature extraction with video summarization of dynamic gestures for peruvian sign language recognition | |
WO2021181991A1 (ja) | アクセシビリティ判定装置、アクセシビリティ判定方法、及びプログラム |