TWI647626B

TWI647626B - Intelligent image information and big data analysis system and method using deep learning technology

Info

Publication number: TWI647626B
Application number: TW106138811A
Authority: TW
Inventors: 林耿呈; 李柏漢; 高義和
Original assignee: 慧穩科技股份有限公司
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2019-01-11
Also published as: TW201918934A

Abstract

本發明係揭露一種運用深度學習技術之智慧影像資訊及大數據分析系統及方法，其包括影像擷取裝置、資訊處理裝置及雲端影像辨識單元。影像擷取裝置用以擷取物體的物體影像，物體影像至少包含有人影像。資訊處理裝置透過訊號傳輸模組與各影像擷取裝置訊號連結，以彙集接收人影像。雲端影像辨識單元透過網路傳輸模組與資訊處理裝置訊號連結，以接收人影像，雲端影像辨識單元內建有執行影像辨識的深度學習演算模組，深度學習演算模組可對人影像進行臉部表情及動作的影像辨識，以得到至少一種臉部表情識別資訊及動作識別資訊，俾能藉由整合視頻監控與影像深度學習技術而提供臉部表情識別及動作識別的辨識雲服務。

Description

運用深度學習技術之智慧影像資訊及大數據分析系統及方法

本發明係有關一種運用深度學習技術之智慧影像資訊及大數據分析系統及方法，尤指一種可以藉由整合視頻監控與影像深度學習技術而提供臉部表情及肢體動作識別之辨識雲服務的智慧影像大數據分析技術。

近年來，隨著人工智慧技術的突破發展之下，使得生物辨識包括人臉偵測辨識、聲紋辨識、虹膜比對以及指紋辨識等技術的辨識成功率已經達到進入商業應用的程度。在生物辨識的技術領域中，尤其是人臉辨識技術，由於是屬於非接觸性辨識，所以受到相關技術領域業者的重視程度已是與日俱增。再者，依據專利檢索後得知，具備人臉辨識功能的代表性專利如下列所示：

1.發明公開第201317903號『人臉辨識監控管理方法』專利，其揭示一種利用人臉辨識功能並配合文字標示以提供監控管理，用於解決習用技術之監控人員容易出現疲倦或視覺疲勞的缺失。

2.新型第M432892號『人臉偵測辨識裝置』專利，其揭示一種利用包括選擇模組、過濾模組、區塊模組以及標定模組，來達到簡化流程，以降低運算量之人臉辨識裝置。

3.發明公開第201220211號『高清影像式人臉辨識及監控系統』專利，其是由取像模組、人臉辨識模組、資料處理模組及搜尋模組所構成，以提供一種在超大場景可同時對多人進行辨識且具有人物搜尋機制及事件還原之監控系統。

由上述得知，雖然上述專利可以實現人臉的辨識功能；惟，實際在應用上，人臉辨識較容易受到光線、亮度、臉部表情變化等因素影響而增加影像辨識的困難度，為解決此一問題，以大幅提升影像辨識的成功率，現階段的相關技術領域業者係採用影像深度學習的方式來改善此一問題，至於採用影像深度學習的代表性專利如新型第M488698號『智慧型影像式顧客分析系統』以及新型第M443899號『主動辨識客層智慧型銷售點(POS)系統』等專利所示。其中，第M488698號專利可以計算出客層屬性提袋率分析資料，提供店家清楚了解當前經營成效，做為後續的營運模式與行銷策略；而第M443899號專利可依據所辨識之年齡層、性別，搜尋貨架商品中對應之適性廣告，即時播放並背景記錄時間戳記、辨識客層與廣告注目度等資訊，再透過傳輸管理將相關資料回傳，以作為後續分析之用。

雖然該等專利可以應用於一般商店而實現上述功效，然而，該等專利會因技術架構建置因素而無法適用於諸如餐廳、停車場、公司、居家以及門禁管制區域等場所，以致無法於上述場所做進一步影像辨識的有效利用，因而減損了商業的競爭力與價值性，因此，該等專利確實未臻完善，仍有再改善的必要性。

有鑑於此，尚未有一種整合智能視頻監控與影像深度學習技術而實現提供智慧城市影像辨識雲服務的專利或是論文被提出，而且基於相關產業的迫切需求之下，本發明創作人乃經不斷的努力研發之下，終於研發出一套有別於上述習知技術與專利的本發明。

本發明第一目的，在於提供一種運用深度學習技術之智慧影像資訊及大數據分析系統及方法，主要是藉由整合視頻監控與影像深度學習技術而提供如餐廳、百貨商店、居家保全、停車場、影視廣告以及公司學校等區域的臉部表情識別及肢體動作識別的智慧城市影像辨識雲服務。達成本發明第一目的採用之技術手段，係包括影像擷取裝置、資訊處理裝置及雲端影像辨識單元。影像擷取裝置用以擷取物體的物體影像，物體影像至少包含有人影像。資訊處理裝置透過訊號傳輸模組與各影像擷取裝置訊號連結，以彙集接收人影像。雲端影像辨識單元透過網路傳輸模組與資訊處理裝置訊號連結，以接收人影像，雲端影像辨識單元內建有執行影像辨識的深度學習演算模組，深度學習演算模組可對人影像進行臉部表情及肢體動作的影像辨識，以得到至少一種臉部表情識別資訊及肢體動作識別資訊。

本發明第二目的，在於提供一種可以避免直播影像播出血腥、暴力及色情等不當畫面而影響身心健康之智慧影像資訊的大數據分析系統。達成本發明第二目的採用之技術手段，係包括影像擷取裝置、資訊處理裝置及雲端影像辨識單元。影像擷取裝置用以擷取物體的物體影像，物體影像至少包含有人影像。資訊處理裝置透過訊號傳輸模組與各影像擷取裝置訊號連結，以彙集接收人影像。雲端影像辨識單元透過網路傳輸模組與資訊處理裝置訊號連結，以接收人影像，雲端影像辨識單元內建有執行影像辨識的深度學習演算模組，深度學習演算模組可對人影像進行臉部表情及肢體動作的影像辨識，以得到至少一種臉部表情識別資訊及肢體動作識別資訊。其中，該物體影像中包含有至少一直播影像，該雲端影像辨識單元透過該網路傳輸模組與該資訊處理裝置接收該直播影像，該深度學習演算模組可對該直播影像進行暴力、血腥及色情的影像辨識，當該深度學習演算模組偵測到該直播影像中具有暴力、血腥或是色情等其中一種影像內容時，則中斷該直播影像的播放；或是做馬賽克的影像處理。

本發明第三目的，在於提供一種具備廣告商標辨識及播放時間與次數統計以供商業應用分析利用之智慧影像資訊的大數據分析系統。達成本發明第一目的採用之技術手段，係包括影像擷取裝置、資訊處理裝置及雲端影像辨識單元。影像擷取裝置用以擷取物體的物體影像，物體影像至少包含有人影像。資訊處理裝置透過訊號傳輸模組與各影像擷取裝置訊號連結，以彙集接收人影像。雲端影像辨識單元透過網路傳輸模組與資訊處理裝置訊號連結，以接收人影像，雲端影像辨識單元內建有執行影像辨識的深度學習演算模組，深度學習演算模組可對人影像進行臉部表情及肢體動作的影像辨識，以得到至少一種臉部表情識別資訊及肢體動作識別資訊。其中，該物體影像中包含有至少一影視影像，該雲端影像辨識單元更包含一內建有複數商標樣本影像的商標特徵資料庫，並於每一該商標樣本影像設定有一商標特徵資料及一與該商標特徵資料對應的商標識別資料，該雲端影像辨識單元透過該網路傳輸模組與該資訊處理裝置接收該影視影像，並將該影視影像之特徵擷取為包含至少一商標特徵影像，再於該商標特徵資料庫辨識出與該商標特徵影像之特徵符合的該商標特徵資料，並讀取特徵符合的該商標識別資料，再輸出相應的該商標識別資訊，使該深度學習演算模組可對該影視影像進行廣告商標之辨識，並對該影視影像中出現的廣告商標進行次數及播放時間的統計，進而輸出該廣告商標的次數及播放時間統計資訊。

1‧‧‧場所

10‧‧‧影像擷取裝置

20‧‧‧資訊處理裝置

21‧‧‧訊號傳輸模組

30‧‧‧雲端影像辨識單元

31‧‧‧網路傳輸模組

32‧‧‧深度學習演算模組

320‧‧‧深度學習模型

33‧‧‧統計分析單元

34‧‧‧影像特徵資料庫

40‧‧‧電子看板

41‧‧‧門禁管制設備

50‧‧‧人影像

51‧‧‧臉部

60‧‧‧手肘

61‧‧‧膝蓋

圖1係本發明具體架構的實施示意圖。

圖2係本發明深度學習模型的訓練階段的實施示意圖。

圖3係本發明深度學習模型的運行預測階段的實施示意圖。

圖4係本發明自人影像中擷取臉部表情特徵的實施示意圖。

圖5係本發明自人影像中擷取肢體動作特徵的實施示意圖。

圖6係本發明應用於餐廳的實施示意圖。

圖7係本發明應用於百貨商店的實施示意圖。

圖8係本發明應用於居家保全的實施示意圖。

圖9係本發明應用於停車場的實施示意圖。

為讓貴審查委員能進一步瞭解本發明整體的技術特徵與達成本發明目的之技術手段，玆以具體實施例並配合圖式加以詳細說明：請配合參看圖1~3所示，為達成本發明第一目的之具體實施例，係包括影像擷取裝置10、資訊處理裝置20及雲端影像辨識單元30等技術特徵。複數影像擷取裝置10分別設於至少一場所1，用以擷取該場所1之物體而產生至少一種物體影像，且物體影像至少包含有人影像。資訊處理裝置20透過一訊號傳輸模組21(如藍芽、USB、RS232等傳輸模組)與各影像擷取裝置10訊號連結，用以彙集接收人影像及其他物體影像。雲端影像辨識單元30(如雲端伺服器)係透過一網路傳輸模組31(如網路與數據機或是路由器的組合)與資訊處理裝置20訊號連結，用以接收人影像及其他物體影像，雲端影像辨識單元30內建有具備深度學習訓練功能以執行影像辨識的深度學習演算模組32，深度學習演算模組32可對人影像進行臉部表情及肢體動作的影像辨識，以得到至少一種可供後續商業利用的臉部表情識別資訊及肢體動作識別資訊。

再請配合參看圖6~9所示的場所1係指餐廳、百貨公司、商店、住家、大樓、停車場、學校、公司或是門禁設備而言。

如圖1~4所示，上述雲端影像辨識單元30更包含一內建有複數人樣本影像的影像特徵資料庫34，該深度學習演算模組32將人樣本影像之特徵擷取為包含有一臉部表情特徵資料，並於每一臉部表情特徵資料設定有一對應的表情識別資料，當深度學習演算模組32接收到即時擷取的至少一張人影像50時，則於影像特徵資料庫34辨識出與該人樣本影像之特徵符合的臉部表情特徵資料，並讀取特徵符合的表情識別資料，再輸出相應的臉部表情識別資訊。

具體的，上述臉部表情識別資訊可以是略為高興、高興、極為高興、略為悲傷、悲傷、極為悲傷、略為不悅、不悅或是極為不悅的其中至少二種表情。可以是喜、努、哀、樂的臉部表情，更可以是緊張、驚恐的臉部表情。

承上所述，上述實施例可應用在如餐廳或是百貨公司等場所1中，係將影像擷取裝置10裝設在電子看板40附近，以對觀看電子看板40的顧客偵測是否觀看電子看板40，據此以分析出何種廣告較能吸引何種消費族群，並進行包含人臉以及臉部表情的深度學習演算辨識，進而得到顧客的臉部51表情為何？例如微笑則表示對於提供商品或服務感到滿意，如圖4所示；相反的，臉部無表情、失望、不悅則表示對於提供商品或服務感到不滿意或是極為不滿意，於此，即可於電子看板40播放適合該顧客族群的廣告圖像或影片，以達到商品的精準行銷之目的。其中，更可以配合肢體動作識別資訊，例如點頭的肢體動作，表示對於提供商品或服務感到滿意；反之，搖頭的肢體動作，表示對於提供商品或服務感到不滿意或是極為不滿意。

具體而言，上述雲端影像辨識單元30更包含一內建有複數人樣本影像的影像特徵資料庫34(如資料伺服器；但不以此為限)，深度學習演算模組32將人樣本影像之特徵擷取為包含有一肢體動作特徵資料，並於每一肢體動作特徵資料設定有一對應的肢體動作識別資料，當深度學習演算模組32接收到即時擷取之連續數張的人影像時，則於影像特徵資料庫34辨識出與人樣本影像之特徵符合的肢體動作特徵資料，並讀取特徵符合的肢體動作識別資料，再輸出相應的肢體動作識別資訊。

進一步而言，上述肢體動作識別資訊可以包括異常肢體動作識別資訊，例如攀爬之異常肢體動作識別資訊(在一預定時間內(例如五秒以內)，手肘部位高於其手臂向下伸直時原手肘部位的二分之一高度及膝蓋部位高於其大腿向下伸直時原膝蓋部位的三分之一高度，如圖5c所示，則判定為攀爬之異常肢體動作)、偷竊之異常肢體動作識別資訊(如將手伸入別人的口袋或是皮包內，即可判定為偷竊之異常肢體動作)、搶奪之異常肢體動作識別資訊(例如在一預定時間內(例如一分鐘內)，接近至少一他人五十公分之內的距離之後，快速做抬腿或舉手動作及在五秒之內遠離該他人至少五公尺的距離，即可判定為搶奪之異常肢體動作)、鬥毆之異常肢體動作識別資訊(如至少二人身體靠近五十公分之內，並於一預定時間內(例如二秒之內)彼此做抬腿或舉手等互毆的肢體動作，或手持武器(例如刀、棍)並做抬腿或舉手等肢體動作，即可判定為鬥毆之異常肢體動作)、暴力之異常肢體動作識別資訊(如一人的身體靠近另一他人五十公分之內，並於一預定時間內(例如二秒之內)做抬腿或舉手等毆打的肢體動作，或手持武器(例如刀、棍)並做抬腿或舉手等肢體動作，即可判定為暴力之異常肢體動作)、猥褻之異常肢體動作識別資訊 (如一人露出生殖器官或是該人對他人強制擁抱而他人做出反抗動作，即可判定為猥褻之異常肢體動作)、色情之異常肢體動作識別資訊(如至少一人做露出生殖器官或至少二人裸體做擁抱的動作，即可判定為色情之異常肢體動作)、怒罵之異常肢體動作識別資訊(如做出憤怒之表情及其嘴部於一預部時間內(例如一秒之內)快速張合及舉手等肢體動作，即可判定為怒罵之異常肢體動作)或是倒臥不起之異常肢體動作識別資訊(例如於地上身體倒臥過久超過一預定時間(例如二分鐘)，即可判定為倒臥不起之異常肢體動作)等異常的肢體動作識別資訊。

承上所述，上述實施例可以應用在如餐廳、百貨公司或是居家大樓等場所1中，係將影像擷取裝置10裝設在餐廳、百貨公司內或是居家大樓牆面的附近，以監控顧客是否做出如上述的攀爬、偷竊、搶奪、鬥毆、暴力、猥褻、怒罵或是倒臥不起等肢體動作；或是監控居家大樓是否有宵小攀爬而攀越牆面侵入之肢體動作，經深度學習演算辨識後發現有上述異常肢體動作時，則發出警示訊號，並做出緊急因應的相關報警處理。

如圖5a~c所示，依序顯示有宵小攀爬而攀越牆面侵入、匪徒握持刀具欲傷人以及老者倒臥不起等肢體動作畫面。

請配合參看圖1~3所示，為達成本發明第二目的之具體實施例，係包括影像擷取裝置10、資訊處理裝置20及雲端影像辨識單元30等技術特徵。複數影像擷取裝置10分別設於至少一場所1，用以擷取該場所1之物體而產生至少一種物體影像，且此物體影像至少包含有至少一人影像。資訊處理裝置20透過一訊號傳輸模組21(如藍芽、USB、RS232,網路、類比通訊方式等傳輸模組)與各影像擷取裝置10訊號連結，用以彙集接收人影像。雲端影像辨識單元30(如雲端伺服器)，其透過一網路傳輸模組 31(如網路與數據機或是路由器的組合,採HLS或RTMP通訊方式)與資訊處理裝置20訊號連結，用以接收人影像，雲端影像辨識單元30內建有具備深度學習訓練功能以執行影像辨識的深度學習演算模組32，深度學習演算模組32可對人影像進行臉部表情、年紀、性別、情緒、穿著及肢體動作的影像辨識，以得到至少一種可供後續商業利用的臉部表情識別資訊及肢體動作識別資訊。其中，上述物體影像中包含有至少一直播影像(如從電子看板、手機或是電腦所播放的直播視頻影像)，雲端影像辨識單元30透過網路傳輸模組31與資訊處理裝置20接收直播影像，深度學習演算模組32可對直播影像進行暴力、血腥及色情的影像辨識，當深度學習演算模組32偵測到直播影像中具有暴力、血腥或是色情等其中一種影像內容時，則中斷直播影像的播放(如透過硬體控制方式關閉電視、電腦；或是電子看板)；或是做馬賽克的影像處理。

請配合參看圖1~3所示，為達成本發明第三目的之具體實施例，係包括影像擷取裝置10、資訊處理裝置20及雲端影像辨識單元30等技術特徵。複數影像擷取裝置10分別設於至少一場所1，用以擷取該場所1之物體而產生至少一種物體影像，且此物體影像至少包含有至少一人影像。資訊處理裝置20透過一訊號傳輸模組21(如藍芽、USB、RS232等傳輸模組)與各影像擷取裝置10訊號連結，用以彙集接收人影像。雲端影像辨識單元30(如雲端伺服器)，其透過一網路傳輸模組31(如網路與數據機或是路由器的組合)與資訊處理裝置20訊號連結，用以接收人影像，雲端影像辨識單元30內建有具備深度學習訓練功能以執行影像辨識的深度學習演算模組32，深度學習演算模組32可對人影像進行臉部表情及肢體動作的影像辨識，以得到至少一種可供後續商業利用的臉部表情識別資訊及肢體動作識別資訊。其中，上述物體影像中包含有至少一影視影像(如從電子看板或是電腦所播放的視頻影像)，雲端影像辨識單元30更包含一內建有複數商標樣本影像的影像特徵資料庫34，並於每一商標樣本影像設定有一商標特徵資料及一與該商標特徵資料對應的商標識別資料，雲端影像辨識單元30透過網路傳輸模組31與資訊處理裝置20接收影視影像，並將影視影像之特徵擷取為包含至少一商標特徵影像，再於影像特徵資料庫34辨識出與該商標特徵影像之特徵符合的商標特徵資料，並讀取特徵符合的商標識別資料，再輸出相應的商標識別資訊，使深度學習演算模組32可對影視影像進行廣告商標之辨識，並對影視影像中出現的廣告商標進行次數及播放時間的統計，進而輸出廣告商標的次數及播放時間統計資訊。

除此之外，請參看圖1所示的實施例，本發明更包含一統計分析單元33，此統計分析單元33可以是一種資料處理伺服器；或是內建於雲端影像辨識單元30的軟體模組，用以接收、統計及分析經深度學習演算模組32所做的其他影像識別資訊，此影像識別資訊包括如人流識別、車流識別、顧客識別、人臉識別、性別識別、年紀識別、餐點識別、車牌識別、車款識別、肢體動作行為識別、停車場狀態識別、商品識別、直播影像識別、影視廣告識別、人物識別、商標識別；或是通勤等識別資訊。具體的，上述統計分析單元33可以針對上述影像識別資訊做出一種統計/分析資訊，此統計/分析資訊可以是一種人流統計、性別統計、年紀統計、熱點分析、客層分析、來客統計、顧客動線分析、電子看板推播分析、車流統計以及停車場空間管理分析等其中的一種資訊。

更具體的，本發明採用之深度學習演算模組32(即深度學習演算技術)可以是一種卷積類神經網路(CNN)演算法、專家系統演算法或是隨機森林演算法等諸多的人工智慧演算法。此深度學習演算模組32執行時則包含下列步驟：

(a)訓練階段步驟，如圖2所示，係先建立有至少一深度學習模型320，並於深度學習模型320輸入巨量的物體樣本影像及影像辨識參數(如供辨識或比對的特徵資料)，並由深度學習模型320測試影像辨識的正確率，再判斷影像辨識正確率是否足夠，當判斷結果為是，則將辨識結果輸出及儲存；當判斷結果為否，則使深度學習模型320藉由調整影像辨識參數或其他方式而實現自我修正學習。

(b)運行預測階段步驟，如圖3所示，係於深度學習模型320輸入即時擷取之物體影像，並由深度學習模型320進行預測性影像辨識，以得到至少一個上述臉部表情識別資訊及肢體動作識別資訊。

具體而言，深度學習模型320包含複數不同屬性的分類器(如人型輪廓、人臉輪廓、髮型輪廓、表情輪廓、餐點輪廓、車輛輪廓、車牌輪廓、車款輪廓及商標輪廓等屬性)，而且深度學習演算模組32執行時更包含一特徵影像擷取步驟，係將樣本視覺影像之局部特徵予以擷取為上述物體樣本影像，再將物體樣本影像像輸入至深度學習模型320中，再由相同屬性的分類器進行比對，以將比對結果輸出至深度學習模型320，以作為輸出識別資訊的判斷依據。

請配合參看圖1、6所示為本發明應用於餐廳場所1的應用實施例，主要是對顧客族群、喜好、忠誠度等，透過實際的影像辨識分析，協助業者擬定適當商業對策，並提升內外場服務的品質及暖度。具體的服務內容包括下列所述：

1.來客統計服務，係將其一影像擷取裝置10裝設在餐廳出入口附近，以對進出該出入口的顧客進行人流的視覺影像擷取，並對人流的人影像進行人型輪廓的影像辨識，進而得到人流識別資訊，再由統計分析單元33統計進出的顧客人數，以得到人流統計資訊，於此，即可提供餐飲業者分析經營趨勢及員工排班優化等後續處理的依據。

2.電子看板推播服務，係將其二影像擷取裝置10裝設在電子看板40附近，以對觀看電子看板40的顧客進行包含人臉、性別及年紀輪廓的深度學習演算辨識，進而得到顧客族群的識別資訊，並由統計分析單元33分析出即時觀看顧客的顧客族群分析資訊，於此，即可於電子看板40播放適合該顧客族群的菜單圖像或影片，以提升餐廳的服務暖度。

3.客層分析服務，係依據性別統計、年紀統計及人流統計等資訊，以分析出各同溫層顧客分眾客群，而達到精準行銷之目的。

4.餐點辨別，係將其三影像擷取裝置10裝設在餐廳天花板上，以對桌上的餐點進行物體影像擷取，並對餐點的物體影像進行餐點輪廓的深度學習演算辨識，進而得到餐點識別資訊，再由統計分析單元33統計各餐點冷熱門程度，以建議餐飲業者對熱門餐點進行促銷，而對冷門餐點進行改良或替換。

5.顧客辨別，係透過上述深度學習演算辨識而取得人臉識別資訊，再對鎖定之人臉識別資訊的顧客進行消費行為辨識，以判定該顧客為初次消費、再次消費、熟客、會員或是黑名單，於此，即可藉由主動辨識顧客群而提升服務品質。

請配合參看圖1、5所示為本發明應用於零售百貨場所1的應用實施例，主要是以智慧影像做出熱點分析及動線統計，讓商家瞭解不同族群消費者的思維，訂定相對熱門商品更易曝光的佈置。具體的服務內容包括下列所述：

1.顧客辨別，係將其一影像擷取裝置10裝設在零售百貨場所1內，以擷取顧客人臉的人影像，並將人影像透過上述深度學習演算辨識而取得人臉識別資訊，再對鎖定之人臉識別資訊的顧客進行消費行為辨識，以判定該顧客為初次消費、再次消費、熟客、會員或是黑名單，於此，即可藉由主動辨識顧客群而提升服務品質。

2.電子看板推播服務，係將其二影像擷取裝置10裝設在電子看板40附近，以對觀看電子看板40的顧客偵測是否觀看電子看板40，分析何種廣告較吸引何種消費族群，並進行包含人臉、性別、表情(如微笑則表示服務滿意)及年紀輪廓的深度學習演算辨識，進而得到顧客族群的識別資訊，並由統計分析單元33分析出即時觀看顧客的顧客族群分析資訊，於此，即可於電子看板40播放適合該顧客族群的廣告圖像或影片，以達到商品的精準行銷。

3.客層分析服務，係依據性別統計、年紀統計及人流統計等資訊，除了統計顧客年齡層以調整販賣商品樣式之外，並可分析出各同溫層顧客分眾客群，並統計顧客來訪率及熟客率，而達到精準行銷及掌握顧客忠誠度之目的。

4.熱點分析，係將其三影像擷取裝置10裝設在零售百貨場所1的天花板上，以對櫃上的商品進行物體影像擷取，並對商品的物體影像進行商品輪廓的深度學習演算辨識，進而得到商品識別資訊，再由統計分析單元33統計各商品冷門/熱門停留區，以建議零售百貨業者改善商品陳列方式，使走道效能優化。

5.來客統計服務，係將其四影像擷取裝置10裝設在零售百貨場所1出入口附近，以對進出該出入口的顧客進行人流的人影像擷取，並對人影像進行人型輪廓的影像辨識，進而得到人流識別資訊，再由統計分析單元33統計進出的顧客人數，以得到人流統計資訊，於此，即可掌握門市離尖峰時段，以提供服務人員排班優化等後續處理的依據。

6.顧客動線，依據人流統計資訊而獲得動線資訊，並依據此動線資訊調整動線，以優化商品陳列方式。

請配合參看圖1、7所示為本發明應用於居家保全場所1的應用實施例，主要是藉由人臉及車牌辨識來協助保全掌握社區狀況，透過肢體動作行為辨識，防止可疑宵小進入社區或就近關懷照護行動不便的老人，達成打造智慧社區的功效置。具體的服務內容包括下列所述：人臉辨別/偵測，係將其一影像擷取裝置10裝設在居家的門禁管制設備41附近，以擷取進出人員的人影像，並透過特徵擷取技術擷取出人臉影像，再透過上述深度學習演算辨識而取得人臉識別資訊，以判斷該人員是否為居家的住戶成員，是則開啟門禁管制設備41，並且保存人員的人臉影像及記錄出入時間，於此可有效嚇阻不肖外來者的犯罪心理。

2.車牌辨識，係將其二影像擷取裝置10裝設在居家停車場的門禁管制設備41附近，以擷取進出車輛的物體影像，並透過特徵擷取技術擷取出車牌影像，再透過上述深度學習演算辨識而取得車牌識別資訊，以判斷該車輛是否為居家的住戶所有，是，則開啟門禁管制設備41。

3.肢體動作行為偵測，係將其三影像擷取裝置10裝設在居家內，以連續擷取數張住戶成員之肢體動作行為的人影像，並將連續擷取數張之肢體動作人影像透過上述深度學習演算辨識而取得肢體動作行為識別資訊，以判斷該成員是否發生異常狀況，是，則警示緊急連絡人進行因應之處理。

請配合參看圖1、8所示為本發明應用於公共區域之停車場場所1的應用實施例，主要是透過車款辨識，讓停車場可以智慧化引導不同大小的車型，前往適合的停車位，有效規劃停車空間。

另，除上述場所1的應用實施例之外，本發明亦可應用於公司、學校等場所1，主要是藉由人臉及車牌辨識以判斷該人員、車輛是否為該公司、學校的成員或該成員所有，是，則開啟門禁管制設備41，況，並可透過電子圍籬機制，以偵測是否有人員入侵、逗留等，如有異常肢體動作行為即時通報警衛巡查，不僅如此，還可透過利用人臉及車牌辨識來取代傳統通勤卡鐘及感應標籤，以見避免因遺失通勤卡片及感應標籤所致的不便與困擾。

又，除上述場所1的應用實施例之外，本發明亦可應用於影視廣告的不當畫面過濾的應用實施中，主要是經由智慧辨識，對民眾進行商品、廣告自動推薦或喜愛人物的節目推播，對兒童不宜畫面，亦可做自動分級或進行畫面處置。具體的服務內容包括下列所述：

1.影像辨識，將影像擷取裝置10裝設可以擷取電子看板、電視或是電腦螢幕之影像畫面的位置，於是即可自動偵測含有暴力、血腥、情色的影像，依照後台設定(自動將畫面上霧或馬賽克處理，以避免兒童觀看。

2.商品辨識，藉由電子看板40播放的商品，利用電子看板40上影像擷取裝置10偵測觀看人員的表情及行為反應，進而辨識是否為感興趣的商品之一，以利達到精準的行銷；或是偵測觀看人員的性別及年紀，轉而播放適合該人員的廣告影像。

3.人物辨識，從日常觀看的節目裡辨識影視明星人物，藉由觀看率而分派推薦相關影視新聞內容。

4.商標辨識，辨識廣告內的商品商標，藉由點擊率，依照數據分析運用廣告派播，則之後觀看的內容會收到相關的商品廣告。

再者，卷積神經網路從影像擷取裝置獲得視覺影像後，經過影像預處理、特徵擷取、特徵選擇及特徵資料輸入，再到推理以及做出預測性辨識。另一方面，卷積神經網路的深度學習實質，是通過構建具有多個隱層的機器學習模型及海量訓練數據，來達到學習更有用的特徵，從而最終提升分類或預測的準確性。卷積神經網路利用海量訓練數據來學習特徵辨識，於此方能刻畫出數據的豐富內在訊息。由於卷積神經網路為一種權值共享的網路結構，所以除了可以降低網路模型的複雜度之外，並可減少權值的數量。此優點在網路的輸入是多維圖像時表現的更為明顯，使圖像可以直接作為網路的輸入，避免了傳統影像辨識演算法中複雜的特徵擷取與數據重建過程。物件分類方式幾乎都是基於統計特徵，這就意味著在進行分辨前必須提取某些特徵。卷積神經網路可避免顯式的特徵取樣，隱式地從訓練數據中進行學習。這使得卷積神經網路明顯有別於其他基於神經網路的分類器，通過結構重組與減少權值將特徵擷取功能融合進多層感知器。它可以直接處理灰度圖片，能夠直接用於處理基於圖像的分類。卷積網路較一般神經網路在圖像處理方面有如下優點：輸入圖像與網路的拓撲結構能很好的吻合；特徵擷取與模式分類同時進行，並同時在訓練中產生；權重共享可以減少網路的訓練參數，使神經網路結構變得更為簡單，適應性更強。

以上所述，僅為本發明之可行實施例，並非用以限定本發明之專利範圍，凡舉依據下列請求項所述之內容、特徵以及其精神而為之其他變化的等效實施，皆應包含於本發明之專利範圍內。本發明所具體界定於請求項之結構特徵，未見於同類物品，且具實用性與進步性，已符合發明專利要件，爰依法具文提出申請，謹請鈞局依法核予專利，以維護本申請人合法之權益。

Claims

一種運用深度學習技術之智慧影像資訊及大數據分析系統，其包括：至少一影像擷取裝置，其用以擷取至少一物體的物體影像，該物體影像至少包含有至少一人影像；至少一資訊處理裝置，其透過一訊號傳輸模組與各該影像擷取裝置訊號連結，用以彙集接收該人影像；及至少一雲端影像辨識單元，其透過一網路傳輸模組與該資訊處理裝置訊號連結，用以接收該人影像，該雲端影像辨識單元內建有至少一具備深度學習訓練功能以執行影像辨識的深度學習演算模組，該深度學習演算模組可對該人影像進行臉部表情及肢體動作的影像辨識，以得到至少一種臉部表情識別資訊及肢體動作識別資訊。
如請求項1所述之運用深度學習技術之智慧影像資訊及大數據分析系統，其中，該雲端影像辨識單元更包含一內建有複數人樣本影像的影像特徵資料庫，該深度學習演算模組將該人樣本影像之特徵擷取為包含一臉部表情特徵資料，並於每一該臉部表情特徵資料設定有一對應的表情識別資料，當該深度學習演算模組接收到即時擷取的至少一張該人影像時，則於該影像特徵資料庫辨識出與該人樣本影像之特徵符合的該臉部表情特徵資料，並讀取特徵符合的該表情識別資料，再輸出一相應的該臉部表情識別資訊。
如請求項2所述之運用深度學習技術之智慧影像資訊及大數據分析系統，其中，該臉部表情識別資訊係選自略為高興、高興、極為高興、略為悲傷、悲傷、極為悲傷、略為不悅、不悅以及極為不悅之其中至少二種表情。
如請求項1所述之運用深度學習技術之智慧影像資訊及大數據分析系統，其中，該雲端影像辨識單元更包含一內建有複數人樣本影像的影像特徵資料庫，該深度學習演算模組將該人樣本影像之特徵擷取為包含有一肢體動作特徵資料，並於每一該肢體動作特徵資料設定有一對應的肢體動作識別資料，當該深度學習演算模組接收到即時擷取之連續數張的該人影像時，則於該影像特徵資料庫辨識出與該人樣本影像之特徵符合的該肢體動作特徵資料，並讀取特徵符合的該肢體動作識別資料，再輸出一相應的該肢體動作識別資訊。
如請求項4所述之運用深度學習技術之智慧影像資訊及大數據分析系統，其中，該肢體動作識別資訊為一異常肢體動作識別資訊，該異常肢體動作識別資訊係選自攀爬、偷竊、搶奪、鬥毆、暴力、猥褻、色情、怒罵以及倒臥不起之至少其中一種異常肢體動作識別資訊；該攀爬之異常肢體動作識別資訊，係在五秒內，手肘部位高於其手臂向下伸直時原手肘部位的二分之一高度及膝蓋部位高於其大腿向下伸直時原膝蓋部位的三分之一高度，則判定為攀爬之異常肢體動作；該偷竊之異常肢體動作識別資訊，係一人將其手伸入一他人的口袋或是皮包內，即判定為偷竊之異常肢體動作；該搶奪之異常肢體動作識別資訊，係在一分鐘內，接近至少一他人五十公分之內的距離之後，快速做抬腿或舉手動作及在五秒之內遠離該他人至少五公尺的距離，即可判定為搶奪之異常肢體動作；該鬥毆之異常肢體動作識別資訊，係有至少二人身體靠近五十公分之內，並於二秒之內彼此做抬腿或舉手等互毆的肢體動作，即可判定為鬥毆之異常肢體動作；該暴力之異常肢體動作識別資訊，係有一人的身體靠近另一他人五十公分之內，並於二秒之內做抬腿或舉手等毆打的肢體動作，即可判定為暴力之異常肢體動作；該猥褻之異常肢體動作識別資訊，係有一人露出其生殖器官或是該人對一他人強制擁抱而該他人做出反抗動作，即可判定為猥褻之異常肢體動作；該色情之異常肢體動作識別資訊，係有至少一人做露出該至少一人的生殖器官或至少二人裸體做擁抱的動作，即可判定為色情之異常肢體動作；該怒罵之異常肢體動作識別資訊，係一人臉部做出憤怒之表情及其嘴部於一秒之內快速張合及做舉手等肢體動作，即可判定為怒罵之異常肢體動作；該倒臥不起之異常肢體動作識別資訊，係一人於地上其身體倒臥過久超過二分鐘，即可判定為倒臥不起之異常肢體動作。
如請求項1所述之運用深度學習技術之智慧影像資訊及大數據分析系統，其中，該物體影像中包含有至少一直播影像，該雲端影像辨識單元透過該網路傳輸模組與該資訊處理裝置接收該直播影像，該深度學習演算模組可對該直播影像進行暴力、血腥及色情的影像辨識，當該深度學習演算模組偵測到該直播影像中具有暴力、血腥或是色情等其中一種影像內容時，則中斷該直播影像的播放；或是做馬賽克的影像處理。
如請求項1所述之運用深度學習技術之智慧影像資訊及大數據分析系統，其中，該物體影像中包含有至少一影視影像，該雲端影像辨識單元更包含一內建有複數商標樣本影像的影像特徵資料庫，並於每一該商標樣本影像設定有一商標特徵資料及一與該商標特徵資料對應的商標識別資料，該雲端影像辨識單元透過該網路傳輸模組與該資訊處理裝置接收該影視影像，並將該影視影像之特徵擷取為包含至少一商標特徵影像，再於該影像特徵資料庫辨識出與該商標特徵影像之特徵符合的該商標特徵資料，並讀取特徵符合的該商標識別資料，再輸出一相應的該商標識別資訊，使該深度學習演算模組可對該影視影像進行廣告商標之辨識，並對該影視影像中出現的廣告商標進行次數及播放時間的統計，進而輸出該廣告商標的次數及播放時間統計資訊。
一種運用深度學習技術之智慧影像資訊及大數據分析方法，其包括下列步驟：提供至少一影像擷取裝置、至少一資訊處理裝置及至少一雲端影像辨識單元；以該至少一影像擷取裝置擷取至少一物體的物體影像，其中，該物體影像中包含有至少一人影像；該資訊處理裝置透過一訊號傳輸模組與各該影像擷取裝置訊號連結，用以彙集接收該人影像；及該雲端影像辨識單元透過一網路傳輸模組與該資訊處理裝置訊號連結，用以接收該人影像，該雲端影像辨識單元內建有至少一具備深度學習訓練功能以執行影像辨識的深度學習演算模組，該深度學習演算模組可對該人影像進行臉部表情及肢體動作的影像辨識，以得到至少一種臉部表情識別資訊及肢體動作識別資訊。
如請求項8所述之運用深度學習技術之智慧影像資訊及大數據分析方法，其中，該深度學習演算模組執行時則包含下列步驟：(a)訓練階段步驟，係建立有至少一深度學習模型，並於該深度學習模型輸入巨量的樣本物體影像，並由該深度學習模型測試影像辨識的正確率，再判斷影像辨識正確率是否足夠，當判斷結果為是，則將辨識結果輸出及儲存；當判斷結果為否，則使該深度學習模型自我修正學習；及(b)運行預測階段步驟，係於該深度學習模型輸入即時擷取之該物體影像，並由該深度學習模型進行預測性影像辨識，以得到至少一種該臉部表情識別資訊及該肢體動作識別資訊。
如請求項9所述之運用深度學習技術之智慧影像資訊及大數據分析方法，其中，該深度學習模型包含複數不同屬性的分類器，該深度學習演算模組執行時更包含一特徵影像擷取步驟，係將該樣本物體影像像之局部特徵予以擷取為該樣本物體影像，再將該樣本視覺影像輸入至該深度學習模型中，再由相同屬性的該分類器進行比對，以將比對結果輸出至該深度學習模型，以作為該深度學習模型輸出該臉部表情識別資訊及該肢體動作識別資訊的判斷依據。