TWI829493B

TWI829493B - 具隱私保護的危安行為與語意之辨識系統與方法

Info

Publication number: TWI829493B
Application number: TW111151003A
Authority: TW
Inventors: 鍾金峯; 王忠祥; 魏家博
Original assignee: 華研智能股份有限公司
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2024-01-11
Also published as: CN117854147A

Abstract

本發明為一種具隱私保護的危安行為與語意之辨識系統與方法，該系統包含至少一監測主機及一監測後台，該監測主機透過紅外線鏡頭拍攝需監測場所之被照護人員的熱影像，且該監測主機通過收音麥克風收錄該場所的人員聲音或環境聲音，並對各幀熱影像進行分析，以判斷該熱影像中之人形動作，以及對收錄的聲音進行辨識，以識別人員聲音或環境聲音。當該人員的動作行為或人員聲音或環境聲音已符合發出警示訊息的條件時，該監測主機係向監測後台發報警示訊息，令該監測後台之管理人員可即時發現被照護人員發生暴力對話、急難呼救、墜床、跌倒或長時間靜止不動等可能的危安語意或動作之行為，並可即時處置。

Description

具隱私保護的危安行為與語意之辨識系統與方法

本發明關於一種辨識系統與方法，特別是指一種基於紅外線熱影像及特定語意分析判斷被照護人員、或被監護人員是否發生危及安全的動作行為、暴力對話或急難呼救等可能的危安行為辨識與語意之辨識系統與方法。

隨著老齡化社會的到來，未來利用科技輔助照護的需求只會更高，所開發的新科技不僅要能滿足照護機構的需求，更期望也能夠應用於一般民眾家庭，守護家中成員的起居安全並應用於辦公與作業場所的人身安全監護工作。

照護是相當勞力密集的工作，以台灣為例，根據公開資訊統計，台灣長照人力缺口約1.3萬人，但各照護機構面臨的經營壓力不僅包含人員不足，也存在第一線照服人員頻繁流動而影響照護品質的問題。因此，若能透過科技來減輕照服員的工作負擔，有望提升每位照服員的照顧人數也同時提高受照護者的安全性。此外，台灣每年亦有500~700人在工作場所因職業傷害而死亡，其中因為不當動作、感電、被夾、被捲、以及接觸高溫、或低溫等原因而致死的案例，即是可以透過現場裝設的科技裝置來對外呼救、或即時通報處置的情境。

傳統的影像辨識技術，多是基於一般攝像單元所拍攝全彩或黑白畫面做為資料輸入並進行影像識別判斷，常見的技術有人臉識別、瞳孔(虹膜)識別、人體骨架識別等。但對於要求高度要求隱私的場所，例如醫院病室、長照機構住民房間、特定的廁所、或作業場所等場域，基於法規限制以及人權考量，前述影像辨識技術因為使用的影像資料能清楚呈現受拍人員的外觀，有侵犯個人隱私之虞，故不適合導入於照護領域使用，以至於這些場域仍需大量仰賴人力協助看顧。再者，目前亦普遍缺乏可以透過語音呼救或語意分析來即時辨識與通報的科技裝置，多數仍仰賴病室或廁所安裝的緊急通報按鈕，以及作業者進入作業場所時所配戴的無線電對講機，一旦發生急難，例如跌倒不起或化學中毒時而致行動受阻時，將無法按下緊急通報按鈕或開啟無線電進行呼救，此時現場有無精準偵測語音呼救的裝置將是救命關鍵。

有鑑於目前照護機構/醫療機構或辦公與作業場所中存在被照護者、或被監護者於床邊、浴室、特定作業環境等場合可能發生跌倒、靜止不動、以及自我呼救、或因爭吵發生的暴力危安對話之危害人身安全的情境事件，目前尚無良好的科技輔助方案問世，本發明提出一種「具隱私保護的危安行為與語意之辨識系統與方法」，以偵測被照護人員、或被監護人員是否發生危及安全的動作、以及呼救、或對話等行為，包含但不限定於長照受照護者在床邊、廁所跌倒、呻吟求救、或多人暴力對話的危險因子判定，以及特定作業場所的人身作業安全確保，例如長時間靜止不動的行為偵測、或自我呼救的語意辨識等，必要時自動發出緊急警示、或救助信號至護理站、或當責救助人員之手機裝置。

為達成上述目的，本發明在此提出一種「具隱私保護的危安行為與語意之辨識系統與方法」，該系統包含：至少一個監測主機，供裝設於一環境位置以監測該環境位置所在的人員狀態，各監測主機包含有：一控制單元，係連接至少一紅外線鏡頭及至少一收音麥克風；其中，該紅外線鏡頭連續拍攝該環境位置而得到複數幀熱影像，該收音麥克風連續收錄該環境位置的人員聲音或環境聲音；一運算單元，連接該控制單元並透過該控制單元以接收該複數幀熱影像、該人員聲音、或該環境聲音，該運算單元採用一已訓練完成之AI人形偵測模型對該連續接收之複數幀熱影像進行分析，以判斷該複數幀熱影像中之一有效偵測區域內是否有人形存在以及在一監測範圍內的人形其動作，並利用一已訓練完成之AI語意分析模型對該人員聲音或該環境聲音進行辨識，以識別該人員聲音或該環境聲音；其中，當該人形的動作行為已符合發出警示訊息的條件時，該AI人型偵測模型係發報警示訊息；其中，當該人員聲音或該環境聲音已符合發出該警示訊息的條件時，該AI語意分析模型係發報該警示訊息；其中，該警示訊息包含久坐、跌倒、危險或長時間靜止不動的該動作行為、或呻吟求救、暴力對話、急難緊急自我求救呼救的該人員聲音或該環境聲音，當中的至少一種；一記憶單元，連接該控制單元及該運算單元，用以儲存資料與程式；一輸出/入單元，連接該控制單元及該運算單元，該輸出/入單元包含至少一種傳輸介面，用以建立該監測主機與其它外部裝置之間的連接及資料傳輸；一監測後台，與各監測主機通訊連接，其中該監測後台包含：一雲端主機，與各監測主機通訊連接以接收各監測主機拍攝之該數幀熱影像，接收各監測主機收錄的該人員聲音或該環境聲音，及接收各監測主機發報的該警示訊息；一定點主機，連接該雲端主機並且顯示該警示訊息；其中，該AI人形偵測模型於辨識各幀熱影像時，係執行以下流程：判斷熱影像中之人形是否位於該有效偵測區域內，若否則捨棄該人形；針對該有效偵測區域內之各個人形，分別指定一識別碼(ID)，當人形離開該有效偵測區域時係移除其識別碼；辨識該人形之動作，並將對應該動作的計數值加一；其中，當該AI人形偵測模型判斷熱影像中之人形位於該有效偵測區域內時，該AI語意分析模型係執行以下流程：辨識該人員聲音或該環境聲音，且針對語料庫中不同權重等級之關鍵字、或危安語意關聯用字，對該人員聲音或該環境聲音給予一積分；其中，當該人形之動作的計數值已經累加至一門檻值時，或當該人員聲音或該環境聲音的積分超過一設定門檻值，該運算單元係發出警示訊息。

此外，本發明另提出一種「具隱私保護的語意之辨識系統與方法」，該系統包含：至少一個監測主機，供裝設於一環境位置以監測該環境位置所在的人員狀態，各監測主機包含有：一控制單元，係連接至少一收音麥克風；其中，該收音麥克風連續收錄該環境位置的人員聲音或環境聲音；一運算單元，連接該控制單元並透過該控制單元以接收該人員聲音、或該環境聲音，該運算單元利用一已訓練完成之AI語意分析模型對該人員聲音或該環境聲音進行辨識，以識別該人員聲音或該環境聲音；其中，當該人員聲音或該環境聲音已符合發出該警示訊息的條件時，該AI語意分析模型係發報該警示訊息；其中，該警示訊息包含呻吟求救、暴力對話、急難緊急自我求救呼救的該人員聲音或該環境聲音，當中的至少一種；一記憶單元，連接該控制單元及該運算單元，用以儲存資料與程式；一輸出/入單元，連接該控制單元及該運算單元，該輸出/入單元包含至少一種傳輸介面，用以建立該監測主機與其它外部裝置之間的連接及資料傳輸；一監測後台，與各監測主機通訊連接，其中，該監測後台包含：一雲端主機，與各監測主機通訊連接以接收各監測主機收錄的該人員聲音或該環境聲音，及接收各監測主機發報的該警示訊息；一定點主機，連接該雲端主機並且顯示該警示訊息；其中，該AI語意分析模型係執行以下流程：辨識該人員聲音或該環境聲音，且針對語料庫中不同權重等級之關鍵字、或危安語意關聯用字，對該人員聲音或該環境聲音給予一積分；其中，當該人員聲音或該環境聲音的積分超過一設定門檻值，該運算單元係發出警示訊息。

較佳地，前述的監測主機可以是一獨立裝置或系統，亦可以是利用現有具相似功能的行動裝置達成其目的，例如：智慧型手機，內建麥克風等控制單元以及相關的記憶單元、運算單元與輸出/入單元等。

本發明以深度學習方法建構人工智慧(AI)人形偵測模型(類神經網路模型)，並建立以國語(中文)及台語為主，且包含無意義的呻吟聲之關鍵詞句語料庫，且經關聯訓練及人為修正補充進行訓練，以建構AI語意分析模型。透過訓練完成的AI人形偵測模型對熱影像中的人形進行多人追蹤與動作識別，並透過訓練完成的AI語意分析模型對人員聲音或環境聲音進行識別。而AI語意分析模型能通過關鍵詞句的資料庫建置可作為ASR自動語音辨識的辨識來源，直接辨識特定語句關鍵字，以及從關鍵詞句進行的AI關聯訓練，可藉由NLP自然語言處理的AI語意分析模型進行對話分析，判斷整句語意，確認人員聲音中的人員語言。當被照護人員、或被監護人員的人形動作、行為、或人員言語、環境聲音等，符合發出緊急通報的預設規則時，可自動發出警示訊息供看護人員、或監護人員確認，確保被照護人員、或被監護人員的安全。本發明可偵測的熱影像動作樣態以及聲音包括但不限於：在浴廁馬桶久坐、廁所跌倒狀態、辦公場所或作業場所的長時間靜止不動的動作行為，以及呻吟求救、兩人或多人暴力對話、與人員作業意外而發出的急難呼救的人員聲音或環境聲音等等，常發生危安事件之狀態，且本發明能即時偵測通報處置。

再者，本發明是基於紅外線的熱影像資料進行人形動作識別，該熱影像不會清楚呈現人臉與肢體細節動作，故確保當事者的個人隱私，在提供安全照護監看的情況下，兼顧人權保障。

10:監測主機

11:控制單元

12:運算單元

13:記憶單元

14:輸出/入單元

15:紅外線鏡頭

16:收音麥克風

20:監測後台

21:雲端主機

22:定點主機

23:行動裝置

圖1A：本發明當中的AI人形偵測模型的建構流程圖。

圖1B：本發明當中的AI語意分析模型的建構流程圖。

圖2：本發明具隱私保護的危安行為與語意之辨識系統的系統方塊圖。

圖3A：本發明監測主機架設於馬桶上方示意圖。

圖3B：本發明監測主機架設於馬桶側邊示意圖。

圖4A：本發明針對語意之追蹤辨識監護方法流程圖。

圖4B：本發明針對危安行為與語意之追蹤辨識監護方法流程圖。

圖5A~圖5D：本發明衛浴廁所監測之熱影像圖片。

圖6：本發明暴力對話示意之熱影像圖片。

本發明以深度學習方法建構人工智慧(AI)人形偵測模型(類神經網路模型)，以即時偵測人形及辨識人形動作，本發明AI人形偵測模型優點在於每幀熱影像均能立刻判讀出人形的「即時狀態」，例如即時狀態是坐在馬桶上，此時有兩種可能性，靜態的持續坐在馬桶上，或是動態的從馬桶外坐到馬桶上、或準備站起來離開馬桶。上述兩種可能的危安狀態如下：一是久坐馬桶下肢無力起身、或因病昏迷而長時間靜止不動，以此延伸應用在辦公場所、或作業場所的作業者久坐或靜止不動等危安狀態，故需監測久坐或靜止不動並協助通報。二是移動時因動作不當而引起，以浴室廁所內跌倒為例，常容易造成意外傷害，而長者或病患跌倒後若無法起身，也可能長時間造成二次傷害，故監測跌倒即協助通報，而後因跌倒而無法起身的長時間靜止不動危安進行二次通報。

此外，本發明並同時以建立國語(中文)及台語為主，且包含無意義的呻吟聲之關鍵詞句語料庫，經關聯訓練及人為修正補充進行訓練，以建構AI語意分析模型，輔助前述長時間靜止不動危安行為進行通報。例如，若因外傷、或無力導致無法自救起身，即以AI語意分析模型偵測「自主呼救」警示通報，以此可延伸至不同等級的AI語意分析警示，以及兩人以上、或多人的危安行為對話的偵測通報，如「呻吟求救、暴力對話、急難呼救」警示等。藉由統計每幀熱影像的即時狀態來判斷出動作之後，輔以語意分析於有必要時可快速有效發出警示。

請參考圖1A所示，為本發明AI人形偵測模型的建立方式流程圖，主要包含有以下步驟：

影像及圖片資料收集與標註S01：

本發明以紅外線熱像儀拍攝之熱影像作為資料來源，這些資料來源包含以人為特地示範的影像、或實際場域(如醫療機構、長照機構)被照顧者、或辦公場所、或作業場所需要被監護者的動作影像/圖片資料。可包含連續影像或不連續影像等，紅外線熱像儀會擷取多位不同當事者的熱影像，包含連續二十四小時或在不同間隔的時間範圍，儘可能的根據被照顧者、時間範圍、動作樣態差異的最大化及多樣性作為取樣基準，獲得各種不同動作之熱影像圖片，並先以人為方式對得到的各種熱影像圖片進行分類標註，針對不同動作分給指定標籤。舉例而言，分類項目可包含但不限於「馬桶久坐、廁所跌倒、其它」等，其中，在「其它」項目中主要是指被照顧者坐輪椅、使用助行器、駝背、照服員打掃、照服員協助洗澡等狀況。

初始模型建置與訓練S02：

前述動作之熱影像圖片在完成分類標註後，從中依照各動作的標籤擷取約700張圖片，其中每種動作取90%數量用於訓練(train)及10%用於測試或驗證(test/validation)。在進行測試時，以同一動作測試十次，正確標示九次(含)以上為通過門檻，得到初始的AI人形偵測模型。並將針對動作轉換間的過渡期樣態及其它項目，進行關鍵動作行為的圖片資料收集標註與再訓練。神經網路模型(機器學習方法)：可以使用Faster R-CNN、YOLO、RetinaNet等物件偵測(Object Detection)方法，這些方法都是使用卷積神經網路來擷取影像特徵。以YOLOv3為例，輸入層是大小為640 x 480之熱影像，中間層採用Darknet-53架構包含53層卷積層，輸出層預測7種動作類別。訓練過程中使用二分交叉熵(Binary Cross Entropy)作為分類損失函數及均方誤差(Mean Squared Error)作為定界框預測損失函數。訓練資料約有5000張標註過之熱影像，預處理包含高斯模糊、水平翻轉及小於15度之旋轉。根據實驗結果，AI人形偵測模型Tiny YOLOv3(YOLO v3精簡版本)可以成功辨識本發明所建立7種不同種類的動作，並且平均精度(Mean Average Precision,MAP)達到95%，在樹莓派第4代偵測速度可達3~4 FPS(Frames Per Second)。本發明藉由建置的熱影像數據集及應用於人形偵測動作分類，將有助於輔助照護與監控之實現。

場域實際測試S03：

為了得到預測準確率較高的AI人形偵測模型，本發明可先將通過測試的初始AI人形偵測模型，先架設於目標場域進行實證及最終測試。在數個不同場域(如3~5個)當中，於每個場域架設多套設備(如5~10套)，進行場域實證與最終測試工作。在一段時間內觀察每套設備之反應並隨時調整，如硬體架設角度、可視區域範圍、軟體設定參數，若有異常則可透過異常資料作為再次訓練、測試驗證之關鍵動作行為的圖片資料收集標註，與再訓練資料來源進行優化，得到最終可用的AI人形偵測模型。

請參考圖1B所示，為本發明AI語意分析模型的建立方式流程圖，主要包含有以下驟：

語音資料蒐集與標註S11：

本發明以指向型麥克風收錄之語音作為資料來源，這些資料來源包含以人為特地示範的錄音、或實際場域(如醫療機構、長照機構)被照顧者、或辦公場所、或作業場所需要被監護者的人員、環境聲音資料。可包含連續錄音或不連續錄音等，麥克風收錄會擷取多位不同當事者的語音，包含連續二十四小時或在不同間隔的時間範圍，儘可能的根據被照顧者(被監護者)、時間範圍、交談模式差異的最大化及多樣性作為取樣基準，獲得各種不同場域之人員、環境語音片段，並先以人為方式對得到的各種語音資料進行分類標註，以國語及台語為主，針對不同內容分給指定標籤。舉例而言，分類項目可包含但不限於「異常聲音、呻吟求救、暴力對話、急難呼救、其它」等，其中，在「其它」項目中主要是指被照顧(監護)者特定需求語句等狀況。

語料庫關聯訓練、人為補充與模型建置訓練S12：

前述收錄之語音資料在完成分類標註後，利用ASR(Automatic Speech Recognition)自動語音辨識系統將音訊型內容轉換為文字，ASR系統可分為聲學模型(Acoustic Model)、發音模型(Pronunciation Model)、語言模型 (Language Model)三大模組；聲學模型將切分成幀(frame)的音頻轉譯成音素(phoneme)，音素為區別意義的最小單位，經過發音模型詞庫比對，找出對應字，最後透過語言模型把各別的字依序組合成組成合理的句子。

前述文本依據語意、文法及語料庫關聯訓練，利用NLP(Natural Language Processing)自然語言處理分析辨識，理解並處理轉成有意義的文句。NLP首先將文本標記化(tokenization)將文字轉換成詞彙(Token)。進行詞向量以及詞嵌入(Word Embedding)的轉換，並使用循環神經網路(Recurrent Neural Network,RNN)處理序列數據與模型建置訓練。

以下列兩種情況為例，第一是建立語料庫並經過關聯訓練，ASR系統可以直接辨識特定語句的關鍵字，以國語(中文)及台語為主，例句一：我今天很不舒服(關鍵字：不舒服)；例句二：你再講一句，再講一句，我就要打你(關鍵字：打你)。ASR系統辨識特定語句的關鍵字，或相關聯的同意詞如不爽快、生氣等，即可通報相關預設人員知悉。

第二是透過人為修正補充語料庫及AI模型訓練，NLP系統可判斷整句語意，以國語及台語為主，例句一：我今天拉了2次肚子，中餐也吃不下(NLP判斷：可能身體不舒服)。例句二：你不要再講了，我很生氣，等下我做出什麼事，我都控制不住，我告訴你...(NLP判斷：可能即將發生暴力行為)，NLP系統判斷危安語句語意，或語句如：我頭暈、我拉肚子、你混帳或者自我呢喃呻吟等相似語句，通報相關預設人員知悉。

如下表1，為國語及台語ASR及NLP語料庫範例，本發明藉由建置的語音資料集及應用於危安語意分析，將有助於危安行為與語意輔助照護與監控之實現。

主題類別：依特定語句分類如「呻吟求救、暴力對話、急難呼救」等主題。

關鍵字：主題相關的專有名詞，可以有很多個關鍵字。

同義詞：與關鍵字做聯結用，舉例關鍵字是「不舒服」，同義詞可以為「不爽快、頭鈍鈍、烙賽、或無意義的呻吟聲」。

危安語句：被監測者可能所使用的危安語句敘述。

相似語句：依據被監測者的表達方式，可能換句話說的不同說法，這樣才能有不同說法可用來判斷警示通報。

權重等級：依照不同類別設定權重，作為後續通報示警程式計算參考。

通報警示：根據不同狀態如「呻吟求救、暴力對話、急難呼救」通報。

場域實際測試S13：

為了得到預測準確率較高的AI人形偵測模型，本發明可先將通過測試的初始AI人形偵測模型，先架設於目標場域進行實證及最終測試。在數個不同場域(如3~5個)當中，於每個場域架設多套設備(如5~10套)，進行場域實證與最終測試工作。在一段時間內觀察每套設備之反應並隨時調整，如硬體架設角度、收音範圍、軟體設定參數，若有異常則可透過異常資料作為再次訓練、測試驗證之關鍵對話之語音資料收集標註，與再訓練資料來源進行優化，得到最終可用的AI語意分析模型。

參考圖2，為本發明的系統方塊圖，包含有一或多個監測主機10及一監測後台20，不同的監測主機10供分別安裝在複數個不同預定位置，例如安裝於衛浴廁所以監測馬桶附近的人體影像，每一監測主機10與該監測後台20通訊連接，將識別結果回報給該監測後台20。

每一個監測主機10包含有：一控制單元11、一運算單元12、一記憶單元13、一輸出/入單元14。該控制單元11可以是一控制電路板，例如以樹莓派(Raspberry Pi)或Arduino套件為基礎開發而成，或採取量產版本的PCBA(組裝電路板)，可與紅外線鏡頭15、感測器、擴充板或其它元件連接，其中該紅外線鏡頭15是拍攝所在安裝位置的熱影像。收音麥克風16是特殊指向型麥克風連續收錄人員聲音、或全指向型麥克風收錄整個環境的聲音。

該運算單元12連接該控制單元11，包含有中央處理器(CPU)、圖形處理器(GPU)等微處理器，或是採用「Intel®Movidius^TM神經運算棒2」等其他同功能規格的運算加速外部插件構成，該運算單元12透過該控制單元11接收紅外線鏡頭15拍攝之熱影像，及收音麥克風16收錄之語音進行資料計算、資料庫運行以及執行該AI人形偵測模型進行熱影像識別，與AI語意分析模型進行危安語意分析。

該記憶單元13連接該控制單元11及該運算單元12，可包含有該控制電路板上的內建記憶體或是外接的擴充記憶卡等，用於儲存作業系統、程式與資料。

該輸出/入單元14連接該控制單元11及該運算單元12，包含一或多種不同規格的輸出/入介面，包含至少一種傳輸介面，例如HDMI介面、USB介面、有線網路傳輸介面、無線網路傳輸介面或其它標準規格之接頭等，用於建立監測主機10與其它外部裝置之間的連接及資料傳輸，例如監測主機10可透過有線或無線的輸出/入單元14與監測後台連線。

當前述監測主機10安裝於特定監測場所時，以衛浴廁所為例，可將紅外線鏡頭15架設於馬桶上方、前方、馬桶側邊左/右側之天花板、走道或對面牆之天花板，紅外線鏡頭15的視角與水平夾角可介於15~60度之間，以方便觀測被照顧者活動、停留區域之硬體安裝位置為佳，收音麥克風16是特殊指向型麥克風連續收錄人員聲音、或全指向型麥克風收錄整個環境的聲音，以適合監測場所收音為佳。該監測主機10可以監看的「有效偵測區域」包含完整或局部馬桶設定範圍、使用馬桶時站立於馬桶周圍範圍、坐在馬桶上範圍、馬桶四周走道等區域。如圖3A所示，紅外線鏡頭15架設於馬桶上方牆面，可監看一馬桶及使用者坐下的範圍；或是如圖3B所示，紅外線鏡頭15架設於馬桶側邊走道牆面，同時將馬桶及走道納入有效偵測區域範圍，有效監測馬桶使用及中間走道上異常可能。

在監測後台20方面，可包含一雲端主機21、一定點主機22或行動裝置23。該雲端主機21連接各監測主機10及接收監測主機10發出的紅外線的複數幀熱影像，接收各監測主機10收錄的人員聲音或環境聲音，以及接收各監測主機10發報的警示訊息。該定點主機22固定設置在一定點，例如護理站，可連接該雲端主機21並且顯示該警示訊息。該行動裝置23供護理人員或監護人員隨身攜帶，在其內部安設一應用程式(APP)，透過該應用程式連接該雲端主機21及顯示該紅外線鏡頭15拍攝的畫面，以及顯示相關警示訊息。在本實施例中，人員聲音或環境聲音包含但不限於語音資訊，而語音資訊可為「語音資訊」或「語音轉文字資訊」。

請參考圖4A，為本發明追蹤辨識監護方法的流程圖，在本實施例中，以語意警示通報之狀況為例說明，且該追蹤辨識監護方法包含以下步驟：

人員語音判別S401：進行人員聲音或環境聲音的語音資訊的判別，針對「呻吟求救、暴力對話、安全確保(急難呼救)」的可能危險狀況進行判定。ASR或NLP系統可針對語料庫中不同權重等級之關鍵字、或危安語意關聯用字給予積分。

發出警示S402：當語音資訊積分超過一設定門檻值，則發報相關警示訊息。以下列語句為例：「我今天很不舒服」、或「我今天拉了2次肚子，中餐也吃不下」、或發出無意義呻吟聲，其中關鍵字：不舒服、或其語意代表身體不舒服，均可警示「呻吟求救」。或以下列語句為例：「我要打你」、或「你不要再講了，我很生氣...」，其中關鍵字：打你、或其語意代表可能發生暴力行為，均可警示「暴力對話」。或以下列語句為例：「救命！！快來人...」，其中關鍵字：救命、或其語意代表急難呼救，均可警示「急難呼救」，通報相關人員知悉。

請參考圖4B，為本發明追蹤辨識監護方法的流程圖，在本實施例中，以危安行為與語意警示通報之狀況為例說明，且該追蹤辨識監護方法包含以下步驟：

設定偵測區域範圍S41：以紅外線鏡頭15拍攝的熱影像整體畫面100%為可視區，使用者可自行設定一「有效偵測區域」以及一或多個「監測範圍」，以衛浴廁所為例，可框選該可視區長度範圍0~100%為「有效偵測區域」，監測範圍可以是一「馬桶範圍」、或辦公場所、或作業場所需要被監測區域。框選涵蓋馬桶及其所在的周圍適當區域範圍作為「馬桶範圍」，其中，該馬桶範圍可部分或完全落入於有效偵測區域內。參考圖5A~圖5D所示的熱影像圖片，其中顯示的白色長矩形框即代表馬桶範圍。

設定偵測頻率S42：使用者可自行設定每單位時間內欲處理的熱影像圖片張數，舉例來說可設定該紅外線鏡頭15以1~12 FPS(frame per second，每秒顯示影格幀數)其中任一頻率偵測即時影像；若在不刻意設定的情況下，也可以直接以一預設頻率值(例如3 FPS)作為該紅外線鏡頭15的影像擷取頻率，而針對每幀熱影像將會進一步利用以上述建構完成的該AI人形偵測模型執行下列S43~S46之步驟。

熱影像人形偵測S43：若AI人形偵測模型偵測到一個或多個人形，再進一步判斷該人形是否位於該「有效偵測區域」，若是則進行下一步驟S44，若非位於該「有效偵測區域」，則捨棄該人形。參考圖5A~圖5D所示其中黑色框區域代表有偵測到人形存在。

指定ID及追蹤人形S44：針對每個已辨識出的人形賦予獨立的識別碼(ID)，例如以數字0,1,2..以此類推作為ID，該AI人形偵測模型並開始追蹤該人形，若有新的人形出現在有效偵測區域，則再指定該新的人形一個新的ID。若人形出現動作形狀，則進行下一步驟S45及S47。若人形離開有效偵測區域，則移除該人形的ID。

人形動作判別S45：根據先前訓練完成之AI人形偵測模型，比對每一幀熱影像圖片中的人形動作，也就是利用該AI人形偵測模型已預先訓練的動作判斷人形姿態其「相似度最高的動作」，並累加動作計數。若影像模糊或動作判斷不易確認者，將根據先前3~10影格幀數之動作判斷紀錄，以動作紀錄較多、或權重較重、或可能性較高之連續動作進行「動作補正」，並累加動作計數，藉此修正不易確認動作判斷，確保被照護人員、或被監護人員之動作正確即時警示。若非預先訓練之動作則捨棄不列入計數。如圖5A~圖5D分別所示，舉例而言，若監測的環境為衛浴廁所內，可判斷該人形動作是否屬於「久坐不動(sedentary)」、「跌倒(fall)」、或因久坐、跌倒導致「長時間靜止不動」的危險狀況(danger)等危安動作行為等。

人員語音判別S47：若人形位於有效偵測區域內，則同步進行人員聲音或環境聲音的語音資訊的判別，針對「呻吟求救、暴力對話、安全確保(急難呼救)」的可能危險狀況進行判定。ASR或NLP系統可針對語料庫中不同權重等級之關鍵字、或危安語意關聯用字給予積分。

發出警示S46：若在廁所內的受照顧者其動作判斷為久坐、跌倒、危險，且該動作所累積的計數值達到一設定門檻值，則發報相關警示訊息，其中，不同的動作可分別設定不同的對應門檻值，例如廁所內久坐動作對應的門檻值可設定相對較大，跌倒、危險動作對應的門檻值可設定相對較小。或者當語音資訊積分超過一設定門檻值，則發報相關警示訊息。以下列語句為例：「我今天很不舒服」、或「我今天拉了2次肚子，中餐也吃不下」、或發出無意義呻吟聲，其中關鍵字：不舒服、或其語意代表身體不舒服，均可警示「呻吟求救」。或以下列語句為例：「我要打你」、或「你不要再講了，我很生氣...」，其中關鍵字：打你、或其語意代表可能發生暴力行為，均可警示「暴力對話」。或以下列語句為例：「救命！！快來人...」，其中關鍵字：救命、或其語意代表急難呼救，均可警示「急難呼救」，通報相關人員知悉。

上面說明係配合熱影像圖片以衛浴廁所監測為例，同理亦應用於如長時間靜止不動等常發生危安事件之場域監測。圖5A~圖5D即顯示被照護人員、或被監護人員在馬桶久坐發出久坐警示、久坐警示發出後仍持續久坐達一預設時間時發出久坐及危險警示，以及跌臥在馬桶周圍的監測範圍內所出發的跌倒警示，與跌倒持續達一預設時間後的跌倒及危險警示。前述透過不同行為以及該行為的不同危險程度來即時提出警示通報，確保被照護人員、或被監護人員的及時生命安全，判斷是否需發出久坐、跌倒、危險警示，說明如下：

久坐警示：圖5B被照顧者坐在馬桶上超過一預設時間(1~10分鐘不等)，則即時發出「久坐警示」。若久坐馬桶下肢無力起身、或因病昏迷而長時間靜止不動，超過第二預設時間(如20分鐘)，即時警示「危險警示」。以此延伸人在辦公場所、或作業場所久坐或靜止不動等危安狀態。

跌倒警示：圖5C被照顧者於指定的馬桶範圍外、有效偵測區域內跌倒或坐下達一預設時間(如1~5秒)，則即時警示「跌倒警示」。

危險警示：圖5D被照顧者於馬桶範圍外、有效偵測區域內跌倒或坐下，以浴室廁所內跌倒為例，常容易造成意外傷害，而長者或病者跌倒後若無法起身，也可能長時間造成二次傷害，因跌倒而無法起身的長時間靜止不動達一預設時間(如300~600秒)即時警示「危險警示」。若同時自主呼救，則可觸發「急難呼救」警示，通報相關人員知悉。

前項的「久坐警示」亦可延伸至辦公場所、或作業場所時，被照護人員、或被監護人員的長時間靜止不動的「危安行為偵測通報」警示，故警示訊息可改為「靜止不動」，包含久坐、躺臥在地上等危安行為。如「靜止不動」持續更長時間達到一預設時間(如600秒)則即時警示「危險警示」。

暴力對話警示：如圖6亦可延伸至兩人、或兩人以上多人的暴力行為對話的偵測通報，參考熱影像人形偵測指定ID並追蹤人形，AI人形偵測配合AI語意分析，即可達成兩人、或多人的暴力行為對話「危安語意偵測通報」，可有效偵測並通報相關單位人員知悉，以提早示警並避免衍生後續更大的傷害。舉例來說，暴力對話可能包含有：「你不要再講了，我很生氣。我要對你不客氣了。再講一句，我就要打你了。混帳！」

綜上所述，本發明為了偵測受照護者的異常與急難行為，採用熱像儀拍攝之紅外線熱影像作為資料來源，其優點具有：

一、透過訓練完成的AI人形偵測模型、及AI語意分析模型進行多人同時追蹤與動作偵測，並經過程式規則比對進行危險行為判定，在符合條件狀態下發出緊急通報，確保被照護者(被監護者)的安全。本發明可偵測的動作樣態包括但不限於：在床上起身準備離床、已離床、床邊跌倒與馬桶久坐、廁所跌倒或長時間靜止不動、呻吟求救、暴力對話、急難呼救等常發生危安事件之狀態。

二、人臉與肢體細節動作是模糊難以辨認，故沒有侵犯個人隱私權疑慮。但使用傳統的攝影機會清楚拍到人臉，需要經過後製才能抹除，無法100%確保個資外流疑慮。

三、人體有穩定的熱源可以被感應偵測並與周邊環境進行區隔，故即使在周邊環境光源昏暗不足的情況仍可清楚識別。但使用傳統攝影機在昏暗光源下係無法得到清晰影像，而不易識別。同時，本發明亦可以根據人體熱影像來判斷是否受照護者體溫過高而產生健康危害。

Claims

一種具隱私保護的危安行為與語意之辨識系統，包含：至少一個監測主機，供裝設於一環境位置以監測該環境位置所在的人員狀態，各監測主機包含有：一控制單元，係連接至少一紅外線鏡頭及至少一收音麥克風；其中，該紅外線鏡頭連續拍攝該環境位置而得到複數幀熱影像，該收音麥克風連續收錄該環境位置的人員聲音或環境聲音；一運算單元，連接該控制單元並透過該控制單元以接收該複數幀熱影像、該人員聲音、或該環境聲音，該運算單元採用一已訓練完成之AI人形偵測模型對該連續接收之複數幀熱影像進行分析，以判斷該複數幀熱影像中之一有效偵測區域內是否有人形存在以及在一監測範圍內的人形其動作，並利用一已訓練完成之AI語意分析模型對該人員聲音或該環境聲音進行辨識，以識別該人員聲音或該環境聲音；其中，當該人形的動作行為已符合發出一警示訊息的條件時，該AI人形偵測模型係發報該警示訊息；其中，當該人員聲音或該環境聲音已符合發出該警示訊息的條件時，該AI語意分析模型係發報該警示訊息；其中，該警示訊息包含久坐、跌倒、危險或長時間靜止不動的該動作行為、或呻吟求救、暴力對話、急難緊急自我求救呼救的該人員聲音或該環境聲音，當中的至少一種；一記憶單元，連接該控制單元及該運算單元，用以儲存資料與程式；一輸出/入單元，連接該控制單元及該運算單元，該輸出/入單元包含至少一種傳輸介面，用以建立該監測主機與其它外部裝置之間的連接及資料傳輸；一監測後台，與各監測主機通訊連接，其中，該監測後台包含：一雲端主機，與各監測主機通訊連接以接收各監測主機拍攝之該複數幀熱影像，接收各監測主機收錄的該人員聲音或該環境聲音，及接收各監測主機發報的該警示訊息；一定點主機，連接該雲端主機並且顯示該警示訊息；其中，該AI人形偵測模型於辨識各幀熱影像時，係執行以下流程：判斷熱影像中之人形是否位於該有效偵測區域內，若否則捨棄該人形；針對該有效偵測區域內之各個人形，分別指定一識別碼(ID)，當人形離開該有效偵測區域時係移除其識別碼；辨識該人形之動作，並將對應該動作的計數值加一；其中，當該AI人形偵測模型判斷熱影像中之人形位於該有效偵測區域內時，該AI語意分析模型係執行以下流程：辨識該人員聲音或該環境聲音，且針對語料庫中不同權重等級之關鍵字、或危安語意關聯用字，對該人員聲音或該環境聲音給予一積分；其中，當該人形之動作的計數值已經累加至一門檻值時，或當該人員聲音或該環境聲音的積分超過一設定門檻值，該運算單元係發出警示訊息。
如請求項1所述之具隱私保護的危安行為與語意之辨識系統，其中該監測後台更包含一行動裝置，該行動裝置內安裝一應用程式，透過該應用程式連接該雲端主機並接收該警示訊息。
如請求項1所述之具隱私保護的危安行為與語意之辨識系統，其中，該監測範圍係包含一床位範圍、或一馬桶範圍、或一辦公範圍、或一作業場所範圍等，該監測範圍至少有一部分位於該有效偵測範圍內。
如請求項3所述之具隱私保護的危安行為與語意之辨識系統，其中，該有效偵測範圍及該監測範圍係根據使用者輸入的指令而設定。
根據請求項1所述的具隱私保護的危安行為與語意之辨識系統，其中，當該AI人形偵測模型在辨識該人形之動作時，該AI人形偵測模型根據先前第一數量影格數中動作辨識動作紀錄最多、或權重最重、或可能性最高之連續動作為該人形之動作，並將對應該動作的計數值加一。
一種具隱私保護的危安行為與語意之辨識方法，包含：接收一紅外線鏡頭連續拍攝之複數幀熱影像；接收一收音麥克風連續收錄之人員聲音或環境聲音；利用一已預先訓練完成之AI人形偵測模型辨識各幀熱影像，其中，該AI人形偵測模型係執行以下流程：判斷熱影像中之人形是否位於一有效偵測區域內，若否則捨棄該人形；針對該有效偵測區域內之各個人形，分別指定一識別碼(ID)，當人形離開該有效偵測區域時係移除其識別碼；辨識該人形之動作並包含動作補正，並將對應該動作的計數值加一；判斷該人形之動作的計數值是否已經累加至一門檻值，若是，則產生一警示訊息其中，當該AI人形偵測模型判斷熱影像中之人形位於該有效偵測區域內時，利用一已訓練完成之AI語意分析模型辨識該人員聲音或該環境聲音，其中，該AI語意分析模型係執行以下流程：針對語料庫中不同權重等級之關鍵字、或危安語意關聯用字，對該人員聲音或該環境聲音給予一積分；判斷該人員聲音或該環境聲音的積分是否超過一設定門檻值，若是，則產生該警示訊息。
如請求項6之具隱私保護的危安行為與語意之辨識方法，在接收該熱影像之步驟前係進一步包含：設定偵測區域範圍：係以該紅外線鏡頭拍攝的整體畫面為一可視區，在該可視區內依使用者輸入的指令指定該有效偵測區域及一或多個監測範圍；設定偵測頻率：係設定在單位時間內欲利用該AI人形偵測模型進行辨識的熱影像幀數。
如請求項7所述之具隱私保護的危安行為與語意之辨識方法，其中，該監測範圍係包含一床位範圍、或一馬桶範圍、或一辦公範圍、或一作業場所範圍等，該監測範圍至少有一部分位於該有效偵測範圍內。
如請求項6所述之具隱私保護的危安行為與語意之辨識方法，其中，該警示訊息包含久坐、跌倒、危險或長時間靜止不動的該動作行為，或呻吟求救、暴力對話、急難緊急自我求救呼救的該人員聲音或該環境聲音，當中的至少一種。
根據請求項6所述的具隱私保護的危安行為與語意之辨識方法，其中，當該AI人形偵測模型在辨識該人形之動作時，該AI人形偵測模型根據先前第一數量影格數中動作辨識動作紀錄最多、或權重最重、或可能性最高之連續動作為該人形之動作，並將對應該動作的計數值加一。