TWI776429B

TWI776429B - 動作識別方法及裝置、電腦可讀存儲介質

Info

Publication number: TWI776429B
Application number: TW110109832A
Authority: TW
Inventors: 王飛; 王利鳴; 錢晨
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2020-03-19
Filing date: 2021-03-18
Publication date: 2022-09-01
Also published as: KR20220027241A; TW202139061A; CN113496143B; CN113496143A; WO2021185317A1; JP2022543032A

Abstract

本發明提供了一種動作識別方法及裝置、電腦可讀存儲介質，其中，所述方法包括：獲取場景圖像；對所述場景圖像進行物件的不同部位檢測、同一物件中不同部位的關聯以及物件的動作識別，確定所述場景圖像包括的至少一個物件和所述至少一個物件中每個物件的目標動作類型。

Description

動作識別方法及裝置、電腦可讀存儲介質

本發明是有關於電腦視覺領域，且特別是有關於一種動作識別方法及裝置、存儲介質。

目前，通過電腦視覺技術來分析對象動作的需求日益增強。在進行動作類型識別的過程中，需要先通過對象檢測獲得對象位置，根據對象位置對每個對象進行裁剪，輸入至動作分類網路中獲得動作識別結果。上述動作識別的處理時間與場景中對象的數目呈線性相關。例如，場景中包括N個對象，這裡的N可以為正整數，則動作分類網路需要進行N次推理，動作識別的時間會增加N倍，N的取值越大，動作識別的時間就越長，這就需要設備具備較高的計算能力且耗時較長。

本發明提供了一種動作識別方法及裝置、存儲介質。

根據本發明實施例的第一方面，提供一種動作識別方法，所述方法包括：獲取場景圖像；對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型。

在一些可選實施例中，所述對象包括人物，所述對象的不同部位包括人物的人臉和人體；所述對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型，包括：對所述場景圖像進行特徵提取，得到特徵圖；確定所述特徵圖中至少一個人臉位置和至少一個人體位置；根據所述至少一個人臉位置和/或所述至少一個人體位置，確定場景圖像中包括的至少一個人物；對屬於同一人物的所述人臉位置和所述人體位置進行關聯；根據關聯的所述人臉位置和所述人體位置，確定所述場景圖像的所述至少一個人物中每個人物的所述目標動作類型。

在一些可選實施例中，所述對屬於同一人物的所述人臉位置和所述人體位置進行關聯，包括：對於至少一個人物中的每個人物，確定與該人物的人臉位置對應的參考人體位置；根據所述參考人體位置和所述至少一個人體位置，對屬於所述同一人物的所述人臉位置和所述人體位置進行關聯。

在一些可選實施例中，所述確定與每個人臉位置對應的參考人體位置，包括：確定所述該人物的人臉位置在所述特徵圖上的第一座標值；根據預設向量和所述第一座標值，確定第二座標值；其中，所述預設向量是由人臉所在位置指向人體所在位置的向量；將所述第二座標值作為所述參考人體位置。

在一些可選實施例中，所述根據所述參考人體位置和所述至少一個人體位置，對屬於所述同一人物的所述人臉位置和所述人體位置進行關聯，包括：將與所述參考人體位置距離最小的所述人體位置和該參考人體位置對應的所述人臉位置進行關聯。

在一些可選實施例中，所述根據關聯的所述人臉位置和所述人體位置，確定所述場景圖像包括的至少一個人物和所述至少一個人物中每個人物的所述目標動作類型，包括：對於一個至少一個人物中的每個人物，根據與該人物關聯的所述人臉位置和所述人體位置，確定多個特徵向量；基於所述多個特徵向量，確定該人物的所述目標動作類型。

在一些可選實施例中，所述根據與該人物關聯的所述人臉位置和所述人體位置，確定多個特徵向量，包括：確定與至少一個預設動作類型分別對應且由所述人臉位置指向關聯的所述人體位置的多個特徵向量。

在一些可選實施例中，所述基於所述多個特徵向量，確定所述至少一個人物中每個人物的所述目標動作類型，包括：對該人物對應的多個特徵向量分別進行歸一化，得到每個特徵向量的歸一化值；將最大歸一化值所對應的特徵向量，作為該人物的目標特徵向量；將所述目標特徵向量所對應的動作類型作為該人物的所述目標動作類型。

在一些可選實施例中，所述對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型，包括：通過對象檢測模型在所述場景圖像上，確定每個對象的每個部位的目標位置後，對屬於同一對象的不同部位的所述目標位置進行關聯；再通過所述對象檢測模型根據關聯的不同部位的所述目標位置，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型。

在一些可選實施例中，所述對象檢測模型是通過以下步驟訓練的：確定樣本圖像集合中的標籤類型；其中，所述標籤類型包括人臉位置標籤、人體位置標籤、人臉位置和人體位置之間的關聯關係標籤、人體位置和動作類型之間的動作標識標籤中的至少一種；採用所述樣本圖像集合，對預設模型中與所述標籤類型對應的分支分別進行訓練，得到所述對象檢測模型。

在一些可選實施例中，對象檢測模型至少包括定位分支、關聯分支以及動作識別分支，所述定位分支用於確定所述每個人物的人臉位置和所述每個人物的人體位置；所述關聯分支用於對屬於同一人物的所述人臉位置和所述人體位置進行關聯；所述動作識別分支用於根據關聯的所述人臉位置和所述人體位置，確定該場景圖像包括的至少一個人物和至少一個人物中每個人物對應的目標動作類型。

在一些可選實施例中，所述方法還包括：確定所述每個對象在設定時間段內做出的與所述目標動作類型匹配的動作的累計檢測結果。

在一些可選實施例中，所述場景圖像包括在教室中採集到的場景圖像，所述對象包括教學對象，所述目標動作類型包括教學任務中的至少一個動作類型。

根據本發明實施例的第二方面，提供一種動作識別裝置，所述裝置包括：圖像獲取模組，用於獲取場景圖像；動作識別模組，用於對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型。

在一些可選實施例中，所述對象包括人物，所述對象的不同部位包括人物的人臉和人體；所述動作識別模組包括：特徵提取模組，用於對所述場景圖像進行特徵提取，得到特徵圖；第一確定子模組，用於確定所述特徵圖中至少一個人臉位置和至少一個人體位置；第二確定子模組，用於根據所述至少一個人臉位置和/或所述至少一個人體位置，確定場景圖像中包括的至少一個人物；關聯子模組，用於對屬於同一人物的所述人臉位置和所述人體位置進行關聯；第三確定子模組，用於根據關聯的所述人臉位置和所述人體位置，確定所述場景圖像的所述至少一個人物中每個人物的所述目標動作類型。

在一些可選實施例中，所述關聯子模組包括：第一確定單元，用於對於至少一個人物中的每個人物，確定與該人物的人臉位置對應的參考人體位置；關聯單元，用於根據所述參考人體位置和所述至少一個人體位置，對屬於所述同一人物的所述人臉位置和所述人體位置進行關聯。

在一些可選實施例中，所述第一確定單元包括：在所述場景圖像上，確定該人物的人臉位置在所述特徵圖上的第一座標值；根據預設向量和所述第一座標值，分別確定第二座標值；其中，所述預設向量是由人臉所在位置指向人體所在位置的向量；將所述第二座標值作為所述參考人體位置。

在一些可選實施例中，所述關聯單元包括：將與所述參考人體位置距離最小的所述人體位置和該參考人體位置對應的所述人臉位置進行關聯。

在一些可選實施例中，所述第二確定子模組包括：第二確定單元，用於對於一個至少一個人物中的每個人物，根據與該人物關聯的所述人臉位置和所述人體位置，確定多個特徵向量；第三確定單元，用於基於所述多個特徵向量，確定所述至少一個人物中每個人物的所述目標動作類型。

在一些可選實施例中，所述第二確定單元包括：確定與至少一個預設動作類型分別對應且由所述人臉位置指向關聯的所述人體位置的多個特徵向量。

在一些可選實施例中，所述第三確定單元包括：對所述該人物對應的多個特徵向量分別進行歸一化，得到每個特徵向量的歸一化值；將最大歸一化值所對應的特徵向量，作為該人物的目標特徵向量；將所述目標特徵向量所對應的動作類型作為該人物的所述目標動作類型。

在一些可選實施例中，所述動作識別模組包括：第二關聯子模組，用於通過對象檢測模型在所述場景圖像上，確定每個對象的每個部位的目標位置後，對屬於同一對象的不同部位的所述目標位置進行關聯；第三確定子模組，用於通過所述對象檢測模型根據關聯的不同部位的所述目標位置，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型。

在一些可選實施例中，所述裝置還包括：標籤類型確定模組，用於確定樣本圖像集合中的標籤類型；其中，所述標籤類型包括人臉位置標籤、人體位置標籤、人臉位置和人體位置之間的關聯關係標籤、人體位置和動作類型之間的動作標識標籤中的至少一種；訓練模組，用於採用所述樣本圖像集合，對預設模型中與所述標籤類型對應的分支分別進行訓練，得到所述對象檢測模型。

在一些可選實施例中，所述裝置還包括：匹配確定模組，用於確定所述每個對象在設定時間段內做出的與所述目標動作類型匹配的動作的累計檢測結果。

根據本發明實施例的第三方面，提供一種電腦可讀存儲介質，所述存儲介質存儲有電腦程式，所述電腦程式用於執行第一方面任一所述的動作識別方法。

根據本發明實施例的第四方面，提供一種動作識別裝置，包括：處理器；用於存儲所述處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體中存儲的可執行指令，實現第一方面任一項所述的動作識別方法。

本發明的實施例提供的技術方案可以包括以下有益效果：本發明實施例中，可以對場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，從而確定該場景圖像包括的至少一個對象和至少一個對象中每個對象的目標動作類型，上述動作識別時長與場景圖像中所包括的對象的數目無關，不會因為對象數目的增長導致計算時長的增加，極大節省了計算資源，縮短了動作識別的時長，有效提高檢測效率。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，並不能限制本發明。

這裡將詳細地對示例性實施例進行說明，其示例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本發明相一致的所有實施方式。相反，它們僅是與如所附請求項書中所詳述的、本發明的一些方面相一致的裝置和方法的例子。

在本發明運行的術語是僅僅出於描述特定實施例的目的，而非旨在限制本發明。在本發明和所附請求項書中所運行的單數形式的“一種”、“所述”和“該”也旨在包括多數形式，除非上下文清楚地表示其他含義。還應當理解，本文中運行的術語“和/或”是指並包含一個或多個相關聯的列出專案的任何或所有可能組合。

應當理解，儘管在本發明可能採用術語第一、第二、第三等來描述各種資訊，但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如，在不脫離本發明範圍的情況下，第一資訊也可以被稱為第二資訊，類似地，第二資訊也可以被稱為第一資訊。取決於語境，如在此所運行的詞語“如果”可以被解釋成為“在……時”或“當……時”或“回應於確定”。

本發明實施例提供了一種動作識別方案，示例性的，可以適用於不同場景下的終端設備。不同的場景包括但不限於教室、播放廣告的地點、或其他需要對至少一個對象進行動作識別的室內或室外場景，終端設備可以採用任意帶攝像頭的終端設備，或者，終端設備也可以外接攝像設備。終端設備對獲取的場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，從而確定場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型。

例如在教室中，終端設備可以採用部署在教室內的帶攝像頭的教學多媒體設備，包括但不限於教學投影機、教室內的監控設備等。例如，終端設備獲取教室中的場景圖像，從而對教室內的對象進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，快速獲得檢測結果，該檢測結果可以包括該場景圖像包括的至少一個對象和每個對象的目標動作類型，目標動作類型可以包括舉手、站立或進行其他互動動作。

再例如，終端設備可以獲取電梯中的場景圖像，該電梯正在播放廣告，採用本發明實施例提供的方案，可以確定電梯播放廣告時，電梯中的對象所對應的目標動作類型，目標動作類型可以包括但不限於轉頭、關注廣告投放位置、側身等。

示例性的，本發明實施例提供的動作識別方案還可以適用於不同場景下的雲端伺服器，該雲端伺服器可以設置外接攝像頭，由外接攝像頭採集場景圖像，通過路由器或閘道等設備發送給雲端伺服器，由雲端伺服器對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型。

例如，外接攝像頭設置在教室中，外接攝像頭採集教室內的場景圖像後，通過路由器或閘道等設備發送給雲端伺服器，雲端伺服器對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型。進一步地，雲端伺服器可以根據需要可以將上述結果回饋到對應的教學任務分析伺服器，從而提醒老師對教學內容進行調整，以便更好地進行教學活動。

再例如，在播放廣告的地點，假設該地點是電梯，外接攝像頭設置在電梯內，外接攝像頭採集電梯中的場景圖像，通過路由器或閘道等設備可以將場景圖像發送給雲端伺服器，雲端伺服器確定場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型。後續可以根據需要將電梯中對象的目標動作統計結果回饋到對應的廣告商伺服器，由廣告商對廣告內容進行調整。

在本發明實施例中，還可以通過終端設備或雲端伺服器根據上述檢測結果進行進一步處理，例如輸出目標圖像，在目標圖像上標識出場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型，以便更好的瞭解當前場景下的對象和每個對象的動作類型。

另外，還可以通過終端設備或雲端伺服器確定場景圖像包括的每個對象在設定時間段內做出的與目標動作類型匹配的動作的累計檢測結果。

如果場景圖像包括了在教室中採集的場景圖像，對象包括教學對象，例如學生，目標動作類型可以包括教學任務中的至少一個動作類型。

例如，在教室內，老師正在進行教學，目標動作類型包括但不限於舉手、起立回答問題、與老師互動、關注黑板、低頭寫字等。通過本發明的方案，可以在老師進行教學的時間段內，例如一堂課的時間段內，確定每個教學對象舉了幾次手、關注黑板的時長、低頭寫字的時長、起立回答問題的次數、與老師互動的次數等。進一步地，終端設備可以在獲得累計檢測結果之後進行顯示，以便老師更好地進行教學任務，或者雲端伺服器在獲得累計檢測結果之後，發送給指定的終端設備進行顯示，同樣可以讓老師更好地進行教學任務。

以上僅是對本發明適用的場景進行的舉例說明，其他需要快速進行動作類型識別的室內或場景也屬於本發明的保護範圍。

例如圖1所示，圖1是根據一示例性實施例示出的一種動作識別方法，包括以下步驟：

在步驟101中，獲取場景圖像。

本發明實施例中，可以採集當前場景下的場景圖像，本發明的場景包括但不限於任何需要對場景中的對象進行動作識別的場景，例如教室、播放廣告的地點等。

在步驟102中，對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型。

在本發明實施例中，對象可以包括但不限於人物，不同部位可以包括但不限於人臉和人體，對場景圖像進行對象的不同部位檢測可以包括對場景圖像進行人物的人臉位置和人體位置檢測。同一對象中不同部位的關聯可以是需要將屬於同一個人物的人臉位置和人體位置關聯起來。對象的動作識別可以是從至少一個預設動作類型中確定對場景圖像包括的每個人物的目標動作類型。

其中，預設動作類型可以根據場景需要進行設定，包括但不限於舉手、彎腰、跳躍、轉身等等，或者預設動作類型也可以包括未進行任何動作的類型，例如人物保持之前的動作類型不變。

上述實施例中，對場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，從而確定該場景圖像包括的至少一個對象和至少一個對象中每個對象的目標動作類型，由於無需對場景圖像進行裁剪，而是直接通過使用神經網路對場景圖像中的多個對象進行識別，上述動作識別時長與場景圖像中所包括的對象的數目無關，不會因為對象數目的增長導致計算時長的增加，極大節省了計算資源，縮短了動作識別的時長，提高了檢測效率。

在一些可選實施例中，步驟102可以包括：

對所述場景圖像進行特徵提取，獲得特徵圖之後，對所述特徵圖進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別。

在本發明實施例中，可以通過預先訓練好的神經網路主幹模型（backbone），來提取場景圖像中的圖像特徵，得到特徵圖。該神經網路主幹模型可以採用但不限於視覺幾何群網路（Visual Geometry Group Network，VGG Net）等模型。

經過神經網路主幹模型提取圖像特徵所得到的特徵圖的維度小於場景圖像的維度。例如，將維度為640×480的場景圖像輸入該神經網路主幹模型，可以得到維度為80×60的特徵圖。

其中，提取的圖像特徵可以包括但不限於顏色特徵、紋理特徵、形狀特徵等。顏色特徵是一種全域特徵，描述了圖像所對應的對象的表面顏色屬性，紋理特徵也是一種全域特徵，它描述了圖像所對應對象的表面紋理屬性，形狀特徵有兩類表示方法，一類是輪廓特徵，另一類是區域特徵，圖像的輪廓特徵主要針對對象的外邊界，而圖像的區域特徵則關係到圖像區域的形狀。

上述實施例中，對場景圖像進行特徵提取得到特徵圖後，後續針對特徵圖進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，以便快速根據圖像特徵，確定場景圖像所包括的至少一個對象和至少一個對象中每個對象的目標動作類型，實現簡便，可用性高。

在一些可選實施例中，所述對象包括人物，所述對象的不同部位包括人物的人臉和人體，例如圖2所示，步驟102可以包括：

在步驟102-0中，確定所述特徵圖中的至少一個人臉位置和至少一個人體位置。

本發明實施例中，可以通過區域預測網路檢測場景圖像對應的特徵圖上屬於人臉的人臉區域和屬於人體的人體區域。其中，人臉區域可以通過人臉識別框進行標識，人體區域可以通過人體識別框進行標識。進一步地，人臉識別框的大小可以通過人臉識別框的中心位置、人臉識別框的長度和寬度來確定，在本發明實施例中，該人臉位置可以用人臉識別框的中心位置來表示。同樣地，人體識別框的大小可以通過人體識別框的中心位置、人體識別框的長度和寬度來確定，人體位置可以用人體識別框的中心位置來表示。

在本發明實施例中，可以通過不同的通道分別表示上述的人臉和人體的位置描述資訊。例如，特徵圖的維度是80×60，確定每個人物的人臉區域和人體區域後，可以得到80×60×6的第一特徵圖，第一特徵圖的6個通道分別輸出人臉識別框的中心位置、人臉識別框的長度、人臉識別框的寬度、人體識別框的中心位置、人體識別框的長度、人體識別框的寬度。

在可能的實施方式中，可以獲取人臉識別框的中心位置和人體識別框的中心位置兩個通道對應的第一特徵圖，從而分別確定人臉位置和人體位置。

在步驟102-1中，根據所述至少一個人臉位置和/或所述至少一個人體位置，確定場景圖像中包括的至少一個人物。

在本發明實施例中，每個人物可以通過該人物對應的人臉和/或人體來表示，從而可以確定出場景圖像包括的至少一個人物。

例如，可以通過人臉位置來確定人物所在位置，人臉位置可以是人臉識別框的中心位置，假設人臉位置包括A1、A2和A3，則可以確定特徵圖中包括3個人物，且每個人物所在的位置為A1、A2和A3。

在步驟102-2中，對屬於同一人物的所述人臉位置和所述人體位置進行關聯。

在本發明實施例中，在確定了每個人臉位置和每個人體位置之後，需要將屬於同一個人物的人臉位置和人體位置進行關聯，從而得到關聯的人臉位置和人體位置。在本發明實施例中，需要關聯的就是人臉識別框的中心位置和人體識別框的中心位置。

例如，在特徵圖上確定了2個人臉識別框的中心位置，分別為A1和A2，還確定了2個人體識別框的中心位置，分別為B1和B2，可以將人臉識別框的中心位置和人體識別框的中心位置關聯起來，最終得到關聯的人臉識別框的中心位置A1和人體識別框的中心位置B2，以及關聯的人臉識別框的中心位置A2和人體識別框的中心位置B1。

在本發明實施例中，可以通過2個通道來分別表示人臉位置以及與人臉位置關聯的人體位置。例如，特徵圖的維度是80×60，確定每個人物的人臉區域和人體區域後，得到維度為80×60×6的第一特徵圖，進一步地，對所述人臉位置和所述人體位置進行關聯，得到維度為80×60×2的第二特徵圖。第二特徵圖包括2個通道，一個通道對應每個人物的人臉位置，另一個通道對應與人臉位置關聯的人體位置。

在步驟102-3中，根據關聯的所述人臉位置和所述人體位置，確定所述場景圖像的所述至少一個人物中每個人物的所述目標動作類型。

另外，在本發明實施例中，還可以根據關聯的所述人臉位置和所述人體位置，確定多個特徵向量，這些特徵向量是根據預設動作類型分別得到的，進而可以根據這些特徵向量，來確定至少一個人物中每個人物的目標動作類型。目標動作類型可以是預設動作類型中的至少一種。假設預設動作類型的數目為n，則需要通過n個通道來分別對應不同的預設動作類型。預設動作類型中包括了多種人物可能進行的動作類型，也包括了人物沒進行任何動作的動作類型。

例如，特徵圖的維度是80×60，確定每個人物的人臉位置和人體位置後，得到維度為80×60×6的第一特徵圖，進一步地，確定具備關聯關係的所述人臉位置和所述人體位置後，得到維度為80×60×2的第二特徵圖。根據第二特徵圖，需要確定維度為80×60×n的第三特徵圖。根據第三特徵圖來確定最終的目標動作類型。

上述實施例中，可以在特徵圖上先確定人臉位置和人體位置，進一步地，將屬於同一個人物的人臉位置和所述人體位置進行關聯，從而根據關聯的所述人臉位置和所述人體位置，確定所述場景圖像包括的至少一個人物和所述至少一個人物中每個人物對應的目標動作類型。上述過程中，即使場景圖像上包括多個人物，也可以快速確定每個人物對應的目標動作類型，降低了對設備計算能力的要求，減少了動作識別的時長，提高了設備的競爭力。

在一些可選實施例中，例如圖3所示，步驟102-2可以包括：

在步驟102-21中，確定與所述同一人物的人臉位置對應的參考人體位置。

在本發明實施例中，可以根據一個人物的人臉識別框的中心位置，預測出與該人臉識別框的中心位置對應的最有可能的人體識別框的中心位置，將該位置作為參考人體位置。

在步驟102-22中，根據所述參考人體位置和所述人體位置，確定關聯的所述人臉位置和所述人體位置。

在本發明實施例中，可以將每個參考人體位置與一個人體位置對應起來，這樣，同一個參考人體位置的人臉位置和人體位置就進行了關聯。

上述實施例中，可以先根據每個人物的所述人臉位置，確定與每個人臉位置對應的參考人體位置，從而將人臉位置和所述人體位置關聯起來，實現簡便，可用性高。

在一些可選實施例中，例如圖4所示，步驟102-21可以包括：

在步驟201中，確定所述同一人物的人臉位置在所述場景圖像上對應的第一座標值。

在本發明實施例中，之前已經在場景圖像對應的特徵圖上確定了每個人物的人臉位置，這裡的人臉位置可以通過人臉識別框的中心位置表示。那麼可以在該特徵圖對應的圖像坐標系中，確定每個人臉識別框的中心位置對應的座標值，該座標值就是第一座標值。

在步驟202中，根據預設向量和所述第一座標值，確定第二座標值。

在本發明實施例中，所述預設向量是預先設置的由人臉位置指向人體位置的向量，例如圖5所示，預設向量可以由特徵圖中確定的人臉識別框的中心位置指向預估的人體識別框的中心位置。那麼根據人臉位置的第一座標值和預設向量，可以確定一個第二座標值。

在步驟203中，將所述第二座標值作為所述參考人體位置。

在本發明實施例中，將第二座標值直接作為所述參考人體位置。

上述實施例中，可以根據每個人物的所述人臉位置和預設向量，確定與每個人臉位置對應的參考人體位置，以便後續將人臉位置和人體位置關聯起來，可用性高。

在一些可選實施例中，步驟102-22可以包括：

將與所述參考人體位置距離最小的所述人體位置和該參考人體位置對應的所述人臉位置，作為具備關聯關係的所述人臉位置和所述人體位置。

在本發明實施例中，確定了參考人體位置之後，多個人體位置中，距離該參考人體位置最近的人體位置與該參考人體位置對應的人臉位置，就是屬於同一個人物的人臉位置和人體位置。相應地，就得到了關聯的人臉位置和人體位置。

例如，參考人體位置包括C1和C2，其中，C1是根據人臉位置A1確定的，C2是根據人臉位置A2確定的。人體位置包括B1和B2，人體位置中距離C1最近的是B2，距離C2最近的是B1。從而可以確定A1和B2具備關聯關係，A2和B1具備關聯關係。

上述實施例中，可以在多個人體位置中，確定與每個參考人體位置最近的一個人體位置，這個人體位置與對應確定參考人體位置的人臉位置是關聯的人體位置和人臉位置，實現簡便，可用性高。

在本發明實施例中，需要說明地是，還可以根據每個人物的人體位置和另一個預設向量，來確定與每個人體位置對應的參考人臉位置，進一步地，將與參考人臉位置距離最小的人臉位置和該參考人臉位置對應的人體位置，作為具備關聯關係的人臉位置和人體位置。其中，另一個預設向量可以是預先設置的由人體位置指向人臉位置的向量。確定參考人臉位置的方式與上述確定參考人體位置的方式相同，在此不再贅述。

在一些可選實施例中，例如圖6所示，步驟102-3包括：

在步驟102-31中，將關聯的所述人臉位置和所述人體位置中的至少一項，作為所述場景圖像包括的每個人物所在的位置，確定所述場景圖像包括的所述至少一個人物。

每個人物所在的位置可以通過該人物對應的人臉位置和/或人體位置來表示，從而可以確定出場景圖像包括的人物。

在步驟102-32中，根據關聯的所述人臉位置和所述人體位置，確定多個特徵向量。

在本發明實施例中，按照預設動作類型，分別確定與至少一個預設動作類型分別對應且由所述人臉位置指向關聯的所述人體位置的特徵向量，得到對應同一個人物的所述多個特徵向量。

在步驟102-33中，基於所述多個特徵向量，確定所述每個人物對應的所述目標動作類型。

在本發明實施例中，可以根據上述多個特徵向量，確定該人物最可能進行的動作類型，將這一動作類型作為目標動作類型。

在一些可選實施例中，例如圖7所示，步驟102-33可以包括：

在步驟301中，對所述每個人物對應的多個特徵向量進行歸一化，得到每個特徵向量對應的歸一化值。

在本發明實施例中，可以採用歸一化函數，例如softmax函數，對每個人物對應的多個特徵向量進行歸一化，從而得到每個特徵向量對應的歸一化值。

在步驟302中，將所述每個人物的最大歸一化值所對應的特徵向量，作為所述每個人物的目標特徵向量。

在本發明實施例中，將每個人物對應的多個特徵向量進行歸一化後，最大歸一化值所對應的特徵向量，作為每個人物的目標特徵向量。

在步驟303中，將所述目標特徵向量所對應的動作類型作為所述每個人物對應的所述目標動作類型。

目標特徵向量所對應的動作類型，就是該人物最有可能進行的動作類型，相應地，可以作為該人物的目標動作類型。

上述實施例中，通過對每個人物的多個特徵向量進行歸一化處理，確定每個人物最有可能進行的動作類型，將該動作類型作為目標動作類型，實現了對對象進行動作識別的目的。

在一些可選實施例中，在獲取了場景圖像之後，可以將所述場景圖像輸入預先訓練好的對象檢測模型，由所述對象檢測模型在所述場景圖像上，確定每個對象的每個部位的目標位置，然後對屬於同一對象的不同部位的所述目標位置進行關聯，根據關聯的不同部位的所述目標位置，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型。

對象檢測模型的結構例如圖8所示，獲取場景圖像後，將場景圖像輸入對象檢測模型，對象檢測模型先採用預先訓練好的神經網路主幹模型backbone對場景圖像進行特徵提取，獲得特徵圖。所述對象檢測模型至少包括定位分支、關聯分支以及動作識別分支。

進一步地，對象檢測模型通過定位分支，在特徵圖上，確定每個人物的人臉位置和所述每個人物的人體位置。

再進一步地，對象檢測模型通過關聯分支對屬於同一人物的所述人臉位置和所述人體位置進行關聯。再通過動作識別分支根據關聯的所述人臉位置和所述人體位置，確定該場景圖像包括的至少一個人物和至少一個人物中每個人物對應的目標動作類型。

最終對象檢測模型可以輸出上述動作檢測結果，該結果包括了該場景圖像包括的至少一個人物和至少一個人物中每個人物對應的目標動作類型。

在一些可選實施例中，對象檢測模型也可以直接輸出目標圖像，目標圖像上可以同時標識出場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型，從而可以更加直觀地反映對象檢測結果。

上述實施例中，可以對場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，從而確定該場景圖像包括的至少一個對象和至少一個對象中每個對象的目標動作類型，上述動作識別時長與場景圖像中所包括的對象的數目無關，不會因為對象數目的增長導致計算時長的增加，極大節省了計算資源，縮短了動作識別的時長，有效提高檢測效率。

在一些可選實施例中，在訓練對象檢測模型的過程中，考慮到同時標注了人臉位置標籤、人體位置標籤、人臉位置和人體位置的關聯關係標籤、人體位置和動作類型之間的動作標識標籤的最優樣本圖像集合比較少，對只標注了部分標籤的樣本圖像集合，標注出其他標籤會花費較多時間。

為了解決這一問題，在本發明實施例中，例如圖9所示，該方法還可以包括：

在步驟100-1中，確定樣本圖像集合中的標籤類型。

在本發明實施例中，採用已有的樣本圖像集合，該樣本圖像集合中的樣本圖像所包括的所述標籤類型包括人臉位置標籤、人體位置標籤、人臉位置和人體位置之間的關聯關係標籤、人體位置和動作類型之間的動作標識標籤中的至少一種。

在步驟100-2中，採用所述樣本圖像集合，對預設模型中與各個所述標籤類型對應的分支分別進行訓練，得到所述對象檢測模型。

在本發明實施例中，預設模型的結構同樣可以如圖8所示，包括定位分支、關聯分支和動作識別分支。採用樣本圖像集合，對預設模型中與所述標籤類型對應的分支分別進行訓練，在對應的分支的損失函數最小的情況下，得到訓練好的對象檢測模型。

其中，定位分支中還可以包括人臉定位分支和人體定位分支（圖9中未示出）。

例如圖10所示，樣本圖像集合中的標籤類型如果只包括人臉位置標籤，那麼採用該樣本圖像集合對預設模型的定位分支中的人臉定位分支進行訓練。每次訓練反覆運算，對於其他分支不做任何處理。即每次確定的損失函數與第一損失函數相同，第二損失函數、第三損失函數和第四損失函數例如可以設置為0。

如果樣本圖像集合中的標籤類型只包括人體位置標籤，那麼採用該樣本圖像集合對預設模型的定位分支中的人體定位分支進行訓練。如果樣本圖像集合中的標籤類型同時包括了人臉位置標籤和人體位置標籤，則可以採用該樣本圖像集合直接對定位分支進行訓練。

如果樣本圖像集合中的標籤類型只包括關聯關係標籤，則可以採用該樣本圖像集合對預設模型的關聯分支進行訓練，其他分支對應的損失函數為0。

同樣地，如果樣本圖像集合中的標籤類型只包括動作識別標籤，則可以採用該樣本圖像集合對預設模型的動作識別分支進行訓練，其他分支對應的損失函數例如可以為0。

如果樣本圖像集合中的標籤類別為兩個或更多，則可以採用該樣本圖像集合對預設模型的對應分支進行訓練，其他分支對應的損失函數例如可以為0。

上述實施例中，採用樣本圖像集合，對預設模型中與樣本圖像集合的所述標籤類型對應的分支分別進行訓練，得到所述對象檢測模型，提高了對象檢測模型的檢測性能和泛化性能。

在一些可選實施例中，例如圖11所示，該方法還可以包括：

在步驟103中，確定所述每個對象在設定時間段內做出的與所述目標動作類型匹配的動作的累計檢測結果。

在本發明實施例中，所述場景圖像包括在教室中採集到的場景圖像，所述對象包括教學對象，所述目標動作類型包括教學任務中的至少一個動作類型，與教學任務匹配的動作類型包括但不限於舉手、與老師互動、起立回答問題、關注黑板、低頭寫字等。

例如在教室中，可以採用部署在教室內的帶攝像頭的教學多媒體設備，包括但不限於教學投影機、教室內的監控設備等來獲取在教室中採集到的場景圖像。確定教室場景圖像包括的至少一個教學對象和每個教學對象的目標動作類型，其中，教學對象可以是學生。

進一步地，可以在設定時間段內，例如老師教學的一堂課的時間段內，確定每個教學對象，例如每個學生做出的與目標動作類型匹配的動作的累計檢測結果。例如，確定每個學生在一堂課內舉了幾次手、關注黑板的時長、低頭寫字的時長、起立回答問題的次數、與老師互動的次數等。可以通過教學多媒體設備顯示上述結果，以便老師更好地進行教學任務。

與前述方法實施例相對應，本發明還提供了裝置的實施例。

如圖12所示，圖12是本發明根據一示例性實施例示出的一種動作識別裝置框圖，裝置包括：圖像獲取模組410，用於獲取場景圖像；動作識別模組420，用於對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型。

對於裝置實施例而言，由於其基本對應於方法實施例，所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的，其中作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本發明方案的目的。本領域普通技術人員在不付出創造性勞動的情況下，即可以理解並實施。

本發明實施例還提供了一種電腦可讀存儲介質，存儲介質存儲有電腦程式，電腦程式用於執行上述任一所述的動作識別方法。

在一些可選實施例中，本發明實施例提供了一種電腦程式產品，包括電腦可讀代碼，當電腦可讀代碼在設備上運行時，設備中的處理器執行用於實現如上任一實施例提供的動作識別方法的指令。

在一些可選實施例中，本發明實施例還提供了另一種電腦程式產品，用於存儲電腦可讀指令，指令被執行時使得電腦執行上述任一實施例提供的動作識別方法的操作。

該電腦程式產品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中，所述電腦程式產品具體體現為電腦存儲介質，在另一個可選實施例中，電腦程式產品具體體現為軟體產品，例如軟體發展包(Software Development Kit，SDK)等等。

本發明實施例還提供了一種動作識別裝置，包括：處理器；用於存儲處理器可執行指令的記憶體；其中，處理器被配置為調用所述記憶體中存儲的可執行指令，實現上述任一項所述的動作識別方法。

圖13為本發明實施例提供的一種動作識別裝置的硬體結構示意圖。該動作識別裝置510包括處理器511，還可以包括輸入裝置512、輸出裝置513和記憶體514。該輸入裝置512、輸出裝置513、記憶體514和處理器511之間通過匯流排相互連接。

記憶體包括但不限於是隨機存儲記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、可擦除可程式設計唯讀記憶體（erasable programmable read only memory，EPROM）、或可擕式唯讀記憶體（compact disc read-only memory，CD-ROM），該記憶體用於相關指令及資料。

輸入裝置用於輸入資料和/或信號，以及輸出裝置用於輸出資料和/或信號。輸出裝置和輸入裝置可以是獨立的器件，也可以是一個整體的器件。

處理器可以包括是一個或多個處理器，例如包括一個或多個中央處理器（central processing unit，CPU），在處理器是一個CPU的情況下，該CPU可以是單核CPU，也可以是多核CPU。

記憶體用於存儲網路設備的程式碼和資料。

處理器用於調用該記憶體中的程式碼和資料，執行上述方法實施例中的步驟。具體可參見方法實施例中的描述，在此不再贅述。

可以理解的是，圖13僅僅示出了一種動作識別裝置的簡化設計。在實際應用中，動作識別裝置還可以分別包含必要的其他元件，包含但不限於任意數量的輸入/輸出裝置、處理器、控制器、記憶體等，而所有可以實現本發明實施例的動作識別裝置都在本發明的保護範圍之內。

本領域技術人員在考慮說明書及實踐這裡公開的發明後，將容易想到本發明的其它實施方案。本發明旨在涵蓋本發明的任何變型、用途或者適應性變化，這些變型、用途或者適應性變化遵循本發明的一般性原理並包括本發明未公開的本技術領域中的公知常識或者慣用技術手段。說明書和實施例僅被視為示例性的，本發明的真正範圍和精神由下面的請求項指出。

以上所述僅為本發明的較佳實施例而已，並不用以限制本發明，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明保護的範圍之內。

410:圖像獲取模組 420:動作識別模組 510:動作識別裝置 511:處理器 512:輸入裝置 513:輸出裝置 514:記憶體步驟101:獲取場景圖像的步驟步驟102:對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型的步驟步驟103:確定所述每個對象在設定時間段內做出的與所述目標動作類型匹配的動作的累計檢測結果的步驟步驟102-0:確定所述特徵圖中的至少一個人臉位置和至少一個人體位置的步驟步驟102-1:根據所述至少一個人臉位置和/或所述至少一個人體位置，確定場景圖像中包括的至少一個人物的步驟步驟102-2:對屬於同一人物的所述人臉位置和所述人體位置進行關聯的步驟步驟102-3:根據關聯的所述人臉位置和所述人體位置，確定所述場景圖像的所述至少一個人物中每個人物的所述目標動作類型的步驟步驟102-21:確定與所述同一人物的人臉位置對應的參考人體位置的步驟步驟102-22:根據所述參考人體位置和所述人體位置，確定關聯的所述人臉位置和所述人體位置的步驟步驟201:確定所述同一人物的人臉位置在所述場景圖像上對應的第一座標值的步驟步驟202:根據預設向量和所述第一座標值，確定第二座標值的步驟步驟203中，將所述第二座標值作為所述參考人體位置的步驟步驟102-31:將關聯的所述人臉位置和所述人體位置中的至少一項，作為所述場景圖像包括的每個人物所在的位置，確定所述場景圖像包括的所述至少一個人物的步驟步驟102-32:根據關聯的所述人臉位置和所述人體位置，確定多個特徵向量的步驟步驟102-33:基於所述多個特徵向量，確定所述每個人物對應的所述目標動作類型的步驟步驟301:對所述每個人物對應的多個特徵向量進行歸一化，得到每個特徵向量對應的歸一化值的步驟步驟302:將所述每個人物的最大歸一化值所對應的特徵向量，作為所述每個人物的目標特徵向量的步驟步驟303:將所述目標特徵向量所對應的動作類型作為所述每個人物對應的所述目標動作類型的步驟步驟100-1:確定樣本圖像集合中的標籤類型的步驟步驟100-2:採用所述樣本圖像集合，對預設模型中與所述標籤類型對應的分支分別進行訓練，得到所述對象檢測模型的步驟

此處的附圖被併入說明書中並構成本說明書的一部分，示出了符合本發明的實施例，並與說明書一起用於解釋本發明的原理。圖1是本發明根據一示例性實施例示出的一種動作識別方法流程圖；圖2是本發明根據一示例性實施例示出的另一種動作識別方法流程圖；圖3是本發明根據一示例性實施例示出的另一種動作識別方法流程圖；圖4是本發明根據一示例性實施例示出的另一種動作識別方法流程圖；圖5是本發明根據一示例性實施例示出的預設向量示意圖；圖6是本發明根據一示例性實施例示出的另一種動作識別方法流程圖；圖7是本發明根據一示例性實施例示出的另一種動作識別方法流程圖；圖8是本發明根據一示例性實施例示出的一種對象檢測模型結構示意圖；圖9是本發明根據一示例性實施例示出的另一種動作識別方法流程圖；圖10是本發明根據一示例性實施例示出的對象檢測模型訓練場景示意圖；圖11是本發明根據一示例性實施例示出的另一種動作識別方法流程圖；圖12是本發明根據一示例性實施例示出的一種動作識別裝置框圖；圖13是本發明根據一示例性實施例示出的一種用於動作識別裝置的一結構示意圖。

步驟101:獲取場景圖像的步驟

步驟102:對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型的步驟

Claims

一種動作識別方法，其中，包括：獲取場景圖像；對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型，其中，所述對象包括人物，所述對象的不同部位包括人物的人臉和人體；所述對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型，包括：對所述場景圖像進行特徵提取，得到特徵圖；確定所述特徵圖中至少一個人臉位置和至少一個人體位置；根據所述至少一個人臉位置和/或所述至少一個人體位置，確定場景圖像中包括的至少一個人物；對屬於同一人物的所述人臉位置和所述人體位置進行關聯；根據關聯的所述人臉位置和所述人體位置，確定所述場景圖像的所述至少一個人物中每個人物的所述目標動作類型。
如請求項1所述的方法，其中，所述對屬於同一人物的所述人臉位置和所述人體位置進行關聯，包括：對於至少一個人物中的每個人物，確定與該人物的人臉位置對應的參考人體位置；根據所述參考人體位置和所述至少一個人體位置，對屬於所述同一人物的所述人臉位置和所述人體位置進行關聯；和/或所述根據關聯的所述人臉位置和所述人體位置，確定所述場景圖像的所述至少一個人物中每個人物的所述目標動作類型，包括：對於至少一個人物中的每個人物，根據與該人物關聯的所述人臉位置和所述人體位置，確定多個特徵向量；基於所述多個特徵向量，確定該人物的所述目標動作類型。
如請求項2所述的方法，其中，所述確定與該人物的人臉位置對應的參考人體位置，包括：確定該人物的人臉位置在所述特徵圖上的第一座標值；根據預設向量和所述第一座標值，確定第二座標值；其中，所述預設向量是由人臉所在位置指向人體所在位置的向量；將所述第二座標值作為所述參考人體位置。
如請求項2或3所述的方法，其中，所述根據所述參考人體位置和所述至少一個人體位置，對屬於所述同一人物的所述人臉位置和所述人體位置進行關聯，包括：將與所述參考人體位置距離最小的所述人體位置和該參考人體位置對應的所述人臉位置進行關聯。
如請求項2所述的方法，其中，所述根據與該人物關聯的所述人臉位置和所述人體位置，確定多個特徵向量，包括：確定與至少一個預設動作類型分別對應且由所述人臉位置指向關聯的所述人體位置的多個特徵向量。
如請求項2或5所述的方法，其中，所述基於所述多個特徵向量，確定該人物的所述目標動作類型，包括：對該人物對應的多個特徵向量分別進行歸一化，得到每個特徵向量的歸一化值；將最大歸一化值所對應的特徵向量，作為該人物的目標特徵向量；將所述目標特徵向量所對應的動作類型作為該人物的所述目標動作類型。
如請求項1所述的方法，其中所述對所述場景圖像進行對象的不同部位檢測、同一對象中不同部位的關聯以及對象的動作識別，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型，包括：通過對象檢測模型在所述場景圖像上，確定每個對象的每個部位的目標位置後，對屬於同一對象的不同部位的所述目標位置進行關聯；再通過所述對象檢測模型根據關聯的不同部位的所述目標位置，確定所述場景圖像包括的至少一個對象和所述至少一個對象中每個對象的目標動作類型。
如請求項7所述的方法，其中所述對象檢測模型是通過以下步驟訓練的：確定樣本圖像集合中的標籤類型；其中，所述標籤類型包括人臉位置標籤、人體位置標籤、人臉位置和人體位置之間的關聯關係標籤、人體位置和動作類型之間的動作標識標籤中的至少一種；採用所述樣本圖像集合，對預設模型中與所述標籤類型對應的分支分別進行訓練，得到所述對象檢測模型。
如請求項8所述的方法，其中，所述對象檢測模型至少包括定位分支、關聯分支以及動作識別分支，所述定位分支用於確定所述每個人物的人臉位置和所述每個人物的人體位置；所述關聯分支用於對屬於同一人物的所述人臉位置和所述人體位置進行關聯；所述動作識別分支用於根據關聯的所述人臉位置和所述人體位置，確定所述場景圖像包括的至少一個人物和至少一個人物中每個人物對應的目標動作類型。
如請求項1所述的方法，其中，所述方法還包括：確定所述每個對象在設定時間段內做出的與所述目標動作類型匹配的動作的累計檢測結果。
如請求項10所述的方法，其中，所述場景圖像包括在教室中採集到的場景圖像，所述對象包括教學對象，所述目標動作類型包括教學任務中的至少一個動作類型。
一種電腦可讀存儲介質，其中，所述存儲介質存儲有電腦程式，所述電腦程式用於執行上述請求項1-11任一所述的動作識別方法。
一種動作識別裝置，其中，包括：處理器；用於存儲所述處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體中存儲的可執行指令，實現請求項1-11中任一項所述的動作識別方法。